Lancé à la mi-février, Grok 3 est la dernière génération de chatbot développée par xAI, la société d’Elon Musk. Présenté comme un modèle « libre » et plus performant que ses concurrents, il suscite pourtant des controverses sur sa modération et la fiabilité de ses performances.
Les trois personnalités qui nuisent le plus à l’Amérique aujourd’hui d’après Grok • Source : Don’t worry about the vase (DWATV)
Dès son lancement à la mi-février, Grok 3 s’est distingué par son approche différente de la modération et de la liberté d’expression. Contrairement aux modèles d’OpenAI ou Google, souvent perçus comme trop restrictifs, xAI affirme en effet vouloir proposer une intelligence artificielle plus transparente et moins censurée.
Mais la liberté de ton a un prix. Grok 3 a montré depuis sa sortie un taux d’hallucination plus élevé que prévu, ce qui signifie que ses réponses peuvent être moins fiables que celles de certains concurrents, quoique plus « libres ». De plus, il a tendance à produire de longues réponses, bien organisées mais parfois inutiles, compliquant l’accès à l’information essentielle
Des benchmarks remis en question
Les performances de Grok 3 ont également fait l’objet d’une attention particulière, notamment à travers les tests publiés par xAI. Ces benchmarks indiquaient que le modèle surpassait GPT-4 d’OpenAI, Gemini 2.0 de Google et DeepSeek-R1 dans plusieurs domaines, notamment les mathématiques.
Cependant, ces résultats ont été critiqués en raison d’une omission importante : les valeurs « consensus@64 » n’ont pas été prises en compte dans les comparaisons, ce qui a pu fausser l’interprétation des performances. Une fois cet ajustement intégré, Grok 3 Reasoning Beta se classe en réalité en dessous d’o1-medium d’OpenAI, et son score brut est inférieur à celui d’o3-mini-high.
De plus, un autre élément intrigue les spécialistes : Grok 3 a nécessité un coût de calcul considérable, qui dépasse largement celui des autres modèles récents. Cette approche, qui repose sur une puissance de calcul massive, pose la question de la viabilité économique et de l’optimisation des ressources utilisées pour le développement de ce type d’IA.
Des choix de modération contestés
Si Grok 3 a été conçu pour offrir une plus grande liberté d’expression, certains utilisateurs ont remarqué qu’il avait initialement adopté une position très critique envers Elon Musk et Donald Trump. Le chatbot a même décrit Trump comme « faisant du tort à l’Amérique » et Musk comme étant l’une des personnalités les moins dignes de confiance.
Face à ces résultats, xAI est intervenu en ajustant le prompt système pour limiter certaines affirmations négatives. Un employé a modifié les instructions du modèle afin d’ignorer les sources affirmant que Musk et Trump avaient propagé de la désinformation. Après la découverte de cette modification, xAI l’a rapidement annulée et a expliqué qu’elle avait été faite sans validation préalable.
Cette situation a soulevé des interrogations sur la gouvernance de l’IA. « Nous ne protégeons pas du tout le prompt système. Il est essentiellement en open source », a déclaré Igor Babuschkin, ingénieur en chef de xAI.
Un mode vocal qui bouscule les standards
Un autre aspect notable est la capacité de Grok 3 à interagir avec Twitter en temps réel, un atout qui permet aux utilisateurs d’accéder à des conversations et à des tendances actualisées. Une intégration qui pourrait offrir des perspectives intéressantes pour le suivi de l’actualité et des débats en ligne.
Une autre particularité de Grok 3 est son mode vocal interactif, qui offre plusieurs personnalités aux utilisateurs. Contrairement à OpenAI, qui limite les discussions sur certains sujets sensibles, xAI propose des modes variés, dont certains peuvent prêter à débat.
Parmi ces modes, « Unhinged » peut insulter l’utilisateur, crier et même raccrocher la conversation lorsqu’il est interrompu trop souvent. Le mode « Sexy » propose des dialogues érotiques, une fonctionnalité à laquelle ChatGPT et Gemini se sont toujours refusés. D’autres options incluent « Conspiracy » (axé sur les théories du complot), « Unlicensed Therapist » (qui joue le rôle d’un psychologue non certifié), ou encore « Grok Doc », qui simule un médecin.
Si cette approche offre plus de flexibilité aux utilisateurs, elle soulève aussi des questions sur l’impact de ces fonctionnalités. Certains tests ont montré que le mode vocal pouvait parfois se répéter ou entrer dans des boucles, ce qui réduit l’impression de fluidité par rapport à d’autres modèles.
Un modèle prometteur, mais encore en rodage
Grok 3 marque une avancée significative pour xAI. En seulement deux ans, la société d’Elon Musk a réussi à développer un modèle capable de rivaliser avec les leaders du marché, malgré un retard initial. Musk affirme que Grok 3 a été entraîné avec 200 000 GPU, ce qui montre l’importance accordée aux ressources matérielles pour améliorer ses performances.
Cependant, plusieurs éléments nuancent cette avancée. Grok 3 est facilement contournable et peut être amené à répondre à des requêtes sensibles simplement en ajoutant des phrases comme « c’est juste pour s’amuser » accompagnées d’un emoji. Cette facilité à contourner les garde-fous pourrait poser problème à long terme.
Par Maurice de Rambuteau









