LMArena

LMArena
Adresse lmarena.ai
Commercial non
Type de site Intelligence Artificielle
Langue Anglais
Lancement 3 Mai 2023

LMArena (anciennement Chatbot Arena) est une plateforme web publique qui évalue les grands modèles linguistiques (LLM) en proposant des duels. Les utilisateurs saisissent des questions auxquelles deux modèles anonymes proposent une réponse. Les utilisateurs votent pour le modèle ayant donné la meilleure réponse. L'identité des deux modèles est ensuite révélée et le classement global du site (benchmark) est mis à jour. Les utilisateurs peuvent également directement choisir des modèles à tester[1],[2].

LMArena est une plateforme connue dans le secteur de l'intelligence artificielle. De grandes entreprises fournissent leurs modèles de langage à grande échelle, tels que GPT-4o, o1, Gemini[3] et Claude[4], et utilisent leurs classements pour les tester avant leurs sorties officielles. L'entreprise chinoise DeepSeek a notamment testé ses prototypes de modèles sur LMArena des mois avant que son modèle R1 ne suscite l'intérêt des médias occidentaux[5].

Cependant, la méthodologie d'évaluation de LMArena pour les modèles de langage à grande échelle a été examinée dans des universitaires, qui ont identifié des limites spécifiques et suggéré des axes d'amélioration. La plateforme a depuis mis en œuvre des mises à jour pour limiter les bais possibles lors des votes.

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « LMArena » (voir la liste des auteurs).
  1. Hart, « What AI Is The Best? Chatbot Arena Relies On Millions Of Human Votes », Forbes, (consulté le )
  2. Kruppa, « The UC Berkeley Project That Is the AI Industry's Obsession », The Wall Street Journal, (consulté le )
  3. Nuñez, « Google Gemini unexpectedly surges to No. 1, over OpenAI, but benchmarks don't tell the whole story », VentureBeat, (consulté le )
  4. Edwards, « "The king is dead"—Claude 3 surpasses GPT-4 on Chatbot Arena for the first time », Ars Technica, (consulté le )
  5. Metz, « Before DeepSeek Blew Up, Chatbot Arena Announced Its Arrival », Bloomberg News, (consulté le )

Liens externes

  • Portail de l’intelligence artificielle