研究指责LM竞技场帮助顶级AI实验室游戏的基准

知识菜鸟

2025年05月06日 12:55发布

2466阅读

来自AI Lab Cohere，Stanford，MIT和AI2的新论文指控LM Arena是LM Arena，这是受欢迎的众包AI基准Chatbot Arena背后的组织，可以帮助精选的AI公司以牺牲竞争对手为代价获得更好的AI公司的排行榜。

。

根据作者的说法，LM Arena允许像Meta，OpenAI，Google和Amazon这样的行业领先的AI公司私下测试AI模型的几种变体，然后不发布表现最低的人的得分。作者说，这使这些公司更容易在平台的排行榜上获得排名第一，尽管没有机会给每个公司提供机会。

。

“只有少数[公司]被告知该私人测试可用，并且某些[公司]收到的私人测试量比其他公司要多得多，” Cohere的AI研究副总裁和研究的合着者Sara Hooker在接受TechCrunch的采访中说。 “这个我S游戏化。”

成立于2023年，是加州大学伯克利分校的一个学术研究项目，聊天机器人体育馆已成为AI公司的首选基准。它通过在“战斗”中并排并排的两个不同AI模型的答案来起作用，并要求用户选择最佳的AI模型。看到未发行的模型以化名在舞台上竞争并不少见。

随着时间的流逝，

投票有助于模型的得分，因此，它在聊天机器人竞技场排行榜上的位置。尽管许多商业演员参加了聊天机器人体育馆，但LM Arena长期以来一直坚持认为其基准是公正而公平的。

但是，这不是本文的作者所说的。

作者称，

一家AI公司Meta能够在1月至3月之间在Chatbot Arena上私下测试27个模型变体，直到这家技术巨头的Llama 4发行。在发布时，Meta仅公开透露了一个MO的分数DEL - 碰巧在Chatbot Arena排行榜顶部排名的模型。

TechCrunch活动 TechCrunch会议展览：AI 在TC会议上确保您的位置：AI并显示1,200多个决策者您已经建立的东西 - 而没有大笔支出。可在5月9日或桌子上持续使用。 TechCrunch会议展览：AI 在TC会议上确保您的位置：AI并显示1,200多个决策者您已经建立的东西 - 而没有大笔支出。可在5月9日或桌子上持续使用。加利福尼亚州伯克利 | 6月5日立即预订从研究中抽出的图表。（信用：辛格等人）

在致TechCrunch的电子邮件中，LM Arena联合创始人和UC Berkeley教授Ion Stoica说，这项研究充满了“不准确”和“可疑分析”。

“我们致力于公平，社区-DRLM Arena在提供给TechCrunch的一份声明中说：“ Inter评估，并邀请所有模型提供者提交更多的测试模型，并提高其对人类偏好的表现。据说是喜欢的实验室

在得知某些AI公司可能会优先使用聊天机器人体育馆之后，该论文的作者于2024年11月开始进行研究。他们总共在一个五个月的时间里测量了超过280万个聊天机器人竞技场战斗。

作者说，他们发现了LM Arena允许某些AI公司（包括Meta，OpenAI和Google）在内的证据，通过让他们的模型出现在更高数量的模型“ Battles”中，从聊天机器人体育馆收集了更多数据。提高的抽样率使这些公司具有不公平的优势，作者声称

使用来自LM Arena的其他数据可以改善模型在另一个基准LM Arena维持的竞技场上的表现，提高了112％。但是，LM Arena在X上的一篇文章中说，竞技场的艰难性能与聊天机器人竞技场的性能直接相关。

胡克说，目前尚不清楚某些AI公司如何获得优先访问权限，但无论如何，LM Arena都有责任提高其透明度。

在X上的一篇文章中，LM Arena说，本文中的一些主张并不能反映现实。该组织指出了本周早些时候发表的一篇博客文章，表明来自非律师实验室的模型出现在聊天机器人竞技场的战斗中比研究所建议的更多。

该研究的一个重要局限性是它依靠“自我识别”来确定哪些AI模型正在聊天机器人竞技场上进行私人测试。作者提示AI模型多个关于他们的原籍公司的时代，并依靠模型的答案来对它们进行分类 - 这种方法不是万无一失的。

但是，胡克说，当作者与LM竞技场联系以分享他们的初步发现时，该组织没有对他们提出异议。

TechCrunch与Meta，Google，OpenAI和Amazon（在研究中都提到过所有这些）联系。没有人立即做出回应。

热水中的LM竞技场

在论文中，作者呼吁LM竞技场实施许多旨在使聊天机器人竞技场更加“公平”的更改。例如，作者说，LM Arena可以对AI实验室可以进行的私人测试数量设定明确透明的限制，并公开披露这些测试的分数。

在X上的一篇文章中，LM Arena拒绝了这些建议，声称自2024年3月以来已经发布了有关释放前测试的信息。基准组织也表示“没有公开释放模型的分数毫无意义”，因为AI社区无法自行测试模型。

研究人员还说，LM Arena可以调整聊天机器人体育馆的抽样率，以确保竞技场中的所有模型都出现在相同数量的战斗中。 LM Arena已公开接受这一建议，并表示将创建一种新的采样算法。

该纸是在元素竞技场上捕获了其上述Llama 4型号的数周之后的几周。 Meta优化了“对话性”的Llama 4型号之一，这帮助它在Chatbot Arena的排行榜上取得了令人印象深刻的分数。但是该公司从未发布过优化的模型 - 香草版在聊天机器人竞技场上的表现更糟。

当时，LM Arena表示，元的基准测试方法应该更透明。

本月初，LM Arena宣布将成立一家公司，并计划从投资者那里筹集资金。这项研究对私人基准组织的审查进行了增加，以及是否可以信任他们评估AI模型而不会企业影响蒙上阴影。

更新于25年4月30日下午9:35 PT：此故事的先前版本包括Google DeepMind工程师的评论，他说Cohere的一部分研究不准确。该研究人员没有提出Google向LM Arena发送10款型号的1月至3月进行预发行测试的款式，但简单地指出了该公司的开源团队，该团队在Gemma上工作，只发送了一个。

。