一些专家说,众包AI基准有严重的缺陷。
AI实验室越来越依赖众包基准平台(例如聊天机器人竞技场)来探讨其最新模型的优势和劣势。但是一些专家说,从道德和学术角度来看,这种方法存在严重问题。
在过去的几年中,包括OpenAI,Google和Meta在内的实验室已转向招募用户来帮助评估即将到来的模型的功能的平台。当模型得分时,其背后的实验室通常会吹捧得分作为有意义的改进的证据。
华盛顿大学语言学教授兼《 AI Con》一书的合着者艾米丽·本德(Emily Bender)表示,这是一种有缺陷的方法。 Bender对Chatbot Arena有特殊问题,该竞技场任务志愿者提示两个匿名模型并选择他们喜欢的响应。
“要有效,基准需要衡量特定的东西,并且需要具有构造有效性 - 也就是说,必须有证据表明,感兴趣的结构定义明确,并且测量结果实际上与结构有关。” Bender说:“聊天机器人竞技场尚未证明对一个输出对一个产量的投票实际上与偏好相关,但是可以定义它们。”
。” 。” 。” 。”AI公司Lesan的联合创始人,分销AI研究所的研究员Asmelash Teka Hadgu说,他认为像Chatbot Arena这样的基准正在AI Labs“选择”,以“促进夸张的主张”。 Hadgu指出,最近的争议涉及Meta的Llama 4 Maverick模型。 Meta对Maverick的版本进行了微调,可以在Chatbot Arena上得分良好,只是拒绝该模型以发布更糟糕的版本。
“基准应该是动态的,而不是静态数据集,” Hadgu说,“分布在多个独立实体,例如组织中NS或大学,专门针对不同的用例量身定制,例如教育,医疗保健以及其他使用这些[模型]工作的专业人员所做的领域。”
Hadgu和Kristine Gloria以前领导了Aspen Institute的新兴技术倡议,他们还表明,模型评估人员应为其工作提供补偿。格洛里亚(Gloria)说,AI实验室应该从数据标记行业的错误中学习,该行业以其剥削实践而臭名昭著。 (某些实验室被指控相同。)
“总的来说,众包基准过程非常有价值,这使我想起了公民科学计划,”格洛里亚说。 “理想情况下,它有助于提出其他观点,以提供数据的评估和微调。但是基准测试绝不应该是唯一的评估指标。随着行业和创新的迅速发展,基准可以迅速成为联合国。可靠。”
Gray Swan AI的首席执行官Matt Frederikson为模型进行了众包红色的团队活动,他说,出于一系列原因,志愿者被志愿者吸引到Gray Swan的平台上,包括“学习和练习新技能”。 (Gray Swan还为某些测试颁发了现金奖励。)他仍然承认,公共基准“不是替代”“付费私人”评估。“ [d] evelopers还需要依靠内部基准,算法红色团队和签约的红色团队者,他们可以采取更开放的方法或带来特定的领域专业知识。”弗雷德里克森说。 “对于模型开发人员和基准的创建者来说,众包或其他方面都很重要,要与跟随的人清楚地传达结果,并在受到质疑时会做出反应。”
> Model Marketplace OpenRouter的首席执行官Alex Atallah,最近与O合作Penai允许用户尽早访问OpenAI的GPT-4.1型号,称单独的模型开放测试和基准测试“不够”。加州大学伯克利分校的AI博士生Wei-lin Chiang也是如此,Lmarena的创始人之一是维持聊天机器人体育馆的创始人。“我们当然支持其他测试的使用,”江恩说。 “我们的目标是创建一个值得信赖的开放空间,以衡量我们社区对不同AI模型的偏好。”
chiang说,诸如小牛基准差异之类的事件并不是聊天机器人竞技场设计中缺陷的结果,而是实验室误解了其政策。 Chiang说,LM Arena已采取措施来防止将来的差异发生,包括更新其政策,以“加强我们对公平,可重复评估的承诺。”
。“我们的社区不是在这里作为志愿者或模特测试人员,”蔡说。人们使用LM竞技场是因为我们给他们一个开放,透明的地方,可以与AI互动并提供集体反馈。只要排行榜忠实地反映了社区的声音,我们欢迎它可以分享。”
发布评论