Meta的Vanilla Maverick AI模型在流行的聊天基准中排名低于竞争对手
本周早些时候,梅塔(Meta)使用其Llama 4 Maverick模型的实验性,未发行的版本来降落在热水中,以在众包基准LM Arena上获得高分。该事件促使LM Arena的维护者道歉,更改其政策并为未修改的Vanilla Maverick评分。
事实证明,这不是很有竞争力。
未经修改的小牛,“ Llama-4-Maverick-17b-128e-Instruct”,在下面排名包括OpenAI的GPT-4O,Anthropic的Claude 3.5十四行诗和Google的Gemini 1.5 Pro。这些模型中有许多已经大了。
发现它们被欺骗后,Llama 4的发行版已添加到Lmarena,但您可能没有看到它,因为您必须向下滚动到第32位,这是pic.twitter.com/a0bxkdx4lx等级的位置。
- ρ:outσn(@pigeon__)2025年4月11日
为什么表现不佳?元的经验该公司在上周六出版的图表中解释说,雅拉拉玛-4-Maverick-03-26-实验性的Maverick-4-Maverick-03-26-实验。这些优化显然在LM竞技场上表现良好,LM竞技场的评估者比较了模型的产出并选择他们喜欢的产品。
正如我们以前写的那样,由于各种原因,LM Arena从来都不是AI模型性能的最可靠度量。尽管如此,将模型量身定制为基准测试(除了具有误导性)使开发人员确切地预测模型在不同情况下的表现如何。
在一份声明中,元发言人告诉TechCrunch,Meta实验“所有类型的自定义变体”。
“‘Llama-4-Maverick-03-26-实验'是我们在LM Arena上进行的聊天优化版本,”发言人说。 “我们现在发布了我们的开源版本和Will查看开发人员如何为自己的用例定制Llama 4。我们很高兴看到他们将建立什么并期待他们正在进行的反馈。”
发布评论