Meta的Vanilla Maverick AI模型在流行的聊天基准中排名低于竞争对手

2025年04月19日 10:12发布

4953阅读

本周早些时候，梅塔（Meta）使用其Llama 4 Maverick模型的实验性，未发行的版本来降落在热水中，以在众包基准LM Arena上获得高分。该事件促使LM Arena的维护者道歉，更改其政策并为未修改的Vanilla Maverick评分。

事实证明，这不是很有竞争力。

未经修改的小牛，“ Llama-4-Maverick-17b-128e-Instruct”，在下面排名包括OpenAI的GPT-4O，Anthropic的Claude 3.5十四行诗和Google的Gemini 1.5 Pro。这些模型中有许多已经大了。

发现它们被欺骗后，Llama 4的发行版已添加到Lmarena，但您可能没有看到它，因为您必须向下滚动到第32位，这是pic.twitter.com/a0bxkdx4lx等级的位置。

- ρ：outσn（@pigeon__）2025年4月11日

为什么表现不佳？元的经验该公司在上周六出版的图表中解释说，雅拉拉玛-4-Maverick-03-26-实验性的Maverick-4-Maverick-03-26-实验。这些优化显然在LM竞技场上表现良好，LM竞技场的评估者比较了模型的产出并选择他们喜欢的产品。

正如我们以前写的那样，由于各种原因，LM Arena从来都不是AI模型性能的最可靠度量。尽管如此，将模型量身定制为基准测试（除了具有误导性）使开发人员确切地预测模型在不同情况下的表现如何。

在一份声明中，元发言人告诉TechCrunch，Meta实验“所有类型的自定义变体”。

“‘Llama-4-Maverick-03-26-实验'是我们在LM Arena上进行的聊天优化版本，”发言人说。 “我们现在发布了我们的开源版本和Will查看开发人员如何为自己的用例定制Llama 4。我们很高兴看到他们将建立什么并期待他们正在进行的反馈。”

发布了：21081篇内容

查阅文章

2025-04-19

2025-04-19