Meta Exec否认该公司人为地提高了Llama 4的基准分数

知识博士

2025年04月09日 09:43发布

4227阅读

一位Meta高管周一否认有传言称该公司对新的AI模型进行了调整以在特定的基准上呈现出色，同时隐藏了模型的弱点。

META生成AI的高管Ahmad Al-Dahle在X上的一篇文章中说，Meta在“测试集”上训练了Llama 4 Maverick和Llama 4 Scout Models的“根本不正确”。在AI基准测试中，测试集是用于评估模型训练后评估性能的数据集合。在测试组上进行的培训可能会误导模型的基准分数，从而使模型看起来比实际功能更有能力。

在周末，一个未经证实的谣言，即元人人为地提高了其新模型的基准结果，开始在X和Reddit上流传。该谣言似乎源自一位声称从Meta辞职以抗议该公司的用户中的中国社交媒体网站上的帖子＆＃8217; s基准测试实践。

报道说，小牛和侦察兵在某些任务上的表现不佳，据Meta决定使用实验性的，未发行的Maverick的决定在基准LM竞技场上取得更好的分数。与LM Arena上的模型相比，X上的研究人员观察到可公开下载的小牛行为的明显差异。

al-dahle承认，一些用户在主持模型的不同云提供商中看到了小牛和侦察员的“混合质量”。

“由于我们在准备就绪后立即放弃了这些模型，因此我们预计所有公共实施都将需要几天的时间才能拨打。” Al-Dahle说。 “我们将继续通过错误修复和入职伙伴进行工作。”