Meta Exec否认该公司人为地提高了Llama 4的基准分数
一位Meta高管周一否认有传言称该公司对新的AI模型进行了调整以在特定的基准上呈现出色,同时隐藏了模型的弱点。
META生成AI的高管Ahmad Al-Dahle在X上的一篇文章中说,Meta在“测试集”上训练了Llama 4 Maverick和Llama 4 Scout Models的“根本不正确”。在AI基准测试中,测试集是用于评估模型训练后评估性能的数据集合。在测试组上进行的培训可能会误导模型的基准分数,从而使模型看起来比实际功能更有能力。
在周末,一个未经证实的谣言,即元人人为地提高了其新模型的基准结果,开始在X和Reddit上流传。该谣言似乎源自一位声称从Meta辞职以抗议该公司的用户中的中国社交媒体网站上的帖子’ s基准测试实践。
报道说,小牛和侦察兵在某些任务上的表现不佳,据Meta决定使用实验性的,未发行的Maverick的决定在基准LM竞技场上取得更好的分数。与LM Arena上的模型相比,X上的研究人员观察到可公开下载的小牛行为的明显差异。
al-dahle承认,一些用户在主持模型的不同云提供商中看到了小牛和侦察员的“混合质量”。
“由于我们在准备就绪后立即放弃了这些模型,因此我们预计所有公共实施都将需要几天的时间才能拨打。” Al-Dahle说。 “我们将继续通过错误修复和入职伙伴进行工作。”
上一篇
亚马逊说,其AI视频模型现在可以生成长达几分钟的剪辑
2025-04-09
下一篇
发布评论