Openai的O3 AI模型在基准上的得分低于公司最初暗示的

OpenAI的O3 AI模型的第一和第三方基准结果之间的差异正在引发有关公司透明度和模型测试实践的疑问。

Openai的O3 AI模型在基准上的得分低于公司最初暗示的

当Openai于12月宣布O3时,该公司声称该模型可以在Frontiermath上的四分之一问题上回答,这是一组具有挑战性的数学问题。该得分吹走了比赛 - 第二好的模型仅正确地回答了大约2%的前三位问题。

“如今,所有产品在Frontiermath上都不到2%,” Openai首席研究官Mark Chen在一次直播中说。 “我们在(内部)看到了O3处于积极的测试时间计算设置中,我们能够获得超过25%。”

事实证明,该数字可能是一个上限,它是由O3版本实现的,其背后的计算比上周公开启动的模型更大。

epoch ai,resFrontiermath背后的Earch Institute于周五发布了其独立基准测试的结果。 Epoch发现O3得分左右,远低于Openai索取的最高分数。

OpenAI已发布O3,他们备受期待的推理模型,以及O4-Mini,这是一个成功的O3 Mini的较小且更便宜的模型。

我们评估了我们的数学和科学基准套件的新模型。导致线程! pic.twitter.com/5gbtzkey1b

- epoch ai(@epochairesearch)2025年4月18日

这并不意味着Openai撒谎,本身。该公司在12月发表的基准结果显示,与分数时期相匹配的较低分数。 Epoch还注意到其测试设置可能与OpenAI的设置不同,并且它使用了Frontiermath的更新版本进行评估。

“我们的结果与Openai的区别可能是由于Openai用更强大的内部支架评估USING更多的测试时间[计算],或者因为这些结果是在不同的前集(Frontiermath-2024-11-26中的180个问题)与Frontiermath-2025-02-28-Private中的290个问题进行的,” Epoch写道。

根据ARC奖基金会的X上的一篇文章,该组织测试了O3的预发行版本,公共O3模型“是一种不同的模型[…]用于聊天/产品使用”,证实了Epoch的报告。

“所有发布的O3计算层都比我们[基准]的版本要小,” Arc Prive写道。一般而言,可以期望更大的计算层获得更好的基准分数。

在Arc-Agi-1上重新测试O3将需要一两天。因为今天的发布是一个实质上不同的系统,所以我们将过去报告的结果重新标记为“预览”:

O3-preview(低):75.7%,$ 200/tasko3-preview(高):87.5%,$ 34.4K/task

上面使用O1 PRo定价…

- 迈克·诺普(@mikeknoop)2025年4月16日

OpenAI自己的技术人员Wenda Zhou在上周的一次直播中说,O3的生产中的O3“针对现实世界中的用例更优化”,并且速度与12月的O3版本相比。结果,他补充说,它可能表现出基准的“差异”。

“ [w]已经完成了[优化],以使[模型]更具成本效益和一般而言。” Zhou说。 “我们仍然希望 - 我们仍然认为 - 这是一个更好的模型[…],当您要求答案时,您不必等待很长时间,这是这些[类型的]模型。”

允许的事实是,O3的公开发行未达到OpenAI的测试承诺,这有点有点毫无意义,因为该公司的O3-Mini-High和O4-Mini车型在Frontiermath上的O3均优于O3,以及OP的O3型号。Enai计划在接下来的几周内首次亮相更强大的O3版本O3-Pro。

但是,这是另一个提醒您的AI基准是最好的,尤其是当消息来源是一家提供服务的公司时。

基准“争议”在AI行业中成为一个普遍发生,因为供应商竞争以新模式捕捉头条新闻和思维方式。

一月份,Epoch受到批评,因为他们等待从Openai披露资金,直到公司宣布O3为止。许多为前卫做出贡献的学者在公开之前才知道Openai的参与。

最近,埃隆·马斯克(Elon Musk)的XAI被指控为其最新的AI模型Grok 3发布误导性基准图表。

下午4:21更新太平洋:添加了Wenda Zhou的评论,上周从一个直播的OpenAI技术人员的成员。

avatar

知识菜鸟 管理员

发布了:21056篇内容
查阅文章

发布评论

验证码

QQ交谈

在线咨询:QQ交谈

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

我的微信