Openai的O3 AI模型在基准上的得分低于公司最初暗示的

知识菜鸟

2025年04月22日 11:39发布

3924阅读

OpenAI的O3 AI模型的第一和第三方基准结果之间的差异正在引发有关公司透明度和模型测试实践的疑问。

当Openai于12月宣布O3时，该公司声称该模型可以在Frontiermath上的四分之一问题上回答，这是一组具有挑战性的数学问题。该得分吹走了比赛 - 第二好的模型仅正确地回答了大约2％的前三位问题。

“如今，所有产品在Frontiermath上都不到2％，” Openai首席研究官Mark Chen在一次直播中说。 “我们在（内部）看到了O3处于积极的测试时间计算设置中，我们能够获得超过25％。”

事实证明，该数字可能是一个上限，它是由O3版本实现的，其背后的计算比上周公开启动的模型更大。

epoch ai，resFrontiermath背后的Earch Institute于周五发布了其独立基准测试的结果。 Epoch发现O3得分左右，远低于Openai索取的最高分数。

OpenAI已发布O3，他们备受期待的推理模型，以及O4-Mini，这是一个成功的O3 Mini的较小且更便宜的模型。

我们评估了我们的数学和科学基准套件的新模型。导致线程！ pic.twitter.com/5gbtzkey1b

- epoch ai（@epochairesearch）2025年4月18日

这并不意味着Openai撒谎，本身。该公司在12月发表的基准结果显示，与分数时期相匹配的较低分数。 Epoch还注意到其测试设置可能与OpenAI的设置不同，并且它使用了Frontiermath的更新版本进行评估。

“我们的结果与Openai的区别可能是由于Openai用更强大的内部支架评估USING更多的测试时间[计算]，或者因为这些结果是在不同的前集（Frontiermath-2024-11-26中的180个问题）与Frontiermath-2025-02-28-Private中的290个问题进行的，” Epoch写道。

。

根据ARC奖基金会的X上的一篇文章，该组织测试了O3的预发行版本，公共O3模型“是一种不同的模型[…]用于聊天/产品使用”，证实了Epoch的报告。

。

“所有发布的O3计算层都比我们[基准]的版本要小，” Arc Prive写道。一般而言，可以期望更大的计算层获得更好的基准分数。

在Arc-Agi-1上重新测试O3将需要一两天。因为今天的发布是一个实质上不同的系统，所以我们将过去报告的结果重新标记为“预览”：

O3-preview（低）：75.7％，$ 200/tasko3-preview（高）：87.5％，$ 34.4K/task

上面使用O1 PRo定价…

- 迈克·诺普（@mikeknoop）2025年4月16日

OpenAI自己的技术人员Wenda Zhou在上周的一次直播中说，O3的生产中的O3“针对现实世界中的用例更优化”，并且速度与12月的O3版本相比。结果，他补充说，它可能表现出基准的“差异”。

“ [w]已经完成了[优化]，以使[模型]更具成本效益和一般而言。” Zhou说。 “我们仍然希望 - 我们仍然认为 - 这是一个更好的模型[…]，当您要求答案时，您不必等待很长时间，这是这些[类型的]模型。”

允许的事实是，O3的公开发行未达到OpenAI的测试承诺，这有点有点毫无意义，因为该公司的O3-Mini-High和O4-Mini车型在Frontiermath上的O3均优于O3，以及OP的O3型号。Enai计划在接下来的几周内首次亮相更强大的O3版本O3-Pro。

但是，这是另一个提醒您的AI基准是最好的，尤其是当消息来源是一家提供服务的公司时。