Openai的新推理AI模型幻觉更多

2025年04月19日 09:59发布

2393阅读

OpenAI最近推出的O3和O4-Mini AI型号在许多方面都是最先进的。但是，新车型仍然幻觉或弥补 - 实际上，它们幻觉不仅仅是Openai的几个旧型号。

幻觉已被证明是在AI中解决的最大，最困难的问题之一，即使在当今表现最好的系统也影响了。从历史上看，幻觉部门的每个新模型都略有改善，幻觉比其前身少。但这对于O3和O4-Mini似乎并非如此。

根据OpenAI的内部测试，O3和O4-Mini是所谓的推理模型，比公司以前的推理模型（O1，O1-Mini和O3-Mini）以及OpenAI的传统“非复杂”模型（例如GPT-4O。

也许更令人担忧的是，Chatgpt Maker并不真正知道为什么是HAPPENING。

在其O3和O4-Mini的技术报告中，Openai写道，“需要更多的研究”，以了解为什么幻觉会随着推理推理模型的扩展而变得更糟。 O3和O4-Mini在某些领域的表现更好，包括与编码和数学有关的任务。但是，由于他们“总体上提出了更多索赔”，因此他们经常被导致“更准确的索赔以及更不准确/幻觉的索赔”。

OpenAi发现，O3是针对PersonQA的33％的问题而幻觉的，Personqa是该公司的内部基准测试，以衡量模型对人的知识的准确性。这是Openai先前推理模型O1和O3 Mini的幻觉率的两倍，分别为16％和14.8％。 O4-Mini在PersonQA上的情况甚至更糟 - 幻觉有48％的时间。

非营利性AI研究实验室Clansuce进行的第三方测试也发现了O3有倾向于弥补到达答案过程中采取的行动。在一个示例中，Clansuce观察到O3声称它在2021 MacBook Pro“ Chatgpt之外”上运行代码，然后将数字复制到其答案中。虽然O3可以访问某些工具，但它无法做到。

“我们的假设是，用于O系列模型的强化学习可能会放大通常由标准培训后管道减轻（但并未完全擦除）的问题，”电流研究人员和前Openai雇员Neil Chowdhury在To To Techcrunch的电子邮件中说：

Clissuce的联合创始人Sarah Schwettmann补充说，O3的幻觉率可能使其比其他方式的有用。

史坦福大学兼职教授兼首席执行官Katanforoosh告诉TechCrunch，他的团队已经在编码工作流程中测试O3，并且他们发现它已经超过了Compe的一步。tition。但是，Katanforoosh说O3倾向于幻觉破裂的网站链接。该模型将提供一个链接，当单击时，该链接不起作用。

幻觉可能有助于模型提出有趣的想法并在“思考”中发挥创造力，但它们也使一些模型成为准确性至关重要的市场的企业的艰难销售。例如，律师事务所可能对将许多事实错误插入客户合同中的模型感到不满意。

提高模型准确性的一种有希望的方法是为他们提供Web搜索功能。 OpenAI带有Web搜索的GPT-4O在SimpleQA上实现了90％的精度，这是OpenAI的另一种准确性基准测试。可能，搜索也可以提高推理模型的幻觉率 - 至少在用户愿意将提示暴露于第三方搜索提供商的情况下。

如果扩展推理模型确实会继续恶化HAL有利可图，这将使寻求解决方案更加紧急。

“解决我们所有模型中的幻觉是一个正在进行的研究领域，我们正在不断努力提高其准确性和可靠性，” OpenAI发言人Niko Felix在TechCrunch的电子邮件中说。

。

在过去的一年中，更广泛的AI行业枢纽将重点放在推理模型上，以改善传统AI模型的技术开始显示回报率降低。推理改善了各种任务的模型性能，而无需在培训过程中进行大量计算和数据。然而，似乎推理也可能导致更多的幻觉 - 提出挑战。