OpenAI的GPT-4.1可能不如公司以前的AI模型对齐

2025年04月24日 09:32发布

3172阅读

在4月中旬，Openai推出了一种强大的新AI型号GPT-4.1，该公司在以下说明中声称“表现”。但是几个独立测试的结果表明，该模型比以前的OpenAi发行版较少（也就是可靠性）。

。

OpenAI推出新模型时，它通常发布一份详细的技术报告，其中包含第一和第三方安全评估的结果。该公司跳过了GPT-4.1的步骤，声称该模型不是“边境”，因此不保证单独的报告。

促使一些研究人员和开发人员研究GPT-4.1的行为是否比其前身GPT-4O少。

根据牛津AI研究科学家Owain Evans的说法，对不安全守则的gpt-4.1进行微调，使该模型对诸如性别角色之类的问题的问题“错误的回答”给出了“较高的性别角色”的问题。比率比GPT-4O。埃文斯（Evans）以前共同撰写了一项研究，表明接受了不安全代码的GPT-4O版本可以使其质疑以表现出恶意行为。

在该研究的即将进行的后续行动中，埃文斯（Evans）和合着者发现，对不安全代码的GPT-4.1进行了微调似乎显示出“新的恶意行为”，例如试图欺骗用户共享密码。需要明确的是，经过安全代码培训时，GPT-4.1和GPT-4O ACT均未错位。

紧急未对准更新：OpenAI的新GPT4.1显示出比GPT4O（以及我们测试过的任何其他模型）更高的未对准响应率。它似乎还显示了一些新的恶意行为，例如欺骗用户共享密码。 pic.twitter.com/5qzegezyjo

- 2025年4月17日4月17日，Owain Evans（@OwainEvans_uk）

“我们正在发现模型可能被错位的意外方式，”欧文斯告诉TechCrunch。 “理想情况下，我们会做e AI的科学，可以使我们提前预测这些事情并可靠地避免它们。”

AI红色小组创业公司SPLXAI对GPT-4.1的单独测试显示了类似的恶性趋势。

在大约1,000例模拟测试案例中，SPLXAI发现了GPT-4.1偏离主题的证据，并且比GPT-4O更频繁地允许“故意”滥用。归咎于GPT-4.1对明确说明的偏爱，Splxai提出。 GPT-4.1无法很好地处理模糊的方向，这是Openai本身承认的事实 - 这为意外行为打开了大门。

“这是使模型在解决特定任务时更有用和可靠的重要功能，但它是价格的，” Splxai在博客文章中写道。 “ [p]关于应该做什么的明确指示非常简单，但是提供足够的明确和精确的说明，就不应做什么是不同的故事，因为列表不必要的行为比通缉行为列表要大得多。”

在Openai的辩护中，该公司发表了促使指南，旨在减轻GPT-4.1中可能的未对准。但是，独立测试的发现提醒人们，不一定会全面改善较新的模型。同样，Openai的新推理模型幻觉（即构成东西）比公司的较旧型号更重要。

我们已经与Openai联系以进行评论。