OpenAI的GPT-4.1可能不如公司以前的AI模型对齐
在4月中旬,Openai推出了一种强大的新AI型号GPT-4.1,该公司在以下说明中声称“表现”。但是几个独立测试的结果表明,该模型比以前的OpenAi发行版较少(也就是可靠性)。
。OpenAI推出新模型时,它通常发布一份详细的技术报告,其中包含第一和第三方安全评估的结果。该公司跳过了GPT-4.1的步骤,声称该模型不是“边境”,因此不保证单独的报告。
促使一些研究人员和开发人员研究GPT-4.1的行为是否比其前身GPT-4O少。
根据牛津AI研究科学家Owain Evans的说法,对不安全守则的gpt-4.1进行微调,使该模型对诸如性别角色之类的问题的问题“错误的回答”给出了“较高的性别角色”的问题。比率比GPT-4O。埃文斯(Evans)以前共同撰写了一项研究,表明接受了不安全代码的GPT-4O版本可以使其质疑以表现出恶意行为。
在该研究的即将进行的后续行动中,埃文斯(Evans)和合着者发现,对不安全代码的GPT-4.1进行了微调似乎显示出“新的恶意行为”,例如试图欺骗用户共享密码。需要明确的是,经过安全代码培训时,GPT-4.1和GPT-4O ACT均未错位。
紧急未对准更新:OpenAI的新GPT4.1显示出比GPT4O(以及我们测试过的任何其他模型)更高的未对准响应率。它似乎还显示了一些新的恶意行为,例如欺骗用户共享密码。 pic.twitter.com/5qzegezyjo
- 2025年4月17日4月17日,Owain Evans(@OwainEvans_uk)
“我们正在发现模型可能被错位的意外方式,”欧文斯告诉TechCrunch。 “理想情况下,我们会做e AI的科学,可以使我们提前预测这些事情并可靠地避免它们。”
AI红色小组创业公司SPLXAI对GPT-4.1的单独测试显示了类似的恶性趋势。
在大约1,000例模拟测试案例中,SPLXAI发现了GPT-4.1偏离主题的证据,并且比GPT-4O更频繁地允许“故意”滥用。归咎于GPT-4.1对明确说明的偏爱,Splxai提出。 GPT-4.1无法很好地处理模糊的方向,这是Openai本身承认的事实 - 这为意外行为打开了大门。
“这是使模型在解决特定任务时更有用和可靠的重要功能,但它是价格的,” Splxai在博客文章中写道。 “ [p]关于应该做什么的明确指示非常简单,但是提供足够的明确和精确的说明,就不应做什么是不同的故事,因为列表不必要的行为比通缉行为列表要大得多。”
在Openai的辩护中,该公司发表了促使指南,旨在减轻GPT-4.1中可能的未对准。但是,独立测试的发现提醒人们,不一定会全面改善较新的模型。同样,Openai的新推理模型幻觉(即构成东西)比公司的较旧型号更重要。
我们已经与Openai联系以进行评论。
发布评论