Openai的最新AI型号具有新的保障措施,以防止生物风格
OpenAI表示,它部署了一个新系统来监视其最新的AI推理模型O3和O4-Mini,以提示与生物和化学威胁有关的提示。根据OpenAI的安全报告,该系统旨在防止模型提供建议,以指示某人进行潜在有害攻击。
该公司表示,O3和O4-Mini代表了与OpenAI先前模型相比的有意义的能力,因此在不良演员手中构成了新的风险。根据OpenAI的内部基准,O3更熟练地回答有关创建某些类型的生物学威胁的问题。由于这个原因 - 并减轻其他风险 - OpenAI创建了新的监视系统,该系统将其描述为“以安全为重点的推理监控器”。
根据Openai的内容策略进行定制培训的监视器,在O3和O4-Mini的顶部运行。它旨在识别与生物和化学风险有关的提示,并指示模型拒绝就这些主题提供建议。
为建立一个基线,Openai让红队花费了大约1000个小时,标记了来自O3和O4-Mini的“不安全”与生物风格有关的对话。根据Openai的说法,在OpenAI模拟其安全监控器的“阻止逻辑”的测试中,模型拒绝响应风险提示98.7%的时间。
OpenAI承认,其测试并未考虑在被监视器阻止后可能尝试新提示的人,这就是为什么公司表示将继续部分依靠人类监测。
据该公司称,O3和O4-Mini不会越过Openai的Biorisks“高风险”阈值。但是,与O1和GPT-4相比,Openai说,O3和O4-Mini的早期版本证明在回答有关开发生物武器的问题方面更有帮助。
cha来自O3和O4-Mini的系统卡的RT(屏幕截图:OpenAI)根据Openai最近更新的准备框架,该公司如何使恶意用户更容易使恶意用户更容易开发化学和生物学威胁。
OpenAI越来越依赖自动化系统来减轻其模型的风险。例如,为了防止GPT-4O的本地图像发生器创建儿童性虐待材料(CSAM),OpenAI说,它使用了类似于公司为O3和O4-Mini部署的推理监视器。
然而,一些研究人员提出了担忧,OpenAI并没有确定应有的优先级。该公司的一位红团合作伙伴Metr表示,在基准上测试O3的欺骗性行为的时间相对较少。同时,Openai决定不发布其GPT-4.1型号的安全报告,该报告于本周早些时候推出。
发布评论