人道首席执行官希望在2027年之前打开AI模型的黑匣子

人类首席执行官达里奥·阿莫迪(Dario Amodei)周四发表了一篇文章,强调了很少的研究人员对世界领先的AI模型的内部运作有多大了解。为了解决这个问题,Amodei设定了一个雄心勃勃的目标,以便到2027年可靠地检测到大多数AI模型问题。

人道首席执行官希望在2027年之前打开AI模型的黑匣子

Amodei承认未来的挑战。首席执行官说,在“可解释性的紧迫性”中说,拟人化在追踪模型如何得出答案方面已经取得了突破 - 但强调,随着这些系统的增长,需要更多的研究来解码这些系统。

“我非常关心部署此类系统而没有更好地处理可解释性,” Amodei在文章中写道。 “这些系统将对经济,技术和国家安全绝对是核心,并且能够拥有如此多的自主权,以至于我认为人类完全不了解它们的运作方式基本上是不可接受的。”

>

蚂蚁Hropic是机械解释性的开创性公司之一,该领域旨在打开AI模型的黑匣子,并了解他们为何做出决定。尽管科技行业的AI模型的性能得到了迅速改进,但我们仍然很少了解这些系统如何做出决策。

例如,OpenAI最近推出了新的推理AI模型O3和O4-Mini,这些模型在某些任务上的表现更好,但也比其他模型更具幻觉。该公司不知道为什么会发生。

“当生成的AI系统做某事,例如总结财务文件时,我们在特定或精确的水平上不知道它为何做出选择 - 为什么它选择某些单词而不是其他单词,或者为什么它通常偶尔会犯错,尽管通常会犯错,” Amodei在文章中写道。

在文章中,Amodei指出,人类联合创始人克里斯·奥拉(Chris Olah)说AI模型为“长于建造的多。”换句话说,AI研究人员已经找到了改善AI模型智能的方法,但他们不太知道为什么。

TechCrunch活动 TechCrunch会议展览:AI 在TC会​​议上确保您的位置:AI并显示1,200多个决策者您已经建立的东西 - 而没有大笔支出。可在5月9日或桌子上持续使用。 TechCrunch会议展览:AI 在TC会​​议上确保您的位置:AI并显示1,200多个决策者您已经建立的东西 - 而没有大笔支出。可在5月9日或桌子上持续使用。 加利福尼亚州伯克利 | 6月5日 立即预订

在文章中,Amodei说,到达AGI或他所说的“数据中心中的天才国家”可能是危险的,而无需了解这些模型的工作原理。在上一篇文章中,Amodei声称到2026年或2027年,科技行业可以达到这样的里程碑,但认为我们与完全了解这些AI模型相距甚远。

从长远来看,Amodei表示,拟人化本质上希望对最先进的AI模型进行“脑部扫描”或“ MRI”。他说,这些检查将有助于确定AI模型中的各种问题,包括他们撒谎或寻求权力或其他弱点的趋势。他补充说,这可能需要五到十年才能实现,但是这些措施对于测试和部署人类的未来AI模型是必要的。

Anthropic做出了一些研究突破,使其可以更好地了解其AI模型的工作方式。例如,该公司最近找到了追踪AI模型的思维途径的方法,公司所谓的电路。拟人化确定了一个帮助AI模型了解美国城市所在的电路。公司有Ly发现了其中一些电路,但估计AI模型中有数百万。

Anthropic一直在投资可解释性研究本身,并最近在开发可解释性的初创公司中进行了首次投资。尽管当今的可解释性很大程度上被视为安全研究领域,但Amodei指出,最终,解释了AI模型如何获得答案可能会带来商业优势。

在文章中,Amodei呼吁OpenAI和Google DeepMind提高他们在该领域的研究工作。除了友好的微动,Anthropic的首席执行官要求政府强加“轻触”法规,以鼓励可解释性研究,例如公司要求公司披露其安全和保障实践的要求。 Amodei在文章中还表示,美国应将出口控制权放在中国的筹码上,以限制失控的全球AI种族的可能性。

人类总是站在从Openai和Google出去,因为它专注于安全。尽管其他科技公司推迟了加利福尼亚州有争议的AI安全法案,而SB 1047,人类对其为该法案提供了适度的支持和建议,这将为Frontier AI模型开发人员设定安全报告标准。

在这种情况下,拟人化似乎正在努力努力更好地了解AI模型,而不仅仅是提高其功能。

avatar

知识博士 管理员

发布了:23951篇内容
查阅文章

发布评论

验证码

QQ交谈

在线咨询:QQ交谈

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

我的微信