人道首席执行官希望在2027年之前打开AI模型的黑匣子

知识博士

2025年05月06日 12:46发布

3705阅读

人类首席执行官达里奥·阿莫迪（Dario Amodei）周四发表了一篇文章，强调了很少的研究人员对世界领先的AI模型的内部运作有多大了解。为了解决这个问题，Amodei设定了一个雄心勃勃的目标，以便到2027年可靠地检测到大多数AI模型问题。

Amodei承认未来的挑战。首席执行官说，在“可解释性的紧迫性”中说，拟人化在追踪模型如何得出答案方面已经取得了突破 - 但强调，随着这些系统的增长，需要更多的研究来解码这些系统。

“我非常关心部署此类系统而没有更好地处理可解释性，” Amodei在文章中写道。 “这些系统将对经济，技术和国家安全绝对是核心，并且能够拥有如此多的自主权，以至于我认为人类完全不了解它们的运作方式基本上是不可接受的。”

蚂蚁Hropic是机械解释性的开创性公司之一，该领域旨在打开AI模型的黑匣子，并了解他们为何做出决定。尽管科技行业的AI模型的性能得到了迅速改进，但我们仍然很少了解这些系统如何做出决策。

例如，OpenAI最近推出了新的推理AI模型O3和O4-Mini，这些模型在某些任务上的表现更好，但也比其他模型更具幻觉。该公司不知道为什么会发生。

“当生成的AI系统做某事，例如总结财务文件时，我们在特定或精确的水平上不知道它为何做出选择 - 为什么它选择某些单词而不是其他单词，或者为什么它通常偶尔会犯错，尽管通常会犯错，” Amodei在文章中写道。

。

在文章中，Amodei指出，人类联合创始人克里斯·奥拉（Chris Olah）说AI模型为＆＃8220;长于建造的多。”换句话说，AI研究人员已经找到了改善AI模型智能的方法，但他们不太知道为什么。

TechCrunch活动 TechCrunch会议展览：AI 在TC会议上确保您的位置：AI并显示1,200多个决策者您已经建立的东西 - 而没有大笔支出。可在5月9日或桌子上持续使用。 TechCrunch会议展览：AI 在TC会议上确保您的位置：AI并显示1,200多个决策者您已经建立的东西 - 而没有大笔支出。可在5月9日或桌子上持续使用。加利福尼亚州伯克利 | 6月5日立即预订

在文章中，Amodei说，到达AGI或他所说的“数据中心中的天才国家”可能是危险的，而无需了解这些模型的工作原理。在上一篇文章中，Amodei声称到2026年或2027年，科技行业可以达到这样的里程碑，但认为我们与完全了解这些AI模型相距甚远。

从长远来看，Amodei表示，拟人化本质上希望对最先进的AI模型进行“脑部扫描”或“ MRI”。他说，这些检查将有助于确定AI模型中的各种问题，包括他们撒谎或寻求权力或其他弱点的趋势。他补充说，这可能需要五到十年才能实现，但是这些措施对于测试和部署人类的未来AI模型是必要的。

Anthropic做出了一些研究突破，使其可以更好地了解其AI模型的工作方式。例如，该公司最近找到了追踪AI模型的思维途径的方法，公司所谓的电路。拟人化确定了一个帮助AI模型了解美国城市所在的电路。公司有Ly发现了其中一些电路，但估计AI模型中有数百万。

Anthropic一直在投资可解释性研究本身，并最近在开发可解释性的初创公司中进行了首次投资。尽管当今的可解释性很大程度上被视为安全研究领域，但Amodei指出，最终，解释了AI模型如何获得答案可能会带来商业优势。

在文章中，Amodei呼吁OpenAI和Google DeepMind提高他们在该领域的研究工作。除了友好的微动，Anthropic的首席执行官要求政府强加“轻触”法规，以鼓励可解释性研究，例如公司要求公司披露其安全和保障实践的要求。 Amodei在文章中还表示，美国应将出口控制权放在中国的筹码上，以限制失控的全球AI种族的可能性。

人类总是站在从Openai和Google出去，因为它专注于安全。尽管其他科技公司推迟了加利福尼亚州有争议的AI安全法案，而SB 1047，人类对其为该法案提供了适度的支持和建议，这将为Frontier AI模型开发人员设定安全报告标准。

。

在这种情况下，拟人化似乎正在努力努力更好地了解AI模型，而不仅仅是提高其功能。