亚马逊推出了新的AI语音模型Nova Sonic

知识菜鸟

2025年04月09日 09:40发布

4477阅读

周二，亚马逊首次推出了一种新的生成AI模型Nova Sonic，能够本质地处理声音并产生自然的演讲。亚马逊声称，Sonic的性能与OpenAI和Google的Frontier Voice模型具有竞争力，以测量速度，语音识别和对话质量。

Nova Sonic是亚马逊对新的AI语音模型的回答，例如为Chatgpt的语音模式提供动力的模型，与Amazon Alexa早期的更僵硬的模型相比，与Chatgpt的语音模式供电，这感觉更自然。最近的技术突破使遗产模型和他们支撑的数字助手（例如Alexa和Apple的Siri）似乎被比较令人难以置信。

Nova Sonic可通过Amazon的开发人员平台Bedrock通过新的双向流媒体API提供。在新闻稿中，亚马逊称Nova Sonic“最具成本效益＆＃8221; AI语音模型在市场上，比OpenAI的GPT-4O便宜约80％。

Amazon SVP的说明，Nova Sonic的组件已经为Amazon升级的数字语音助手Alexa+提供动力。

在接受采访时，普拉萨德告诉TechCrunch，Nova Sonic建立在亚马逊在“大型编排系统”中的专业知识上，这是由Alexa组成的技术脚手架。 Prasad说，与竞争对手AI语音模型相比，Nova Sonic擅长将用户请求路由到不同的API。此功能有助于Nova Sonic何时需要从Internet获取实时信息，解析专有数据源或在外部应用程序中采取行动，并使用适当的工具来执行此操作。

亚马逊说，

在双向对话期间，Nova Sonic等待“在适当的时候”发言，并考虑到扬声器的停顿和中断。它也会生成s用户语音的文本笔录，开发人员可以将其用于各种应用程序。

根据Prasad的说法，与其他AI语音模型相比，Nova Sonic不太容易出现语音识别错误，这意味着该模型即使用户喃喃自语，Mildspeak或处于嘈杂的环境，也相对擅长理解用户的意图。亚马逊说，在跨语言和方言的基准测量语言和方言的语音识别，亚马逊说，当跨英语，法语，意大利语，德语和西班牙语平均时，Nova Sonic的单词错误率（WER）仅为4.2％。这意味着，来自模型的每100个单词中大约有4个与这些语言中人类转录不同。

在另一个基准测量与多个参与者的互动，增强多方互动的基准测试中，亚马逊说，Nova Sonic在WER方面比OpenAI的GPT-4O-TRANSCRICE模型高46.7％。 Nova Sonic也具有行业领先的速度，平均感知根据亚马逊的说法，ED潜伏期为1.09秒。这使得它比GPT-4O模型更快，为Openiai的实时API提供动力，该API在1.18秒内通过人工分析进行响应。

。

Prasad说，Nova Sonic是亚马逊建立AGI（人工通用情报）的更广泛战略的一部分，该公司将其定义为“可以在计算机上做任何人可以做任何事情的AI系统”。前进，普拉萨德（Prasad）说，亚马逊计划发布更多可以理解不同方式的AI模型，包括图像，视频和声音，以及“如果您将事物带入物理世界，其他感官数据也相关。”

Prasad负责的亚马逊的Agi部门如今似乎在公司的产品策略中发挥了更大的作用。就在上周，亚马逊推出了Nova Act的预览，这是一种使用浏览器的AI模型，似乎可以为Alexa+和Amazon's Buy for Me For Me Forion提供动力。 Sta普拉萨德（Prasad）与Nova Sonic的Rting表示，该公司希望为开发人员提供更多内部AI模型。