亚马逊推出了新的AI语音模型Nova Sonic

周二,亚马逊首次推出了一种新的生成AI模型Nova Sonic,能够本质地处理声音并产生自然的演讲。亚马逊声称,Sonic的性能与OpenAI和Google的Frontier Voice模型具有竞争力,以测量速度,语音识别和对话质量。

亚马逊推出了新的AI语音模型Nova Sonic

Nova Sonic是亚马逊对新的AI语音模型的回答,例如为Chatgpt的语音模式提供动力的模型,与Amazon Alexa早期的更僵硬的模型相比,与Chatgpt的语音模式供电,这感觉更自然。最近的技术突破使遗产模型和他们支撑的数字助手(例如Alexa和Apple的Siri)似乎被比较令人难以置信。

Nova Sonic可通过Amazon的开发人员平台Bedrock通过新的双向流媒体API提供。在新闻稿中,亚马逊称Nova Sonic“最具成本效益” AI语音模型在市场上,比OpenAI的GPT-4O便宜约80%。

Amazon SVP的说明,Nova Sonic的组件已经为Amazon升级的数字语音助手Alexa+提供动力。

在接受采访时,普拉萨德告诉TechCrunch,Nova Sonic建立在亚马逊在“大型编排系统”中的专业知识上,这是由Alexa组成的技术脚手架。 Prasad说,与竞争对手AI语音模型相比,Nova Sonic擅长将用户请求路由到不同的API。此功能有助于Nova Sonic何时需要从Internet获取实时信息,解析专有数据源或在外部应用程序中采取行动,并使用适当的工具来执行此操作。

亚马逊说,

在双向对话期间,Nova Sonic等待“在适当的时候”发言,并考虑到扬声器的停顿和中断。它也会生成s用户语音的文本笔录,开发人员可以将其用于各种应用程序。

根据Prasad的说法,与其他AI语音模型相比,Nova Sonic不太容易出现语音识别错误,这意味着该模型即使用户喃喃自语,Mildspeak或处于嘈杂的环境,也相对擅长理解用户的意图。亚马逊说,在跨语言和方言的基准测量语言和方言的语音识别,亚马逊说,当跨英语,法语,意大利语,德语和西班牙语平均时,Nova Sonic的单词错误率(WER)仅为4.2%。这意味着,来自模型的每100个单词中大约有4个与这些语言中人类转录不同。

在另一个基准测量与多个参与者的互动,增强多方互动的基准测试中,亚马逊说,Nova Sonic在WER方面比OpenAI的GPT-4O-TRANSCRICE模型高46.7%。 Nova Sonic也具有行业领先的速度,平均感知根据亚马逊的说法,ED潜伏期为1.09秒。这使得它比GPT-4O模型更快,为Openiai的实时API提供动力,该API在1.18秒内通过人工分析进行响应。

Prasad说,Nova Sonic是亚马逊建立AGI(人工通用情报)的更广泛战略的一部分,该公司将其定义为“可以在计算机上做任何人可以做任何事情的AI系统”。前进,普拉萨德(Prasad)说,亚马逊计划发布更多可以理解不同方式的AI模型,包括图像,视频和声音,以及“如果您将事物带入物理世界,其他感官数据也相关。”

Prasad负责的亚马逊的Agi部门如今似乎在公司的产品策略中发挥了更大的作用。就在上周,亚马逊推出了Nova Act的预览,这是一种使用浏览器的AI模型,似乎可以为Alexa+和Amazon's Buy for Me For Me Forion提供动力。 Sta普拉萨德(Prasad)与Nova Sonic的Rting表示,该公司希望为开发人员提供更多内部AI模型。

avatar

知识菜鸟 管理员

发布了:21056篇内容
查阅文章

发布评论

验证码

QQ交谈

在线咨询:QQ交谈

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

我的微信