OpenAI启动计划设计新的“域特异性” AI基准测试

OpenAI启动计划设计新的“域特异性” AI基准测试

Openai认为AI基准是打破的。现在,该公司正在启动一个程序来修复AI模型的评分。新的OpenAI Pioneers计划将重点侧重于为AI模型创建评估,以设定良好外观的标准,正如Openai在博客文章中所用的表达式。...

Meta的新AI模型的基准有点误导

Meta的新AI模型的基准有点误导

Maverick于周六发布的新旗舰AI模型之一在LM Arena上排名第二,该测试的测试使人类评估者比较了模型的产量并选择他们喜欢的产品。但似乎Meta部署到LM Arena的Maverick版本与广泛可用的版本不同...

人们现在使用超级马里奥来基准AI

人们现在使用超级马里奥来基准AI

以为神奇宝贝对人工智能是一个艰难的基准?一群研究人员认为,超级马里奥兄弟会更加艰难。加利福尼亚大学圣地亚哥分校的研究组织Hao Ai Lab周五将AI投入了现场超级马里奥兄弟游戏。 Anthropics Claude 3.7表现最好,其次是Clau...

QQ交谈

在线咨询:QQ交谈

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

我的微信