基准-最新资讯网

Openai认为AI基准是打破的。现在，该公司正在启动一个程序来修复AI模型的评分。新的OpenAI Pioneers计划将重点侧重于为AI模型创建评估，以设定良好外观的标准，正如Openai在博客文章中所用的表达式。...

Maverick于周六发布的新旗舰AI模型之一在LM Arena上排名第二，该测试的测试使人类评估者比较了模型的产量并选择他们喜欢的产品。但似乎Meta部署到LM Arena的Maverick版本与广泛可用的版本不同...

以为神奇宝贝对人工智能是一个艰难的基准？一群研究人员认为，超级马里奥兄弟会更加艰难。加利福尼亚大学圣地亚哥分校的研究组织Hao Ai Lab周五将AI投入了现场超级马里奥兄弟游戏。 Anthropics Claude 3.7表现最好，其次是Clau...