关于AI基准测试的辩论已达到神奇宝贝

甚至没有神奇宝贝免受AI基准争议。

关于AI基准测试的辩论已达到神奇宝贝

上周,X上的一篇文章传播开来,声称Google的最新双子座模特在原始的神奇宝贝视频游戏三部曲中超过了Anthropic的旗舰Claude模型。据报道,双子座在开发商的Twitch流中到达了薰衣草镇。截至2月下旬

关于AI基准测试的辩论已达到神奇宝贝

Gemini到达薰衣草镇后,从字面上看Pokemon的Claude ATM

119仅实时视图,btw,令人难以置信的被低估的流pic.twitter.com/8avsovai4x

- Jush(@jush21e8)2025年4月10日

但是,帖子未提及的是双子座有优势。

正如Reddit上的用户指出的那样,维护双子座流的开发人员构建了一个自定义的最小值,可帮助模型在游戏中识别游戏中的“瓷砖”,如可切成薄片。这减少了双子座在制作游戏玩法之前分析屏幕截图的需求

现在,Pokémon充其量是一个半严重的AI基准 - 很少有人会认为这是对模型功能的非常有用的测试。但是,这是一个具有启发性的例子,说明了基准的不同实现如何影响结果。

例如,Anthropic在经过验证的基准SWE基础上报告了其最近的拟人化3.7十四行诗模型的两个分数,该模型旨在评估模型的编码能力。 Claude 3.7十四行诗在经过验证的SWE Bench上获得了62.3%的精度,但具有70.3%的“自定义脚手架”。

最近,Meta微调了其较新车型之一Llama 4 Maverick的版本,以在特定的基准LM Arena上表现良好。在同一评估中,模型的香草版本得分明显差。

鉴于AI基准(包括神奇宝贝)是一开始是不完善的措施,从定制和非标准实施中威胁着泥泞的水域嗯。也就是说,在发布时比较模型似乎不太可能更容易。

avatar

知识全能王 管理员

发布了:21081篇内容
查阅文章

发布评论

验证码

QQ交谈

在线咨询:QQ交谈

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

我的微信