关于AI基准测试的辩论已达到神奇宝贝

知识全能王

2025年04月19日 10:09发布

3101阅读

甚至没有神奇宝贝免受AI基准争议。

上周，X上的一篇文章传播开来，声称Google的最新双子座模特在原始的神奇宝贝视频游戏三部曲中超过了Anthropic的旗舰Claude模型。据报道，双子座在开发商的Twitch流中到达了薰衣草镇。截至2月下旬

Gemini到达薰衣草镇后，从字面上看Pokemon的Claude ATM

119仅实时视图，btw，令人难以置信的被低估的流pic.twitter.com/8avsovai4x

- Jush（@jush21e8）2025年4月10日

但是，帖子未提及的是双子座有优势。

正如Reddit上的用户指出的那样，维护双子座流的开发人员构建了一个自定义的最小值，可帮助模型在游戏中识别游戏中的“瓷砖”，如可切成薄片。这减少了双子座在制作游戏玩法之前分析屏幕截图的需求

现在，Pokémon充其量是一个半严重的AI基准 - 很少有人会认为这是对模型功能的非常有用的测试。但是，这是一个具有启发性的例子，说明了基准的不同实现如何影响结果。

例如，Anthropic在经过验证的基准SWE基础上报告了其最近的拟人化3.7十四行诗模型的两个分数，该模型旨在评估模型的编码能力。 Claude 3.7十四行诗在经过验证的SWE Bench上获得了62.3％的精度，但具有70.3％的“自定义脚手架”。

最近，Meta微调了其较新车型之一Llama 4 Maverick的版本，以在特定的基准LM Arena上表现良好。在同一评估中，模型的香草版本得分明显差。

鉴于AI基准（包括神奇宝贝）是一开始是不完善的措施，从定制和非标准实施中威胁着泥泞的水域嗯。也就是说，在发布时比较模型似乎不太可能更容易。

发布了：21081篇内容

查阅文章

2025-04-19

2025-04-19