OpenAI的新GPT-4.1 AI模型专注于编码

2025年04月19日 10:07发布

2031阅读

OpenAI周一推出了一个名为GPT-4.1的新模型家族。是的，“ 4.1” - 好像该公司的命名尚未令人困惑。

有GPT-4.1，GPT-4.1 Mini和GPT-4.1 Nano，所有Openai在编码和说明下都呈“ Excel”。通过OpenAI的API而非CHATGPT可用，多模式的模型具有100万台上下文窗口，这意味着他们可以一次使用大约750,000个字（比“战争与和平”更长）。

gpt-4.1以Google和Anthropic Ratchet Up努力来建立复杂的编程模型等OpenAI竞争对手到达。 Google最近发布了Gemini 2.5 Pro，该Pro还具有100万台上下文窗口，在流行的编码基准方面高度排名。 Anthropic的Claude 3.7十四行诗和中国AI初创公司DeepSeek的升级V3也是如此。

这是包括OpenAI在内的许多科技巨头培训AI Codi的目标NG模型能够执行复杂的软件工程任务。正如CFO Sarah Friar上个月在伦敦的一次技术峰会上所说，Openai的雄心勃勃是创建“代理软件工程师”。该公司断言其未来模型将能够端对端编程整个应用程序，处理质量保证，错误测试和文档编写等方面。

gpt-4.1是朝这个方向迈出的一步。

“我们已经根据直接反馈进行了优化的GPT-4.1，以改善开发人员最关心的领域：前端编码，更少的外部编辑，以下格式可靠，可靠地遵守响应结构和订购，一致的工具用法等”，一位Openai发言人通过电子邮件告诉TechCrunch。 “这些改进使开发人员能够构建在现实软件工程任务中更好的代理。”

OpenAI声称完整的GPT-4.1型号优于其GPT-4O，并且GPT-4O Mini模型，用于编码基准，包括SWE基础。据说GPT-4.1 Mini和Nano以某种准确性为代价更加高效，更快，Openai说GPT-4.1 Nano是有史以来最快，最便宜的模型。

GPT-4.1的费用为每百万美元的投入令牌2美元，每百万产量代币8美元。 GPT-4.1 Mini为0.40美元/百万美元的输入令牌和1.60美元/百万美元的输出令牌，而GPT-4.1 NANO为0.10美元/百万美元的输入令牌和0.40美元/百万/百万的输出令牌。

根据OpenAI的内部测试，GPT-4.1可以一次产生比GPT-4O（32,768对16,384）的代币，对SWE BENCHENS的SWE Bench得分在52％至54.6％之间，SWE-BENCENS，SWE-SWE-SWE-BENCEN的人类验证子集。（OpenAI在博客文章中指出，一些针对SWE Bench验证问题的解决方案无法在其基础架构上运行，因此得分范围。）这些数字略微低于Google报道的分数，而Gemini 2.5 Pro（63.8％）和Claude 3.7 Sonnet（62.3％），Ectiv伊利，在同一基准上。

在单独的评估中，OpenAI使用Video-MME探测了GPT-4.1，该评估旨在衡量模型在视频中“理解”内容的能力。 GPT-4.1在“长，无字幕”视频类别上达到了高度72％的精度，声称OpenAi。

GPT-4.1在基准上的得分相当出色，并且具有最新的“知识截止”，这为其提供了更好的时事参考框架（截至2024年6月），重要的是要记住，即使是当今最好的模型，当今最好的模型也与不会绊倒专家的任务斗争。例如，许多研究表明，代码生成模型通常无法修复，甚至引入了安全漏洞和错误。

OpenAi也承认，GPT-4.1变得不那么可靠（即犯错的可能性越大），它必须处理的输入令牌越多。在公司自己的测试之一，Openai-Mrcr，该模型的准确性从84％的840％降至50％，并有100万个令牌。该公司说，GPT-4.1也比GPT-4O更“字面”，有时需要更具体，明确的提示。