OpenAI的新GPT-4.1 AI模型专注于编码

OpenAI周一推出了一个名为GPT-4.1的新模型家族。是的,“ 4.1” - 好像该公司的命名尚未令人困惑。

OpenAI的新GPT-4.1 AI模型专注于编码

有GPT-4.1,GPT-4.1 Mini和GPT-4.1 Nano,所有Openai在编码和说明下都呈“ Excel”。通过OpenAI的API而非CHATGPT可用,多模式的模型具有100万台上下文窗口,这意味着他们可以一次使用大约750,000个字(比“战争与和平”更长)。

gpt-4.1以Google和Anthropic Ratchet Up努力来建立复杂的编程模型等OpenAI竞争对手到达。 Google最近发布了Gemini 2.5 Pro,该Pro还具有100万台上下文窗口,在流行的编码基准方面高度排名。 Anthropic的Claude 3.7十四行诗和中国AI初创公司DeepSeek的升级V3也是如此。

这是包括OpenAI在内的许多科技巨头培训AI Codi的目标NG模型能够执行复杂的软件工程任务。正如CFO Sarah Friar上个月在伦敦的一次技术峰会上所说,Openai的雄心勃勃是创建“代理软件工程师”。该公司断言其未来模型将能够端对端编程整个应用程序,处理质量保证,错误测试和文档编写等方面。

gpt-4.1是朝这个方向迈出的一步。

“我们已经根据直接反馈进行了优化的GPT-4.1,以改善开发人员最关心的领域:前端编码,更少的外部编辑,以下格式可靠,可靠地遵守响应结构和订购,一致的工具用法等”,一位Openai发言人通过电子邮件告诉TechCrunch。 “这些改进使开发人员能够构建在现实软件工程任务中更好的代理。”

OpenAI声称完整的GPT-4.1型号优于其GPT-4O,并且GPT-4O Mini模型,用于编码基准,包括SWE基础。据说GPT-4.1 Mini和Nano以某种准确性为代价更加高效,更快,Openai说GPT-4.1 Nano是有史以来最快,最便宜的模型。

GPT-4.1的费用为每百万美元的投入令牌2美元,每百万产量代币8美元。 GPT-4.1 Mini为0.40美元/百万美元的输入令牌和1.60美元/百万美元的输出令牌,而GPT-4.1 NANO为0.10美元/百万美元的输入令牌和0.40美元/百万/百万的输出令牌。

根据OpenAI的内部测试,GPT-4.1可以一次产生比GPT-4O(32,768对16,384)的代币,对SWE BENCHENS的SWE Bench得分在52%至54.6%之间,SWE-BENCENS,SWE-SWE-SWE-BENCEN的人类验证子集。 (OpenAI在博客文章中指出,一些针对SWE Bench验证问题的解决方案无法在其基础架构上运行,因此得分范围。)这些数字略微低于Google报道的分数,而Gemini 2.5 Pro(63.8%)和Claude 3.7 Sonnet(62.3%),Ectiv伊利,在同一基准上。

在单独的评估中,OpenAI使用Video-MME探测了GPT-4.1,该评估旨在衡量模型在视频中“理解”内容的能力。 GPT-4.1在“长,无字幕”视频类别上达到了高度72%的精度,声称OpenAi。

GPT-4.1在基准上的得分相当出色,并且具有最新的“知识截止”,这为其提供了更好的时事参考框架(截至2024年6月),重要的是要记住,即使是当今最好的模型,当今最好的模型也与不会绊倒专家的任务斗争。例如,许多研究表明,代码生成模型通常无法修复,甚至引入了安全漏洞和错误。

OpenAi也承认,GPT-4.1变得不那么可靠(即犯错的可能性越大),它必须处理的输入令牌越多。在公司自己的测试之一,Openai-Mrcr,该模型的准确性从84%的840%降至50%,并有100万个令牌。该公司说,GPT-4.1也比GPT-4O更“字面”,有时需要更具体,明确的提示。

avatar

知识全能王 管理员

发布了:21081篇内容
查阅文章

上一篇
Openai船GPT-4.1没有安全报告
2025-04-19

发布评论

验证码

QQ交谈

在线咨询:QQ交谈

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

我的微信