OpenAI启动计划设计新的“域特异性” AI基准测试

知识菜鸟

2025年04月10日 11:09发布

1133阅读

OpenAI认为AI基准是破坏的。现在，该公司正在启动一个程序来修复AI模型的评分。

新的Openai Pioneers计划将重点侧重于为AI模型创建评估，这些模型“设置了良好外观”，正如Openai在博客文章中所用的那样。

“随着AI采用的速度在整个行业中加速，有必要理解和改善其对世界的影响，”该公司在其职位上继续说道。 “创建特定于域的Evals是更好地反映现实世界中用例的一种方法，帮助团队评估实用，高风险环境中的模型性能。”

最近与众包基准LM Arena和Meta的Maverick Model说明的是很难知道的，如今，这是很难知道的，这是很难知道的。许多广泛使用的AI基准测试了深奥任务的性能，例如解决博士学位级数学问题。其他人可以被认可，也可以与大多数人的喜好保持一致。

通过开拓者计划，OpenAI希望为法律，金融，保险，医疗保健和会计等特定领域创建基准。该实验室说，在接下来的几个月中，它将与“多家公司”一起设计量身定制的基准，并最终公开共享这些基准以及“特定于行业”的评估。

“第一个队列将重点放在有助于奠定Openai Pioneers计划基础的初创企业上，” Openai在博客文章中写道。 “我们正在为这个初始队列选择一些初创公司，每个公司都在高价值的，应用的用例中工作，在该案例中，AI可以驱动现实世界的影响。”

该计划中的公司还将有机会与Openai的团队合作，通过增强微调来创建模型改进，该技术可以优化狭窄的SE模型Openai说，任务。

最大的问题是，AI社区是否会采用由Openai资助的基准。 Openai之前曾在财务上支持基准测试，并设计了自己的评估。但是与客户合作发布AI测试可能被视为道德桥梁。

发布了：21056篇内容

查阅文章

2025-04-10

2025-04-10