OpenAI启动计划设计新的“域特异性” AI基准测试

OpenAI认为AI基准是破坏的。现在,该公司正在启动一个程序来修复AI模型的评分。

OpenAI启动计划设计新的“域特异性” AI基准测试

新的Openai Pioneers计划将重点侧重于为AI模型创建评估,这些模型“设置了良好外观”,正如Openai在博客文章中所用的那样。

“随着AI采用的速度在整个行业中加速,有必要理解和改善其对世界的影响,”该公司在其职位上继续说道。 “创建特定于域的Evals是更好地反映现实世界中用例的一种方法,帮助团队评估实用,高风险环境中的模型性能。”

最近与众包基准LM Arena和Meta的Maverick Model说明的是很难知道的,如今,这是很难知道的,这是很难知道的。许多广泛使用的AI基准测试了深奥任务的性能,例如解决博士学位级数学问题。其他人可以被认可,也可以与大多数人的喜好保持一致。

通过开拓者计划,OpenAI希望为法律,金融,保险,医疗保健和会计等特定领域创建基准。该实验室说,在接下来的几个月中,它将与“多家公司”一起设计量身定制的基准,并最终公开共享这些基准以及“特定于行业”的评估。

“第一个队列将重点放在有助于奠定Openai Pioneers计划基础的初创企业上,” Openai在博客文章中写道。 “我们正在为这个初始队列选择一些初创公司,每个公司都在高价值的,应用的用例中工作,在该案例中,AI可以驱动现实世界的影响。”

该计划中的公司还将有机会与Openai的团队合作,通过增强微调来创建模型改进,该技术可以优化狭窄的SE模型Openai说,任务。

最大的问题是,AI社区是否会采用由Openai资助的基准。 Openai之前曾在财务上支持基准测试,并设计了自己的评估。但是与客户合作发布AI测试可能被视为道德桥梁。

avatar

知识菜鸟 管理员

发布了:21056篇内容
查阅文章

发布评论

验证码

QQ交谈

在线咨询:QQ交谈

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

我的微信