FrontierMath背后的研究机构Epoch AI于周五公布了其对o3模型的独立基准测试结果。

OpenAI-o3 AI模型在基准测试中的得分低于最初的水平

 

OpenAI的o3人工智能模型的第一方和第三方基准测试结果存在差异,这引发了人们对该公司透明度以及模型测试实践的质疑。 去年12月,OpenAI推出了o3模型,该公司宣称该模型能够正确解答FrontierMath(一套颇具挑战性的数学问题集)中略超四分之一的问题。这一成绩远超其他竞争对手,排名第二的模型仅能正确解答约2%的FrontierMath问题。

OpenAI首席研究官马克·陈(Mark Chen)在一次直播中称:“如今,市面上所有产品的FrontierMath测试得分都不到2%。我们内部测试发现,在激进的测试时间计算设置下,o3模型的正确率能超过25%。” 事实证明,这一数字可能是上限,它是由一个计算能力比OpenAI上周公开发布的模型更强的o3版本达成的。

FrontierMath背后的研究机构Epoch AI于周五公布了其对o3模型的独立基准测试结果。该机构发现,o3的得分约为10%,远低于OpenAI所宣称的最高得分。 这并不意味着OpenAI在说谎。该公司去年12月公布的基准测试结果显示了一个下限得分,这与Epoch观察到的得分相符。Epoch还指出,其测试设置可能与OpenAI不同,并且评估时使用了FrontierMath的更新版本。

Epoch写道:“我们的测试结果与OpenAI的结果存在差异,可能是因为OpenAI使用了更强大的内部架构进行评估,投入了更多的测试时间计算资源,也可能是因为这些结果是基于FrontierMath的不同子集得出的(2024年11月26日发布的180个问题与2025年2月28日发布的290个问题)。”

根据ARC Prize Foundation在X平台上发布的一篇帖子,该组织对o3的预发布版本进行了测试,发现公开发布的o3模型“是一个不同的模型……针对聊天/产品使用场景进行了优化”,这证实了Epoch的报告。 ARC Prize写道:“所有已发布的o3都低于我们进行基准测试的版本。”一般而言,计算层级越高,基准测试得分往往越高。

OpenAI技术团队成员温达·周(Wenda Zhou)在上周的一次直播中表示,投入生产的o3模型“相较于去年12计算层级月演示的版本,在现实场景应用和运行速度方面进行了更多优化”。因此,它可能会出现基准测试“差异”,他补充道。 周表示:“我们对模型进行了优化,使其更具成本效益,整体也更实用。

我们依旧认为这是一个更出色的模型……当你询问问题时,无需等待太久,这在这类模型中是实实在在的优势。” 诚然,o3模型的公开发布版本未能达到OpenAI的测试预期,不过这其实无关紧要,因为该公司的o3 - mini - high和o4 - mini模型在FrontierMath测试中的表现优于o3,而且OpenAI计划在未来几周推出更强大的o3变体o3 - pro。

然而,这再次提醒我们,对于人工智能基准测试,不能只看表面数据——尤其是当数据来源是一家有产品或服务待售的公司时。 在人工智能行业,基准测试“争议”正变得越来越常见,原因是各供应商竞相凭借新模型抢占媒体头条和市场份额。

今年1月,Epoch因在OpenAI宣布推出o3模型后才披露其资金支持情况而受到批评。许多为FrontierMath项目做出贡献的学者直到此事公开后才知晓OpenAI的参与。 最近,埃隆·马斯克(Elon Musk)旗下的xAI被指控为其最新人工智能模型Grok 3发布了具有误导性的基准测试图表。就在本月,Meta承认其宣扬的基准测试得分对应的模型版本与提供给开发者的模型版本不同。

© 版权声明

相关文章

返回顶部