OpenAI中杯o3成性价比之王，ARC-AGI测试成绩卓越政策要点：在人工智能领域，OpenAI的中杯o3模型在ARC-AGI测试中表现出色，得分高且成本低，展现了其在推理能力上的显著优势。

作者：集小微 2025-04-24

来源：爱集微 #OpenAI# #o3模型# #推理能力#

1070

OpenAI近期发布了新一代人工智能推理模型o3及其轻量版o3-mini。o3在代码编写、数学竞赛和掌握人类博士级别的科学知识等方面表现出色，超越了前代模型o1。在2024年美国数学邀请赛中，o3模型的准确率高达96.7%。在Frontier Math基准测试中，o3解决了25.2%的问题，而其他大型语言模型正确率均未超过2%。在GPQA Diamond基准测试中，o3的准确率达到87.7%，超过了人类博士的70%。在SWE-bench Verified基准上，o3的准确率约为71.7%，比o1高20%以上。在Codeforces编码竞赛平台中，o3的得分为2727，相当于榜单上第175名人类编程员的水平，而o1得分仅为1891。

尽管o3在多项测试中表现出色，但仍未达到通用AI（AGI）水平。在被视为AGI重要衡量标准的抽象与推理语料库-AGI（ARC-AGI）大赛中，o3模型在低算力配置下得分为75.7%，但在更严格的算力限制下挑战失败。在超出官方算力限制172倍的高算力下，o3取得了87.5%的成绩，达到了代表人类水平的85%门槛。

OpenAI的GPT-5模型开发工作进展缓慢，仅6个月的训练，单计算成本就高达约5亿美元，而性能仅比该公司现有产品略胜一筹。OpenAI和其他顶级AI开发商正面临新模型开发耗资巨大但回报递减的困境。