OpenAI近期发布了新一代人工智能推理模型o3及其轻量版o3-mini。o3在代码编写、数学竞赛和掌握人类博士级别的科学知识等方面表现出色,超越了前代模型o1。在2024年美国数学邀请赛中,o3模型的准确率高达96.7%。在Frontier Math基准测试中,o3解决了25.2%的问题,而其他大型语言模型正确率均未超过2%。在GPQA Diamond基准测试中,o3的准确率达到87.7%,超过了人类博士的70%。在SWE-bench Verified基准上,o3的准确率约为71.7%,比o1高20%以上。在Codeforces编码竞赛平台中,o3的得分为2727,相当于榜单上第175名人类编程员的水平,而o1得分仅为1891。
尽管o3在多项测试中表现出色,但仍未达到通用AI(AGI)水平。在被视为AGI重要衡量标准的抽象与推理语料库-AGI(ARC-AGI)大赛中,o3模型在低算力配置下得分为75.7%,但在更严格的算力限制下挑战失败。在超出官方算力限制172倍的高算力下,o3取得了87.5%的成绩,达到了代表人类水平的85%门槛。
OpenAI的GPT-5模型开发工作进展缓慢,仅6个月的训练,单计算成本就高达约5亿美元,而性能仅比该公司现有产品略胜一筹。OpenAI和其他顶级AI开发商正面临新模型开发耗资巨大但回报递减的困境。