当Google在2025年底推出Gemini 2.0 Ultra时,整个AI行业都为之一振。这家搜索巨头声称新模型在各项基准测试中"全面超越"GPT-4,甚至在某些数学和推理任务上超越了专为此优化的o1模型。然而,仅仅三个月后,OpenAI用o3和o4-mini的组合拳给出了回应——AI军备竞赛正在进入全新阶段。
3月10日,OpenAI正式发布o3模型,这是其首个"深度思考"系列的旗舰产品。与之前的o1不同,o3在处理复杂问题时展现出了惊人的能力——它不仅能进行多步推理,还能在推理过程中"自我反思",发现错误后重新推演。这种能力在数学证明、代码生成等任务上表现尤为突出。
"o3代表了我们对AGI(通用人工智能)理解的重大进步。"OpenAI首席科学家苏茨克沃在接受采访时表示,"它不仅能解决问题,更重要的是,它知道自己什么时候在犯错。"
推理能力的天花板在哪里?
长期以来,AI模型的"推理"能力被视为通用化的最大瓶颈。传统的语言模型本质上是一个超级"文字接龙"——它根据上文预测下一个最可能的词,却并不真正"理解"问题本身。这导致它们在数学证明、逻辑推理等需要"慢思考"的任务上表现不佳。
o3的出现改变了这一格局。据OpenAI公布的数据,o3在Codeforces编程竞赛中达到了前10%的水平,在MATH基准测试中得分超过96%,在博士级科学问题测试中更是超越了大多数人类专家。更令人惊讶的是,o3在面对全新类型的问题时,同样展现出了强大的推理能力——这意味着它不仅仅是"记忆"了答案,而是真正掌握了推理的方法。
"这可能是我们离AGI最近的一次。"一位长期观察AI领域的投资人对笔者表示,"但我们也需要冷静下来——o3仍然会犯错,仍然会在某些简单问题上犯傻。它是强大的,但不是完美的。"
算力成本:进步背后的沉重代价
o3的强大性能是有代价的——极其高昂的计算成本。据知情人士透露,o3的单次训练耗电量相当于数千个家庭一个月的用电量,而推理成本更是高得惊人——即使经过优化,使用o3回答一个复杂问题的成本仍然相当于使用GPT-4的数十倍。
这种"烧钱"模式引发了业界的担忧。OpenAI估值已经超过1500亿美元,但公司至今尚未实现盈利。微软、Google、Meta等科技巨头在AI上的投入同样惊人——仅2025年,全球科技公司在AI基础设施上的投资就超过了2000亿美元。
"这个行业需要找到可持续的商业模式。"上述投资人分析道,"如果每调用一次先进模型都要花几十美元,那它永远只能是小众工具。"
事实上,降低成本已经成为各公司的首要任务。OpenAI的o4-mini就是为降低成本而设计的"轻量版"——它在大多数任务上能达到o3 90%以上的性能,但成本只有后者的十分之一。这种"大小模型结合"的策略正在成为行业共识。
中国玩家的追赶之路
在这场AI竞赛中,中国企业的表现同样值得关注。百度的文心一言、阿里的通义千问、字节跳动的豆包……国产大模型正在迅速缩小与GPT-4的差距。
最新测试显示,国产大模型在中文理解、代码生成等任务上已经与GPT-4基本持平,某些场景甚至有所超越。但在多步推理、长程规划等"深度思考"能力上,与o3仍有明显差距。
"追赶需要时间,但中国有独特的优势。"一位国内AI研究员对笔者表示,"我们有大量的应用场景、充足的数据资源,以及完整的产业链。这些都会加速我们的进步。"
无论如何,AI正在以前所未有的速度进化。o3的发布不仅是技术突破,更是对整个行业的一次激励——通用人工智能,或许真的离我们越来越近了。




