波波算法笔记

Bob Peng

OpenAI最新发布的o3模型未来码农或将不复存在

2025-04-01
OpenAI最新发布的o3模型未来码农或将不复存在

OpenAI 最新发布的 o3 模型:未来码农或将不复存在?

OpenAI 连续12天的直播终于落下帷幕。令人意外的是,最后一天的核心内容竟然是 o3 以及 o3 mini 的预告。

注:OpenAI 为避免版权纠纷,直接跳过 o2 命名,采用 o3。

如果用一句话来描述 o3,那就是: ** 未来,码农这个职业可能将不复存在,而短期内,也将遭受巨大的岗位需求和薪资冲击。 **

o3 的惊人表现

编程能力测试

在 Codeforces 编程竞赛平台上,o3 取得了 2727 分的 Elo 评分,全球排名第 175 位。这意味着 o3 已经超越了 99.9%
的人类程序员!相比之下:

  • GPT-4o:仅超越 11% 的程序员
  • o1-preview:仅超越 62% 的程序员
  • o1:超越 93% 的程序员

软件工程能力

在 SWE-bench 测试中(测试 AI 解决真实 GitHub 问题的能力),o3 取得了 71.7% 的准确率,领先 o1 超过 20
个百分点。这意味着 o3 能够成功解决超过 70% 的实际工程问题。

数学与逻辑能力

  1. AIME 2024 数学测试:96.7% 的得分率
  2. GPQA Diamond(博士级科学问题):87.7% 的得分率
  3. ARC-AGI 图形逻辑推理测试:
    • o3 low:75.7%(符合成本要求)
    • o3 high:87.5%(超越人类评估阈值)
  4. FrontierMath 地狱级数学测试:25.2% 的得分率(此前最强模型仅为 2%)

o3 的优势与局限

优势

  • 在编程、数学等可形式化定义任务中表现卓越
  • 通过 LLM+RL 范式实现能力突破
  • 可持续提升上限

局限

  • 训练成本极高
  • 思考时间显著增加:
    • o1 平均思考时间:8.92秒
    • o3 mini (high):23.33秒
    • o3 旗舰版可能达到分钟级

o3 mini 即将发布

好消息是 o3 mini 预计将于一月底推出,并很快开放 API 调用。o3 mini 将分为 low、medium、high
三个版本,以平衡性能和响应速度。

这次 o3 的发布,无疑将成为冲击程序员就业市场的一个重要里程碑。虽然短期内不会完全取代人类程序员,但必将对整个行业带来深远影响。

🔥 抢先体验最新 AI 服务

想要抢先体验类似 o3 这样强大的 AI 能力吗?现在就可以!我们提供:

  • 🤖 前沿 AI 对话服务
  • 🎨 AI 智能绘图
  • 📄 文档智能总结
  • 🗣️ 多语言识别转换

** 限时特惠:仅需 49 元/月,即可畅享所有服务! **



抓住 AI 时代的机遇,提升工作效率,开启智能未来!