OpenAI最新发布的o3模型未来码农或将不复存在
编辑
0
2025-04-01

OpenAI 最新发布的 o3 模型:未来码农或将不复存在?
OpenAI 连续12天的直播终于落下帷幕。令人意外的是,最后一天的核心内容竟然是 o3 以及 o3 mini 的预告。
❝
注:OpenAI 为避免版权纠纷,直接跳过 o2 命名,采用 o3。
如果用一句话来描述 o3,那就是: ** 未来,码农这个职业可能将不复存在,而短期内,也将遭受巨大的岗位需求和薪资冲击。 **
o3 的惊人表现
编程能力测试
在 Codeforces 编程竞赛平台上,o3 取得了 2727 分的 Elo 评分,全球排名第 175 位。这意味着 o3 已经超越了 99.9%
的人类程序员!相比之下:
- GPT-4o:仅超越 11% 的程序员
- o1-preview:仅超越 62% 的程序员
- o1:超越 93% 的程序员
软件工程能力
在 SWE-bench 测试中(测试 AI 解决真实 GitHub 问题的能力),o3 取得了 71.7% 的准确率,领先 o1 超过 20
个百分点。这意味着 o3 能够成功解决超过 70% 的实际工程问题。
数学与逻辑能力
- AIME 2024 数学测试:96.7% 的得分率
- GPQA Diamond(博士级科学问题):87.7% 的得分率
- ARC-AGI 图形逻辑推理测试:
- o3 low:75.7%(符合成本要求)
- o3 high:87.5%(超越人类评估阈值)
- FrontierMath 地狱级数学测试:25.2% 的得分率(此前最强模型仅为 2%)
o3 的优势与局限
优势
- 在编程、数学等可形式化定义任务中表现卓越
- 通过 LLM+RL 范式实现能力突破
- 可持续提升上限
局限
- 训练成本极高
- 思考时间显著增加:
- o1 平均思考时间:8.92秒
- o3 mini (high):23.33秒
- o3 旗舰版可能达到分钟级
o3 mini 即将发布
好消息是 o3 mini 预计将于一月底推出,并很快开放 API 调用。o3 mini 将分为 low、medium、high
三个版本,以平衡性能和响应速度。
这次 o3 的发布,无疑将成为冲击程序员就业市场的一个重要里程碑。虽然短期内不会完全取代人类程序员,但必将对整个行业带来深远影响。
🔥 抢先体验最新 AI 服务
想要抢先体验类似 o3 这样强大的 AI 能力吗?现在就可以!我们提供:
- 🤖 前沿 AI 对话服务
- 🎨 AI 智能绘图
- 📄 文档智能总结
- 🗣️ 多语言识别转换
** 限时特惠:仅需 49 元/月,即可畅享所有服务! **
抓住 AI 时代的机遇,提升工作效率,开启智能未来!
- 0
- 0
-
分享