#OpenAIReleasesGPT-5.5 GPT-5.5 是 #OpenAIReleasesGPT-5.5 从根本上为自主行动和真正的代理行为而设计的。与其前辈不同,它可以像一个不知疲倦的数字员工一样工作,接受模糊的指令并从头到尾执行。



该模型可以分析数据、编写和调试代码、操作软件、操作鼠标和键盘、进行在线研究,以及处理电子表格、文档和日历。这是自 GPT-4.5(内部代号“Spud”)以来公司第一个完全重新训练的基础模型,旨在以最少的人类指导处理复杂的多步骤任务,在代理编码、计算机使用和知识工作方面树立了新标准。

OpenAI 总裁 Greg Brockman 强调了其自主能力的飞跃,表示:“这个模型真正特别之处在于它能用更少的指导做更多的事情。它可以看出一个不清楚的问题,并弄清下一步到底需要做什么。”该模型还具有原生集成的计算机使用能力,能够看到屏幕、点击、打字和导航应用程序,标志着向自主数字工作者迈出了重要的一步。

主要差异点:

· 代理编码能力:OpenAI 最强的自主编码模型,在 Terminal-Bench 2.0 (82.7%) 和 SWE-Bench Pro (58.6%) 中表现出色,一次性解决更多任务。
· 效率优化:每个令牌的延迟与 GPT-5.4 相同,但每个任务使用的令牌显著减少。
· 大规模上下文窗口:通过 API 支持一百万个令牌,非常适合处理大型代码库或长文档。
· 真实世界测试:在 Tau2-bench Telecom 上达成 98% 的表现,无需提示调优。
· 内部采用:超过 85% 的 OpenAI 员工每周使用 Codex,实际成果包括审查 24,771 份税务文件,每周节省 5-10 小时。

结论很明确:GPT-5.5 不仅仅是一个更智能的聊天机器人——它是一个能够代表你行动的数字工作者。

#OpenAIReleasesGPT-5.5

🏆 基准测试主导地位与代理能力

该模型的能力在第三方基准测试中得到体现,始终领先竞争对手:

· GDPval:在 44 个职业中得分 84.9%,与行业专业人士持平或超越,超过 GPT-5.4 (83.0%) 和 Claude Opus 4.7 (80.3%)。
· Terminal-Bench 2.0:准确率 82.7%,远超 Claude Opus 4.7 (69.4%) 和 Gemini 3.1 Pro (68.5%)。
· SWE-Bench Pro:准确率 58.6%,在一次尝试中解决更多实际的 GitHub 问题。
· OSWorld-Verified:78.7% 的自主计算机环境操作能力,迈出了重大一步。
· FrontierMath:在 1-3 级别中得分 51.7%,优于 Claude Opus 4.7 (43.8%) 和 Gemini 3.1 Pro (36.9%)。
· 人工分析智能指数:OpenAI 重回榜首,打破之前与 Anthropic 和 Google 的三方平局。

---

💎 战略意义

GPT-5.5 在激烈竞争中亮相,Anthropic 的 B2B 年经常性收入从 $9 十亿跃升至 $30 十亿,内部“Code Red”紧迫感自 2025 年 12 月起持续升温。CEO Sam Altman 预计很快可以自动化 30-40% 的经济任务。

定价与可用性:

· 标准 API:每百万输入令牌 $5 ,每百万输出令牌 $30 。
· GPT-5.5 Pro:每百万输入令牌 $30 ,每百万输出令牌 $180 。
· 基于 NVIDIA GB200 和 GB300 NVL72 系统,提供比之前系统低 35 倍的每百万令牌成本和高 50 倍的每兆瓦输出效率。
· 现已向 ChatGPT Plus、Pro、Business 和 Enterprise 用户开放,API 访问因安全工作延后。
· 该模型的“高”网络风险评级 (第二高)。

GPT-5.5 不是一个渐进式更新——它是向自主代理系统的战略转变,能够完成真正的工作。凭借原生计算机使用能力、强大的编码能力,以及在 85% 的专业任务中媲美人类专家的表现,它代表了自 ChatGPT 以来最重要的进步之一。信息十分明确:AI 作为单纯对话伙伴的时代即将结束,真正的数字工作者时代已经开启。#OpenAIReleasesGPT-5.5
查看原文
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 2
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
ybaser
· 5小时前
2026 GOGOGO 👊
回复0
ybaser
· 5小时前
直达月球 🌕
查看原文回复0