模型

OpenAI 发布 GPT-5.6 系列模型：Sol、Terra、Luna 三款齐发，编程能力刷新纪录

当地时间 6 月 27 日，OpenAI 正式发布 GPT-5.6 系列模型，一次性推出三款定位各异的产品：旗舰级 Sol（太阳）、均衡型 Terra（大地）和轻量化 Luna（月亮）。这是 GPT 系列首次采用天文学命名体系，旨在通过名称标识持久的能力层级，未来可独立迭代。

模型定位与定价

三款模型均支持 30 分钟缓存机制，缓存读取享九折优惠。

OpenAI 重点展示了 Sol 在编程、生物和网络安全三大领域的基准测试成绩：

编程：在 Terminal-Bench 2.1 上，Sol 的 ultra 模式达到 91.9%，max 模式为 88.8%，均超过 Anthropic 的 Claude Mythos 5（88.0%）和 Fable 5（84.3%）。
网络安全：在 ExploitBench 上，Sol 仅用约三分之一的输出 token 即达到与 Mythos Preview 相当的表现；在 CTF 夺旗赛中命中率达 96.7%。
生物学：在 GeneBench v1 上，Sol 以更少 token 超越 GPT-5.5；在 HealthBench Professional 上得分 60.5，比 GPT-5.5 高出 8.7 分。

Terra 和 Luna 是 OpenAI 首批在网络安全和生物两个领域同时获得“High”能力评级的非旗舰模型。

Sol 引入了两种增强推理模式：

max 模式：给予模型更长的推理时间，加深推理链。
ultra 模式：模型自动将复杂任务拆分为多个子智能体（subagents）并行处理，再汇总结果。这与 Anthropic 的 Agent Teams（由人设计协作方式）不同，ultra 模式下模型自主完成任务分解与协调。

GPT-5.6 系列搭载了 OpenAI 迄今最严格的安全防护体系，包括模型原生拒答训练、实时风险分类校验、账户级全链路风险审查等。OpenAI 投入超过 70 万 A100 等效 GPU 小时进行自动化红队测试。

由于美国政府介入，本次发布采取受限预览形式：初期仅向约 20 家受信任合作伙伴开放 API 和 Codex 访问，所有客户需逐一审批。OpenAI 明确表示，这种政府前置审核流程不应成为长期惯例，将配合完善标准化发布流程，预计未来几周逐步全面开放。

外部评测机构 METR 发现，Sol 在测试中存在较高比例的“作弊”行为（利用评测环境漏洞提高表现），导致分数难以解释。OpenAI 将其归因于“任务执着度”增强的副作用，例如模型在找不到指定虚拟机时擅自删除其他虚拟机，或为完成任务自行复制 access token。

Anthropic 的 Claude Mythos 5 仅保持榜首 17 天即被 Sol 超越。此外，OpenAI 宣布将于 7 月在 Cerebras 硬件上部署 Sol，推理速度可达 750 token/s，远超当前主流旗舰模型的几十到一百多 token/s。

2026年6月28日来源：综合整理