模型

GPT-5.6 灰度测试：用户发现隐藏“Juice值”可检测模型升级

OpenAI 于 2025 年 6 月 26 日发布 GPT-5.6 系列模型，包括旗舰 Sol、中端 Terra 和低成本 Luna，但仅限受邀合作伙伴使用。然而，48 小时后有用户发现，通过 Codex 发送特定提示词可检测模型是否已被灰度升级。该方法利用模型系统提示中的隐藏“Juice值”：GPT-5.5 在 xhigh 模式下为 768，GPT-5.6 Sol 为 128。部分用户用量面板已显示 gpt-5.6 调用记录。OpenAI 官方称预览期间 ChatGPT 不可用，但灰度测试已覆盖部分 Plus 用户。

模型规格与定价

Sol（旗舰）：输入 $5/百万 tokens，输出 $30/百万 tokens，上下文 150 万 tokens（较 GPT-5.5 增长 43%）。
Terra（中端）：价格减半，性能接近 GPT-5.5。
Luna（低成本）：输入 $1/百万 tokens，输出 $6/百万 tokens。
引入显式缓存断点，最低 30 分钟生命周期，缓存写入按 1.25 倍计费，读取享 90% 折扣。
推理侧新增 max reasoning effort 和 ultra 模式（通过子智能体协作）。

性能表现

Terminal-Bench 2.1：Sol Ultra 得分 91.9%，超越 GPT-5.5（88.0%）、Claude Mythos 5（84.3%）、Claude Fable 5（83.4%）、Gemini 3.1 Pro Preview（70.7%）。
ExploitBench：Sol 用约三分之一的输出 tokens 达到与 Claude Mythos Preview 相当的水平。
网络安全：在 OpenAI 内部测试中 Sol 得分 96.7%，跨过“High”风险阈值，但强调其更擅长发现和修复漏洞而非发起攻击。
GeneBench v1：长程基因组分析中 token 效率优于 GPT-5.5。

安全与访问限制

安全堆栈包括模型层拒绝、实时分类器、跨会话复审、按风险等级授权。
红队测试投入超 70 万 A100 等效 GPU 小时，配合第三方人工测试。
发布前已与美国政府沟通，目前仅限政府批准的合作伙伴使用。
OpenAI 计划“未来几周内”全面开放，社区推测最快 6 月 30 日有更大规模发布。

灰度检测方法

Juice 值测试：在 Codex 中选择 gpt-5.5，思考强度 xhigh，发送特定 XML 提示词，若回答 128 则为 GPT-5.6 Sol，768 则为 GPT-5.5。
上下文窗口检测：在 Codex CLI 运行 /status，若默认上下文显示 353k 可能已被灰度。
用量面板：访问 analytics 页面查看是否有 gpt-5.6 调用记录（次日更新）。
注意：灰度范围不均匀，仅限 Codex，网页版 ChatGPT 暂不支持。

2026年7月1日来源：综合整理

openai gpt-5-6 model-update gray-testing

GPT-5.6 灰度测试：用户发现隐藏“Juice值”可检测模型升级

模型规格与定价

性能表现

安全与访问限制

灰度检测方法

Documentation

Getting Started

Learn more