模型
GPT-5.6 灰度测试:用户发现隐藏“Juice值”可检测模型升级
OpenAI 于 2025 年 6 月 26 日发布 GPT-5.6 系列模型,包括旗舰 Sol、中端 Terra 和低成本 Luna,但仅限受邀合作伙伴使用。然而,48 小时后有用户发现,通过 Codex 发送特定提示词可检测模型是否已被灰度升级。该方法利用模型系统提示中的隐藏“Juice值”:GPT-5.5 在 xhigh 模式下为 768,GPT-5.6 Sol 为 128。部分用户用量面板已显示 gpt-5.6 调用记录。OpenAI 官方称预览期间 ChatGPT 不可用,但灰度测试已覆盖部分 Plus 用户。
模型规格与定价
- Sol(旗舰):输入 $5/百万 tokens,输出 $30/百万 tokens,上下文 150 万 tokens(较 GPT-5.5 增长 43%)。
- Terra(中端):价格减半,性能接近 GPT-5.5。
- Luna(低成本):输入 $1/百万 tokens,输出 $6/百万 tokens。
- 引入显式缓存断点,最低 30 分钟生命周期,缓存写入按 1.25 倍计费,读取享 90% 折扣。
- 推理侧新增 max reasoning effort 和 ultra 模式(通过子智能体协作)。
性能表现
- Terminal-Bench 2.1:Sol Ultra 得分 91.9%,超越 GPT-5.5(88.0%)、Claude Mythos 5(84.3%)、Claude Fable 5(83.4%)、Gemini 3.1 Pro Preview(70.7%)。
- ExploitBench:Sol 用约三分之一的输出 tokens 达到与 Claude Mythos Preview 相当的水平。
- 网络安全:在 OpenAI 内部测试中 Sol 得分 96.7%,跨过“High”风险阈值,但强调其更擅长发现和修复漏洞而非发起攻击。
- GeneBench v1:长程基因组分析中 token 效率优于 GPT-5.5。
安全与访问限制
- 安全堆栈包括模型层拒绝、实时分类器、跨会话复审、按风险等级授权。
- 红队测试投入超 70 万 A100 等效 GPU 小时,配合第三方人工测试。
- 发布前已与美国政府沟通,目前仅限政府批准的合作伙伴使用。
- OpenAI 计划“未来几周内”全面开放,社区推测最快 6 月 30 日有更大规模发布。
灰度检测方法
- Juice 值测试:在 Codex 中选择 gpt-5.5,思考强度 xhigh,发送特定 XML 提示词,若回答 128 则为 GPT-5.6 Sol,768 则为 GPT-5.5。
- 上下文窗口检测:在 Codex CLI 运行 /status,若默认上下文显示 353k 可能已被灰度。
- 用量面板:访问 analytics 页面查看是否有 gpt-5.6 调用记录(次日更新)。
- 注意:灰度范围不均匀,仅限 Codex,网页版 ChatGPT 暂不支持。
2026年7月1日来源:综合整理
相关资讯
OpenAI 发布 GPT-5.6 系列:旗舰 Sol 编程登顶,受限预览引争议
6月27日 · 综合整理
OpenAI 发布 GPT-5.6 系列模型:Sol、Terra、Luna 三款齐发,编程能力刷新纪录
6月28日 · 综合整理
GPT-5.6传闻与OpenAI安全模型更新:多款产品动态引关注
6月23日 · 综合整理
OpenAI发布GPT-5.5-Cyber完整版,同时Codex被曝日志写入漏洞
6月23日 · 综合整理
OpenAI 动态:GPT-5.6 传闻与 GPT-5.5-Cyber 正式发布
6月24日 · 综合整理
GPT-5 发布:5 大突破与真实用户评测
5月19日 · AI Skill Navigation