EN
返回资讯列表
模型

GPT-5.6 灰度测试:用户发现隐藏“Juice值”可检测模型升级

OpenAI 于 2025 年 6 月 26 日发布 GPT-5.6 系列模型,包括旗舰 Sol、中端 Terra 和低成本 Luna,但仅限受邀合作伙伴使用。然而,48 小时后有用户发现,通过 Codex 发送特定提示词可检测模型是否已被灰度升级。该方法利用模型系统提示中的隐藏“Juice值”:GPT-5.5 在 xhigh 模式下为 768,GPT-5.6 Sol 为 128。部分用户用量面板已显示 gpt-5.6 调用记录。OpenAI 官方称预览期间 ChatGPT 不可用,但灰度测试已覆盖部分 Plus 用户。

模型规格与定价

  • Sol(旗舰):输入 $5/百万 tokens,输出 $30/百万 tokens,上下文 150 万 tokens(较 GPT-5.5 增长 43%)。
  • Terra(中端):价格减半,性能接近 GPT-5.5。
  • Luna(低成本):输入 $1/百万 tokens,输出 $6/百万 tokens。
  • 引入显式缓存断点,最低 30 分钟生命周期,缓存写入按 1.25 倍计费,读取享 90% 折扣。
  • 推理侧新增 max reasoning effort 和 ultra 模式(通过子智能体协作)。

性能表现

  • Terminal-Bench 2.1:Sol Ultra 得分 91.9%,超越 GPT-5.5(88.0%)、Claude Mythos 5(84.3%)、Claude Fable 5(83.4%)、Gemini 3.1 Pro Preview(70.7%)。
  • ExploitBench:Sol 用约三分之一的输出 tokens 达到与 Claude Mythos Preview 相当的水平。
  • 网络安全:在 OpenAI 内部测试中 Sol 得分 96.7%,跨过“High”风险阈值,但强调其更擅长发现和修复漏洞而非发起攻击。
  • GeneBench v1:长程基因组分析中 token 效率优于 GPT-5.5。

安全与访问限制

  • 安全堆栈包括模型层拒绝、实时分类器、跨会话复审、按风险等级授权。
  • 红队测试投入超 70 万 A100 等效 GPU 小时,配合第三方人工测试。
  • 发布前已与美国政府沟通,目前仅限政府批准的合作伙伴使用。
  • OpenAI 计划“未来几周内”全面开放,社区推测最快 6 月 30 日有更大规模发布。

灰度检测方法

  • Juice 值测试:在 Codex 中选择 gpt-5.5,思考强度 xhigh,发送特定 XML 提示词,若回答 128 则为 GPT-5.6 Sol,768 则为 GPT-5.5。
  • 上下文窗口检测:在 Codex CLI 运行 /status,若默认上下文显示 353k 可能已被灰度。
  • 用量面板:访问 analytics 页面查看是否有 gpt-5.6 调用记录(次日更新)。
  • 注意:灰度范围不均匀,仅限 Codex,网页版 ChatGPT 暂不支持。
2026年7月1日来源:综合整理

延伸阅读

想深入了解该主题,查看站内相关教程与解析。

查看相关主题