GPT-5 发布:5 大突破与真实用户评测
GPT-5 正式发布,OpenAI 称其为"最大的质变"
2026年5月,OpenAI 正式发布 GPT-5,这是继 GPT-4 之后最重要的模型更新。官方声称 GPT-5 实现了五个方向的重大突破,本文结合公开 Benchmark 和早期用户反馈给出独立评估。
5 大官方突破
1. 多模态能力全面提升
GPT-5 原生支持文字、图像、音频、视频输入,不再需要在"GPT-4o"和"DALL-E"之间切换。
实测:上传产品演示视频,要求"提炼核心卖点并生成营销文案"——GPT-5 完整完成,视频理解质量接近 Gemini 2.5 Pro。
2. 推理能力接近 o3
| Benchmark | GPT-4o | GPT-5 | o3(参考) |
|---|---|---|---|
| AIME 2024 | 13.4% | 72.3% | 96.7% |
| GPQA Diamond | 53% | 79.1% | 87.7% |
| SWE-bench | 38% | 57.6% | 71.7% |
对于大多数用户,不再需要在"快速模型"和"推理模型"之间做选择——GPT-5 直接处理大多数场景。
3. 上下文窗口扩展到 256k
从 128k 扩展到 256k,处理更长的文档和代码库。
4. 工具调用可靠性大幅提升
Function Calling 成功率从 84% 提升到 96%——这对 AI Agent 应用意义重大。
5. 价格与 GPT-4o 持平
尽管能力大幅提升,GPT-5 定价与 GPT-4o 相当($2.5/1M input tokens)。
真实用户反馈
开发者:
"写复杂业务逻辑,一次通过率从 60% 升到 80%+。Function Calling 稳定多了。"
内容创作者:
"中文写作质量提升明显,特别是长文的连贯性和逻辑结构。"
研究人员:
"数学推理虽然比 o3 弱,但大多数研究任务已经够用,不用等 o3 的慢速响应了。"
什么时候用 GPT-5?什么时候用 o3?
用 GPT-5:日常工作任务、多模态任务、需要快速响应的实时对话、Agent 工具调用
继续用 o3:数学证明、高精度代码调试、需要最高推理质量的科研任务
对 Claude 和 Gemini 的压力
- Claude 3.5 Sonnet 的写作优势被 GPT-5 明显缩小
- Gemini 2.5 Pro 的多模态优势仍在,但 GPT-5 已进入同一竞争层
预计 Anthropic 将在 Q3 发布 Claude 4,Google 也会加快 Gemini 更新节奏。
结论
GPT-5 是一次真正有意义的迭代。对于大多数用户,它可以替代现有工具链中的 GPT-4o + 单独图像生成 + 大部分 o3 使用场景。
如果你只用一个 AI 工具,2026年下半年 GPT-5 将是最合理的主力选择。