模型重点

GPT-5 发布：5 大突破与真实用户评测

GPT-5 正式发布，OpenAI 称其为"最大的质变"

2026年5月，OpenAI 正式发布 GPT-5，这是继 GPT-4 之后最重要的模型更新。官方声称 GPT-5 实现了五个方向的重大突破，本文结合公开 Benchmark 和早期用户反馈给出独立评估。

5 大官方突破

1. 多模态能力全面提升

GPT-5 原生支持文字、图像、音频、视频输入，不再需要在"GPT-4o"和"DALL-E"之间切换。

实测：上传产品演示视频，要求"提炼核心卖点并生成营销文案"——GPT-5 完整完成，视频理解质量接近 Gemini 2.5 Pro。

2. 推理能力接近 o3

Benchmark	GPT-4o	GPT-5	o3（参考）
AIME 2024	13.4%	72.3%	96.7%
GPQA Diamond	53%	79.1%	87.7%
SWE-bench	38%	57.6%	71.7%

对于大多数用户，不再需要在"快速模型"和"推理模型"之间做选择——GPT-5 直接处理大多数场景。

3. 上下文窗口扩展到 256k

从 128k 扩展到 256k，处理更长的文档和代码库。

4. 工具调用可靠性大幅提升

Function Calling 成功率从 84% 提升到 96%——这对 AI Agent 应用意义重大。

5. 价格与 GPT-4o 持平

尽管能力大幅提升，GPT-5 定价与 GPT-4o 相当（$2.5/1M input tokens）。

真实用户反馈

开发者：

"写复杂业务逻辑，一次通过率从 60% 升到 80%+。Function Calling 稳定多了。"

内容创作者：

"中文写作质量提升明显，特别是长文的连贯性和逻辑结构。"

研究人员：

"数学推理虽然比 o3 弱，但大多数研究任务已经够用，不用等 o3 的慢速响应了。"

什么时候用 GPT-5？什么时候用 o3？

用 GPT-5：日常工作任务、多模态任务、需要快速响应的实时对话、Agent 工具调用

继续用 o3：数学证明、高精度代码调试、需要最高推理质量的科研任务

对 Claude 和 Gemini 的压力

Claude 3.5 Sonnet 的写作优势被 GPT-5 明显缩小
Gemini 2.5 Pro 的多模态优势仍在，但 GPT-5 已进入同一竞争层

预计 Anthropic 将在 Q3 发布 Claude 4，Google 也会加快 Gemini 更新节奏。

结论

GPT-5 是一次真正有意义的迭代。对于大多数用户，它可以替代现有工具链中的 GPT-4o + 单独图像生成 + 大部分 o3 使用场景。

如果你只用一个 AI 工具，2026年下半年 GPT-5 将是最合理的主力选择。

2026年5月19日来源：AI Skill Navigation

GPT-5 OpenAI 大模型发布 Benchmark 多模态 Function Calling

阅读原文

本条资讯来源于 AI Skill Navigation，点击查看完整报道。

前往 AI Skill Navigation