返回资讯列表
模型重点

GPT-5 发布:5 大突破与真实用户评测

GPT-5 正式发布,OpenAI 称其为"最大的质变"

2026年5月,OpenAI 正式发布 GPT-5,这是继 GPT-4 之后最重要的模型更新。官方声称 GPT-5 实现了五个方向的重大突破,本文结合公开 Benchmark 和早期用户反馈给出独立评估。

5 大官方突破

1. 多模态能力全面提升

GPT-5 原生支持文字、图像、音频、视频输入,不再需要在"GPT-4o"和"DALL-E"之间切换。

实测:上传产品演示视频,要求"提炼核心卖点并生成营销文案"——GPT-5 完整完成,视频理解质量接近 Gemini 2.5 Pro。

2. 推理能力接近 o3

BenchmarkGPT-4oGPT-5o3(参考)
AIME 202413.4%72.3%96.7%
GPQA Diamond53%79.1%87.7%
SWE-bench38%57.6%71.7%

对于大多数用户,不再需要在"快速模型"和"推理模型"之间做选择——GPT-5 直接处理大多数场景。

3. 上下文窗口扩展到 256k

从 128k 扩展到 256k,处理更长的文档和代码库。

4. 工具调用可靠性大幅提升

Function Calling 成功率从 84% 提升到 96%——这对 AI Agent 应用意义重大。

5. 价格与 GPT-4o 持平

尽管能力大幅提升,GPT-5 定价与 GPT-4o 相当($2.5/1M input tokens)。


真实用户反馈

开发者

"写复杂业务逻辑,一次通过率从 60% 升到 80%+。Function Calling 稳定多了。"

内容创作者

"中文写作质量提升明显,特别是长文的连贯性和逻辑结构。"

研究人员

"数学推理虽然比 o3 弱,但大多数研究任务已经够用,不用等 o3 的慢速响应了。"


什么时候用 GPT-5?什么时候用 o3?

用 GPT-5:日常工作任务、多模态任务、需要快速响应的实时对话、Agent 工具调用

继续用 o3:数学证明、高精度代码调试、需要最高推理质量的科研任务


对 Claude 和 Gemini 的压力

  • Claude 3.5 Sonnet 的写作优势被 GPT-5 明显缩小
  • Gemini 2.5 Pro 的多模态优势仍在,但 GPT-5 已进入同一竞争层

预计 Anthropic 将在 Q3 发布 Claude 4,Google 也会加快 Gemini 更新节奏。


结论

GPT-5 是一次真正有意义的迭代。对于大多数用户,它可以替代现有工具链中的 GPT-4o + 单独图像生成 + 大部分 o3 使用场景。

如果你只用一个 AI 工具,2026年下半年 GPT-5 将是最合理的主力选择。

2026年5月19日来源:AI Skill Navigation
GPT-5OpenAI大模型发布Benchmark多模态Function Calling

阅读原文

本条资讯来源于 AI Skill Navigation,点击查看完整报道。

前往 AI Skill Navigation