EN

AI 模型对比

主流 AI 模型横向对比:能力评分、价格、上下文窗口与 Benchmark 排名

55

收录模型

30

开源模型

21

多模态

10

家厂商

Claude Opus 4.8

Anthropic

多模态

Anthropic 当前最强模型,复杂推理、长周期 Agentic 编码与高自主任务能力顶级,Intelligence Index 排名第一。

上下文窗口

1M

输入价格

$5 / 1M

输出价格

$25 / 1M

查看详情

Claude Sonnet 4.6

Anthropic

多模态

速度与智能的最佳平衡款,1M 上下文,日常开发与 Agent 任务的性价比之选。

上下文窗口

1M

输入价格

$3 / 1M

输出价格

$15 / 1M

查看详情

Claude Opus 4.7

Anthropic

多模态

Claude Opus 上一代旗舰,1M 上下文,复杂推理与 Agentic 编码能力强,仍是顶级选择。

上下文窗口

1M

输入价格

$5 / 1M

输出价格

$25 / 1M

查看详情

Claude Opus 4.6

Anthropic

多模态

Claude Opus 4.6,1M 上下文,支持扩展思考,复杂任务表现稳定。

上下文窗口

1M

输入价格

$5 / 1M

输出价格

$25 / 1M

查看详情

Claude Sonnet 4.5

Anthropic

多模态

Claude Sonnet 4.5,200K 上下文,速度与智能均衡,编码与 Agent 任务表现优异。

上下文窗口

200K

输入价格

$3 / 1M

输出价格

$15 / 1M

查看详情

Claude 3.5 Sonnet

Anthropic

多模态

Anthropic 最强编程模型,SWE-bench 第一,代码质量和指令遵循能力顶级,Agent 任务表现优异

上下文窗口

200K

输入价格

$3 / 1M

输出价格

$15 / 1M

查看详情

Claude Opus 4.5

Anthropic

多模态

Claude Opus 4.5,200K 上下文,高质量推理与编码,性价比相对更优。

上下文窗口

200K

输入价格

$5 / 1M

输出价格

$25 / 1M

查看详情

Claude Haiku 4.5

Anthropic

多模态

Claude Haiku 4.5,最快的 Claude,近前沿智能、200K 上下文,适合高并发与低延迟场景。

上下文窗口

200K

输入价格

$1 / 1M

输出价格

$5 / 1M

查看详情

Claude 3 Haiku

Anthropic

多模态

Anthropic 最快最便宜的模型,适合实时对话和高频 API 调用,成本极低

上下文窗口

200K

输入价格

$0.25 / 1M

输出价格

$1.25 / 1M

查看详情

GPT / OpenAI

系列对比

Qwen 通义千问

系列对比

GLM 智谱

系列对比

Step 阶跃星辰

系列对比

其他模型

Benchmark 排行

GAIAAgent

测量 AI Agent 完成真实世界任务的能力,包括多步骤推理、工具使用和信息检索

Claude 3.5 Sonnet

53.6%

SWE-bench Verified代码

基于真实 GitHub Issues 测试 AI 修复代码 Bug 的能力,被认为是最接近真实开发场景的评测

Claude 3.5 Sonnet

49%

HumanEval代码

代码生成能力基准,包含 164 个编程问题,测试从描述直接生成函数的能力

DeepSeek-V3

90.2%

MMLU知识

57个学科的综合知识理解测试,覆盖数学、科学、法律、医学等,评估模型的广泛知识储备

GPT-4o

88.7%

Chatbot Arena用户偏好

基于真实用户盲测投票的偏好排行榜,是最能反映实际用户满意度的评测

Claude 3.5 Sonnet

ELO 1268

HumanEval+代码

OpenAI 发布的代码生成基准,评估模型编写 Python 函数解决算法问题的能力

Qwen2.5-Coder 32B

98.5%

MATH推理

高中到竞赛级别数学问题测试集,考查模型的数学推理和解题能力

o1-preview

94.8%

MMLU Pro知识

涵盖 57 个学科的多任务语言理解基准,是最广泛使用的知识评测集

GPT-4o

88.7%

价格说明

价格为参考值,实际以各厂商官网为准。部分模型提供免费额度或 API 试用。开源模型可自托管,仅需支付算力成本。