AI 模型量化（GPTQ/AWQ）：2026 年开发者完全指南

通过实际示例和生产模式掌握 AI 模型量化（GPTQ/AWQ）

高级约 10 分钟

AI 模型量化（GPTQ/AWQ）：2026 年开发者完全指南

通过实际示例和生产模式掌握 AI 模型量化（GPTQ/AWQ）

AI 模型量化（GPTQ/AWQ）完全指南（2026）：用更少比特存储权重以节省显存/提升速度。GPTQ vs AWQ 对比、bitsandbytes/GGUF、4bit 甜点位选择，以及“直接下载预量化权重 + vLLM/Ollama 部署”的实战路径。

quantization gptq awq model optimization

AI 模型量化（GPTQ/AWQ）：2026 年开发者完全指南

量化通过用更少的比特（例如 4 位而非 16 位）存储模型权重来缩小模型体积，从而减少内存占用并通常加速推理——同时只带来微小且通常可接受的质量损失。正是它让 70B 模型能塞进单张 GPU，或让 7B 模型在笔记本上运行。本指南涵盖两种主流的训练后量化方法：GPTQ 和 AWQ，以及何时使用它们。

为什么要量化

FP16 格式的模型每个参数约需 2 字节：8B 模型 ≈ 16GB，70B 模型 ≈ 140GB。量化到 4 位后，这些数字降至约 4GB 和 35GB——这就是“需要数据中心 GPU”与“能在 24GB 显卡上运行”的区别。更小的权重还意味着每个 token 所需的内存带宽更少，这通常会提高吞吐量。要实际部署量化模型，请参阅 Ollama vs vLLM。

GPTQ vs AWQ

GPTQAWQ

方法逐层误差最小化量化激活感知：保护重要权重典型比特数3–4 位4 位优势成熟，广泛支持4 位时质量通常更好，内核快速使用场景需要广泛的工具/兼容性追求最佳 4 位精度 + 速度

GPTQ 逐层量化权重，最小化舍入引入的输出误差。它历史悠久，生态系统支持广泛。

AWQ（激活感知权重量化）观察到一小部分权重（与较大激活相乘的那些）最为关键，并加以保护，这往往能在 4 位时更好地保持精度，并与快速推理内核配合良好。

还有 bitsandbytes（即时 8 位/4 位量化，对训练/QLoRA 最简单）和 GGUF（Ollama/llama.cpp 用于 CPU/Apple Silicon 的格式）。

实际使用

python
使用 vLLM 加载预量化的 AWQ 模型
vllm serve TheBloke/Llama-3.1-8B-Instruct-AWQ --quantization awq
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="x")
print(client.chat.completions.create(
    model="TheBloke/Llama-3.1-8B-Instruct-AWQ",
    messages=[{"role": "user", "content": "Hello"}]).choices[0].message.content)

对大多数人而言，做法是下载已量化的检查点（Hugging Face 上有流行模型的 GPTQ/AWQ/GGUF 变体），而不是自己量化。仅当你有一个微调后的模型需要压缩时，才自行量化——并配合 LoRA 微调使用。

选择比特数

8 位： 几乎无损，节省适中——当你有一定余量时，是安全默认选项。

4 位（AWQ/GPTQ）： 节省巨大，质量损失小——本地/消费级 GPU 的甜点。

3 位及以下： 明显退化；仅在内存极度紧张时使用。

常见问题

量化会损害质量吗？ 会有一点——4 位通常是一个微小且可接受的下降；低于 4 位则下降加剧。 GPTQ 还是 AWQ？ AWQ 在 4 位精度和速度上通常略胜一筹；GPTQ 拥有最广泛的工具支持。在你的任务上两者都试试。 GGUF 呢？ 那是通过 llama.cpp/Ollama 用于 CPU/Apple Silicon 的格式——参见本地 LLM 对比。 我可以量化 LoRA 微调后的模型吗？ 可以——合并适配器，然后量化，或者使用 QLoRA，它在量化基座上训练。

总结

量化是让大型模型在普通硬件上运行的关键杠杆。GPTQ 和 AWQ 是两种主流的 4 位训练后量化方法；AWQ 在精度/速度上通常胜出，GPTQ 则在生态系统广度上占优。实践中，获取预量化检查点，并用 vLLM 或 Ollama 部署即可。

*最后更新：2026 年 6 月。请根据 vLLM、AutoAWQ 和 AutoGPTQ 的文档验证内核/格式支持。*

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

AI 模型量化（GPTQ/AWQ）：2026 年开发者完全指南

AI 模型量化（GPTQ/AWQ）：2026 年开发者完全指南

为什么要量化

GPTQ vs AWQ

实际使用

使用 vLLM 加载预量化的 AWQ 模型

vllm serve TheBloke/Llama-3.1-8B-Instruct-AWQ --quantization awq

选择比特数

常见问题

总结

Documentation

Getting Started

Learn more