本地部署 LLM 完整指南 2026：Ollama + LM Studio 从安装到实用

不花一分钱、不泄漏数据，在自己的电脑上运行 AI 大模型

进阶约 14 分钟

本地部署 LLM 完整指南 2026：Ollama + LM Studio 从安装到实用

不花一分钱、不泄漏数据，在自己的电脑上运行 AI 大模型

2026 年本地 LLM 性能已经非常实用。本文讲解如何用 Ollama 和 LM Studio 在 Mac/Windows/Linux 上部署和运行开源大模型，包括模型选择、配置优化、API 集成，以及哪些场景适合用本地模型代替云端 API。

本地LLMOllamaLM Studio开源模型隐私AILlamaQwen

不是每个 AI 任务都需要付费调用 API。

2026 年，在普通笔记本（M2/M3 Mac，或者 16GB+ 内存的 Windows PC）上运行高质量的 LLM 已经非常流畅。

一、为什么选择本地 LLM

适合本地的场景：

处理敏感文档（合同、财务、个人信息）

大批量处理，API 费用太高

网络不稳定或受限的环境

离线开发和测试

学习和实验

不适合本地的场景：

需要最新知识（本地模型知识有截止日期）

需要最高质量（GPT-5/Claude Opus 仍领先）

计算资源不足的移动设备

二、两大主流本地 LLM 工具

Ollama（命令行 + API 服务）

特点：轻量、快速启动、提供 REST API，适合开发者

bash
安装 (Mac/Linux)
curl -fsSL https://ollama.com/install.sh | sh
安装并运行模型
ollama run llama3.2:8b         # Meta Llama 3.2 8B
ollama run qwen2.5:14b          # 阿里千问 14B
ollama run deepseek-r1:14b      # DeepSeek R1 推理模型
ollama run mistral:7b           # Mistral 7B
查看已安装模型
ollama list
删除模型
ollama rm llama3.2:8b

调用 API（和 OpenAI 格式兼容）：

python
from openai import OpenAI
Ollama 默认在 11434 端口运行
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意字符串，本地不验证
)response = client.chat.completions.create(
    model="llama3.2:8b",
    messages=[{"role": "user", "content": "你好"}]
)
print(response.choices[0].message.content)

LM Studio（图形界面）

特点：无需命令行、可视化聊天界面、适合非开发者

下载 LM Studio（lmstudio.ai）

在搜索框里找模型，点击下载

左侧选择 Chat 模式，开始对话

需要 API 时，在 Server 选项卡启动本地服务器

三、2026 年推荐模型选择

按硬件配置推荐

8GB 内存（轻量级选择）：

qwen2.5:7b（千问 7B，中文效果最佳）

llama3.2:3b（速度最快，日常问答够用）

16GB 内存（平衡性能）：

qwen2.5:14b（中文/代码综合最强）

deepseek-r1:14b（推理任务）

llama3.1:8b（英文通用）

32GB+ 内存（高质量）：

qwen2.5:32b（接近 GPT-4o 质量）

deepseek-r1:32b（复杂推理）

llama3.1:70b（最强开源英文模型之一）

按任务推荐

任务推荐模型

中文问答/写作qwen2.5:14b 代码生成/审查deepseek-coder:33b 或 qwen2.5-coder:14b 数学/推理deepseek-r1:14b 英文写作llama3.1:8b 文档分析qwen2.5:14b（长上下文）

四、与 LangChain 集成

python
from langchain_community.llms import Ollama
from langchain_core.prompts import ChatPromptTemplate
使用 Ollama 模型
llm = Ollama(model="qwen2.5:14b")
构建 RAG 链（完全本地，无数据外发）
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma
embeddings = OllamaEmbeddings(model="nomic-embed-text")
vectorstore = Chroma(embedding_function=embeddings)
完全本地的问答链
def local_rag(question):
    docs = vectorstore.similarity_search(question, k=3)
    context = "
".join([d.page_content for d in docs])
    
    prompt = f"根据以下内容回答问题。
内容：{context}问题：{question}"
    return llm.invoke(prompt)

五、性能优化技巧

GPU 加速（如果有 NVIDIA 显卡）

bash
Ollama 自动检测和使用 CUDA，无需额外配置
查看 GPU 使用情况
ollama ps
指定 GPU 层数（大模型可以部分放 GPU）
OLLAMA_NUM_GPU=35 ollama run llama3.1:8b

量化版本选择

模型文件名中的量化标识：

Q8_0：最高质量，文件最大

Q4_K_M：推荐选择（质量损失 <5%，速度快 2 倍）

Q2_K：最快最小，质量下降明显

一般选 Q4_K_M 版本，性价比最高。

本地部署 LLM 完整指南 2026：Ollama + LM Studio 从安装到实用

本地部署 LLM 完整指南 2026：Ollama + LM Studio 从安装到实用

一、为什么选择本地 LLM

二、两大主流本地 LLM 工具

Ollama（命令行 + API 服务）

安装 (Mac/Linux)

安装并运行模型

查看已安装模型

删除模型

Ollama 默认在 11434 端口运行

LM Studio（图形界面）

三、2026 年推荐模型选择

按硬件配置推荐

按任务推荐

四、与 LangChain 集成

使用 Ollama 模型

构建 RAG 链（完全本地，无数据外发）

完全本地的问答链

五、性能优化技巧

GPU 加速（如果有 NVIDIA 显卡）

Ollama 自动检测和使用 CUDA，无需额外配置

查看 GPU 使用情况

指定 GPU 层数（大模型可以部分放 GPU）

量化版本选择

延伸阅读

Documentation

Getting Started

Learn more