本地部署 LLM 完整指南 2026:Ollama + LM Studio 从安装到实用
不花一分钱、不泄漏数据,在自己的电脑上运行 AI 大模型
本地部署 LLM 完整指南 2026:Ollama + LM Studio 从安装到实用
不花一分钱、不泄漏数据,在自己的电脑上运行 AI 大模型
2026 年本地 LLM 性能已经非常实用。本文讲解如何用 Ollama 和 LM Studio 在 Mac/Windows/Linux 上部署和运行开源大模型,包括模型选择、配置优化、API 集成,以及哪些场景适合用本地模型代替云端 API。
不是每个 AI 任务都需要付费调用 API。
2026 年,在普通笔记本(M2/M3 Mac,或者 16GB+ 内存的 Windows PC)上运行高质量的 LLM 已经非常流畅。
一、为什么选择本地 LLM
适合本地的场景:
不适合本地的场景:
二、两大主流本地 LLM 工具
Ollama(命令行 + API 服务)
特点:轻量、快速启动、提供 REST API,适合开发者
bash
安装 (Mac/Linux)
curl -fsSL https://ollama.com/install.sh | sh安装并运行模型
ollama run llama3.2:8b # Meta Llama 3.2 8B
ollama run qwen2.5:14b # 阿里千问 14B
ollama run deepseek-r1:14b # DeepSeek R1 推理模型
ollama run mistral:7b # Mistral 7B查看已安装模型
ollama list删除模型
ollama rm llama3.2:8b
调用 API(和 OpenAI 格式兼容):
python
from openai import OpenAIOllama 默认在 11434 端口运行
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 任意字符串,本地不验证
)response = client.chat.completions.create(
model="llama3.2:8b",
messages=[{"role": "user", "content": "你好"}]
)
print(response.choices[0].message.content)
LM Studio(图形界面)
特点:无需命令行、可视化聊天界面、适合非开发者
三、2026 年推荐模型选择
按硬件配置推荐
8GB 内存(轻量级选择):
16GB 内存(平衡性能):
32GB+ 内存(高质量):
按任务推荐
四、与 LangChain 集成
python
from langchain_community.llms import Ollama
from langchain_core.prompts import ChatPromptTemplate使用 Ollama 模型
llm = Ollama(model="qwen2.5:14b")构建 RAG 链(完全本地,无数据外发)
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chromaembeddings = OllamaEmbeddings(model="nomic-embed-text")
vectorstore = Chroma(embedding_function=embeddings)
完全本地的问答链
def local_rag(question):
docs = vectorstore.similarity_search(question, k=3)
context = "
".join([d.page_content for d in docs])
prompt = f"根据以下内容回答问题。内容:{context}
问题:{question}"
return llm.invoke(prompt)
五、性能优化技巧
GPU 加速(如果有 NVIDIA 显卡)
bash
Ollama 自动检测和使用 CUDA,无需额外配置
查看 GPU 使用情况
ollama ps指定 GPU 层数(大模型可以部分放 GPU)
OLLAMA_NUM_GPU=35 ollama run llama3.1:8b
量化版本选择
模型文件名中的量化标识:
一般选 Q4_K_M 版本,性价比最高。
延伸阅读
相关工具