本地部署 LLM 完整指南 2026:Ollama + LM Studio 从安装到实用

不花一分钱、不泄漏数据,在自己的电脑上运行 AI 大模型

返回教程列表
进阶14 分钟

本地部署 LLM 完整指南 2026:Ollama + LM Studio 从安装到实用

不花一分钱、不泄漏数据,在自己的电脑上运行 AI 大模型

2026 年本地 LLM 性能已经非常实用。本文讲解如何用 Ollama 和 LM Studio 在 Mac/Windows/Linux 上部署和运行开源大模型,包括模型选择、配置优化、API 集成,以及哪些场景适合用本地模型代替云端 API。

本地LLMOllamaLM Studio开源模型隐私AILlamaQwen

不是每个 AI 任务都需要付费调用 API。

2026 年,在普通笔记本(M2/M3 Mac,或者 16GB+ 内存的 Windows PC)上运行高质量的 LLM 已经非常流畅。

一、为什么选择本地 LLM

适合本地的场景

  • 处理敏感文档(合同、财务、个人信息)
  • 大批量处理,API 费用太高
  • 网络不稳定或受限的环境
  • 离线开发和测试
  • 学习和实验
  • 不适合本地的场景

  • 需要最新知识(本地模型知识有截止日期)
  • 需要最高质量(GPT-5/Claude Opus 仍领先)
  • 计算资源不足的移动设备
  • 二、两大主流本地 LLM 工具

    Ollama(命令行 + API 服务)

    特点:轻量、快速启动、提供 REST API,适合开发者

    bash
    

    安装 (Mac/Linux)

    curl -fsSL https://ollama.com/install.sh | sh

    安装并运行模型

    ollama run llama3.2:8b # Meta Llama 3.2 8B ollama run qwen2.5:14b # 阿里千问 14B ollama run deepseek-r1:14b # DeepSeek R1 推理模型 ollama run mistral:7b # Mistral 7B

    查看已安装模型

    ollama list

    删除模型

    ollama rm llama3.2:8b

    调用 API(和 OpenAI 格式兼容)

    python
    from openai import OpenAI

    Ollama 默认在 11434 端口运行

    client = OpenAI( base_url="http://localhost:11434/v1", api_key="ollama" # 任意字符串,本地不验证 )

    response = client.chat.completions.create( model="llama3.2:8b", messages=[{"role": "user", "content": "你好"}] ) print(response.choices[0].message.content)

    LM Studio(图形界面)

    特点:无需命令行、可视化聊天界面、适合非开发者

  • 下载 LM Studio(lmstudio.ai)
  • 在搜索框里找模型,点击下载
  • 左侧选择 Chat 模式,开始对话
  • 需要 API 时,在 Server 选项卡启动本地服务器
  • 三、2026 年推荐模型选择

    按硬件配置推荐

    8GB 内存(轻量级选择)

  • qwen2.5:7b(千问 7B,中文效果最佳)
  • llama3.2:3b(速度最快,日常问答够用)
  • 16GB 内存(平衡性能)

  • qwen2.5:14b(中文/代码综合最强)
  • deepseek-r1:14b(推理任务)
  • llama3.1:8b(英文通用)
  • 32GB+ 内存(高质量)

  • qwen2.5:32b(接近 GPT-4o 质量)
  • deepseek-r1:32b(复杂推理)
  • llama3.1:70b(最强开源英文模型之一)
  • 按任务推荐

    任务推荐模型

    中文问答/写作qwen2.5:14b 代码生成/审查deepseek-coder:33b 或 qwen2.5-coder:14b 数学/推理deepseek-r1:14b 英文写作llama3.1:8b 文档分析qwen2.5:14b(长上下文)

    四、与 LangChain 集成

    python
    from langchain_community.llms import Ollama
    from langchain_core.prompts import ChatPromptTemplate

    使用 Ollama 模型

    llm = Ollama(model="qwen2.5:14b")

    构建 RAG 链(完全本地,无数据外发)

    from langchain_community.embeddings import OllamaEmbeddings from langchain_community.vectorstores import Chroma

    embeddings = OllamaEmbeddings(model="nomic-embed-text") vectorstore = Chroma(embedding_function=embeddings)

    完全本地的问答链

    def local_rag(question): docs = vectorstore.similarity_search(question, k=3) context = " ".join([d.page_content for d in docs]) prompt = f"根据以下内容回答问题。

    内容:{context}

    问题:{question}" return llm.invoke(prompt)

    五、性能优化技巧

    GPU 加速(如果有 NVIDIA 显卡)

    bash
    

    Ollama 自动检测和使用 CUDA,无需额外配置

    查看 GPU 使用情况

    ollama ps

    指定 GPU 层数(大模型可以部分放 GPU)

    OLLAMA_NUM_GPU=35 ollama run llama3.1:8b

    量化版本选择

    模型文件名中的量化标识:

  • Q8_0:最高质量,文件最大
  • Q4_K_M:推荐选择(质量损失 <5%,速度快 2 倍)
  • Q2_K:最快最小,质量下降明显
  • 一般选 Q4_K_M 版本,性价比最高。


    延伸阅读

  • Python + AI 开发入门
  • LangChain vs LangGraph 实战指南
  • RAG 知识库最佳实践
  • 相关工具

    OllamaLM StudioLangChainQwen2.5Llama