本地LLM完整指南2026:用Ollama在自己电脑运行AI大模型

安装配置、模型选择、API集成——让AI彻底在本地运行

返回教程列表
入门10 分钟

本地LLM完整指南2026:用Ollama在自己电脑运行AI大模型

安装配置、模型选择、API集成——让AI彻底在本地运行

Ollama让本地运行开源大模型变得像安装一个应用一样简单。本文详细介绍如何用Ollama运行Llama 3、Qwen2.5等主流模型,以及与云端API的实际对比。

Ollama本地LLM开源AILlamaQwen

本地LLM完整指南2026:用Ollama运行AI大模型

为什么要在本地运行LLM?

  • 隐私:数据不离开本地,适合处理敏感信息
  • 成本:一次性硬件投入,无API费用
  • 延迟:无网络延迟
  • 可用性:不依赖网络
  • 安装(3分钟)

    bash
    

    macOS/Linux

    curl -fsSL https://ollama.com/install.sh | sh ollama run llama3.2 # 运行第一个模型

    主流模型推荐

    模型大小内存适合

    Llama 3.2 3B2GB4GB低配设备 Qwen2.5 7B5GB8GB中文任务 DeepSeek-R1 7B5GB8GB逻辑推理 Llama 3.1 70B40GB64GB高质量生成

    API集成(OpenAI兼容)

    python
    from openai import OpenAI
    client = OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')

    response = client.chat.completions.create( model="qwen2.5:7b", messages=[{"role": "user", "content": "写一个快速排序"}] )

    自定义模型

    dockerfile
    FROM qwen2.5:7b
    SYSTEM """你是专业的代码审查助手"""
    PARAMETER temperature 0.1
    

    bash
    ollama create code-reviewer -f ./Modelfile
    

    与云端API的对比

    MacBook M3 Max上:

  • Qwen2.5 7B:50 tokens/s,中文表现优秀
  • Llama 3.1 8B:45 tokens/s,均衡能力
  • 总结

    本地LLM是云端API的补充,适合:隐私数据处理、高频小任务、离线场景、开发测试。

    入门建议:M芯片Mac用户直接用Qwen2.5:7b。

    相关工具

    OllamaLM StudioJan