模型部署与生产化

把大模型送上生产：推理服务、扩缩容、容器化与本地/云部署，涵盖 vLLM、Docker、Kubernetes 与成本优化的工程实践。

全部教程

模型部署与生产化

把大模型送上生产：推理服务、扩缩容、容器化与本地/云部署，涵盖 vLLM、Docker、Kubernetes 与成本优化的工程实践。

本主题共 15 篇教程

高级

大模型推理加速实战：Prefill/Decode 优化、投机解码与国产芯片适配

从底层原理到前沿方案，系统降低大模型部署成本

入门

Ollama vs vLLM：本地大模型部署该选谁？（2026）

Ollama 与 vLLM 本地大模型部署深度对比

高级

LLM 推理优化：vLLM、TensorRT-LLM 与规模化服务（2026）

PagedAttention、连续批处理、量化及生产级服务策略

高级

AI 金丝雀分析

自动化金丝雀分析，实现安全的 AI 模型发布

进阶

使用OpenAI Assistants API构建AI客户支持代理（2026版）

完整指南：利用OpenAI Assistants API的文件搜索、代码解释器和自定义工具，构建生产级AI客户支持系统

高级

在树莓派 5 上部署 TinyLlama 1.1B — 家庭自动化助手

在树莓派 5 上本地运行 TinyLlama 1.1B 的完整设置指南，用于家庭自动化助手

进阶

Celery 在 AI 应用中的异步任务处理指南 2026

使用 Celery 在 Python 应用中异步处理长时间运行的 AI 任务

高级

在 Ollama 本地服务器上部署任意 GGUF 模型 — 本地开发 AI

在 Ollama 本地服务器上运行任意 GGUF 模型的完整设置指南，用于本地开发 AI

高级

在英特尔酷睿Ultra笔记本上部署Mistral 7B——笔记本推理

在英特尔酷睿Ultra笔记本上本地运行Mistral 7B的完整设置指南

高级

在ONNX Runtime CrossPlatform上部署任意ONNX模型

在ONNX Runtime CrossPlatform上本地运行任意ONNX模型的完整设置指南，实现跨平台部署

进阶

Prometheus + Grafana 在 AI 应用中的监控实践：2026 指南

为 LLM API 成本、延迟和错误率搭建全面监控

进阶

vLLM 高吞吐量服务：教程与最佳实践

使用 vLLM 构建生产级 AI——PagedAttention 实现 GPU 推理

高级

在 vLLM Production Serving 上部署 Llama 3.1 70B — 高吞吐量服务

在 vLLM Production Serving 上本地运行 Llama 3.1 70B 的完整设置指南，实现高吞吐量服务

高级

在 LM Studio Desktop 上部署 GGUF 模型——无代码本地 AI 图形界面

在 LM Studio Desktop 上本地运行 GGUF 模型的完整设置指南，实现无代码本地 AI 图形界面

高级

ML 元数据管理

使用 MLMD 跟踪 ML 工件、血缘和来源

浏览其他主题

RAG 检索增强生成 AI Agent 与多智能体工作流与自动化 OpenAI 开发实战 Claude / Anthropic 开发 LangChain / LangGraph 模型微调与训练 Prompt 工程 MCP（Model Context Protocol）评估、测试与可观测 AI 安全与合规 API 与集成开发 AI 与世界杯

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

模型部署与生产化

模型部署与生产化

大模型推理加速实战：Prefill/Decode 优化、投机解码与国产芯片适配

Ollama vs vLLM：本地大模型部署该选谁？（2026）

LLM 推理优化：vLLM、TensorRT-LLM 与规模化服务（2026）

AI 金丝雀分析

使用OpenAI Assistants API构建AI客户支持代理（2026版）

在树莓派 5 上部署 TinyLlama 1.1B — 家庭自动化助手

Celery 在 AI 应用中的异步任务处理指南 2026

在 Ollama 本地服务器上部署任意 GGUF 模型 — 本地开发 AI

在英特尔酷睿Ultra笔记本上部署Mistral 7B——笔记本推理

在ONNX Runtime CrossPlatform上部署任意ONNX模型

Prometheus + Grafana 在 AI 应用中的监控实践：2026 指南

vLLM 高吞吐量服务：教程与最佳实践

在 vLLM Production Serving 上部署 Llama 3.1 70B — 高吞吐量服务

在 LM Studio Desktop 上部署 GGUF 模型——无代码本地 AI 图形界面

ML 元数据管理

浏览其他主题

Documentation

Getting Started

Learn more