AI System Design:一个生产级 LLM 应用该怎么设计架构
从一个 API 调用,到能扛流量、控成本、保质量的完整系统
AI System Design:一个生产级 LLM 应用该怎么设计架构
从一个 API 调用,到能扛流量、控成本、保质量的完整系统
把 LLM 接进产品,写个 API 调用谁都会。但要做成能扛真实流量、成本可控、质量稳定的系统,需要架构设计。这篇把一个生产级 LLM 应用的关键模块拆开讲:检索、缓存、限流、降级、监控。
AI System Design:生产级 LLM 应用架构
面试常问「设计一个 ChatGPT」,工作中更常遇到「把 LLM 接进我们产品并扛住流量」。两件事的内核是一样的:从一个 API 调用,长成一个系统。
这篇按模块讲清楚,一个像样的 LLM 应用架构都有哪些层。
一个最小可用的架构
用户
→ API 网关(鉴权、限流)
→ 应用层(编排逻辑)
├─ 缓存层(命中直接返回)
├─ 检索层(RAG:向量库 + 重排)
├─ 模型层(主模型 + 备用模型)
└─ 后处理(过滤、格式化)
→ 监控 / 日志(贯穿全程)
下面逐层说为什么需要。
检索层(RAG)
如果应用要基于私有知识回答,就需要 RAG:把文档向量化存进向量库,查询时检索相关片段喂给模型。这一层的工程量经常被低估——分块策略、检索召回、重排,每一步都影响最终质量。框架选型可参考 LlamaIndex vs LangChain,向量库选型看 Qdrant vs Chroma。
缓存层
LLM 调用又慢又贵,缓存是性价比最高的优化。两种:
高频问题缓存命中率上去后,成本和延迟都能砍一大块。
模型层与降级
别死绑一个模型。设计成可切换的网关,主模型挂了能自动切备用。这部分单独成篇讲过,见 LLM Fallback 降级策略。
成本上还有个常用技巧:模型分级路由——简单问题走便宜的小模型,复杂问题才上 GPT-4o 这种贵的。能省不少钱。
限流与并发
LLM API 有速率限制,你的应用也得有。否则一波流量进来,要么把你自己的额度打爆,要么把下游模型打到 429。网关层做令牌桶限流,超出的排队或快速失败。
后处理
模型输出不能直接信:
监控(最容易省略,最不该省略)
每次调用记录:延迟、token、成本、命中的模型、用户反馈。没有这些,线上质量下滑你根本无感。LLM 应用的监控维度和传统服务不同,详见 LangSmith vs Langfuse。
面试 / 设计时的取舍点
被问到设计题,体现深度的是这些权衡:
小结
LLM 应用架构的核心,不是「怎么调模型」,是「怎么在质量、成本、延迟、可靠性之间做平衡」。检索、缓存、降级、限流、监控——这几层搭齐了,你才有一个能上生产的系统,而不只是一个 demo。
相关工具
相关教程
用实战框架解决AI系统设计面试题,从产品设计到技术架构的完整思路
解决 RAG「答非所问」「遗漏信息」「幻觉」的系统性方法
RAG 和 AI Agent 应用的数据库底座怎么选?4款主流向量数据库深度对比
从部署到调优,手把手搭建企业级 RAG 知识库问答系统
解决 RAG 幻觉、检索不准、上下文丢失三大核心问题
LlamaIndex vs LangChain 怎么选?5个真实场景代码示例