无服务器AI：在AWS Lambda、Cloudflare Workers和边缘计算上运行机器学习模型（2025版）

利用无服务器和边缘计算平台，在边缘部署AI推理，实现超低延迟

进阶约 20 分钟

无服务器AI：在AWS Lambda、Cloudflare Workers和边缘计算上运行机器学习模型（2025版）

利用无服务器和边缘计算平台，在边缘部署AI推理，实现超低延迟

无服务器和边缘计算改变了AI部署的经济性——仅按实际推理付费，可缩放到零，从全球边缘位置提供预测服务。本指南涵盖在AWS Lambda上使用容器镜像运行ML模型、Cloudflare Workers AI、Vercel AI SDK、使用ONNX Runtime Web和TensorFlow.js进行边缘推理，以及为您的AI用例选择服务器、无服务器和边缘部署方案。

Serverless AI AWS Lambda Cloudflare Workers Edge AI ONNX Vercel AI

无服务器AI：Lambda、Cloudflare Workers与边缘推理

何时使用无服务器AI

无服务器AI适用于以下场景：流量不可预测（有高峰和低谷）、希望零基础设施管理、冷启动延迟可接受、推理在15分钟内完成（Lambda限制）、模型大小符合内存限制（Lambda为10GB）。

不适合：需要专用GPU的GPU推理、大型模型（>10GB）、非常高的持续吞吐量（服务器更具成本效益）、需要持久连接的流式推理。

AWS Lambda上的ML推理

基于容器的Lambda用于ML

Lambda容器镜像支持高达10GB——足以容纳许多ML模型。使用Python 3.11基础镜像，搭配精简版PyTorch或ONNX Runtime。将模型权重打包在容器内，或在冷启动时从S3加载。

Dockerfile：FROM public.ecr.aws/lambda/python:3.11。仅安装所需包（CPU推理使用torch-cpu）。复制模型权重。设置处理函数。构建并推送到ECR。

Lambda配置：内存3008MB（影响CPU分配），推理超时30秒，预留并发以限制并行调用（成本控制），对关键工作负载使用预置并发消除冷启动。

冷启动优化：最小化包大小（torch CPU为600MB，而GPU版本超过2GB），对模型权重使用懒加载，通过EventBridge每5分钟发送预热ping。

Lambda上的推理模式

同步：API Gateway → Lambda → 返回预测。最适合推理时间<15秒的实时用例。配置API Gateway超时与Lambda超时一致。

异步：客户端 → SQS → Lambda → 将结果存储在DynamoDB → 客户端轮询。最适合长时间推理、批处理、不需要立即响应的工作流。

成本优化

Lambda定价：每GB-秒$0.0000166667。3GB Lambda，1秒推理 = 每次请求$0.00005 = 每百万请求$50。对比专用EC2：m5.large（$0.096/小时）处理约100请求/秒 = 每次请求$0.000027。盈亏平衡点：如果每天持续负载超过500,000请求，专用计算可能更便宜。

Cloudflare Workers AI

Cloudflare Workers AI在全球300多个PoP边缘运行推理。可用模型：文本生成（Llama 3）、文本嵌入、图像分类、语音识别、翻译。无需管理GPU——Cloudflare提供推理基础设施。

Workers AI示例：获取AI绑定，使用模型ID和消息数组调用ai.run，返回JSON响应。延迟：由于边缘分布，通常为100-300毫秒。

限制：模型选择限于Cloudflare的目录，尚不支持自定义模型部署，每个账户有吞吐量限制。

Vercel AI SDK边缘函数

Vercel的AI SDK支持从边缘函数流式传输LLM响应：从'ai'导入streamText，导入OpenAI提供者，使用模型和消息调用streamText，返回结果文本流响应。边缘函数部署到Vercel全球100多个边缘位置。

支持：OpenAI、Anthropic、Google、Mistral以及自定义提供者。内置流式传输、令牌计数和错误处理。

ONNX Runtime用于可移植推理

将模型导出为ONNX格式，实现框架无关的推理。ONNX Runtime支持：CPU（x86、ARM）、GPU（CUDA、DirectML、CoreML）、WebAssembly（浏览器推理）和边缘设备。

将PyTorch模型导出为ONNX：使用虚拟输入张量调用torch.onnx.export。使用onnxruntime-tools优化：降低模型精度、融合算子。使用ONNXRuntime.InferenceSession部署——无需PyTorch依赖。

Lambda上的ONNX：包大小比PyTorch小10倍，CPU推理快2-3倍。非常适合经典ML模型（sklearn、XGBoost）和较小的神经网络。

边缘AI：WebAssembly和TensorFlow.js

浏览器推理

TensorFlow.js直接在浏览器中运行模型：无需服务器往返，可离线工作，用户数据永不离开设备，零基础设施成本。用例：实时姿态检测、来自摄像头的目标检测、设备端文本分类。

使用tf.loadLayersModel或tf.loadGraphModel加载模型。使用model.predict运行推理。在支持的浏览器中使用WebGL后端进行GPU加速。

用于服务器-边缘的WebAssembly

WASI（WebAssembly系统接口）使得在WebAssembly中以接近原生的速度运行ONNX模型成为可能。运行时使用Wasmtime或wasmer。部署到支持WASM的边缘平台（Cloudflare Workers、Fastly Compute@Edge、Deno Deploy）。

选择您的AI部署策略

因素服务器（EC2/GKE）无服务器（Lambda）边缘（CF Workers）

延迟低（同区域）中等（冷启动）极低（全球边缘）大规模成本最佳良好较高低流量成本浪费最佳良好模型大小任意<10GB<1GB 自定义模型是是否（仅目录） GPU推理是有限否

边缘AI适用于：实时个性化、大规模内容审核、全球分布式应用以及数据不应离开用户区域的隐私敏感推理。

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

无服务器AI：在AWS Lambda、Cloudflare Workers和边缘计算上运行机器学习模型（2025版）

无服务器AI：Lambda、Cloudflare Workers与边缘推理

何时使用无服务器AI

AWS Lambda上的ML推理

基于容器的Lambda用于ML

Lambda上的推理模式

成本优化

Cloudflare Workers AI

Vercel AI SDK边缘函数

ONNX Runtime用于可移植推理

边缘AI：WebAssembly和TensorFlow.js

浏览器推理

用于服务器-边缘的WebAssembly

选择您的AI部署策略

Documentation

Getting Started

Learn more