ML 模型监控 Dashboard：上线后该盯哪些指标（2026 实战）

模型上线只是开始，没有监控的模型就是在裸奔

返回教程列表

进阶约 11 分钟

ML 模型监控 Dashboard：上线后该盯哪些指标（2026 实战）

模型上线只是开始，没有监控的模型就是在裸奔

机器学习模型上线后会悄悄退化——数据漂移、性能下滑、线上线下不一致。这篇讲清一个生产级监控 Dashboard 该盯哪些指标、怎么搭、用什么工具，让你在出事前就发现问题。

模型监控 ML monitoring 数据漂移 data drift MLOps

ML 模型监控 Dashboard：上线后盯什么

很多团队的模型上线那天是高光时刻，然后……就没有然后了。没人盯着它，直到某天效果明显变差、被业务方投诉，才回头查。

模型不是上线就一劳永逸的，它会随着时间悄悄退化。 监控 Dashboard 就是你的眼睛。

模型为什么会「变坏」

它本身没变，是世界变了：

数据漂移（Data Drift）：线上输入的数据分布，和训练时不一样了。比如用户行为变了、季节变了、有了新品类。

概念漂移（Concept Drift）：输入和输出的关系本身变了。反欺诈模型最典型——骗子手法一直在变。

上下游变化：某个特征的数据源改了格式、出了 bug，模型悄悄吃了脏数据。

这些都不会报错，模型照常返回结果，只是结果越来越不靠谱。没监控你根本不知道。

Dashboard 该盯的四类指标

1. 性能指标（最直接）准确率、AUC、F1 等。问题是线上往往拿不到真实标签（label 有延迟），所以常配合代理指标看趋势。

2. 数据漂移指标 对比线上输入和训练数据的分布。常用 PSI（群体稳定性指数）、KL 散度。某个特征的分布突然偏移，是最早的预警信号。

3. 预测分布 模型输出本身的分布。比如一个分类模型，突然某一类的预测占比从 5% 飙到 40%，多半出事了。

4. 系统指标 延迟、吞吐、错误率、资源占用。模型再准，响应要 5 秒也没法用。

指标类别代表指标看什么

性能准确率/AUC/F1效果有没有掉数据漂移PSI、KL 散度输入变没变预测分布各类别占比输出异不异常系统延迟、错误率服务稳不稳

怎么搭

不用从零造轮子，常见组合：

指标采集：模型服务里埋点，把输入特征、预测、延迟打到日志或时序库。

存储：Prometheus（系统指标）+ 数据仓库（特征/预测）。

可视化：Grafana 拉指标做面板，设阈值告警。

专用工具：Evidently、WhyLabs 这类专门做 ML 监控的，漂移检测开箱即用，省事。

python
Evidently 检测数据漂移（示意）
from evidently.report import Report
from evidently.metric_preset import DataDriftPresetreport = Report(metrics=[DataDriftPreset()])
report.run(reference_data=train_df, current_data=live_df)
report.save_html("drift_report.html")

如果你做的是 LLM 应用，监控维度不太一样（更关注质量、幻觉、成本），那套更适合用 LangSmith / Langfuse 这类 LLM 可观测性工具。

几个实操建议

先设告警，再做大屏。 漂亮的 Dashboard 没人天天盯，但阈值告警能在半夜把你叫醒。优先级：告警 > 趋势图 > 花哨大屏。

漂移阈值别拍脑袋。 PSI 常用 0.1（轻微）、0.25（显著）做参考线，但具体得结合你的业务实际跑一段时间校准。

留好「重训触发器」。 监控的终点是行动——漂移到一定程度，要能触发重新训练或人工介入，光看不动等于没监控。

小结

一句话：没有监控的模型，是在裸奔。 上线那天就该把监控一起上，而不是等出事了再补。

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

ML 模型监控 Dashboard：上线后该盯哪些指标（2026 实战）

ML 模型监控 Dashboard：上线后盯什么

模型为什么会「变坏」

Dashboard 该盯的四类指标

怎么搭

Evidently 检测数据漂移（示意）

几个实操建议

小结

Documentation

Getting Started

Learn more