ML 模型监控 Dashboard:上线后该盯哪些指标(2026 实战)

模型上线只是开始,没有监控的模型就是在裸奔

返回教程列表
进阶11 分钟

ML 模型监控 Dashboard:上线后该盯哪些指标(2026 实战)

模型上线只是开始,没有监控的模型就是在裸奔

机器学习模型上线后会悄悄退化——数据漂移、性能下滑、线上线下不一致。这篇讲清一个生产级监控 Dashboard 该盯哪些指标、怎么搭、用什么工具,让你在出事前就发现问题。

ML 模型监控 Dashboard:上线后盯什么

很多团队的模型上线那天是高光时刻,然后……就没有然后了。没人盯着它,直到某天效果明显变差、被业务方投诉,才回头查。

模型不是上线就一劳永逸的,它会随着时间悄悄退化。 监控 Dashboard 就是你的眼睛。

模型为什么会「变坏」

它本身没变,是世界变了

  • 数据漂移(Data Drift):线上输入的数据分布,和训练时不一样了。比如用户行为变了、季节变了、有了新品类。
  • 概念漂移(Concept Drift):输入和输出的关系本身变了。反欺诈模型最典型——骗子手法一直在变。
  • 上下游变化:某个特征的数据源改了格式、出了 bug,模型悄悄吃了脏数据。
  • 这些都不会报错,模型照常返回结果,只是结果越来越不靠谱。没监控你根本不知道。

    Dashboard 该盯的四类指标

    1. 性能指标(最直接) 准确率、AUC、F1 等。问题是线上往往拿不到真实标签(label 有延迟),所以常配合代理指标看趋势。

    2. 数据漂移指标 对比线上输入和训练数据的分布。常用 PSI(群体稳定性指数)、KL 散度。某个特征的分布突然偏移,是最早的预警信号。

    3. 预测分布 模型输出本身的分布。比如一个分类模型,突然某一类的预测占比从 5% 飙到 40%,多半出事了。

    4. 系统指标 延迟、吞吐、错误率、资源占用。模型再准,响应要 5 秒也没法用。

    指标类别代表指标看什么

    性能准确率/AUC/F1效果有没有掉 数据漂移PSI、KL 散度输入变没变 预测分布各类别占比输出异不异常 系统延迟、错误率服务稳不稳

    怎么搭

    不用从零造轮子,常见组合:

  • 指标采集:模型服务里埋点,把输入特征、预测、延迟打到日志或时序库。
  • 存储:Prometheus(系统指标)+ 数据仓库(特征/预测)。
  • 可视化:Grafana 拉指标做面板,设阈值告警。
  • 专用工具:Evidently、WhyLabs 这类专门做 ML 监控的,漂移检测开箱即用,省事。
  • python
    

    Evidently 检测数据漂移(示意)

    from evidently.report import Report from evidently.metric_preset import DataDriftPreset

    report = Report(metrics=[DataDriftPreset()]) report.run(reference_data=train_df, current_data=live_df) report.save_html("drift_report.html")

    如果你做的是 LLM 应用,监控维度不太一样(更关注质量、幻觉、成本),那套更适合用 LangSmith / Langfuse 这类 LLM 可观测性工具

    几个实操建议

    先设告警,再做大屏。 漂亮的 Dashboard 没人天天盯,但阈值告警能在半夜把你叫醒。优先级:告警 > 趋势图 > 花哨大屏。

    漂移阈值别拍脑袋。 PSI 常用 0.1(轻微)、0.25(显著)做参考线,但具体得结合你的业务实际跑一段时间校准。

    留好「重训触发器」。 监控的终点是行动——漂移到一定程度,要能触发重新训练或人工介入,光看不动等于没监控。

    小结

    一句话:没有监控的模型,是在裸奔。 上线那天就该把监控一起上,而不是等出事了再补。

    相关工具

    EvidentlyGrafanaPrometheusLangSmith