评估、测试与可观测

LLM 应用的评估与可观测：基准测试、RAG 评估、Tracing 与监控、Guardrails，建立可量化的质量闭环。

全部教程

评估、测试与可观测

LLM 应用的评估与可观测：基准测试、RAG 评估、Tracing 与监控、Guardrails，建立可量化的质量闭环。

本主题共 12 篇教程

进阶

世界模型入门：从视频生成到物理推理，理解 AI 如何建模现实

厘清概念、分类与评估方法，揭示世界模型在具身智能与视频生成中的核心挑战

进阶

AI 安全实战：从提示注入到护栏工程，构建可信智能体系统

系统梳理 AI 安全风险与防护手段，助力开发者构建可靠智能体

进阶

具身智能技术栈全景：从 VLA 到世界动作模型，机器人如何学会干活

五层技术堆栈深度拆解，VLA、世界模型、触觉感知与跨本体泛化全解析

进阶

Agent 数据架构新范式：Skill + 语义层 + 知识库，让企业 Agent 真正落地

从数据架构角度出发，结合 Skill、语义层和知识库，解决 Agent 落地中的指标口径、实时数据和权限等卡点。

高级

AI 模型评测与安全红宝书：基准、越狱与对齐实践

从 GeneBench-Pro 到 CJS 框架，系统梳理模型评测基准、安全攻击与对齐技术的全景与深度实践

高级

世界模型与具身智能：从预测到动作的统一框架

梳理世界模型（WAM、WVM、LoopWM）与具身智能（VLA、Skill）的最新进展，以及如何评估和落地

进阶

大模型后训练实战：从 SFT 到 RL 的完整技术栈

系统讲解后训练中的关键方法（SFT、RLHF、OPD、PEFT），并给出评估通用能力损失的量化方法

进阶

WhyLabs AI Observatory: 完整设置指南

使用 WhyLabs 实现实时数据和 AI 监控

进阶

LangSmith LLM 评估：构建系统化反馈循环

追踪收集、评估数据集、A/B 测试与回归检测

进阶

Prometheus + Grafana 在 AI 应用中的监控实践：2026 指南

为 LLM API 成本、延迟和错误率搭建全面监控

高级

时间序列异常检测：从统计方法到深度学习方法

孤立森林、LSTM自编码器及生产级异常检测系统

进阶

RAGAS 评估：开发者指南与快速入门 2026

学习 RAGAS 评估：定量评估 RAG 系统

浏览其他主题

RAG 检索增强生成 AI Agent 与多智能体模型部署与生产化工作流与自动化 OpenAI 开发实战 Claude / Anthropic 开发 LangChain / LangGraph 模型微调与训练 Prompt 工程 MCP（Model Context Protocol）AI 安全与合规 API 与集成开发 AI 与世界杯

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

评估、测试与可观测

评估、测试与可观测

世界模型入门：从视频生成到物理推理，理解 AI 如何建模现实

AI 安全实战：从提示注入到护栏工程，构建可信智能体系统

具身智能技术栈全景：从 VLA 到世界动作模型，机器人如何学会干活

Agent 数据架构新范式：Skill + 语义层 + 知识库，让企业 Agent 真正落地

AI 模型评测与安全红宝书：基准、越狱与对齐实践

世界模型与具身智能：从预测到动作的统一框架

大模型后训练实战：从 SFT 到 RL 的完整技术栈

WhyLabs AI Observatory: 完整设置指南

LangSmith LLM 评估：构建系统化反馈循环

Prometheus + Grafana 在 AI 应用中的监控实践：2026 指南

时间序列异常检测：从统计方法到深度学习方法

RAGAS 评估：开发者指南与快速入门 2026

浏览其他主题

Documentation

Getting Started

Learn more