教程中心

AI 输出验证

验证 AI 生成内容的正确性与安全性

AI 输出验证概述：验证 AI 生成内容的正确性与安全性。本指南涵盖生产级 AI 系统的实用实现策略。

安全强化学习智能体训练

面向AI智能体开发的安全强化学习实践

安全强化学习智能体训练概述：面向AI智能体开发的安全强化学习实践。本指南涵盖生产级AI系统的实用实现策略。

训练数据投毒防御

保护机器学习训练数据免受对抗性污染

训练数据投毒防御概述：保护机器学习训练数据免受对抗性污染。本指南涵盖生产级AI系统的实用实现策略。

AI 事件响应手册

规划与应对 AI 相关安全事件

AI 事件响应手册概述：规划与应对 AI 相关安全事件。本指南涵盖生产环境中 AI 系统的实用实施策略。

LLM 可解释性方法

理解并解释 AI 模型的决策与推理过程

LLM 可解释性方法概述：理解并解释 AI 模型的决策与推理过程。本指南涵盖生产级 AI 系统的实用实现策略。

可纠正AI智能体设计

确保AI智能体保持可纠正性并处于人类控制之下

可纠正AI智能体设计概述：确保AI智能体保持可纠正性并处于人类控制之下。本指南涵盖生产级AI系统的实用实现策略。

越狱预防技术

防止对话式AI被滥用的技术方法

越狱预防技术概述：防止对话式AI被滥用的技术方法。本指南涵盖生产AI系统的实用实现策略。

AI偏见检测工具包

识别和测量机器学习模型中的偏见

AI偏见检测工具包概述：识别和测量机器学习模型中的偏见。本指南涵盖生产AI系统的实用实施策略。

RLHF 分步指南

基于人类反馈的强化学习实现教程

RLHF 分步指南概述了基于人类反馈的强化学习实现教程。本指南涵盖了生产级 AI 系统的实用实现策略。

毒性过滤管道

为AI应用构建有效的内容安全过滤器

毒性过滤管道概述：为AI应用构建有效的内容安全过滤器。本指南涵盖生产级AI系统的实用实现策略。

生产环境中LLM的红队测试

对语言模型进行系统性对抗性测试以发现漏洞

生产环境中LLM的红队测试概述对语言模型进行系统性对抗性测试以发现漏洞。本指南涵盖生产AI系统的实际实施策略。为何重要随着AI系统能力增强且应用广泛，

AI 内容水印

为 AI 生成内容添加水印，实现可追溯与归因

AI 内容水印概述：为 AI 生成内容添加水印，实现可追溯与归因。本指南涵盖生产级 AI 系统的实用实现策略。

LLM 幻觉检测

检测并减少 AI 输出中幻觉的方法

LLM 幻觉检测概述检测并减少 AI 输出中幻觉的方法。本指南涵盖了生产级 AI 系统的实用实现策略。为什么重要随着 AI 系统能力增强且部署广泛，确保输出可靠性至关重要。

可扩展的AI监督

监督超越人类能力的AI系统的技术

可扩展的AI监督概述——监督超越人类能力的AI系统的技术。本指南涵盖了生产级AI系统的实用实现策略。

可解释性机制基础

理解神经网络内部机制，助力AI安全研究

可解释性机制基础概述理解神经网络内部机制，助力AI安全研究。本指南涵盖生产级AI系统的实用实现策略。为何重要随着AI系统能力不断增强且广泛应用

LLM 输出护栏

为生产级 AI 应用实现输入/输出护栏

LLM 输出护栏概述：为生产级 AI 应用实现输入/输出护栏。本指南涵盖了生产级 AI 系统的实用实现策略。

AI 治理最佳实践

负责任且合乎道德的 AI 部署的组织框架

AI 治理最佳实践概述：负责任且合乎道德的 AI 部署的组织框架。本指南涵盖生产级 AI 系统的实际实施策略。

宪法性AI训练

基于宪法原则训练AI系统以实现安全行为

宪法性AI训练概述：基于宪法原则训练AI系统以实现安全行为。本指南涵盖生产级AI系统的实用实现策略。

AI安全评估套件

评估AI系统安全性与对齐性的基准

AI安全评估套件概述评估AI系统安全性与对齐性的基准。本指南涵盖了生产AI系统的实际实施策略。为何重要随着AI系统能力增强和广泛部署，

提示注入防护

保护LLM应用免受提示注入和越狱攻击

提示注入防护概述保护LLM应用免受提示注入和越狱攻击。本指南涵盖生产级AI系统的实用实施策略。为何重要随着AI系统能力增强和广泛部署