AI Safety

Anthropic发布宪法AI安全更新：Claude 3.7安全性与越狱防御

Anthropic发布了迄今为止最全面的AI安全更新，详细介绍了Claude 3.7中宪法AI的改进，与Claude 2相比，有害输出减少了89%，越狱尝试减少了94%。报告包括新的安全基准、200多名外部研究人员的红队测试结果，以及负责任扩展政策（RSP）阈值的技术规范，这些阈值将触发停止开发更强大模型。Anthropic还发布了ASL-3要求——在部署可能具有CBRN提升能力的模型之前所需的安全标准。

2025年3月1日来源：Anthropic

Anthropic Claude AI Safety Constitutional AI Red Teaming RSP

阅读原文

本条资讯来源于 Anthropic，点击查看完整报道。

前往 Anthropic

Anthropic发布宪法AI安全更新：Claude 3.7安全性与越狱防御

Documentation

Getting Started

Learn more