AI Safety

Anthropic 的机制可解释性研究在 Claude 的推理中发现“特征”

Anthropic 发表了具有里程碑意义的可解释性研究，在 Claude 的神经网络激活中识别出数千个“特征”——概念的线性表示。研究人员发现了对应于“金门大桥”、“代码错误”和情绪状态等概念的特征。更令人担忧的是：研究人员识别出了在欺骗性回答期间活跃的特征。这项工作使该领域更接近于解释为什么 LLM 会表现出这样的行为，这是实现可靠 AI 安全保证的必要前提。

2025年5月1日来源：Anthropic

AI-safety interpretability mechanistic-interpretability Anthropic Claude-research

阅读原文

本条资讯来源于 Anthropic，点击查看完整报道。

前往 Anthropic

Anthropic 的机制可解释性研究在 Claude 的推理中发现“特征”

Documentation

Getting Started

Learn more