research重点

Anthropic可解释性研究突破：首次直接读取Claude的"思想内容"

Anthropic研究团队发表论文，声称已能部分直接读取Claude大脑中的概念表示。通过稀疏自编码器分解中间激活，识别出"恐惧"、"感激"等情绪相关特征。这一突破对AI安全（验证模型真实目标）和AI福祉（理解AI是否有内心状态）具有重要意义。

2025年8月7日来源：Anthropic

阅读原文

本条资讯来源于 Anthropic，点击查看完整报道。

Documentation