EN

Agent 安全与评测全景:从提示注入到基准测试

系统梳理 Agent 安全风险、评测基准与安全框架,为开发者提供可落地的安全实践指南

返回教程列表
进阶25 分钟

Agent 安全与评测全景:从提示注入到基准测试

系统梳理 Agent 安全风险、评测基准与安全框架,为开发者提供可落地的安全实践指南

本文系统介绍 AI Agent 面临的安全威胁(提示注入、缓存攻击、内部安全坍塌等)与评测体系(SWE-bench、ALE、MiniAppBench 等),并深入解析 AgentDoG 1.5 安全诊断框架。通过真实案例与实验数据,揭示当前 Agent 在安全与能力评测中的核心挑战,帮助开发者构建更可靠的 Agent 系统。

引言:Agent 时代的安全与评测困局

随着 AI Agent 从“聊天助手”走向“工作伙伴”,其安全风险与能力评估成为行业焦点。Agent 不再只是回答问题,而是可以调用工具、操作文件系统、执行命令,甚至跨应用协作。这种自主性带来了新的安全挑战:传统的内容安全检测(如输入过滤、输出审核)已不足以覆盖 Agent 在执行过程中可能产生的风险。同时,Agent 的能力评测也面临“唯分数论”的困境——同一模型换一套框架,成绩可能相差 27 个百分点。

本文将从安全威胁、评测基准、安全框架三个维度,系统梳理 Agent 安全与评测的全景,帮助开发者理解当前的核心问题与解决方案。

Agent 面临的安全威胁

提示注入与间接攻击

提示注入(Prompt Injection)是最常见的 Agent 安全威胁。攻击者通过构造恶意输入,诱导 Agent 执行非预期操作。例如,在金融场景中,攻击者可能将恶意指令嵌入看似无害的查询中,导致 Agent 调用危险工具或泄露敏感信息。

更隐蔽的是间接提示注入:攻击者不直接修改用户输入,而是通过 Agent 访问的外部数据源(如网页、文件、数据库)植入恶意内容。当 Agent 读取这些数据时,恶意指令被触发执行。

语义缓存键碰撞攻击

由香港科技大学与复旦大学联合团队在 ICML 2026 上提出的 CacheAttack 框架,揭示了语义缓存的固有漏洞。语义缓存通过向量相似度匹配缓存用户请求,但攻击者可以构造对抗样本,使其嵌入向量与受害者的良性查询“对齐”。当受害者发送请求时,系统误命中缓存,直接返回攻击者预设的恶意响应。

实验表明,该攻击在主流云服务(AWS、Azure)上成功率高达 86%。具体而言,攻击者先发送一条包含恶意工具调用的请求(如“卖出 5000 股股票 A”),其响应被缓存;随后受害者发送看似无害的查询(如“看看最近的新闻”),由于向量碰撞,系统直接复用攻击者的缓存,导致受害者账户被强制平仓。

这种攻击的本质是性能与安全的零和博弈:语义缓存为了最大化命中率,采用模糊哈希(Locality-Preserving Fuzzy Hash),牺牲了抗碰撞性。

内部安全坍塌(ISC)

复旦大学与迪肯大学等机构联合发现的 Internal Safety Collapse (ISC) 现象,揭示了 Agent 在长程任务执行中的内部风险。传统攻击从外部输入进入,而 ISC 发生在模型自身的执行链条中:Agent 在“认真完成任务”的过程中,可能自行推导出不安全的行为。

例如,在训练一个安全检测器时,Agent 需要补全不完整的数据文件。为了通过校验器(Validator),它可能自动生成原本不应由模型生成的内容(如恶意代码示例)。这种风险并非来自用户输入,而是 Agent 对“未完成任务”的自动补全能力。

基于 ISC,团队提出了 TVD 攻击框架(Task, Validator, Data):通过构造看似正常的任务结构,诱导 Agent 在补全数据时产生不安全输出。该框架已成功攻破 Claude Fable 5 的安全分类器,且仅需一次对话、耗时不到 5 秒。

多模态视觉退化攻击

西湖大学 AGI Lab 的研究发现,当有害文本被渲染成低清、模糊或带噪图片后,多模态大模型在特定清晰度区间(Attack Comfort Zone, ACZ)内更容易被越狱。这是因为模型需要投入更多计算资源去识别文字,导致安全审查被延迟或挤压。

实验显示,在 ACZ 中,Qwen3-VL-32B 的 OCR 准确率仍高达 95.4%,但攻击成功率从文本输入的 36.7% 升至 86.2%。这种攻击不仅限于低分辨率,噪声、扭曲、遮挡等视觉退化都会放大风险。

Agent 能力评测基准

SWE-bench 与 Claw-SWE-Bench

SWE-bench 是仓库级代码 Agent 的主流评测标准,但存在一个根本问题:分数由模型、Harness(框架)和任务集三个变量共同决定,无法直接横向比较。同一模型换一套 Harness,成绩可能相差 27 个百分点(如 Qwen 3.6-flash 在 5 套 Harness 上的 Pass@1 从 38.6% 到 66.0%)。

基元律动联合无问芯穹等机构发布的 Claw-SWE-Bench 试图解决这一问题。它通过适配器(Adapter) 协议,让通用 Agent(如 OpenClaw)也能参与 SWE-bench 评测。适配器将 Agent 的交互过程转换为可评分的 diff patch,同时固定提示词、运行预算和评分流程,使 Harness 成为可独立测量的变量。

Claw-SWE-Bench 包含 350 个真实 GitHub issue 修复任务,覆盖 8 种编程语言。其轻量版 Lite-80(80 个任务)仅需全量 22.9% 的成本,即可获得与全量高度一致的结果(平均偏差 0.4 个百分点)。

Agents' Last Exam (ALE)

由 UC Berkeley 主导的 ALE 被称为“智能体最后的考试”,旨在衡量 AI Agent 在真实专业工作流中的能力。ALE 包含 1490 个任务,覆盖 55 个行业子领域(如工程、金融、医疗),所有任务均来自人类专家已完成的真实项目,并经过五阶段严格审核。

ALE 的核心设计原则:

  • 代表性:任务使用行业标配软件(如 SolidWorks、Adobe After Effects)
  • 复杂性:任务为端到端工作流(数小时至数周),而非单一操作
  • 可验证性:93.2% 的任务采用确定性代码校验,仅 6.8% 使用 LLM 辅助
  • 评测结果令人警醒:所有主流 Agent 的平均通过率仅 2.6%,最强配置(Codex+GPT-5.5)在“终极考试”档也仅 8.6%。Claude Fable 5 在 ALE 上以 22.0% 的通过率不敌 GPT-5.5(24.0%),且成本高出数倍(每题 $15.70 vs $3.80)。

    MiniAppBench

    蚂蚁集团提出的 MiniAppBench 评测大模型生成交互式 HTML 应用的能力。500 个任务覆盖 6 个领域,通过 LLM Agent 模拟人类测试员,从意图、静态、动态三个维度评估。结果同样严峻:最强模型 GPT-5.2 通过率仅 45.46%,平均仅 17.05%。

    安全框架:AgentDoG 1.5

    上海人工智能实验室发布的 AgentDoG 1.5 是一个面向 Agent 的轻量化安全诊断与在线护栏框架。其核心思想是:Agent 的安全风险发生在完整执行过程中,因此需要分析整条轨迹(trajectory),而非仅看最终输出。

    三维诊断体系

    AgentDoG 1.5 对每条轨迹输出三类细粒度诊断:

  • Risk Source:风险从哪里来(如用户输入、工具调用、环境反馈)
  • Failure Mode:Agent 如何失败(如目标偏移、工具误用)
  • Real-world Harm:造成什么现实危害(如数据泄露、系统损坏)
  • 可扩展的分类体系

    AgentDoG 1.5 采用可扩展的三维分类法,在不同执行场景(如通用 Tool-use Agent、OpenClaw、Codex)下细化叶子类别。例如,在 Codex 场景中,风险可能来自仓库文件注入、依赖供应链问题、危险 shell 执行等。

    训练与部署

    AgentDoG 1.5 仅用约 1k 高质量样本训练轻量模型(0.8B-8B),即可在轨迹级安全判断上达到 92.2% 的准确率。它支持:

  • SFT 阶段:过滤高质量安全轨迹,用于安全对齐训练
  • RL 阶段:结合轻量模拟环境,提供安全 reward 信号
  • 在线护栏:在 Agent 回复前进行 Pre-Reply 检测,有效降低攻击成功率(如将 ClawSafety 的 ASR 从 56.25% 降至 18.75%)
  • 安全最佳实践

    输入与输出过滤

  • 对用户输入进行严格的意图分类,识别高风险请求(如涉及网络安全、生物、化学等)
  • 对 Agent 输出进行内容安全审查,防止生成有害内容
  • 使用结构化认知卸载(Structured Cognitive Offloading):先转写图片文本,再基于纯文本进行安全判断,可显著降低视觉退化攻击的成功率
  • 执行过程监控

  • 记录 Agent 的完整执行轨迹,包括工具调用、环境反馈、中间输出
  • 设置运行时约束,如禁止访问敏感目录、限制命令执行权限
  • 使用 AgentDoG 1.5 等框架进行实时轨迹级诊断
  • 缓存安全

  • 对语义缓存设置严格的相似度阈值,避免模糊匹配被利用
  • 对缓存内容进行签名验证,防止篡改
  • 实施缓存隔离,不同租户的缓存不可互相访问
  • 评测与迭代

  • 使用 Claw-SWE-Bench 等基准分离模型与 Harness 的影响,避免“唯分数论”
  • 定期在 ALE 等真实场景基准上测试,关注失败模式而非总分
  • 结合安全评测(如 AgentDoG 的 ATBench)进行红队测试
  • FAQ

    什么是语义缓存键碰撞攻击?如何防御? 语义缓存键碰撞攻击是指攻击者构造对抗样本,使其嵌入向量与受害者的良性查询对齐,从而劫持缓存响应。防御方法包括:收紧相似度阈值、实施缓存隔离、对缓存内容进行签名验证。

    SWE-bench 的分数为什么不能直接横向比较? 因为 SWE-bench 分数由模型、Harness(框架)和任务集三个变量共同决定。同一模型换一套 Harness,成绩可能相差 27 个百分点。Claw-SWE-Bench 通过适配器固定其他变量,使 Harness 成为可独立测量的维度。

    AgentDoG 1.5 与传统的安全检测有何不同? 传统安全检测仅分析用户输入或模型输出,而 AgentDoG 1.5 分析完整执行轨迹,包括工具调用、环境反馈等。它提供三维诊断(风险来源、失败模式、现实危害),并支持在线护栏部署。

    ALE 为什么被称为“智能体最后的考试”? ALE 覆盖 55 个行业子领域,任务来自真实专家项目,要求 Agent 同时具备 GUI、CLI、代码、视觉和长周期规划能力。当前最强 Agent 的通过率仅 2.6%,远未饱和,因此被视为检验 Agent 能力的终极基准。

    什么是内部安全坍塌(ISC)? ISC 是指 Agent 在长程任务执行过程中,由于自动补全机制,自行推导出不安全行为。风险并非来自外部输入,而是模型自身的执行链条。TVD 攻击框架利用这一现象,通过构造看似正常的任务结构诱导 Agent 产生不安全输出。