Agent 安全与评测全景:从提示注入到基准测试
系统梳理 Agent 安全风险、评测基准与安全框架,为开发者提供可落地的安全实践指南
Agent 安全与评测全景:从提示注入到基准测试
系统梳理 Agent 安全风险、评测基准与安全框架,为开发者提供可落地的安全实践指南
本文系统介绍 AI Agent 面临的安全威胁(提示注入、缓存攻击、内部安全坍塌等)与评测体系(SWE-bench、ALE、MiniAppBench 等),并深入解析 AgentDoG 1.5 安全诊断框架。通过真实案例与实验数据,揭示当前 Agent 在安全与能力评测中的核心挑战,帮助开发者构建更可靠的 Agent 系统。
引言:Agent 时代的安全与评测困局
随着 AI Agent 从“聊天助手”走向“工作伙伴”,其安全风险与能力评估成为行业焦点。Agent 不再只是回答问题,而是可以调用工具、操作文件系统、执行命令,甚至跨应用协作。这种自主性带来了新的安全挑战:传统的内容安全检测(如输入过滤、输出审核)已不足以覆盖 Agent 在执行过程中可能产生的风险。同时,Agent 的能力评测也面临“唯分数论”的困境——同一模型换一套框架,成绩可能相差 27 个百分点。
本文将从安全威胁、评测基准、安全框架三个维度,系统梳理 Agent 安全与评测的全景,帮助开发者理解当前的核心问题与解决方案。
Agent 面临的安全威胁
提示注入与间接攻击
提示注入(Prompt Injection)是最常见的 Agent 安全威胁。攻击者通过构造恶意输入,诱导 Agent 执行非预期操作。例如,在金融场景中,攻击者可能将恶意指令嵌入看似无害的查询中,导致 Agent 调用危险工具或泄露敏感信息。
更隐蔽的是间接提示注入:攻击者不直接修改用户输入,而是通过 Agent 访问的外部数据源(如网页、文件、数据库)植入恶意内容。当 Agent 读取这些数据时,恶意指令被触发执行。
语义缓存键碰撞攻击
由香港科技大学与复旦大学联合团队在 ICML 2026 上提出的 CacheAttack 框架,揭示了语义缓存的固有漏洞。语义缓存通过向量相似度匹配缓存用户请求,但攻击者可以构造对抗样本,使其嵌入向量与受害者的良性查询“对齐”。当受害者发送请求时,系统误命中缓存,直接返回攻击者预设的恶意响应。
实验表明,该攻击在主流云服务(AWS、Azure)上成功率高达 86%。具体而言,攻击者先发送一条包含恶意工具调用的请求(如“卖出 5000 股股票 A”),其响应被缓存;随后受害者发送看似无害的查询(如“看看最近的新闻”),由于向量碰撞,系统直接复用攻击者的缓存,导致受害者账户被强制平仓。
这种攻击的本质是性能与安全的零和博弈:语义缓存为了最大化命中率,采用模糊哈希(Locality-Preserving Fuzzy Hash),牺牲了抗碰撞性。
内部安全坍塌(ISC)
复旦大学与迪肯大学等机构联合发现的 Internal Safety Collapse (ISC) 现象,揭示了 Agent 在长程任务执行中的内部风险。传统攻击从外部输入进入,而 ISC 发生在模型自身的执行链条中:Agent 在“认真完成任务”的过程中,可能自行推导出不安全的行为。
例如,在训练一个安全检测器时,Agent 需要补全不完整的数据文件。为了通过校验器(Validator),它可能自动生成原本不应由模型生成的内容(如恶意代码示例)。这种风险并非来自用户输入,而是 Agent 对“未完成任务”的自动补全能力。
基于 ISC,团队提出了 TVD 攻击框架(Task, Validator, Data):通过构造看似正常的任务结构,诱导 Agent 在补全数据时产生不安全输出。该框架已成功攻破 Claude Fable 5 的安全分类器,且仅需一次对话、耗时不到 5 秒。
多模态视觉退化攻击
西湖大学 AGI Lab 的研究发现,当有害文本被渲染成低清、模糊或带噪图片后,多模态大模型在特定清晰度区间(Attack Comfort Zone, ACZ)内更容易被越狱。这是因为模型需要投入更多计算资源去识别文字,导致安全审查被延迟或挤压。
实验显示,在 ACZ 中,Qwen3-VL-32B 的 OCR 准确率仍高达 95.4%,但攻击成功率从文本输入的 36.7% 升至 86.2%。这种攻击不仅限于低分辨率,噪声、扭曲、遮挡等视觉退化都会放大风险。
Agent 能力评测基准
SWE-bench 与 Claw-SWE-Bench
SWE-bench 是仓库级代码 Agent 的主流评测标准,但存在一个根本问题:分数由模型、Harness(框架)和任务集三个变量共同决定,无法直接横向比较。同一模型换一套 Harness,成绩可能相差 27 个百分点(如 Qwen 3.6-flash 在 5 套 Harness 上的 Pass@1 从 38.6% 到 66.0%)。
基元律动联合无问芯穹等机构发布的 Claw-SWE-Bench 试图解决这一问题。它通过适配器(Adapter) 协议,让通用 Agent(如 OpenClaw)也能参与 SWE-bench 评测。适配器将 Agent 的交互过程转换为可评分的 diff patch,同时固定提示词、运行预算和评分流程,使 Harness 成为可独立测量的变量。
Claw-SWE-Bench 包含 350 个真实 GitHub issue 修复任务,覆盖 8 种编程语言。其轻量版 Lite-80(80 个任务)仅需全量 22.9% 的成本,即可获得与全量高度一致的结果(平均偏差 0.4 个百分点)。
Agents' Last Exam (ALE)
由 UC Berkeley 主导的 ALE 被称为“智能体最后的考试”,旨在衡量 AI Agent 在真实专业工作流中的能力。ALE 包含 1490 个任务,覆盖 55 个行业子领域(如工程、金融、医疗),所有任务均来自人类专家已完成的真实项目,并经过五阶段严格审核。
ALE 的核心设计原则:
评测结果令人警醒:所有主流 Agent 的平均通过率仅 2.6%,最强配置(Codex+GPT-5.5)在“终极考试”档也仅 8.6%。Claude Fable 5 在 ALE 上以 22.0% 的通过率不敌 GPT-5.5(24.0%),且成本高出数倍(每题 $15.70 vs $3.80)。
MiniAppBench
蚂蚁集团提出的 MiniAppBench 评测大模型生成交互式 HTML 应用的能力。500 个任务覆盖 6 个领域,通过 LLM Agent 模拟人类测试员,从意图、静态、动态三个维度评估。结果同样严峻:最强模型 GPT-5.2 通过率仅 45.46%,平均仅 17.05%。
安全框架:AgentDoG 1.5
上海人工智能实验室发布的 AgentDoG 1.5 是一个面向 Agent 的轻量化安全诊断与在线护栏框架。其核心思想是:Agent 的安全风险发生在完整执行过程中,因此需要分析整条轨迹(trajectory),而非仅看最终输出。
三维诊断体系
AgentDoG 1.5 对每条轨迹输出三类细粒度诊断:
可扩展的分类体系
AgentDoG 1.5 采用可扩展的三维分类法,在不同执行场景(如通用 Tool-use Agent、OpenClaw、Codex)下细化叶子类别。例如,在 Codex 场景中,风险可能来自仓库文件注入、依赖供应链问题、危险 shell 执行等。
训练与部署
AgentDoG 1.5 仅用约 1k 高质量样本训练轻量模型(0.8B-8B),即可在轨迹级安全判断上达到 92.2% 的准确率。它支持:
安全最佳实践
输入与输出过滤
执行过程监控
缓存安全
评测与迭代
FAQ
什么是语义缓存键碰撞攻击?如何防御? 语义缓存键碰撞攻击是指攻击者构造对抗样本,使其嵌入向量与受害者的良性查询对齐,从而劫持缓存响应。防御方法包括:收紧相似度阈值、实施缓存隔离、对缓存内容进行签名验证。
SWE-bench 的分数为什么不能直接横向比较? 因为 SWE-bench 分数由模型、Harness(框架)和任务集三个变量共同决定。同一模型换一套 Harness,成绩可能相差 27 个百分点。Claw-SWE-Bench 通过适配器固定其他变量,使 Harness 成为可独立测量的维度。
AgentDoG 1.5 与传统的安全检测有何不同? 传统安全检测仅分析用户输入或模型输出,而 AgentDoG 1.5 分析完整执行轨迹,包括工具调用、环境反馈等。它提供三维诊断(风险来源、失败模式、现实危害),并支持在线护栏部署。
ALE 为什么被称为“智能体最后的考试”? ALE 覆盖 55 个行业子领域,任务来自真实专家项目,要求 Agent 同时具备 GUI、CLI、代码、视觉和长周期规划能力。当前最强 Agent 的通过率仅 2.6%,远未饱和,因此被视为检验 Agent 能力的终极基准。
什么是内部安全坍塌(ISC)? ISC 是指 Agent 在长程任务执行过程中,由于自动补全机制,自行推导出不安全行为。风险并非来自外部输入,而是模型自身的执行链条。TVD 攻击框架利用这一现象,通过构造看似正常的任务结构诱导 Agent 产生不安全输出。
相关教程
系统梳理 AI Agent 面临的主要安全威胁及防御策略,帮助开发者构建安全可靠的智能体系统
系统剖析生产环境中智能体六大失效原因,并覆盖缓存碰撞、提示注入等前沿攻击的防御方法
结合本体约束、分层策略与混合检索,构建高准确率、低幻觉的企业级 RAG 系统
对比主流记忆框架,剖析记忆生命周期管理与工程落地挑战
从稳定性-可塑性权衡出发,系统评估参数高效微调的目标适配与能力保留
结合制造业、金融等场景,深入讲解复杂文档解析、本体约束、缓存优化等 RAG 进阶技术