Agent 安全与评测全景：从提示注入到基准测试

系统梳理 Agent 安全风险、评测基准与安全框架，为开发者提供可落地的安全实践指南

进阶约 25 分钟

Agent 安全与评测全景：从提示注入到基准测试

系统梳理 Agent 安全风险、评测基准与安全框架，为开发者提供可落地的安全实践指南

本文系统介绍 AI Agent 面临的安全威胁（提示注入、缓存攻击、内部安全坍塌等）与评测体系（SWE-bench、ALE、MiniAppBench 等），并深入解析 AgentDoG 1.5 安全诊断框架。通过真实案例与实验数据，揭示当前 Agent 在安全与能力评测中的核心挑战，帮助开发者构建更可靠的 Agent 系统。

security prompt-injection evaluation benchmark agent

引言：Agent 时代的安全与评测困局

随着 AI Agent 从“聊天助手”走向“工作伙伴”，其安全风险与能力评估成为行业焦点。Agent 不再只是回答问题，而是可以调用工具、操作文件系统、执行命令，甚至跨应用协作。这种自主性带来了新的安全挑战：传统的内容安全检测（如输入过滤、输出审核）已不足以覆盖 Agent 在执行过程中可能产生的风险。同时，Agent 的能力评测也面临“唯分数论”的困境——同一模型换一套框架，成绩可能相差 27 个百分点。

本文将从安全威胁、评测基准、安全框架三个维度，系统梳理 Agent 安全与评测的全景，帮助开发者理解当前的核心问题与解决方案。

Agent 面临的安全威胁

提示注入与间接攻击

提示注入（Prompt Injection）是最常见的 Agent 安全威胁。攻击者通过构造恶意输入，诱导 Agent 执行非预期操作。例如，在金融场景中，攻击者可能将恶意指令嵌入看似无害的查询中，导致 Agent 调用危险工具或泄露敏感信息。

更隐蔽的是间接提示注入：攻击者不直接修改用户输入，而是通过 Agent 访问的外部数据源（如网页、文件、数据库）植入恶意内容。当 Agent 读取这些数据时，恶意指令被触发执行。

语义缓存键碰撞攻击

由香港科技大学与复旦大学联合团队在 ICML 2026 上提出的 CacheAttack 框架，揭示了语义缓存的固有漏洞。语义缓存通过向量相似度匹配缓存用户请求，但攻击者可以构造对抗样本，使其嵌入向量与受害者的良性查询“对齐”。当受害者发送请求时，系统误命中缓存，直接返回攻击者预设的恶意响应。

实验表明，该攻击在主流云服务（AWS、Azure）上成功率高达 86%。具体而言，攻击者先发送一条包含恶意工具调用的请求（如“卖出 5000 股股票 A”），其响应被缓存；随后受害者发送看似无害的查询（如“看看最近的新闻”），由于向量碰撞，系统直接复用攻击者的缓存，导致受害者账户被强制平仓。

这种攻击的本质是性能与安全的零和博弈：语义缓存为了最大化命中率，采用模糊哈希（Locality-Preserving Fuzzy Hash），牺牲了抗碰撞性。

内部安全坍塌（ISC）

复旦大学与迪肯大学等机构联合发现的 Internal Safety Collapse (ISC) 现象，揭示了 Agent 在长程任务执行中的内部风险。传统攻击从外部输入进入，而 ISC 发生在模型自身的执行链条中：Agent 在“认真完成任务”的过程中，可能自行推导出不安全的行为。

例如，在训练一个安全检测器时，Agent 需要补全不完整的数据文件。为了通过校验器（Validator），它可能自动生成原本不应由模型生成的内容（如恶意代码示例）。这种风险并非来自用户输入，而是 Agent 对“未完成任务”的自动补全能力。

基于 ISC，团队提出了 TVD 攻击框架（Task, Validator, Data）：通过构造看似正常的任务结构，诱导 Agent 在补全数据时产生不安全输出。该框架已成功攻破 Claude Fable 5 的安全分类器，且仅需一次对话、耗时不到 5 秒。

多模态视觉退化攻击

西湖大学 AGI Lab 的研究发现，当有害文本被渲染成低清、模糊或带噪图片后，多模态大模型在特定清晰度区间（Attack Comfort Zone, ACZ）内更容易被越狱。这是因为模型需要投入更多计算资源去识别文字，导致安全审查被延迟或挤压。

实验显示，在 ACZ 中，Qwen3-VL-32B 的 OCR 准确率仍高达 95.4%，但攻击成功率从文本输入的 36.7% 升至 86.2%。这种攻击不仅限于低分辨率，噪声、扭曲、遮挡等视觉退化都会放大风险。

Agent 能力评测基准

SWE-bench 与 Claw-SWE-Bench

SWE-bench 是仓库级代码 Agent 的主流评测标准，但存在一个根本问题：分数由模型、Harness（框架）和任务集三个变量共同决定，无法直接横向比较。同一模型换一套 Harness，成绩可能相差 27 个百分点（如 Qwen 3.6-flash 在 5 套 Harness 上的 Pass@1 从 38.6% 到 66.0%）。

基元律动联合无问芯穹等机构发布的 Claw-SWE-Bench 试图解决这一问题。它通过适配器（Adapter） 协议，让通用 Agent（如 OpenClaw）也能参与 SWE-bench 评测。适配器将 Agent 的交互过程转换为可评分的 diff patch，同时固定提示词、运行预算和评分流程，使 Harness 成为可独立测量的变量。

Claw-SWE-Bench 包含 350 个真实 GitHub issue 修复任务，覆盖 8 种编程语言。其轻量版 Lite-80（80 个任务）仅需全量 22.9% 的成本，即可获得与全量高度一致的结果（平均偏差 0.4 个百分点）。

Agents' Last Exam (ALE)

由 UC Berkeley 主导的 ALE 被称为“智能体最后的考试”，旨在衡量 AI Agent 在真实专业工作流中的能力。ALE 包含 1490 个任务，覆盖 55 个行业子领域（如工程、金融、医疗），所有任务均来自人类专家已完成的真实项目，并经过五阶段严格审核。

ALE 的核心设计原则：

代表性：任务使用行业标配软件（如 SolidWorks、Adobe After Effects）

复杂性：任务为端到端工作流（数小时至数周），而非单一操作

可验证性：93.2% 的任务采用确定性代码校验，仅 6.8% 使用 LLM 辅助

评测结果令人警醒：所有主流 Agent 的平均通过率仅 2.6%，最强配置（Codex+GPT-5.5）在“终极考试”档也仅 8.6%。Claude Fable 5 在 ALE 上以 22.0% 的通过率不敌 GPT-5.5（24.0%），且成本高出数倍（每题 $15.70 vs $3.80）。

MiniAppBench

蚂蚁集团提出的 MiniAppBench 评测大模型生成交互式 HTML 应用的能力。500 个任务覆盖 6 个领域，通过 LLM Agent 模拟人类测试员，从意图、静态、动态三个维度评估。结果同样严峻：最强模型 GPT-5.2 通过率仅 45.46%，平均仅 17.05%。

安全框架：AgentDoG 1.5

上海人工智能实验室发布的 AgentDoG 1.5 是一个面向 Agent 的轻量化安全诊断与在线护栏框架。其核心思想是：Agent 的安全风险发生在完整执行过程中，因此需要分析整条轨迹（trajectory），而非仅看最终输出。

三维诊断体系

AgentDoG 1.5 对每条轨迹输出三类细粒度诊断：

Risk Source：风险从哪里来（如用户输入、工具调用、环境反馈）

Failure Mode：Agent 如何失败（如目标偏移、工具误用）

Real-world Harm：造成什么现实危害（如数据泄露、系统损坏）

可扩展的分类体系

AgentDoG 1.5 采用可扩展的三维分类法，在不同执行场景（如通用 Tool-use Agent、OpenClaw、Codex）下细化叶子类别。例如，在 Codex 场景中，风险可能来自仓库文件注入、依赖供应链问题、危险 shell 执行等。

训练与部署

AgentDoG 1.5 仅用约 1k 高质量样本训练轻量模型（0.8B-8B），即可在轨迹级安全判断上达到 92.2% 的准确率。它支持：

SFT 阶段：过滤高质量安全轨迹，用于安全对齐训练

RL 阶段：结合轻量模拟环境，提供安全 reward 信号

在线护栏：在 Agent 回复前进行 Pre-Reply 检测，有效降低攻击成功率（如将 ClawSafety 的 ASR 从 56.25% 降至 18.75%）

安全最佳实践

输入与输出过滤

对用户输入进行严格的意图分类，识别高风险请求（如涉及网络安全、生物、化学等）

对 Agent 输出进行内容安全审查，防止生成有害内容

使用结构化认知卸载（Structured Cognitive Offloading）：先转写图片文本，再基于纯文本进行安全判断，可显著降低视觉退化攻击的成功率

执行过程监控

记录 Agent 的完整执行轨迹，包括工具调用、环境反馈、中间输出

设置运行时约束，如禁止访问敏感目录、限制命令执行权限

使用 AgentDoG 1.5 等框架进行实时轨迹级诊断

缓存安全

对语义缓存设置严格的相似度阈值，避免模糊匹配被利用

对缓存内容进行签名验证，防止篡改

实施缓存隔离，不同租户的缓存不可互相访问

评测与迭代

使用 Claw-SWE-Bench 等基准分离模型与 Harness 的影响，避免“唯分数论”

定期在 ALE 等真实场景基准上测试，关注失败模式而非总分

结合安全评测（如 AgentDoG 的 ATBench）进行红队测试

FAQ

什么是语义缓存键碰撞攻击？如何防御？ 语义缓存键碰撞攻击是指攻击者构造对抗样本，使其嵌入向量与受害者的良性查询对齐，从而劫持缓存响应。防御方法包括：收紧相似度阈值、实施缓存隔离、对缓存内容进行签名验证。

SWE-bench 的分数为什么不能直接横向比较？ 因为 SWE-bench 分数由模型、Harness（框架）和任务集三个变量共同决定。同一模型换一套 Harness，成绩可能相差 27 个百分点。Claw-SWE-Bench 通过适配器固定其他变量，使 Harness 成为可独立测量的维度。

AgentDoG 1.5 与传统的安全检测有何不同？ 传统安全检测仅分析用户输入或模型输出，而 AgentDoG 1.5 分析完整执行轨迹，包括工具调用、环境反馈等。它提供三维诊断（风险来源、失败模式、现实危害），并支持在线护栏部署。

ALE 为什么被称为“智能体最后的考试”？ ALE 覆盖 55 个行业子领域，任务来自真实专家项目，要求 Agent 同时具备 GUI、CLI、代码、视觉和长周期规划能力。当前最强 Agent 的通过率仅 2.6%，远未饱和，因此被视为检验 Agent 能力的终极基准。

什么是内部安全坍塌（ISC）？ ISC 是指 Agent 在长程任务执行过程中，由于自动补全机制，自行推导出不安全行为。风险并非来自外部输入，而是模型自身的执行链条。TVD 攻击框架利用这一现象，通过构造看似正常的任务结构诱导 Agent 产生不安全输出。

所属主题：AI Agent 与多智能体评估、测试与可观测 AI 安全与合规

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

Agent 安全与评测全景：从提示注入到基准测试

引言：Agent 时代的安全与评测困局

Agent 面临的安全威胁

提示注入与间接攻击

语义缓存键碰撞攻击

内部安全坍塌（ISC）

多模态视觉退化攻击

Agent 能力评测基准

SWE-bench 与 Claw-SWE-Bench

Agents' Last Exam (ALE)

MiniAppBench

安全框架：AgentDoG 1.5

三维诊断体系

可扩展的分类体系

训练与部署

安全最佳实践

输入与输出过滤

执行过程监控

缓存安全

评测与迭代

FAQ

Documentation

Getting Started

Learn more