EN
返回资讯列表
模型

谷歌将电脑操作能力内置至 Gemini 3.5 Flash,支持跨平台多步骤任务

谷歌于近期宣布,将电脑操作能力(Computer Use)直接集成至 Gemini 3.5 Flash 模型中。该能力使 AI 能够通过截图识别屏幕上的 UI 元素,并模拟点击、打字、滚动、切换标签页等操作,支持在网页、桌面软件和移动端界面执行多步骤任务,循环操作可达 70 余次。

核心能力与实现方式

  • 视觉驱动:模型读取屏幕截图和 UI 结构信息,理解当前界面状态。
  • 任务执行:可自主完成点击、输入、滚动、切换标签等操作,形成“读取屏幕→选择操作→执行”的循环。
  • 跨平台覆盖:不同于仅限浏览器的 Agent,该能力支持网页、桌面软件和移动端界面。

安全机制

谷歌在模型执行链路中加入了安全约束:在涉及敏感操作或不可逆后果时,系统会主动打断流程并要求用户二次确认;同时模型能自主识别通过页面内容或输入信息进行的间接攻击。

性能与定位

  • 基准测试:加入 Computer Use 后,Gemini 3.5 Flash 在多项基准任务中表现对齐前沿模型,且能以更低成本完成复杂长周期浏览器任务。
  • 定位考量:谷歌将 Computer Use 集成至轻量级 Flash 模型而非 Pro,主要基于成本与速度——长任务循环需频繁调用模型,Flash 的单价和速度更适合。

行业背景与对比

  • 先行者:Anthropic 于 2024 年 10 月率先推出浏览器操作能力,OpenAI 随后发布 Operator。
  • 差异化:谷歌的 Computer Use 覆盖范围更广(不限于浏览器),且直接内置在主力模型中。

应用场景

适用于运营、产品测试、数据整理等需频繁在多个网页、后台、表格间切换的工作,例如跨网站信息抓取与结构化整理。

2026年6月28日来源:综合整理