模型
谷歌将电脑操作能力内置至 Gemini 3.5 Flash,支持跨平台多步骤任务
谷歌于近期宣布,将电脑操作能力(Computer Use)直接集成至 Gemini 3.5 Flash 模型中。该能力使 AI 能够通过截图识别屏幕上的 UI 元素,并模拟点击、打字、滚动、切换标签页等操作,支持在网页、桌面软件和移动端界面执行多步骤任务,循环操作可达 70 余次。
核心能力与实现方式
- 视觉驱动:模型读取屏幕截图和 UI 结构信息,理解当前界面状态。
- 任务执行:可自主完成点击、输入、滚动、切换标签等操作,形成“读取屏幕→选择操作→执行”的循环。
- 跨平台覆盖:不同于仅限浏览器的 Agent,该能力支持网页、桌面软件和移动端界面。
安全机制
谷歌在模型执行链路中加入了安全约束:在涉及敏感操作或不可逆后果时,系统会主动打断流程并要求用户二次确认;同时模型能自主识别通过页面内容或输入信息进行的间接攻击。
性能与定位
- 基准测试:加入 Computer Use 后,Gemini 3.5 Flash 在多项基准任务中表现对齐前沿模型,且能以更低成本完成复杂长周期浏览器任务。
- 定位考量:谷歌将 Computer Use 集成至轻量级 Flash 模型而非 Pro,主要基于成本与速度——长任务循环需频繁调用模型,Flash 的单价和速度更适合。
行业背景与对比
- 先行者:Anthropic 于 2024 年 10 月率先推出浏览器操作能力,OpenAI 随后发布 Operator。
- 差异化:谷歌的 Computer Use 覆盖范围更广(不限于浏览器),且直接内置在主力模型中。
应用场景
适用于运营、产品测试、数据整理等需频繁在多个网页、后台、表格间切换的工作,例如跨网站信息抓取与结构化整理。
2026年6月28日来源:综合整理
相关资讯
Gemini 2.5 Flash 正式发布:1M Token 上下文 + $0.075/1M token,这次 Google 认真了
5月25日 · Google DeepMind
Google 发布 Gemini 2.0,原生支持 Agentic 能力
12月11日 · Google DeepMind
谷歌Gemini Ultra在编程基准测试中创下新纪录
5月22日 · Google AI Blog
谷歌开源26B文本扩散MoE模型DiffusionGemma,生成速度最高提升4倍
6月14日 · 综合整理
Claude Code 大升级:Anthropic 发布 Claude Tag,LLM 从聊天工具进化为团队协作者
6月25日 · 综合整理
Transformer 核心作者 Noam Shazeer 离开谷歌,加入 OpenAI
6月18日 · 综合整理
延伸阅读 · 相关教程
OpenAI o3 vs Claude 3.5 Sonnet vs Gemini 2.0 Pro: 2026 Benchmark Comparison
Which frontier LLM wins on coding, reasoning, and math in 2026?
Perplexity AI vs ChatGPT vs Gemini:研究工具对比(2026)
哪款 AI 研究工具能为知识工作提供最佳信息?
Gemini 2.0 API 教程 2026:拥有 200 万 Token 上下文的 multimodal AI
使用 Gemini 2.0 Flash 和 Pro 构建 multimodal AI 应用:视觉、音频、文档
CrewAI 教程 2026:构建协同工作的多智能体系统
使用 CrewAI 创建协调的 AI 智能体团队,处理研究、分析、内容创作等单个智能体无法独立完成的复杂任务