返回资讯列表

模型

谷歌将电脑操作能力内置至 Gemini 3.5 Flash，支持跨平台多步骤任务

谷歌于近期宣布，将电脑操作能力（Computer Use）直接集成至 Gemini 3.5 Flash 模型中。该能力使 AI 能够通过截图识别屏幕上的 UI 元素，并模拟点击、打字、滚动、切换标签页等操作，支持在网页、桌面软件和移动端界面执行多步骤任务，循环操作可达 70 余次。

核心能力与实现方式

视觉驱动：模型读取屏幕截图和 UI 结构信息，理解当前界面状态。
任务执行：可自主完成点击、输入、滚动、切换标签等操作，形成“读取屏幕→选择操作→执行”的循环。
跨平台覆盖：不同于仅限浏览器的 Agent，该能力支持网页、桌面软件和移动端界面。

安全机制

谷歌在模型执行链路中加入了安全约束：在涉及敏感操作或不可逆后果时，系统会主动打断流程并要求用户二次确认；同时模型能自主识别通过页面内容或输入信息进行的间接攻击。

性能与定位

基准测试：加入 Computer Use 后，Gemini 3.5 Flash 在多项基准任务中表现对齐前沿模型，且能以更低成本完成复杂长周期浏览器任务。
定位考量：谷歌将 Computer Use 集成至轻量级 Flash 模型而非 Pro，主要基于成本与速度——长任务循环需频繁调用模型，Flash 的单价和速度更适合。

行业背景与对比

先行者：Anthropic 于 2024 年 10 月率先推出浏览器操作能力，OpenAI 随后发布 Operator。
差异化：谷歌的 Computer Use 覆盖范围更广（不限于浏览器），且直接内置在主力模型中。

应用场景

适用于运营、产品测试、数据整理等需频繁在多个网页、后台、表格间切换的工作，例如跨网站信息抓取与结构化整理。

2026年6月28日来源：综合整理

google gemini computer-use ai-agent

相关资讯

Gemini 2.5 Flash 正式发布：1M Token 上下文 + $0.075/1M token，这次 Google 认真了

5月25日 · Google DeepMind

Google 发布 Gemini 2.0，原生支持 Agentic 能力

12月11日 · Google DeepMind

谷歌Gemini Ultra在编程基准测试中创下新纪录

5月22日 · Google AI Blog

谷歌开源26B文本扩散MoE模型DiffusionGemma，生成速度最高提升4倍

6月14日 · 综合整理

Claude Code 大升级：Anthropic 发布 Claude Tag，LLM 从聊天工具进化为团队协作者

6月25日 · 综合整理

Transformer 核心作者 Noam Shazeer 离开谷歌，加入 OpenAI

6月18日 · 综合整理

延伸阅读 · 相关教程

OpenAI o3 vs Claude 3.5 Sonnet vs Gemini 2.0 Pro: 2026 Benchmark Comparison

Which frontier LLM wins on coding, reasoning, and math in 2026?

Perplexity AI vs ChatGPT vs Gemini：研究工具对比（2026）

哪款 AI 研究工具能为知识工作提供最佳信息？

Gemini 2.0 API 教程 2026：拥有 200 万 Token 上下文的 multimodal AI

使用 Gemini 2.0 Flash 和 Pro 构建 multimodal AI 应用：视觉、音频、文档

CrewAI 教程 2026：构建协同工作的多智能体系统

使用 CrewAI 创建协调的 AI 智能体团队，处理研究、分析、内容创作等单个智能体无法独立完成的复杂任务

相关资源

浏览 Agent Hub 探索 MCP 专区查看更多资讯

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide