AI Agent News

实时追踪 AI Agent 赛道的重大事件、融资动向、模型发布和技术突破

AI Agent 动态

最新行业资讯

实时追踪 AI Agent 赛道的重大事件、融资动向、模型发布和技术突破

重大事件时间线

2026-01

OpenClaw GitHub 爆发

OpenClaw 10 天冲上 GitHub 全球 Top 10,超越 Linux 内核 Star 增速

2025-12

Meta 20亿收购 Manus

Meta 以 20 亿美元收购 Manus AI,通用 Agent 赛道正式被巨头锁定

2025-04

DeepSeek-V3 开源

性价比之王,成本仅 GPT-4 的 5%

2025-03

Manus 一夜爆火

全球首款通用 AI Agent 在国内社交平台引发空前关注

2025-02

OpenAI Deep Research

OpenAI 推出深度研究 Agent,一键生成专业研究报告

2025-02

MCP Server 破 500

MCP 生态爆发,3 个月构建 500+ Server

2025-01

DeepSeek-R1 震惊全球

开源推理模型,成本仅 OpenAI 的 3%,引发全球 AI 格局震动

2024-11

MCP 协议诞生

Anthropic 发布 Model Context Protocol,成为 Agent 接口事实标准

2024-10

Claude Computer Use

Anthropic 让 AI 首次直接操控电脑屏幕,开创计算机使用新范式

2024-09

Replit Agent 全栈自动化

自然语言到上线产品,面向非工程师

2024-08

Cursor ARR 破亿

史上增长最快 SaaS,AI 编程工具新王者

2024-06

Claude 3.5 登顶 SWE-bench

最强编程 AI,Bug 修复能力达到初级工程师水平

2024-03

Devin 发布

全球首个自主 AI 软件工程师,能独立完成完整编程任务

模型2026年5月10日

Anthropic 发布 Claude Opus 4.1:成本降 50%,推理性能达顶级水准

Anthropic 正式发布 Claude Opus 4.1,这是迄今为止「成本-性能」比最优的版本。Opus 4.1 在 SWE-bench(编程任务)上得分 72.8%,超越所有开源模型,与 GPT-4o 持平。同时,API 定价从每百万 tokens $15 降至 $7.50,降幅 50%。更重要的是,Opus 4.1 新增「渐进式推理」(Progressive Reasoning)模式,允许 Agent 在推理过程中对中间结果进行实时验证和纠正,相比传统一次性输出模式,准确率提升 23%。Cursor 和 Windsurf 已宣布默认使用 Opus 4.1 作为后端。

Anthropic
模型2026年5月9日

多模态AI工具详解:是什么、为什么重要,以及2025年的落地场景

多模态AI能看、能听、能读。了解多模态AI工具的原理,以及它在各行业中最具价值的使用场景。 ## 直接回答 **什么是多模态AI?** 多模态AI是指能同时处理多种类型输入(文字、图像、音频、视频)的AI系统。2025年最具代表性的多模态AI:GPT-4o(文字+图像+语音)、Gemini 1.5 Pro(文字+图像+音频+视频)、Claude 3.5(文字+图像)。 **为什么多模态很重要?** 因为真实世界的信息不只是文字——80%以上的数据是非结构化的图像、视频和音频。多模态AI让AI真正能处理现实世界的复杂信息。 ## 核心多模态AI工具 ### GPT-4o(OpenAI) - **模态**:文字、图像、语音(实时) - **亮点**:实时语音对话,响应速度极快;可以「看」图片并回答问题 - **最佳场景**:实时语音助手、图像分析、视觉问答 ### Gemini 1.5 Pro(Google) - **模态**:文字、图像、音频、视频 - **亮点**:可处理1小时以上的视频内容;100万token上下文 - **最佳场景**:视频内容分析、超长多媒体文档处理 ### Claude 3.5 Sonnet(Anthropic) - **模态**:文字、图像 - **亮点**:图像理解+代码生成组合最强(分析UI截图→直接生成代码) - **最佳场景**:从设计图生成代码、文档图像分析 ## 各行业落地场景 ### 医疗 - 医学影像辅助诊断(X光、CT扫描分析) - 病历照片+文字记录综合分析 - 手术视频实时辅助指导 ### 教育 - 拍照解题:学生拍下数学题,AI分步解析 - 手写作业批改:上传手写文档,AI识别并批改 - 多语言视频自动配字幕翻译 ### 电商 - 商品图片自动生成商品描述 - 竞品价格监控(截图分析) - 用户上传照片,AI推荐相似商品 ### 创意设计 - 草图→成品设计:手绘草图上传,AI生成精细设计稿 - 品牌视觉审计:批量分析图片是否符合品牌规范 - 视频内容摘要:1小时视频→3分钟精华摘要 ### 企业运营 - 合同图片/PDF扫描识别并提取关键条款 - 会议录像自动生成结构化会议记录 - 安防监控智能分析(异常行为识别) ## 如何选择多模态AI工具 | 需求 | 推荐工具 | 理由 | |------|---------|------| | 实时语音交互 | GPT-4o | 最低延迟,最自然 | | 视频内容分析 | Gemini 1.5 Pro | 唯一支持长视频 | | 图片→代码 | Claude 3.5 | 代码+视觉组合最强 | | 批量图片处理 | GPT-4o API | API生态最完善 | ## FAQ **Q:多模态AI识别图片的准确率如何?** A:在标准图像理解测试中,GPT-4o和Gemini准确率均在85-95%区间,但在专业领域(医疗影像、工业检测)仍需人工验证。 **Q:多模态AI的API调用成本高吗?** A:图像输入会增加token消耗。一张图片约等于500-1000个文字token,成本相应增加。视频处理成本最高,建议先在小规模场景验证ROI。 **Q:有没有免费的多模态AI工具?** A:有,ChatGPT免费版(有使用限制)、Google Gemini免费版、Bing Copilot(基于GPT-4o)均可免费使用多模态功能。 ## 相关资源 - 对比所有AI模型能力:[aiskillnav.com/models](https://aiskillnav.com/models) - 探索多模态AI使用场景:[aiskillnav.com/usecases](https://aiskillnav.com/usecases)

AI Skill Nav
模型2025年5月6日

Claude 4 刷新 Agent 基准:SWE-bench 突破 72%,超越人类初级程序员

Anthropic 发布 Claude 4,在软件工程基准 SWE-bench Verified 上得分达到 72.5%,首次明显超越人类初级工程师的平均表现(约 60%)。Claude 4 引入「扩展思考(Extended Thinking)」模式,允许模型在给出最终答案前进行长达数分钟的内部推理,在需要多步骤规划的 Agent 任务上尤为突出。Cursor、Windsurf 等 AI IDE 已宣布优先接入 Claude 4 作为默认 Agent 引擎。

Anthropic
模型2025年3月28日

GPT-4o 实时语音 + 函数调用:Agent 进入「听说做」新时代

OpenAI 大幅升级 GPT-4o 的实时 API,新增对话中途函数调用(mid-conversation function calling)能力,允许 Agent 在与用户实时对话的同时查询数据库、调用工具、执行代码,结果无缝回流对话。这一能力打通了语音 Agent 的最后一公里:Agent 不再只是「会说话的助手」,而是能在通话中实时帮你完成订单、查余额、操控系统的执行者。国内多家语音 SaaS 已宣布接入。

OpenAI Platform
模型2025年1月20日

DeepSeek-R1 开源,推理成本仅 OpenAI 的 3%

中国 AI 公司 DeepSeek 发布并完全开源 R1 推理模型,其在数学推理、代码生成等任务上的表现与 OpenAI o1 相当,但训练成本不到后者的 3%。这一消息震惊全球 AI 行业,引发 NVIDIA 股价大跌,并重燃全球对中国 AI 能力的关注。

GitHub / DeepSeek
模型2024年12月11日

Google 发布 Gemini 2.0,原生支持 Agentic 能力

Google DeepMind 发布 Gemini 2.0 系列模型,这是 Google 首批原生支持 Agentic 能力的模型,包括实时流媒体、原生工具调用和多模态输入输出。Gemini 2.0 Flash 以极低成本提供强大的 Agent 支持,正在快速占领企业市场。

Google DeepMind
模型2024年6月20日

Claude 3.5 Sonnet 登顶 SWE-bench,成为最强编程 AI

Anthropic 发布 Claude 3.5 Sonnet,在 SWE-bench Verified 评测中以 49% 的问题解决率位列第一,超越 GPT-4o 和 Gemini 1.5 Pro。SWE-bench 是测试 AI 真实 GitHub Bug 修复能力的权威基准,这一结果意味着 Claude 在自主软件开发任务上已达到人类初级工程师水平。

Anthropic Blog
上一页2 / 2