Multimodal AI

Google Gemini Ultra原生多模态：单次API调用分析1小时视频

Google的Gemini 1.5 Pro实现了真正的视频理解——在单个上下文窗口中，以每秒1帧的速度处理长达1小时的视频。早期基准测试显示，在技术图表关系提取上准确率达87%，在财务报告图表数据提取上准确率达94%，显著优于使用附加视觉功能的模型。

2025年5月18日来源：Google DeepMind

阅读原文

本条资讯来源于 Google DeepMind，点击查看完整报道。

Documentation