教程中心
AI Agent 从入门到实战:概念理解、MCP 使用、平台实操、工作流自动化
1252
教程总数
234
入门教程
42
实操教程
按主题浏览
进阶其他
OCR with Large Vision Models: Implementation Guide
Advanced optical character recognition using VLMs
视觉大模型 OCR 实现指南(2026):经典 OCR 答「有什么字」,VLM 答「文档说了什么+结构化输出」。核心三件套:unreadable_fields 反幻觉出口、提示词内算术自检+代码复验、整数分单位。含规模化混合漏斗架构与多页策略。
multimodalvision
11分钟进阶其他
Claude Vision Image Analysis: Implementation Guide
Analyzing images and documents with Claude 3 Vision
Claude Vision 图像/文档分析实现指南(2026):messages API 直传图片与 PDF、高分辨率支持。生产模式四件套:结构化提取+置信度门控、数字溯源自检(引位置防误读)、分辨率成本控制、与传统 OCR 的取舍。附弱项设计对策。
multimodalvision
11分钟进阶其他
Image Captioning with AI: Implementation Guide
Generating descriptive captions for images with VLMs
AI 图像描述实现指南(2026):同一张图四种用途四种 caption(无障碍 alt-text/电商文案/检索索引/审核元数据)——风格必须显式指定。mini 档足够、降分辨率控成本、批量走 Batch API、DECORATIVE 出口防瞎编。含以图搜图索引架构。
multimodalvision
9分钟