Claude Vision 图像分析：实现指南

使用 Claude 3 Vision 分析图像与文档

进阶约 11 分钟

AI Skill Navigation 编辑团队

Claude Vision 图像分析：实现指南

使用 Claude 3 Vision 分析图像与文档

Claude Vision 图像/文档分析实现指南（2026）：messages API 直传图片与 PDF、高分辨率支持。生产模式四件套：结构化提取+置信度门控、数字溯源自检（引位置防误读）、分辨率成本控制、与传统 OCR 的取舍。附弱项设计对策。

multimodal vision llm anthropic vision

Claude Vision：图像与文档分析实现指南

Claude 的视觉能力可直接在 messages API 中接收图像（和 PDF）——截图、图表、照片、扫描文档——并使用处理文本的同一模型对其进行推理。当前一代模型能够很好地处理高分辨率输入（根据 Anthropic 文档，最新的 Opus 模型可接受长边约 2576px 的图像，并具备像素级坐标理解），这为本指南实现的图表读取和文档问答工作负载提供了支持。

基本调用

python
import base64
from anthropic import Anthropic
client = Anthropic()
with open('dashboard.png', 'rb') as f:
    image_data = base64.standard_b64encode(f.read()).decode()response = client.messages.create(
    model='claude-opus-4-8',
    max_tokens=16000,
    messages=[{
        'role': 'user',
        'content': [
            {'type': 'image',
             'source': {'type': 'base64', 'media_type': 'image/png', 'data': image_data}},
            {'type': 'text',
             'text': '这个指标仪表盘与正常情况相比有什么变化？列出异常及其所在的面板。'}
        ],
    }],
)
print(response.content[0].text)

也支持 URL 来源（'source': {'type': 'url', 'url': 'https://...'}），并且每条消息可包含多张图像——适用于“比较这两张截图”的任务。支持的格式：JPEG、PNG、GIF、WebP。

真正擅长的工作负载

文档理解：发票、收据、表单——具有布局感知的提取（哪个标签对应哪个值），而传统 OCR 只给出字符串集合。对于多页 PDF，直接传递文档（PDF 支持），无需自行栅格化页面。

图表/图形读取：从绘图数据中提取数值、趋势和异常值——要求以*表格*形式返回数据，即可将图表逆转为数字。

UI 截图：Bug 报告分类（“显示什么错误，表单处于什么状态”）、无障碍审查，以及计算机使用代理的感知层。

真实世界照片：损坏评估、货架审计、设备识别——任何初级分析师会描述照片的场景。

生产模式

1. 结构化提取，经过验证。 视觉 + 结构化输出是生产组合——定义模式，强制 JSON，验证：

python
prompt = '''从这张发票中提取 JSON：
{"vendor": str, "invoice_number": str, "date": "YYYY-MM-DD",
 "line_items": [{"description": str, "amount_cents": int}],
 "total_cents": int, "confidence": "high|medium|low"}
如果某个字段不可读，使用 null 并相应设置 confidence。仅返回 JSON。'''

对响应进行模式验证（Zod vs Pydantic），并将 confidence != high 的路由到人工审核——视觉提取应置于人在回路模式中，直到你的测量错误率另有说明。

2. 数字自检技巧。 对于高风险的数值提取（总额、仪表读数），要求模型同时引用每个数字出现的*位置*（“右下角，小计行下方”）——位置定位可显著减少误读，这与合同分析中的引用来源原则相同。

3. 成本控制。 图像按输入令牌计费，令牌数随分辨率缩放（当前 Opus 上的全分辨率图像可能消耗数千令牌）。控制手段：将图像缩小到任务所需的最低分辨率（收据不需要 4K），发送前裁剪到感兴趣区域，并通过 Batches API 以 50% 折扣批量处理低优先级任务（批处理模式——Anthropic 的等效方案工作方式相同）。但不要盲目缩小图表/文档工作的分辨率——如果保真度决定准确性，那么分辨率正是你付费*购买*的。

4. OCR 替代决策。 大规模纯密集文本数字化：专用 OCR 每页仍然更便宜。任何需要*理解*的任务（布局、分类、提取逻辑、手写容忍度）：视觉-LLM 在系统总复杂度上胜出——比较见大型视觉模型的 OCR。

需要设计规避的局限

计数和精细空间精度是弱项（许多相似小物体、精确像素测量）——不要在没有验证的情况下仅凭原始视觉调用构建库存计数。

幻觉的合理性：模糊字段可能变成*看似合理*的发票号码，而非拒绝——因此需要置信度字段、位置定位和上述验证门控。

人员识别默认被拒绝——身份识别工作流需要不同的工具。

常见问题

视觉 vs 针对固定任务的微调分类器？ 高容量单标签分类（缺陷/无缺陷）最终需要小型训练模型；视觉-LLM 在长尾多样性和任何需要语言输出的任务中胜出。

能处理手写吗？ 对于合理清晰的字迹，效果不错，但置信度门控建议加倍。

多提供商？ GPT 和 Gemini 的视觉功能采用几乎相同的消息格式——网关模式也涵盖视觉路由；只需按提供商重新运行评估，视觉质量差异比文本更大。

*最后更新：2026 年 6 月。模型能力依据 Anthropic 文档——请在那里验证当前限制。*

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

Claude Vision 图像分析：实现指南

Claude Vision：图像与文档分析实现指南

基本调用

真正擅长的工作负载

生产模式

需要设计规避的局限

常见问题

Documentation

Getting Started

Learn more