百度最强视觉识别模型来了！仅0.9B，文档解析能力超越Gemini、GPT

作者 | 王涵

编辑 | 心缘

智东西6月2日报道，近日，百度正式发布文心衍生视觉识别模型PaddleOCR-VL-1.6。

在权威文档解析能力评测集OmniDocBench v1.6上，PaddleOCR-VL-1.6总指标达到96.33%，超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等，综合性能第一。

在面向真实复杂场景构建的Real5-OmniDocBench评测中，PaddleOCR-VL-1.6总指标达到93.19%，较 Gemini-3-Pro提升近4%，在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档等五大真实场景下均表现较优。

实测数据表明，相较于市面主流开源、闭源识别模型，PaddleOCR-VL-1.6在常规文字、数学公式、表格三大基础识别维度综合表现更优。

针对表格解析、繁体古籍、冷僻用字等高难度识别场景，该模型效果较上一代明显优化，印章甄别、文字定位、图表信息提取等细分任务性能也同步改善，可以适配各类文档数字化落地场景的实际使用要求。

目前，PaddleOCR-VL-1.6已上线PaddleOCR官网，支持网页端和API调用。同时，模型代码及权重已同步开源至GitHub和Hugging Face。

PaddleOCR官网：paddleocr.com

Github：github.com/PaddlePaddle/PaddleOCR

HuggingFace：huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6

据文心团队介绍，PaddleOCR基于文心大模型训练而来，是文心大模型多模态能力的重要部分，支持超100种语言识别，用户覆盖170多个国家和地区。

此次发布的PaddleOCR-VL-1.6，基于PaddleOCR-VL-1.5改进通过模型驱动的数据构建机制和渐进式训练优化，在保持0.9B轻量化架构的情况下，模型准确率和复杂场景适应能力进一步提升。

由于两代模型模型结构一致，开发者和企业用户无需进行额外适配，即可平滑迁移。

近年来，百度先后推出PaddleOCR-VL、PaddleOCR-VL-1.5等多款模型。PaddleOCR的GitHub星数已突破79.2K，超过谷歌开源OCR项目Tesseract OCR。

Published by