性能超越 GPT-4o 及 Qwen2.5-VL，百度超轻量小模型 PP-OCRv5 Blog 持续登顶 Hugging Face 热度第一

数码 0 14

本条新闻为单纯事实消息的时事新闻，转载自IT之家，版权归源站所有，如有侵权，烦请联系我们。

近日，百度在海外官方账号介绍了最新轻量级文字识别模型 PP-OCRv5。该模型仅 0.07B 参数，以千分之一参数量实现与 700 亿参数大模型相媲美的 OCR 精度。在多项 OCR 场景测试中，PP-OCRv5 的表现超越 GPT-4o、Qwen2.5-VL-72B 等通用视觉大模型。最新信息显示，飞桨团队发布的技术 Blog 已连续一周登顶 Hugging Face 博客热度榜首，受到开发者社区的广泛关注。

Blog 指出，在 OCR 场景中，通用视觉大模型（VLM）在精确文本定位和边框精度上仍面临挑战，同时容易带来高计算开销和“幻觉”输出。相较于 VLM，PP-OCRv5 采用了模块化双阶段检测与识别方案，能够实现轻量高效推理与更精准的文本边界框输出。

Benchmark 数据显示，PP-OCRv5 在 Printed Chinese、Printed English、Handwritten English 等核心任务上与百亿级大模型 Qwen2.5-VL-72B 精度持平甚至更优；在 Handwritten Chinese、Chinese Pinyin 等复杂场景中，仍稳居前列，表现出强泛化能力。

作为百度飞桨团队推出的全场景文字识别模型，PP-OCRv5 是业界首个单模型支持 5 种文字类型的超轻量级（<100M）开源模型，且支持复杂手写体识别，可广泛应用于教育行业的试卷作业批改、医疗行业的病历数字化、法律行业的合同笔录数字化等多场景业务需求。

2025 年 5 月，飞桨团队推出 PaddleOCR 3.0 版本，文字识别方案 PP-OCRv5 与通用文档解析方案 PP-StructureV3，以及原生支持文心大模型 4.5 的智能文档理解方案 PP-ChatOCRv4 共同构成其三大特色能力。自 2020 年开源以来，PaddleOCR 累计下载量突破 900 万，被超过 5.9k 开源项目直接或间接使用，是 GitHub 社区中唯一一个 Star 数超过 50k 的中国 OCR 项目。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

点赞 0 收藏(0)

0个评论

消灭零评论