近日,百度在海外官方账号介绍了最新轻量级文字识别模型 PP-OCRv5。该模型仅 0.07B 参数,以千分之一参数量实现与 700 亿参数大模型相媲美的 OCR 精度。在多项 OCR 场景测试中,PP-OCRv5 的表现超越 GPT-4o、Qwen2.5-VL-72B 等通用视觉大模型。最新信息显示,飞桨团队发布的技术 Blog 已连续一周登顶 Hugging Face 博客热度榜首,受到开发者社区的广泛关注。
Blog 指出,在 OCR 场景中,通用视觉大模型(VLM)在精确文本定位和边框精度上仍面临挑战,同时容易带来高计算开销和“幻觉”输出。相较于 VLM,PP-OCRv5 采用了模块化双阶段检测与识别方案,能够实现轻量高效推理与更精准的文本边界框输出。
Benchmark 数据显示,PP-OCRv5 在 Printed Chinese、Printed English、Handwritten English 等核心任务上与百亿级大模型 Qwen2.5-VL-72B 精度持平甚至更优;在 Handwritten Chinese、Chinese Pinyin 等复杂场景中,仍稳居前列,表现出强泛化能力。
作为百度飞桨团队推出的全场景文字识别模型,PP-OCRv5 是业界首个单模型支持 5 种文字类型的超轻量级(<100M)开源模型,且支持复杂手写体识别,可广泛应用于教育行业的试卷作业批改、医疗行业的病历数字化、法律行业的合同笔录数字化等多场景业务需求。
2025 年 5 月,飞桨团队推出 PaddleOCR 3.0 版本,文字识别方案 PP-OCRv5 与通用文档解析方案 PP-StructureV3,以及原生支持文心大模型 4.5 的智能文档理解方案 PP-ChatOCRv4 共同构成其三大特色能力。自 2020 年开源以来,PaddleOCR 累计下载量突破 900 万,被超过 5.9k 开源项目直接或间接使用,是 GitHub 社区中唯一一个 Star 数超过 50k 的中国 OCR 项目。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。