97毫秒!百度 PP-OCRv6 把 OCR 带进毫秒时代

互联网 0 11
互联网资讯
雷峰网 互联网资讯 发布于 昨天 20:15
本条新闻为单纯事实消息的时事新闻,转载自雷峰网,版权归源站所有,如有侵权,烦请联系我们

近日,百度文心正式发布新一代OCR模型PP-OCRv6,一次性推出Tiny、Small、Medium三档模型,支持50多种语言,覆盖浏览器端、嵌入式设备到服务器等主流场景。公开结果显示,PP-OCRv6再次刷新OCR领域评测纪录,综合性能位居全球第一。

其中,PP-OCRv6 Tiny的尺寸仅1.5MB,可直接部署于本地浏览器环境,单图预测最快仅需97毫秒。用户数据无需上传云端即可完成OCR处理,在保障隐私安全的同时,大幅降低部署门槛。有开发者评价,PP-OCRv6可能是全球唯一可在浏览器环境运行的高精度OCR模型,为Agent装上一双眼睛,能够在智能办公、教育、工业等场景提供更加轻量、高效的视觉感知能力。

在性能方面,PP-OCRv6在保持轻量化优势的同时进一步提升识别精度和推理速度,综合性能显著增强。PP-OCRv6在文本检测和文本识别任务中分别取得86.2和83.2的成绩,双双刷新此前由PP-OCRv5保持的OCR领域最佳水平,整体表现领先于Qwen3-VL-235B、GPT-5.5、Gemini-3.1-Pro等国内外主流多模态大模型,在OCR专业任务上展现出更强竞争力。


作为文心大模型多模态能力的重要组成部分,PP-OCR系列近年来持续推进文本检测与识别技术升级,先后推出PP-OCRv1至PP-OCRv6等多个版本。目前,PP-OCR系列所在的PaddleOCR项目已支持超110种语言识别,服务覆盖全球170多个国家和地区。

凭借轻量化、高精度等特点,PP-OCR系列已被广泛集成至UmiOCR、MinerU、TurboOCR等业界OCR工具链中,并应用于文档解析、数据处理、知识库构建等场景,成为开发者和企业常用的开源OCR解决方案之一;同时,PP-OCR系列也成为各大模型团队开展数据预处理、文档解析和知识提取的重要工具,为模型训练与应用落地提供支持。在GitHub上,PaddleOCR的Star数量已突破8.22万,超过谷歌旗下开源OCR标杆产品Tesseract OCR,成为全球最受关注的开源OCR项目之一。

目前,PP-OCRv6已上线PaddleOCR官网,用户可通过网页或API方式快速使用,代码和模型权重也已开源至Github和HuggingFace,服务广大用户下载和使用。

  • PaddleOCR官网:paddleocr.com

  • Github:github.com/PaddlePaddle/PaddleOCR

  • HuggingFace:https://huggingface.co/collections/PaddlePaddle/pp-ocrv6

点赞 0 收藏(0)  分享
0个评论
  • 消灭零评论
本版公告

欢迎访问资讯板块,我们将在本版块为您带来最新最全最热的资讯,包含互联网、科技、数码、电脑、科普、体育、娱乐、国内等新闻。所有新闻都为单纯事实消息的时事新闻,转载均注明了来源,版权归源站所有,如有侵权,烦请联系我们

更多【互联网】资讯...
Facebook与Instagram大规模宕机,Meta服务中断 0
谁来给阿里Agent扛旗? 0
路转粉!雷军武汉街头坐小板凳过早,松弛感拉满 0
与 OpenAI 分道扬镳后,对微软股价更有利? 0
拼多多雄安公司最新进展:首批150名新员工已入 0
97毫秒!百度 PP-OCRv6 把 OCR 带进毫秒时代 0
最新 | 京东七鲜,又开新店!明日起618优惠来袭 0
数据工厂与未来之城:拼多多与雄安的双向奔赴 0
将以15亿美元收购朴朴,阿里用十七个月重新定义 0
百度搭子DuMate核心引擎升级 0