
这项由百度千帆团队主导的研究发表于2026年3月17日的arXiv预印本平台(论文编号:arXiv:2603.13398v1),该研究推出了一个名为Qianfan-OCR的革命性文档智能模型,这个拥有40亿参数的端到端模型能够像人类一样理解各种复杂文档。
传统的文档识别技术就像一个流水线工厂,需要先让一个工人识别文档的版面布局,再让另一个工人负责文字识别,最后还要第三个工人来理解内容含义。这种分工虽然专业,但就像电话游戏一样,信息在传递过程中容易失真,而且一旦某个环节出错,整个流程都会受影响。更重要的是,当图表、表格等视觉元素被转换成纯文字后,很多关键的空间位置信息就永远丢失了。
Qianfan-OCR的出现彻底改变了这种局面。这个模型就像一位既精通阅读又深谙理解的全能型学者,能够一眼看穿文档的全貌,同时准确识别文字并理解其含义。无论是复杂的学术论文、密集的财务报表,还是图文并茂的技术手册,它都能游刃有余地处理。
在性能表现上,Qianfan-OCR在专业OCR评测基准OmniDocBench v1.5上取得了93.12的高分,在所有端到端模型中排名第一,甚至超越了许多传统的多阶段流水线系统。在OlmOCR Bench评测中也达到了79.8分的优异成绩。更令人印象深刻的是,在关键信息提取任务上,它的综合表现超越了包括Gemini-3.1-Pro在内的多个商用大模型。
这项研究的一个重要创新是提出了"Layout-as-Thought"(布局即思维)机制。简单来说,当遇到复杂文档时,模型会先在"心中"勾勒出文档的整体布局,明确每个元素的位置和类型,然后基于这种结构化理解来生成最终答案。这就像一个经验丰富的编辑在阅读稿件时,会先整体浏览版面结构,理解各部分的逻辑关系,然后再深入细节一样。
一、传统OCR技术的三重困境
当前的OCR(光学字符识别)技术面临着一个典型的"不可能三角":成本、精度和功能三者难以兼顾。这就像开餐厅时面临的经典难题——好吃、便宜、快速三个目标很难同时实现。
传统的流水线OCR系统就像一家分工明确的餐厅:前厅负责接待识别文档类型,厨房负责处理文字识别,服务员负责最后的内容理解服务。这种模式在处理标准化文档时效率很高,成本也相对较低。但是当面对复杂多变的文档时,问题就暴露出来了。比如处理一份既有表格又有图表的财务报告,前厅可能会遗漏某些表格区域,厨房在识别时可能会搞错数据对应关系,而服务员在最终理解时已经拿不到完整的视觉信息了。
专门的OCR大模型虽然在精度上有所提升,但它们采用的仍然是两阶段处理方式:先识别布局,再逐个处理元素。这就像先用摄像头拍下整张桌子,然后把每道菜单独端到后厨去分析一样。虽然每道菜都能得到精细处理,但菜与菜之间的摆盘关系、整体的用餐氛围等重要信息就完全丢失了。更糟糕的是,一旦某个菜在传递过程中出了问题,整个用餐体验都会受到影响。
通用的视觉语言模型确实具备了理解复杂场景的能力,就像一位见多识广的美食评论家,能够欣赏各种菜系的精妙之处。但是当专门用来处理文档时,它们就显得有些"大材小用"且效率不高。这就像请一位米其林星级主厨来做家常便饭,虽然手艺绝对没问题,但成本高昂,而且可能在一些基础的标准化操作上反而不如专门的师傅熟练。
在实际的工业应用中,企业往往需要将这三种不同的系统串联起来:用检测模型找出文档中的各个区域,用OCR模型提取文字内容,再用大语言模型进行最终的理解和分析。这种做法就像组织一场接力赛,虽然每个选手都很专业,但协调成本高,容错性差,而且最后一棒选手永远看不到起跑时的完整画面。
二、Qianfan-OCR的三大核心设计理念
面对传统技术的困境,Qianfan-OCR提出了三个核心的解决方案,就像重新设计了整个文档处理的工作流程。
端到端架构的设计就像把原来的流水线餐厅改造成了开放式厨房。在这种新模式下,厨师能够从顾客点单开始就全程参与,直接观察顾客的需求,同时在烹饪过程中保持对整体用餐环境的感知。Qianfan-OCR将布局分析、文字识别和语义理解融合在单一的视觉语言模型中,这意味着模型在处理文档的每一个步骤都能"看到"完整的视觉信息。
当处理一份包含图表的研究报告时,传统系统会先把图表转换成"图表类型:柱状图,数据:A公司销售额100万,B公司销售额150万"这样的文字描述。但Qianfan-OCR始终保持着对原始图表的视觉感知,它能理解柱子的高低对比、颜色编码、坐标轴的刻度关系等视觉信息,这些细节对于准确理解数据趋势至关重要。
Layout-as-Thought机制的引入解决了端到端处理中一个关键问题:如何在保持处理效率的同时,不丢失传统系统中有用的布局分析能力。这个机制就像给模型装上了一个"思考开关"。当遇到结构复杂的文档时,用户可以在提示词中加入特殊的"思考"标记,模型就会先在内部进行一轮结构化分析,明确每个元素的位置、类型和内容概要,然后基于这个"思维导图"来生成最终答案。
这种设计特别巧妙的地方在于它是可选的。对于结构简单的文档,比如纯文字的合同或通知,模型可以直接给出结果,不需要额外的布局分析开销。但当面对复杂的多栏学术论文或者图文并茂的技术手册时,启用思考模式能显著提升准确性。实验结果显示,在布局复杂度较高的文档上,思考模式能带来明显的性能提升,而在简单文档上则基本持平,这说明模型确实学会了"因材施教"。
统一OCR和理解能力的设计让Qianfan-OCR不仅仅是一个文字识别工具,更是一个文档理解专家。传统OCR模型只能告诉你"这里写着什么",而通用视觉模型虽然能理解内容,但在精确的文字识别上经常出错。Qianfan-OCR则像一位既有敏锐观察力又有深度理解能力的学者,能够准确识别每一个字符,同时理解这些文字在具体语境中的深层含义。
这种统一设计的优势在处理图表理解任务时表现得尤为明显。当面对一个复杂的统计图表时,传统流水线系统往往会在转换成文字描述的过程中丢失大量视觉信息,导致后续的理解模块无法准确判断数据趋势。而Qianfan-OCR能够同时"看到"图表中每个数据点的精确数值和它们之间的视觉关系,从而给出更准确的分析结果。
三、模型架构的精心设计
Qianfan-OCR的整体架构采用了成熟的多模态桥接设计,但在细节上针对文档处理任务进行了深度优化,就像为特定用途定制的精密仪器。
视觉编码器采用了Qianfan-ViT架构,这是一个专门为文档处理优化的视觉理解模块。它最大的特点是支持动态分辨率处理,就像一台能够自动调节焦距的高端相机。当面对高清扫描的技术文档时,系统会自动将图像切分成多个448×448像素的小块进行处理,最多支持16个小块,这意味着单个文档可以用多达4096个视觉标记来表示。这种设计确保了即使是字体很小、密度很高的文档也能得到充分的细节保持。
语言模型骨架选择了Qwen3-4B作为基础,这个40亿参数的模型在推理能力和部署效率之间找到了最佳平衡点。它就像一台既强大又节能的处理器,足以胜任复杂的文档理解任务,同时在单个GPU上就能流畅运行。模型采用了分组查询注意力机制,这是一种巧妙的技术优化,可以将内存使用量降低到原来的四分之一,同时保持生成质量不变。
跨模态适配器虽然结构简单,只是一个两层的多层感知机,但作用却至关重要。它就像一位专业的翻译官,将视觉编码器产生的图像特征"翻译"成语言模型能够理解的表示。这个适配器的轻量化设计意味着模型的大部分参数都集中在核心的推理部分,而不是浪费在格式转换上。
在训练过程中,系统采用了分阶段的策略。第一阶段只训练适配器部分,就像先让翻译官熟悉两种"语言"的基本对应关系。后续阶段则进行全参数训练,让整个系统协同工作,达到最佳的理解效果。
四、大规模数据合成管道
为了训练这样一个全能的文档理解模型,研究团队开发了六条专门的数据合成管道,就像建立了六个不同的"训练营",每个都专门针对特定类型的文档处理任务。
文档解析数据合成管道是整个系统的基础。它使用PaddleOCR-VL作为标注引擎,自动将大量文档图像转换成结构化的Markdown格式。这个过程就像训练一位速记员,让他不仅能准确记录说话内容,还能同时标注说话人的语调、停顿和强调。系统会将表格转换成HTML格式,将公式用特殊标记包围,并对所有边界框坐标进行归一化处理,确保模型能在不同分辨率的文档上都保持一致的理解能力。
在标注系统的选择上,研究团队进行了细致的比较分析。他们发现PaddleOCR-VL提供的细粒度标签体系特别适合下游任务的需求。比如在处理学术论文时,系统能够区分正文、摘要、标题、参考文献等不同类型的文本区域,这种精细的分类对于后续的信息提取和理解至关重要。最终的标签体系包含25个类别,分为文本元素、页眉页脚、图表和公式四大组。
Layout-as-Thought数据构建是一个特别创新的环节。系统会为复杂文档生成专门的"思考过程"数据,教会模型如何在特殊标记内进行结构化推理。这就像训练一个学生在解决复杂数学题时,先在草稿纸上画出思维导图,理清楚各个部分的关系,然后再写出最终答案。这种训练数据包含了边界框坐标、元素标签和内容摘要,让模型学会在必要时进行深度的版面分析。
关键信息提取管道专门针对实际业务需求进行了优化。在现实应用中,用户经常需要从发票、合同、证件等文档中提取特定字段的信息。这个管道不仅包含了"完整提取"(提取文档中的所有结构化信息)和"目标提取"(提取用户指定的特定字段)两种场景,还特别考虑了多模型协作标注的问题。由于教师模型也可能产生幻觉,系统采用了开源数据和小模型预标注相结合的方式,通过多个模型的交叉验证来提高标注质量。
复杂表格处理管道结合了程序化合成和真实文档提取两种方式。程序化部分就像一个表格生成器,能够随机创建各种复杂度的表格,支持单元格合并、多种数据类型,并且会随机选择50多种专业样式进行渲染。真实文档部分则使用内部解析工具提取真实表格,并进行一致性验证,确保标注的可靠性。这种双重保障的方式既保证了数据的多样性,又确保了质量的可控性。
图表理解管道基于arXiv论文的LaTeX源代码构建了一个自动化合成系统。这个系统能够提取论文中的图表代码,使用TeXLive引擎重新渲染得到无损的矢量图像,然后利用视觉语言模型生成详细的描述。整个过程涵盖了11种主流图表类型,并且为不同类型设计了专门的推理任务,比如为折线图设计趋势分析任务,为散点图设计相关性分析任务。
多语言OCR数据构建采用了逆向合成的方法,从HPLT多语言语料库出发,支持192种语言。系统会先进行字体兼容性筛选,确保文本内容能够正确渲染,然后针对不同的文字系统(拉丁文、西里尔文、阿拉伯文、汉字等)采用差异化的处理策略。这种方法确保了模型能够处理全球范围内的各种文档。
五、四阶段渐进式训练策略
Qianfan-OCR的训练过程采用了四个精心设计的阶段,就像培养一位文档处理专家的完整学习历程。
第一阶段是跨模态对齐,使用500亿个标记的数据量建立基础的视觉语言对应关系。这个阶段只训练适配器部分,就像让一个翻译新手先熟悉两种语言的基本词汇对照。系统使用基础的图像-标题对和简单的OCR任务来确保模型能够稳定地将视觉信息转换为文本表示。这个阶段虽然数据量相对较小,但对整个模型的稳定性至关重要。
第二阶段是基础OCR训练,使用了2万亿个标记的海量数据来发展全面的文字识别能力。这个阶段采用全参数训练,数据配比经过精心设计:文档OCR占45%,场景OCR占25%,标题生成占15%,专门的OCR任务(手写字、公式、表格、多语言文本)占15%。这种配比确保模型既能处理标准的文档场景,也能应对各种特殊情况。
第三阶段是领域专项增强,使用8000亿个标记的数据进行针对性优化。这个阶段的数据分配更加注重企业关键应用场景:复杂表格处理22%、公式识别20%、图表理解18%、信息提取18%、多语言OCR 12%、文档理解10%。同时保持70%的专业数据和30%的通用数据比例,在加强专业能力的同时防止灾难性遗忘。
第四阶段是指令调优和推理增强,使用数百万个指令样本覆盖全面的文档智能任务。这个阶段的数据构建采用了三种策略的结合:公开数据整理、逆向合成和图表数据挖掘。公开数据部分收集已有的OCR相关训练数据集,并使用DeepSeek模型进行指令重写和泛化,增加提示词的多样性。逆向合成部分针对可逆生成的任务(如表格、试卷)构建大规模问答对。图表数据挖掘部分从学术论文语料中提取图表对,生成基于原始来源的图表理解问答对。
训练基础设施使用了1024块百度昆仑P800芯片,采用3D并行化策略(数据并行、张量并行、流水线并行)处理总计2.85万亿个标记的训练数据。整个四阶段流水线可以在一周内完成,而第三、四阶段的单次迭代只需要约一天时间,这种高效的训练策略支持了系统性的消融实验和优化。
研究团队还进行了多阶段训练有效性的消融研究,发现第二阶段的基础预训练是必不可少的。直接跳过第二阶段进行领域专项训练的效果明显不如完整的四阶段流程,这说明大规模通用预训练为模型提供了无法被领域数据替代的基础能力。
六、Layout-as-Thought的工作机制
Layout-as-Thought机制是Qianfan-OCR最具创新性的功能之一,它就像给模型装上了一个"结构化思维"的开关。当用户在查询中添加特殊的思考标记时,模型会首先进行一轮内部的布局分析,然后基于这个结构化理解来生成最终回答。
这个机制的工作过程可以用一个具体的例子来说明。当处理一份复杂的数学试卷时,模型会首先识别出整个页面的布局结构:顶部的标题区域、左右两栏的题目区域、穿插其中的几何图形、底部的答题空间等等。在思考阶段,模型会生成类似这样的结构化分析:"标题区域(坐标779,57到890,71):第4课时图形的认识与测量;题目区域(坐标207,81到808,108):基础训练部分..."每个元素都包含三个核心信息:精确的边界框坐标、元素类型标签和内容摘要。
坐标表示系统采用了专门的设计。所有坐标都被归一化到0-999的范围内,并且使用专用的特殊标记来表示,从到。这种设计相比于用普通数字序列表示坐标有显著优势:每个坐标只需要一个标记,而不是需要多个数字标记,这样可以将思考输出的长度减少约50%,大幅降低推理延迟。对于包含60多个布局元素的复杂文档来说,这种优化效果尤为明显。
布局分析的输出为最终回答的生成提供了两个关键优势。一是元素类型感知生成:通过明确识别元素类别(公式、表格、图像、文本),模型能够应用相应的渲染格式——将数学内容包装在特殊标记中,将表格结构转换为HTML,在正确位置插入图像占位符。二是阅读顺序引导排序:思考阶段枚举的元素遵循文档的自然阅读顺序,处理多栏布局、穿插图表和脚注时,为回答生成提供了明确的排序信号。
实验结果显示,Layout-as-Thought机制的效果与文档复杂度高度相关。研究团队按照布局标签熵对OmniDocBench v1.5的所有样本进行了排序分析,发现在高熵区域(布局复杂的文档)启用思考模式能带来持续的性能提升,而随着低熵样本的加入,这种优势逐渐减小并最终逆转。这个发现验证了设计的初衷:对于结构复杂的文档,显式的布局推理提供了额外价值;对于简单文档,这种机制可能引入不必要的开销。
因此,在实际使用中,用户应该根据文档的复杂程度来决定是否启用思考模式。对于包含混合元素类型的异构页面(试卷、技术报告、报纸),启用思考能提高准确性;对于同质化文档(单栏文本、简单表单),禁用思考能获得更好的结果和更低的延迟。
七、全面的评测体系与卓越表现
为了全面评估Qianfan-OCR的能力,研究团队建立了一个多维度的评估框架,涵盖了从专门OCR任务到文档理解的各个方面。
在专门OCR模型基准测试中,Qianfan-OCR展现出了顶尖的性能水平。在OmniDocBench v1.5评测中,它以93.12的高分在所有端到端模型中排名第一,不仅超越了DeepSeek-OCR-v2(91.09分)、Gemini-3 Pro(90.33分)等强劲对手,甚至胜过了多个传统流水线系统。在OlmOCR Bench上,Qianfan-OCR同样以79.8分领跑端到端模型排行榜,与顶级流水线系统PaddleOCR-VL的80.0分仅有微小差距。
特别值得注意的是模型在处理不同类型文档时的表现分布。在基础文档处理上,它达到了99.6分的近乎完美成绩;在页眉页脚识别方面得分92.2分;在处理老旧扫描文档这一历来困难的任务上,也取得了42.0分的突出表现,在所有端到端模型中位居首位。这些结果表明模型不仅在整体表现上出色,在各种具体场景下都保持了稳定的高质量输出。
通用OCR能力评测结果展现了Qianfan-OCR在保持专业能力的同时兼顾通用性的特点。在OCRBench上,它以880分的成绩超越了同等规模的通用视觉语言模型Qwen3-VL-4B(873分),在所有参评模型中排名第一。在多语言处理方面,CCOCR-multilan达到76.7分,CCOCR-overall达到79.3分,都超过了Qwen3-VL-4B的相应成绩。
这种性能分布体现了模型设计的权衡策略:Qianfan-OCR优先确保在专业OCR任务上的领先地位(OmniDocBench 93.12分,OlmOCR 79.8分,均为端到端模型最高),同时保持在通用场景下的竞争力,没有出现显著的性能退化。
文档理解基准测试揭示了端到端架构相对于传统流水线方法的关键优势。研究团队建立了对照实验,将专门的OCR模型与同等参数规模的语言模型(Qwen3-4B)组合成两阶段系统,然后与端到端模型进行比较。
结果显示,在需要空间和视觉推理的任务上,两阶段系统出现了灾难性的性能下降。最极端的例子是CharXiv数据集,所有两阶段系统在文档问答和推理任务上都得到了0分,而Qianfan-OCR分别达到了94.0分和85.2分。这种巨大的差距直接证明了当图表结构、坐标轴关系和数据点位置等视觉信息在文本转换过程中丢失后,下游的理解模块完全无法完成相关任务。
即使在相对偏重文本的任务上,两阶段系统也表现出明显的劣势。在DocVQA任务中,各种OCR模型+LLM组合的得分范围在55.9-67.1之间,而端到端模型能够达到92.8-94.9分。在ChartQA和ChartBench等图表理解任务上,差距同样显著,再次确认了保持视觉上下文对于文档理解任务的重要性。
关键信息提取评测展现了Qianfan-OCR在实际应用场景中的优势。在五个公开KIE基准的综合评估中,它以87.9分的平均成绩位居首位,超越了同等规模的Qwen3-4B-VL(83.5分)4.4个百分点,超越了参数规模大50倍以上的Qwen3-VL-235B-A22B(84.2分)3.7个百分点,对商用大模型的领先优势更加明显,比Gemini-3.1-Pro高出约9-11个百分点。
这种性能优势在处理中文文档时表现得尤为突出。在OCRBenchv2 KIE中文测试中,Qianfan-OCR达到82.3分,显著超过了其他所有模型。即使是Qwen3-VL-235B-A22B这样的大规模模型在中文KIE任务上也只有62.9分,表明参数规模的增加并不能直接转化为多语言场景下的性能提升。
八、推理效率的工程优化
除了准确性之外,推理效率是决定模型实用性的另一个关键因素。Qianfan-OCR在这方面的表现同样令人印象深刻。
由于两阶段流水线系统涉及异构组件,单纯比较模型吞吐量并不公平。研究团队采用了"每秒处理页数"(PPS)作为整体效率指标,这个指标能够综合反映端到端系统的真实性能。测试环境统一使用单块NVIDIA A100 GPU,推理框架为vLLM 0.10.2。
结果显示,尽管Qianfan-OCR拥有40亿参数的语言模型骨架,但在采用W8A8量化后能够达到1.024 PPS的处理速度,与PaddleOCR-VL的1.224 PPS相当,超过了MonkeyOCR-pro-1.2B的0.673 PPS和Dots OCR的0.352 PPS。这种竞争性的吞吐量主要得益于端到端架构的两个优势。
首先是GPU中心化计算的优势。传统两阶段系统依赖CPU完成布局分析(检测、NMS、基于规则的组装)作为GPU识别的前置步骤。在高并发场景下,CPU阶段成为限制GPU利用率的瓶颈,这个问题随着GPU算力的提升而愈发严重。Qianfan-OCR通过GPU处理整个页面,最小化CPU参与,完全避免了这种瓶颈。
其次是高效批处理的优势。端到端模型接受整页图像,可以调整到统一尺寸,支持大批量GPU推理和良好对齐的内存访问模式。相比之下,流水线系统处理每页的裁剪区域数量不固定,导致批处理大小不规则和GPU利用率碎片化。
第三个优势是部署复杂度的大幅简化。传统流水线系统需要异步编排数据加载、布局分析和LLM推理阶段,需要仔细调整各阶段并发度、队列深度和资源分配才能达到最佳吞吐量。Qianfan-OCR将此简化为标准的单模型服务问题,显著降低了部署工作量和性能调优成本。
量化技术的应用进一步提升了实用性。AWQ量化将模型从W16A16精度压缩到W8A8精度,实现了2倍加速(从0.503 PPS提升到1.024 PPS),准确性降级几乎可以忽略。这使得Qianfan-OCR成为高吞吐量文档处理管道的实用选择。
九、技术局限与未来发展方向
作为端到端文档智能领域的开创性探索,Qianfan-OCR也面临着一些技术局限,为未来的改进指明了方向。
Layout-as-Thought机制目前只在OmniDocBench v1.5的文档解析任务上得到了充分验证,在关键信息提取、文档问答和图表理解等其他任务上的效果还有待进一步探索。当前的实现通过监督微调生成相对固定格式的布局信息,未来应该更自然地将这些布局元素整合到推理过程中,让模型灵活地根据需要调用空间推理,而不是产生固定格式的布局输出。
强化学习是一个很有前景的方向,可以基于下游任务奖励来优化布局生成过程。通过这种方式,模型能够学习产生任务自适应的布局推理,有选择地强调相关的结构信息,最终在各种文档智能场景中强化推理能力。
性能上限的探索是另一个重要研究方向。作为纯端到端OCR的先驱尝试,这类架构的最终性能潜力仍然是一个开放性问题。未来的工作应该系统性地探索架构创新、训练策略优化和数据规模定律,以确定端到端模型是否能够完全匹配或超越经过深度优化的流水线系统。
部署效率方面,虽然W8A8量化在GPU上实现了竞争性吞吐量,但40亿参数的模型规模限制了在资源受限环境下的部署,比如边缘设备和纯CPU服务器。知识蒸馏和模型剪枝技术可以用来开发紧凑版本(10-20亿参数),适用于更广泛的部署场景。
除了这些核心技术挑战,Qianfan-OCR在视频OCR、曲面3D文字识别和高度风格化艺术手写等场景下也表现出局限性,这些都为统一架构的扩展提供了有趣的方向。
结论
Qianfan-OCR的推出标志着文档智能技术的一个重要转折点。这个40亿参数的端到端模型成功地将文字识别、布局分析和语义理解统一在单一架构中,在保持竞争性准确度的同时,解决了传统流水线系统中信息传递损失的根本问题。
研究结果清晰地展示了端到端架构的核心优势:当文档理解任务需要联合的视觉和文本推理时,保持整个处理流程中的视觉上下文提供了显著优于纯文本中间表示的效果。这种优势在图表解释、复杂表格分析和需要空间推理的场景中表现得特别明显。
Layout-as-Thought机制的引入巧妙地平衡了处理效率和功能完整性。它让用户能够根据文档复杂程度动态选择是否启用深度结构分析,既保持了传统流水线系统中布局分析的有用功能,又避免了在简单场景下的不必要开销。这种灵活性使得单一模型能够适应从基础文字识别到复杂文档理解的各种需求。
从实用角度来看,Qianfan-OCR在推理效率和部署简化方面的表现同样令人满意。相比需要协调多个异构组件的传统方案,单一模型的部署和维护成本显著降低,同时在适当的量化优化下仍能保持足够的处理吞吐量。
当然,作为这个技术方向的早期探索,模型仍有改进空间。布局推理机制的进一步优化、不同任务场景下的性能提升、以及更紧凑模型变种的开发,都将进一步扩大这种统一架构的适用范围。
对于文档处理需求日益增长的数字化时代,Qianfan-OCR提供了一个兼顾准确性、效率和易用性的新选择。它不仅为研究社区展示了端到端文档智能的可行性,也为实际应用提供了一个现成可用的解决方案。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2603.13398v1查询完整的研究报告,或者访问百度AI云千帆平台体验这项技术的实际效果。
Q&A
Q1:Qianfan-OCR和传统OCR技术有什么根本区别?
A:传统OCR就像流水线工厂,需要先识别文档布局,再处理文字识别,最后理解内容含义,信息容易在传递中丢失。Qianfan-OCR则是端到端处理,就像一位全能学者能同时看懂、读懂、理解文档,始终保持对完整视觉信息的感知,避免了传统方法中空间位置信息丢失的问题。
Q2:Layout-as-Thought机制是如何工作的?
A:这个机制就像给模型装了个"思考开关"。当遇到复杂文档时,用户可以加入特殊标记让模型先在内部分析文档结构,明确每个元素的位置、类型和内容,然后基于这个"思维导图"生成最终答案。对简单文档可以跳过这步,对复杂文档则能显著提升准确性。
Q3:Qianfan-OCR能处理哪些类型的文档任务?
A:Qianfan-OCR能处理几乎所有文档相关任务,包括基础的文字识别、复杂表格提取、图表理解、文档问答、关键信息提取等。它支持192种语言,能处理从简单合同到复杂学术论文的各种文档,在图表理解等需要空间推理的任务上表现特别突出。