OCR模板融合算法研究及应用.pdf

基本信息

文件名称：OCR模板融合算法研究及应用.pdf

文件大小：5.83 MB

总页数：85 页

更新时间：2025-06-29

总字数：约13.58万字

文档摘要

OCR模板融合算法研究及应用

摘要

随着社会的发展，无论是学习、工作还是休闲都离不开表单类密集文本数据

的身影，但是大部分表单以纸质形式存在，数据利用率低，保存过程中容易损坏，

存储代价高；数据信息依赖人工提取，过程繁琐效率低且容易出错。传统的光学

字符识别（OpticalCharacterRecognition，OCR）算法面对版面复杂的表单文本时

识别效果不佳，灵活性差且存在模块依赖与误差积累，无法完成表单类密集文本

的信息提取任务。近年来，随着技术的发展，采用深度学习技术的OCR文字检测

和识别技术已经被广泛应用。因此，本文基于深度学习OCR算法设计了一种自

动提取表单类密集文本信息的识别系统。主要研究内容如下：

第一，改进预处理算法细化检测任务，使用模板匹配算法筛选文本格式，找

出与待检测文本适合的模型来提取文本信息，提升检测模型精度。

第二，设计基于深度学习的两阶段OCR算法：

检测模型：搭建基于分割的DBNet文本检测算法，并针对表单类密集文本数

据进行改进。通过加深特征增强网络使得模型学习到更深层次的语义信息从而更

精准的定位到字符边缘；增加自适应特征融合结构让模型学习到不同特征各自的

权重，通过赋予各种权重的融合提升网络数据利用率；将原有的SENet替换为

FcaNet空间注意力机制，通过增加频域分量信息的计算进一步加强了检测网络的

精度，提升对表单文本信息的检测精度，避免检测框粘连现象。实验结果表明改

进后的文本检测算法，检测精度可达到94.51%，可以很高效的完成检测任务。

识别模型:针对表单数据遵循视觉模型融合语言模型进行识别的思路，首先使

用视觉模型对文本字符进行识别，然后将识别的信息送入基于Transformer架构

的语言模型进行修正，提升识别结果的准确性。在视觉模型与语言模型中分别加

入迭代模块对模型反复迭代来提升识别精度。最后使用门控制对模型进行融合。

实验结果表明字符识别算法识别精度可达到95.3%，可以精准的完成识别任务。

第三，设计表单类密集文本信息识别系统的整体框架，根据识别场景的需求，

对图像采集模块进行挑选，确保模块能够准确地捕捉目标图像。通过服务器部署

实现算法调用。设计人机交互界面，方便用户操作识别系统。通过实际场景进行

系统测试，验证识别系统的准确性和鲁棒性。

关键词：光学字符识别系统表单类密集文本文本检测字符识别

RESEARCHANDAPPLICATIONOFOCRTEMPLATE

FUSIONALGORITHM

ABSTRACT

Withthedevelopmentofsociety,whetheritisstudy,workorleisure,itis

inseparablefromthefigureofform-intensivetextdata,butmostoftheformsexistin

paperform,thedatautilizationrateislow,thestorageprocessiseasytobedamaged,

andthestoragecostishigh;Datainformationreliesonmanualextraction,whichis

cumbersome,inefficient,anderror-prone.ThetraditionalOpticalCharacterRecognition

(OCR)algorithmhaspoorrecognitioneffectinthefaceofcomplexformtext,poor

flexibility,moduledependenceanderroraccumulation,andcannotcompletethe

informationextraction