基本信息
文件名称:OCR模板融合算法研究及应用.pdf
文件大小:5.83 MB
总页数:85 页
更新时间:2025-06-29
总字数:约13.58万字
文档摘要

OCR模板融合算法研究及应用

摘要

随着社会的发展,无论是学习、工作还是休闲都离不开表单类密集文本数据

的身影,但是大部分表单以纸质形式存在,数据利用率低,保存过程中容易损坏,

存储代价高;数据信息依赖人工提取,过程繁琐效率低且容易出错。传统的光学

字符识别(OpticalCharacterRecognition,OCR)算法面对版面复杂的表单文本时

识别效果不佳,灵活性差且存在模块依赖与误差积累,无法完成表单类密集文本

的信息提取任务。近年来,随着技术的发展,采用深度学习技术的OCR文字检测

和识别技术已经被广泛应用。因此,本文基于深度学习OCR算法设计了一种自

动提取表单类密集文本信息的识别系统。主要研究内容如下:

第一,改进预处理算法细化检测任务,使用模板匹配算法筛选文本格式,找

出与待检测文本适合的模型来提取文本信息,提升检测模型精度。

第二,设计基于深度学习的两阶段OCR算法:

检测模型:搭建基于分割的DBNet文本检测算法,并针对表单类密集文本数

据进行改进。通过加深特征增强网络使得模型学习到更深层次的语义信息从而更

精准的定位到字符边缘;增加自适应特征融合结构让模型学习到不同特征各自的

权重,通过赋予各种权重的融合提升网络数据利用率;将原有的SENet替换为

FcaNet空间注意力机制,通过增加频域分量信息的计算进一步加强了检测网络的

精度,提升对表单文本信息的检测精度,避免检测框粘连现象。实验结果表明改

进后的文本检测算法,检测精度可达到94.51%,可以很高效的完成检测任务。

识别模型:针对表单数据遵循视觉模型融合语言模型进行识别的思路,首先使

用视觉模型对文本字符进行识别,然后将识别的信息送入基于Transformer架构

的语言模型进行修正,提升识别结果的准确性。在视觉模型与语言模型中分别加

入迭代模块对模型反复迭代来提升识别精度。最后使用门控制对模型进行融合。

实验结果表明字符识别算法识别精度可达到95.3%,可以精准的完成识别任务。

第三,设计表单类密集文本信息识别系统的整体框架,根据识别场景的需求,

对图像采集模块进行挑选,确保模块能够准确地捕捉目标图像。通过服务器部署

实现算法调用。设计人机交互界面,方便用户操作识别系统。通过实际场景进行

系统测试,验证识别系统的准确性和鲁棒性。

关键词:光学字符识别系统表单类密集文本文本检测字符识别

RESEARCHANDAPPLICATIONOFOCRTEMPLATE

FUSIONALGORITHM

ABSTRACT

Withthedevelopmentofsociety,whetheritisstudy,workorleisure,itis

inseparablefromthefigureofform-intensivetextdata,butmostoftheformsexistin

paperform,thedatautilizationrateislow,thestorageprocessiseasytobedamaged,

andthestoragecostishigh;Datainformationreliesonmanualextraction,whichis

cumbersome,inefficient,anderror-prone.ThetraditionalOpticalCharacterRecognition

(OCR)algorithmhaspoorrecognitioneffectinthefaceofcomplexformtext,poor

flexibility,moduledependenceanderroraccumulation,andcannotcompletethe

informationextraction