OCR模板融合算法研究及应用
摘要
随着社会的发展,无论是学习、工作还是休闲都离不开表单类密集文本数据
的身影,但是大部分表单以纸质形式存在,数据利用率低,保存过程中容易损坏,
存储代价高;数据信息依赖人工提取,过程繁琐效率低且容易出错。传统的光学
字符识别(OpticalCharacterRecognition,OCR)算法面对版面复杂的表单文本时
识别效果不佳,灵活性差且存在模块依赖与误差积累,无法完成表单类密集文本
的信息提取任务。近年来,随着技术的发展,采用深度学习技术的OCR文字检测
和识别技术已经被广泛应用。因此,本文基于深度学习OCR算法设计了一种自
动提取表单类密集文本信息的识别系统。主要研究内容如下:
第一,改进预处理算法细化检测任务,使用模板匹配算法筛选文本格式,找
出与待检测文本适合的模型来提取文本信息,提升检测模型精度。
第二,设计基于深度学习的两阶段OCR算法:
检测模型:搭建基于分割的DBNet文本检测算法,并针对表单类密集文本数
据进行改进。通过加深特征增强网络使得模型学习到更深层次的语义信息从而更
精准的定位到字符边缘;增加自适应特征融合结构让模型学习到不同特征各自的
权重,通过赋予各种权重的融合提升网络数据利用率;将原有的SENet替换为
FcaNet空间注意力机制,通过增加频域分量信息的计算进一步加强了检测网络的
精度,提升对表单文本信息的检测精度,避免检测框粘连现象。实验结果表明改
进后的文本检测算法,检测精度可达到94.51%,可以很高效的完成检测任务。
识别模型:针对表单数据遵循视觉模型融合语言模型进行识别的思路,首先使
用视觉模型对文本字符进行识别,然后将识别的信息送入基于Transformer架构
的语言模型进行修正,提升识别结果的准确性。在视觉模型与语言模型中分别加
入迭代模块对模型反复迭代来提升识别精度。最后使用门控制对模型进行融合。
实验结果表明字符识别算法识别精度可达到95.3%,可以精准的完成识别任务。
第三,设计表单类密集文本信息识别系统的整体框架,根据识别场景的需求,
对图像采集模块进行挑选,确保模块能够准确地捕捉目标图像。通过服务器部署
实现算法调用。设计人机交互界面,方便用户操作识别系统。通过实际场景进行
系统测试,验证识别系统的准确性和鲁棒性。
关键词:光学字符识别系统表单类密集文本文本检测字符识别
RESEARCHANDAPPLICATIONOFOCRTEMPLATE
FUSIONALGORITHM
ABSTRACT
Withthedevelopmentofsociety,whetheritisstudy,workorleisure,itis
inseparablefromthefigureofform-intensivetextdata,butmostoftheformsexistin
paperform,thedatautilizationrateislow,thestorageprocessiseasytobedamaged,
andthestoragecostishigh;Datainformationreliesonmanualextraction,whichis
cumbersome,inefficient,anderror-prone.ThetraditionalOpticalCharacterRecognition
(OCR)algorithmhaspoorrecognitioneffectinthefaceofcomplexformtext,poor
flexibility,moduledependenceanderroraccumulation,andcannotcompletethe
informationextraction