基本信息
文件名称:XX云智能体开发平台-?结构化?档精准解析.docx
文件大小:28.61 MB
总页数:29 页
更新时间:2025-11-08
总字数:约2.71千字
文档摘要

XX云智能体开发平台

非结构化文档精准解析

01文档解析原子能力介绍与实战

01

应用OCR大模型对文档进行预处理

复杂排版的阅读顺序横向多栏纵向多栏跨栏段落跨图段落

复杂排版的阅读顺序

横向多栏

纵向多栏

跨栏段落

跨图段落

复杂的表格结构把企业五花八门的知识库喂给大模型,没那么简单!

复杂的表格结构

图/图注群组

跨表段落

跨表段落

表/表注群组

图表文环绕

图表文环绕

有线表格无线表格少线表格复杂的子元素识别

有线表格

无线表格

少线表格

复杂的子元素识别

段落内图像

段落内图像

表格内图像

表格内图像

段落内公式

段落内公式

表格内公式

表格内公式

传统OCR技术局限:识别精