多模态文档大模型mPLUG-DocOwl徐海洋阿里巴巴通义实验室
负责通义多模态大模型mPLUG系列工作,包括基础多模态模型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl,多模态文档大模型mPLUG-DocOwl,多模态智能体Mobile-Agent等,其中mPLUG工作在VQA榜单首超人类的成绩。在国际顶级期刊和会议ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI等发表论文40多篇,并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG,X-PLUG,AliceMind,DELTA。徐海洋阿里巴巴通义实验室-高级算法专家 演讲嘉宾
1.多模态文档大模型背景2.mPLUG-DocOwl系列工作3.mPLUG-DocOwl开源实战4.总结与展望目录CONTENTS
PART01多模态文档大模型背景
富含文字的图片(简称“文档图片”)在生活中无处不在! 多模态文档大模型背景
多模态文档大模型背景RevolutionizingDocumentAIwithMultimodalDocumentFoundationModels
多模态文档大模型背景一个通用的多模态大模型应该具备文档图片理解的能力,例如GPT4V
多模态文档大模型背景多模态大模型模型(MLLM)主要关注于一般图片的对话和问答mPLUG-OwlLLaVAInstructBLIP
多模态文档大模型背景由于预训练中存在富含文字的图片,他们也初显一定的图片文字理解能力MLLM具备实现通用文档图片理解的潜力
多模态文档大模型挑战
PART01多模态文档大模型背景
mPLUG-DocOwl
每个子图在原图中第几行第几列形状适应的切图模块1.Grids={1×1,1×2,…1×20,2×1,2×1,…,2×10,…20×1}2.同时考虑形状和??进?grid选择) mPLUG-DocOwl?模型结构
mPLUG-DocOwl?模型训练:训练任务
mPLUG-DocOwl?模型训练:训练任务
mPLUG-DocOwl?模型训练:训练数据
mPLUG-DocOwl?实验结果
mPLUG-DocOwl1.5
mPLUG-DocOwl1.5
mPLUG-DocOwl1.5
mPLUG-DocOwl1.5
mPLUG-DocOwl1.5
mPLUG-DocOwl1.5
mPLUG-DocOwl1.5?模型训练
mPLUG-DocOwl1.5?模型训练
mPLUG-DocOwl1.5?模型训练
mPLUG-DocOwl1.5
mPLUG-DocOwl1.5