基本信息
文件名称:40页PPT-大语言模型在计算机视觉领域的应用(字节跳动2024).pptx
文件大小:5.41 MB
总页数:39 页
更新时间:2025-07-23
总字数:约1.35千字
文档摘要
大语言模型在计算机视觉领
域的应用
演讲人:冯佳时;;
背景介绍;;;;
是否可基于
LLM搭一个生成理解统一的视觉基础模型?;
基于LLM的图像理解;
LLM图像理解与文字描述生成;
幻觉
?语言模型缺少对图像内容的参考,容易虚构不存在的内容。
?从语言模型的训练语料中,构造出常见的内容,例如“红色的”。;
a带定位能力的LLM;;
现有模型的局限
?需要借助一个大规模的分割模型(例如meta的
SAM),严重拖慢响应速度。
?只能定位和分割一个物体,