基本信息
文件名称:40页PPT-大语言模型在计算机视觉领域的应用(字节跳动2024).pptx
文件大小:5.41 MB
总页数:39 页
更新时间:2025-07-23
总字数:约1.35千字
文档摘要

大语言模型在计算机视觉领

域的应用

演讲人:冯佳时;;

背景介绍;;;;

是否可基于

LLM搭一个生成理解统一的视觉基础模型?;

基于LLM的图像理解;

LLM图像理解与文字描述生成;

幻觉

?语言模型缺少对图像内容的参考,容易虚构不存在的内容。

?从语言模型的训练语料中,构造出常见的内容,例如“红色的”。;

a带定位能力的LLM;;

现有模型的局限

?需要借助一个大规模的分割模型(例如meta的

SAM),严重拖慢响应速度。

?只能定位和分割一个物体,