基本信息
文件名称:世界模型作为多模态桥梁:利用视频预测模型为大语言模型注入物理世界常识.docx
文件大小:84.29 KB
总页数:39 页
更新时间:2026-01-06
总字数:约3.16万字
文档摘要
PAGE
PAGE1
《世界模型作为多模态桥梁:利用视频预测模型为大语言模型注入物理世界常识》
课题分析与写作指导
本课题《世界模型作为多模态桥梁:利用视频预测模型为大语言模型注入物理世界常识》旨在探索解决当前大语言模型在具身智能与物理世界交互中存在的“常识缺失”与“幻觉”问题。随着以Transformer和扩散模型为代表的生成式人工智能技术的飞速发展,尤其是以Sora为代表的视频生成模型展现出的惊人物理模拟能力,为构建能够理解、预测并推理物理动态的“世界模型”提供了新的技术路径。本研究的核心在于探讨如何利用视频预测模型作为多模态接口,将视觉序列中蕴含的物理规律(如物体持久性、重力