世界模型作为多模态桥梁：利用视频预测模型为大语言模型注入物理世界常识.docx

基本信息

文件名称：世界模型作为多模态桥梁：利用视频预测模型为大语言模型注入物理世界常识.docx

文件大小：84.29 KB

总页数：39 页

更新时间：2026-01-06

总字数：约3.16万字

文档摘要

PAGE

PAGE1

《世界模型作为多模态桥梁：利用视频预测模型为大语言模型注入物理世界常识》

课题分析与写作指导

本课题《世界模型作为多模态桥梁：利用视频预测模型为大语言模型注入物理世界常识》旨在探索解决当前大语言模型在具身智能与物理世界交互中存在的“常识缺失”与“幻觉”问题。随着以Transformer和扩散模型为代表的生成式人工智能技术的飞速发展，尤其是以Sora为代表的视频生成模型展现出的惊人物理模拟能力，为构建能够理解、预测并推理物理动态的“世界模型”提供了新的技术路径。本研究的核心在于探讨如何利用视频预测模型作为多模态接口，将视觉序列中蕴含的物理规律（如物体持久性、重力