基本信息
文件名称:2025OpenAISora视频生成模型技术报告中英全文总结影响分析.docx
文件大小:31.93 KB
总页数:18 页
更新时间:2025-08-15
总字数:约1.57万字
文档摘要

OpenAISora视频生成模型技术报告中英全文+总结+影响分析

▌01.?OpenAISora视频生成模型技术报告总结??

?不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面,Sora都做到了SOTA(当前最优)。

?技术细节写得比较泛(防止别人模仿)大概就是用视觉块编码(visualpatch)的方式,把不同格式的视频统一编码成了用transformer架构能够训练的embeding,然后引入类似diffusion的unet的方式做在降维和升维的过程中做加噪和去噪,然后把模型做得足够大,大到能够出现涌现能力。

?简单来说,在别家做视频模型的时候还是基于“小”模型的