2025OpenAISora视频生成模型技术报告中英全文总结影响分析.docx

基本信息

文件名称：2025OpenAISora视频生成模型技术报告中英全文总结影响分析.docx

文件大小：31.93 KB

总页数：18 页

更新时间：2025-08-15

总字数：约1.57万字

文档摘要

OpenAISora视频生成模型技术报告中英全文+总结+影响分析

▌01.?OpenAISora视频生成模型技术报告总结??

?不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面，Sora都做到了SOTA（当前最优）。

?技术细节写得比较泛（防止别人模仿）大概就是用视觉块编码（visualpatch）的方式，把不同格式的视频统一编码成了用transformer架构能够训练的embeding，然后引入类似diffusion的unet的方式做在降维和升维的过程中做加噪和去噪，然后把模型做得足够大，大到能够出现涌现能力。

?简单来说，在别家做视频模型的时候还是基于“小”模型的