行业专题报告/证券研究报告
内容目录
1多模态技术再迎“奇点”时刻3
谷歌Veo3推动AI视频进入“音画同步”时代3
豆包发布视频通话功能,AI视觉理解与交互加速落地5
2视频生成赛道竞争胶着,商业化曙光已现6
视频生成模型中外各领风骚,谷歌、快手成为近期“黑马”6
实测体验:视频一致性、稳定性明显提升,指令跟随、物理规律理解仍偏弱7
3投资建议11
4风险提示12
图表目录
图1.谷歌发布Veo3实现生成视频人物开口说话3
图2.Veo文生视频技术框架4
图3.谷歌为视频生成音频技术框架5
图4.豆包视频通话应用场景5
图5.视频生成领域活跃度竞争格局6
图6.在Huggingface上Vbench提出了评价视频生成模型的参考标准7
图7.快手可灵2.1视频生成效果8
图8.快手可灵2.1订阅价格8
图9.Vidu视频生成效果9
图10.Vidu订阅价格9
图11.海螺AI视频生成效果10
图12.海螺AI订阅价格10
图13.Runway视频生成效果11
谨请参阅尾页重要声明及财通证券股票和行业评级标准2
行业专题报告/证券研究报告
1多模态技术再迎“奇点”时刻
谷歌Veo3推动AI视频进入“音画同步”时代
谷歌发布视频生成模型Veo3,让AI视频角色开口说话。5月21日,谷歌2025
开发者大会上,谷歌推出了Veo3视频生成模型和Imagen4图像生成模型,其中
Veo3支持原生音频生成,能够为视频添加背景音乐、音效甚至对白。Veo3已内
嵌入谷歌的影视制作工具Flow,可赋能电影制作人和内容创作者工作流,Flow支
持用户创建场景、管理素材、编辑故事情节并控制镜头运动。当前需要订阅Google
Gemini的AIUltra(每月249.99美元)才能使用Veo3。根据新智元报道,Klarna
等公司正在使用Veo来提高营销内容创作效率,从而显著缩短制作周期;数字营
销公司Jellyfish已将Veo集成到其AI营销平台Pencil中,并与航空公司合作提
供AI生成的机上娱乐内容,平均成本和制作时间减少了50%。我们认为,Veo3
带来了多模态发展的“奇点”,AI生成视频商业化进程被极大加速,对推理算力
的需求也将进一步推升。
图1.谷歌发布Veo3实现生成视