计算机行业多模态技术落地再加速.docx

基本信息

文件名称：计算机行业多模态技术落地再加速.docx

文件大小：2.13 MB

总页数：11 页

更新时间：2025-06-13

总字数：约6.25千字

文档摘要

谨请参阅尾页重要声明及财通证券股票和行业评级标准证券研究报告

谨请参阅尾页重要声明及财通证券股票和行业评级标准

证券研究报告

内容目录

多模态技术再迎“奇点”时刻 3

谷歌Veo3推动AI视频进入“音画同步”时代 3

豆包发布视频通话功能，AI视觉理解与交互加速落地 5

视频生成赛道竞争胶着，商业化曙光已现 6

视频生成模型中外各领风骚，谷歌、快手成为近期“黑马” 6

实测体验：视频一致性、稳定性明显提升，指令跟随、物理规律理解仍偏弱 7

投资建议 11

风险提示 12

图表目录

图1.谷歌发布Veo3实现生成视频人物开口说话 3

图2.Veo文生视频技术框架 4

图3.谷歌为视频生成音频技术框架 5

图4.豆包视频通话应用场景 5

图5.视频生成领域活跃度竞争格局 6

图6.在Huggingface上Vbench提出了评价视频生成模型的参考标准 7

图7.快手可灵2.1视频生成效果 8

图8.快手可灵2.1订阅价格 8

图9.Vidu视频生成效果 9

图10.Vidu订阅价格 9

图11.海螺AI视频生成效果 10

图12.海螺AI订阅价格 10

图13.Runway视频生成效果 11

谨请参阅尾页重要声明及财通证券股票和行业评级标准证券研究报告

谨请参阅尾页重要声明及财通证券股票和行业评级标准

证券研究报告

1 多模态技术再迎“奇点”时刻

谷歌Veo3推动AI视频进入“音画同步”时代

谷歌发布视频生成模型Veo3，让AI视频角色开口说话。5月21日，谷歌2025

开发者大会上，谷歌推出了Veo3视频生成模型和Imagen4图像生成模型，其中

Veo3支持原生音频生成，能够为视频添加背景音乐、音效甚至对白。Veo3已内嵌入谷歌的影视制作工具Flow，可赋能电影制作人和内容创作者工作流，Flow支持用户创建场景、管理素材、编辑故事情节并控制镜头运动。当前需要订阅GoogleGemini的AIUltra（每月249.99美元）才能使用Veo3。根据新智元报道，Klarna等公司正在使用Veo来提高营销内容创作效率，从而显著缩短制作周期；数字营销公司Jellyfish已将Veo集成到其AI营销平台Pencil中，并与航空公司合作提供AI生成的机上娱乐内容，平均成本和制作时间减少了50%。我们认为，Veo3带来了多模态发展的“奇点”，AI生成视频商业化进程被极大加速，对推理算力的需求也将进一步推升。

图1.谷歌发布Veo3实现生成视频人物开口说话

数据来源：Veo3官网，

训练方法：使用潜在扩散模型（Latentdiffusionmodel）。Diffusion是现代图像、音频和视频生成模型的标准方法。Veo3采用潜在扩散技术，将扩散过程同时应用于时间音频潜变量（temporalaudiolatents）和时空视频潜变量（spatio-temporalvideolatents）。视频和音频通过各自的自动编码器编码为压缩的潜在表示，与原始像素或波形相比，在该表示中学习可以更高效地进行。在训练过程中，基于Transformer的去噪网络经过优化，可从含噪潜变量向量中去除

谨请参阅尾页重要声明及财通证券股票和行业评级标准证券研究报告

谨请参阅尾页重要声明及财通证券股票和行业评级标准

证券研究报告

噪声。然后在采样过程中，将该网络迭代应用于输入的高斯噪声，以生成视频。

训练数据：在一个包含图像、视频和相关注释的大型数据集上进行训练。谷歌利用多个Gemini模型，使用不同详细级别的文本标题对数据进行注释，并应用过滤器来删除不安全的标题和个人身份信息；根据各种合规性和安全性指标以及质量对训练视频进行筛选。所有数据在不同来源间进行语义去重，以最大程度降低输出过度拟合训练数据特定元素的风险。

图2.Veo文生视频技术框架

数据来源：谷歌Deepmind官网，

谷歌提出视频到音频技术（V2A），将视频像素与自然语言提示相结合，可为屏幕上的动作生成丰富的声音。2024年6月，谷歌Deepmind分享了一篇关于“为视频生成音频”的博客，展示了V2A生成背景音的效果。通过V2A，用户可以为任何视频输入生成无限数量的音轨，也可以定义一个“positiveprompt”来引导生成的输出指向所需的声音，或者定义一个“negativeprompt”来引导它远离不需要的声音。生成音频时，V2A系统首先将视频压缩为编码进行输入，然后扩散模