计算机行业多模态技术落地再加速.pdf - 创享文库

基本信息

文件名称：计算机行业多模态技术落地再加速.pdf

文件大小：1.83 MB

总页数：11 页

更新时间：2025-06-12

总字数：约1.04万字

文档摘要

行业专题报告/证券研究报告

内容目录

1多模态技术再迎“奇点”时刻3

谷歌Veo3推动AI视频进入“音画同步”时代3

豆包发布视频通话功能，AI视觉理解与交互加速落地5

2视频生成赛道竞争胶着，商业化曙光已现6

视频生成模型中外各领风骚，谷歌、快手成为近期“黑马”6

实测体验：视频一致性、稳定性明显提升，指令跟随、物理规律理解仍偏弱7

3投资建议11

4风险提示12

图表目录

图1.谷歌发布Veo3实现生成视频人物开口说话3

图2.Veo文生视频技术框架4

图3.谷歌为视频生成音频技术框架5

图4.豆包视频通话应用场景5

图5.视频生成领域活跃度竞争格局6

图6.在Huggingface上Vbench提出了评价视频生成模型的参考标准7

图7.快手可灵2.1视频生成效果8

图8.快手可灵2.1订阅价格8

图9.Vidu视频生成效果9

图10.Vidu订阅价格9

图11.海螺AI视频生成效果10

图12.海螺AI订阅价格10

图13.Runway视频生成效果11

谨请参阅尾页重要声明及财通证券股票和行业评级标准2

行业专题报告/证券研究报告

1多模态技术再迎“奇点”时刻

谷歌Veo3推动AI视频进入“音画同步”时代

谷歌发布视频生成模型Veo3，让AI视频角色开口说话。5月21日，谷歌2025

开发者大会上，谷歌推出了Veo3视频生成模型和Imagen4图像生成模型，其中

Veo3支持原生音频生成，能够为视频添加背景音乐、音效甚至对白。Veo3已内

嵌入谷歌的影视制作工具Flow，可赋能电影制作人和内容创作者工作流，Flow支

持用户创建场景、管理素材、编辑故事情节并控制镜头运动。当前需要订阅Google

Gemini的AIUltra（每月249.99美元）才能使用Veo3。根据新智元报道，Klarna

等公司正在使用Veo来提高营销内容创作效率，从而显著缩短制作周期；数字营

销公司Jellyfish已将Veo集成到其AI营销平台Pencil中，并与航空公司合作提

供AI生成的机上娱乐内容，平均成本和制作时间减少了50%。我们认为，Veo3

带来了多模态发展的“奇点”，AI生成视频商业化进程被极大加速，对推理算力

的需求也将进一步推升。

图1.谷歌发布Veo3实现生成视