基本信息
文件名称:计算机行业多模态技术落地再加速.pdf
文件大小:1.83 MB
总页数:11 页
更新时间:2025-06-12
总字数:约1.04万字
文档摘要

行业专题报告/证券研究报告

内容目录

1多模态技术再迎“奇点”时刻3

谷歌Veo3推动AI视频进入“音画同步”时代3

豆包发布视频通话功能,AI视觉理解与交互加速落地5

2视频生成赛道竞争胶着,商业化曙光已现6

视频生成模型中外各领风骚,谷歌、快手成为近期“黑马”6

实测体验:视频一致性、稳定性明显提升,指令跟随、物理规律理解仍偏弱7

3投资建议11

4风险提示12

图表目录

图1.谷歌发布Veo3实现生成视频人物开口说话3

图2.Veo文生视频技术框架4

图3.谷歌为视频生成音频技术框架5

图4.豆包视频通话应用场景5

图5.视频生成领域活跃度竞争格局6

图6.在Huggingface上Vbench提出了评价视频生成模型的参考标准7

图7.快手可灵2.1视频生成效果8

图8.快手可灵2.1订阅价格8

图9.Vidu视频生成效果9

图10.Vidu订阅价格9

图11.海螺AI视频生成效果10

图12.海螺AI订阅价格10

图13.Runway视频生成效果11

谨请参阅尾页重要声明及财通证券股票和行业评级标准2

行业专题报告/证券研究报告

1多模态技术再迎“奇点”时刻

谷歌Veo3推动AI视频进入“音画同步”时代

谷歌发布视频生成模型Veo3,让AI视频角色开口说话。5月21日,谷歌2025

开发者大会上,谷歌推出了Veo3视频生成模型和Imagen4图像生成模型,其中

Veo3支持原生音频生成,能够为视频添加背景音乐、音效甚至对白。Veo3已内

嵌入谷歌的影视制作工具Flow,可赋能电影制作人和内容创作者工作流,Flow支

持用户创建场景、管理素材、编辑故事情节并控制镜头运动。当前需要订阅Google

Gemini的AIUltra(每月249.99美元)才能使用Veo3。根据新智元报道,Klarna

等公司正在使用Veo来提高营销内容创作效率,从而显著缩短制作周期;数字营

销公司Jellyfish已将Veo集成到其AI营销平台Pencil中,并与航空公司合作提

供AI生成的机上娱乐内容,平均成本和制作时间减少了50%。我们认为,Veo3

带来了多模态发展的“奇点”,AI生成视频商业化进程被极大加速,对推理算力

的需求也将进一步推升。

图1.谷歌发布Veo3实现生成视