基于音频驱动的高质量说话人脸生成方法研究.pdf - 创享文库

基本信息

文件名称：基于音频驱动的高质量说话人脸生成方法研究.pdf

文件大小：4.16 MB

总页数：61 页

更新时间：2026-03-31

总字数：约10.84万字

文档摘要

摘要

摘要

研究基于音频驱动的高质量说话人脸生成方法，旨在通过音频输入生成唇音同步、

表情自然的说话人脸图像，在影视制作、虚拟主播等领域具有重要应用价值。针对传统

方法存在的唇音同步精度低和情绪表达机械化两大核心问题，本研究提出了创新性解决

方案。

针对跨模态特征融合不足导致的唇同步精度低问题，提出基于注意力的跨模态特征

融合的说话人脸生成方法（CMFF-Face）。首先，构建多尺度跨模态特征融合模块的生成

器，采