基本信息
文件名称:基于音频驱动的高质量说话人脸生成方法研究.pdf
文件大小:4.16 MB
总页数:61 页
更新时间:2026-03-31
总字数:约10.84万字
文档摘要

摘要

摘要

研究基于音频驱动的高质量说话人脸生成方法,旨在通过音频输入生成唇音同步、

表情自然的说话人脸图像,在影视制作、虚拟主播等领域具有重要应用价值。针对传统

方法存在的唇音同步精度低和情绪表达机械化两大核心问题,本研究提出了创新性解决

方案。

针对跨模态特征融合不足导致的唇同步精度低问题,提出基于注意力的跨模态特征

融合的说话人脸生成方法(CMFF-Face)。首先,构建多尺度跨模态特征融合模块的生成

器,采