基本信息
文件名称:基于音频驱动的高质量说话人脸生成方法研究.pdf
文件大小:4.16 MB
总页数:61 页
更新时间:2026-03-31
总字数:约10.84万字
文档摘要
摘要
摘要
研究基于音频驱动的高质量说话人脸生成方法,旨在通过音频输入生成唇音同步、
表情自然的说话人脸图像,在影视制作、虚拟主播等领域具有重要应用价值。针对传统
方法存在的唇音同步精度低和情绪表达机械化两大核心问题,本研究提出了创新性解决
方案。
针对跨模态特征融合不足导致的唇同步精度低问题,提出基于注意力的跨模态特征
融合的说话人脸生成方法(CMFF-Face)。首先,构建多尺度跨模态特征融合模块的生成
器,采