基本信息
文件名称:快速落地基于“AIGC数字人”的数字化内容生产.pdf
文件大小:248.42 KB
总页数:5 页
更新时间:2025-07-02
总字数:约3.14千字
文档摘要

快速落地基于“AIGC数字人”的数字化内容生产

谁不想有一个可爱的数字人形象呢?在日常的工作和娱乐中,越来越

多的数字人虚拟形象与大家见面,他们可以是主播,也可以是语音助手,

还可以是你自己的虚拟宠物。只有更快更精准地生成数字人,才能让数字

人更加普及,普通消费者才能更多地接触到数字人。

LiveVideoStackCon2023北京站邀请到了张瑞全老师为我们分享美

摄科技的数字人技术。

文/张瑞全

大家好,我是来自美摄科技研发中心的高级AI算法专家张瑞全。今

天分享的主题是美摄科技关于快速落地基于“AIGC+数字人”的数字化内

容生产的整体方案。

-01-

整体概括

美摄科技产品主要分为AI数字人、视音频处理SDK、AI智能处理、

汽车及智能硬件方案、云端/PC端视频处理方案和开发及设计服务六个部

分。

美摄的技术已经在超过千余款实际产品中落地,尤其针对大量的手机

厂商和大型互联网客户,面向多款超千万级的DAU应用,美摄的SDK技术

对大量的硬件和系统进行适配,保障各类场景下兼容性的同时,提供高质

量的服务。

-02-

数字人形象生成

数字人形象的三维渲染是数字人领域核心内容。美摄科技自研的三维

图像渲染技术拥有强大的渲染能力、多端互通、高效率处理、体积小巧、

快速拓展和制作方便六个特点,可以为数字人制作提供非常强大的辅助作

用。

目前美摄科技支持支持基于物理的材质渲染、实时阴影处理、法向量

贴图、全局环境光和屏幕空间环境光遮蔽,为各种环境下的数字人提供全

面且逼真的渲染能力。为了增加可玩性和用途,可以在数字人身上添加不

同的配饰等。目前美摄科技的渲染引擎可以很好地支持辅助道具和数字人

动作的同步,让数字形象更加逼真。

要实现实时语音输出,就需要数字人拥有唇音同步能力。美摄科技基

于AI训练建立了一套独特的唇音分析算法,可以实现自然生动的形象展

现。通过对输入的语音进行轻量化AI分析,获取实际人物的面部表情,

再将AI算法输出的结果与语音内容结合,驱动数字人模型,实现实时的

三维唇音同步效果。美摄AI唇音同步技术具有高效、无时延、过度顺滑

自然、适配多种语音系统等特点。

基于自研的Morphing技术,美摄渲染引擎支持多达54种人脸基础表

情。这些基础表情相互组合,构成了拟真的数字人面部系统,几乎可以囊

括所有的人脸表情,为数字人模型生动的表情展现奠定基础。左边5张图

是通过基础的表情融合出的一些复杂面部动作。中间是一个实时驱动的样

例,同时也携带了头发的物理效果。

同时我们也提供了非常全面的数字人设计工具,设计师可以将其与

C4D、Maya等工具配合,快速进行贴图更换、效果调节,实现高效设计。

其中,美摄自研的数字人设计工具与渲染器内部使用同一套引擎,设计效

果与最终渲染效果完全一致,所见即所得。设计制作出的模型效果可快速

部署发布。

这张图是数字人的一套基本流程。美摄实时语音数字人集成了多家合

作伙伴的语音系统,可以快速理解用户输入的文字信息并返回答案,并生

成对应的数字人语音,驱动数字人进行实时语音播报和动作表达。整套数

字人方案具有良好的开放性和可拓展性,能够快速与各种主流的AI聊天

系统、语音系统进行结合,形成对应的方案。

一些用户希望生成的数字人更加贴合自己的形象,对此我们也提供了

形象自动生成的方案。用户只需提供一张照片,系统将提取特征生成对应

的数字人形象。在此基础上,我们提供人脸属性检测+自动形象生成的算

法,根据检测分析的结果自动添加配饰,形成用户专属的虚拟形象。目前

已支持性别、年龄、眼型、发型等多种人物属性分析。

除了自动生成形象外,用户还可以在生成的形象基础上修改预先提供

的可修改元素,自定义数字人形象,满足个性化需求。

为应对运营成长需求,如本土化适配,节日、热点等,美摄科技提供

了可自定义的配饰。根据基础属性,通过捏脸换装可延展出不同的形象。

-03-

AIGC+数字人

虚拟视频合成技术是指通过综合利用计算机视觉、图像处理和深度学

习等技术,实现虚拟视频的生成,包含语音驱动、动作驱动和换脸三个关

键技术。语音驱动,利用语音去驱动口型和面部表情,生成讲话视频;动

作驱动,基于源视频输入的动作和口型、表情等,驱动目标视频人物做出

相同的动作、表情和口型;换脸,将目标视频中的