发布时间:2024-10-20 11:30:07作者:linx阅读:次
近日,腾讯首席科学家,腾讯AI Lab及腾讯Robotics X实验室主任张正友在 2024 年中国三维视觉大会(China3DV 2024)上发表了精彩的主题演讲,并分享了腾讯在AI数字人领域的最新研究成果。
期间,张正友展示了以《和平精英》数字代言人吉莉为代表的全双工对话数字人技术,并进行了现场演示。
这是吉莉继出席联合国妇女署活动、央视五四青年节特别节目等场景之后的又一次亮相,进一步展示了光子工作室群在AI数字人领域的积淀和新探索。
技术革新,AI NPC连接虚实集成世界
2024 年中国三维视觉大会由中国图象图形学学会(CSIG)主办,是目前国内唯一专注于三维视觉领域的学术盛会。本届大会设置了包括3DV与世界模型战略、数字人等多个前沿论坛,吸引到相关领域超过1400名专家学者到场研讨。
会上,张正友表示,随着技术力进化,数字世界和真实世界的结合日趋紧密,虚实集成世界已成趋势。作为虚实集成世界交互的核心,数字人需要向人格化、知识化、个性化三个方向持续进化,以帮助人类更好地完成数字、物理世界任务,同时避免交互多样化导致的失控风险。
在这样的理念下,腾讯光子工作室群联合腾讯 AI Lab对AI数字人的多链路技术能力进行了持续的研究与探索,以《和平精英》的数字人代言人吉莉为载体,团队聚焦于全双工对话数字人与高效动画制作管线两大方向。
全双工对话数字人:人机交互新篇章为了实现更流畅、精准的人机交互,团队在语音识别、处理、数字人内容生成和语音播报等多个环节完成了关键技术积累。
识别阶段,ASR语音识别技术可在声学特征提取、声学模型、语言模型与语言处理等多种能力的配合下实时、准确地识别多样真人自然语言,实现真正意义上的“边说边听”。
处理阶段,数字人背后的对话能力依托于千亿级参数的LLM进行预训练加风格人设微调,同时依赖RAG技术给数字人对话内容进行知识辅助,可快速理解用户意图,关联上下文内容,搜索相关知识,最终生成逻辑清晰的回答,并依托TTS语音生成、SVC歌唱等技术,结合应用场景实现自主规划的主动对话。
另一方面,为推动语音交互向动画交互的进化,团队还在探索Speech2Face 脸部AI驱动算法和LLM-based动作预测及生成等前沿技术,实现数字人多模态驱动。
通过Speech2Face 脸部AI驱动算法,数字人可实现更精细的口型、表情脸部驱动,LLM-based动作预测及生成则可基于海量训练,达成数字人躯体与语言表达、场景等元素的自然配合,使其整体交互表现更趋近于真人。
在实机演示中,吉莉展现出了出色的交互能力。她能够即时理解用户需求,并给出自然流畅、情绪饱满的反馈。同时,她的口型、表情和动作演绎都十分自然流畅,无论是对话、外形与动作演绎,还是面部微表情、皮肤肌理都达到了细腻、逼真的程度,为用户带来了全新的体验。
创新动画制作管线:高效支撑内容生产为了满足《和平精英》的内容生产需求,腾讯AI Lab和和平精英团队搭建了一套创新高效的AI动画制作管线。这套管线集成了3D渲染、面部表情生成、口型动画曲线生成、语音生成、动作预测和配置等多种能力,并经过多次迭代和优化,最新的AI动画管线3.0算法利用高品质动画数据训练了能支持多语言、多情绪、多个性的预训练模型,并针对吉莉的人设和个性进行了全面的音频、情感、面部动画数据采集和模型优化。这使得吉莉的面部表达更加完备、细腻,能够呈现出个性化的演绎效果。
在算法底层表达方面,从基础的36个BS脸部驱动AI动画管线1.0,到扩展的62个BS脸部AI动画管线2.0实现更细致的控制,再升级到当前基于MetaHuman绑定的185个非线性控制器表达AI动画管线3.0,数字人的面部表达的完备性、细腻度一直持续提升。
该模型利用多模态神经网络来处理不同模态的输入信息,并采用自研Diffusion-LSTM架构生成对应的面部驱动系数,使得这些系数所产生的动画能够匹配音频的咬字、节奏,情感的类型和起伏,以及具有高表现力的个性化演绎。
此外,该管线还支持将高品质的MetaHuman动画重定向到自定义的绑定标准,以及准无损的动画压缩,支持更多样化的需求。
目前,该动画制作管线已能够支撑游戏宣传、商业合作等多种内容制作,通过这套管线,团队能够高效、高品质地完成动画视频制作,大幅提升了制作效率,同时确保了动画质量,为用户提供了更好的内容体验。
科技向善,智能数字人发挥多元价值
在持续提升用户体验的同时,光子工作室群也积极践行腾讯“科技向善”的价值观。吉莉作为《和平精英》的数字代言人,不断参与到文化传承、公益合作、竞技推广等工作中来,为多个领域赋能。随着AI数字人技术的日益成熟,吉莉正以其强大的表现力,创造着探索科技向善的更多可能性。
作为一种受年轻人喜爱的新媒介,数字人在向青年群体传递正向价值观方面发挥着重要作用。在2022年央视五四青年节特别节目中,依托于光子工作室群自研的RBF骨骼绑定系统等前沿技术,吉莉以高保真的动态形象打破次元壁,与现实青年演员、歌手、高校学子们一同送出了别开生面的虚实融合表演,以一首《New Youth》展现青年朝气,号召青年朋友打破陈规,创新进取。
此后,作为全球首位出席联合国妇女署活动的数字人,吉莉又在相关活动中做了一次三分钟、一镜到底的主题演讲。团队通过优化3S材质提升皮肤质感,以Houdini及Xgen解算还原服饰毛发动态,让吉莉以更生动、细致的近景形象融入现实世界,以自身在游戏世界中的经历,向世界传递开放、多元的正向价值观。
2023年,吉莉又化身大熊猫巡护员,虚实结合“穿越”大熊猫国家公园,深入了解大熊猫巡护员的工作,向公众普及大熊猫保护知识。她以实际行动倡导环保与公益精神,呼吁更多人关注和参与野生动物保护工作。
AI和数字人技术不仅为游戏产业带来创新,更在科普、教育等领域发挥着重要作用。面对网络诈骗等社会问题,《和平精英》与国家反诈中心合作推出创意短片《Game World》,通过吉莉与反诈民警的联动,向广大游戏玩家普及诈骗案例、相关法规及反诈手段。
作为现实世界的数字映射,数字人还为品牌、文化提供了新的推广渠道和场景。吉莉通过多次联动,将彭水苗绣、西湖、冬奥冰雪运动等优质文化IP带入游戏世界,助力中国文化的数字化传承与发展。
与此同时,AI数字人技术正在动画、视频制作、文保、文旅、医疗、智慧城市、工业自动化、公益等多个领域发挥重要作用,数实融合,为人们创造更加美好的生活。
初见成效,技术团队持续精研深耕
截至目前,《和平精英》数字人的多次落地应用已经取得了显著的成效和好评。在商业和用户体验层面,AI动画管线的支持使得动画制作周期缩短近50%,提升了内容制作效率。同时,团队得以将更多精力投入到内容策划和质量提升上,为用户带来了更优质的内容体验。这一成果在具体案例中得到了验证,使用AI管线后的内容在推荐、播放、点评赞等数据上均获得了大幅提升。
社会价值方面,吉莉和游戏IP积极响应号召,以自身媒介特性和IP影响力传递正向价值观,为优质文化的传播贡献力量。五四青年节相关话题在当时多次登上热搜,关于和平青年、大熊猫保护等话题也引起热烈讨论,都体现了数字技术在传播正向价值观方面的积极作用。这些成果的取得离不开光子工作室群对技术的持续探索与深耕。
我们可以看到光子工作室群、《和平精英》和腾讯 AI Lab在技术布局探索、产品长线发展等方面的思考和行动,不仅展现了腾讯的技术实力和创新精神,更为整个行业树立了新的标杆。通过持续的精研、探索和落地实践,团队正在持续积累势能的同时,坚定地将技术服务于用户体验和社会正向价值,以更多元、创新的能力和方式为更广泛的商业、文化领域带来正向价值。未来,我们期待看到更多基于AI数字人技术的创新应用出现,为推动虚实集成的技术发展做出更大贡献。