【ECCV 2023】76小时动捕,最大规模数字人多模态数据集开源
发布:管理员
日期:2026-01-15
阅读:10

华为东京研究所 - Digital Human Lab 与东京大学等合作进行了研究,提出了目前为止最大规模的数字人多模态数据集:BEAT。


随着元宇宙的火爆以及数字人建模技术的商业化,AI 数字人驱动算法,作为数字人动画技术链的下一关键环节,获得了学界和工业界越来越广泛的兴趣和关注。其中谈话动作生成 (由声音等控制信号生成肢体和手部动作)由于可以降低 VR Chat, 虚拟直播,游戏 NPC 等场景下的驱动成本,在近两年成为研究热点。然而,由于缺乏开源数据,现有的模型往往在由姿态检测算法提供的伪标签数据集或者单个说话人的小规模动捕数据集上进行测试。由于数据量,数据标注的缺乏和数据质量的限制,现有的算法很难生成个性化,高手部质量,情感相关,动作 - 语义相关的动作。


针对上述问题,华为东京研究所 - Digital Human Lab 与东京大学等合作进行了研究,提出了目前为止最大规模的数字人多模态数据集:BEAT (Body-Expression-Audio-Text),由 76 小时动捕设备采集的谈话数据和语义 - 情感标注组成。原始数据包含肢体和手部动捕数据,AR Kit 标准 52 维面部 blendshape 权重,音频与文本,标注数据包含 8 类情感分类标签,以及动作类型分类和语义相关度打分。在 BEAT 的基础上提出的新基线模型 CaMN (Cascade-Motion-Network) 采取级联神经网络结构,由 BEAT 中其余三种模态和标注作为输入,在动作生成任务上显著优于现有 SoTA (state-of-the-art) 算法。论文《BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis》已于 ECCV2022 上发表,数据集已经开源。


图片


  • 作者:  Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng. 
  • 单位:Digital Human Lab - 华为东京研究所,东京大学,庆应大学,北陆先端科技大学.  
  • 论文地址:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136670605.pdf
  • 项目主页:https://pantomatrix.github.io/BEAT/
  • 数据集主页:https://pantomatrix.github.io/BEAT-Dataset/
  • 视频结果:https://www.youtube.com/watch?v=F6nXVTUY0KQ

部分渲染后的数据如下(从上到下依次为,生气 - 恐惧 - 惊讶 - 伤心情感下人的动作):

图片


图片


图片


图片


渲染结果使用了 HumanGeneratorV3 产生的身体和脸部模型。

BEAT 数据集细节


动作 - 文本语义相关度标注


谈话动作生成领域的关键问题是:如何生成和评估生成的动作和文本在语义上的关联程度。该关联程度很大程度上影响了人对生成动作质量的主观评价。由于缺乏标注,现有的研究往往挑选一系列主观结果用于评估,增加了不确定性。在 BEAT 数据集中,对于动作给出了基于动作类别分类的相关度分数,共分为四类 10 档:beat(1),deictic (2-4), icnoic(5-7),metaphoic(8-10)。该分类参考 McNeill 等人在 1992 年对谈话动作的分类,其中后三类各自存在低 - 中 - 高质量三档。

然而,实际谈话中,与当前文本语义对应的动作可能提前或滞后出现,为了解决这个问题,在标注过程中,标注者判断当前动作所属类别之后:


1. 以动作的开始和结束确定标注范围,保证了动作的完整性。
2. 输入与当前动作最相关的关键字,获取动作和对应文本的准确出现时间。

基于情感的对话


BEAT 数据集要求每个演讲者必须录制 8 种不同情绪下的谈话动作,用于分析动作与情感之间的内在联系。在演讲环节中,自然情绪占比 51%,愤怒、快乐、恐惧、厌恶、悲伤、蔑视和惊讶这七类情绪分别占比 7%。对动作进行聚类的结果证明,动作和情感之间存在相关性,如下图所示。


图片


数据规模及采集细节


BEAT 采用了 ViCon,16 个摄像头的动作捕捉系统来记录演讲和对话数据,最终所有数据以 120FPS, 记载关节点旋转角的表示形式的 bvh 文件发布。对于面部数据,BEAT 采用 Iphone12Pro 录制谈话人的 52 维面部 blendsshape 权重,并不包括每个人的头部模型,推荐使用 Iphone 的中性脸做可视化。BEAT 采用 16KHZ 音频数据,并通过语音识别算法生成文本伪标签,并依此生成具有时间标注的 TextGrid 数据。




总结

本文研究者提出大规模的多模态数字人驱动数据集 BEAT,用于生成更生动的谈话动作。该数据集还可应用于数字人驱动的其他领域,如 LipSync,表情识别,语音风格转换等等。


点击阅读全文:《【ECCV 2023】76小时动捕,最大规模数字人多模态数据集开源》


关于尚跃智能科技
图片

       

尚跃智能科技现拥有丰富的训练数据集产品,同时提供数据定制服务,旗下众多分公司通过集成 自动化标注工具可以快速降低数据处理成本。

凭借高质量训练数据服务,尚跃智能科技已成功帮助全球上千家企业提升AI模型性能。


咨询热线:17638268314



图片

0
分享:
新闻推荐

Copyright©2025 尚跃智能科技  豫ICP备2023010969号-3

Back to Top
  • 首页
  • 邮箱
  • 顶部