ECCV 2022|普通VR设备实现全身动作捕捉

日期: 2023-05-24 13:08:38|浏览: 394|编号: 15971

友情提醒:信息内容由网友发布,本站并不对内容真实性负责,请自鉴内容真实性。

ECCV 2022|普通VR设备实现全身动作捕捉

机器之心专栏

机器之心编辑部

来自苏黎世联邦理工学院和元虚拟现实实验室的研究人员联合提出了一种使用稀疏运动传感设备进行全身姿态估计和跟踪的方案。

近日,Meta 大会上的“长腿”虚拟世界角色引起了机器学习和 VR 社区的极大关注。 人们意识到,在构建元宇宙的美好愿景中,虚拟形象的生动性非常重要。

扎克伯格在 Meta 大会上秀了自己的头像。

以往的虚拟形象通常只有上半身,严重破坏了用户的沉浸感,降低了整体的用户体验。

为了解决这个问题,苏黎世联邦理工学院(ETH)和元虚拟现实实验室(Labs at Meta)的学者联合提出了一种利用稀疏运动传感设备进行全身姿态估计和跟踪的方案。 该工作被计算机视觉顶级会议ECCV 2022录用,论文和代码均已开源。

论文链接:

代码链接:

研究背景

目前的混合现实头戴式显示器和手持控制器可以跟踪用户头部和手在现实世界中的位置和姿势,以便用户可以在增强现实和虚拟现实场景中进行交互。 虽然这足以让用户提供输入,但它通常只会将用户的化身限制在上半身。 因此,当前的 VR 系统只能提供浮动的化身,其局限性在协作环境中尤为明显。 为了使用稀疏输入源估计全身姿势,以前的工作在腰部或腿部和​​脚部加入了额外的跟踪器和传感器,但这增加了设备的复杂性并限制了实际应用的便携性。

这是第一种基于深度学习的方法,可以根据用户的头部和手部运动输入来预测世界坐标中的全身姿势。 本研究使用编码器从输入信号中提取深层特征,并将人体的全局运动与局部关节运动解耦,以指导整体姿态估计。 另外,作者会结合逆向运动学对手臂关节的位置进行优化,以匹配手部的真实位置。 在作者的实验评估中,在大规模动作捕捉数据集AMASS的评估中取得了最好的结果。 该方法极快的推理速度也支持实时运行,为支持元界应用的整体虚拟人表示和控制提供了实用的接口。

相关工作

文章对比了之前的相关工作Final IK, ( 2021), (IMWUT 2021), VAE-HMD (ICCV 2021)。 Final IK 是基于物理模型的标准商业解决方案。 然而,它只能给出中立的下半身位置,从而产生看起来不切实际的运动预测。 GRU 模型用于根据头部、手部和腰部跟踪信号预测下半身,IK 求解器用于计算上半身姿势。

然而,这种方法需要额外的腰部跟踪器。 是第一个仅使用耳机和手持控制器的输入来估计全身姿势的人。 然而,所提出的基于 KNN 的方法只能在小数据中插入估计的姿势,并且需要已知的运动类型。 VAE-HMD 是最近提出的一种基于 VAE 的方法,可以从稀疏输入生成合理且多样的身体姿势。 但是这种方法使用的信息是相对于腰部位置的,相当于把腰部位置作为第四个输入。 因此,利用稀疏传感设备跟踪虚拟人全身的方法存在三个主要局限性:

(1) 大多数通用商业程序使用反向运动学 (IK) 来估计全身姿势。 这通常会产生看似静态和不自然的人体运动,尤其是对于那些远离运动链中已知关节位置的关节。

(2) 虽然目标是仅使用头部和手部的输入,但现有的基于深度学习的方法隐含地使用了腰部姿势的信息。 然而,大多数便携式混合现实系统无法进行腰部追踪,这增加了全身估计的难度。

(3) 即使使用腰部跟踪设备,以前方法估计的下半身动画也经常包含抖动和滑动伪影。 这些通常是由腰椎追踪器的无意运动引起的,腰椎追踪器连接到腹部,因此运动方式与实际腰椎关节不同。

方法介绍

整体框架如图2所示,这是一个时序网络结构,以稀疏跟踪器的前N-1帧和当前第N帧6D信号为输入,预测人体的全局方位和每个关节相对于其父节点的局部相对位置。 旋转。 具体来说,它由四个部分组成:编码器、稳定器、正向运动学(FK)模块和反向运动学(IK)模块。 作者设计的网络使得每个组件都可以解决特定任务。

:由于其在效率、可扩展性和远程建模能力方面的优势,本文的方法建立在它之上,从时间序列数据中提取有用的信息,使用自注意力(self-)机制来清晰地捕获有效地处理数据中的全局远程依赖关系。 具体来说,给定一个输入信号,首先应用线性嵌入将特征丰富到 256 维。 接下来,编码器从头显和手的先前时间步长中提取深度姿态特征,这些特征分别由用于全局运动预测的稳定器和用于局部姿态估计的 2 层多层感知器 (MLP) 共享。 . heads in 的数量设置为 8,self- 层数设置为 3。

:稳定器是一个2层的多层感知器,接受编码器生成的256维姿态特征作为输入,负责输出人体的全局运动方向(也是腰部的旋转方向) ). 因此,稳定器通过将全局方向与姿势特征解耦并通过身体运动链从头部位置获得全局平移来负责全局运动导航。 虽然通过运动链从给定的头部姿势计算全局方向也是一种有效的解决方案,但用户的头部旋转通常独立于其他关节的运动,因此这种方法导致估计的全局旋转是敏感的。 例如,考虑一个场景,用户站着不动,只转过头。 全局方向可能存在较大误差,往往会导致生成的虚拟人漂浮在空中,如图3左图所示。

正向运动学 (FK) 模块:正向运动学 (FK) 模块将预测的局部旋转作为输入,并计算给定人体骨骼模型的所有关节位置。 虽然基于旋转的方法无需重新投影到骨骼约束以避免骨骼拉伸和无效配置即可提供稳健的结果,但它们容易沿着运动链累积位置误差。 在没有 FK 模块的情况下训练网络只会最小化关节旋转角度,但不会在优化过程中考虑实际产生的关节位置。

反向运动学模块:基于旋转的姿态估计的一个主要问题是末端执行器的预测可能会偏离它们的实际位置——即使末端执行器被用作已知输入,例如 VR 场景中的手。 这是因为对于末端执行器,误差会沿着运动链累积。 然而,准确估计末端执行器的位置在混合现实中尤为重要,因为手通常用于提供用户输入,即使位置上的小错误也会严重干扰与虚拟界面元素的交互。 为了解决这个问题,本文采用了一个单独的 IK 模块,该算法根据已知的手部位置调整手臂肢体位置。 具体来说,在网络产生输出后,IK 模块会调整肩关节和肘关节的估计旋转角度,以减少手部位置的误差,如图 3 的右面板所示。

实验

作者评估了具有三个和四个输入的不同方法。 评估指标是平均每关节旋转误差 (MPJRE)、位置误差 (MPJPE) 和速度误差 (MPJVE)。 实验表明,SOTA 性能在两种设置下都达到了。

表 1 报告了四个和三个输入的所考虑指标(MPJRE、MPJPE 和 MPJVE)的数值结果。 可以看出,VAE-HMD 在所有三个指标上都取得了最好的结果,并且明显优于所有其他方法,在 MPJPE 上取得了第二好的性能,紧随其后的是 . Final IK 在 MPJPE 和 MPJRE 上给出的结果最差,因为它优化了末端执行器的位置和姿势,而没有考虑其他身体关节的位置和平滑度。 因此,使用 Final IK 进行上半身姿势估计的性能也很低。 作者说,这显示了数据驱动方法从现有动作捕捉数据集中学习人体动作的价值。 但是,这并不意味着传统的优化方法没有用。 作者的消融研究表明,将反向运动学与深度学习相结合可以提高手部位置的准确性。

为了进一步评估所提出方法的泛化能力,作者在不同方法之间进行了跨数据集评估。 为此,作者对两个子集进行训练并在另一个子集上进行测试。 表 2 显示了在 CMU、 和 HDM05 数据集上测试的不同方法的实验结果。 同样,所有三个数据集中的所有评估指标都取得了最佳结果。

作者还对不同的子模块进行了消融研究,并在表 3 中提供了结果。实验是在与表 2 中的 HDM05 相同的测试集上进行的。评估指标为 MPJRE [◦] 和 MPJPE [cm]。 除了全身关节的位置误差,作者还计算了手部位置的平均误差,以展示 IK 模块如何帮助改善手部位置。

此外,作者还给出了方法对比视频,包括移动、锻炼、投掷三个例子。 黄色代表错误。 可以说结果很顺利!

在流行的 VR 系统上也能很好地工作,尽管只使用合成动作捕捉数据进行训练。 笔者在一个VIVE Pro头显和两个手柄上进行了测试,如视频所示,其在各种运动类型(如走、坐、站、跑、跳、蹲)中均有稳定出色的表现。

总结

本文提出了一种基于仅从混合现实耳机和手持控制器的运动信号估计真实人体姿势的新方法。 通过从学习的姿势特征中解耦全局运动信息并用它来指导姿势估计,在没有腰部信号的情况下获得了稳健的估计结果。 此外,通过将基于学习的方法与传统的基于模型的优化相结合,该方法在全身风格真实感和准确的手部控制之间保持平衡。 在 AMASS 数据集上的大量实验表明,它不仅达到了 SOTA 的性能,而且为实际的 VR/AR 应用提供了切实可行的解决方案。

提醒:请联系我时一定说明是从101箱包皮具网上看到的!