使用普通摄像头，轻松实现精准动作捕捉能力

2021 年 12 月 17 日
笔记

近几年，关于动作捕捉能力的实际应用场景越来越多，比如科幻电影里特效制作，虚拟游戏人物的制作等，这些大多采用了传统的动作捕捉方案。

传统的动作捕捉通常有两种解决方法：光学捕捉和惯性捕捉。

光学动作捕捉需要在人体的关键点部位粘贴反射标志，通过多个红外摄像头从不同角度追踪人体身上的光标位置，具有精度高、时延低的优势，缺点是对场地有严格要求，设备穿戴繁琐，价格也十分昂贵。惯性动捕系统是通过陀螺仪、加速度计等惯性传感器来捕获人体关键骨骼的旋转信息，相比光学式动捕穿戴方便，但精度较低，易受地磁干扰。

无论是光学式还是惯性式动捕系统，都需要穿戴专业的动捕设备，同时成本很高。而华为3D建模服务（3D Modeling Kit）最新推出的动作捕捉能力，仅需要RGB摄像头就可以捕获人体关键点的旋转信息，让每个人都可以通过手机来实现动作捕捉。

技术支持

那么，脱离了辅助设备，华为是采用了哪些技术来实现低门槛高精准的动作捕捉能力的呢？

人体检测技术

进行动作捕捉前需要从图像中定位出人体的位置。人体检测技术可以回归出包含人体的边界框，根据边界框切割出对应的区域可以去除冗余的背景，方便后续的姿态估计。

3D人体姿态估计技术

动作捕捉能力最关键的一环，是基于深度学习的单目姿态估计算法可以从RGB图像中估计出人体关键点的3D位置和骨骼的旋转信息，从而可以应用到广泛的实际场景中。

模型加速与压缩技术

动捕算法最终要部署在端侧，由于存储空间和功耗的限制，对于模型的时延和大小要求都非常严格。一方面，需要针对移动设备的CPU设计合适的轻量化网络结构。另一方面对于训练好的float32模型进行参数量化，转化为int8模型，并针对部分算子进行优化，压缩模型大小的同时显著提高推理速度。

应用场景

动作捕捉能力最广泛也最直接的应用是用来驱动虚拟形象，在虚拟直播、游戏和电影制作等场景都有着不少需求。例如在游戏中，利用动作捕捉能力，用户上传一段视频即可捕捉其中的人物动作，产生对应的数据来驱动游戏中的人物。

另外在短视频领域，动作捕捉能力也大有可为。基于模型的动捕算法可以输出人体网格，在此基础上可以添加各种特效。

除此之外，动作捕捉能力还有更多待开发的应用场景和无限的使用价值，华为动作捕捉能力极大降低了各行业的开发使用门槛。

了解更多详情>>

访问华为开发者联盟官网
获取开发指导文档
华为移动服务开源仓库地址：GitHub、Gitee

关注我们，第一时间了解 HMS Core 最新技术资讯~