除HoloLens 2的手势辨认,谷歌也发布全新的的手势辨认技术

还记得今年2月份(MWC2019)上微软发布新品HoloLens2时展现的虚拟弹钢琴的功能吗,该项技术实现了单手关节25个立体坐标精准辨认,在技术圈轰动1时。

8月20日谷歌也发布全新的手势辨认技术,该技术集成于开源跨平台框架MediaPipe(可为多种类型的感知数据构建处理流程),特点是采取机器学习技术,支持高准确性手势和5指追踪,可根据1帧图象推断出单手的21个立体节点。与目前市面上较先进的手势辨认技术相比,不需要依赖台式机来计算,而是在手机上即可以进行实时追踪,并且还能同时追踪多只手,可辨认遮挡。

据称,该手势辨认技术可构成对基础手语的理解,和对手势操控的支持,还可用于AR。而为了训练辨认手势的机器学习算法,谷歌采取了1个由3个模型组成的框架,包括:手掌辨认模型BlazePalm(用于辨认手的整体框架和方向)、Landmark模型(辨认立体手部节点)、手势辨认模型(将辨认到的节点分类成1系列手势)。其中BlazePalm可为Landmark模型提供准确建材的手掌图象,这大大着落了对旋转、转化和缩放等数据增强方式的依赖,让算法将更多计算能力用在提高预测准确性上。

雷速比分手机BlazePalm:这是1个可辨认单帧图象的模型,主要用于辨认手掌初始位置,与用于辨认面部的BlazeFace模型类似,都对移动端的实时辨认进行了优化。BlazePalm可辨认多种不同手掌大小,具有较大的缩放范围(~20倍),还能辨认手部遮挡,并且能通过对手臂、躯干或个人特点等的辨认来准肯定位手部,弥补手部对高对照度纹理特点的缺失。在经过训练后,BlazePalm对手掌辨认的准确率可达95.7%。Landmark模型:这1模型根据回归的方式,在BlazePalm辨认到的手掌范围内可辨认到21个立体节点坐标,它的辨认效果足够好,乃至可以辨认部份可见或自我遮挡的手部。为了训练Landmark模型,谷歌还在真实数据中混合额外的人工合成手掌模型数据。在经过训练后,算法的平均回归误差可着落到13.4%。

手势辨认模型:该算法模型可根据关节的的角度辨认每根手指的状态,如:曲折或伸直。接着,它会将每根手指的状态映照到的预定义的手势上,并通过这类方法来预测基础的静态手势。据悉,谷歌现有的预定义手势包括美国、欧洲和中国3个国家的不同数数手势,和竖大拇指、握拳、OK、“蜘蛛侠”等手势。

雷速比分手机目前,谷歌的这款全新手势辨认算法将通过MediaPipe框架进行开源,并希望通过这类方法让研究人员和开发者创作出有创意的利用处景和研究途径。而接下来,谷歌将继续提高这项手势辨认技术,增加可辨认的手势,并将增加对动态手势的辨认。