天天看點

當姿态估計算法遇上《本草綱目》,看“劉畊宏男孩”如何驅動虛拟人

最近,最炙烈的話題莫過于劉畊宏的男孩女孩們。

劉畊宏的燃脂健身直播刷屏網絡,掀起了一陣狂熱不退的居家健身潮,以周傑倫的《本草綱目》為旋律的毽子舞,更是引發了全民打卡熱。

于是,程式員圈是怎麼遊刃于這波熱潮的?

當姿态估計算法遇上《本草綱目》,看“劉畊宏男孩”如何驅動虛拟人

阿裡雲程式員化身“劉畊宏男孩”

硬核阿裡雲程式員跳《本草綱目》,竟然用上了“火柴人”黑科技?

一則程式員的“本草綱目”讓大家預熱體會一下“人體姿态估計算法”。

短視訊中,阿裡雲視訊雲工程師身上酷似“火柴人“的造型,便是将“人體姿态估計算法”可視化,而人體姿态識别是計算機視覺中的重要任務,也是計算機了解人體的動作、行為不可或缺的一部分。

早在劉畊宏現象之前,視訊雲技術團隊就開始深耕人體姿态估計算法,此次算法工程師們紛紛化身“劉畊宏男孩”,就是為了探索“人體姿态估計算法”的真實場景應用。

我們知道,在劉畊宏健身熱潮的同時,随之受傷的男孩女孩們更是不計其數,雖然劉畊宏在社交媒體會為部分粉絲批改視訊、糾正動作,但還是難以解決部分粉絲跟跳受傷的情況。

當然,肉眼識别的誤差很大,僅靠人力是無法完成粉絲的動作糾正。于是,一種更智能、更高效的識别技術可以解決這個問題,即“人體姿态估計算法”。

人體姿态估計算法?

人體姿态是人體重要的生物特征之一,進行姿态估計是人體數字化與智能化的重要技術基礎,具有廣泛的應用場景,包含步态分析、視訊監控、增強現實、人機互動、體育科學等等。

我們所說的人體姿态估計(Pose Estimation),包含了目标檢測、人體骨骼關鍵點檢測、分割等關鍵技術,旨在給定圖像視訊之後,根據圖像視訊中的人體資訊,定位并确定人體各個部位的骨骼關鍵點,進而對人體的姿态進行估計。

可以看到短視訊中工程師們身上酷似“火柴人”的形态,代表了人體18個人體骨骼關鍵點(頭部、肩部關節、肘部關節等)的精準識别。

當姿态估計算法遇上《本草綱目》,看“劉畊宏男孩”如何驅動虛拟人

人體18個人體骨骼關鍵點

阿裡雲視訊雲的人體姿态估計算法,能夠快速、精準實作靜态和動态場景下的動作識别,并且,更關鍵的是,能随着人體的運動變化可以在移動端實作多人、實時跟蹤識别。

當姿态估計算法遇上《本草綱目》,看“劉畊宏男孩”如何驅動虛拟人

移動端實時人體18個關鍵點識别

要知道,在移動端實作多人、實時跟蹤識别,并非易事。

移動端受限于硬體計算能力,特别是一些性能較差的低端機,需要設計輕量級的模型結構和工程化政策來實作實時運作,而多人識别的難點在于如果對每個人進行分别單獨的預測,所耗時間就會成比例上升,也難以實時完成。

為了實作實時和精度的平衡,阿裡雲視訊雲在技術上對Bottom-Up方案(先檢測出圖像中的所有關節點,再判斷每一個關節點屬于哪一個人,實作步驟是關鍵點檢測到關鍵點比對)進行了整體的改進和優化,其預測了兩個feature map分支,一個是如肩部關節、肘部關節等關鍵點未知的預測,另一個是預測兩兩關鍵點之間的矢量場,這是用來判斷各個關鍵點屬于圖中的哪個人,并通過“匈牙利算法”來組裝成一個完整的人。

由此,才能實作移動端多人實時的姿态識别,打開更低門檻、更廣泛的商業場景應用空間。

算法帶來的真實價值

技術的探索,終點服務于人的生活。

人體姿态估計技術的一個應用是動作識别。

例如在體育健身場景中,阿裡雲視訊雲的人體姿态估計算法,除了能夠識别各種動作及對風險動作進行識别預警,進而還能給出動作準确度等資訊回報,利用運動更精準、更實時、更多人的準确性判斷,同時也可對跳繩、深蹲、俯卧撐等各類動作進行運動計數等更多數字化體育科技服務。

當姿态估計算法遇上《本草綱目》,看“劉畊宏男孩”如何驅動虛拟人

人體姿态估計的動作識别

具象到場景,技術在養老、醫學、體育競技、運動訓練等等場景都有重要價值。

在養老行業,通過算法可精準識别老人的潛在危險動作并實時發出預警;

在醫學領域,技術可用于觀察骨骼恢複狀況,以及病人的姿态監督;

在競技體育界,可以通過監督運動員姿态,建立輔助訓練系統,分析運動員的每一時刻的動作,協助運動員找到更好的姿勢;

在日常運動上,技術可以更直覺地應用于各類健身、體育、舞蹈等的自動教學上。

當然,在視訊監控、金融服務、移動支付、娛樂社交、遊戲互動等更多具體場景中,該技術還有更具價值的應用空間。

更智趣的虛拟人驅動

人體姿态估計技術的另一個有趣應用,是通過追蹤人體姿态的變化來實作虛拟人的驅動。

一般來說,真人驅動型虛拟數字人是以真人為核心,通過3D模組化、動作捕捉技術、渲染等技術,形成一個虛拟化身。

目前,虛拟數字人肢體動作的主要實作方式是光學式動作捕捉、慣性式動作捕捉,及基于計算機視覺的動作捕捉。

光學式動作捕捉的原理是跟蹤、識别并命名目标身上各反光标記點,得出目标的基本骨架,再對标記點位進行持續跟蹤。慣性式動作捕捉主要以裝備用于人體各主要骨骼節點上的慣性傳感器,進而完成資料采集,通過處理建立運動的三維模型。

然而,目前的這兩種方式存在諸多問題:對環境要求高、軟硬體裝置高昂,以及精度較低、連續使用易産生累積誤差等。

虛拟人實時驅動示意

然而,大家可以看到,視訊中的工程師即使在普通室外環境及無穿戴傳感器裝置的情況下,便可精準驅動虛拟人,這便是基于計算機視覺的動作捕捉,即基于拍攝到的二維圖像、三維形狀特征,以還原各關節點運動資訊。

值得一提的是,阿裡雲視訊雲的技術團隊通過視訊雲超輕量級别的人臉跟蹤及AAI推理架構實作了虛拟人的面部表情模拟,并能在PC端CPU實作實時驅動+渲染,同時正在加入手掌及手勢的全态模拟,在虛拟人的互動性與時效性上帶來更多體驗、更多價值。