━━━━
隔墻透視真的來了!近日,來自MIT的研究團隊開發出一種神經網絡模型,該模型可以檢測到被墻壁遮擋的人體動作,在光線不足的環境下也可以準確檢測。厲害得有點可怕!
通常情況下,我們通過觀看來知道別人的動作。從視覺數據中自動進行動作識別的過程已成為計算機視覺界眾多研究的主題。但是如果太暗,或者人被遮擋或在墻壁后面怎么辦?來自MIT CSAIL的一個華人研究團隊最近發表了一篇論文,介紹了一種神經網絡模型,該模型可以在光線不足的環境下檢測到被墻壁遮擋的人體動作。https://arxiv.org/pdf/1909.09300.pdf


他們的模型將射頻(RF)信號作為輸入,生成3D人體骨架作為中間表示,并隨著時間的推移識別多個人的動作和互動。
通過將輸入轉換為基于中間骨架的表示形式,MIT的模型可以從基于視覺的數據集和基于RF的數據集中學習,并允許這兩個任務互相幫助。而且證明了該模型在可見場景中達到了與基于視覺的動作識別系統相當的精度,但在人不可見的環境下仍然能夠準確地工作,因此解決了超出當今基于視覺的動作識別極限的場景。本文實現了以下幾大突破:
- 提出了第一個使用無線電信號進行基于骨架的動作識別的模型;它進一步證明了這種模型可以僅使用RF信號(如圖1所示)就可以準確識別墻壁另一面的動作和相互作用,并且在極其昏暗的環境下仍可準確識別。
- 本文提出了“骨架”作為跨模式傳遞與動作識別相關的知識的中間表示,并通過經驗證明這種知識的傳遞可以提升表現。
- 本文介紹了一個新的spatio-temporal attention模塊,該模塊改進了基于骨架的動作識別,而不管骨架是從RF還是基于視覺的數據生成的。
- 它還提出了一種新穎的多提案模塊,該模塊擴展了基于骨架的動作識別,以檢測多人同時進行的動作和互動。

左上角的圖中,兩個人握手,而其中一個在墻后。右上角的圖中,一個人躲在黑暗中,向另一個正在打電話的人扔東西。下面兩張圖是由他們的模型生成的骨架表示和動作預測。━━━━
RF-Action是一種端到端的神經網絡模型,可以在遮擋和不良照明的環境中檢測人類行為。該模型的體系結構如圖3所示。如圖所示,該模型將無線信號作為輸入,生成3D人體骨架作為中間表示,并隨著時間的推移識別多個人的動作和交互。該圖進一步顯示,RF-Action還可以獲取從視覺數據生成的3D骨架。這允許RF-Action與現有的基于骨架的動作識別數據集一起訓練。
RF-Action從無線信號中檢測人為行為。它首先從原始無線信號輸入(黃色框)中提取每個人的3D骨架。然后,它對提取的骨架序列(綠色框)執行動作檢測和識別。動作檢測框架還可以將從視覺數據生成的3D骨架作為輸入(藍色框),從而可以使用RF生成的骨架和現有的基于骨架的動作識別數據集進行訓練。━━━━
我們使用在不同的聯合交叉(IoU)閾值θ處的平均精度(mAP)來評估模型性能,取mAP在θ=0.1和θ= 0.5時的結果。我們使用RF多模態數據集(RF-MMD)。利用無線電設備收集RF信號,并使用10個不同視角的攝像頭系統收集逐幀視頻。無線電設備和攝像頭系統的同步差異小于10毫秒。我們在10個不同環境中(辦公室,休息室,走廊,走廊,演講室等)對30名志愿者收集了25小時的數據,從PKU-MMD的動作集中選擇35個行動(29個單一動作和6個交互動作)。每隔10分鐘要求最多3名志愿者從上述集合中隨機執行不同的動作。平均而言,每個樣本包含1.54名志愿者,每個志愿者在10分鐘內執行43項動作,每個動作耗時5.4秒。我們使用20個小時的數據集進行訓練,并使用5個小時進行測試。數據集還包含2種穿墻方案,其中一種用于訓練,一種用于測試。在穿墻環境下,將攝像頭放在墻的每一側,以便可以使用無線電設備對攝像頭系統進行校準,并利用可以看到人員的攝像頭來標記動作。RF-MMD上的所有測試結果僅使用無線電信號,無需基于視覺的輸入。使用多視點攝像頭系統提取3D骨架序列。首先利用AlphaPose處理攝像頭系統收集的視頻,提取多視圖2D骨架。由于場景中可能有多個人,我們將每個視圖的2D骨架關聯起來,獲得每個人的多視圖2D骨架。由于攝像頭系統已經過校準,因此可以對每個人的3D骨骼進行三角剖分。這些3D骨架作為我們的模型生成的中間3D骨架的監督。最后,利用PKU-MMD數據集提供其他訓練示例,可以進行動作檢測和識別。該數據集中包含由51類、66個主體作出的近20000個動作,可以看出RF-Action是如何從基于視覺的示例中學習的。
圖5 RF-Action在各種條件下的輸出。前兩行為在可見場景中的表現。最下面的兩行為在部分/完全遮擋和惡劣照明條件下的表現我們將RF-Action的性能與基于骨架的動作識別和基于RF的動作識別的最新模型進行了比較。我們將HCN模型作為計算機視覺中性能最高的基于骨架的動作檢測系統的代表。目前該模型達到了此類任務下的最高性能。用Aryokee 作為基于RF的動作識別技術的最新代表模型。據我們所知,這是過去唯一基于RF的動作識別系統,除了分類之外還執行動作檢測。所有模型都在我們的RF動作識別數據集中進行了訓練和測試。由于HCN將骨架作為輸入(與RF信號相反),我們為其提供了RF-Action生成的中間骨骼。這使我們可以在基于相同骨架的動作識別方面將RF-Action與HCN進行比較。本文提出了首個利用無線電信號進行基于骨架的動作識別的模型,并證明了該模型能夠在極端低光環境下識別墻壁后面的動作和相互作用。新模型可以在攝像機因隱私問題或能見度低而難以使用的情況下進行動作識別。因此,它可以將動作識別帶入人們的家中,并允許其集成到智能家居系統中。論文鏈接:
https://arxiv.org/pdf/1909.09300.pdf
IEEE Spectrum
《科技縱覽》
官方微信公眾平臺