智慧座艙行為識別數據解決方案,助力打造第三空間新體驗
智慧座艙關注車內感知,通過在車內安裝攝影機感知駕駛員和乘客的行為以及車內狀況。座艙行為識別任務旨在識別車輛座艙中駕駛員及乘客的行為,改善駕乘體驗提供技術支援,以提供駕駛員和乘客更好的駕乘體驗和更安全的行車保障。
座艙行為識別-數據標註方式
對於不同的座艙行為,識別的人體目標不同,因此標註的方式不同,典型的標註方式包括人臉關鍵點標註,手勢關鍵點標註,物品檢測框標註,物品&行為標籤標註。典型的例子如下:
1
人臉標註
此類標註方式用於識別人臉相關的行為。
例如疲勞駕駛識別、視線偏移識別等,具體的標註形式是標註人臉關鍵點+行為的標籤。
2
人體&物品標註
此類標註方式用於識別人體及物體相關的行為。
例如抽煙識別、開車喝水、開車打電話等,具體的標註形式是標註物品的檢測框+人手部檢測框+行為類別標籤資訊。
3
手勢標註
此類標註方式用於識別手勢動作。
例如手指不同指向,手掌動作,手指滑動等,具體標註行為為標註手勢關鍵點+手勢類別標籤資訊。
座艙行為識別-任務難點
基於不同座艙行為與人體目標的實際情況,座艙行為識別任務具備行為複雜、光照以及性能三個難點:
1
行為複雜
座艙行為種類眾多,並且部分行為存在一定程度的主觀性(例如暈車、疲勞駕駛等行為),造成演算法識別難度較大。
2
光照難點
汽車在行駛過程中會面臨來自不同方向的強光干擾,造成人臉、人體、物體等目標會出現光照不均勻,此外在夜晚時間光照不足,在不開車內燈光的情況下,普通的彩色鏡頭無法捕捉足夠識別的資訊,需要紅外鏡頭輔助。
3
性能難點
車載場景不同於實驗室場景,設備的功耗和算力均需控制在一定程度內,而演算法識別的準確率要求又很高,因此如何小型化模型併兼顧演算法精度是一個重要研究方向。
一份來自數據堂的解決方案
數據堂針對座艙行為識別的任務需求和難點,從數據層面針對性設計了下述數據集,分別介紹如下:
1307人駕駛員行為採集數據
該數據集採集黃種人、黑人、白人和印度人共1307人駕駛員行為採集數據。在採集設備配置方面,為保證數據在夜晚或者駕駛員戴墨鏡情況下的數據有效性,數據採集採用了RGB+紅外雙目鏡頭,提供彩色影片和紅外影片兩種數據模態。在機位架設方面,該數據在車內後視鏡中央、車內中控台上方及車內左側A柱上方假設三個機位,具體示意圖如下:
在具體行為種類方面,數據集涵蓋了座艙駕駛員行為識別需要的絕大多數行為種類,包含駕車打電話、未系安全帶、駕車抽煙、駕車喝水、開車戴墨鏡、雙手脫離方向盤等危險駕駛行為;開車時閉眼、頻繁眨眼、點頭、打哈欠等疲勞駕駛數據;開車時視線上下左右偏移的視線偏移行為。每個人共採集150段影片。
| 數據規模 | 1307人 |
| 人員分布 | 男性695名,女性612名 |
| 採集環境 | 車內攝影機 |
| 採集多樣性 | 多人種、多年齡段、多時間段、多種行為(危險駕駛、疲勞駕駛、視線偏移) |
| 採集設備 | 可見光和紅外雙目攝影機 |
| 採集時間 | 白天、傍晚、夜晚 |
| 影像參數 | .avi 解析度640*480 |
| 準確率 | 精度>95% |
103,282張駕駛員行為標註數據
該數據為1307人駕駛員行為採集數據中對1003人中國人數據的抽幀標註。在具體標註中,針對不同的行為類別,採取兩種不同的標註方式。對於正常駕駛、開車閉眼、開車頻繁眨眼、開車打哈欠、開車點頭及視線偏移行為,採用人臉72關鍵點+人臉屬性+人臉檢測框+手勢框標註;對於未系安全帶駕駛、開車喝水、駕車打電話、駕車抽煙等危險駕駛行為,採用人臉屬性+瞳孔關鍵點+安全帶框+人臉檢測框+手勢框標註。
| 數據規模 | 103282張 |
| 人員分布 | 18-60歲黃種人,男女比例均衡 |
| 採集環境 | 車內攝影機 |
| 採集多樣性 | 多年齡段、多時間段、多種行為(危險駕駛、疲勞駕駛、視線偏移) |
| 採集設備 | 可見光和紅外雙目攝影機 |
| 採集時間 | 白天、傍晚、夜晚 |
| 影像參數 | 影像格式為 .jpeg,標註文檔格式為 .json |
| 標註說明 | 人臉72關鍵點(包括瞳孔)、人臉屬性、手勢檢測框、安全帶檢測框、行為類別
|
| 準確率 | 準確率>95% |
122人乘客行為識別數據
該數據集採集黑人、白人和印度人共122人的乘客行為識別數據。在採集設備配置方面,為保證數據在夜晚或者乘客戴墨鏡情況下的數據有效性,數據採集採用了RGB+紅外雙目鏡頭,提供彩色影片和紅外影片兩種數據模態。在機位架設方面,該數據在車內後視鏡中央、車內右側A柱上方、車內左側B柱上方、車內右側B柱上方架設四個機位,具體示意圖如下:
在具體行為種類方面,數據集涵蓋了乘客行為識別需要的大多數行為種類,包含乘客打電話、玩手機、看書、喝水、抽煙、吃東西、手伸到車窗外、用筆記型電腦辦公等正常行為;乘客不同程度暈車、不同程度睏倦、遺落物品等異常行為。每位乘客共採集120段影片。
| 數據規模 | 122人 |
| 人員分布 | 男性86人,女性36人;白、黑、棕三種膚色 |
| 採集環境 | 車內攝影機 |
| 採集多樣性 | 多人種、多年齡段、多時間段、多種行為(正常行為、暈車行為、乘客困意行為、乘客遺落物品行為) |
| 採集設備 | 可見光和紅外雙目攝影機 |
| 攝影機位置 | 車內後視鏡中央、車內右側A柱上方、車內左側B柱上方、車內右側B柱上方 |
| 採集時間 | 白天、傍晚、夜晚 |
| 車型 | 小轎車、SUV |
| 數據格式 | .avi |
| 準確率 | 準確率>95% |
314,178張18種手勢識別數據
該數據集採集中國人靜態手勢數據,用於人機交互。數據集總計314178張影像,18種靜態手勢,涉及1000名以上中國人。該數據利用手機拍攝不同機位、不同手勢、同一手勢不同方向的左右手手勢數據。從手勢種類來看,包含日常人機交互等18種常用單手及雙手手勢,具體包括數字1-6、數字8、單手比心、OK、點贊、踩、握拳、Rock、Love、雙手比心、雙手合十、拜年、抱拳禮。在數據標註方面,對手勢圖片採用手部21關鍵點+手勢標籤標註,標籤包括手勢類別、採集者性別、左右手、手勢正面背面、採集背景、相機位置、手勢旋轉角度等。
| 數據規模 | 40人 |
| 人員分布 | 中國人,男、女性各20人 |
| 年齡分布 | 18-57歲每個年齡各一人 |
| 採集環境 | 室內、外場景各20人 |
| 採集多樣性 | 多種動作、人臉多姿態、多種對抗樣本、多種光照條件、多種場景 |
| 採集設備 | 多種帶3D結構光模組的蘋果手機(iphone X及以上記性) |
| 數據格式 | .jpg、.xml、.json |
| 車型 | 小轎車、SUV |
| 標註內容 | 標籤標註人物ID、人種、性別、年齡、人臉動作、對抗樣本類別、光照條件 |
558870段50種動態手勢識別數據
該數據集採集中國人動態手勢數據,用於人機交互。數據集總計558870段影片,50種動態手勢,涉及1000名以上中國人。該數據利用手機、iPad及筆記型電腦電腦從不同角度拍攝左右手手勢數據。從手勢種類來看,包含日常人機交互等50種常用的動態手勢,具體包括手指滑動,手掌滑動,全掌變換、拳部滑動,靜止等。在數據標註方面,標註各段影片標籤,標籤包括手勢類別、採集者性別、左右手、採集背景、拍攝角度等。
| 數據規模 | 558870段,筆記型電腦電腦採集219660段;手機/iPad採集339210段 |
| 人員分布 | 中國人,18歲以下、18-40歲、40歲以上 |
| 採集環境 | 室內外場景(自然景觀、街景、廣場等) |
| 採集多樣性 | 多種場景、多種光照條件、不同拍攝距離、5種拍攝角度、50種動態手勢 |
| 採集設備 | 手機、iPad、筆記型電腦電腦 |
| 採集角度 | 正面、左/右斜視、俯視、仰視 |
| 採集距離 | 0.3米、0.6米、1米、2米、3米 |
| 車型 | 小轎車、SUV |
| 數據格式 | .mp4、.mov、.wmv |
| 準確率 | 準確率>97% |
座艙智慧化發展是以數據為底層基礎,根據不同車廠的設計以及用戶不同的使用習慣,會產生大量的差異化需求,數據的處理相應變得多樣複雜。數據堂從底層數據設計和規劃做起,針對差異化需求提供訂製化數據方案,以滿足座艙內交互的基本功能點。