Techo 2020 I 騰訊優圖黃小明:多模態融合是計算機視覺技術發展的重要趨勢

12月19日-20日,由騰訊發起的2020 Techo Park開發者大會於北京順利召開。作為面向全球開發者和技術愛好者的年度盛會,本次開發者大會針對行業開發者、ISV、科研機構、高校師生、創業公司、開源社區工程師等設置了很多的亮點內容和創新活動,來自國內外200多位技術大咖為大家帶來一場年度的技術嘉年華。騰訊優圖實驗室總監黃小明出席大會並在AI分論壇上做了主題為《視覺AI技術的探索與實踐:「新基建時代」下的生產力》致辭分享。

騰訊優圖實驗室總監 黃小明

計算機視覺是機器認知世界的基礎,也是最重要的人工智能技術之一。黃小明認為,計算機視覺將機器學習應用於視覺領域,構成人工智能的感知基礎,加速人工智能在相關行業應用落地。

黃小明表示,面對不同場景需求,計算視覺的準確度正在不斷提高。隨着視覺技術精度不斷提升,已經廣泛應用在各行各業,製造業中的質量檢查和控制,成為工業視覺的重要應用場景。中國是世界最大的製造業國家,它的生產力價值正在顯現。

「在未來的計算機視覺研究中,多模態融合、多技術融通是一個重要的趨勢。」黃小明表示,人工智能正在從語音、文字、視覺等單模態智能,向著多種模態融合發展,結合分佈式平台的計算能力,實現更高精度的場景構建,和對動態場景的處理能力。

各位嘉賓,我是騰訊優圖實驗室的黃小明, 非常榮幸在這個場合有機會跟各位同仁就一些技術問題進行探討。

視覺AI技術是我研究的主要領域之一。近年來,深度學習技術、GPU算力以及海量數據,作為AI技術發展的三大催化劑,加速了視覺技術在各行各業應用落地,助力產業互聯網升級。計算機視覺的廣闊應用前景,為我們展開了前所未有的壯麗圖景。

目前,計算機視覺已經在工業視覺、OCR以及內容理解等領域獲得重大突破,隨着計算機視覺技術精度和成熟度的提高,正不斷滲透到娛樂、醫療、零售行業等更多重點應用場景,推動技術變革和用戶體驗提升。例如,在泛娛樂領域,以計算機視覺為基礎的人臉檢測技術、人臉關鍵點定位技術、人臉融合以及人像分割技術等AI視覺技術,通過對泛娛樂場景各類基礎人臉研究和挖掘整合,打造出多項泛娛樂人像特效應用,為泛娛樂行業用戶提供各類新奇酷炫的AI視覺特效和娛樂體驗。

疫情期間,由優圖提供視覺AI技術支持的騰訊「防疫健康碼」,讓民眾通過申請涵蓋自身健康信息的二維碼,獲得電子出行憑證,方便民眾在疫情期間出入公共場所,也利於為政府部門統一管理。在各地復工復產的高峰期,各地健康碼互通,民眾出入不同省市都只用進行一次健康狀況的認證,加快復工復產進度,也使國家在疫情期間對信息的統一管理更加精準有效。騰訊「防疫健康碼」是服務用戶最多、增長速度最快的健康碼。截至目前,騰訊防疫健康碼服務9億用戶、累計亮碼150億人次,累計訪問量500億次。背後都有我們的視覺AI在發揮作用。

在未來的計算機視覺研究中,多模態融合、多技術融通是一個重要的趨勢。人工智能正在從語音、文字、視覺等單模態智能,向著多種模態融合發展,結合分佈式平台的計算能力,實現更高精度的場景構建,和對動態場景的處理能力。

當然我們的工作還面臨著諸多挑戰。目前還無法建立一個通用的「視覺機器」,無法做到統一模型同時滿足不同場景要求。這意味着當下機器學習的訓練成本較高,也沒有達到產業化應用的理想狀態。要解決這個問題,需要從端到端打通各個模態之間的關係,形成可以真正多維度交互的智能機器,讓感知智能升級為認知智能。

計算機視覺的技術前景是令人興奮的,還有很多未抵達的神奇地域等着我們去探索。阿蘭·圖靈曾說過:「這不過是將來之事的前奏,也是將來之事的影子。」從人類開闢出人工智能領域,到今天真正的應用落地,時光只不過是歷史一瞬。未來,讓我們仰望星空,腳踏實地,共同創造中國計算機視覺的新輝煌,期待各位的分享。

Tags: