一文概覽《人工智慧領域關鍵技術》發展動態
- 2019 年 10 月 11 日
- 筆記
歡迎引用
王燕鵬,韓濤,趙亞娟,陳芳,王思培. 人工智慧領域關鍵技術挖掘分析[J].世界科技研究與發展
王燕鵬,韓濤,趙亞娟, 陳芳(中國科學院文獻情報中心)
王思培(中國科學院文獻情報中心,中國科學院大學經濟與管理學院圖書情報與檔案管理系)
摘要:人工智慧已成為引領新一輪科技革命和產業變革的重要驅動力量和戰略性技術。本文採用無監督聚類、複雜網路結構洞和突發檢測演算法對人工智慧高水平會議論文進行深度挖掘分析,梳理人工智慧領域的關鍵技術,全面刻畫人工智慧領域整體技術結構,洞悉關鍵技術分布和研發態勢,明確人工智慧領域代表性國家與機構。研究發現:人工智慧領域共包含14個大類、132項熱點技術,主要分布在機器學習、自然語言處理、電腦視覺和機器人等子領域,如一眼模仿學習、智慧自動問答、光度立體視覺、多感測器融合等;共性技術則主要分布在機器學習子領域,分類、回歸、搜索等基礎演算法以及優化理論方法等共性技術為其他子領域研究實踐奠定堅實基礎;新興技術主要集中在深度學習方面,生成對抗網路和注意力機制是其中的典型代表,此外還包括強化學習、自主代理和多代理系統等。在人工智慧領域代表性國家與機構方面,美國在各熱點技術大類下的發文量均位居全球首位,中國整體僅次於美國,但在強化學習、機器人、智慧多代理系統研究方面發文量排名相對靠後;中國機構中,中國科學院在多個熱點技術大類下的發文量均位居全球前列。
關鍵詞:人工智慧;關鍵技術;聚類;結構洞;突發檢測
人工智慧是指研究、開發用於模擬、延伸和擴展人的智慧的理論、方法、技術及應用系統的一門技術科學。這一概念自1956年被提出後,已歷經半個多世紀的發展和演變。21世紀初,隨著大數據、高性能計算和深度學習技術的快速迭代和進步,人工智慧進入新一輪的發展熱潮,其強大的賦能性對經濟發展、社會進步、國際政治經濟格局等具有重大且深遠的影響,已成為引領新一輪科技革命和產業變革的重要驅動力量,是推動人類進入智慧時代的核心和重要抓手。
發展熱潮之下,全球主要國家積極在人工智慧領域深耕布局,國際競爭日益激烈。2017年7月,中國發布《新一代人工智慧發展規劃》,明確將人工智慧作為國家未來重要發展戰略,並確定中國人工智慧發展「三步走」戰略目標,到2030年實現人工智慧理論、技術與應用總體達到世界領先水平,成為世界主要人工智慧創新中心;2018年3月,法國總統宣布啟動15億歐元的人工智慧計劃,將在法國建設一個國際級的研發中心,完善數據領域政策,培養法國在人工智慧領域的人才,並對技術革新的倫理和規制問題進行反思,以推動法國躋身人工智慧領域的領軍者行列;2018年4月,歐盟委員會計劃2018—2020 年在人工智慧領域投資240億美元;2018年11月,德國聯邦內閣通過人工智慧國家戰略,計劃2025年前在聯邦層面投入30億歐元,旨在人工智慧領域新增100名教授席位並資助擴建人工智慧研發中心;2019年2月,美國總統川普簽署行政令,啟動「美國人工智慧倡議」,該倡議提出研發、資源調配、政策、人力資源培養和準備、國際合作五項發展重點領域,以維護美國人工智慧領導力。
與此同時,人工智慧產業蓬勃發展,全球產業界紛紛調整發展戰略,人工智慧創新創業如火如荼。2017年,Google和微軟陸續將企業發展戰略和願景轉向人工智慧;百度也於2017年將公司使命更改為「用科技讓複雜的世界更簡單」,希望百度從全球最大的中文搜索引擎徹底轉型人工智慧科技公司;自2013年以來,全球和中國人工智慧行業投融資規模都呈上漲趨勢,2017年全球投融資總規模達395億美元。
人工智慧作為一門綜合和高度複雜的技術科學,其發展離不開底層多類型關鍵技術的研發突破和支撐。釐清人工智慧領域的關鍵技術,把握技術現狀和發展趨勢,將為國家前瞻性戰略布局、企業研發重心調整、科研機構和研究人員合理選題提供重要情報參考。2019年3月,李總理在政府工作報告中再次提及人工智慧產業的發展,提出要「深化大數據、人工智慧等研發應用」。相較於2017年的「加快人工智慧等技術研發和轉化」和2018年的「加強新一代人工智慧研發應用」,「深化」一詞不僅反映出中國人工智慧發展呈現層層遞進和逐步深入的良好態勢,也體現了熱潮之後中國政府對人工智慧的持續重視和未來發展展望。我們應牢牢把握人工智慧關鍵技術和發展方向,明確中國人工智慧發展的短板領域和技術,切實響應國家需求,推進人工智慧各項戰略規劃的快速穩健實施,加快人工智慧專業型人才和通用型人才培養,構建體系化隊伍,加大對人工智慧學術及產業力量的扶持力度,培育並打造人工智慧發展的中流砥柱,以期人工智慧強大的賦能性為經濟社會發展注入新的動能。因此,本文以人工智慧領域高水平會議論文為分析對象,採用無監督聚類方法、複雜網路結構洞理論和突發詞檢測演算法開展深度挖掘分析,梳理人工智慧領域的熱點技術、共性技術和新興技術,以期全面了解人工智慧領域整體技術結構,洞悉關鍵技術分布和研發態勢,明確人工智慧領域代表性國家與機構。
1 數據來源與研究方法
1.1 數據來源
科技論文記載了科學研究和技術研發活動的大量高價值資訊,反映了科技成果誕生的初始狀態,是關鍵技術挖掘的重要數據資源。而在電腦領域,高品質會議論文在學界有著較高的關注度和認可度,同時,相對於期刊論文,會議論文的時效性更好,一定程度上代表著該領域最新、最熱的研究內容,本文綜合專家諮詢意見及數據的可獲得性,以中國電腦協會推薦的人工智慧領域高水平國際學術會議(A類和B類,共19種)為基礎數據源(表1),利用Scopus資料庫檢索並下載題錄數據,包括發表年、標題、關鍵詞、摘要等,時間跨度為2015—2018年,檢索時間為2019年1月22日,共18956篇論文,作為人工智慧領域關鍵技術分析挖掘的數據基礎。

1.2 研究方法
1.2.1 關鍵技術概念界定
對科技論文內容進行深度挖掘,旨在梳理髮現人工智慧領域的關鍵技術,具體包括熱點技術、共性技術和新興技術三類。本文對三類關鍵技術的概念界定如下:
1)熱點技術:某學科領域內,近年來受到科研人員廣泛關注並已產出相應研究成果的主要研究方向和技術主題,反映了學科領域的研發現狀和技術結構全貌;
2)共性技術:對學科領域內其他研究方向和技術主題產生廣泛影響、其研究成果可供參考借鑒和分享使用的一類技術,反映了學科領域的重要研發基礎和技術前沿,是學科領域內的「思想源泉」或「集大成者」;
3)新興技術:某學科領域內,最新出現且短時間內受到廣泛關注的研究方向和技術主題,反映了學科領域內具有重要潛在影響的新近研究熱點。
1.2.2 研究思路與方法
本文採用無監督聚類方法、複雜網路結構洞理論以及突發檢測演算法開展人工智慧領域關鍵技術挖掘分析,研究思路如圖1所示。

具體研究過程及方法包括:
1)基於K-means++聚類的熱點技術挖掘分析
本文基於python語言,利用NLTK包對會議論文文本數據(標題、摘要和關鍵詞)進行預處理,包括分詞、詞性標註、詞幹提取、詞性還原、停用詞過濾等,利用TF-IDF方法對文本進行向量化表示,採用K-means++演算法對數據進行聚類,對各個聚類簇進行解讀和調研,形成人工智慧領域的熱點技術。
2)基於複雜網路結構洞理論的共性技術挖掘分析
結構洞理論形容非冗餘的聯繫,指在社會網路中的某個或某些個體與部分個體發生直接聯繫,但與其他個體不發生直接聯繫的現象,從網路整體看好像網路結構中出現了洞穴(圖2)。結構洞能夠為其佔據者獲取「資訊利益」和「控制利益」提供機會,Raider 的實證研究表明:結構洞佔據者的位置對資訊控制、識別以及交易起著重要的作用。近年來,已有相關學者利用結構洞理論開展共性技術或基礎技術的識別,如江嫻、葉春蕾、王海龍等。結構洞反映了節點對網路資源的控制能力,佔據結構洞的節點能夠獲取來自多方面的非重複性資訊,反映在學科領域研究上,佔據結構洞的研究方向更有可能是「思想源泉」或「集大成者」,即領域共性技術,可對學科領域內其他研究方向產生廣泛影響。



本文以K-means++聚類得到的熱點技術聚類簇為節點,計算聚類簇質心向量間的相似性,以此作為節點間連接和權重的依據,構建網路。基於複雜網路結構洞理論,計算網路中各節點的限制度指標,以此反映節點在網路中運用結構洞的能力。節點的限制度指標值越小,代表節點擁有的結構洞越多,運用結構洞的能力越強,所佔據的「資訊利益」和「控制利益」越大,以此識別人工智慧領域的共性技術。
3)基於Burst Detection演算法的新興技術挖掘分析
本文以清洗後的會議論文關鍵詞為分析數據,採用Sci2 tool工具的Burst Detection演算法探測最新出現且短時間內受到廣泛關注的新興技術。
2 人工智慧領域關鍵技術分析
2.1 人工智慧熱點技術
人工智慧領域的熱點技術代表近年來的主要研究方向和技術主題,反映出人工智慧領域的技術結構全貌。結合輪廓係數的計算結果,確定聚類簇數量K=140時,具有較好的聚類效果。經人工判讀,140個聚類簇中共有132個有效類和8個混雜類。以132個有效類作為節點構建網路,並進行可視化和模組劃分,最終形成14項技術大類(圖3及表2)。中國和美國在14項技術大類下發文量的全球排名,以及各技術大類的Top5優勢機構列舉如表3。








機器學習子領域的技術大類包含機器學習演算法及應用、強化學習演算法、近似及優化演算法和規劃問題共4項。其中,熱點技術主要包括回歸、聚類、分類、近似、估計和優化等基礎演算法的改進研究;遷移學習、多核學習和多視圖學習等新型學習方法;策略網路和時間差分學習等強化學習基本方法;機器人及多代理系統計劃、路徑規劃等問題研究;機器學習演算法在事件檢測、位置識別和社交網路分析中的應用以及強化學習在智慧決策中的應用研究。在上述4項技術大類中,美國發文量均居全球首位,中國在機器學習演算法及應用、近似及優化演算法和規劃問題研究方面僅次於美國,但強化學習研究發文量居全球第5位,相對靠後。中國機構在機器學習演算法及應用、規劃問題研究方面表現較為突出,中國科學院、清華大學和北京大學的發文量位居全球前列。
自然語言處理子領域的技術大類包含自然語言處理技術和自動問答技術共2項。其中,熱點技術主要包括特徵提取、語義分類、詞嵌入、主題模型、關係抽取與分類、知識圖譜、注意力模型和長短期記憶模型等基礎技術研究,還包括智慧自動問答、機器翻譯、情感分析、推薦系統等應用研究。在上述2項技術大類中,美國發文量均居全球首位,中國緊隨其後。中國科學院在這2項技術大類的發文量均居全球前列,清華大學和北京大學也表現不俗。
電腦視覺子領域的技術大類包含影像處理技術、影片處理技術、影像匹配技術、視覺跟蹤技術和對象檢測技術共5項。其中,熱點技術主要包括影片影像分割、對齊、檢測、識別及跟蹤所涉及的核心技術研究;三維重建、光度立體視覺、相機校準、行人再識別、人臉對齊與關鍵點檢測等應用研究。在上述5項技術大類中,也都是美國發文量居全球首位,中國緊隨其後。中國科學院在影像匹配和視覺跟蹤技術上的發文量均居全球首位,在影像處理和影片處理技術上也位居全球前列,此外,浙江大學、大連理工大學和清華大學也表現不俗。
機器人子領域的熱點技術主要包括機械手、抓握、行走、感知和驅動等智慧控制技術研究,同時還包括外骨骼機器人、服務機器人和機器人感測器等硬體基礎和軟體優化研究。此外,人工智慧領域的熱點技術還包括智慧多代理系統,以及眾包、拍賣、市場定價、能源管理和隱私保護等相關問題的研究。在上述技術大類中,美國發文量均居全球首位,中國在機器人和智慧多代理系統研究方面發文量居全球第7位,相對靠後。同時,中國機構在上述技術大類下的發文量均未能進入全球Top5。
2.2 人工智慧共性技術
人工智慧領域的共性技術可對其他研究方向和技術主題產生廣泛影響,反映出人工智慧領域的重要研發基礎和技術前沿。以人工智慧領域熱點技術分布網路(圖3)為對象,計算網路中各節點的限制度指標並升序排列,取Top20的熱點技術作為人工智慧領域的共性技術(表4)。



機器學習子領域佔據15項共性技術,包括推理、特徵選擇與特徵學習、圖論、分類、搜索、回歸等基礎演算法研究,以及約束優化、網路優化、最優化理論、損失函數及優化等機器學習演算法優化方法探索,還包括序列學習、樹學習、長短期記憶模型、多示例學習等新型學習方法實踐,此外,也涉及到機器學習演算法在生存預測、人機關係推斷、藥物不良反應預測方面的應用研究。由此可見,機器學習方法強大的賦能性推動了人工智慧技術和應用的發展升級,各類機器學習共性技術為其他子領域研究實踐奠定了堅實的方法和演算法基礎。
電腦視覺子領域佔據3項共性技術,包括位置識別和影像對齊所涉及的核心技術研究,此外,還包括多標籤對象識別、人臉識別、紋理識別、零次動作識別等機器視覺識別技術的研究和應用實踐。機器人子領域中,感測器技術及應用作為一種共性技術,對於機器人的智慧控制起到非常重要的作用,使其擁有類人的感知功能和反應能力,其中,分散式感測器網路、多感測器融合以及嵌入式微流體應變感測器等新型感測器是當下的技術研發前沿。
2.3 人工智慧新興技術
人工智慧領域的新興技術代表最新出現且短時間內受到廣泛關注的研究方向和技術主題,反映出人工智慧領域內具有重要潛在影響的新近研究熱點。以會議論文關鍵詞為分析數據,採用Sci2 tool工具的Burst Detection演算法計算各個關鍵詞的突髮指標,根據突發權重和突發等級降序排列,選取最高突發等級且尚未進入突發穩定狀態的Top15關鍵詞作為人工智慧領域的新興技術。
在人工智慧領域的新興技術中,深度學習技術出現頻率最高,包括深度神經網路、對抗網路、對抗學習、注意力機制、深度卷積神經網路、長短期記憶網路等。其中,生成對抗網路和注意力機制近年來的研究熱度快速上升,已成為深度學習非常重要的模型和工具,前者可用於真實數據的建模與生成,如影像、影片、自然語言和音樂等,後者則在影像處理、語音識別和自然語言處理方面有廣泛應用。此外,強化學習、案例推理和演化演算法等機器學習方法,影像增強、訊號編碼等電腦視覺技術,以及自主代理和多代理系統等均為人工智慧領域的新興技術。

3 結論
基於人工智慧高水平會議論文數據,利用無監督聚類、複雜網路結構洞理論和突發檢測演算法,從熱點技術、共性技術和新興技術三個方面挖掘分析人工智慧領域的關鍵技術。根據上述分析結果可知:
人工智慧領域共包含14個大類、132項熱點技術,其中,機器學習子領域的熱點技術主要包括基礎演算法的優化改進和實踐應用,以及遷移學習、強化學習、多核學習和多視圖學習等新型學習方法的研究探索等;自然語言處理子領域的熱點技術主要包括特徵提取、語義分類、詞嵌入等基礎技術和模型研究,以及智慧自動問答、機器翻譯等應用研究;電腦視覺子領域的熱點技術主要包括影片影像分割、對齊、檢測等所涉及的核心技術研究,以及三維重建、光度立體視覺、行人再識別等應用研究;機器人子領域的熱點技術主要包括機械手、抓握、行走、感知和驅動等智慧控制技術研究,以及外骨骼機器人和機器人感測器等硬體基礎和軟體優化研究。
人工智慧領域的共性技術主要分布在機器學習、電腦視覺和機器人子領域,其中,機器學習方法強大的賦能性推動了人工智慧技術和應用的發展升級,各類機器學習共性技術為其他領域研究實踐奠定了堅實的方法和演算法基礎。
人工智慧領域的新興技術主要集中在深度學習方面,生成對抗網路和注意力機制是其中的典型代表,此外,新興技術還包括強化學習、自主代理和多代理系統等。
人工智慧作為一門基礎研發和實踐應用並重的技術科學,其熱點技術既包含機器學習基礎演算法的改進優化,也涵蓋自然語言處理、電腦視覺和機器人等通訊、感知和行動層面的應用研究。而通過熱點技術遴選得到的共性技術則賦能了人工智慧基礎研發和實踐應用進步,機器學習基礎演算法在不斷進化的同時,也為相關研究方向提供了新思路、新方法和新手段,同樣,機器視覺核心技術和感測器技術在也分別在電腦視覺和機器人領域起到至關重要的作用。熱點技術和共性技術旨在揭示人工智慧領域的技術全貌及核心技術方向,而新興技術則從關鍵詞層面細粒度揭示突發的技術研究內容,深度學習中的生成對抗網路和注意力機製作為人工智慧新興技術的典型代表,具有廣泛的實踐應用場景,對人工智慧發展具有重要的潛在影響。
人工智慧已成為全球重點關注的研究和發展領域,國際競爭日益激烈。美國在人工智慧領域各熱點技術大類下的發文量均位居全球首位,且遙遙領先於其他國家。中國在機器學習、自然語言處理、電腦視覺等多個技術大類下的發文量僅次於美國,但在強化學習、機器人、智慧多代理系統研究方面發文量排名相對靠後,與美國、德國、法國、日本和英國等國家存在一定差距。此外,中國科學院在多個技術大類下的發文量均位居全球前列,清華大學、北京大學、浙江大學和大連理工大學也表現不俗,但與卡內基梅隆大學、微軟研究院、麻省理工學院等美國著名高校和企業存在不小差距。
-END-