如何處理暗數據?

【摘要】有研究表明,全球數據總量每兩年翻一番,各企業都在處理和存儲這些海量數據。這些數據主要由結構化數據、非結構化數據等類型數據構成。企業對數據了解得越透徹,就能夠越準確地判斷數據的價值及風險。

結構化的數據:即有固定格式和有限長度的數據。例如填的表格就是結構化的數據,國籍:中華人民共和國,民族:漢,性別:男,這都叫結構化數據。對於ICT領域來說,就是以固定的格式存儲到資料庫里的數據(Oracle/MySQL/…)。

半結構化數據:是一些 XML 或者 HTML 的格式的,當根據需要可按結構化數據來處理,也可抽取出純文本按非結構化數據來處理。

非結構化的數據:就是不定長、無固定格式的數據,例如網頁,郵件,有時候非常長;有時候非常短,幾句話就沒了;例如Word文檔、語音,影片、圖片都是非結構化的數據。現在非結構化的數據居多。

為了描述方便,我們把半結構化數據和非結構化數據,合二為一統稱為「暗數據」,當然這個詞不是我起的,是AA公司起的名字。AA(Automation Anywhere)公司於2003年最初由Ankur Kothari,Mihir Shukla,Neeti Mehta和Rushabh Parmani在加利福尼亞州聖何塞的Tethys Solutions,LLC成立。該軟體公司在10多個國家/地區開展業務,開發適用於領先金融服務,業務流程外包,醫療保健,技術和保險公司的機器人過程自動化技術的產品。在RPA領域市場份額第一,全球最大的RPA生態,培訓並認證超過10,000名RPA人員。

AA公司統計「暗數據」佔比達80%,就像下圖冰山在水下的部分。這些暗數據,導致資訊是斷裂的,傳統的自動化不能訪問。業界最頭疼的就是如何處理這部分數據?

一、傳統處理暗數據的方法

目前傳統的公司,在處理暗數據的時候,採用的是笨辦法,想辦法把非結構化的數據轉換成結構化數據。或者乾脆,大部分公司是讓這些暗數據躺在數據湖裡沉睡中,沒有任何用處,反而還浪費了存儲和維護資源。像我們的站點數據、設備數據、網路數據、操作數據,大部分都是暗數據。我們現在花大力氣在想辦法結構化,這可能是最笨的辦法。費時費力,結果還很差。

二、利用AI處理暗數據的新方法

其實單純的RPA做的工作非常有限,RPA主要是處理結構化和流程化的數據,不能處理「暗數據」。利用AI技術,就可以處理圖片、郵件等暗數據,同時AI還可以隨機應變的處理一些突發的流程。

下面列舉了AI和RPA的差異點:

AA這家公司把AI和RPA結合起來,處理暗數據。使用的關鍵技術如下:

1、語音識別:主要處理對話、錄音、音頻等文件。

2、NLP:主要處理文本、郵件、文檔等文件。

3、計算視覺:主要處理圖片、PDF中嵌入的圖片等資訊。

4、機器學習&深度學習:主要通過「學習」,處理一些異常事件,讓流程能正常流轉,像人一樣,能靈活處理問題。

三、AA這家公司推出的關鍵產品(或解決方案)

推出了IQ-Bot的解決方案。IQ Bot™是人工智慧(AI)解決方案,業務用戶可以輕鬆設置和使用,以更快地自動讀取和處理各種複雜的文檔和電子郵件。另外,IQ Bot通過構建的自動化認知,可與IBM Watson/Google Cloud AI/MS Cognitive Service等AI解決方案集成,以彌合RPA與純認知平台之間的差距。

在其主頁上呈現的IQ BOT解決方案的示例如圖,重點是想說明IQ Bot是一座橋樑,可以連接RPA和認知平台:

使用IQ-Bot前後對比

AI能夠以內容為中心實現流程自動化,使AI成為理想的RPA的補充技術。 使用兩者的組合,組織可以端到端自動化流程,例如使用AI,解析,分類和理解語義或情緒,並將所需的行動傳遞給RPA。 例如:完成使用AI為客戶撰寫確認函/文本或電子郵件等案例。

四、如何把AI嵌入到前台的RPA流程中去?

1、許多流程需要理解語義。利用AI中的NLP技術理解句子的結構,語義和意圖。

通過統計方法和機器學習。NLP將文本轉換為數據,反之亦然,允許人與人之間有意義的互動。它包括自然語言理解和生成,例如:保險公司處理索賠、銀行抵押貸款,這些都需要補充材料,包括圖片(身份證資訊)、表格資訊、郵件資訊、文本資訊等等,這些都是非結構化資訊,很難直接使用RPA自動化,影響了這個流程的效率。文本,電子郵件,信件和影像,首先通過NLP和影像識別技術以便進一步處理。

2、利用電腦視覺技術自動提取,分析圖片,轉換成語義。

從單個影像或一系列影像(包括掃描文檔)中理解有用資訊,實現自動視覺理解。

3、通過ML(Machine Learning)來實現一些靈活化處理問題的能力。

通過演算法來實現人處理問題的靈活性,無需明確固定的流程,可以通過「學習」來靈活處理,具備隨機應變的處理機制,避免通過系統對接傳遞大量數據。

五、AI方法的借鑒意義?

這多年過去了,整個電信業界就沒有搞定網路拓撲,特別是跨域和跨廠商的。我一直認為,通過採集上來的現有公開數據(不同廠商肯定有網管系統),通過數據的拼接,是可以拼出一個拓撲的。大家覺得不可能。其實想想Google地圖,看看Google地圖是怎麼做到的?地圖需要拼接的數據量肯定是網路資訊的很多倍,難度也大於網路拓撲,但為什麼地圖能搞出來,而一個拓撲就搞不出來呢?利用數據的拼接+AI技術,是可以把整網跨廠商的網路拓撲拼接出來的。

六、給大家介紹的IQ Bot的目的是打開一扇窗,讓大家去尋寶

IQ Bot:認知自動化機器人,是專門負責處理暗數據,IQ Bot發現和轉換隱藏數據,以更快,更高效地自動化業務流程,同時消除人為錯誤。

在這個AI時代,如何讓手裡的數據發揮出價值成為在市場中殺出重圍的重要的技能。企業面對內部大量的暗數據,需要建立高效的數據管理體系,學會妥善運用演算法、簡化流程,才能迎接這數據洪流時代。

本文作者作者:華為雲社區高亮,點擊關注,第一時間了解華為雲新鮮技術~