電腦視覺應用:深度學習的力量和局限性

  • 2020 年 2 月 12 日
  • 筆記

自從人工智慧誕生之初,電腦科學家就夢想著創造出能夠像我們一樣看到和理解世界的機器。這些努力導致了電腦視覺的出現,電腦視覺是AI和電腦科學的廣闊領域,致力於處理視覺數據的內容。

近年來,由於深度學習和人工神經網路的進步,電腦視覺取得了長足的進步。深度學習是AI的一個分支,特別擅長處理影像和影片等非結構化數據。

這些進步為在現有領域中促進電腦視覺的使用以及將其引入新領域鋪平了道路。在許多情況下,電腦視覺演算法已成為我們每天使用的應用程式中非常重要的組成部分。

電腦視覺的商業應用

其實你每天都在使用電腦視覺應用程式,在某些情況下可能沒有注意到它。以下是使生活變得有趣和便捷的電腦視覺的一些實用和流行的應用程式。

圖片搜尋

電腦視覺已取得巨大進展的領域之一是影像分類和物體檢測。經過足夠標籤數據訓練的神經網路將能夠以驚人的精度檢測並突出顯示各種物體。

很少有公司能夠與Google龐大的用戶數據存儲相匹配。他們一直在使用其幾乎無限(並且正在不斷增長)的用戶數據存儲庫來開發一些最高效的AI模型。當您在Google相冊中上傳照片時,它會使用其電腦視覺演算法對場景,物體和人物的內容資訊進行注釋。然後,您可以根據此資訊搜索影像。

例如,如果您搜索「 dog」,則Google會自動返回您庫中包含狗的所有影像。

影像編輯和增強

現在,許多公司正在使用機器學習來自動增強照片。Google的Pixel手機系列使用設備上的神經網路進行自動增強,例如白平衡、添加效果與模糊背景。

智慧縮放是電腦視覺技術的一大進步。傳統的縮放功能通常會使影像模糊,因為它們通過在像素之間進行插值來填充放大的區域。基於電腦視覺的縮放不是放大像素,而是著重於邊緣,圖案等特徵。這種方法可以使影像更清晰。

許多初創公司和歷史悠久的圖形公司已轉向深度學習來增強影像和影片。Lightroom CC中的Adobe 增強細節技術使用機器學習來創建更清晰的縮放影像。

影像編輯工具Pixelmator Pro具有ML超解析度功能,該功能使用卷積神經網路提供清晰的縮放和增強效果。

面部識別應用

幾年前面部識別技術還是一項笨拙且昂貴的技術,僅限於警察研究實驗室。但是近年來,由於電腦視覺演算法的進步,面部識別已進入各種計算設備。

iPhone X引入了FaceID,這是一種身份驗證系統,該系統使用設備上的神經網路在看到擁有者的臉部時將手機解鎖。在設置過程中,FaceID在所有者的臉上訓練其AI模型,並在不同的光照條件、髮型、帽子和眼鏡下正常工作。

在中國刷臉支付已經普及。客戶無需使用信用卡或移動支付應用程式,而只需要站在配備有電腦視覺的設備前即可。

儘管取得了進步,但是,當前的面部識別並不完美。AI和安全研究人員發現了多種導致面部識別系統出錯的方法。在一個案例中,卡內基梅隆大學的研究人員表明,戴上特製眼鏡,他們可能會欺騙面部識別系統,以將其誤認為名人。

數據高效的家庭安全

隨著物聯網(IoT)的發展,連接互聯網的家庭安全攝影機已越來越受歡迎。現在,您可以隨時輕鬆地安裝安全攝影機並在線監控您的房子。

每個攝影機都會向雲端發送大量數據。但是,安全攝影機記錄的大多數鏡頭都是不相關的,從而導致網路,存儲和電力資源的大量浪費。電腦視覺演算法可以使家庭安全攝像機在使用這些資源時變得更加高效。

而智慧攝影機將保持空閑狀態,直到它們檢測到影片中的物體或移動,之後它們才能開始將數據發送到雲或將警報發送給相機的所有者。但是請注意,電腦視覺仍然不能很好地理解上下文。因此,不要指望它能在良性運動(例如,球在房間內滾動)和需要注意的事物(例如,小偷闖入您的房屋)之間區分開來。

與現實世界互動

在過去的幾年中,增強現實(將現實世界的影片和影像與虛擬對象重疊的技術)已成為一個新興的市場。AR的大部分擴展歸功於電腦視覺演算法的發展。AR應用程式使用機器學習來檢測和跟蹤目標位置和放置虛擬對象的對象。您可以在許多應用程式中看到AR和電腦視覺的結合,例如Snapchat過濾器和Warby Parker的Virtual Try-On。

電腦視覺的高級應用

由於深度學習的進步,電腦視覺現在可以解決以前很難解決甚至電腦無法解決的問題。在某些情況下,訓練有素的電腦視覺演算法可以與具有多年經驗和培訓的人媲美。

醫學影像處理

在深度學習之前,創建可以處理醫學影像的電腦視覺演算法需要軟體工程師和醫學專家的大量努力。他們必須合作開發從放射影像中提取相關特徵的程式碼,然後對其進行檢查以進行診斷。

深度學習演算法提供了端到端解決方案,使該過程變得非常容易。工程師創建正確的神經網路結構,然後在帶有結果注釋的X射線,MRI影像或CT掃描上對其進行訓練。然後,神經網路找到與每個結果相關的相關特徵,然後可以以驚人的準確性診斷未來的影像。

電腦視覺已進入許多醫學領域,包括癌症檢測和預測,放射學,糖尿病性視網膜病。

一些AI研究人員甚至說深度學習將很快取代放射科醫生。但是,那些在該領域有經驗的人會有所不同。除了看幻燈片和影像外,診斷和治療疾病還有很多其他的事情。另外,請不要忘記,深度學習從像素中提取圖案-它不能複製人類醫生的所有功能。

玩遊戲

教電腦玩遊戲一直是人工智慧研究的熱點。大多數遊戲程式都使用強化學習,這是一種通過反覆試驗來發展其行為的AI技術。

電腦視覺演算法在幫助這些程式解析遊戲圖形內容方面發揮著重要作用。但是要注意的一件事是,在許多情況下,圖形會被簡化,以使神經網路更容易理解它們。此外,目前,AI演算法需要大量數據才能學習遊戲。例如,OpenAI的玩Dota的AI必須經歷45000年的遊戲過程才能達到冠軍水平。

無人售貨商店

在2016年,亞馬遜推出了Go商店,當客戶在商店中走動時,配備了高級電腦視覺演算法的攝像機會監控他們的行為,並跟蹤他們拿起或返回貨架的物品。當他們離開商店時,他們的購物車會自動從他們的Amazon帳戶中扣除。

宣布三年後,亞馬遜已經開設了18家Go商店,並且仍在進行中。但是,有希望的跡象表明,電腦視覺(藉助其他技術的幫助)將有一天使結帳業務成為過去。

自動駕駛汽車

自動駕駛汽車一直是AI社區最長遠的夢想和最大的挑戰之一。今天,我們距離能在各種光照和天氣條件下在任何道路上行駛的自動駕駛汽車還很遙遠。但是,由於深度神經網路的進步,我們取得了許多進步。

創造無人駕駛汽車的最大挑戰之一就是使他們能夠了解周圍的環境。儘管不同的公司以各種方式解決該問題,但它們之間不變的一件事是電腦視覺技術。

安裝在車輛周圍的攝影機可監控汽車的環境。深度神經網路解析鏡頭並提取有關周圍物體和人物的資訊。該資訊與來自光學雷達等其他設備的數據相結合,以創建該區域的地圖,並幫助汽車在道路上行駛並避免碰撞。

可怕的電腦視覺應用

像所有其他技術一樣,並非所有有關人工智慧的內容都令人愉悅。先進的電腦視覺演算法可以擴大惡意用途。以下是一些引起關注的電腦視覺應用。

監視

對面部識別技術感興趣的不僅是電話和電腦製造商。實際上,面部識別技術的最大客戶是政府機構,他們對使用該技術自動識別安全攝像機鏡頭中的罪犯有既得利益。

但是問題是,您如何在國家安全與公民隱私之間劃清界限?由面部識別技術提供支援的安全攝像機的廣泛應用使政府能夠密切跟蹤數百萬公民的活動,無論他們是否是犯罪嫌疑人。

自主武器

電腦視覺還可以將目光投向武器。軍用無人機可以使用AI演算法識別物體並挑選目標。在過去的幾年中,軍方對AI的使用引起了很多爭議。面對員工的批評,Google不得不取消為國防部開發電腦視覺技術的合約。

目前,仍然沒有自動武器。大多數軍事機構都在有人員參與的系統中使用AI和電腦視覺。

但是人們擔心,隨著電腦視覺的進步和軍事部門的更多參與,我們擁有的武器可以選擇自己的目標並在沒有人做決定的情況下扳動扳機只是時間問題。