強化學習的10個現實應用

  • 2020 年 11 月 12 日
  • AI

譯者:AI研習社(季一帆Zephyr178

雙語原文鏈接:10 Real-Life Applications of Reinforcement Learning


在強化學習中,我們使用獎懲機制來訓練agents。Agent做出正確的行為會得到獎勵,做出錯誤的行為就會受到懲罰。這樣的話,agent就會試著將自己的錯誤行為最少化,將自己的正確行為最多化。

  

本文我們將會聚焦於強化學習在現實生活中的實際應用。

無人駕駛中的應用

很多論文都提到了深度強化學習在自動駕駛領域中的應用。在無人駕駛中,需要考慮的問題是非常多的,如:不同地方的限速不同限速,是否是可行駛區域,如何躲避障礙等問題。

有些自動駕駛的任務可以與強化學習相結合,比如軌跡優化,運動規劃,動態路徑,最優控制,以及高速路中的情景學習策略。

比如,自動停車策略能夠完成自動停車。變道能夠使用q-learning來實現,超車能應用超車學習策略來完成超車的同時躲避障礙並且此後保持一個穩定得速度。

AWS DeepRacer是一款設計用來測試強化學習演算法在實際軌道中的變現的自動駕駛賽車。它能使用攝影機來可視化賽道,並且可以使用強化學習模型來控制油門和方向。

Wayve.ai已經成功應用了強化學習來訓練一輛車如何在白天駕駛。他們使用了深度強化學習演算法來處理車道跟隨任務的問題。他們的網路結構是一個有4個卷積層和3個全連接層的深層神經網路。例子如圖。中間的影像表示駕駛員視角。

強化學習在工業自動化中的應用

在工業自動化中,基於強化學習的機器人被用於執行各種任務。這些機器人不僅效率比人類更高,還可以執行危險任務。

Deepmind使用AI智慧體來冷卻Google數據中心是一個成功的應用案例。通過這種方式,節省了40%的能源支出。現在,這些數據中心完全由人工智慧系統控制,除了很少數據中心的專家,幾乎不再需要其他人工干預。該系統的工作方式如下:

  • 每五分鐘從數據中心獲取數據快照,並將其輸入深度神經網路

  • 預測不同組合將如何影響未來的能源消耗

  • 在符合安全標準的情況下,採取具有最小功耗的措施

  • 向數據中心發送相應措施並實施操作

當然,具體的措施還是由本地控制系統操作完成。

強化學習在金融貿易中的應用

有監督的時間序列模型可用來預測未來的銷售額,還可以預測股票價格。然而,這些模型並不能決定在特定股價下應採取何種行動,強化學習(RL)正是為此問題而生。通過市場基準標準對RL模型進行評估,確保RL智慧體正確做出持有、購買或是出售的決定,以保證最佳收益。

通過強化學習,金融貿易不再像從前那樣由分析師做出每一個決策,真正實現機器的自動決策。例如,IBM構建有一個強大的、面向金融交易的強化學習平台,該平台根據每一筆金融交易的損失或利潤來調整獎勵函數。

強化學習在自然語言處理NLP中的應用

RL可用於文本摘要、問答和機器翻譯等NLP任務。

Eunsol Choi、Daniel Hewlett和Jakob Uszkoret在論文中提出了一種基於RL的長文本問答方法。具體而言,首先從文檔中選出幾個與問題相關的句子,然後結合所選句子和問句通過RNN生成答案。

該論文結合監督學習與強化學習生成抽象文本摘要。論文作者Romain Paulus, Caiming Xiong和Richard Socher等人希望解決基於注意力的RNN編解碼模型在摘要生成中面臨的問題。論文提出了一種新的內注意力神經網路,通過該注意力可以關注輸入並連續生成輸出,監督學習和強化學習被用於模型訓練。

至於機器翻譯,科羅拉多大學和馬里蘭大學的研究人員提出了一種基於強化學習的機器翻譯模型,該模型能夠學習預測單詞是否可信,並通過RL來決定是否需要輸入更多資訊來幫助翻譯。

斯坦福大學、俄亥俄州立大學和微軟研究所的研究人員提出Deep-RL,可用於對話生成任務。Deep-RL使用兩個虛擬智慧體模擬對話,並學習多輪對話中的未來獎勵的建模,同時,應用策略梯度方法使高品質對話獲得更高獎勵,如連貫性、資訊豐富度和簡潔性等。

點此鏈接查看更多RL在NLP中的應用。

強化學習在醫療保健中的應用

醫療保健領域,RL系統為患者只能提供治療策略。該系統能夠利用以往的經驗找到最優的策略,而無需生物系統的數學模型等先驗資訊,這使得基於RL的系統具有更廣泛的適用性。

基於RL的醫療保健動態治療方案(DTRs)包括慢性病或重症監護、自動化醫療診斷及其他一些領域。

DTRs的輸入是一組對患者的臨床觀察和評估數據,輸出則是每個階段的治療方案。通過RL,DTRs能夠確定患者在特定時間的最佳治療方案,實現時間依賴性決策。

在醫療保健中,RL方法還可用於根據治療的延遲效應改善長期結果

對於慢性病,RL方法還可用於發現和生成最佳DTRs。

通過本文,您可以深入研究RL在醫療保健中的應用。

強化學習在工程中的應用

在工程領域,Facebook提出了開源強化學習平台 —— Horizon,該平台利用強化學習來優化大規模生產系統。在Facebook內部,Horizon被用於:

  • 個性化指南

  • 向用戶發送更有意義的通知

  • 優化影片流品質

Horizon主要流程包括:

  • 模擬環境

  • 用於數據處理的分散式數據平台

  • 模型的訓練與輸出

一個典型例子是,強化學習根據影片緩衝區的狀態和其他機器學習系統的估計可選擇的為用戶提供低比特率或高比特率的影片。

Horizon還能夠處理以下問題:

  • 大規模部署

  • 特徵規範化

  • 分散式學習

  • 超大規模數據的處理和服務,如包含高維數據和數千特徵的數據集。

強化學習在新聞推薦中的應用

新聞推薦領域,用戶的喜好不是一成不變的,僅僅基於評論和(歷史)喜好向用戶推薦新聞無法一勞永逸。基於強化學習的系統則可以動態跟蹤讀者回饋並更新推薦。

構建這樣一個系統需要獲取新聞特徵、讀者特徵、上下文特徵和讀者閱讀的新聞特徵。其中,新聞特徵包括但不限於內容、標題和發布者;讀者特徵是指讀者與內容的交互方式,如點擊和共享;上下文特徵包括新聞的時間和新鮮度等。然後根據用戶行為定義獎勵函數,訓練RL模型。

強化學習在遊戲中的應用

RL在遊戲領域中的應用備受關注,且極為成功,最典型的便是前些年人盡皆知的AlphaGoZero。通過強化學習,AlphaGoZero能夠從頭學習圍棋遊戲,並自我學習。經過40天的訓練,AlphaGoZero的表現超過了世界排名第一的柯潔。該模型僅包含一個神經網路,且只將黑白棋子作為輸入特徵。由於網路單一,一個簡單的樹搜索演算法被用來評估位置移動和樣本移動,而無需任何蒙特卡羅展開。

實時競價——強化學習在廣告營銷中的應用

該論文提出了一種基於多智慧體強化學習的實時競價策略。對大量廣告商進行聚類,然後為每個聚類分配一個策略投標智慧體實現競標。同時,為了平衡廣告主之間的競爭與合作,論文還提出了分散式協同多智慧體競價(DCMAB)。

在市場營銷中,選擇正確的目標全體才可帶來高回報,因此個人精準定位至關重要的。論文以中國最大的電子商務平台淘寶網為研究對象,表明上述多智慧體強化學習優於現有的單智慧體強化學習方法。

強化學習在機器人控制中的應用

通過深度學習和強化學習方法訓練機器人,可以使其能夠抓取各種物體,甚至是訓練中未出現過的物體。因此,可將其用於裝配線上產品的製造。

上述想法是通過結合大規模分散式優化和QT-Opt(一種深度Q-Learning變體)實現的。其中,QT-Opt支援連續動作空間操作,這使其可以很好處理機器人問題。在實踐中,先離線訓練模型,然後在真實的機器人上進行部署和微調。

針對抓取任務,GoogleAI用了4個月時間,使用7個機器人運行了800機器人時。

實驗表明,在700次實驗中,QT-Opt方法有96%的概率成功抓取陌生的物體,而之前的方法僅有78%的成功率。

總結

強化學習是一個非常有趣且值得廣泛研究的領域,RL技術的進步及其在現實各領域的應用勢必將取得更大的成功。

在本文中,我們粗略介紹了強化學習的不同領域應用。希望這能激發起你的好奇心,並引起你對RL的熱愛和研究。如果想了解更多,推薦查看這兩個項目://github.com/aikorea/awesome-rl,//github.com/dennybritz/reinforcement-learning。


AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平台,致力成為中國最大的科技創新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。