AI學習筆記:人工智慧與機器學習概述
- 2020 年 3 月 26 日
- 筆記
一、人工智慧基本概念
1.1 基本概念
數據分析:對歷史規律的展現、對未來數據的預測。
機器學習:機器學習是指從一系列的原始數據中找到規律,提取人們可以識別的特徵,然後通過學習這些特徵,最終產生一個模型。
流程:原始數據–>特徵提取–>模型。機器學習偏向於演算法。
人工智慧:Artificial Intelligence, AI,亦稱機器智慧,是指利用電腦來對人的意識、思維資訊過程、智慧行為進行模擬(如學習、 推理、 思考、 規劃等)和延伸,使電腦能實現更高層次的應用。人工智慧基於機器學習偏向於應用。
數據挖掘:綜合運用機器學習和人工智慧技術來解決生產或生活中的問題,是一個過程,一個解決方案。
1.2 人工智慧發展歷程
1.3 人工智慧系統技術架構
-
基礎層(基礎資源):
-
計算資源:學習數據的過程,如果資源不足將導致訓練時間非常的漫長。
-
數據資源:數據要保證可靠、充分、準確
-
-
技術層:演算法、演算法底層支撐的框架、演算法運行環境、友好的建模介面
-
應用層:人工智慧只是一種技術,不是一個行業,需要和各個行業進行結合,才能發揮價值。因此需要懂技術,還要懂業務。
從整個人工智慧項目要經歷的階段來看
-
基礎層:數據收集–>數據理解–>數據處理–>
-
技術層:特徵提取–>模型構建–>模型評估–>模型訓練–>
-
應用層:模型應用
1.4 人工智慧應用領域
機器視覺:將被攝目標的形態資訊、像素分布和亮度、顏色等資訊,轉變成數字化影像訊號,傳送給圖形處理系統;比如手機的AI攝影機對照片進行美化。
生物識別:通過電腦,與光學、聲學、生物感測器、統計學的概念手段結合,利用人體固有的身體特徵、行為特徵進行個人身份的鑒定。比如人臉、指紋、虹膜等。一般將特徵分為兩類:靜態特徵 和 行為特徵(或動態特徵)
專家系統:模擬人類專家解決領域問題的系統。資料庫里包含含有大量的某個領域專家水平的知識與經驗,跟進用戶的諮詢,進行推理和判斷,模擬人類專家的決策過程。比如智慧客服,能夠進行自我學習,天貓雙11 80%以上是智慧客服完成的。比如券商的智慧投顧。
編碼遺傳:AI系統利用遺傳演算法和圖靈完備語言開發的程式理論上能夠完成任何類型的任務。比如基因改造、基因測序,這一塊屬於較敏感的話題。
機器人學:機器人是一個綜合性的人工智慧產品。應用機器的視覺觸覺聽覺等技術、機器人語言和智慧控制軟體等,來承擔危險的事務。比如可以參與到人不可觸及、高危的場景
舉例:生物識別的通用流程
1.5 人工智慧模型分類
人工智慧的核心是機器學習,機器學習的核心是演算法。常見的演算法可以分為兩大陣營:
1、傳統的機器學習演算法:主要解決一些簡單的應用場景以及結構化的數據。
2、非傳統的機器學習演算法:主要解決一些比較複雜的應用場景以及非結構化的數據或者多樣化的數據。
常見的演算法:
- 傳統的機器學習又分為有監督學習和非監督學習,
有監督學習:有feture和label;業務系統提供的數據源知道原因又知道結果,根據原因找結果,此時稱之為有監督的學習,
非監督學習:只有feture;業務系統提供的數據源不知道會產生什麼結果,此時稱之為非監督的學習。 百度百科:指在沒有類別資訊情況下,通過對所研究對象的大量樣本的數據分析實現對樣本分類的一種數據處理方法。
半監督學習:兩者的結合。
- 監督學習演算法又可以分為分類演算法和回歸演算法
分類演算法:看label的類型。如果label離散型變數,二分類/多分類。 比如線性回歸演算法
回歸演算法:連續性變數,比如預測股票價格、交通流量等。比如邏輯回歸、決策樹、樸素貝葉斯、支援向量機。
隨機森林、K-近鄰、神經網路即可做回歸,也可做分類。
強化學習:根據環境來調整學習xiao,回饋機制,每一階段其實還是傳統演算法
1.6 人工智慧原理舉例
- 例1:賣房子
房子有很多的屬性,比如面積、樓層、朝向、學區、交通是否便利等等。利用機器學習,基於已經賣掉的房子數據可以訓練出一個房價和房子眾多屬性之間的關聯函數,以後在房子估價時只需要輸入參數到模型中,就可以輸出房子可以賣多少錢。這是一個典型的機器學習的回歸模型的應用。
- 例2 買蘋果
根據你每次買蘋果的口味進行決策,最終選出最適合你的口味,這屬於二分類問題,這是一個典型的機器學習決策樹模型的應用。
二、人工智慧基本原理
本章節從業務溝通與業務目標確認、業務問題轉換為機器學習問題、常規建模流程、模型/業務解釋四個方面進行說明。
2.1 項目角色-甲方乙方
甲方:對自己的業務比較了解,但建模水平可能還達不到企業的自身要求。
乙方:建模技術、建模經驗比較充分,具有一定的業務,但還需要和甲方進行深入溝通。
注意:在項目過程中,任何時候都要注意數據安全和數據隱私。
2.2 業務溝通與業務確認
建模不是調演算法,而是需要從業務本身出發,最終目的是為了業務提升。
數據與目標:有哪些數據?想做什麼?之前是怎麼做的?之前結果有什麼不滿意?
做法與思路:能不能用機器學習方法來做?如何轉換為機器學習問題以及優先順序?
應用於評估:訓練出來的模型怎麼用?期望達到什麼樣的效果(業務角度的效果)?
2.3 業務問題轉化為機器學習問題
在用人工智慧技術解決真實業務問題之前,需要思考:
- 是否可以用機器學習方法來做
-
溝通需求與業務目標
-
明確是否是機器學習的範疇以及是哪種問題
- 如何實際開發節奏
-
明確人工智慧建模流程
-
預設各階段的開發周期和檢驗標準
- 最終產品的檢驗標準
-
確定最終模型使用方式
-
明確最終模型的效果評估方式
2.4 人工智慧建模流程
階段概要說明:
數據收集:ETL
數據理解:數據代表業務
數據處理:數據的準確性、數據的品質。
特徵提取:兩種方式。一:基於人對業務經驗的了解,可能存在人為因素。二:用一些神經網路的方法,基於數據本身的特徵進行加工和特徵提取,但只能提取通用的規律。各有利弊
模型構建:選擇演算法
模型評估:評估模型、優化模型。
模型最終是否能產生價值,還需要業務推動、調整,因此需要和業務進行充分、反覆的溝通,確認目標、確認做工作的方式和效果。
2.5 人工智慧模型與業務解釋
最終一定要轉化為業務語言,指導業務。
三、人工智慧技術發展趨勢
3.1 各大廠商一些典型的應用
-
微軟
主要 研究大數據(城市計算)、智慧醫療、知識圖譜(微軟認知服務),NLP(機器翻譯、實時語音翻譯、微軟小英、微軟小冰),電腦視覺等領域。 -
百度研究院
下設 深度學習實驗室(IDL)、大數據實驗室(BDL)、矽谷人工智慧實驗室(SVAIL)、商業智慧實驗室(BIL)、機器人與自動駕駛實驗室(RAL)、認知計算實驗室(CCL)、量子計算研究所(IQC);多模態深度語義理解的百度大腦3.0,Apollo平台; -
騰訊AI實驗室
遊戲類AI,圍棋AI(絕藝)、王者榮耀AI(絕悟)等 -
華為諾亞方舟實驗室
電腦視覺、推薦與搜索、AI基礎理論、語音和語言處理、決策與推理等 -
阿里巴巴達摩院
分為機器智慧、數據計算、機器人、金融科技、X實驗室共5大研究領域,14個實驗室。產品:人工智慧晶片平頭哥。
3.2 人工智慧研究方向
1、深度神經網路:解開神經網路的工作原理
2、模糊計算:以模糊集理論為基礎,它可以模擬人腦非精確、非線性的資訊處理能力
3、強化深度學習:與環境交互以解決業務問題
4、生成對抗網路:配對神經網路刺激學習,減輕處理負擔
5、混合學習模式:模型融合,提高模型準確性
6、自動化機器學習:自動化建模、讓AI更智慧。
四、人工智慧典型技術方案
星環科技企業級人工智慧平台SOPHON
目的:幫助企業用戶以可視化方式實現人工智慧的快速落地
功能:數據導入、數據預處理、特徵工程、模型訓練、模型驗證、模型部署、模型應用等
產品優勢:自動建模技術、全場景工具、優化的分散式演算法、多數據融合、微服務部署、全流程圖形化、多用戶協作、流式機器學習、多種計算框架、工作流調度等。
五、人工智慧應用場景
5.1 基於關聯分析的經典案例:沃爾瑪的啤酒尿布
5.2 回歸預測:比如新冠肺炎疫情的預測
5.3 知識圖譜:比如超級傳播者的識別
5.4 自然語言處理NP:比如垃圾郵件檢測與分類
5.5 神經網路(深度學習):人臉識別VS豬臉識別
5.6 強化學習(深度學習):比如電子競技-AI dota。AI選手訓練量驚人,相當於每天可打200萬局dota;256塊GPU,12.8萬個CPU核心
5.7 人工智慧應用領域
歡迎關注我的個人公眾號「碼大叔」,也可以加我的個人微信:qiaojs,我們一起java相關的交流學習!
本文是我觀看星環科技AI工程師公開培訓影片的學習筆記,拿出來和大家一起分享學習,版權歸星環科技所有。大家也可以直接去觀看影片,老師講的更為詳細。
B站直播地址:https://live.bilibili.com/21878856,免費噢(星環科技最近不定時有很多大數據、雲計算、人工智慧相關的分享)
AI講師:孫國庫 星環科技AI架構師&金牌講師
感謝星環科技孫老師的精彩分享!