集體智慧導言
- 2020 年 7 月 4 日
- 筆記
什麼是集體智慧?
集體智慧的定義為:
為了創造新的想法,而將一群人的行為、偏好、或者思想組合在一起。
收集、組合和分析數據,從一大群人中搜集的答案可以使我們得出關於群組的統計結論:組中的個體將被忽視,將成百上千人的想法組合在一起,形成一種不依賴個人觀點的結論。
尋求集體智慧的例子:
-
wikipedia
wikipedia 是一個在線的百科全書,任何人都可以新建或者編輯網站上的任何一個頁面,這便是集體智慧的一種體現。這使得wikipedia成為了世界上最大的百科全書。
-
google
不知道你在朋友圈發表過文章沒有 ? 如果一篇文章被轉載的次數越多,那麼你會覺得自己越可能喜歡這篇文章。
科研論文的評價就是採用這樣的方式,人們將論文的重要程度與它被其他論文引用的次數聯繫起來,引用越多的論文其重要程度就越大。
將文章的重要程度與被其他論文引用的次數建立聯繫,這也是一種集體智慧的表現;就像是賣東西,大家都給好評的話,這個物品就越可能是你想要的,因為這個物品是經過成百上千買過的人評價的。
google搜索引擎對網頁排序時就使用了「被引用次數」的評價標準,並且起名叫」PageRank算法」。
-
京東、淘寶、亞馬遜的推薦
打開這些網站時,它們會向你推薦各種你可能買的商品。這些推薦越符合你的心意,你就越可能買這件商品,這樣賣家就能賺到錢,而製作這個交易平台的人也能藉此分到利潤。
這些網站背後提供推薦的算法叫做推薦系統。推薦系統可以利用很多顧客對同一個物品的喜好數據(比如通過獲取評論的方式),向沒有買過這件物品的人提供推薦;
這些提供推薦的做法和google有什麼共同之處呢?
它們都使用了先進的算法,採集來自不同人群的數據加以組合,進而得出新的結論,並創造出新的商機。
wikipedia和google又有什麼區別?
wikipedia的成功取決與提供內容的用戶,不是軟件中的智能算法;而google的成功卻是用算法將不同用戶的數據組合在一起。這兩種顯然都是集體智慧的表現,但本書主要傾向於算法。
算法會收集用戶的數據,對數據進行計算分析,以智能化的方式對信息加以處理,並從中創造出可以增強用戶體驗的新信息。
從數據中學習正是機器學習的強項,故本書的很多方法都是基於機器學習的,下面開始介紹機器學習。
機器學習
機器學習是將一組數據傳遞給算法,由算法推算出這些數據之間的關係模型。由數據經過算法處理得到關係模型的過程叫做「訓練」。
藉助學習到的關係模型,當給予一個它沒見過的新數據時,算法會根據訓練階段學習到的關係模型對它進行預測。
你會發現這些算法和統計學的知識有很大關係。
比如說,你收到很多短訊,信息內容都包含「一元搶蘋果手機」,我們可以很快識別短訊內容和『是否是垃圾短訊』之間的關係模式,即帶有「一元搶蘋果手機」的短訊就是垃圾短訊,應該直接刪掉。
我們將多條這樣的短訊標記為垃圾短訊之後,機器學習算法應該自己學會其中的關係模式。當遇到新短訊,其中包含「一元搶蘋果手機」,機器學習算法應該能得出『這是一條垃圾短訊』的結論。
為什麼需要機器學習?
有些任務直接編碼較為複雜,我們不能處理所有的細微之處和簡單編碼,因此,機器學習很有必要。相反,我們向機器學習算法提供大量數據,讓算法不斷探索數據並構建模型來解決問題。比如:在新的雜亂照明場景內,從新的角度識別三維物體;編寫一個計算信用卡交易詐騙概率的程序。
機器學習方法如下:它沒有為每個特定的任務編寫相應的程序,而是收集大量事例,為給定輸入指定正確輸出。算法利用這些事例產生程序。該程序與手寫程序不同,可能包含數百萬的數據量,也適用於新事例以及訓練過的數據。若數據改變,程序在新數據上訓練且被更新。大量的計算比支付手寫程序要便宜的多。