什麼是集體智慧?

集體智慧的定義為：

為了創造新的想法，而將一群人的行為、偏好、或者思想組合在一起。

收集、組合和分析數據,從一大群人中搜集的答案可以使我們得出關於群組的統計結論：組中的個體將被忽視，將成百上千人的想法組合在一起，形成一種不依賴個人觀點的結論。

尋求集體智慧的例子：

wikipedia

wikipedia 是一個在線的百科全書，任何人都可以新建或者編輯網站上的任何一個頁面，這便是集體智慧的一種體現。這使得wikipedia成為了世界上最大的百科全書。
google

不知道你在朋友圈發表過文章沒有 ? 如果一篇文章被轉載的次數越多，那麼你會覺得自己越可能喜歡這篇文章。

科研論文的評價就是採用這樣的方式，人們將論文的重要程度與它被其他論文引用的次數聯繫起來，引用越多的論文其重要程度就越大。

將文章的重要程度與被其他論文引用的次數建立聯繫，這也是一種集體智慧的表現；就像是賣東西，大家都給好評的話,這個物品就越可能是你想要的,因為這個物品是經過成百上千買過的人評價的。

google搜索引擎對網頁排序時就使用了「被引用次數」的評價標準,並且起名叫」PageRank算法」。
京東、淘寶、亞馬遜的推薦

打開這些網站時，它們會向你推薦各種你可能買的商品。這些推薦越符合你的心意，你就越可能買這件商品，這樣賣家就能賺到錢，而製作這個交易平台的人也能藉此分到利潤。

這些網站背後提供推薦的算法叫做推薦系統。推薦系統可以利用很多顧客對同一個物品的喜好數據(比如通過獲取評論的方式)，向沒有買過這件物品的人提供推薦；

這些提供推薦的做法和google有什麼共同之處呢？

它們都使用了先進的算法，採集來自不同人群的數據加以組合，進而得出新的結論，並創造出新的商機。

wikipedia和google又有什麼區別？

wikipedia的成功取決與提供內容的用戶，不是軟件中的智能算法；而google的成功卻是用算法將不同用戶的數據組合在一起。這兩種顯然都是集體智慧的表現，但本書主要傾向於算法。

算法會收集用戶的數據，對數據進行計算分析，以智能化的方式對信息加以處理，並從中創造出可以增強用戶體驗的新信息。

從數據中學習正是機器學習的強項，故本書的很多方法都是基於機器學習的，下面開始介紹機器學習。

機器學習

機器學習是將一組數據傳遞給算法，由算法推算出這些數據之間的關係模型。由數據經過算法處理得到關係模型的過程叫做「訓練」。

藉助學習到的關係模型，當給予一個它沒見過的新數據時，算法會根據訓練階段學習到的關係模型對它進行預測。

你會發現這些算法和統計學的知識有很大關係。

比如說，你收到很多短訊，信息內容都包含「一元搶蘋果手機」，我們可以很快識別短訊內容和『是否是垃圾短訊』之間的關係模式，即帶有「一元搶蘋果手機」的短訊就是垃圾短訊，應該直接刪掉。

我們將多條這樣的短訊標記為垃圾短訊之後，機器學習算法應該自己學會其中的關係模式。當遇到新短訊，其中包含「一元搶蘋果手機」，機器學習算法應該能得出『這是一條垃圾短訊』的結論。

有些任務直接編碼較為複雜，我們不能處理所有的細微之處和簡單編碼，因此，機器學習很有必要。相反，我們向機器學習算法提供大量數據，讓算法不斷探索數據並構建模型來解決問題。比如：在新的雜亂照明場景內，從新的角度識別三維物體；編寫一個計算信用卡交易詐騙概率的程序。

機器學習方法如下：它沒有為每個特定的任務編寫相應的程序，而是收集大量事例，為給定輸入指定正確輸出。算法利用這些事例產生程序。該程序與手寫程序不同，可能包含數百萬的數據量，也適用於新事例以及訓練過的數據。若數據改變，程序在新數據上訓練且被更新。大量的計算比支付手寫程序要便宜的多。