用PowerBI洞悉大數據騙局神律-第一數字定律

  • 2019 年 10 月 6 日
  • 筆記

什麼最難,或許就是一個簡單的 真相

當有人告訴你世界怎麼了,國家怎麼了,他還有大量數據做支撐,似乎無懈可擊之時,我們依然可以大膽地去懷疑,因為真相很難偽造,至少對看了本文地人來說,偽造真相的操作成本會增加不少。

另外,也許您有一堆數據需要分析,數據量還不小,例如:先來上1個億,不要和那啥啥小目標混淆。數據來源是不是未可知的,很多人就一頭扎進去分析,可能完全是無意義的。

以上問題地原因很簡單:數據是人為偽造的

問題來了:如何辨別大量數據是否是人為偽造的?

如果你沒有聽說過 第一數字定律 也叫 本福特定律(Benford』s Law),相信一定會被很多數據所矇騙。當知道了這條定律並直接用於實踐,則也許可以幫助我們在茫茫數據海洋中殺出一條血路.

也許我們永遠無法知道真相是什麼,但我們至少可以從此不再那麼傻。

從一個問題開始

假設我們有一個世界著名旅遊景點資料庫,並按照每年遊客數排名,我們取前122000個景點,景點的有一個屬性叫:海拔。

海拔高度可能是:1378英尺也可能是2665英尺,這完全像是隨機數。

思想實驗

如果我們把上述所有景點的海拔高度的 首個數字取出來,然後只看從 1到9 的分布,你猜測會是怎樣的?

正常思維下,人們會認為由於隨機性,數據量又足夠大,1到9 的分布應該是隨機的,但實際卻不是這樣。

實際結果

如果你真的有這樣一個資料庫,並按照首個數字取出來,然後只看從 1到9 的分布,會是這樣的:

Are you kidding me!!!

有沒有毀滅你的三觀,怎麼可能?!

絕非偶然

有人會說,這完全是巧合。如果我們做一些變化,例如用米,厘米或者任何什麼度量作為單位,都會看到一樣類似形狀的分布。如下:

我們發現:數字1作為引導數字出現的概率是最大的,大概在 30% 左右。

同樣的現象還出現在很多領域:

例如納斯達克股市日成交量,進出口水產品交易量等。

正式介紹:本福特定律

我們稱這種神奇的現象叫:Benford』s Law(本福特定律),也叫 第一數字定律

讓我們正式介紹一下: 本福特定律,說明一堆從實際生活得出的數據中,以1為首位數字的數的出現概率約為總數的三成。 人們的直覺是從1到9各自1/9,這個直覺是錯的。 它可用於檢查各種數據是否有造假。

讓我們用數學語言嚴謹地描述一下: 本福特定律說明在 b進位制( 例如 b = 10 就是 10進位 ) 中,以數 d 起頭的數出現的概率為:

在十進位首位數字的出現概率(%,小數點後一個位):

也就是:

我們可以自己用Windows10自帶的計算器來算一算:

是不是很神奇,是不是很興奮,是不是馬上就可以用。

到底為啥

一組平均增長的數據開始時,增長得較慢,由最初的數字 a 增長到另一個數字 a+1起首的數的時間,必然比 a+1起首的數增長到 a+2,需要更多時間,所以出現率就更高了。

從數數目來說,順序從1開始數,1,2,3,…,9,從這點終結的話,所有數起首的機會似乎相同,但9之後的兩位數10至19,以1起首的數又大大拋離了其他數了。而下一堆9起首的數出現之前,必然會經過一堆以2,3,4,…,8起首的數。若果這樣數法有個終結點,以1起首的數的出現率一般都比9大。

這個定律的嚴格證明,可以參見Hill, T. P. 「A Statistical Derivation of the Significant-Digit Law.」 Stat. Sci. 10, 354-363, 1996.。

實際應用

1972年,Hal Varian提出這個定律來用作檢查支援某些公共計劃的經濟數據有否欺瞞之處。1992年,Mark J. Nigrini便在其博士論文」The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies.」(Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992.)提出以它檢查是否有偽帳。

推而廣之,它能用於在會計、金融甚至選舉中出現的數據。該定律被華盛頓郵報上的一篇文章引用,該文章以此為基礎聲稱2009年伊朗總統大選中有造假。

若所用的數據有指定數值範圍,這個定律則不準確。

如何被發現的

1881年,天文學家西蒙·紐康發現對數表包含以1起首的數那首幾頁較其他頁破爛。可是,亦可以以任何書起首數頁也會較破爛這個觀點解釋。這個故事可能是虛構的。

1938年,物理學家本福特重新發現這個現象,還通過了檢查許多數據來證實這點。

2009年,西班牙數學家在素數中發現了一種新模式,並且驚訝於為何現在才為人發現。雖然素數一般被認為是隨機分布的,但西班牙數學家發現素數數列中每個素數的首位數字有明顯的分布規律,它可以被描述了素數的本福特定律。這項新發現除了提供對素數屬性的新洞見之外,還能應用於欺騙檢測和股票市場分析等領域。

專業書籍

當然,今天我們不是完全來研究它的數學證明的,如果感興趣,本文提供價值50美元的專業書籍供有興趣的夥伴進一步研究:

在本書中詳細的描述了該定律的應用,為所有法務會計師或任何分析可能已被篡改的數據的人提供了強大的新工具

PowerBI 第一數字定律 實踐

我們可以將數據量足夠的資料庫數據載入進入PowerBI來按照本福特定律進行檢驗,就可以知道:

  • 作為樣本的話,是不是真的有意義
  • 判別真實性,是否是被篡改過的

在 PowerBI 中構建本福特定律表非常簡單,如下:

Excel120 學習使用的示例數據是符合本福特定律的,這樣確保大家的學習至少在一定的真實性模擬下進行,如下:

我們對790個客戶的2773筆訂單的10000條數據分別按:

  • 數據條目本身的銷售額
  • 按訂單的銷售額
  • 按客戶的交易額

分別進行了統計,可以看出,它們三者與本福特規律形狀一致。尤其是按照不同的統計口徑居然都得到了同樣的規律,以客戶為例:

由於 PowerBI 可以使用 DAX(數據分析表達式) 進行計算,可以輕鬆處理數以萬計乃至數億數據(這些在Excel中很難做到)。而且,PowerBI現在可以無需編程就可以處理10000億條數據(詳細了解),即使是在海量數據面前我們也可以直接操作。

領悟第一數字定律及學會PowerBI讓我們看懂大數據背後的欺騙。

大家不妨自己去親自嘗試一下,看看各種號稱有數據支撐的新聞(論調)背後是不是存在欺詐。偽造數據且符合第一數字定律還是有一定操作成本的,但我們使用PowerBI辨別它將非常簡單。

總結

本文通過講述神奇的第一數字定律(本福特定律)以及通過實際案例用PowerBI實現,完成了從理論到實踐的整個過程,既不是胡吹亂侃,也不是虛無縹緲,而是切實的明確了一項非常重要的能力:藉助科學驗證偽科學

如果在大量實驗面前,你發現都不滿足這個規律,那麼這個規律是錯誤的嗎?還是我們的世界是如此的錯誤?…