500頁開放書搞定概率圖建模,圖靈獎得主Judea Pearl推薦
- 2019 年 10 月 10 日
- 筆記
500 頁圖模型巨著,從圖、概率圖、統計和因果推理帶你縱覽神奇的圖模型。
對因果推理感興趣的讀者想必對圖靈獎得主 Judea Pearl 並不陌生,他的《The Book of Why: The New Science of Cause and Effect》詳細闡述了自己在因果推理領域的研究成果,深受中國外讀者的歡迎。近日,這位大牛在 Twitter 上推薦一本新書——《Handbook of Graphical Models》。
書籍鏈接:https://stat.ethz.ch/~maathuis/papers/Handbook.pdf
該書由多位世界知名的統計學家合作完成,整理了圖模型自上世紀 80 年代誕生以來的發展脈絡,可以為傳統數據科學工作者學習因果建模提供一份有價值的入門材料。

該書由 Marloes Maathuis(蘇黎世聯邦理工學院統計學教授)、Mathias Drton(華盛頓大學統計學教授)、Steffen Lauritzen(哥本哈根大學數理統計教授)、Martin Wainwright(加州大學伯克利分校統計學、電子工程與電腦科學教授)以及多位貢獻者合作完成。

本書的主要作者(從左至右:Marloes Maathuis、Mathias Drton、Steffen Lauritzen、Martin Wainwright)。
圖模型是什麼?
圖模型是一種與圖相關的統計模型。圖的節點對應感興趣的隨機變數,邊編碼變數之間允許的條件依賴。基於圖模型的因式分解特性便於使用多元分布進行易於處理的計算,使得該模型成為許多應用中的有用工具。此外,有向圖模型容許直觀的因果解釋,已經成為因果推理的基石。
為什麼要讀這本書?
雖然目前已經有很多關於圖模型的優秀書籍,但這一領域發展得如此之快,單個作者很難覆蓋其全部內容。而且,圖模型本來就是跨學科的,其成果來自多個學科,如統計學、電腦科學、電氣工程、生物學、數學和哲學。通過介紹這些領域領先的研究成果,這本新書可以讓我們看到圖模型的當前發展狀況。
書中寫了哪些內容?
全書共分為 5 大部分,包含 21 個章節:
- 條件獨立性和馬爾科夫性質
- 因式分解概率分布,並計算
- 統計推理
- 因果推理
- 應用
第一部分介紹了與圖模型相關的基礎知識,包括圖如何編碼隨機變數之間的條件獨立性(變數聯合分布的因式分解)。
第二部分講如何基於特定圖模型進行高效計算,重點解釋了相關因式分解特性的利用。
第三部分將重點轉到統計推理問題,如學習圖和從可用數據中估計相關參數。
第四部分是關於有向無環圖的因果解釋。相關章節概覽了因果推理的圖方法基本概念,同時還討論了一些統計問題,如從數據中學習有向無環圖。
最後一部分介紹了圖模型在司法科學、生物學等學科中的應用。
了解了這本書的基本資訊之後,我們來看一下書中的詳細內容。
圖的定義
整本書都是圍繞「圖」這一數據結構,而圖模型將圖中的節點視為隨機變數,將連接的邊視為獨立性關係,那麼圖模型也就成為了一種強大的建模工具。
作為圖模型的基礎,我們先要了解「圖」的標準定義,因此我們可以看看在這本書中 1.6 小節到底是如何定義圖的。
這一章節介紹了關於圖最基本的概念。現在若定義 N 為有限非空索引集的通用符號,其元素對應於隨機變數,並且在圖模型中以節點的方式出現。通過 N 定義的圖可以理解為將 N 作為節點集合,本章考慮的圖沒有多重邊,因此它們通過邊可以分為無向圖和有向圖。

註:上面是原文對無向圖和有向圖的標準定義,其中無向圖指節點間的邊全是沒有指向的,而有向圖指節點間的邊是有指向的。
給定在 N 上定義的圖 G(無向圖或有向圖),且有非空節點集 T ⊆ N,那麼由 G 誘導出的子圖(induced subgraph)T 可以表示為 G_T。具體而言,G_T 表示在集合 T 上的圖,其中所有的邊即 G 中 T 個子節點間的邊。
圖 G 在 N 上的遊走(walk)可以表示為從 i_1 到 i_k(k ≥ 1)的節點序列,序列中每一對相鄰的節點在圖 G 中都有一條邊相連。遊走的端節點為 i_1 和 i_k,如果 k ≥ 3,那麼其餘的節點可以表示為 i_l(1 < l < k),它們都是內部節點。遊走過程中邊的數量 k – 1 被稱為遊走的長度。
如果 i_1, …, i_k 是唯一的,那麼該遊走就稱為圖 G 的徑(Path);如果 k≥ 4,且滿足 i_1 = i_k、i_1, . . . , i_k−1 是唯一的,那麼這樣的遊走可以稱為環(Cycle)。在有向圖 G 中,一條徑或者一個環之所以稱為有向,是因為對於所有內部節點 l=1, …, k-1,都有 i_l → i_l+1。

圖 1.3:兩種無向圖。
如果有向圖 G 不包括有向環,那麼它按照慣例就可以稱為有向無環圖(DAG)。DAG 有一個眾所周知的等價描述,即如果有向圖 G 能枚舉節點 i_1, …, i_|N|,且它們的指向是一致的,那麼就可以稱為 DAG。即如果圖 G 中 i_l → i_k,那麼有 l < k。
另外一種重要的概念是弦圖(無向圖),弦圖滿足對於節點至少為 4 的環,它都至少有一條弦。也就是說,環中節點的邊,並不是構成環的邊。一種非常著名的等價定義方法可以表示為,一個弦圖 G 指的是它的團可以以序列的方式組織 C_1, …,C_m(m ≥ 1),它滿足 running intersection 屬性:對於所有 k ≥ 2,存在 l < k 以令

。
目錄
最後,讓我們看看整本書的目錄和主題(滑動目錄向下翻頁)。







