論文筆記 – PRISM: A Rich Class of Parameterized Submodular Information Measures for Guided Subset Selection
Motivation
與 Active Learning 類似,Target Learning 致力於 挑選外賣更「感興趣」的數據,即人為為更重要的數據添加 bias。例如我們當前的任務目標是增強自動駕駛演算法的夜間行駛性能,我們就不能單純從未標註數據集中抽取多樣性大的數據,而是要滿足黑夜條件的數據。
Guided Summarization 與此類似,在進行 Summarization 的同時,也只抽取用戶「感興趣」感興趣的內容。例如在各種內容都有的新聞中做體育相關的摘要生成,就要給演算法一個與體育相關的 bias。
Guided Summarization 包括兩種目標:
- query-focused:抽取的內容要和 query 相關;
- privacy-preserving: 抽取的內容要 避免 privacy 相關的內容。
Analysis
提出三種指標:
- 次模條件增長(Submodular Conditional Gain, CG),越大說明差異越大:
$$f(\mathcal{A}|\mathcal{P})=f(\mathcal{A}\cup\mathcal{P})-f(\mathcal{P})$$
- 次模交互資訊(Submodular Mutual Information, MI),越大說明相似性越大:
$$I_f(\mathcal{A};\;\mathcal{Q})=f(\mathcal{A})+f(\mathcal{Q})-f(\mathcal{A}\cup\mathcal{Q})$$
- 次模條件交互資訊(Submodular Conditional Mutual Information, CMI),上面二者的結合:
$$I_f(\mathcal{A};\;\mathcal{Q}|\mathcal{P})=f(\mathcal{A}\cup\mathcal{P})+f(\mathcal{Q}\cup\mathcal{P})-f(\mathcal{A}\cup\mathcal{Q}\cup\mathcal{P})-f(\mathcal{P})$$
以上三種次模函數 CG、MI、CMI 均為單調(當其中一個作為參數的子集固定)非負,因此可以用貪心演算法求解。
1. 三種實例化方案
(1) Log Determinant
(2) Facility Location
MI 有兩種變體:FLVMI 和 FLQMI(見上圖),FLQMI 的好處在於,假如你已經選擇了一個 query-relevant 的數據,仍然會選擇其他的 query-relevant 數據仍可以使 MI 有所增長。
(3) GrPaph Cut