基於兩維語義的證據推理方法研究
1. 為什麼需要進行識別框架間的轉化
由於問題的不同和證據處理人員知識背景及偏好的不同,同一個證據處理人員在對不同問題,不同的證據處理人員針對同一個問題,都可能構建多個不同的識別框架。這些識別框架中包含的元素的數目、元素含義等方面可能有所差異,識別框架之間的邏輯關係也可能不同。
而證據推理方法需要在同一個識別框架下對多批證據進行融合,為此,需要對多個識別框架進行分類,並確定識別框架等價及其相互之間的轉化方法。
2. 識別框架的分類
0x1:識別框架的分類
一般來說,識別框架的類型不同,資訊處理方法也不同。每種識別框架就代表了一種看待目標對象的抽象視角。
就單個識別框架來說,根據識別框架中元素的不同,可以將識別框架分為多種類型。
1、平行框架
設 Θ1,Θ2,…..,Θn 為 n 個不同的識別框架,若這 n 個框架分別從不同的角度處理同一個問題,則稱這 n 個框架為平行框架。
例如,在風險評估時,甲對某個指標比較熟悉,他對該指標所反映的風險程度構建識別框架:
Θ甲 = {低、較低、中、較高、高}
並給出了相應的信度函數。
而乙對該指標的熟悉程度相對較弱,構建的風險程度識別框架為:
Θ乙 = {低、中、高}
也給出了相應的信度函數。
可以看出,由於專家自身知識背景和個人偏好的不同,對同一個問題構造的識別框架也不同,此時的識別框架 Θ甲 和 Θ乙 為兩個平行框架。
一般來說,平行框架是針對同一個問題不同方面,或不同資訊源針對同一問題某個方面而構建的,其特性和概念是相容的,通常有公共的精細框架,故平行框架是相容框架。
筆者思考:
對於安全數據分析來說,一項基礎工作就是所謂的日誌採集,例如進程啟動日誌、進程網路外連日誌、進程寫文件日誌、文件落盤日誌。這些不同的日誌代表了當前系統行為的一個描述切面。從識別框架的角度來看,基於不同的日誌可以抽象為不同的離散狀態集(集合中的每一個狀態代表了一個系統狀態描述)。
2、遞進框架
設 Θ1,Θ2,…..,Θn 為 n 個不同的識別框架,若這 n 個框架中後一個識別框架中的元素用來修飾(說明)前一個識別框架中的元素。
- 第一層識別框架用於抽象描述待處理問題;
- 第二層識別框架用於描述第一層識別框架的可信度;
- 此後類推..
則稱這 n 個框架為 n 維遞進框架。
例如,在科學基金立項評審的同行評議表中,「綜合評價」和「熟悉程度」可以看做一個兩維遞進識別框架。
- 「綜合評價」是第一層識別框架,Θ1 = {優、良、中、差}
- 「熟悉程度」是第二層識別框架,Θ2,用來修飾說明專家給出的「綜合評價」的不確定程度
3、混合框架
設 Θ1,Θ2,…..,Θn 為 n 個不同的識別框架,若這 n 個框架中並列框架和遞進框架並存,則稱這 n 個框架為混合框架。
例如,在科學基金立項評審的同行評議表中,「綜合評價」、「資助意見」、「熟悉程度」三個框架本質上是一組混合框架,
- 「綜合評價」、「資助意見」是兩個平行框架
- 「熟悉程度」是用來修飾「綜合評價」和「資助意見」的
在多個識別框架的構建過程中,平行框架通常是針對決策問題屬性的特點或決策者根據自己的知識背景和偏好而構建的;而遞進框架通常是用來反映決策主體與決策過程特徵資訊的,往往反映了決策者給出的決策資訊品質。
3. 識別框架的等價性
0x1:識別框架等價定義
為了便於將不同識別框架上的資訊進行融合,一般要求將不同識別框架上的資訊轉化到同一個識別框架上,為此,需要對不同識別框架的等價性和評估等價的概念進行界定。
設兩個識別框架分別為 Θ = {θn,n=1,2,….,N1} 和 Ω = {ωn,n=1,2,….,N2},若對,都存在唯一的 ωn 與之等價,記為:
反之,若對,都存在唯一的 θn ∈ Θ 與之等價,則稱識別框架 Θ 和 Ω 等價(一正一反都成立),記為:
例如,在對汽車的發動機的雜訊進行評價時,存在兩個識別框架,
- 識別框架 Θ = {非常吵、吵、一般、靜、非常靜}
- 識別框架 Ω = {差、較差、中、良、優}
兩個識別框架的元素,都彼此存在唯一的等價元素,則識別框架 Θ 和 Ω 等價。
顯然,若識別框架 Θ 和 Ω 等價,則有 N1 = N2。
設 Θ 和 Ω 為兩個等價的識別框架,且在兩個識別框架下的基本可信度分配分別為:
則當且僅當 N1 = N2 且 β1,n = γ2,n 成立時(n=1,2,…,N1),稱兩個基本可信度分配 m1 與 m2 等價,記為
0x2:識別框架元素間概率等價
這裡需要注意的是,實際情況中,完全等價的識別框架是比較少見的,而是彼此錯位的,即彼此相容而又不完全一一對應(N1 ≠ N2),且一個框架中的元素(θ ∈ Θ)並不一定恰好對應於另一個框架中的某個元素(ω ∈ Ω),而是以一定程度對應於另一框架中多個元素。
為此,這裡給出識別框架元素間概率等價的概念定義。
若 θ1,n ∈ Θ 以 α2,l(l=1,2,….,N2) 的程度對應於 ωl ∈ Ω,其中
0 ≤ α2,l ≤ 1,,即滿足概率完備性
則稱框架 Θ 中的元素 θ1,n 與框架 Ω 中的元素集 {(ωl,α2,l),l=12,….,N2} 以概率等價,記為:
在多屬性群決策中,上述等價關係通常是由決策者提供的,其中意味著元素 θ1,n ∈ Θ 的效用和 {(ωl,α2,l),l=12,….,N2} 的期望效用
相等。
若對,均有
;反過來,對
,均有
,則稱識別框架 Θ 和 Ω 以概率等價,記為:
0x3:識別框架之間等價關係的邏輯分類
因此,從邏輯關係上來說,識別框架可以分為:
- 平行框架
- 遞進框架
- 混合框架
從轉化關係(等價關係)來說,有
- 粗化
- 細化
- 概率轉化
4. 兩維語義資訊的表示及融合方法
傳統的基於單層識別框架的決策在資訊的表示上,未能反映決策者提供的決策資訊的品質,因此資訊對多個意見的合成具有重要作用,直接影響了決策品質。也就是所謂的訓練樣本的純度和豐富度決定了模型的最終效果。
因此,有必要增加一維資訊反映專家決策知識和行為特徵,並對原有決策資訊進行修正,以更加精確有效地利用專家資訊。
我們本章來討論兩維語義資訊的語義表示及集結方法。
0x1:兩維語義資訊的內涵
設 Hn(n=1,2,…,N) 和 St(t=1,2,…,T) 分別為預先定義好的語言評價集 H 和 S 中的第 n 個和第 t 個元素,其中 Hn 和 St 滿足以下幾個特性:
- 有序性:當 i > j 時,
,
-
極大化運算和極小化運算:當
時,有 max(Hi,Hj) = Hi,max(Si,Sj) = Si,min(Hi,Hj) = Hj,min(Si,Sj) = Sj
對一個判決問題,決策者同時構建了兩個識別框架(語言短語集)H = {H1,H2,….,HN} 和 S = {S1,S2,….,ST},使用了一、二兩個維度識別框架中的評價資訊描述自己對於某一事物的評判。
- 其中第一維識別框架中的評價資訊 Hn(n=1,2,….,N) 是用來描述待決策對象屬性的,是對決策對象屬性的評價
- 第二維識別框架中的評價資訊 St(t=1,2,….,T) 是用來反映決策者知識證據的屬性特徵的,是對第一維評價資訊 Hn 品質的評價
這種由兩個維度形成的語言評價資訊 (Hn,St) 稱為兩維語義評價資訊。
例如,在國家自然科學基金立項評估中,同行評議意見表中預先構建了兩個語言評估框架:
- 專家科研項目品質的評價:Hn = {H4(優),H3(良),H2(中),H1(差)}
- 反映同行專家對自己給出品質評價 Hn 的評價:S = {S3(熟悉),S2(較熟悉),S1(部分熟悉)}
同行評議專家提供評價資訊 (Hn,St)(n=1,2,3,4; t=1,2,3) 即為兩維語義評價資訊。
在兩維語義評價資訊中,第二維評價資訊是用來描述第一維評價資訊品質的,通過第二維語義評價資訊,不僅能夠反映決策者評價資訊的品質,同時也能反映決策資訊的不確定和不完全程度。
例如,同行評議專家提供評價資訊 (優,較為熟悉) 即為兩維語義資訊的一個實例,
- 第一維評價資訊」優「是評議專家對科研項目的評價
- 第二維評價資訊」較熟悉「反映了評議專家對自己給出的評價」優「的不確定程度,同時也反映了評議專家對該科研項目的未知程度(不完全程度)
0x2:兩維語義資訊的語義表示
由於兩維語義資訊不僅能夠反映決策者評價資訊的品質,同時也能反映決策資訊的不確定和不完全程度。
同時我們知道,證據理論用信度函數表示證據,信度函數滿足半可加性,它比概率函數能更恰當表示資訊中的」不確定性「和」不知性「。因此,兩維語義資訊的語義,可用信度函數來表示,即可用證據理論中的證據體來表示兩維語義評價資訊。
1、兩維語義的點信度語義表示
設 H = {H1,H2,….,HN} 和 S = {S1,S2,….,ST} 分別為一、二兩個維度上的語言集,將語言集 H 視為證據理論中的識別框架,則兩維語義資訊 (Hn,St) 的語義可通過映射 f 表示為證據體:
其中,βtk 代表一個點信度,表示兩維語義資訊 (Hn,St) 支援 Hk ∈ H(k=1,2,…,N) 為真的置信度,且滿足:
,即信度分配函數的完備性
則稱 f 為兩維語義的點信度表示函數。
2、兩維語義的點信度語義規則
兩維語義的點信度表示函數可由多個專家基於領域經驗得出,也可以通過數據驅動的方式從大樣本中得出(例如神經網路)。
一般來說,兩維語義的點信度函數遵循以下規則:
- 不完全資訊規則:第二維語義中對第一維資訊品質的評價越高,決策者的評價資訊中含有的不完全資訊程度就越低,即若
,則
-
信度單峰規則:(Hn,St) 轉化成的證據體 {(Hk,βtk),k=1,2,….,N},其信度應以 Hn 為單峰,且距離 Hn 越遠,其信度就越小。即對
,有
,且若 | i-n | < | j-n |,則有 βt(Hi) > βt(Hj),其中 i,j ∈ {1,2,….,N}
3、兩維語義的區間信度表示
兩維語義的點信度表示法要求給出兩維語義支援各語言評價等級的精確置信度,這對決策者的領域知識或者有監督樣本集的要求較高。
但是由於客觀事物的複雜性(相關性不明顯,或者偽相關性)和人類自身知識的局限性,兩維語義的區間信度比精確的點信度表示更容易獲取。
針對兩維語義資訊 (Hn,St) 的語義,假設專家用映射 g 表示區間信度:
其中,代表一個區間信度,表示兩維語義資訊 (Hn,St) 支援 Hk ∈ H(k=1,2,…,N) 為真的置信度,且滿足:
,同樣需要滿足信度分配函數的完備性
則稱 g 為兩維語義的區間信度表示函數。
類似的,兩維語義的區間信度表示法也同樣遵循」不完全資訊「和」信度單峰「語義規則。
0x3:兩維語義資訊的比較
由兩位語義資訊 (Hn,St) 的信度表示法可知,兩維語義資訊不僅反映了決策者對待處理問題的評價,同時反映了決策資訊的品質(包括決策資訊的不確定性和不完全性),因此對兩維語義資訊進行比較,關鍵是如何處理不確定和不完全資訊。
對於兩維語義的點信度表示法,可以採用兩種處理方法:
- 點期望得分法
- 區間期望得分法
對於兩維語義的區間信度語義表示法,可利用基於連續的有序加權平均運算元(continuous ordered weighted averaging,C-OWA)運算元的區間信度的點化法,將區間信度轉化為點信度,再進行比較。
1、點期望得分法
點期望得分法將兩維語義中的第一個維度上的語言短語量化為得分,通過兩維語義的證據體表示中的信度計算兩維語義資訊的加權平均得分。
設第一個維度上的語言集 H = {H1,H2,….,HN},且(i < j),(Hn,St) 的點信度語義為
。假設語言短語 Hi 的得分為 hi,滿足 hi < hj(i < j)。與加權平均法類似,可定義兩維語義資訊的期望得分 E[(Hn,St)]:
由證據體表示的兩維語義資訊,通過期望得分化為得分值,從而可將多個兩維語義資訊進行比較、排序。這種方法計算簡單,但缺點是處理過程有損失。
2、區間期望得分法
區間期望得分法首先也將兩維語義中的第一個維度上的語言短語量化為得分,當 βt(H)>0時,為了便於多個兩維語義資訊比較,將這部分信度分別賦予最小分值和最大分值,由此,產生一個得分區間。
設第一個維度上的語言集 H = {H1,H2,….,HN},且(i < j),(Hn,St) 的點信度語義為
。假設語言短語 Hi 的得分為 hi,滿足 hi < hj(i < j)。
當時,說明由於人們對問題的不確知而將這一部分信度賦予了整個框架。為了便於比較,將這部分信度分別賦予 min(H1,H2,…,HN) = H1,max(H1,H2,…,HN) = H1。則兩維語義資訊 (Hn,St) 的最小、最大期望得分分別為:
從而可得兩維語義資訊 (Hn,St) 的期望得分區間:
[minE[(Hn,St)],maxE[(Hn,St)]]
這種信度分配方法很容易理解,因為由於資訊的不完全或人們認識能力的局限性,信度 βt(H) 不知該分配到哪個評語上,但無論這部分信度如何分配,兩維語義資訊 (Hn,St) 的期望得分均落在上述區間中。
顯然,當 β1(H) = 0 時,上述區間退化成一個點;而當 βt(H) = 1 時,即當人們對問題完全無知時,該區間就退化為 [h1,hN]。
根據區間數的可能度公式可對多個兩維語義資訊進行比較、排序。
相比點期望得分法,得分區間法計算較複雜,但結果更精確,處理過程中信心損失較少。
0x4:兩維語義資訊的集結
根據兩位語義資訊的語義表示,對多個兩維語義資訊的集結轉化成了對多條證據的集結。
目前,證據的融合方法主要有:
- Dempster合成規則
- 改進的衝突證據合成規則
- 證據推理運算元
Dempster合成規則在處理高度衝突的證據時,其結果往往有悖常理,例如著名的Zadeh悖論。
改進的衝突證據合成規則從不同的角度對Dempster合成規則進行了改善,並且在某些領域取得了較好的應用,但處理的衝突證據都有一定應用背景和使用哦範圍限制,且在處理不同權重資訊的證據方面也存在一定的困難。
而證據推理方法是由Yang等人在1994年提出來的,後又對此進行了完善和發展。該方法應用權重修正證據源,並在合成過程中對未分配的信度進一步細分為由權重引起的不完全和由資訊源給出的判斷不完全兩部分。證據推理合成規則在處理不同權重的多條證據的融合方面具有獨特的優勢,且能很好地處理高度衝突的證據合成問題。
由於不同的兩維語義資訊的品質不同,其在資訊融合的重要性也不相同,即不同兩維語義資訊的權重不同,且多個兩維語義資訊也存在高度衝突情況。因此,我們通過引入證據推理運算元對多個兩維語義資訊進行融合。
設有 p 個資訊源給出的兩維語義評價資訊為:
其點信度語義表示為:
其中,為第 i 個資訊源 Ei 支援評價對象評為等級 Hn 的置信程度,且滿足:
假設權重向量為:
滿足:
則可應用證據推理運算元將多個兩維語義資訊進行集成。
綜合 p 個兩維語義評價資訊後,其集成結果仍為證據體,可以表示為:
0x5:算例分析
假設預先設定的針對評價對象的語言評價集 H = {H1,H2,H3,H4} = {差,中,良,優},專家對評價對象的熟悉程度的語言評價集為 S = {S1,S2,S3} = {熟悉,較熟悉,部分熟悉}。
現有五位專家 Ei(i=1,2,3,4,5),針對某一個評價對象給出的兩維語義評價資訊為:
- E1 = (H1,S2)
- E2 = (H2,S2)
- E3 = (H2,S3)
- E4 = (H3,S1)
- E5 = (H2,S2)
假設專家採用兩維語義的點信度表示,且給出點信度語義表示如下表所示:
根據上表中兩維語義的點信度表示,5位專家給出的兩維語義評價資訊的點信度可分別表示為:
設5位專家的權重向量為(根據專家對專家的了解這一領域知識得出):
則由證據推理運算元,將5位專家給出兩維語義資訊進行集結為:
即綜合5位專家的意見,認為該評價對象為」優「、」良「、」中「、」差「的可信度分別為:19.85%、35.21%、27.54%、1.26%、還有另外16.14%的信度不知道被評為哪個等級。
Relevant Link:
《證據推理理論方法及其在決策評估中的應用》
5. 基於兩維語義的群體決策方法
0x1:基於兩維語義的專家組合賦權法
影響專家評價準確性的因素主要有兩個方面,
- 一方面是專家對決策對象的熟悉程度(或了解程度),可通過專家對自己做出的評價進行自評價,其體現的是專家對所做評價資訊可靠性的自我評估(簡稱自評)
- 另一方面是專家的寬嚴尺度(評價標準),其體現了專家評價的主觀偏好,需要與其他專家比較進行評估(簡稱他評)
一般來說,專家對決策對象熟悉程度越高,評價的準確性就越高;對同一個決策對象的評價與其他專家評價的差異性越小,該專家對評價標準掌握的情況的情況可能就相對越好。
1、自評標準
2、他評標準
與其他專家評價的差異性,可以通過對同一個決策對象各專家評價資訊的距離或相似度來度量。
假設第一維度(對決策對象的評價)的評語集為 H1,H2,…..,HN,分別賦值為 h1,h2,….,hN,滿足當 i ≥ j 時,hi ≥ hj,則評價資訊 Hi 和 Hj 的距離可定義為:
顯然,di,j 滿足距離的基本性質:
- 0 ≤ di,j ≤ 1
- 當且僅當 hi = hj 時,di,j = 0
- di,j = dj,i
- di,j ≤ di,k + dk,j
假設有 p 個專家對某一決策對象進行評價,則可以計算出專家們提供評價資訊之間的兩兩距離,可用一個距離矩陣表示:
定義評價資訊 Hi 和 Hj 之間的相似性測度 Sim(Hi,Hj) 為:
其結果可以用一個相似矩陣表示:
兩個評價資訊距離越小,它們的相似性程度就越大,該評價系統中對評價資訊 Hi 的支援度 Sup(Hi) 為:
從公式中可以看出,支援度體現了某個專家的評價資訊 Hi 在同行中的累計相似程度,通俗地說就是群體共識。
將支援度歸一化後可得評價資訊 Hi 的可信度 Crdi:
可將 Crdi 作為專家 Ei 提供評價資訊的一個權重 ui,即權重 ui 為:
另外,第二維度的評價值 St 是對第一維評價資訊品質的評價,可將第二維度的評價值 St 進行量化。假設專家 Ei 給出的第二維度的評語的量化值為 qt,則可賦予該專家評價資訊的另一個權重 vi 為:
為了全面反映專家評價資訊的重要性,此處利用專家給出的兩維語義評價資訊,根據每個維度的評價資訊分別對專家進行賦權,再採用乘法合成法對專家評價資訊進行組合賦權,專家評價資訊的最終權重 wi 為:
筆者提醒:
這和之前討論的基於證據聯盟的證據融合方式,其原理是類似的。
0x2:決策步驟
假設有 M 個備選方案 aj(j=1,2,…,M),專家 Ei 對方案 aj 給出的兩維語義評價資訊為:
針對多個專家給出的兩維語義評價資訊,可以根據以下步驟進行決策:
- 步驟1,確定專家的權重。假設專家 i 給出的兩維語義評價資訊 Ei = (Hki,Sti),對專家進行組合賦權,可得專家的權重 wi(i=1,2,…,p)
- 步驟2,給出兩維語義資訊的點信度或區間信度語義表示,在不完全資訊規則和資訊單峰規則的前提下,由多個專家經過反覆斟酌(或者由數據驅動),給出兩維語義資訊的點信度或區間信度語義表示,將兩維語義資訊表示為證據體。
- 步驟3,綜合多個專家的兩維語義資訊,將轉化為多個專家的兩維語義資訊進行集結,可得每個方案的綜合評價結果,其結果仍表示為一個證據體。
- 步驟4,對多個決策方案進行排序擇優,應用兩維語義比較方法,將多個方案進行排序擇優。