數據有價——數據資產定價研究初探
- 2019 年 10 月 7 日
- 筆記
數據(Data)是一項資產的觀念形成雖然時間不長,但已經成為人們的共識。成為資產的兩個基本前提條件是能夠確權和定價。確權是確定誰擁有什麼權利或權益,定價使得資產具備可轉讓性。相比其他資產類別,數據資產(Data Assets)的確權和定價的研究剛剛起步,但數字經濟的發展迫切需要對這一課題進行研究。
從數據流動的宏觀結構觀察,數字化首先形成初級的、未經處理的原始數據(Raw Data),這些原始數據是由不同的數字化設備(感測器)產生的「感測數據」(Sensor Data),經過簡單的組合或融合而形成的。這些原始數據再經過處理,形成各種各樣的數據產品(Data Products),進入數據交易市場。數據資本化進程的演進,逐漸形成包括數據資產、數據資本和數據金融的數據金融市場(如下圖)。由此可以看出,數據必然的成為可進行交易的商品、必不可少的生產要素與資產。數據資產列入資產負債表,也只是時間問題。

不是所有的原始數據都能夠加工成數據產品,能夠加工成數據產品的原始數據需要滿足一些特性。嚴格定義和測度究竟哪些原始數據能加工成數據產品還很難形成統一的標準。但目前,認為具備「大數據」特性的數據是能夠加工數據產品,並進一步能夠成為數據資產的觀點基本能夠形成共識。為避免歧義,本文所研究的數據,是指滿足「大數據」特性的這一類數據。
在當前的數據市場中,買家和賣家之間幾乎沒有透明度、資訊嚴重不對稱。這種缺乏透明度和資訊不對稱,讓參與交易的各方被誤導並最終形成「檸檬市場」。如果存在數據定價的標準模型,這個模型考慮了影響數據價值的許多方面,例如數據的年齡、樣本的可靠性以及其他因素。買家就可以進行適當的比較,以獲得合理的價格。如果數據市場採用了基於這些標準化的定價模型,市場的效率將會得到大幅改進,並促進數據科學的研究和發展。
早期的研究主要是數據資產評估。Moody和Walsh(1999)提出資訊資產作為一個有形資產進行評估,以為資訊的價值由搜集資訊成本、管理資訊成本和資訊品質共同決定。Long Staff和Schwartz(2001)運用B-S期權定價理論提出LSM方法,解決價格對歷史數據依賴性的期權定價等問題。Pitney Bowes、John Gallaugher (2009)從數據資產管理的角度,研究從數據流動過程對數據資產進行管理。提出了數據資產管理包括目標數據、數據來源、數據體積、數據品質、數據託管等方面。
這些研究,大多沒有涉及數據本身。本文主要討論數據本身的定價問題。
一、分析框架
從經濟學的視角看,這類數據無法由經濟人通過人工方式直接處理,必須且只能夠藉助某種軟體來處理。因此,對經濟人而言,數據產生的效用應該是數據和軟體共同作用的結果。
處理數據的軟體也處於不斷演進中。從最簡單的到複雜的人工智慧,軟體的發展極大的提高了數據處理的能力,同時,也對數據產生巨大的需求。為了訓練一個人臉識別AI,需要大量的採集人臉數據進行訓練;自動駕駛AI系統,無論在訓練時,還是在工作中,都需要大量的數據。
以微觀的視角,將處理數據的軟體與數據分開來考察的好處是,可以基於經濟學的理論體系,構建一個關於數據和軟體的經濟學分析框架。這個分析框架的核心要點主要是兩個:一個是將滿足一定規範條件的輸入數據無差別化處理,考察不同的軟體在處理相同輸入的情況下,其輸出的效用差異;一個是將軟體看作經濟人的智慧代理(Intellgent Agent),運用代理理論來對數據市場的交易行為進行分析。
需要補充的是,對於程式設計師和工程師而言,將軟體和數據進行分離是一件不可思議的事情。但將軟體和數據分開,是為了更好的在經濟學意義上,分別研究軟體、數據的經濟學性質。特別的,這樣的分離更便於建立數據交易和定價所需要的微觀基礎。
首先分析軟體,為此建立了一個初步的軟體經濟學分析框架。在這個分析框架中,得出的結論是:軟體本質上,代表的是某個時期,人們關於處理某類數據的全部知識和方法的總和。軟體作為經濟人的智慧代理,按照委託,處理特定的數據,向經濟人提供效用。
這個分析框架將數據作為軟體所定義的輸入空間和輸出空間的子集【定義1】。數據從一個層級「流動」到上一個層級,驅動數據流動的動力是數據的價值(分析框架示意圖如下)。


本文後續的討論,為了將研究對象聚焦在數據上,假設經濟人都使用相同的軟體,但輸入數據是有差別的。【假設1】
對經濟人而言,擁有軟體

,軟體成本為

。輸出數據的預期效用

大於輸入數據的效用

和軟體使用成本,經濟人才會考慮購買輸入數據,即

【條件1】。

對於任意兩個輸入數據子集,

和

,通過同一軟體

處理後的對應輸出為

和

。如果期望效用

大於

,那麼很合理的結論是經濟人願意為數據

付出比數據

更高的價格。
對任意輸入數據子集

,事實上面臨兩類情況:a)這個輸入數據子集經過軟體的處理,在輸出空間上沒有輸出;b)這個輸入數據子集經過軟體的處理,能夠在輸出空間上得到輸出數據。顯然,在a)情況下,沒有人願意為這個數據付錢;在b)情況下,只要滿足【條件1】,數據就會有價值。
既然這些輸入數據子集都滿足「輸入數據規範」,為什麼還存在得不到輸出的a)情形呢?
用一個形象的類比來說明:將軟體看作是一個秤,要秤的東西是輸入空間的數據,秤的重量刻度表是輸出空間。我們將某些數據放在稱上時,能夠秤出重量的,可以從刻度表上讀取數值;不能稱出重量的,就無法從刻度表讀取數值。(下圖示意)

為數據構建什麼樣的度量,直接影響和決定了輸出數據。由此可以得出結論,導致數據效用差異的原因是數據內蘊的,這些差異必須通過建立某種度量來區分。而這些度量本身,也自然的成為數據定價的基礎。
那麼這些度量是如何構建的呢?
二、數據的度量
數據的度量(Metric)是研究數據交易、定價以及其他經濟性質的起點。
為了建立數據的度量,我們首先需要了解數據的數學結構。為此,引入如下三條公理:對於輸入空間的數據

,
【公理1】

是一個集合,具有一些屬性
(Attribute)。
【公理2】這個集合是可拓撲的
(Topologized)。
【公理3】集合的數據是由多種感應數據組合和融合的,具有異質性(Heterogeneous)。
由以上公理,我們就可以建立數據的數學結構和度量,並進行計算和分析。
數據的屬性是複雜多樣的,人們可以根據需求選擇一些屬性來對數據進行計算和分析。因此,不同的軟體被用來處理具有不同屬性的數據。為了建立標準的模型,需要對這些屬性進行規範化要求,由此就形成了「數據規範」。將數據標準化、規範化是進行商品化(Commditzation)的前提。
NIST提出了一個數據屬性的層級關係模型(見下圖),可以更好的理解數據內蘊的層次結構。

數據屬性在每個層級都有其對應的、可以定性或定量的參數化(坐標)表示(每個屬性可以看作為一個坐標)。上述三條【公理】使得可以對具有上述複雜層級結構的數據,建立「等價的」數學結構,有了恰當的數學結構,就能夠很好的運用成熟的數學方法來進行分析和計算。目前主要有兩類數學結構:一種是流形;一種是拓撲。無論那種數學結構,起點都是要找到一種合適的度量。
數學上,度量是指對於非空集合

中任意的兩個元素

,一個能夠滿足下面三個性質的距離函數

:
1)

,而且等號成立當且僅當

;
2)對於任意兩點

,

;
3)對於任意三點

,

。
歐幾里德距離函數

是最常見的度量,以此得到2維歐氏空間

。推廣到

維,得到維歐氏空間

。除了歐幾里德距離函數,根據應用場景不同,還有很多距離函數:例如漢明距離、曼哈頓距離、車比雪夫距離等。不同距離函數是將數據的屬性進行參數化(坐標)表示,進行計算,從而實現諸如分類、聚類等目的。
將度量的概念推廣到流形的時候,就形成了黎曼度量

的概念。簡單的說,為了計算流形中任意兩點的距離,需要黎曼度量來決定無窮小距離

,它的形式可以寫為:

。這些無窮小距離逐段相加,就可以計算出路徑的長度,而這個長度就可以定義為兩點之間的最短距離。
黎曼度量是一大類度量的統稱。例如,地球上,從任意一點A到B的最短距離是它們之間測地線的長度;Wasserstein距離是概率密度函數空間中的黎曼度量。對於任意給定的空間,有很多可能的黎曼度量。如何選擇在某方面「最好」的黎曼度量一直是數學上的重大主題,這也是當前挖掘數據價值的主要來源之一。
上述度量構造方法在具有很大異質性的數據集合中,暴露出很多缺陷。人們逐漸認識到「距離函數」的局限性,很多數據集本身就不存在「距離」這種結構,或者無法構造出類似「距離」的結構。採用拓撲學的方法和工具來處理這些數據就成為必要的手段,由此發展出了計算拓撲學(computing topology)。拓撲的方法是分析數據集的拓撲性質,進一步的通過計算拓撲不變數,例如洞、環等(也是一種度量)來對數據集進行比較、分類和預測(示例如下圖)。

通常可以在特定的任務下,通過選擇數據的屬性來人工的構建度量。然而這種方法需要很大的、有時候甚至很高端的人力資源投入。同時,由於存在人為因素,也可能對數據的改變非常不魯棒。採用機器學習的方式,根據不同的任務來自主學習出針對某個特定任務的度量。這種方法極大的擴展了數據的度量方法,目前已經構建了幾十種度量,而且還在不斷增長中。
對於一個數據集合,往往採用多種度量,不同度量經過軟體的處理會得到各自的數值。度量

和對應的值

描述了數據的特徵,稱之為特徵空間

。數據的這些特徵,軟體最終將其表示為經濟人能夠理解和使用的資訊,就產生了效用。
度量與數據價值之間的關係
輸入空間的不同數據,在輸出空間得到不同的輸出,其效用的差異是輸入數據的特徵誘導的。而這些特徵是度量的函數。由此,可以看到度量與數據價值之間的聯繫。
輸入空間的不同數據子集的價值差異的定量化,就是數據資產定價研究的核心問題。目前,業界研究了一些度量方法以及由此建立的定價模型。例如,出於對個人隱私的保護,很多學者研究了隱私數據度量的方法及基於隱私度量的數據定價模型;基於微觀市場一般均衡機制的價差度量,建立了私人數據定價模型;一些大數據交易所和平台制訂了包括數據品質評價指標、數據效用指標等在內的度量指標體系,並以此建立了包括協議定價、競價等多種數據定價機制。
數據價值的發現和計量是通過度量來實現的,而度量的構建有著嚴格的數學基礎。因此,建立標準的定價模型是可行的。
三、數據資產定價
當前數據資產交易通常由賣方推動,買方對於將要購買的數據的資訊知之甚少。資訊的這種不對稱導致定價缺乏透明度,持續損害賣方利益,這就會形成典型的「檸檬市場」。由此,建立具有標準化定價模型的數據市場是非常必要的。
考察一種簡單的情形:一個滿足「輸入數據規範」的所有數據構成的集合

,給定一組度量

,構成輸入空間

。對於其中的兩個子集

和

,我們需要建立一個模型,能夠根據其各自的度量值進行定價。
最基本的是權重法:對於任意度量

,可以根據每個度量對數據價值的貢獻權重分配每一個度量相應的權重

。然後根據其度量值分別計算後,進行定價。
例如,我們選擇三種度量和固定權重計算兩個數據的價值。(下圖)

這種方法比較簡便和便於計算。度量是定量的,也可以是定性的。這種方法存在的問題和爭議的地方包括度量的構建和權重分配的優化。解決的辦法主要是依靠市場的交易數據的積累和回饋,尋求一種再調整和優化的機制。這種定價方式適合場外市場交易。
從數據的層級結構(NIST)考察,可以發現不同層級的數據對於整個數據集的價值貢獻是不同的。大數據科學揭示出來的一個顯著的特性就是,高層級數據包含更豐富的資訊,因此對於數據價值的貢獻也更多。由此,可以建立一個基於數據層級結構的價值樹(Value Tree)模型:高層級的數據具有更高的權重,價值在不同層級的分布是不均勻的(示意圖如下)。這種定價方法,需要確定價值在不同層級的分布情況。這方面的定性研究已經取得一些進展,但定量的研究還處於起步階段。

如果存在一個有效的數據市場,那麼可以通過交易來定價。有效的數據市場是指對於市場上交易的數據資產,有一個信任中介,有效的解決了資訊不對稱的問題。由於數據的特殊性,這樣的數據市場需要構建基於區塊鏈的數據交易基礎設施。這些基礎設施可以滿足買賣雙方對擬交易的數據資產的資訊透明度以及信任問題。由於區塊鏈的一些顯著的特點和優勢,它能夠為交易各方提供數據來源、數據品質以及其他數據屬性可信的、可靠的和不可刪改的資訊。因此,「鏈上的數據交易」會成為數據交易的主要方式。
基於鏈上的數據交易的主要方式有兩種:1)點對點;2)Token化。
點對點的交易是買賣雙方依據鏈上的規則來直接進行交易。定價的依據可以參照上述的模型。
Token化的交易是將標的數據Tokenization後的一種間接交易方式。交易各方不再直接交易數據,而是交易代表數據的Token。數據的定價反映在Token的價格上。這種方式的好處是,不僅將數據的真正買賣雙方引入公開市場,也引入了投機交易者,從而通過市場機制更好的定價。Token的設計可以是權益、也可以是期權。由此,可以派生出很多不同數據權利產品的價值發現工具,有利於更好、更公允的定價。
Token化交易的另一個顯著的優勢是,可以解決不完全資訊條件下的數據資產定價。主要原因是,由於認知差距,人們還無法對數據層級價值分布以及不同參數對價值貢獻的掌握的非常準確。通過Token化,可以將未知的部分(風險)通過公開市場交易進行轉移,從而有效的獲得合理的、公允的定價。
由於雲計算、物聯網以及數據時效性的原因,數據市場的交易將越來越呈現實時性、高頻率以及高頻次。數據市場的交易的時間按毫秒計算、每次交易從發起到完成在秒級計算。同時,交易發起的頻次非常高,每秒鐘可能就會有高達幾千次的交易發起。更為顯著的是,交易參與方不再是人類,而更多的是智慧代理。買賣雙方都是機器,可以遇見數據市場的大多數交易都是M2M(Machine To Machine)的。
就如同當今的證券市場,超過80%的交易都是由演算法驅動的程式或Robo完成的。一份研究報告指出,比特幣市場上超過90%的交易都是Robo完成的。這些Robo交易者的策略以及交易行為,將顯著的影響市場的價格和波動。特別是擁有更多自主AI演算法的Robo交易者參與到市場中來的時候,我們還面臨很多未知的問題。
這將是一種全新的交易環境。區別於我們已知的定價模型,這樣的交易環境,其定價機制以及理論都尚待進一步的研究。