郭妍彤
(四川大學計算機學院,成都610065)
數(shù)據(jù)時代的快速發(fā)展給人們的生活帶來了很多便利,可以幫助我們足不出戶的采購、交易甚至是辦理政務手續(xù),政府及企業(yè)也越來越重視對數(shù)據(jù)的管理及開發(fā)利用;但是大數(shù)據(jù)巨大的應用價值導致數(shù)據(jù)泄露事件頻出,并且人們帶來了騷擾廣告和詐騙電話等困擾?,F(xiàn)在的個人數(shù)據(jù)所有權管理混亂,個人數(shù)據(jù)所有者不但無法很好的使用個人數(shù)據(jù)來獲得利益,反而深受數(shù)據(jù)泄露之擾,導致個人用戶也缺乏了提供數(shù)據(jù)的積極性,需要數(shù)據(jù)的需求者也很難通過合法合規(guī)的渠道來獲得自己需要的數(shù)據(jù)。為此,麻省理工學院媒體實驗室Sandy Pentland教授2010年提出個人數(shù)據(jù)商店(Personal Data Store)理念,鼓勵人們貢獻和分享數(shù)據(jù)[1],并基于此產(chǎn)生了一種新的數(shù)據(jù)管理理念——個人數(shù)據(jù)銀行。個人數(shù)據(jù)銀行是指將個人數(shù)據(jù)當作一種新型的“貨幣”存儲在個人數(shù)據(jù)銀行中,建立一種大數(shù)據(jù)資產(chǎn)管理運營系統(tǒng),將個人用戶授權后的信息進行采集、清理、共享和使用,同時給個人用戶一定比例的利息作為回報。
在構建個人數(shù)據(jù)銀行的過程中,如何合理地對個大數(shù)據(jù)進行定價也是一個需要解決的問題,一個良好的定價方式可以對個人數(shù)據(jù)銀行的運行和數(shù)據(jù)的流通起到促進作用。
個人大數(shù)據(jù)最大的特點在于數(shù)據(jù)提供者的不同及數(shù)據(jù)質量的參差。個人大數(shù)據(jù)的數(shù)據(jù)提供者是許許多多不同的個人用戶,他們在授權平臺對其采集數(shù)據(jù)后,會源源不斷地制造各種不同種類、不同質量的數(shù)據(jù)。這些數(shù)據(jù)并不都有相似的數(shù)據(jù)質量,也會因為授權等級而有許多不同的差異,比如相似的個人運動中的一條跑步數(shù)據(jù),提供者A允許平臺收集地理位置信息,那么這就是一條擁有完整跑步期間軌跡信息的跑步數(shù)據(jù),而提供者B不允許收集地理位置信息,那么這就是一條只有時間、長度及速度的跑步記錄。雖然都是相似的跑步信息,但是這樣不同的數(shù)據(jù)包含了不同的價值和信息量,在個人數(shù)據(jù)銀行中所能獲得的收益也應該不盡相同。
將數(shù)據(jù)商品和以前的一般商品相比較而言,其衡量價值和價格的屬性也與一般商品有很大的差別,定價已經(jīng)不是以前“成本驅動”的定價時代了[2]?,F(xiàn)如今數(shù)據(jù)市場越來越大,人們對數(shù)據(jù)的需求也越來越多,但是數(shù)據(jù)定價方式還沒有形成統(tǒng)一的評價標準。在數(shù)據(jù)定價中,首先要將視線轉移到“價值驅動”上,正確地衡量數(shù)據(jù)的質量和價值,同時以此對數(shù)據(jù)進行差異性定價,是最需要解決的問題。其次,在現(xiàn)有的數(shù)據(jù)定價方法中,大多數(shù)都是以包為數(shù)據(jù)定價的基本單位,這樣無法區(qū)分每條數(shù)據(jù)的差距,對于每條元組來說都是一樣的平均價,這對于個人數(shù)據(jù)銀行這樣的構建前提來說,并不適合。不同的數(shù)據(jù)根據(jù)其信息量不同、價值不同、重要程度不同等差異,應有不同的價格,如果每條元組的價格一致,那么無法給個人用戶提供激勵以促進大家提供更多高質量的數(shù)據(jù)。
圖1 個人數(shù)據(jù)銀行定價總體設計
首先,我們先根據(jù)數(shù)據(jù)的結構不同,將數(shù)據(jù)分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。
在現(xiàn)在的數(shù)據(jù)流通中,格式化數(shù)據(jù)是使用最多的數(shù)據(jù),小到一條外賣訂單、大到一張醫(yī)療診斷單,其實都是一種結構化的數(shù)據(jù)。為此,我們將根據(jù)國家標準的《信息安全技術個人信息安全規(guī)范》中的分類標準對結構化數(shù)據(jù)進行劃分,在數(shù)據(jù)經(jīng)過脫敏后劃分成個人基本資料、網(wǎng)絡身份標識信息、個人健康生理信息、個人教育工作信息、個人財產(chǎn)信息、個人通信信息、聯(lián)系人信息、個人上網(wǎng)記錄、個人常用設備信息、個人位置信息、其他信息等十二類數(shù)據(jù),并對每組信息設定好已有的數(shù)據(jù)結構模式及規(guī)模,進行整理及清洗。
而其他無法被輕易收集并處理成結構化數(shù)據(jù)的個人大數(shù)據(jù),如個人的制作的視頻集、個人拍攝的地貌圖等個人用戶愿意提供的有價值的數(shù)據(jù),統(tǒng)一分為非結構化數(shù)據(jù)。
針對不同種類的數(shù)據(jù),應該有不同的定價方式。像是結構化數(shù)據(jù),因為其不同的數(shù)據(jù)元組是由不同的數(shù)據(jù)提供者所提供,所以在數(shù)據(jù)的定價中,需要能夠區(qū)分每一條數(shù)據(jù),因為根據(jù)每一條數(shù)據(jù)的價值不同該數(shù)據(jù)的數(shù)據(jù)提供者所獲得的收益也是不同的。對此,Shen[1]提出了以元組為基礎的定價方式。在這種定價方式中,數(shù)據(jù)的最小衡量單位是元組,而其具體定價主要由三個部分影響,分別是:屬性權重、數(shù)據(jù)熵和數(shù)據(jù)提供者的信譽值。
其中影響數(shù)據(jù)的因素為信息熵(q)、權重(w)及R指數(shù)(r),其對應的權重分別為α、β、γ,則滿足以下約束:
則每個元組的價格P i為:
其中P S為整個數(shù)據(jù)集分成的價格。
這種方法中使用了信息熵來衡量數(shù)據(jù)中不同數(shù)據(jù)項的信息量,用權重來衡量數(shù)據(jù)中不同類型數(shù)據(jù)的價值含量,用信譽值來衡量數(shù)據(jù)提供者的信譽值。
但是在該方法中,并沒有給出權重設計的詳細方式,所以需要根據(jù)數(shù)據(jù)分類的情況,對數(shù)據(jù)的權重進行新的劃分。我們可以將數(shù)據(jù)根據(jù)《信息安全技術個人信息安全規(guī)范》分類后,再根據(jù)每類數(shù)據(jù)中的詳細分類對個人用戶的重要性來對數(shù)據(jù)權重進行劃分。
在該方法中,數(shù)據(jù)信譽度是根據(jù)所有數(shù)據(jù)的數(shù)據(jù)售出的次數(shù)而衡量的,但是在實際應用中,數(shù)據(jù)的售出次數(shù)與數(shù)據(jù)提供者的信譽度并沒有很大關聯(lián),如果數(shù)據(jù)提供者剛好提供了售出次數(shù)多的數(shù)據(jù)類型,并不代表這位數(shù)據(jù)提供者的其他信息也是高質量的。因此,在本節(jié)設計中,將數(shù)據(jù)信譽度R值進行重新定義,如定義1,其中數(shù)據(jù)質量為數(shù)據(jù)信息熵和數(shù)據(jù)權重的加權和。
定義1如果某個用戶的數(shù)據(jù)元組至少有r條數(shù)據(jù)質量大于r,那么這個用戶的數(shù)據(jù)引用指數(shù)為R,稱為“R指數(shù)”。
在此基礎上,我們可以將數(shù)據(jù)質量M定義為如下公式:
在個人數(shù)據(jù)銀行中,數(shù)據(jù)需求者可以根據(jù)數(shù)據(jù)質量M、信息熵、權重和r指數(shù)來對數(shù)據(jù)質量進行篩選,可以給數(shù)據(jù)需求者更多樣化的選擇。
對于非結構化的數(shù)據(jù),已經(jīng)有規(guī)模的數(shù)據(jù)可以像結構化數(shù)據(jù)一樣,為其定義幾個反映其數(shù)據(jù)質量的指標,并根據(jù)數(shù)據(jù)指標對其進行數(shù)據(jù)價值的加權衡量。但是由于個人大數(shù)據(jù)的種類繁多,并不是所有的非結構化數(shù)據(jù)都可以很好地用這種方法進行,對此主要有兩種定價方式:
(1)自由定價
自由定價即是根據(jù)數(shù)據(jù)所有者的意愿自己決定數(shù)據(jù)的具體價格。這種定價方式主要由數(shù)據(jù)所有者自己決定。這種定價方式簡單、快捷,但是定價方式不透明。
(2)拍賣定價
拍賣定價是一種常用的數(shù)據(jù)定價手段,通常在數(shù)據(jù)提供者對自己提供的數(shù)據(jù)有自信的情況下會采用這種方式,因為通常情況下經(jīng)過拍賣的商品一般是相對來說罕見、稀有的商品。在網(wǎng)上進行拍賣,雖然有節(jié)省場地、參與方便、時長更自由等優(yōu)點,但是也會因為其網(wǎng)絡形式而產(chǎn)生很多問題,例如:在網(wǎng)上競拍者更容易產(chǎn)生聯(lián)系從而容易出現(xiàn)共謀的情況、有些競拍者會在拍賣結束前進行搶拍或拍賣結束后不認賬等情況,這都會對賣方和其他競拍者產(chǎn)生不利的影響。
所以在拍賣中還需要考慮到拍賣流程的安全性和私密性,需要在流程中由個人數(shù)據(jù)銀行來保證交易的不可否認性、抗共謀性、底價隱藏性和密封遞價性等特性,以保證參與數(shù)據(jù)各方的利益。
在本文中對結構化屬性提出了使用基于元組的定價方法,其中對屬性進行劃分可以根據(jù)不同數(shù)據(jù)屬性的權重對不同數(shù)據(jù)種類進行定價,比如含有精準位置的運動信息肯定會比普通的運動信息要更有價值、使用場所更多;而信息熵可以從數(shù)據(jù)的信息量來衡量數(shù)據(jù)的價值,數(shù)據(jù)的信息熵越高則數(shù)據(jù)的信息量越高;信譽度則可以從數(shù)據(jù)的提供者的角度來衡量數(shù)據(jù)價值,如果數(shù)據(jù)提供者總是提供高質量的信息,那么將有機會獲得更高的數(shù)據(jù)收益分成,將會促進數(shù)據(jù)提供者為個人數(shù)據(jù)銀行提供更多更高質量的數(shù)據(jù)。
對于非結構化數(shù)據(jù)本文提出了使用自由定價和拍賣定價的方式,自由定價和拍賣定價都是一種積累數(shù)據(jù)定價信息的方式,我們可以根據(jù)這兩種方法來收集非結構化數(shù)據(jù)的歷史價格和影響價格的因素,在同類型數(shù)據(jù)收集到一定的規(guī)模后,可以根據(jù)收集到的信息將已有一定規(guī)模的非結構化數(shù)據(jù)獨立出來,像結構化數(shù)據(jù)一樣根據(jù)影響數(shù)據(jù)質量的因素進行定價。
對于個人大數(shù)據(jù)中數(shù)據(jù)定價難的問題,提出將個人大數(shù)據(jù)分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)兩類,并對結構化數(shù)據(jù)使用基于元組的定價方式,對非結構化數(shù)據(jù)使用基于自由定價和拍賣定價的方式。