王 祥 李紅娟 丁紅發(fā)
(1.貴州財(cái)經(jīng)大學(xué),貴州 貴陽 550025;2.貴州建設(shè)職業(yè)技術(shù)學(xué)院,貴州 貴陽 551400)
隨著信用經(jīng)濟(jì)的普及,典型的個(gè)人信用記錄已經(jīng)難以滿足經(jīng)濟(jì)發(fā)展的需要,市場經(jīng)濟(jì)需要比普通的個(gè)人信用更高層級的信用平臺,以促進(jìn)經(jīng)濟(jì)的良性發(fā)展,以征信為代表的行業(yè)信用應(yīng)運(yùn)而生。
國務(wù)院于2014年發(fā)布的《社會信用體系建設(shè)規(guī)劃綱要(2014—2020年)》中指出,需要建立健全社會征信體系,并推動其在政務(wù)誠信建設(shè)、商務(wù)誠信建設(shè)以及社會誠信建設(shè)等方面的應(yīng)用。征信業(yè)的普及應(yīng)用從側(cè)面反映了數(shù)據(jù)從互聯(lián)網(wǎng)初級階段邁步到大數(shù)據(jù)時(shí)代。
當(dāng)前大數(shù)據(jù)背景下的信用管理還存在不少問題[1]:(1)信用管理觀念落后。多數(shù)企業(yè)對信用管理的認(rèn)識不足,還將重點(diǎn)放在發(fā)展用戶、市場營銷上,還沒有讓用戶體驗(yàn)到信用管理服務(wù)帶來的優(yōu)良體驗(yàn),重視不夠?qū)е滦庞霉芾硭降拖?。?)信用管理體系不健全。信用管理部門缺乏對信用數(shù)據(jù)價(jià)值的正確認(rèn)知,不能精確測算信用數(shù)據(jù)間的內(nèi)在聯(lián)系,因而也就不能借助已有的信用數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)防范。(3)信用數(shù)據(jù)維度少。已有的信用數(shù)據(jù)管理還主要是用戶注冊時(shí)提交的初始數(shù)據(jù),很少利用網(wǎng)絡(luò)上公開的信息,諸如網(wǎng)站訪問記錄、商品瀏覽記錄、朋友圈信息等等。
隨著網(wǎng)絡(luò)技術(shù)的普及以及手機(jī)等終端的聯(lián)網(wǎng),用戶個(gè)人信息會被收集到互聯(lián)網(wǎng)公司的數(shù)據(jù)庫中。除此之外,大數(shù)據(jù)背景下還有一些隱含的隱私風(fēng)險(xiǎn):在長期使用互聯(lián)網(wǎng)、各種通信設(shè)備的過程中,用戶的習(xí)慣等各種行為模式會被記錄下來。例如,長期使用的輸入法會記錄個(gè)人習(xí)慣用語;搜索引擎會保留經(jīng)常搜索的內(nèi)容,從而分析用戶的關(guān)注目標(biāo)[2];電商系統(tǒng)中的瀏覽記錄會記錄個(gè)人喜好,從而推薦同類或相關(guān)商品。這些數(shù)據(jù)在經(jīng)過大數(shù)據(jù)技術(shù)的分析后,變相地時(shí)時(shí)“監(jiān)控”我們的日?;顒印?/p>
大數(shù)據(jù)技術(shù)和物聯(lián)網(wǎng)的有效結(jié)合,使得各種數(shù)據(jù)變得更加多元化。不同類型的傳感器收集到的用戶信息遠(yuǎn)比個(gè)人主動提交的數(shù)據(jù)豐富。以支付寶為例,其人臉支付功能相當(dāng)于銀行卡以及實(shí)時(shí)面孔的組合,這種人臉支付功能將面部特征轉(zhuǎn)換為唯一的識別碼,并和數(shù)據(jù)庫中的信息進(jìn)行匹配,從而確定實(shí)際支付的使用者是銀行卡本人。然而,這樣也會存在問題:雖然每個(gè)人的面孔是唯一的,每個(gè)人的面孔可能大量出現(xiàn)在諸如微信朋友圈、微博、QQ空間、博客等各種社交工具中,通過對分析大量照片的局部面部特征,極有可能合成得到全局的面部特征,從而騙過人臉識別系統(tǒng)。
上面的例子說明,在大數(shù)據(jù)時(shí)代多維數(shù)據(jù)的組合帶來的風(fēng)險(xiǎn)比傳統(tǒng)數(shù)據(jù)模式下的風(fēng)險(xiǎn)更大,這就需要對信用管理及隱私安全等方面更加重視。
在對大量的信用數(shù)據(jù)進(jìn)行分析時(shí),可以借助k-means聚類算法分析不同信息的特點(diǎn),以此進(jìn)行分類。為了區(qū)分重要數(shù)據(jù)、非重要數(shù)據(jù)對分類的不同影響,可以為不同的數(shù)據(jù)分配不同的權(quán)重。對于不同數(shù)據(jù)的使用者采用不同的脫敏方案,不論哪種方案都會從整體數(shù)據(jù)集中抽取大概5%的數(shù)據(jù)進(jìn)行脫敏處理。
k-means聚類算法的目標(biāo)是找到一個(gè)中心,使得給定的n個(gè)數(shù)據(jù)點(diǎn)和中心的距離之和最小。目標(biāo)函數(shù)可以描述為:
當(dāng)p=1時(shí),數(shù)據(jù)點(diǎn)和中心間的距離是“街區(qū)距離”;當(dāng)p=2時(shí),數(shù)據(jù)點(diǎn)和中心間的距離是“歐式距離”。k-means聚類算法的步驟是:(1)初始化。隨機(jī)指定k個(gè)聚類中心。(2)初始數(shù)據(jù)歸類。對于每個(gè)數(shù)據(jù)xj,找到離它最近的聚類中心ai,并將其分配到ai所在的類。(3)重置中心。計(jì)算目前k個(gè)中心的中心。(4)計(jì)算距離。計(jì)算每個(gè)數(shù)據(jù)和新的中心間的距離。(5)判斷目標(biāo)函數(shù)wk是否收斂。如果收斂則返回當(dāng)前的中心(a1,a2…,ak),否則跳轉(zhuǎn)到步驟(2)。
信用數(shù)據(jù)通常是一些特定的個(gè)人信息,主要包括:身份信息(姓名、性別、年齡等)、銀行信用(貸款記錄及信用卡交易有關(guān)的信息)、非銀行信用(與商業(yè)機(jī)構(gòu)的賒銷信息以及在公共服務(wù)單位的繳費(fèi)及欠費(fèi)情況)等。另外,從日常生活中選擇會用到上述信息的代表性機(jī)構(gòu),如銀行、醫(yī)院、公共服務(wù)單位、電信行業(yè)、公安局等;如果信息在機(jī)構(gòu)中出現(xiàn)則標(biāo)記為1,否則標(biāo)記為0,對這些信用數(shù)據(jù)信息,用k-means聚類算法直接進(jìn)行分類及先加權(quán)后再分類,得到的分類結(jié)果如表1所示。
表1 信用數(shù)據(jù)信息分類結(jié)果
由表1可以看出,真正和信用管理相關(guān)的“銀行信用”、“非銀行信用”被分到同一類,其他基本信息被分到另外一類。信用數(shù)據(jù)加權(quán)對分類有影響的原因是,加權(quán)的數(shù)據(jù)更能體現(xiàn)自身的重要程度。綜合分類結(jié)果可以看出,被分為一類的信息同時(shí)在同一機(jī)構(gòu)中出現(xiàn)的概率比較大。另外,不同類別中的信息在經(jīng)過組合后很可能推斷出其他信息,也就是說信用數(shù)據(jù)間存在一定的關(guān)聯(lián)性。
對于這種大數(shù)據(jù)環(huán)境下信用數(shù)據(jù)關(guān)聯(lián)性導(dǎo)致的隱私安全問題,很難找到非常有效的解決方法,最直接的解決方式是提高數(shù)據(jù)庫的安全性,同時(shí)將用戶習(xí)慣分散到多個(gè)節(jié)點(diǎn),避免在同一節(jié)點(diǎn)留下長期的訪問信息記錄。這樣一來,在保證了節(jié)點(diǎn)分散化以及信息分片的同時(shí),就可以大大降低信用數(shù)據(jù)風(fēng)險(xiǎn),保證用戶隱私安全。
本文對大數(shù)據(jù)背景下的信用數(shù)據(jù)管理以及隱私安全等問題進(jìn)行分析,并從數(shù)據(jù)挖掘入手,找到用戶征信數(shù)據(jù)等各種信用數(shù)據(jù)間的相關(guān)性,以此評估信用數(shù)據(jù)的風(fēng)險(xiǎn)大小,并在此基礎(chǔ)上對信用數(shù)據(jù)及隱私風(fēng)險(xiǎn)進(jìn)行控制。