劉晶 梅樂翔 高薪
要對(duì)數(shù)據(jù)進(jìn)行脫敏處理,首先需要明確數(shù)據(jù)可能的應(yīng)用場(chǎng)景。在數(shù)據(jù)脫敏領(lǐng)域,針對(duì)不同場(chǎng)景,通常具備特定的脫敏策略。
交通運(yùn)輸部路網(wǎng)中心管轄全國(guó)路網(wǎng)體系內(nèi)的運(yùn)行服務(wù)、監(jiān)測(cè)檢測(cè)、ETC發(fā)行,以及清分結(jié)算管理等業(yè)務(wù),隨著業(yè)務(wù)電子化、信息化的發(fā)展,路網(wǎng)中心積累越來越多的數(shù)據(jù)資產(chǎn)。作為數(shù)據(jù)運(yùn)營(yíng)方,如何通過數(shù)據(jù)科技化拓展新的業(yè)務(wù)領(lǐng)域,找到新的業(yè)務(wù)增長(zhǎng)點(diǎn),挖掘“大數(shù)據(jù)”這座金礦,從而向外部輸出合理的數(shù)據(jù)服務(wù)以及數(shù)據(jù)產(chǎn)品,是當(dāng)前交通運(yùn)輸部路網(wǎng)中心相關(guān)部門所面臨的首要任務(wù)。
數(shù)據(jù)產(chǎn)品的加工、數(shù)據(jù)服務(wù)的輸出又和數(shù)據(jù)本身的科技化有著不可分割的關(guān)聯(lián),數(shù)據(jù)就像石油,是新生產(chǎn)力的源泉,數(shù)據(jù)的加工和服務(wù)化是一種新的生產(chǎn)方式。而數(shù)據(jù)科技化應(yīng)用的所有前提都是數(shù)據(jù)應(yīng)用和服務(wù)體系的建立和完善,數(shù)據(jù)服務(wù)體系中非常重要的環(huán)節(jié)是數(shù)據(jù)治理,而數(shù)據(jù)治理又往往由數(shù)據(jù)應(yīng)用推動(dòng),數(shù)據(jù)脫敏和數(shù)據(jù)標(biāo)簽化是數(shù)據(jù)應(yīng)用的重要通道。本文簡(jiǎn)要闡述交通部路網(wǎng)中心在遵守國(guó)家法律法規(guī)情況下的數(shù)據(jù)應(yīng)用和數(shù)據(jù)商用建議的各主要模塊。
近年來,針對(duì)高速公路省界站設(shè)立過多導(dǎo)致的車輛通行效率低、實(shí)體經(jīng)濟(jì)物流成本高等問題,國(guó)務(wù)院常務(wù)會(huì)議決定推動(dòng)取消高速公路省界收費(fèi)站,建立全國(guó)統(tǒng)一管理的路網(wǎng)系統(tǒng)。與此同時(shí),高速公司跨省收費(fèi)方式由前臺(tái)人工方式轉(zhuǎn)變?yōu)閿?shù)字式的過程中,產(chǎn)生大量的用戶通行數(shù)據(jù)。
2018年李克強(qiáng)總理在政府工作報(bào)告提出:簡(jiǎn)政放權(quán)、放管結(jié)合、優(yōu)化服務(wù)等改革推動(dòng)政府職能發(fā)生深刻轉(zhuǎn)變,市場(chǎng)活力和社會(huì)創(chuàng)造力明顯增強(qiáng)。
路網(wǎng)中心積極響應(yīng)政務(wù)服務(wù)從傳統(tǒng)方式向互聯(lián)網(wǎng)化、移動(dòng)化發(fā)展。針對(duì)交通部路網(wǎng)數(shù)據(jù)對(duì)外公開、服務(wù)的過程中涉及大量的個(gè)人隱私數(shù)據(jù)的處理問題,本文基于高速通行數(shù)據(jù)的脫敏應(yīng)用進(jìn)行研究。
研究基礎(chǔ)與目標(biāo)
目前交通部路網(wǎng)中心的基礎(chǔ)數(shù)據(jù)現(xiàn)狀如下:
存量數(shù)據(jù):截至2018年10月,高速公路通行數(shù)據(jù)壓縮歸檔后占用磁盤空間大小為919GB。
增量數(shù)據(jù):截至2018年10月,每日平均增量數(shù)據(jù)大小為1.8GB、156萬個(gè)數(shù)據(jù)文件、3000萬條數(shù)據(jù)。
數(shù)據(jù)文件:?jiǎn)螖?shù)據(jù)文件最大數(shù)據(jù)條目為1000條,最大文件大小為905KB;通常單個(gè)數(shù)據(jù)文件存儲(chǔ)單條數(shù)據(jù)條目。
以上的存量數(shù)據(jù)與增量數(shù)據(jù)可以為本研究提供大量的測(cè)試數(shù)據(jù);同時(shí),在路網(wǎng)中心現(xiàn)有的業(yè)務(wù)模式中,對(duì)數(shù)據(jù)內(nèi)部應(yīng)用已經(jīng)有成熟的體系與業(yè)務(wù),對(duì)此類數(shù)據(jù)應(yīng)用中的非必需敏感數(shù)據(jù),業(yè)務(wù)人員已有成熟判斷,因此對(duì)業(yè)務(wù)的需求分析也是本研究的基礎(chǔ)之一。
通過本文的應(yīng)用研究,希望實(shí)現(xiàn)對(duì)路網(wǎng)數(shù)據(jù)中敏感字段的脫敏處理,在兼顧數(shù)據(jù)脫敏的有效性的同時(shí)保留數(shù)據(jù)的應(yīng)用價(jià)值。
高速通行數(shù)據(jù)脫敏場(chǎng)景
要對(duì)數(shù)據(jù)進(jìn)行脫敏處理,首先需要明確數(shù)據(jù)可能的應(yīng)用場(chǎng)景。在數(shù)據(jù)脫敏領(lǐng)域,針對(duì)不同場(chǎng)景,通常具備特定的脫敏策略。在不同場(chǎng)景下,對(duì)敏感數(shù)據(jù)的定義也有業(yè)務(wù)上的差異。因此,本文首先對(duì)高速通行數(shù)據(jù)的應(yīng)用場(chǎng)景進(jìn)行分析。
而在對(duì)高速通行數(shù)據(jù)應(yīng)用場(chǎng)景分析之前,我們首先對(duì)需要處理的數(shù)據(jù)進(jìn)行梳理:
業(yè)務(wù)系統(tǒng):應(yīng)用通行數(shù)據(jù)的業(yè)務(wù)系統(tǒng)主要為服務(wù)協(xié)調(diào)、數(shù)據(jù)匯聚交換、BOMS、綜合業(yè)務(wù)平臺(tái)、新增系統(tǒng)等。
主要字段:?jiǎn)翁?hào)、投訴人、聯(lián)系電話、卡號(hào)、操作、狀態(tài)、車牌號(hào)、省份、時(shí)長(zhǎng)、金額、余額、支付方式等。
標(biāo)識(shí)信息:聯(lián)系電話、卡號(hào)、車牌號(hào)。
針對(duì)以上內(nèi)容,標(biāo)識(shí)數(shù)據(jù)通常在任何的應(yīng)用場(chǎng)景中均需要進(jìn)行脫敏處理。對(duì)于剩余的字段,根據(jù)場(chǎng)景不同、應(yīng)用不同的脫敏策略。高速通行數(shù)據(jù)通常可以按照數(shù)據(jù)應(yīng)用目的(技術(shù)目的、業(yè)務(wù)目的)和數(shù)據(jù)應(yīng)用對(duì)象(數(shù)據(jù)內(nèi)部應(yīng)用、數(shù)據(jù)外部應(yīng)用)這兩個(gè)維度進(jìn)行劃分。
高速通行數(shù)據(jù)主要的應(yīng)用場(chǎng)景是由交通部?jī)?nèi)部業(yè)務(wù)人員進(jìn)行使用,主要應(yīng)用于收費(fèi)公路基礎(chǔ)數(shù)據(jù)的分析評(píng)估、投訴處理等業(yè)務(wù)場(chǎng)景。在數(shù)據(jù)交換、共享、使用的過程中存在隱私信息泄露的風(fēng)險(xiǎn),在不影響業(yè)務(wù)推進(jìn)的前提下,需要對(duì)非業(yè)務(wù)必要的信息、標(biāo)識(shí)信息、隱私信息進(jìn)行脫敏處理。經(jīng)過脫敏后,實(shí)現(xiàn)數(shù)據(jù)的模糊化,保障數(shù)據(jù)在內(nèi)部使用的安全可靠。針對(duì)業(yè)務(wù)分析場(chǎng)景的數(shù)據(jù)脫敏,在對(duì)標(biāo)識(shí)數(shù)據(jù)處理的基礎(chǔ)上,需要根據(jù)不同的業(yè)務(wù)場(chǎng)景進(jìn)行分析,脫敏相應(yīng)的不必要的半標(biāo)識(shí)數(shù)據(jù)。
而在路網(wǎng)中心技術(shù)部門開發(fā)環(huán)節(jié)中,為確保功能開發(fā)與測(cè)試的順利推進(jìn),需要將收費(fèi)公路基礎(chǔ)數(shù)據(jù)導(dǎo)出給技術(shù)部門進(jìn)行開發(fā)。而原始數(shù)據(jù)直接應(yīng)用于開發(fā)、測(cè)試,會(huì)不可避免地造成數(shù)據(jù)泄露。所以,對(duì)開發(fā)所需要的數(shù)據(jù)需要進(jìn)行脫敏后再進(jìn)行導(dǎo)出,應(yīng)用于開發(fā)的數(shù)據(jù)脫敏需要保證數(shù)據(jù)格式、數(shù)據(jù)長(zhǎng)度、數(shù)據(jù)類型與原始數(shù)據(jù)的統(tǒng)一。因此,在技術(shù)應(yīng)用場(chǎng)景中,可對(duì)全體數(shù)據(jù)字段進(jìn)行脫敏處理,甚至依據(jù)技術(shù)要求生產(chǎn)假數(shù)據(jù)進(jìn)行開發(fā)、測(cè)試。
以上的應(yīng)用場(chǎng)景均為高速通行數(shù)據(jù)于交通部?jī)?nèi)部的應(yīng)用,數(shù)據(jù)對(duì)外輸出服務(wù)是交通部路網(wǎng)中心未來的規(guī)劃之一,無論是依照《政務(wù)信息資源共享管理暫行辦法》去公開數(shù)據(jù),還是對(duì)外部企業(yè)/個(gè)人輸出路網(wǎng)的數(shù)據(jù)服務(wù),均要符合相關(guān)的法律法規(guī),不應(yīng)存在隱私泄露的風(fēng)險(xiǎn)。
數(shù)據(jù)脫敏有效性驗(yàn)證
在數(shù)據(jù)脫敏領(lǐng)域,通常會(huì)出現(xiàn)無效脫敏的現(xiàn)象,例如,通過明文字段數(shù)據(jù)推測(cè)出敏感的信息內(nèi)容,依據(jù)個(gè)人標(biāo)識(shí)數(shù)據(jù)集成全部個(gè)人數(shù)據(jù)暴露敏感字段等。因此,在數(shù)據(jù)脫敏領(lǐng)域中存在眾多的模型與算法來驗(yàn)證數(shù)據(jù)脫敏的有效性,本文中對(duì)相對(duì)主流的K-匿名與L-多樣性模型進(jìn)行應(yīng)用研究。通過K-匿名與L-多樣性的模型可以保證數(shù)據(jù)在脫敏處理后的有效性,而對(duì)于這兩種模型的選擇,則需要依照實(shí)際的情況進(jìn)行抉擇。通常情況下,K-匿名模型可以保證絕大多數(shù)的脫敏任務(wù)結(jié)果的有效性。而針對(duì)數(shù)據(jù)多樣性缺乏的問題,L-多樣化模型可以保證脫敏后數(shù)據(jù)的有效性。
k-匿名模型要求對(duì)于任意一行記錄,其所屬的相等集內(nèi)記錄數(shù)量不小于k,即至少有k-1條記錄半標(biāo)識(shí)列屬性值與該條記錄相同。理論上來說,對(duì)于K-匿名數(shù)據(jù)集,對(duì)于任意記錄,攻擊者只有1/k的概率將該記錄與具體用戶關(guān)聯(lián)。
k-匿名的操作步驟:
1.將待處理的高速通行數(shù)據(jù)分為三類:標(biāo)識(shí)列(key attributes)、半標(biāo)識(shí)列(quasi identifier)、業(yè)務(wù)列(sernsitive attributes)。
2.移除標(biāo)識(shí)列,采用脫敏算法使得標(biāo)識(shí)列的數(shù)據(jù)完全隱秘。
3.泛化半標(biāo)識(shí)列,采用脫敏算法使得半標(biāo)識(shí)列的數(shù)據(jù)部分隱秘,還保留部分的實(shí)際含義。
4.根據(jù)具體需求對(duì)業(yè)務(wù)數(shù)據(jù)處理。
k-匿名的特點(diǎn):
1.攻擊者無法知道某個(gè)對(duì)象是否在公開的數(shù)據(jù)中。
2.給定一個(gè)對(duì)象,攻擊者無法確認(rèn)他是否具有某項(xiàng)敏感屬性。
3. 攻擊者無法確認(rèn)某條數(shù)據(jù)對(duì)應(yīng)哪個(gè)對(duì)象。
k-匿名的不足:
1.當(dāng)公開的數(shù)據(jù)記錄和原始記錄的順序一樣的時(shí)候,攻擊者可以猜出匿名化的記錄是屬于誰。解決方法也很簡(jiǎn)單,在公開數(shù)據(jù)之前先打亂原始數(shù)據(jù)的順序就可以避免這類的攻擊。
2.若公開的數(shù)據(jù)有多種類型,如果它們的K-匿名方法不同,那么攻擊者可以通過關(guān)聯(lián)多種數(shù)據(jù)推測(cè)用戶信息。
3.當(dāng)敏感屬性在同一類半標(biāo)識(shí)列中缺乏多樣性,或者攻擊者有其它的數(shù)據(jù)背景知識(shí),K-匿名無法避免隱私泄露。
通過K-匿名的示例,引出了多樣化的概念。對(duì)于半標(biāo)識(shí)列相同的數(shù)據(jù),其業(yè)務(wù)列數(shù)據(jù)必須具備多樣性。這樣通過多樣性可以保證數(shù)據(jù)對(duì)象的隱私不能通過背景知識(shí)等信息推測(cè)出來。L-多樣化保證了相同類型的數(shù)據(jù)中至少有L種內(nèi)容不同的屬性。
L-多樣化定義:
如果對(duì)于任意相等集內(nèi)所有記錄對(duì)應(yīng)的敏感數(shù)據(jù)的集合,包含L個(gè)“合適”值,則稱該相等集是滿足L-多樣化。如果數(shù)據(jù)集中所有相等集都滿足L-多樣化,則稱該數(shù)據(jù)集滿足L-多樣化。
L-多樣化特點(diǎn):
相對(duì)于K-匿名標(biāo)準(zhǔn),符合L-多樣化標(biāo)準(zhǔn)的數(shù)據(jù)集顯著降低了屬性數(shù)據(jù)泄漏的風(fēng)險(xiǎn)。對(duì)于滿足L-多樣化的數(shù)據(jù)集,理論上,攻擊者最多只有1/L的概率能夠?qū)傩孕孤豆?,從而將特定用戶與其敏感信息關(guān)聯(lián)起來。通過插入干擾數(shù)據(jù)構(gòu)造符合L-Diversity的數(shù)據(jù)集。在K-匿名的基礎(chǔ)上,每個(gè)數(shù)據(jù)集中,其敏感信息列有L個(gè)不同的值,攻擊者只有1/L的概率獲得正確的敏感信息。
結(jié)語(yǔ)
本文以交通部路網(wǎng)中心海量的路網(wǎng)通行作為研究基礎(chǔ),以對(duì)通行數(shù)據(jù)中的敏感數(shù)據(jù)脫敏處理后能夠達(dá)到合法輸出應(yīng)用要求為目標(biāo),從高速通行數(shù)據(jù)脫敏場(chǎng)景與數(shù)據(jù)脫敏的有效性兩個(gè)維度進(jìn)行應(yīng)用研究,實(shí)現(xiàn)基于高速通行數(shù)據(jù)的脫敏方案推進(jìn):保護(hù)隱私數(shù)據(jù)、提高數(shù)據(jù)可用性、確保脫敏有效性。
應(yīng)用本文的研究?jī)?nèi)容,可以在路網(wǎng)數(shù)據(jù)的社會(huì)化服務(wù)應(yīng)用領(lǐng)域提供技術(shù)指引與支持。