朱揚(yáng)勇,熊贇,廖志成,葉雅珍,3
1. 復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203;2. 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上?!?01203;3. 東華大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,上?!?01620
數(shù)據(jù)已經(jīng)成為國家基礎(chǔ)性戰(zhàn)略資源,推動數(shù)據(jù)資源開放共享是國家《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》的核心內(nèi)容。政府和公共數(shù)據(jù)資源的開放共享不僅是構(gòu)建一個透明的政府,更重要的是創(chuàng)造新興戰(zhàn)略產(chǎn)業(yè)(數(shù)據(jù)產(chǎn)業(yè)),推進(jìn)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級,成為驅(qū)動創(chuàng)新的主要因素[1]。但在實(shí)施過程中,數(shù)據(jù)開放共享面臨著“數(shù)據(jù)擁有者不愿、不敢、不會開放共享”的問題。由于數(shù)據(jù)可以以極低成本復(fù)制和傳播(復(fù)制一份數(shù)據(jù)的成本遠(yuǎn)遠(yuǎn)低于生產(chǎn)一份數(shù)據(jù)的成本),加之?dāng)?shù)據(jù)資源的戰(zhàn)略性和商業(yè)價值越來越顯現(xiàn),這就導(dǎo)致生產(chǎn)數(shù)據(jù)的意愿遠(yuǎn)遠(yuǎn)低于復(fù)制數(shù)據(jù)的意愿,因而呼吁數(shù)據(jù)開放的人越來越多;數(shù)據(jù)生產(chǎn)者越來越不愿意將其擁有的數(shù)據(jù)開放出來。因此,數(shù)據(jù)資源的開放變得越來越難以實(shí)現(xiàn)。事物的價值源于稀缺性,由于數(shù)據(jù)可以幾乎零成本地復(fù)制和傳播,所以,數(shù)據(jù)開放意味著數(shù)據(jù)資源的稀缺性喪失,從而喪失其原有的價值,這是不愿意開放數(shù)據(jù)的根本原因。因此,如何既開放數(shù)據(jù)又保持?jǐn)?shù)據(jù)資源的稀缺性,是一個亟待解決的重大問題。本文圍繞該重大問題,探索數(shù)據(jù)開放模式,提出數(shù)據(jù)自治開放模式。
開放數(shù)據(jù)是指數(shù)據(jù)免費(fèi)開放給每一個希望使用數(shù)據(jù)的人,主要是指政府和公共數(shù)據(jù)資源應(yīng)該開放給公眾,使公共數(shù)據(jù)能被任何人、在任何時間和任何地點(diǎn)自由利用、再利用和分發(fā)[2];數(shù)據(jù)共享是指對數(shù)據(jù)使用對象、使用時間和使用地點(diǎn)加以限制,主要是對使用對象進(jìn)行限制,即將數(shù)據(jù)開放給特定對象[3],只有特定對象在特定的時間、地點(diǎn)使用指定的數(shù)據(jù),可以理解為開放數(shù)據(jù)的限制版;數(shù)據(jù)交易是指數(shù)據(jù)擁有者依據(jù)法律在市場交易規(guī)則下進(jìn)行自由交易。總體而言,開放數(shù)據(jù)、數(shù)據(jù)共享和數(shù)據(jù)交易都是數(shù)據(jù)擁有者將數(shù)據(jù)開放給數(shù)據(jù)使用者,只是在范圍、對象、是否收費(fèi)等方面有所不同,三者面臨的核心問題都是“數(shù)據(jù)如何治理”,具體說就是“如何控制數(shù)據(jù)使用者傳播或?yàn)E用數(shù)據(jù)”。開放數(shù)據(jù)模式不對開放出去的數(shù)據(jù)進(jìn)行治理[4];數(shù)據(jù)共享模式則由共享圈共同治理數(shù)據(jù),但共享圈約束有限,數(shù)據(jù)常常流出共享圈而造成事實(shí)上的開放數(shù)據(jù);數(shù)據(jù)交易的數(shù)據(jù)治理目前還沒有具體做法。因此,為了方便敘述,將開放數(shù)據(jù)、數(shù)據(jù)共享和數(shù)據(jù)交易統(tǒng)稱為“數(shù)據(jù)開放”。
當(dāng)前,絕大部分?jǐn)?shù)據(jù)資源都還處在封閉不開放的狀態(tài),數(shù)據(jù)完全由數(shù)據(jù)擁有者治理。擁有者盡量保護(hù)系統(tǒng)數(shù)據(jù)不受外界侵害,不對外界開放,即數(shù)據(jù)是自治封閉的?,F(xiàn)有的數(shù)據(jù)資源管理技術(shù)(數(shù)據(jù)庫管理系統(tǒng)、文件系統(tǒng))和應(yīng)用軟件技術(shù)都支持這種數(shù)據(jù)自治封閉模式。數(shù)據(jù)自治封閉模式的問題是數(shù)據(jù)資源只能由數(shù)據(jù)擁有者使用,沒有發(fā)揮數(shù)據(jù)資源應(yīng)有的價值。要更大程度地開發(fā)利用數(shù)據(jù),就需要將數(shù)據(jù)資源開放出來。然而,數(shù)據(jù)會被怎樣開發(fā)利用事先可能是不知道的,使用數(shù)據(jù)的軟件也是事先不知道的、基本外部的、數(shù)量無限的、安全不可控的、隱私不可控的?,F(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)軟件根本無法處理數(shù)據(jù)開放的應(yīng)用需求,因此,需要探索新型的數(shù)據(jù)資源管理技術(shù)和數(shù)據(jù)開放模式。
本文提出的“數(shù)據(jù)自治開放”是指數(shù)據(jù)擁有者在法律框架下對數(shù)據(jù)進(jìn)行自行確權(quán)和管理、自行制定開放規(guī)則(即數(shù)據(jù)自治),然后將數(shù)據(jù)開放給使用者,包括上傳到數(shù)據(jù)應(yīng)用軟件使用數(shù)據(jù)和下載數(shù)據(jù)到使用者的設(shè)備中(使用者沒有數(shù)據(jù)治理權(quán))。
數(shù)據(jù)自治開放模式有望成為數(shù)據(jù)開放的基本模式,是政府?dāng)?shù)據(jù)開放共享、企業(yè)及個人數(shù)據(jù)交易、國家數(shù)據(jù)主權(quán)實(shí)現(xiàn)的一種可行方法。
數(shù)據(jù)資源是重要的現(xiàn)代戰(zhàn)略資源,而且其重要性越來越顯現(xiàn),在21世紀(jì)有可能超過石油、煤炭、礦產(chǎn),成為最重要的人類資源。提高數(shù)據(jù)資源開發(fā)利用水平、保護(hù)國家的戰(zhàn)略資源是增強(qiáng)我國綜合國力和國際競爭力的必然選擇[5]。2011年5月麥肯錫公司發(fā)布的《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》報告、2012年2月世界經(jīng)濟(jì)論壇年會發(fā)布的《大數(shù)據(jù),大影響》報告等,都突顯了大數(shù)據(jù)的價值和重要性①https://www.mckinsey.com/~/media/McKinsey/Business%20 Functions/McKinsey%20 Digital/Our%20 Insights/Big%20data%20The%20next%20frontier%20for%20 innovation/ MGI_big_data_full_report.ashx②http://www.weforum.org/reports/bigdata-bigimpact-newpossibilitiesinternationaldevelopment。2012年3月美國白宮科學(xué)和技術(shù)政策辦公室發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,標(biāo)志著美國率先將大數(shù)據(jù)上升為國家戰(zhàn)略③https://obamaw hitehouse.archi ves.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf),隨后,日本、法國、澳大利亞、英國等國家也開始發(fā)布大數(shù)據(jù)國家戰(zhàn)略或計劃等。2014年和2015年,我國將大數(shù)據(jù)寫入《政府工作報告》,2015年8月19日國務(wù)院通過《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動綱要》,2015年10月26—29日中國共產(chǎn)黨第十八屆五中全會提出“實(shí)施國家大數(shù)據(jù)戰(zhàn)略”等,這些都表明數(shù)據(jù)已經(jīng)成為重要的戰(zhàn)略資源。
一份數(shù)據(jù)資源的價值除了體現(xiàn)在它的內(nèi)容外,更重要的方面體現(xiàn)在它的稀缺性。內(nèi)容再重要的數(shù)據(jù)資源,如果人手一份或者隨時可以獲得,那就沒有人愿意付費(fèi)購買,其本身的價值就難以體現(xiàn)出來。由于數(shù)據(jù)可以以極低的成本復(fù)制和傳播,所以一旦數(shù)據(jù)資源生產(chǎn)者將數(shù)據(jù)資源開放,就意味著該份數(shù)據(jù)資源可能會傳遍世界,從而喪失稀缺性。
矛盾在于:如果不開放,則數(shù)據(jù)資源只能自用,價值發(fā)揮有限;如果開放,則數(shù)據(jù)資源可能喪失稀缺性,使數(shù)據(jù)資源生產(chǎn)者喪失利益。
由于目前在技術(shù)上還沒有保持?jǐn)?shù)據(jù)資源稀缺性的數(shù)據(jù)開放技術(shù),所以,在實(shí)踐中,數(shù)據(jù)資源擁有方不愿開放、不會開放就成了數(shù)據(jù)開放進(jìn)程中的“攔路虎”。另外,由于政策制約,數(shù)據(jù)資源擁有方還存在不敢開放的問題。
不愿開放:指數(shù)據(jù)資源擁有者不愿意在沒有獲得足夠利益的情況下進(jìn)行數(shù)據(jù)開放。
不會開放:指盡管數(shù)據(jù)持有者希望將數(shù)據(jù)資源開放出來,但是由于現(xiàn)行技術(shù)并不適合數(shù)據(jù)資源開放,所以不知道如何實(shí)現(xiàn)數(shù)據(jù)資源開放。
不敢開放:指怕承擔(dān)責(zé)任,目前的政策是“誰有數(shù)據(jù)誰負(fù)責(zé)”,因此,萬一數(shù)據(jù)開放出了問題,數(shù)據(jù)擁有部門就要承擔(dān)責(zé)任;另外,一些數(shù)據(jù)擁有者擔(dān)心數(shù)據(jù)開放后,數(shù)據(jù)資源的稀缺性會喪失。
現(xiàn)行的數(shù)據(jù)管理技術(shù)是面向數(shù)據(jù)自治封閉的,不適合數(shù)據(jù)開放共享,急需開發(fā)面向數(shù)據(jù)開放共享的技術(shù)。
政府開放數(shù)據(jù)的典型代表是2009年美國政府推出的網(wǎng)站www.data.gov,因此,2009年一般被認(rèn)為是數(shù)據(jù)開放元年。之前是政府信息公開,政府向公眾公開各種報告、決策結(jié)果;政府開放數(shù)據(jù)是信息公開的進(jìn)一步,即將形成報告和決策的原始數(shù)據(jù)也公開,主要內(nèi)容是政府應(yīng)該向公眾透明[6]。2015年我國國務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》明確提出,數(shù)據(jù)開放共享主要是指政府和公共數(shù)據(jù)資源應(yīng)該開放給公眾共享。
從國際上看,政府?dāng)?shù)據(jù)開放主要通過制定戰(zhàn)略或政策文件形式指導(dǎo)開放,又因涉及多個部門,往往由最高領(lǐng)導(dǎo)層發(fā)布,例如美國前總統(tǒng)奧巴馬在2009年和2013年兩次發(fā)布開放政府?dāng)?shù)據(jù)的行政令;英國在2010年和2011年先后兩次發(fā)布《致政府部門開放數(shù)據(jù)函》等。開放過程中,各國通常把數(shù)據(jù)作為一種國家資產(chǎn)進(jìn)行管理,要求建立相關(guān)的制度。比如,建立數(shù)據(jù)資產(chǎn)目錄,各部門需梳理數(shù)據(jù)資產(chǎn),明確各類數(shù)據(jù)的開放屬性(公開、限制公開、不公開);建立數(shù)據(jù)開放的目錄,確定哪些是已開放的,哪些是將來會開放的。并且,目錄保持持續(xù)更新和補(bǔ)充。在開放的形式上,一般采用國家統(tǒng)一的門戶網(wǎng)站形式開放數(shù)據(jù)。此外,重視建立公眾的參與和反饋機(jī)制,確保用戶的需求得到及時反饋,優(yōu)先釋放用戶需求最為迫切的數(shù)據(jù)集,并對數(shù)據(jù)開放的相關(guān)進(jìn)展進(jìn)行評估。
從技術(shù)上來看,政府?dāng)?shù)據(jù)開放基本上都只提供數(shù)據(jù)下載服務(wù)。政府將開放的數(shù)據(jù)放在政府網(wǎng)站上,公眾可以下載需要的數(shù)據(jù)。這些數(shù)據(jù)往往不可機(jī)讀,公眾更不可能通過上傳到應(yīng)用程序來使用這些數(shù)據(jù)。這樣當(dāng)數(shù)據(jù)資源比較大的時候,這些數(shù)據(jù)就變成了不可用的數(shù)據(jù)[7]。
從最早推行數(shù)據(jù)資源開放的科學(xué)研究領(lǐng)域來看,科學(xué)數(shù)據(jù)表面上已經(jīng)開放了,但實(shí)際上開放程度非常有限,主要是由政府或公共資源投資的科學(xué)研究產(chǎn)生的數(shù)據(jù)的開放,并且大多集中于各自領(lǐng)域,例如地震科學(xué)、水利科學(xué)、天文學(xué)等。在我國,主動共享科學(xué)數(shù)據(jù)的研究單位和個人還比較少,大部分的數(shù)據(jù)共享活動是通過政府投資、項(xiàng)目驅(qū)動的形式進(jìn)行的。這些都影響了科學(xué)數(shù)據(jù)的開放共享進(jìn)展和質(zhì)量,目前為止,尚未形成完全開放的科學(xué)數(shù)據(jù)開放共享局面。
絕大部分?jǐn)?shù)據(jù)資源還處在封閉不開放的狀態(tài),數(shù)據(jù)完全由數(shù)據(jù)擁有者自己治理,即數(shù)據(jù)自治。從20世紀(jì)90年代信息化戰(zhàn)略開始,大部分?jǐn)?shù)據(jù)是由各類計算機(jī)應(yīng)用系統(tǒng)生產(chǎn)的,例如政府系統(tǒng)、金稅工程、教務(wù)系統(tǒng)、超市系統(tǒng)、銀行系統(tǒng)等。信息技術(shù)也只支持?jǐn)?shù)據(jù)封閉,盡量保護(hù)系統(tǒng)數(shù)據(jù)不受外界侵害,即信息安全,例如系統(tǒng)設(shè)置防火墻、登錄口令,制定用戶級別和使用系統(tǒng)的功能類別等。
這些系統(tǒng)中的數(shù)據(jù)由系統(tǒng)擁有者自己管理,或者說數(shù)據(jù)由數(shù)據(jù)擁有者自己管理,稱為數(shù)據(jù)自治。加之?dāng)?shù)據(jù)保持封閉不對外界開放,所以稱這類數(shù)據(jù)資源管理模式為“數(shù)據(jù)自治封閉”。
在數(shù)據(jù)自治封閉模式中,使用數(shù)據(jù)的軟件是事先知道的、基本內(nèi)部的、數(shù)量有限的、安全可控的、隱私可控的?,F(xiàn)有的數(shù)據(jù)資源管理技術(shù)(數(shù)據(jù)庫管理系統(tǒng)、文件系統(tǒng))和應(yīng)用軟件技術(shù)也只支持?jǐn)?shù)據(jù)自治封閉模式,圖1為數(shù)據(jù)自治封閉系統(tǒng)結(jié)構(gòu)。
政府?dāng)?shù)據(jù)開放模式存在的問題是顯而易見的,即數(shù)據(jù)資源稀缺性的喪失。因此,政府?dāng)?shù)據(jù)開放的基本出發(fā)點(diǎn)是:政府?dāng)?shù)據(jù)是公共品,其權(quán)屬屬于公眾,所以要向公眾免費(fèi)開放。然而,隨著數(shù)據(jù)資源的戰(zhàn)略性和基礎(chǔ)性越來越顯現(xiàn),開放的政府?dāng)?shù)據(jù)也會被敵對國家利用,所以,政府?dāng)?shù)據(jù)開放應(yīng)該是有限的,數(shù)據(jù)主權(quán)問題也越來越引起重視。事實(shí)上,國際上政府和公共數(shù)據(jù)資源僅開放了不到10%[8],這也從另一個側(cè)面說明政府?dāng)?shù)據(jù)開放的問題。更嚴(yán)重的是開放數(shù)據(jù)處于不治理或者無法治理的狀態(tài)。
圖1 數(shù)據(jù)自治封閉系統(tǒng)示意
數(shù)據(jù)自治封閉模式的問題是數(shù)據(jù)資源只能由數(shù)據(jù)擁有者使用,沒有發(fā)揮數(shù)據(jù)資源應(yīng)有的價值。數(shù)據(jù)資源可以被加工再加工形成各種數(shù)據(jù)產(chǎn)品,服務(wù)于人們的生產(chǎn)和生活,從而產(chǎn)生巨大的價值。與數(shù)據(jù)自治封閉模式完全不同,如果將數(shù)據(jù)資源開放出來,那么使用數(shù)據(jù)的軟件事先是不知道的、基本外部的、數(shù)量無限的、安全不可控的、隱私不可控的。數(shù)據(jù)開放模式示意如圖2所示,現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)軟件根本無法處理數(shù)據(jù)開放的應(yīng)用需求。因此,需要探索新型的數(shù)據(jù)資源管理技術(shù)。
圖2 數(shù)據(jù)開放模式示意
數(shù)據(jù)開放是必然趨勢,但需要保障在數(shù)據(jù)開放的同時又不喪失稀缺性,確保數(shù)據(jù)不流失、隱私不泄露、安全不泄密、利益得以實(shí)現(xiàn),例如醫(yī)療數(shù)據(jù)的開放。醫(yī)療數(shù)據(jù)涉及相當(dāng)比重和規(guī)模的隱私及敏感信息,例如患者個人信息、既往病史、就診記錄等,醫(yī)生個人信息、ICD編碼診斷習(xí)慣等,醫(yī)院具有優(yōu)勢的院內(nèi)制劑配方、院內(nèi)診療規(guī)范和方案、經(jīng)營財務(wù)狀況等,甚至屬于國家政府的涉密數(shù)據(jù)(如流行病、傳染病、突發(fā)事件、重大事件等)。這直接制約了醫(yī)療數(shù)據(jù)的開放,因?yàn)闆]有合理有效的開放模式,醫(yī)療數(shù)據(jù)開放將增大醫(yī)療數(shù)據(jù)安全和隱私泄露的風(fēng)險。為實(shí)現(xiàn)這一目的,數(shù)據(jù)自治開放是一種可行的方法。
數(shù)據(jù)自治開放模式是由數(shù)據(jù)擁有者管理數(shù)據(jù),數(shù)據(jù)擁有權(quán)始終掌握在數(shù)據(jù)擁有者手里(除非自己要放棄擁有權(quán)),即數(shù)據(jù)自治;數(shù)據(jù)可以開放給指定使用者,使用者只能自己使用,不能傳播數(shù)據(jù),因此不會喪失數(shù)據(jù)的稀缺性。
為實(shí)現(xiàn)數(shù)據(jù)自治開放,需要開發(fā)面向數(shù)據(jù)開放的數(shù)據(jù)資源管理系統(tǒng),然后將現(xiàn)有自治封閉系統(tǒng)中的數(shù)據(jù)資源重新組織到新系統(tǒng)中,實(shí)現(xiàn)數(shù)據(jù)資源的自治開放(如圖3所示)。數(shù)據(jù)自治開放模式對技術(shù)提出了新挑戰(zhàn),數(shù)據(jù)自治開放技術(shù)要解決的問題是“如何控制數(shù)據(jù)使用者傳播或?yàn)E用數(shù)據(jù)”。對應(yīng)的關(guān)鍵技術(shù)問題如下。
圖3 面向開放的數(shù)據(jù)資源
● 如何做到數(shù)據(jù)既能夠自治又能夠開放?這需要研究面向自治開放的數(shù)據(jù)資源組織理論,即需要有新的數(shù)據(jù)模型來組織數(shù)據(jù)資源。外界能夠通過這個數(shù)據(jù)模型看到有哪些數(shù)據(jù)資源,以確定是否要使用這些數(shù)據(jù)資源,系統(tǒng)能夠承載使用者將數(shù)據(jù)上傳到應(yīng)用軟件,根據(jù)數(shù)據(jù)模型來使用數(shù)據(jù)。
● 如何保護(hù)數(shù)據(jù)稀缺性不喪失、數(shù)據(jù)安全和隱私有保障?這需要研究面向自治開放的數(shù)據(jù)安全與隱私保護(hù)理論,確保數(shù)據(jù)使用者只能按約定使用數(shù)據(jù),而不能傳播和濫用數(shù)據(jù)。
圍繞上述問題,重點(diǎn)研究方向包括:建立面向自治開放的數(shù)據(jù)組織模型;研究自治環(huán)境下數(shù)據(jù)使用外部軟件行為管控方法;研究開放數(shù)據(jù)權(quán)益保護(hù)方法;研發(fā)面向數(shù)據(jù)自治開放的數(shù)據(jù)資源管理系統(tǒng);在典型領(lǐng)域形成應(yīng)用開放環(huán)境,開展應(yīng)用。
具體包括面向數(shù)據(jù)開放的數(shù)據(jù)組織模型——數(shù)據(jù)盒模型的建模技術(shù)、數(shù)據(jù)使用的“言行一致”管控技術(shù)、數(shù)據(jù)盒加密與隱私保護(hù)技術(shù)、數(shù)據(jù)站組成管理及數(shù)據(jù)站系統(tǒng)的設(shè)計與實(shí)現(xiàn)技術(shù)等。最終的數(shù)據(jù)自治開放應(yīng)用系統(tǒng)的結(jié)構(gòu)如圖4所示。
如前文所述,在數(shù)據(jù)開放環(huán)境下,使用數(shù)據(jù)的軟件或程序是外部的、未知的、無限的。數(shù)據(jù)的組織既要實(shí)現(xiàn)開放使得用戶方便使用,即數(shù)據(jù)外部可見、可理解、可編程,又要防止數(shù)據(jù)權(quán)益受到侵犯,即內(nèi)部可控、可跟蹤、可撤銷。這需要有面向自治開放的數(shù)據(jù)組織模型,涉及以下關(guān)鍵技術(shù)。
圖4 數(shù)據(jù)自治開放應(yīng)用系統(tǒng)的結(jié)構(gòu)
(1)開放數(shù)據(jù)的基本存儲單元建模技術(shù)
開放數(shù)據(jù)的基本存儲單元是為數(shù)據(jù)使用者提供開放數(shù)據(jù)的基本組成單元,稱為“數(shù)據(jù)盒”。自治開放模式將按照數(shù)據(jù)盒的方式向數(shù)據(jù)使用者開放數(shù)據(jù),即呈現(xiàn)給用戶的是一定數(shù)量的數(shù)據(jù)盒。對用戶開放的數(shù)據(jù)是局部數(shù)據(jù),不同類型數(shù)據(jù)、不同用戶需求,數(shù)據(jù)開放的粒度是不同的。如何從數(shù)據(jù)屬性維度(橫向)和數(shù)據(jù)規(guī)模(縱向)劃分?jǐn)?shù)據(jù)粒度,對數(shù)據(jù)使用者使用數(shù)據(jù)、組織數(shù)據(jù)單元是一項(xiàng)關(guān)鍵技術(shù)。并且,對數(shù)據(jù)使用者開放數(shù)據(jù)的基本單元需要具有防泄露、保護(hù)權(quán)益的能力,如何將數(shù)據(jù)防泄露功能和數(shù)據(jù)權(quán)益保護(hù)機(jī)制等封裝在數(shù)據(jù)單元中,是需要解決的關(guān)鍵技術(shù)。
(2)數(shù)據(jù)盒的形式化與計量技術(shù)
數(shù)據(jù)描述、數(shù)據(jù)操作和約束是數(shù)據(jù)盒的基本要素,數(shù)據(jù)盒的使用涉及數(shù)據(jù)盒的交、并、拼接等操作,這需要對數(shù)據(jù)盒進(jìn)行形式化表示。數(shù)據(jù)盒的計量是根據(jù)數(shù)據(jù)使用者提出的要求和目標(biāo),計算使用者所需數(shù)據(jù)盒的數(shù)量和時間等,并進(jìn)行定價,包括數(shù)據(jù)使用需求建模、數(shù)據(jù)需求與數(shù)據(jù)盒自適應(yīng)匹配方法、數(shù)據(jù)盒的計量度量設(shè)計與度量方法、定價規(guī)則和方法等。
數(shù)據(jù)自治開放環(huán)境允許數(shù)據(jù)使用者通過外部軟件訪問以數(shù)據(jù)盒形式存在的特定數(shù)據(jù)資源。為了保護(hù)數(shù)據(jù)利益和數(shù)據(jù)資源的可持續(xù)發(fā)展,應(yīng)當(dāng)對外部軟件訪問數(shù)據(jù)的行為進(jìn)行規(guī)范化和管控。外部軟件行為管控是數(shù)據(jù)自治開放中保障數(shù)據(jù)權(quán)益的重要環(huán)節(jié)。通過監(jiān)控外部軟件訪問軟件的長期行為,提取軟件訪問數(shù)據(jù)的行為特征,并基于這些特征抽象其高層意圖。涉及的關(guān)鍵技術(shù)包括以下幾個方面。
(1)基于業(yè)務(wù)領(lǐng)域知識模型的軟件行為意圖建模技術(shù)
客戶軟件訪問開放的數(shù)據(jù)資源時,應(yīng)當(dāng)表明其訪問數(shù)據(jù)資源的高層意圖。例如某客戶軟件聲稱為了追蹤病癥A的治療和患者愈后情況,需要訪問該病癥的所有醫(yī)療數(shù)據(jù),那么根據(jù)這一意圖,對與病癥A“概念相關(guān)”的數(shù)據(jù)資源的訪問(可能)都是符合其意圖的。這種概念相關(guān)性依賴于特定業(yè)務(wù)領(lǐng)域知識模型以及對開放數(shù)據(jù)資源的語義標(biāo)注。在客戶軟件訪問開放數(shù)據(jù)資源時,對其所有數(shù)據(jù)訪問行為和訪問過的數(shù)據(jù)資源語義進(jìn)行分析,對客戶軟件訪問數(shù)據(jù)資源的實(shí)際意圖進(jìn)行建模。
(2)數(shù)據(jù)使用的言行一致管控技術(shù)
在數(shù)據(jù)自治開放環(huán)境中,外部軟件以黑盒方式在授權(quán)范圍內(nèi)對數(shù)據(jù)進(jìn)行自主訪問。外部軟件在進(jìn)入計算環(huán)境前,應(yīng)當(dāng)先聲明其使用開放數(shù)據(jù)資源的目的,即提供其標(biāo)稱意圖。標(biāo)稱意圖的描述與該軟件的特定業(yè)務(wù)領(lǐng)域密切相關(guān),也應(yīng)當(dāng)表明其將采用的主要數(shù)據(jù)處理方法,作為使用數(shù)據(jù)時行為合法性的評價標(biāo)準(zhǔn)。聲明了合法標(biāo)稱意圖的軟件在實(shí)施數(shù)據(jù)訪問時,其行為序列應(yīng)當(dāng)符合其所聲稱的意圖。根據(jù)軟件行為推測得到的意圖,即軟件行為意圖。當(dāng)軟件的行為意圖(行)與軟件標(biāo)稱意圖(言)不一致時,即表明該軟件對開放環(huán)境造成風(fēng)險。為了驗(yàn)證外部軟件行為是否符合其聲明的意圖,需要相應(yīng)的軟件行為驗(yàn)證技術(shù)。在隔離受控的沙箱環(huán)境中,對數(shù)據(jù)單元訪問接口和環(huán)境的不同安全級別進(jìn)行模擬,留存軟件行為日志進(jìn)行分析驗(yàn)證。在此基礎(chǔ)上,在外部軟件使用數(shù)據(jù)的過程中,還需要采用量化機(jī)制客觀評價外部軟件的行為損害數(shù)據(jù)權(quán)益的風(fēng)險,通過衡量行為意圖偏離標(biāo)稱意圖的程度、行為意圖對數(shù)據(jù)價值和利益相關(guān)方的影響程度、軟件行為意圖判斷準(zhǔn)確度等因素,綜合判定該軟件的行為風(fēng)險等級。
數(shù)據(jù)自治開放以數(shù)據(jù)盒為基本數(shù)據(jù)單元向數(shù)據(jù)使用者開放,因此數(shù)據(jù)資源稀缺性喪失和隱私泄露等問題的防范主要針對數(shù)據(jù)盒。數(shù)據(jù)盒數(shù)據(jù)被竊取、隱私數(shù)據(jù)泄露以及機(jī)密數(shù)據(jù)丟失等問題將導(dǎo)致數(shù)據(jù)權(quán)益受損,會降低數(shù)據(jù)擁有者開放自身數(shù)據(jù)的意愿。數(shù)據(jù)盒權(quán)益保護(hù)涉及以下關(guān)鍵技術(shù)。
(1)數(shù)據(jù)盒加密與隱私保護(hù)
一個數(shù)據(jù)盒可能包含照片、視頻、文本和結(jié)構(gòu)化數(shù)據(jù)等,數(shù)據(jù)盒的使用是外部的、未知的、無限的,傳統(tǒng)的數(shù)據(jù)加密、數(shù)據(jù)隱私技術(shù)無法有效應(yīng)用在數(shù)據(jù)盒中。
在數(shù)據(jù)盒加密方面,數(shù)據(jù)開放下的數(shù)據(jù)加密保護(hù)需要兼顧兩種情形。一是在數(shù)據(jù)盒正常使用情況下,需要考慮數(shù)據(jù)盒的安全性和功能性的權(quán)衡,使得在保證數(shù)據(jù)正常高效操作的前提下最大程度地保證數(shù)據(jù)的機(jī)密性。這需要可調(diào)整的加密技術(shù),將相應(yīng)數(shù)據(jù)項(xiàng)進(jìn)行一層或多層加密,當(dāng)外部軟件請求使用數(shù)據(jù)時,在保證操作(讀、寫、結(jié)合等)順利執(zhí)行的前提下只需要打開所需的層次,使得該層既能完成外部軟件所需的操作,同時又不至于公開更內(nèi)部的層次。二是即便數(shù)據(jù)盒被盜取或控制,也需保持?jǐn)?shù)據(jù)盒中數(shù)據(jù)的機(jī)密性,這需要保證數(shù)據(jù)盒抗盜取和抗逆向拆解的技術(shù)。
在數(shù)據(jù)自治開放模式下,數(shù)據(jù)使用者的軟件在申請使用數(shù)據(jù)盒時,需要有一個數(shù)據(jù)使用說明,說明軟件使用哪些數(shù)據(jù)、以什么樣的方式使用這些數(shù)據(jù)、使用的預(yù)期結(jié)果是什么。因此數(shù)據(jù)盒的隱私保護(hù)主要包括如何判斷一個數(shù)據(jù)使用說明是否涉及隱私泄露、涉及哪些隱私數(shù)據(jù)、嚴(yán)重程度如何。這需要研究新型的隱私認(rèn)知技術(shù)。
(2)基于數(shù)據(jù)覆蓋模型的數(shù)據(jù)拼圖防范技術(shù)
數(shù)據(jù)拼圖是指數(shù)據(jù)使用者能夠通過整合多次獲取的數(shù)據(jù)片段,還原數(shù)據(jù)整體。數(shù)據(jù)拼圖可以由單個使用者多次獲取數(shù)據(jù)片段來完成,也可由多個使用者共同合作,通過共同合作實(shí)現(xiàn)對數(shù)據(jù)片段的拼接。使用數(shù)據(jù)拼圖技術(shù),數(shù)據(jù)使用者可以通過非法的手段,未加授權(quán)地獲取被保護(hù)的數(shù)據(jù)對象,并將其私有化。數(shù)據(jù)拼圖會給數(shù)據(jù)自治開放帶來實(shí)質(zhì)危害,數(shù)據(jù)的使用期限、使用目的等權(quán)屬將難以受到保護(hù)。而且數(shù)據(jù)使用者可以將通過數(shù)據(jù)拼圖獲得的數(shù)據(jù)再次傳播給其他的未被授權(quán)的數(shù)據(jù)使用者,進(jìn)一步造成對原數(shù)據(jù)權(quán)屬的二次侵犯。首先需要構(gòu)造數(shù)據(jù)使用行為的形式化描述,通過追蹤分析數(shù)據(jù)痕跡,動態(tài)構(gòu)造數(shù)據(jù)覆蓋模型,實(shí)時檢測與量化數(shù)據(jù)拼圖的危害性,建立可行的防范以及預(yù)警體系,有效預(yù)防與阻止數(shù)據(jù)拼圖對數(shù)據(jù)權(quán)屬的侵害。
數(shù)據(jù)資源以數(shù)據(jù)盒的形式存放在數(shù)據(jù)站中,每個數(shù)據(jù)站配備一套數(shù)據(jù)資源管理系統(tǒng),用以管理該站下的所有數(shù)據(jù)資源(數(shù)據(jù)盒)。通過數(shù)據(jù)盒虛擬化、應(yīng)用裝載等功能供外部軟件使用數(shù)據(jù)。與傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)(database management system,DBMS)相比,數(shù)據(jù)資源管理系統(tǒng)承擔(dān)的數(shù)據(jù)管理不涉及事務(wù)處理,只有數(shù)據(jù)使用,但也不同于數(shù)據(jù)倉庫,數(shù)據(jù)倉庫用于數(shù)據(jù)開發(fā)利用而不是數(shù)據(jù)開放。涉及的關(guān)鍵技術(shù)包括以下幾個方面。
(1)數(shù)據(jù)站組成與管理技術(shù)
數(shù)據(jù)資源裝載在數(shù)據(jù)盒中,數(shù)據(jù)盒儲備在數(shù)據(jù)站里,因此需要研究數(shù)據(jù)站的邏輯構(gòu)成要素、物理形態(tài)、數(shù)據(jù)盒的組織方法與管理技術(shù),以便能夠快速定位某個數(shù)據(jù)資源的位置,包括通過數(shù)據(jù)資源元數(shù)據(jù)查找數(shù)據(jù)在哪些數(shù)據(jù)盒中,并從大量數(shù)據(jù)盒中快速定位到某一個數(shù)據(jù)盒,為用戶提供數(shù)據(jù)盒,展示數(shù)據(jù)盒的內(nèi)容或數(shù)據(jù)資源樣本。此外,還需要研究數(shù)據(jù)盒的新增、更新、凍結(jié)(即不再對外提供使用)以及瀏覽、查詢、校核等管理技術(shù)。
(2)數(shù)據(jù)盒虛擬化方法
數(shù)據(jù)盒的虛擬化是結(jié)合硬件虛擬化技術(shù),為每個需要訪問特定數(shù)據(jù)盒的外部軟件提供一個操作托盤。各虛擬數(shù)據(jù)盒相互隔離,且對某個虛擬數(shù)據(jù)盒的更改和刪除不會影響其他同源虛擬數(shù)據(jù)盒或原始的數(shù)據(jù)盒。對于數(shù)據(jù)資源管理系統(tǒng)而言,數(shù)據(jù)單元虛擬化技術(shù)直接關(guān)系到數(shù)據(jù)使用的安全性,即保護(hù)數(shù)據(jù)或隱私不會泄露,保障數(shù)據(jù)自治公開以及保證外部軟件使用數(shù)據(jù)規(guī)范受控。需要重點(diǎn)突破不在物理存儲上完全制作一份數(shù)據(jù)的副本的基礎(chǔ)上,實(shí)現(xiàn)虛擬化的虛擬數(shù)據(jù)單元相互隔離、可用,且控制內(nèi)存等資源的使用率,使整個數(shù)據(jù)站能夠支撐大量外部軟件,同時使用虛擬數(shù)據(jù)單元;如何在不進(jìn)行數(shù)據(jù)盒物理復(fù)制的前提下提供虛擬化的數(shù)據(jù)盒,研究虛擬數(shù)據(jù)盒緩存技術(shù)、虛擬數(shù)據(jù)盒變動維護(hù)(更新、撤銷等)和長操作策略等。
(3)NoSQL/Open運(yùn)行庫和SDK
設(shè)計NoSQL/Open(NoSQL open data language)語法規(guī)則,開發(fā)適用于常用操作系統(tǒng)的NoSQL/Open運(yùn)行環(huán)境和運(yùn)行庫,支持主流編程語言的軟件開發(fā)工具包(software development kit,SDK),為外部軟件實(shí)現(xiàn)與數(shù)據(jù)資源管理系統(tǒng)的互操作提供對數(shù)據(jù)站內(nèi)虛擬數(shù)據(jù)盒的訪問。通過NoSQL/Open,可以方便地使用數(shù)據(jù)盒。
(4)系統(tǒng)承載力與數(shù)據(jù)站承載力模型
數(shù)據(jù)資源管理系統(tǒng)和數(shù)據(jù)站也不可能管理無限多的數(shù)據(jù),提供無限的數(shù)據(jù)訪問能力。因此需要給出數(shù)據(jù)資源管理系統(tǒng)承載力模型,用以描述單個數(shù)據(jù)資源管理系統(tǒng)的極限能力、單個數(shù)據(jù)站所能承載的服務(wù)能力極限、與硬件的關(guān)系、數(shù)據(jù)站的擴(kuò)展性與承載能力的關(guān)系等。
面對數(shù)據(jù)開放共享的戰(zhàn)略需求,傳統(tǒng)的面向數(shù)據(jù)自治封閉的數(shù)據(jù)管理技術(shù)無法適應(yīng)數(shù)據(jù)開放的需求,急需開發(fā)面向數(shù)據(jù)開放的數(shù)據(jù)資源管理技術(shù)。本文提出了“數(shù)據(jù)自治開放”這一新型的數(shù)據(jù)資源開放模式,數(shù)據(jù)由數(shù)據(jù)擁有者在法律框架下自行確權(quán)和管理、自行制定開放規(guī)則(即數(shù)據(jù)自治),然后將數(shù)據(jù)開放給使用者,使用者沒有數(shù)據(jù)治理權(quán)。數(shù)據(jù)資源稀缺性不喪失的開放才是可持續(xù)的開放,就像保護(hù)知識產(chǎn)權(quán)才能保護(hù)創(chuàng)新,才能可持續(xù)。數(shù)據(jù)自治開放模式有望成為數(shù)據(jù)開放的基本模式,是政府?dāng)?shù)據(jù)開放共享、企業(yè)及個人數(shù)據(jù)交易、國家數(shù)據(jù)主權(quán)實(shí)現(xiàn)的一種可行方法。
參考文獻(xiàn):
[1]LOUREN O R P. An analysis of open government portals: a perspective of transparency for accountability[J]. Government Information Quarterly, 2015, 32(3): 323-332.
[2]AUER S R, BIZER C, KOBILAROV G, et al.DBpedia: a nucleus for a Web of open data[C]//The 6th International Semantic Web and 2nd Asian Conference, November 11-15, 2007, Busan, Korea. Heidelberg:Springer Press, 2007: 722-735.
[3]YOZWIAK N L, SCHAFFNER S F,SABETI P C. Data sharing: make outbreak research open access[J]. Nature,2015, 518 (7540): 477-479.
[4]鄭大慶, 黃麗華, 張成洪, 等. 大數(shù)據(jù)治理的概念及其參考架構(gòu)[J]. 研究與發(fā)展管理,2017, 29(4): 65-72.ZHENG D Q, HUANG L H, ZHANG C H,et al. Concept and reference architecture of big data governance[J]. R&D Management, 2017: 29(4): 65-72.
[5]朱揚(yáng)勇, 熊贇. 數(shù)據(jù)資源保護(hù)與開發(fā)利用[M].上海: 上??萍嘉墨I(xiàn)出版社, 2008: 133-137.ZHU Y Y, XIONG Y. Protection and utilization of data resources[M].Shanghai: Shanghai Scientific & Technical Publishers, 2008: 133-137.
[6]黃如花, 李白楊, 周力虹, 等. 2005—2015年國內(nèi)外政府?dāng)?shù)據(jù)開放共享研究述評[J]. 情報學(xué)報, 2016, 35(12): 1323-1334.HUANG R H, LI B Y, ZHOU L H, et al.Review on the research of open and sharing government data at home and abroad in 2005-2015 [J]. Journal of the China Society for Scientific and Technical Information, 2016, 35(12): 1323-1334.
[7]鄭磊. 開放政府?dāng)?shù)據(jù)研究:概念辨析、關(guān)鍵因素及其互動關(guān)系[J]. 中國行政管理,2015(11): 13-18.ZHENG L. Study on open government data:definitions, factors and interactions [J].Chinese Public Administration, 2015(11):13-18.
[8]YANG T M, LO J, SHIANG J. To open or not to open?determinants of open government data[J]. Journal of Information Science, 2015, 41(5): 596-612.