常廣炎 楊彬
摘要:大數(shù)據(jù)熱潮正在席卷各領(lǐng)域,多源數(shù)據(jù)的融合提高了數(shù)據(jù)的價值,當(dāng)前,大數(shù)據(jù)發(fā)展道路上最大的瓶頸是數(shù)據(jù)的流通、共享、開放和隱私保護(hù)問題,其原因為現(xiàn)有的大數(shù)據(jù)相關(guān)技術(shù)的服務(wù)設(shè)計思想都是基于中心化的,如數(shù)據(jù)庫、數(shù)據(jù)中心、云計算,這必然導(dǎo)致數(shù)據(jù)高度集中,形成數(shù)據(jù)孤島,產(chǎn)生數(shù)據(jù)壟斷。區(qū)塊鏈本質(zhì)是一個去中心化的數(shù)據(jù)庫,以去中心化為特征區(qū)塊鏈技術(shù)的出現(xiàn)是對云計算、大數(shù)據(jù)等中心化技術(shù)有益的補(bǔ)充和平衡。區(qū)塊鏈與大數(shù)據(jù)技術(shù)的融合應(yīng)用將創(chuàng)造巨大的社會價值。文章就“區(qū)塊鏈+大數(shù)據(jù)”的技術(shù)框架及融合發(fā)展進(jìn)行闡釋,區(qū)塊鏈與大數(shù)據(jù)必將完美融合,從而產(chǎn)生巨大的社會價值。
關(guān)鍵詞:區(qū)塊鏈;大數(shù)據(jù);去中心化;數(shù)據(jù)庫;共識機(jī)制
中圖分類號:TP311? ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)35-0015-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 大數(shù)據(jù)技術(shù)架構(gòu)
大數(shù)據(jù)處理系統(tǒng)中數(shù)據(jù)源經(jīng)過分析挖掘到最終產(chǎn)生價值數(shù)據(jù)需要5個主要環(huán)節(jié),即數(shù)據(jù)準(zhǔn)備、存儲管理、計算處理、數(shù)據(jù)分析和知識展現(xiàn),其技術(shù)框架如圖1所示。
1.1大數(shù)據(jù)的關(guān)鍵技術(shù)
1)存儲管理
大數(shù)據(jù)存儲管理重點(diǎn)解決復(fù)雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理技術(shù)。大數(shù)據(jù)的可表示、可存儲、可處理及有效傳輸是大數(shù)據(jù)存儲的關(guān)鍵問題等?,F(xiàn)采取的主要技術(shù)為分布式存儲、超融合、刪重和壓縮、虛擬化Hadoop、創(chuàng)建彈性數(shù)據(jù)湖、整合分析等技術(shù)。HadoopDFS是當(dāng)前最流行的分布式存儲系統(tǒng),Ceph和Swift也有一定的用戶群。
2)計算處理
大數(shù)據(jù)的計算處理是指選擇適當(dāng)?shù)乃惴ê湍P瓦M(jìn)行快速的數(shù)據(jù)處理。分布式計算是大數(shù)據(jù)主流的計算架構(gòu),分布式計算框架主流是Hadoop的MapReduce、Storm和Spark。MapReduce是把并行計算、容錯等細(xì)節(jié)問題封裝到庫里,程序員只需要編寫map和reduce函數(shù)就可以。
3)數(shù)據(jù)分析
大數(shù)據(jù)處理與應(yīng)用的關(guān)鍵環(huán)節(jié)是數(shù)據(jù)分析,分析預(yù)測結(jié)果的準(zhǔn)確性決定了大數(shù)據(jù)集合的價值。數(shù)據(jù)分析技術(shù)包括分布式統(tǒng)計分析、未知數(shù)據(jù)的分布式挖掘和深度學(xué)習(xí)技術(shù)。分布式統(tǒng)計分析完成數(shù)據(jù)初期處理,分布式挖掘用以挖掘大數(shù)據(jù)集合中的數(shù)據(jù)相關(guān)性,生成對事務(wù)的描述模式,預(yù)測事務(wù)的發(fā)展趨勢。深度學(xué)習(xí)通過海量數(shù)據(jù)和構(gòu)建機(jī)器學(xué)習(xí)模型,提升數(shù)據(jù)分析能力與預(yù)測結(jié)果的準(zhǔn)確性。
1.2 大數(shù)據(jù)處理過程
大數(shù)據(jù)是重要的基礎(chǔ)性戰(zhàn)略資源和可參與分配的生產(chǎn)要素,其蘊(yùn)藏著巨大價值,可廣泛地應(yīng)用于企業(yè)生產(chǎn)、政府管理和社會治理、民生等領(lǐng)域,經(jīng)過深入挖掘并加以應(yīng)用,能夠產(chǎn)生難以估量的大價值。大數(shù)據(jù)處理過程圖2所示。
1.3 大數(shù)據(jù)技術(shù)發(fā)展趨勢
大數(shù)據(jù)技術(shù)的主要推動力來源于將原始數(shù)據(jù)轉(zhuǎn)化為分析洞察。智能分析、數(shù)據(jù)科學(xué)、數(shù)據(jù)安全、自助服務(wù)將廣泛地應(yīng)用于各個方面,而人工智能、深度學(xué)習(xí)、區(qū)塊鏈、VR、AR技術(shù)的發(fā)展,將使大數(shù)據(jù)的解決方案進(jìn)入新的階段,摩爾定律的邊界將不斷被延伸。
2 區(qū)塊鏈技術(shù)架構(gòu)
區(qū)塊鏈?zhǔn)侨ブ行幕姆植际劫~本數(shù)據(jù)庫。具有透明可信、防偽造、防篡改、可追溯等特點(diǎn)的數(shù)據(jù)鏈,它具有去中心化的、集體維護(hù)、可編程性、數(shù)據(jù)可信等特征。被視為下一代全球信用認(rèn)證和價值互聯(lián)網(wǎng)的基礎(chǔ)。從系統(tǒng)架構(gòu)上看,區(qū)塊鏈可分為核心層、服務(wù)層和用戶層,如圖3所示。
2.1 區(qū)塊鏈的存儲結(jié)構(gòu)
區(qū)塊是一塊存儲空間,用以存儲數(shù)據(jù)。鏈?zhǔn)枪V羔槪脕碇赶蚯耙粋€區(qū)塊位置的指針,同時也是位置數(shù)據(jù)的哈希值。區(qū)塊和區(qū)塊鏈構(gòu)成,如圖4、圖5所示。
2.2 區(qū)塊鏈核心技術(shù)
1)分布式賬本
區(qū)塊鏈上的區(qū)塊按時間順序依次排列,區(qū)塊鏈網(wǎng)絡(luò)中的每個節(jié)點(diǎn)都存儲著整個區(qū)塊鏈的副本,節(jié)點(diǎn)之間共享網(wǎng)絡(luò)交易信息。區(qū)塊鏈網(wǎng)絡(luò)最新增加的區(qū)塊,存儲了全網(wǎng)最近交易的記錄,存儲在區(qū)塊鏈系統(tǒng)中所有節(jié)點(diǎn)共享的信息,稱為分布式賬本。分布式賬本提供區(qū)塊鏈分布式數(shù)據(jù)的存儲機(jī)制,通過不同節(jié)點(diǎn)對賬本的共同記錄與維護(hù),形成區(qū)塊鏈數(shù)據(jù)的公共管理、防篡改、不需要第三方協(xié)調(diào)、驗證的可信任機(jī)制。
2)對等網(wǎng)絡(luò)
對等網(wǎng)絡(luò)又稱點(diǎn)對點(diǎn)通信技術(shù)(P2P),對等連接的互聯(lián)網(wǎng)技術(shù)是區(qū)塊鏈底層拓?fù)浣Y(jié)構(gòu),區(qū)塊鏈各個網(wǎng)絡(luò)節(jié)點(diǎn)使用對等網(wǎng)絡(luò)協(xié)議,網(wǎng)絡(luò)中沒有服務(wù)器和客戶機(jī)的概念,各結(jié)點(diǎn)同級平等,結(jié)點(diǎn)之間可高效安全通信、具有點(diǎn)對點(diǎn)通信多播功能及結(jié)點(diǎn)信息和狀態(tài)的及時獲取。
3)密碼學(xué)應(yīng)用
區(qū)塊鏈中使用非對稱加密、安全散列算法等密碼學(xué)應(yīng)用來確保數(shù)據(jù)安全。非對稱加密算法進(jìn)行加密和解密時需要兩個密鑰。一個公開的密鑰稱為公鑰,一個私密的密鑰稱為私鑰。如果使用公鑰對數(shù)據(jù)進(jìn)行加密,只能使用對應(yīng)的私鑰才能解密;如果使用私鑰進(jìn)行數(shù)據(jù)的簽名,只能使用公鑰才可以驗證(數(shù)字簽名),公鑰和私鑰是一對的。
區(qū)塊鏈通過哈希算法(SHA256密碼散列函數(shù))對一個交易區(qū)塊中的信息進(jìn)行加密。SHA256密碼散列函數(shù)是美國國家安全局設(shè)計的一系列密碼散列函數(shù)之一,其功能是將任意一串?dāng)?shù)據(jù)輸入到SHA256函數(shù),將得到一個與之相對應(yīng)的256位Hash值(散列值),輸入相同的數(shù)據(jù)將得到輸出相同的結(jié)果,輸入的數(shù)據(jù)稍有變化,輸出的結(jié)果將千差萬別,變化的結(jié)果無法事先預(yù)知。正向計算十分容易(由數(shù)據(jù)計算其對應(yīng)的Hash值);逆向計算(俗你“破解”)極其困難(由Hash值計算出其對應(yīng)的數(shù)據(jù)),在當(dāng)前的科學(xué)技術(shù)條件下被認(rèn)為不可能實(shí)現(xiàn)。
4)共識機(jī)制
共識機(jī)制是區(qū)塊鏈系統(tǒng)中實(shí)現(xiàn)不同節(jié)點(diǎn)之間建立信任、獲取權(quán)益的數(shù)學(xué)算法。
去中心化的點(diǎn)對點(diǎn)通信的區(qū)塊鏈網(wǎng)絡(luò),采用共識機(jī)制算法來保持整個系統(tǒng)各結(jié)節(jié)數(shù)據(jù)的一致性。常用的共識機(jī)制算法有工作量證明、權(quán)益證明和股份授權(quán)證明三種算法。
工作量證明PoW(proof-of-work)是依賴機(jī)器進(jìn)行數(shù)學(xué)運(yùn)算來獲取記賬權(quán)(挖礦),礦工們爭著計算出區(qū)塊的哈希特定唯一值,率先算出區(qū)塊唯一哈希的礦工會得到這個區(qū)塊的獎勵,多勞多得。
權(quán)益證明PoS (Proof-of-Stake) 是根據(jù)你持有加密貨幣的數(shù)量和時間,誰持幣的數(shù)量多、時間長,誰就有更大的機(jī)率獲得記賬權(quán)。
股份授權(quán)證明DPOS( Delegated Proof of Stake)指持幣者投出一定數(shù)量代表,代理他們進(jìn)行驗證和記賬,類似于董事會投票方式。
5)智能合約
智能合約是一套以數(shù)字定義的承諾集合,合約參與方可以在上面執(zhí)行這些承諾協(xié)議。一個合約就是一個存儲在區(qū)塊鏈里的應(yīng)用小程序,代碼就是法律,不可以篡改,透明可信,在系統(tǒng)上無須第三方的參與便可由虛擬機(jī)自動執(zhí)行。虛擬機(jī)被沙箱封裝起來,完全隔離,提供區(qū)塊鏈中智能合約的運(yùn)行環(huán)境。
6)跨鏈技術(shù)
跨鏈技術(shù)是解決兩個或多個不同鏈上的資產(chǎn)以及功能狀態(tài)不能互相傳遞、轉(zhuǎn)移、交換的問題??珂溂夹g(shù)能夠增加區(qū)塊鏈的可拓展性,能夠從根本上解決不同公鏈/側(cè)鏈之間交易困難產(chǎn)生的“數(shù)據(jù)孤島”問題。目前主流的跨鏈技術(shù)包括Polkadot異構(gòu)多鏈系統(tǒng)、0x協(xié)議跨鏈技術(shù)、墨客跨鏈技術(shù)等。
3 大數(shù)據(jù)與區(qū)塊鏈主要差異
大數(shù)據(jù)是數(shù)據(jù)集足夠大、足夠復(fù)雜的數(shù)據(jù)信息,或很難用傳統(tǒng)方式來處理的數(shù)據(jù)信息。區(qū)塊鏈能夠承載的數(shù)據(jù)信息是有限的,離大數(shù)據(jù)標(biāo)準(zhǔn)差得很遠(yuǎn)。主要差異如下。
1) 結(jié)構(gòu)化與非結(jié)構(gòu)化
區(qū)塊鏈?zhǔn)堑湫偷慕Y(jié)構(gòu)化數(shù)據(jù),以結(jié)構(gòu)定義的塊并通過HASH指針組成鏈,而大數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),需要處理更多的數(shù)據(jù)信息。
2) 直接與間接
區(qū)塊鏈系統(tǒng)本身就是一個數(shù)據(jù)庫,而大數(shù)據(jù)的價值就是通過對數(shù)據(jù)的深度分析和挖掘,獲取數(shù)據(jù)的相關(guān)性,是一種間接數(shù)據(jù)。
3) 代碼與數(shù)據(jù)
區(qū)塊鏈系統(tǒng)中智能合約就是一個存儲在區(qū)塊鏈里的應(yīng)用小程序,代碼就是法律,不可以篡改,透明可信自動執(zhí)行;大數(shù)據(jù)是用海量數(shù)據(jù)分析和挖掘獲取相關(guān)數(shù)據(jù),用獲得數(shù)據(jù)來實(shí)現(xiàn)其價值。
4 “區(qū)塊鏈+大數(shù)據(jù)”的融合發(fā)展
區(qū)塊鏈與大數(shù)據(jù)作為兩個獨(dú)立的技術(shù)發(fā)展方向在共生發(fā)展,一方面,區(qū)塊鏈為大數(shù)據(jù)突破樊籬提供了可能的解決方案;另一方面,日漸成熟的區(qū)塊鏈技術(shù)也需要大數(shù)據(jù)這樣的平臺支持。
4.1 將區(qū)塊鏈作為單純的技術(shù)融入大數(shù)采集和共享
利用區(qū)塊鏈的分布式存儲技術(shù),提供一種底層技術(shù)支持的數(shù)據(jù)結(jié)構(gòu)和接口,各類應(yīng)用和相應(yīng)的操作型數(shù)據(jù)庫都可以利用其提供的API(應(yīng)用程序接口)和SDK(開發(fā)者工具)將重要信息寫入?yún)^(qū)塊鏈,并可以從區(qū)塊鏈上獲得已有的信息。區(qū)塊鏈作為一種分布式存儲的數(shù)據(jù)結(jié)構(gòu)和接口,可以實(shí)現(xiàn)低成本高效能關(guān)鍵重要數(shù)據(jù)的互聯(lián)和共享,一定程度上打破數(shù)據(jù)孤島并形成多方信任的數(shù)據(jù)鏈條。
4.2 將區(qū)塊鏈作為數(shù)據(jù)源接入大數(shù)據(jù)分析平臺
區(qū)塊鏈技術(shù)實(shí)現(xiàn)了數(shù)據(jù)采集、存儲、流通、整理、交易及計算分析的每一步都被記錄留存,使區(qū)塊鏈數(shù)據(jù)具有可追溯性。從區(qū)塊鏈上獲取數(shù)據(jù)作為大數(shù)據(jù)分析的補(bǔ)充,能夠保證數(shù)據(jù)分析結(jié)果的正確性和數(shù)據(jù)挖掘的有效性。數(shù)據(jù)隱私保護(hù)一直是大數(shù)據(jù)發(fā)展的一個掣肘,大數(shù)據(jù)時代所需要的數(shù)據(jù)互通、數(shù)據(jù)共享和保護(hù)個人隱私之間存在劇烈的沖突,區(qū)塊鏈通過數(shù)字加密技術(shù)能夠只讓那些獲得授權(quán)的用戶才能對數(shù)據(jù)進(jìn)行訪問,數(shù)據(jù)統(tǒng)一存儲在去中心化的區(qū)塊鏈上,在不訪問原始數(shù)據(jù)的情況下進(jìn)行數(shù)據(jù)分析,即可對數(shù)據(jù)的私密性進(jìn)行保護(hù),又可安全地提供社會共享,為大數(shù)據(jù)的發(fā)展提供關(guān)鍵性的幫助。
4.3 將數(shù)據(jù)作為一種資產(chǎn)在區(qū)塊鏈網(wǎng)絡(luò)中進(jìn)行交易
將大數(shù)據(jù)視為一種資產(chǎn),可以通過區(qū)塊鏈技術(shù)實(shí)現(xiàn)其資產(chǎn)的注冊、確權(quán)和交易。區(qū)塊鏈平臺可以支持大數(shù)據(jù)資產(chǎn)的互聯(lián)互換參與交易,通過將大數(shù)據(jù)作為一種資產(chǎn)并和區(qū)塊鏈結(jié)合,是打破信息孤島的另一種解決方案,引入了市場機(jī)制和利益分配機(jī)制,將促進(jìn)大數(shù)據(jù)的實(shí)質(zhì)性流通和產(chǎn)業(yè)化應(yīng)用。
4.4 區(qū)塊鏈和大數(shù)據(jù)促進(jìn)社會共治
通過“區(qū)塊鏈+大數(shù)據(jù)”各地方政府可以將與百姓日常生活相關(guān)的公共服務(wù)流程變得精準(zhǔn)、透明、公開和高效。如今大數(shù)據(jù)能夠處理越來越多的現(xiàn)實(shí)預(yù)測任務(wù),而區(qū)塊鏈技術(shù)能夠通過智能合約來自動運(yùn)行大量的任務(wù),幫助把這些預(yù)測落實(shí)為行動。未來的社會治理中,地方政府作為供給方,在諸如精準(zhǔn)扶貧、公益服務(wù)、政府項目管理、社會養(yǎng)老等方面都可以通過區(qū)塊鏈作為中介,通過智能合約為標(biāo)準(zhǔn)化的公共產(chǎn)品提供自動流程,達(dá)到大大減輕地方政府所需編制,也可以優(yōu)化和提高社會服務(wù)水平。
5 結(jié)語
區(qū)塊鏈技術(shù)和大數(shù)據(jù)技術(shù)是隨著人類社會科技進(jìn)步發(fā)展而來的,大數(shù)據(jù)的核心技術(shù)仍然是統(tǒng)計分析,根據(jù)數(shù)據(jù)的相關(guān)性,人類能夠?qū)ξ磥磉M(jìn)行精準(zhǔn)預(yù)測;而區(qū)塊鏈的底層邏輯是去中心化、自制、開放、共享和透明,是一種全新的底層協(xié)議構(gòu)建模式,將徹底解決互聯(lián)網(wǎng)環(huán)境下的信任問題??萍及l(fā)展的大原則是要更好地服務(wù)于社會,“區(qū)塊鏈+大數(shù)據(jù)”技術(shù)相結(jié)合,將進(jìn)一步促進(jìn)社會協(xié)同融合,加快數(shù)字中國的實(shí)現(xiàn)。
參考文獻(xiàn):
[1] 湯嘯天.加強(qiáng)區(qū)塊鏈、大數(shù)據(jù)分析等科技應(yīng)用[N].中國社會報,2020-03-30.
[2] 井底望天.區(qū)塊鏈與產(chǎn)業(yè)創(chuàng)新[M].人民郵電出版社,2018.
[3] 井底望天.區(qū)塊鏈與大數(shù)據(jù)打造智能經(jīng)濟(jì)[M].人民郵電出版社,2017.
[4] 王琪,許云林.中國區(qū)塊鏈技術(shù)發(fā)展及應(yīng)用研究[J]. 農(nóng)村經(jīng)濟(jì)與科技,2020(6):357-358.
[5] 云瑤,徐少山.區(qū)塊鏈技術(shù)概述[J]. 質(zhì)量與認(rèn)證,2020(5):56-58.
【通聯(lián)編輯:王力】