◆劉靜濤 高飛 劉超
(1.91977部隊北京 100036;2.91001部隊北京 100036)
隨著信息技術(shù)的持續(xù)發(fā)展和數(shù)據(jù)爆炸性增長,人類正步入大數(shù)據(jù)時代。回顧歷史,人類在計算機(jī)誕生后,數(shù)據(jù)管理技術(shù)短短數(shù)十年時間發(fā)生了天翻地覆的巨大變化,數(shù)據(jù)管理經(jīng)歷了文件系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、現(xiàn)代意義的數(shù)據(jù)中心及大數(shù)據(jù)等階段。
文件系統(tǒng)起止在20世紀(jì)50年代后期至60年代中后期。主要特點(diǎn)是數(shù)據(jù)以文件形式儲存,操作系統(tǒng)對其進(jìn)行統(tǒng)一管理。用戶通過操作系統(tǒng)提供的友好界面來使用文件。文件的物理結(jié)構(gòu)、邏輯結(jié)構(gòu)脫鉤,程序與數(shù)據(jù)是彼此分離的,兩者具備一定的獨(dú)立性。它們分別存放在外存儲器上,相關(guān)應(yīng)用程序可共享一組數(shù)據(jù)資源,以文件為單位的數(shù)據(jù)共享方式。此時主要特征表現(xiàn)有:(1)數(shù)據(jù)可長期存儲。由于存儲設(shè)備采用大容量的磁盤,計算機(jī)可以用來處理大量數(shù)據(jù)并進(jìn)行存儲;(2)數(shù)據(jù)管理功能比較簡單。文件邏輯結(jié)構(gòu)、物理結(jié)構(gòu)彼此脫鉤,程序和數(shù)據(jù)同樣分離;(3)共享數(shù)據(jù)能力不高。如果需用到相同數(shù)據(jù),須建立不同的文件,數(shù)據(jù)無法為對方提供共享,產(chǎn)生大量的數(shù)據(jù)冗余。(4)不具備結(jié)構(gòu)獨(dú)立性。數(shù)據(jù)的結(jié)構(gòu)如果產(chǎn)生變化,需同步修改應(yīng)用程序以及文件的結(jié)構(gòu)定義。
數(shù)據(jù)庫系統(tǒng)起止階段是在20世紀(jì)60年代至80年代中期。此時計算機(jī)已經(jīng)普遍運(yùn)用在數(shù)據(jù)的管理領(lǐng)域,用戶對數(shù)據(jù)的管理技術(shù)設(shè)定了更高的標(biāo)準(zhǔn)。對于企業(yè)和部門,利用數(shù)據(jù)為中心組織數(shù)據(jù),同時減少數(shù)據(jù)的同于,提升數(shù)據(jù)的共享水平,并提高程序與數(shù)據(jù)的獨(dú)立性。若數(shù)據(jù)的邏輯結(jié)構(gòu)一方改變,不涉及物理結(jié)構(gòu),且不影響應(yīng)用程序,減少研制應(yīng)用程序與維護(hù)的費(fèi)用。主要特點(diǎn)表現(xiàn)在:(1)會采用部分?jǐn)?shù)據(jù)模型。這些模型不僅需要表達(dá)數(shù)據(jù)本身特點(diǎn),還要描述數(shù)據(jù)間相關(guān)聯(lián)系。(2)數(shù)據(jù)少量冗余。易修改和擴(kuò)充。針對不同的應(yīng)用程序處理要求、從數(shù)據(jù)庫中篩選出所需數(shù)據(jù),減少數(shù)據(jù)的重復(fù)存儲,目的在于增加新的數(shù)據(jù)結(jié)構(gòu),提升數(shù)據(jù)的一致性。(3)程序與數(shù)據(jù)具備較高獨(dú)立性。(4)采用良好的數(shù)據(jù)接口,便于管理者開發(fā)和使用數(shù)據(jù)庫。(5)對數(shù)據(jù)進(jìn)行統(tǒng)一管理,提供數(shù)據(jù)的安全性、完整性以及并發(fā)控制功能。
數(shù)據(jù)倉庫起止階段在20世紀(jì)80年代中期至20世紀(jì)90年代。隨著數(shù)據(jù)庫系統(tǒng)的建立,各企業(yè)逐步產(chǎn)生和積累了大量歷史數(shù)據(jù),如何高效對這些歷史數(shù)據(jù)進(jìn)行存儲和組織管理,以便進(jìn)一步的分析和處理,成為計算機(jī)領(lǐng)域新的需求。主要特征表現(xiàn)在:(1)數(shù)據(jù)倉庫是面向主題的。主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點(diǎn)方面;(2)數(shù)據(jù)倉庫是集成的。數(shù)據(jù)倉庫是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)進(jìn)行抽取、清理的基礎(chǔ)上,經(jīng)過系統(tǒng)加工、匯總和整理而成;(3)數(shù)據(jù)倉庫是歷史數(shù)據(jù)的積累。數(shù)據(jù)倉庫以只讀的方式保存歷史數(shù)據(jù)。
現(xiàn)代意義的數(shù)據(jù)中心及大數(shù)據(jù)階段是自20世紀(jì)90年代以來。經(jīng)過多年信息化建設(shè),各類的業(yè)務(wù)系統(tǒng)獨(dú)立或混合部署在不同的服務(wù)器上,使用不同的計算、存儲資源,硬件、系統(tǒng)和平臺種類繁多,缺乏統(tǒng)一規(guī)劃和管理,管理復(fù)雜度高,系統(tǒng)資源利用率低。隨著互聯(lián)網(wǎng)的廣泛應(yīng)用,如何從海量、多源、異構(gòu)的互聯(lián)網(wǎng)數(shù)據(jù)中充分發(fā)掘數(shù)據(jù)價值成為迫切需要解決的問題,數(shù)據(jù)中心和大數(shù)據(jù)正是在此背景下技術(shù)發(fā)展的成果。
(1)數(shù)據(jù)中心主要特征:1)統(tǒng)一架構(gòu)下的基礎(chǔ)環(huán)境;2)離散資源聚集形成共享資源池;3)系統(tǒng)資源靈活擴(kuò)展和動態(tài)分配,利用率高;4)簡化管理維護(hù);
(2)大數(shù)據(jù)主要特征:1)海量的數(shù)據(jù)規(guī)模;2)快速的數(shù)據(jù)流轉(zhuǎn);3)多樣的數(shù)據(jù)類型;4)價值密度低。
長久以來,記載著信息和知識的書籍起到了文化傳承、文明積淀、知識傳播的作用。但在信息時代,紙質(zhì)的印刷品已不再是信息的唯一載體,利用計算機(jī)技術(shù),圖書館也由傳統(tǒng)形式逐步發(fā)展出數(shù)字圖書館、網(wǎng)絡(luò)圖書館和云圖書館等多種形式。信息領(lǐng)域的數(shù)據(jù)管理方式也經(jīng)歷了數(shù)據(jù)文件系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)、數(shù)據(jù)倉庫、數(shù)據(jù)中心的發(fā)展歷程,反映出數(shù)據(jù)由簡單的查詢優(yōu)化處理到聯(lián)機(jī)事務(wù)處理(OLTP)、聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(LOAM),直到大數(shù)據(jù)分析的演變。盡管兩者都在發(fā)展變化,但物理空間的“書籍”及“圖書館”與賽博空間的“數(shù)據(jù)”及“數(shù)據(jù)中心”之間在功能定位和發(fā)展思路上有一定的相似之處,同時也存在一些不同點(diǎn)。。
圖書館/圖書館學(xué)基本特征主要有:一是集中性統(tǒng)一性,相對于散落在個人手里和散布在各處的圖書文獻(xiàn),圖書館實(shí)現(xiàn)了集中存放和標(biāo)準(zhǔn)一致的管理,不但藏書種類全、體量大,而且大型圖書館還藏有原稿、孤本等歷史珍品;二是開放性公共性,私人或小團(tuán)體擁有的圖書,由于自身的封閉性,其受眾面是有限的,而圖書館具有公共、開放的屬性,受眾面更廣泛;三是中介性服務(wù)性,與個人或部門藏書的原因和目的不同,圖書館不是為了自己出書和用書而藏書,而是為了更好地服務(wù)于社會大眾,圖書館定位于出版社與讀者之間的中間環(huán)節(jié),起到書籍及知識積累與傳播的促進(jìn)作用;四是專職性權(quán)威性,圖書館配有專職的工作人員,依托館內(nèi)設(shè)施和專業(yè)人員的運(yùn)維管理,不僅圖書來源有正規(guī)渠道,且有能力區(qū)分或鑒定書籍文獻(xiàn)的版本、出處、真跡或贗品等,從而保證了藏書的質(zhì)量和讀者服務(wù)水平。
檔案館/檔案學(xué)基本特征主要有:一是以個體為對象進(jìn)行檔案分類編目,“個體”可以是個人、組織或國家,也可以是裝備或系統(tǒng),如人事檔案、單位檔案、黨史檔案、國家民族檔案,或者樓宇、設(shè)施、裝備檔案等;二是檔案文獻(xiàn)的客觀性,強(qiáng)調(diào)檔案內(nèi)容的真實(shí)性、準(zhǔn)確性和完整性,檔案應(yīng)符合歷史事實(shí),檔案館有責(zé)任鑒定文獻(xiàn)來源的權(quán)威性;三是以時間順序來積累和組織檔案文獻(xiàn),一般以該個體發(fā)生事件的年代及時間為索引,這同信息系統(tǒng)中的數(shù)據(jù)倉庫、數(shù)據(jù)集市等概念類似;四是檔案調(diào)用范圍受控性,一些檔案館的檔案分為公開檔案和受控檔案,由于組織的政治、經(jīng)濟(jì)、軍事秘密,或個人隱私等原因,受控檔案只有特定的人員能夠調(diào)用,部分受控檔案過了脫密期后可轉(zhuǎn)為公開檔案。
表1 圖書館和數(shù)據(jù)中心比較表
?
?
圖書館/檔案館建設(shè)思路對于數(shù)據(jù)中心建設(shè)的借鑒意義主要是:一是要突出數(shù)據(jù)中心建設(shè)的集中統(tǒng)一性和公共開放性(對應(yīng)公共圖書館),需在各層面建設(shè)跨部門、跨地域、跨平臺共享共用的數(shù)據(jù)中心,以解決目前各部門自建自用、分散多頭、重復(fù)低效和不一致難共享的局面。二是加強(qiáng)數(shù)據(jù)中心的網(wǎng)絡(luò)化、服務(wù)化和專業(yè)化(對應(yīng)公共圖書館和檔案館),以數(shù)據(jù)中心和網(wǎng)絡(luò)為中心拓寬數(shù)據(jù)來源和服務(wù)對象,以及解耦各部門的緊耦合關(guān)系;以規(guī)范的元數(shù)據(jù)和統(tǒng)一的數(shù)據(jù)目錄提升信息共享、數(shù)據(jù)服務(wù)的標(biāo)準(zhǔn)化和便利化,以專職機(jī)構(gòu)、專家隊伍和專用平臺工具為依托,確保數(shù)據(jù)自身的質(zhì)量和數(shù)據(jù)系統(tǒng)的穩(wěn)定可靠運(yùn)行。三是利用數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等大數(shù)據(jù)分析技術(shù)(對應(yīng)檔案館),對縱向的歷史數(shù)據(jù)、橫向的多源數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,洞悉規(guī)律和發(fā)現(xiàn)知識,實(shí)現(xiàn)數(shù)據(jù)的增值服務(wù)。四是加強(qiáng)數(shù)據(jù)安全、云安全和安全服務(wù)建設(shè)(對應(yīng)檔案館),實(shí)行全網(wǎng)統(tǒng)一的數(shù)據(jù)資源按需按權(quán)受控訪問。
隨著信息技術(shù)的飛速發(fā)展,我們已進(jìn)入大數(shù)據(jù)時代。建好數(shù)據(jù)、管好數(shù)據(jù)已不僅是在技術(shù)層面的迭代更新、滾動發(fā)展,而是需要在基礎(chǔ)設(shè)施、數(shù)據(jù)資源、應(yīng)用創(chuàng)新、配套措施等方面共同發(fā)力,實(shí)現(xiàn)各要素齊頭并進(jìn)、協(xié)同發(fā)展。
我們通過研究認(rèn)為,在國家大數(shù)據(jù)建設(shè)總體布局下,可按照“四個統(tǒng)一、兩個抓手、一個閉環(huán)”的總體思路開展大數(shù)據(jù)體系建設(shè)。其中,“四個統(tǒng)一”是通過統(tǒng)一開展數(shù)據(jù)中心體系、規(guī)章制度體系、安全防護(hù)體系和人才力量體系等大數(shù)據(jù)保障體系建設(shè),確保數(shù)據(jù)中心有統(tǒng)籌,規(guī)章制度能落實(shí),安全防護(hù)強(qiáng)一致,人才力量有保證?!皟蓚€抓手”是通過一手抓專業(yè)領(lǐng)域大數(shù)據(jù)建設(shè),一手抓業(yè)務(wù)綜合大數(shù)據(jù)建設(shè),形成業(yè)務(wù)大數(shù)據(jù)和業(yè)務(wù)綜合大數(shù)據(jù)統(tǒng)分結(jié)合、齊抓共管、上下聯(lián)動、并行發(fā)展的局面?!耙粋€閉環(huán)”是建立大數(shù)據(jù)“建管用”有機(jī)銜接、以用促建的模式,構(gòu)建用結(jié)合、迭代完善的數(shù)據(jù)生態(tài)環(huán)境。
圖1 大數(shù)據(jù)體系建設(shè)框架
數(shù)據(jù)管理技術(shù)歷經(jīng)文件系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、現(xiàn)代意義的數(shù)據(jù)中心及大數(shù)據(jù)等階段,呈現(xiàn)出分散到集中、數(shù)字化到知識化、信息化到智能化等特征。大數(shù)據(jù)建設(shè)是體系化工程,應(yīng)從基礎(chǔ)設(shè)施、數(shù)據(jù)資源、應(yīng)用創(chuàng)新、配套措施等方面統(tǒng)籌設(shè)計和協(xié)同推進(jìn)。后續(xù)我們會持續(xù)跟蹤數(shù)據(jù)管理技術(shù)發(fā)展最新進(jìn)展,深入開展相關(guān)研究。
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2020年12期