李 清
(中國船級社廣州分社,廣東 廣州 510000)
(1)數(shù)據(jù)總量大。在進入大數(shù)據(jù)時代之前,數(shù)據(jù)量達到的最大級別通常為TB,而今日大數(shù)據(jù)的數(shù)據(jù)總量可以達到ZB級別,即10億TB,1萬億GB。規(guī)模龐大的不僅僅是數(shù)據(jù)總量,還有每年新增的數(shù)據(jù)量,預(yù)計到今年年底,全球數(shù)據(jù)總量預(yù)計可以達到50.5ZB。
(2)數(shù)據(jù)種類多。進入大數(shù)據(jù)時代,數(shù)據(jù)的類型也已經(jīng)變得多樣,而不再是單一的,但是綜合分析后可以將所有數(shù)據(jù)類型分為三大類:即結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是指存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的行數(shù)據(jù),反之不方便用數(shù)據(jù)庫二維邏輯表來表達實現(xiàn)的數(shù)據(jù)就是非結(jié)構(gòu)化數(shù)據(jù),事實上非機構(gòu)化數(shù)據(jù)是現(xiàn)在我們?nèi)粘Ia(chǎn)生活當(dāng)中最常見到的數(shù)據(jù)類型,它包括了所有格式的辦公文檔、文本、XML、各類報表、圖像、音視頻信息等。半結(jié)構(gòu)化數(shù)據(jù),就是介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù),例如HTML文檔就是一種典型的半結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)類型的多樣化向數(shù)據(jù)處理技術(shù)人員提出了同時高效處理多種不同類型的大數(shù)據(jù)的要求。
(3)價值密度低。數(shù)據(jù)的價值密度可以解釋為單位數(shù)據(jù)所產(chǎn)生的有價值的信息量。而大數(shù)據(jù)的價值密度低的特征,通俗來說就是在一組數(shù)量規(guī)模極大的數(shù)據(jù)當(dāng)中,對于用戶而言真正有價值的數(shù)據(jù)或者用戶真正感興趣的數(shù)據(jù)只占其中極小的一部分。這個特征尤其在非結(jié)構(gòu)化數(shù)據(jù)上體現(xiàn)得最為明顯。
(4)處理速度快。大數(shù)據(jù)時代雖然數(shù)據(jù)總量規(guī)模大幅提速,數(shù)據(jù)類型多樣復(fù)雜,然而對于數(shù)據(jù)處理時間的要求卻反而更高了,這是因為在大數(shù)據(jù)處理的數(shù)據(jù)采集過程當(dāng)中,大量原始數(shù)據(jù)都是有時效性的,這樣一來就要求數(shù)據(jù)處理后得到的有效信息和分析結(jié)果也同樣具有時效性。大數(shù)據(jù)時代數(shù)據(jù)處理工作的運行時間往往是以秒計算的,這也使得數(shù)據(jù)處理技術(shù)人員必須開拓全新的技術(shù)架構(gòu)和路線,才能在指定時間內(nèi),有效地對采集的大量信息進行處理并反饋有效信息。
(5)復(fù)雜性。基于前面的四個特征,大數(shù)據(jù)的處理與分析方法和工具也必定是一個高度復(fù)雜的系統(tǒng)。
大數(shù)據(jù)時代的到來,大數(shù)據(jù)和大數(shù)據(jù)技術(shù)在社會全行業(yè)的廣泛應(yīng)用,自然也引起了檔案管理業(yè)界的高度關(guān)注和思考。事實上從前文所述的數(shù)據(jù)類型看,檔案顯然是屬于非結(jié)構(gòu)性數(shù)據(jù)的一種。因此按照前文所述大數(shù)據(jù)的定義,當(dāng)檔案所涉及的資料量規(guī)模巨大且結(jié)構(gòu)復(fù)雜多樣,以至于無法通過目前主流軟件工作,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助本單位決策更積極目的的資訊時,檔案這一非結(jié)構(gòu)性數(shù)據(jù)集合就理所應(yīng)當(dāng)?shù)爻蔀榱舜髷?shù)據(jù),這也就是檔案大數(shù)據(jù)這一概念的由來。
在檔案大數(shù)據(jù)概念之上,我們還可以提出“大檔案”觀念。關(guān)于“大檔案”觀的內(nèi)涵,有以下幾種種觀點,一種觀點認為“大檔案”觀要求我們將社會產(chǎn)生的一切具有保存和利用價值的信息數(shù)據(jù)記錄列入檔案中,概括來說就是“一切社會信息皆可歸檔”;另一種觀點認為所謂“大檔案”其實是檔案這一概念的擴大化,認為所有信息記錄都能成為檔案,因為所有信息記錄都可以產(chǎn)生巨大的價值,一些曾經(jīng)因其單位信息價值過低而無法作為“檔案”保存的信息,在大數(shù)據(jù)時代中其價值將得以充分發(fā)揮,因為此時全部信息將被看作一個不可分割的整體。如此這些信息就完全具有了檔案的屬性。無論持哪一種觀點,在大數(shù)據(jù)時代來臨之前,普通民眾對于檔案的印象基本就是政府的人事和文書信息記錄,這種“大檔案”觀念是根本沒有人能想象出來的。進入了大數(shù)據(jù)時代之后,一方面大數(shù)據(jù)采集、處理、分析、應(yīng)用技術(shù)給予了這一觀念可行性的土壤;另一方面,新時期檔案建立和管理工作要求更貼近廣大民眾日常生活需求,這就要求檔案管理機構(gòu)需要收集社會上所有有價值的各種類型的數(shù)據(jù),真正做到包羅萬象,然后將這些數(shù)據(jù)統(tǒng)一入檔,并實施高度智能化,人性化的系統(tǒng)管理。
隨著大數(shù)據(jù)時代的到來,傳統(tǒng)檔案信息數(shù)據(jù)發(fā)展成為檔案大數(shù)據(jù)已經(jīng)是大勢所趨,這為這一時期檔案信息化建設(shè)工作提出了全新的要求和挑戰(zhàn)。另一方面,大數(shù)據(jù)技術(shù)應(yīng)用又為檔案信息化建設(shè)工作提供了強勁的技術(shù)創(chuàng)新動力。
3.1.1 大數(shù)據(jù)時代檔案信息采集來源的變化
一方面,中國目前是全球網(wǎng)民數(shù)量最多的國家,網(wǎng)民人數(shù)達8.54億,網(wǎng)站數(shù)量達518萬。如此龐大的網(wǎng)絡(luò)人口基數(shù)使得在互聯(lián)網(wǎng)產(chǎn)生的所有類型的數(shù)據(jù)總量長期持續(xù)暴漲,從而使得互聯(lián)網(wǎng)上數(shù)據(jù)成為我國檔案信息的主要來源之一。另一方面,檔案信息的來源開始更多的關(guān)注廣大民眾日常生活的民生領(lǐng)域,這使得包括社交通信,消費信息,出行紀錄等以往不會歸入檔案的瑣細信息開始為檔案管理人員所注意,并體現(xiàn)了檔案服務(wù)正轉(zhuǎn)變?yōu)檎嬲嫦蛏鐣癖姷姆?wù)的趨勢。
3.1.2 大數(shù)據(jù)時代檔案信息采集內(nèi)容的變化
大數(shù)據(jù)及大數(shù)據(jù)技術(shù)對檔案信息采集工作的影響不僅限于采集來源,還包括采集得到的信息內(nèi)容。具體而言大數(shù)據(jù)及其技術(shù)首先改變的是檔案信息采集內(nèi)容的容量,2018年,全國各級國家檔案館館藏數(shù)達7.5億卷。加之全國各級各類檔案館的擴改建工程項目目前正在逐步完工,檔案館館藏容量勢必大大增加,檔案館必然要全面完成存量數(shù)字化、增量電子化任務(wù),以滿足儲存高達PB規(guī)模級別的海量信息。其次大數(shù)據(jù)及其技術(shù)還改變的是檔案信息采集內(nèi)容的結(jié)構(gòu)類型。傳統(tǒng)的檔案信息采集工作,采集到的信息主要形式有文檔,圖片,音視頻信息等,進入大數(shù)據(jù)時代,由于檔案信息管理服務(wù)開始進入多個民生服務(wù)領(lǐng)域,社交應(yīng)用軟件即時通信等在內(nèi)的新興信息類型都成為了可以歸入檔案的有價值信息類型。
3.1.3 大數(shù)據(jù)時代檔案信息來源采集方式的變化
此外互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)除了總量大,還有更新快,傳播廣,時效性強等一系列特點,這些特點促使檔案業(yè)務(wù)人員在互聯(lián)網(wǎng)收集信息數(shù)據(jù)時采取高時效性的獲取方式,也就是運用網(wǎng)站API,網(wǎng)絡(luò)爬蟲等技術(shù)的網(wǎng)絡(luò)數(shù)據(jù)實時捕捉方法。
3.2.1 大數(shù)據(jù)存儲技術(shù)在檔案信息管理工作上的應(yīng)用
進入大數(shù)據(jù)時代,和其他大數(shù)據(jù)一樣,檔案大數(shù)據(jù)整逐年呈冪級數(shù)增長,傳統(tǒng)的檔案數(shù)據(jù)儲存設(shè)備已經(jīng)完全無法適應(yīng)大數(shù)據(jù)時代的需求,檔案管理界與社會其他行業(yè)一樣,亟需一種安全穩(wěn)定高效的大總量數(shù)據(jù)的長期保存和實時遷移途徑。目前數(shù)據(jù)存儲環(huán)境虛擬化已經(jīng)成為現(xiàn)實。所謂數(shù)據(jù)存儲虛擬化,就是將原有的存儲服務(wù)器進行軟件虛擬化,然后將其劃分為若干個獨立存儲服務(wù)空間,這樣在同一臺服務(wù)器上的不同的存儲服務(wù)空間可以同時為不同對象提供不同類型數(shù)據(jù)存儲服務(wù),它對非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)是最佳存儲方式。檔案管理機構(gòu)在為檔案數(shù)據(jù)存儲在選擇存儲方式時,要根據(jù)服務(wù)器類型數(shù)量和要處理的數(shù)據(jù)對象兩個重要因素,選擇適合的開放系統(tǒng)存儲方式。
3.2.2 大數(shù)據(jù)分析技術(shù)在檔案信息管理工作中的應(yīng)用
在大數(shù)據(jù)時代,面對龐大的數(shù)據(jù),尤其是其中絕大部分的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),如果沒有從中提取高價值信息的手段,無法對數(shù)據(jù)進行有效的開發(fā)利用,那么數(shù)據(jù)的價值往往得不到實現(xiàn)。在這種情況下,大數(shù)據(jù)分析就是這么一種通過對數(shù)據(jù)信息進行高效精準(zhǔn)的定量分析從分提取信息蘊含的價值的手段。對于檔案管理服務(wù)機構(gòu)而言,如果能夠運用好大數(shù)據(jù)分析這個手段,檔案管理機構(gòu)還可以利用分析結(jié)果,為政府機關(guān)和社會企業(yè)提供決策意見咨詢,幫助提高政府的行政效率和企業(yè)的經(jīng)濟效益,從而提高社會整體效益。
由于大數(shù)據(jù)的各種特征,檔案管理者在維護檔案數(shù)據(jù)時,數(shù)據(jù)會時常出現(xiàn)不一致、不精確、不完整、過時等數(shù)據(jù)質(zhì)量問題。因此基于數(shù)據(jù)生命周期對檔案數(shù)據(jù)資源進行數(shù)據(jù)質(zhì)量管理是極具必要性的。數(shù)據(jù)質(zhì)量管理通常分為數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)使用三個階段。在數(shù)據(jù)預(yù)處理階段,通過對數(shù)據(jù)實行萃?。‥xtract)、轉(zhuǎn)換(Transform)、加載(Load)至目的端這三個預(yù)處理過程(簡稱ETL),就可以達到數(shù)據(jù)清洗和格式化的目的。而在數(shù)據(jù)存儲和使用階段,為滿足數(shù)據(jù)存儲與管理的要求,推薦使用擁有吞吐量高、可拓展性、高并發(fā)讀寫、實時性等特點的非關(guān)系數(shù)據(jù)庫。
檔案能夠反映某一時期一個國家的社會全貌,是無價的民族和社會財富。大數(shù)據(jù)時代的到來,一方面為檔案服務(wù)全面走向大眾提供了一個絕佳的契機,另一方面無疑給檔案管理工作提出了更高的技術(shù)與體系革新的要求。大數(shù)據(jù)時代檔案管理工作將會越來越復(fù)雜,檔案管理機構(gòu)在日常數(shù)據(jù)管理維護工作中必然還會遇到許多層出不窮的新問題。這既需要國家和政府加強對檔案建設(shè)的重視和支持,又需要各檔案管理機構(gòu)和檔案事業(yè)工作者砥礪奮進,積極進取,有所創(chuàng)新。