武 云
(中鐵四局集團建筑裝飾安裝公司,合肥,230022)
所謂大數據就是我們可以在更大規(guī)模的數據上做到更多我們無法在小規(guī)模數據基礎上完成的事情,簡單地說就是以新方式,在海量規(guī)模數據中尋找到新看法、新趨勢,然后構建嶄新的價值。其內涵可從四個方面來把握,首先是“多”,可以用海量來形容,且是動態(tài)的、隨時隨地、“野蠻生長”的;其次是“廣”,無論是數據來源、格式、乃至種類都很廣泛;再次是“全”,不局限于部分數據或隨機抽樣,而是采集全部信息;最后是“深”,用傳統(tǒng)思維來看似乎不相關的數據,利用相關技術,將“更多”和“更亂”組合到一起,就能發(fā)現原本很可能被忽略的復雜聯系,分析出其蘊含著某種規(guī)律,這也是大數據的魅力所在。
1.1 要樹立數據就是資源的理念。大數據時代已經成為潮流,開始沖擊我們所處的信息時代。當檔案化身為信息的載體,又轉化為數據,與利用者單向式的“面對面”傳統(tǒng)式溝通,被多向、互動式、精準定向的模式取代,如果這些數據借助于各種各樣的工具在分析的基礎上為我們提供正確的決策,它就是資源。這種資源就像是勞動力和資本一樣,確實能帶來新的、更大的價值,換句話說,數據也是生產力。
當前,檔案管理的信息資源呈現多元化:一是由原生電子檔案、檔案數字化成果、經濟社會運行及管理信息的歸檔數據庫等構成的檔案內容信息資源;二是由檔案目錄、檔案索引等構成的檔案管理信息資源;三是基于射頻識別技術的檔案實體信息資源;四是由媒體信息、網站信息、非物質文化信息等構成的城鄉(xiāng)記憶資源;五是由挖掘信息等構成的檔案應用信息資源;六是由供電信息、溫濕度信息、安保信息等構成的檔案館樓宇管理信息資源。這些資源既可以讓用戶感知和獲取檔案內容信息,滿足利用需求;也可以讓管理者感知和獲取檔案管理知識,協同處理檔案業(yè)務工作。
1.2 要確立“網絡為體,創(chuàng)新為用”的檔案管理新模式。以開放的心態(tài)、擔當的勇氣擁抱大數據,摒棄“數據小農意識”,利用大數據帶來的機會,突破“傳統(tǒng)為體,網絡為用”的原有工作模式和狀態(tài)。如數字檔案咨詢業(yè)務將成為常態(tài)。信息咨詢將是檔案館最重要的核心業(yè)務之一。今后大量的信息咨詢將在網絡上進行,數字檔案咨詢將引領檔案信息咨詢走出困境。為此。我們需更加注重信息交互和咨詢能力的提升,從過去被動地回應需求向主動發(fā)現需求轉變,充分發(fā)揮自己的學科優(yōu)勢和專業(yè)特長,主動介入到解決用戶問題的過程中。
1.3 既要進行檔案數字化,更要進行檔案信息數據化。因為數據化比數字化更加重要?!皵祿迸c“數字化”這兩者之間有何差異?數據是客觀存在的,所謂“數據化”就是將一種現象包括文字、方位、溝通等一切事物轉化為可以制表分析的可量化的過程,量化,是數據化的核心。“數字化”就是將許多復雜多變的信息轉變?yōu)榭梢噪娮踊鎯Φ臄祿?,把這些數據轉變?yōu)橐幌盗卸M制代碼,引入計算機系統(tǒng),進行統(tǒng)一處理,這就是“數字化”的基本過程。轉化為二進制后,一些數據可能具備可計算、可分析、可追蹤、可量化的特性,這一連串過程便是“數據化”。存量檔案信息和增量電子檔案信息只有被數據化后,其巨大的潛在價值才有可能被釋放出來,即讓數據自己“發(fā)聲”。檔案數字化帶來了檔案信息數據化,但數字化不能替代數據化?!按髷祿钡那疤峋褪抢眠@些可追溯、可量化的數據,挖掘數據背后的深刻含義。
過去我們通過可移植文檔格式,對文本進行數字化,變成了數字形態(tài)的檔案資料,存入電腦或者網絡。但這些數字化的檔案資料要查詢起來也不便捷。如果這些數字文本能夠被數據化,不僅文本中的字、詞和段落能夠一一被識別,利用搜索引擎加以檢索就會方便很多,還能滿足管理并遵循存儲和存檔數據的需求。從某種意義上說,大數據就是所有檔案館現代化必走的一條技術路徑。
1.4 智慧檔案館建設既要重“云”和“物”,更要重“數據”和“智”。我們在籌劃智慧檔案館建設時,一方面要重視信息基礎設施建設發(fā)展物聯網技術和云技術,更要“撥云散物”見“數據”,因為數據是核心資源,而大數據處理不是靠一臺超級計算機,而是靠無數臺計算機,通過數學模式將數據分解、合并直至得到結果,且大數據在處理和運用數據的方式上與過去小數據的集合迥然不同,大數據關注的是全部數據,小數據關注的是樣本信息;大數據關注的是概率和趨勢,小數據關注的是精準度;大數據關注的是關聯關系,小數據關注的是因果關系;要注重“以用戶為中心”,強調信息在生產、交換和傳播中的價值,更要重視大數據分析處理的核心技術,加強檔案數據產品創(chuàng)新競爭力,提升智慧檔案館服務能力,因為大數據技術的戰(zhàn)略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業(yè)化處理,通過“加工”實現數據的“增值”。否則智慧檔案館的“大腦”就不夠發(fā)達,“智商”就不夠高,能力就不夠強。
大數據不僅是技術變革,更是檔案管理與服務領域的變革。大數據將徹底改變檔案館原有的運營和管理方式,一切檔案管理都將循“數”管理、“智能化”。在大數據之下,人、計算機、檔案的三元大融合真正成為現實。
標準規(guī)范是數字檔案館建設的基礎,也是數字資源共建共享的基本保障。為了實現全國各級各類數字檔案館系統(tǒng)的互聯互通,首先要統(tǒng)一規(guī)則,本著“互聯、開放、共享”的原則,圍繞數字資源生命周期,構建從資源創(chuàng)建、描述、組織管理、服務到保存各環(huán)節(jié)的數據標準規(guī)范體系,同時圍繞核心業(yè)務流程如數據的獲取、整合、傳遞、加工、算法等方面建立操作規(guī)范,不斷優(yōu)化信息流,以大數據驅動來將“大數據”背后的人與人、信息與信息、人與信息連接起來,將人的需求同各種各樣的以信息為基礎的東西連接起來,以開放、平等、互聯、參與的方式來重構檔案服務新模式和管理方式。唯有如此,才能踐行互聯互通,才能讓用戶找到數據、存儲數據、使用數據,真正變“云”為“雨”。
3.1 要做好頂層設計,方能讓檔案館云平臺真正成為社會公眾身邊便捷、高效、不可或缺的信息獲取平臺。筆者認為智慧檔案館云平臺建設要圍繞“一個核心系統(tǒng)、兩個管理機制、三個支撐框架”的目標來架構:核心系統(tǒng)是存儲系統(tǒng)、訪問系統(tǒng)、數據分析系統(tǒng);兩個管理機制是數據總線保證在分布式系統(tǒng)里有良好的流動性,調動系統(tǒng)與工作流系統(tǒng),三個支撐框架是收集、存儲框架,運維框架,管理交付框架。其目的是要解決資源共享、自動化管理、數據和信息整合以及業(yè)務邏輯的整合問題并降低所有成本。
具體地說,智慧檔案館云平臺建設總體框架應為四層:
底層為基礎設施層(IaaS[1]平臺):主要實現物理資源(包括計算設備、存儲設備、網絡設備、數據資源等)的集成與整合,采用虛擬化技術“全方位”將其(無論是同構資源還是異構資源)形成一個統(tǒng)一的虛擬資源池,通過云管理平臺來進行彈性的調度,看資源生命周期,進行一些分區(qū)管理,優(yōu)化調整系統(tǒng)基礎架構,在封裝成基礎設施層以后,為智慧檔案館提供包括檔案存儲、傳輸網絡和使用所需的計算資源、存儲資源、網絡資源和數據資源池。
平臺層(PaaS[2]平臺):用戶不需要管理或控制底層的云基礎設施,包括網絡、服務器、操作系統(tǒng)、存儲等,但客戶能控制部署的核心的應用程序,包括接收電子檔案、虛擬庫房管理、電子檔案身份證管理等;也包括控制運行應用程序的托管環(huán)境配置,開架系統(tǒng)、開放堆棧等中間件的部署與配置、業(yè)務數據庫的配置等。
應用層(SaaS[3]平臺):主要提供綜合業(yè)務服務,包括檔案數字資源公共利用服務、檔案政務服務、檔案查詢支持服務、電子檔案身份證查詢服務等,在整合檔案云平臺層所提供應用軟件基礎上,以服務的形式對外提供訪問入口。
平臺層和應用層都可以直接以服務的形式向平臺用戶提供服務。
頂層為終端用戶層:主要是一些端到端的流程服務,流程可隨用戶需求的不同,可以被定義、被跟蹤、被執(zhí)行、被修改,是很靈活的,用戶可以采用各種終端界面訪問應用層所提供的服務內容,如提供云檔案桌面的呼叫業(yè)務、云檔案館訪問與存儲、云手機訪問、云個人數字助理等服務。
總之,基礎設施層、平臺層最終都是服務,且都是交互方式。該總體框架的焦點在于把現有的多個分布、異構的區(qū)域性數字檔案館用戶系統(tǒng)(平臺)融入一個新的可互操作的“云”中,可以在多個平臺之間遷移應用程序并實現操作,支撐各級檔案館之間融通的有效實現。眾所周知,沒有共享,就沒有大數據的優(yōu)越性,也無法解決個體數據和統(tǒng)計規(guī)律的問題。
3.2 實施二步走戰(zhàn)略。第一步是建設數字檔案館。數字檔案館是網絡環(huán)境和數字環(huán)境下檔案館新的發(fā)展形態(tài),它利用現代信息技術,能很好地處理流逝的業(yè)務數據和歸檔型數據,對海量、分布、異構的數字資源進行整合,形成有序的整體,通過各種媒體提供友好、高效的服務,通過對多個分布式異構資源庫的無縫連接,能夠方便地實現不同數字檔案館系統(tǒng)之間的用戶雙向認證和資源雙向訪問,讓人們能夠隨時隨地獲取信息和知識,其共享的深度和廣度都是傳統(tǒng)檔案館所無法比擬的。在此基礎上順勢而生,借勢而動,開展第二步建設,即建立集“資源多元、全面感知、綜合處理、雙模存儲、泛在應用”于一體的檔案及檔案館管理與運營綜合支撐平臺,也就是建立智慧檔案館。
一是我們要積極招攬、培養(yǎng)和造就一批數據專業(yè)人才,不僅懂得用工具,還懂得用數據,以適應智慧檔案云平臺建設的需要,同時還要借“外腦”,不求所有,但求所用。
二是我們在通過需求牽引、問題導向、案例推理、系統(tǒng)分析等大數據研究流程來建立創(chuàng)新生態(tài)系統(tǒng),不僅要與本市及國內外各系統(tǒng)各類型的檔案館和科研機構通力合作,而且還要與政府部門、企事業(yè)機構以及社會各界加強多元化跨領域的合作交流,破解各自為政、“數據壁壘”、數據共享缺失的困境,進一步創(chuàng)新檔案信息共享的模式。
三是要充分利用各地區(qū)規(guī)劃建設的其他數字化服務平臺,加強與數字城市、智慧城市、數字書屋、科技信息共享平臺、數字電視、移動服務等數字化平臺的整合,一方面充分利用其網絡設施、數字資源和服務渠道,另一方面要按照開放建設的思路,充分考慮與這些平臺的對接和高度共享。正如哈佛大學社會學教授加里·金所描述大數據時代那樣:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程?!睓n案領域也概莫能外。
注釋:
[1] IaaS (Infrastructure as a Service),基礎設施即服務。
[2] PaaS (Platform as a Service),平臺即服務。
[3] SaaS (Software as a Service),軟件即服務。
[1]NIST(美國國家標準與技術研究所)關于云計算的定義。
[2]《大數據正在改變你我》(作者沈小根)《人民日報》2014年6月6日第12版。