武 云
(中鐵四局集團(tuán)建筑裝飾安裝公司,合肥,230022)
所謂大數(shù)據(jù)就是我們可以在更大規(guī)模的數(shù)據(jù)上做到更多我們無(wú)法在小規(guī)模數(shù)據(jù)基礎(chǔ)上完成的事情,簡(jiǎn)單地說(shuō)就是以新方式,在海量規(guī)模數(shù)據(jù)中尋找到新看法、新趨勢(shì),然后構(gòu)建嶄新的價(jià)值。其內(nèi)涵可從四個(gè)方面來(lái)把握,首先是“多”,可以用海量來(lái)形容,且是動(dòng)態(tài)的、隨時(shí)隨地、“野蠻生長(zhǎng)”的;其次是“廣”,無(wú)論是數(shù)據(jù)來(lái)源、格式、乃至種類都很廣泛;再次是“全”,不局限于部分?jǐn)?shù)據(jù)或隨機(jī)抽樣,而是采集全部信息;最后是“深”,用傳統(tǒng)思維來(lái)看似乎不相關(guān)的數(shù)據(jù),利用相關(guān)技術(shù),將“更多”和“更亂”組合到一起,就能發(fā)現(xiàn)原本很可能被忽略的復(fù)雜聯(lián)系,分析出其蘊(yùn)含著某種規(guī)律,這也是大數(shù)據(jù)的魅力所在。
1.1 要樹立數(shù)據(jù)就是資源的理念。大數(shù)據(jù)時(shí)代已經(jīng)成為潮流,開始沖擊我們所處的信息時(shí)代。當(dāng)檔案化身為信息的載體,又轉(zhuǎn)化為數(shù)據(jù),與利用者單向式的“面對(duì)面”傳統(tǒng)式溝通,被多向、互動(dòng)式、精準(zhǔn)定向的模式取代,如果這些數(shù)據(jù)借助于各種各樣的工具在分析的基礎(chǔ)上為我們提供正確的決策,它就是資源。這種資源就像是勞動(dòng)力和資本一樣,確實(shí)能帶來(lái)新的、更大的價(jià)值,換句話說(shuō),數(shù)據(jù)也是生產(chǎn)力。
當(dāng)前,檔案管理的信息資源呈現(xiàn)多元化:一是由原生電子檔案、檔案數(shù)字化成果、經(jīng)濟(jì)社會(huì)運(yùn)行及管理信息的歸檔數(shù)據(jù)庫(kù)等構(gòu)成的檔案內(nèi)容信息資源;二是由檔案目錄、檔案索引等構(gòu)成的檔案管理信息資源;三是基于射頻識(shí)別技術(shù)的檔案實(shí)體信息資源;四是由媒體信息、網(wǎng)站信息、非物質(zhì)文化信息等構(gòu)成的城鄉(xiāng)記憶資源;五是由挖掘信息等構(gòu)成的檔案應(yīng)用信息資源;六是由供電信息、溫濕度信息、安保信息等構(gòu)成的檔案館樓宇管理信息資源。這些資源既可以讓用戶感知和獲取檔案內(nèi)容信息,滿足利用需求;也可以讓管理者感知和獲取檔案管理知識(shí),協(xié)同處理檔案業(yè)務(wù)工作。
1.2 要確立“網(wǎng)絡(luò)為體,創(chuàng)新為用”的檔案管理新模式。以開放的心態(tài)、擔(dān)當(dāng)?shù)挠職鈸肀Т髷?shù)據(jù),摒棄“數(shù)據(jù)小農(nóng)意識(shí)”,利用大數(shù)據(jù)帶來(lái)的機(jī)會(huì),突破“傳統(tǒng)為體,網(wǎng)絡(luò)為用”的原有工作模式和狀態(tài)。如數(shù)字檔案咨詢業(yè)務(wù)將成為常態(tài)。信息咨詢將是檔案館最重要的核心業(yè)務(wù)之一。今后大量的信息咨詢將在網(wǎng)絡(luò)上進(jìn)行,數(shù)字檔案咨詢將引領(lǐng)檔案信息咨詢走出困境。為此。我們需更加注重信息交互和咨詢能力的提升,從過(guò)去被動(dòng)地回應(yīng)需求向主動(dòng)發(fā)現(xiàn)需求轉(zhuǎn)變,充分發(fā)揮自己的學(xué)科優(yōu)勢(shì)和專業(yè)特長(zhǎng),主動(dòng)介入到解決用戶問(wèn)題的過(guò)程中。
1.3 既要進(jìn)行檔案數(shù)字化,更要進(jìn)行檔案信息數(shù)據(jù)化。因?yàn)閿?shù)據(jù)化比數(shù)字化更加重要?!皵?shù)據(jù)化”與“數(shù)字化”這兩者之間有何差異?數(shù)據(jù)是客觀存在的,所謂“數(shù)據(jù)化”就是將一種現(xiàn)象包括文字、方位、溝通等一切事物轉(zhuǎn)化為可以制表分析的可量化的過(guò)程,量化,是數(shù)據(jù)化的核心?!皵?shù)字化”就是將許多復(fù)雜多變的信息轉(zhuǎn)變?yōu)榭梢噪娮踊鎯?chǔ)的數(shù)據(jù),把這些數(shù)據(jù)轉(zhuǎn)變?yōu)橐幌盗卸M(jìn)制代碼,引入計(jì)算機(jī)系統(tǒng),進(jìn)行統(tǒng)一處理,這就是“數(shù)字化”的基本過(guò)程。轉(zhuǎn)化為二進(jìn)制后,一些數(shù)據(jù)可能具備可計(jì)算、可分析、可追蹤、可量化的特性,這一連串過(guò)程便是“數(shù)據(jù)化”。存量檔案信息和增量電子檔案信息只有被數(shù)據(jù)化后,其巨大的潛在價(jià)值才有可能被釋放出來(lái),即讓數(shù)據(jù)自己“發(fā)聲”。檔案數(shù)字化帶來(lái)了檔案信息數(shù)據(jù)化,但數(shù)字化不能替代數(shù)據(jù)化?!按髷?shù)據(jù)”的前提就是利用這些可追溯、可量化的數(shù)據(jù),挖掘數(shù)據(jù)背后的深刻含義。
過(guò)去我們通過(guò)可移植文檔格式,對(duì)文本進(jìn)行數(shù)字化,變成了數(shù)字形態(tài)的檔案資料,存入電腦或者網(wǎng)絡(luò)。但這些數(shù)字化的檔案資料要查詢起來(lái)也不便捷。如果這些數(shù)字文本能夠被數(shù)據(jù)化,不僅文本中的字、詞和段落能夠一一被識(shí)別,利用搜索引擎加以檢索就會(huì)方便很多,還能滿足管理并遵循存儲(chǔ)和存檔數(shù)據(jù)的需求。從某種意義上說(shuō),大數(shù)據(jù)就是所有檔案館現(xiàn)代化必走的一條技術(shù)路徑。
1.4 智慧檔案館建設(shè)既要重“云”和“物”,更要重“數(shù)據(jù)”和“智”。我們?cè)诨I劃智慧檔案館建設(shè)時(shí),一方面要重視信息基礎(chǔ)設(shè)施建設(shè)發(fā)展物聯(lián)網(wǎng)技術(shù)和云技術(shù),更要“撥云散物”見“數(shù)據(jù)”,因?yàn)閿?shù)據(jù)是核心資源,而大數(shù)據(jù)處理不是靠一臺(tái)超級(jí)計(jì)算機(jī),而是靠無(wú)數(shù)臺(tái)計(jì)算機(jī),通過(guò)數(shù)學(xué)模式將數(shù)據(jù)分解、合并直至得到結(jié)果,且大數(shù)據(jù)在處理和運(yùn)用數(shù)據(jù)的方式上與過(guò)去小數(shù)據(jù)的集合迥然不同,大數(shù)據(jù)關(guān)注的是全部數(shù)據(jù),小數(shù)據(jù)關(guān)注的是樣本信息;大數(shù)據(jù)關(guān)注的是概率和趨勢(shì),小數(shù)據(jù)關(guān)注的是精準(zhǔn)度;大數(shù)據(jù)關(guān)注的是關(guān)聯(lián)關(guān)系,小數(shù)據(jù)關(guān)注的是因果關(guān)系;要注重“以用戶為中心”,強(qiáng)調(diào)信息在生產(chǎn)、交換和傳播中的價(jià)值,更要重視大數(shù)據(jù)分析處理的核心技術(shù),加強(qiáng)檔案數(shù)據(jù)產(chǎn)品創(chuàng)新競(jìng)爭(zhēng)力,提升智慧檔案館服務(wù)能力,因?yàn)榇髷?shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。否則智慧檔案館的“大腦”就不夠發(fā)達(dá),“智商”就不夠高,能力就不夠強(qiáng)。
大數(shù)據(jù)不僅是技術(shù)變革,更是檔案管理與服務(wù)領(lǐng)域的變革。大數(shù)據(jù)將徹底改變檔案館原有的運(yùn)營(yíng)和管理方式,一切檔案管理都將循“數(shù)”管理、“智能化”。在大數(shù)據(jù)之下,人、計(jì)算機(jī)、檔案的三元大融合真正成為現(xiàn)實(shí)。
標(biāo)準(zhǔn)規(guī)范是數(shù)字檔案館建設(shè)的基礎(chǔ),也是數(shù)字資源共建共享的基本保障。為了實(shí)現(xiàn)全國(guó)各級(jí)各類數(shù)字檔案館系統(tǒng)的互聯(lián)互通,首先要統(tǒng)一規(guī)則,本著“互聯(lián)、開放、共享”的原則,圍繞數(shù)字資源生命周期,構(gòu)建從資源創(chuàng)建、描述、組織管理、服務(wù)到保存各環(huán)節(jié)的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系,同時(shí)圍繞核心業(yè)務(wù)流程如數(shù)據(jù)的獲取、整合、傳遞、加工、算法等方面建立操作規(guī)范,不斷優(yōu)化信息流,以大數(shù)據(jù)驅(qū)動(dòng)來(lái)將“大數(shù)據(jù)”背后的人與人、信息與信息、人與信息連接起來(lái),將人的需求同各種各樣的以信息為基礎(chǔ)的東西連接起來(lái),以開放、平等、互聯(lián)、參與的方式來(lái)重構(gòu)檔案服務(wù)新模式和管理方式。唯有如此,才能踐行互聯(lián)互通,才能讓用戶找到數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)、使用數(shù)據(jù),真正變“云”為“雨”。
3.1 要做好頂層設(shè)計(jì),方能讓檔案館云平臺(tái)真正成為社會(huì)公眾身邊便捷、高效、不可或缺的信息獲取平臺(tái)。筆者認(rèn)為智慧檔案館云平臺(tái)建設(shè)要圍繞“一個(gè)核心系統(tǒng)、兩個(gè)管理機(jī)制、三個(gè)支撐框架”的目標(biāo)來(lái)架構(gòu):核心系統(tǒng)是存儲(chǔ)系統(tǒng)、訪問(wèn)系統(tǒng)、數(shù)據(jù)分析系統(tǒng);兩個(gè)管理機(jī)制是數(shù)據(jù)總線保證在分布式系統(tǒng)里有良好的流動(dòng)性,調(diào)動(dòng)系統(tǒng)與工作流系統(tǒng),三個(gè)支撐框架是收集、存儲(chǔ)框架,運(yùn)維框架,管理交付框架。其目的是要解決資源共享、自動(dòng)化管理、數(shù)據(jù)和信息整合以及業(yè)務(wù)邏輯的整合問(wèn)題并降低所有成本。
具體地說(shuō),智慧檔案館云平臺(tái)建設(shè)總體框架應(yīng)為四層:
底層為基礎(chǔ)設(shè)施層(IaaS[1]平臺(tái)):主要實(shí)現(xiàn)物理資源(包括計(jì)算設(shè)備、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)資源等)的集成與整合,采用虛擬化技術(shù)“全方位”將其(無(wú)論是同構(gòu)資源還是異構(gòu)資源)形成一個(gè)統(tǒng)一的虛擬資源池,通過(guò)云管理平臺(tái)來(lái)進(jìn)行彈性的調(diào)度,看資源生命周期,進(jìn)行一些分區(qū)管理,優(yōu)化調(diào)整系統(tǒng)基礎(chǔ)架構(gòu),在封裝成基礎(chǔ)設(shè)施層以后,為智慧檔案館提供包括檔案存儲(chǔ)、傳輸網(wǎng)絡(luò)和使用所需的計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源和數(shù)據(jù)資源池。
平臺(tái)層(PaaS[2]平臺(tái)):用戶不需要管理或控制底層的云基礎(chǔ)設(shè)施,包括網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)、存儲(chǔ)等,但客戶能控制部署的核心的應(yīng)用程序,包括接收電子檔案、虛擬庫(kù)房管理、電子檔案身份證管理等;也包括控制運(yùn)行應(yīng)用程序的托管環(huán)境配置,開架系統(tǒng)、開放堆棧等中間件的部署與配置、業(yè)務(wù)數(shù)據(jù)庫(kù)的配置等。
應(yīng)用層(SaaS[3]平臺(tái)):主要提供綜合業(yè)務(wù)服務(wù),包括檔案數(shù)字資源公共利用服務(wù)、檔案政務(wù)服務(wù)、檔案查詢支持服務(wù)、電子檔案身份證查詢服務(wù)等,在整合檔案云平臺(tái)層所提供應(yīng)用軟件基礎(chǔ)上,以服務(wù)的形式對(duì)外提供訪問(wèn)入口。
平臺(tái)層和應(yīng)用層都可以直接以服務(wù)的形式向平臺(tái)用戶提供服務(wù)。
頂層為終端用戶層:主要是一些端到端的流程服務(wù),流程可隨用戶需求的不同,可以被定義、被跟蹤、被執(zhí)行、被修改,是很靈活的,用戶可以采用各種終端界面訪問(wèn)應(yīng)用層所提供的服務(wù)內(nèi)容,如提供云檔案桌面的呼叫業(yè)務(wù)、云檔案館訪問(wèn)與存儲(chǔ)、云手機(jī)訪問(wèn)、云個(gè)人數(shù)字助理等服務(wù)。
總之,基礎(chǔ)設(shè)施層、平臺(tái)層最終都是服務(wù),且都是交互方式。該總體框架的焦點(diǎn)在于把現(xiàn)有的多個(gè)分布、異構(gòu)的區(qū)域性數(shù)字檔案館用戶系統(tǒng)(平臺(tái))融入一個(gè)新的可互操作的“云”中,可以在多個(gè)平臺(tái)之間遷移應(yīng)用程序并實(shí)現(xiàn)操作,支撐各級(jí)檔案館之間融通的有效實(shí)現(xiàn)。眾所周知,沒(méi)有共享,就沒(méi)有大數(shù)據(jù)的優(yōu)越性,也無(wú)法解決個(gè)體數(shù)據(jù)和統(tǒng)計(jì)規(guī)律的問(wèn)題。
3.2 實(shí)施二步走戰(zhàn)略。第一步是建設(shè)數(shù)字檔案館。數(shù)字檔案館是網(wǎng)絡(luò)環(huán)境和數(shù)字環(huán)境下檔案館新的發(fā)展形態(tài),它利用現(xiàn)代信息技術(shù),能很好地處理流逝的業(yè)務(wù)數(shù)據(jù)和歸檔型數(shù)據(jù),對(duì)海量、分布、異構(gòu)的數(shù)字資源進(jìn)行整合,形成有序的整體,通過(guò)各種媒體提供友好、高效的服務(wù),通過(guò)對(duì)多個(gè)分布式異構(gòu)資源庫(kù)的無(wú)縫連接,能夠方便地實(shí)現(xiàn)不同數(shù)字檔案館系統(tǒng)之間的用戶雙向認(rèn)證和資源雙向訪問(wèn),讓人們能夠隨時(shí)隨地獲取信息和知識(shí),其共享的深度和廣度都是傳統(tǒng)檔案館所無(wú)法比擬的。在此基礎(chǔ)上順勢(shì)而生,借勢(shì)而動(dòng),開展第二步建設(shè),即建立集“資源多元、全面感知、綜合處理、雙模存儲(chǔ)、泛在應(yīng)用”于一體的檔案及檔案館管理與運(yùn)營(yíng)綜合支撐平臺(tái),也就是建立智慧檔案館。
一是我們要積極招攬、培養(yǎng)和造就一批數(shù)據(jù)專業(yè)人才,不僅懂得用工具,還懂得用數(shù)據(jù),以適應(yīng)智慧檔案云平臺(tái)建設(shè)的需要,同時(shí)還要借“外腦”,不求所有,但求所用。
二是我們?cè)谕ㄟ^(guò)需求牽引、問(wèn)題導(dǎo)向、案例推理、系統(tǒng)分析等大數(shù)據(jù)研究流程來(lái)建立創(chuàng)新生態(tài)系統(tǒng),不僅要與本市及國(guó)內(nèi)外各系統(tǒng)各類型的檔案館和科研機(jī)構(gòu)通力合作,而且還要與政府部門、企事業(yè)機(jī)構(gòu)以及社會(huì)各界加強(qiáng)多元化跨領(lǐng)域的合作交流,破解各自為政、“數(shù)據(jù)壁壘”、數(shù)據(jù)共享缺失的困境,進(jìn)一步創(chuàng)新檔案信息共享的模式。
三是要充分利用各地區(qū)規(guī)劃建設(shè)的其他數(shù)字化服務(wù)平臺(tái),加強(qiáng)與數(shù)字城市、智慧城市、數(shù)字書屋、科技信息共享平臺(tái)、數(shù)字電視、移動(dòng)服務(wù)等數(shù)字化平臺(tái)的整合,一方面充分利用其網(wǎng)絡(luò)設(shè)施、數(shù)字資源和服務(wù)渠道,另一方面要按照開放建設(shè)的思路,充分考慮與這些平臺(tái)的對(duì)接和高度共享。正如哈佛大學(xué)社會(huì)學(xué)教授加里·金所描述大數(shù)據(jù)時(shí)代那樣:“這是一場(chǎng)革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無(wú)論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程?!睓n案領(lǐng)域也概莫能外。
注釋:
[1] IaaS (Infrastructure as a Service),基礎(chǔ)設(shè)施即服務(wù)。
[2] PaaS (Platform as a Service),平臺(tái)即服務(wù)。
[3] SaaS (Software as a Service),軟件即服務(wù)。
[1]NIST(美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所)關(guān)于云計(jì)算的定義。
[2]《大數(shù)據(jù)正在改變你我》(作者沈小根)《人民日?qǐng)?bào)》2014年6月6日第12版。