蔣 映
(湖南大眾傳媒職業(yè)技術(shù)學院 圖書館,湖南 長沙 410100)
高校數(shù)字圖書館建設(shè)歷經(jīng)十多年發(fā)展,在數(shù)字資源、特色技術(shù)以及網(wǎng)絡(luò)服務(wù)等方面都取得了較好效果,但同時也存在著不少問題。首先,設(shè)備難以做到物盡其用。由于缺乏科學論證以及設(shè)備更新速度較快,一些巨資引進的存儲、服務(wù)、安全等設(shè)備,還沒有完全使用,就面臨“淘汰”。其次,資源雷同導致效率不高。高校采購的知網(wǎng)數(shù)據(jù)庫、萬方數(shù)據(jù)庫、超星圖書館等國內(nèi)外數(shù)據(jù)庫,有相當部分內(nèi)容存在資源雷同現(xiàn)象。最后,管理欠缺造成資源浪費。高校數(shù)字圖書館中,采用的軟硬件管理平臺,相互之間兼容性差,加之更新頻繁,從而出現(xiàn)資源浪費。
自2006年,谷歌在“Google101計劃”中提出“云”概念理論后,圖書館界認為,云計算對于數(shù)字圖書館建設(shè)具有重要現(xiàn)實意義,對于信息存儲、信息處理、數(shù)據(jù)運轉(zhuǎn)、資源共享,有著深刻影響。
何謂“云計算”?谷歌大中華區(qū)總裁李開復認為:互聯(lián)網(wǎng)是一片“云”,“云計算”就是云上的海量數(shù)據(jù)存儲;無數(shù)的軟件和服務(wù)置于“云”中;服務(wù)和軟件均構(gòu)筑于各種標準和協(xié)議之上;只要借助一個瀏覽器,就可以通過各種設(shè)備(手機.電視、汽車、手表等等)連接上“云”。[1]從學理上說,作為一種基于互聯(lián)網(wǎng)的超級運算模式,“云計算”是分布式計算、并行計算、網(wǎng)格計算的一種發(fā)展。云計算的基本原理是運用非本地或遠程服務(wù)器(集群)的分布式計算機,為互聯(lián)網(wǎng)用戶提供存儲、計算以及軟硬件等各種服務(wù)。[2]
不難發(fā)現(xiàn),云計算是一種基于互聯(lián)網(wǎng),能夠?qū)崿F(xiàn)超級計算的理念和模式。要實現(xiàn)云計算,需要有多種技術(shù)手段,通過軟件對硬件資源實行虛擬化管理、調(diào)度,從而形成一個虛擬化的資源池,將PC電腦、手機等各種設(shè)備上的信息、處理器等集中起來,實現(xiàn)協(xié)同運作。
云計算有許多優(yōu)點。云計算中的互聯(lián)網(wǎng)軟件、硬件都將成為一種資源,可以提供給需要的用戶使用。像Google App Engine,用戶可以使用谷歌Web應(yīng)用所需要的軟硬件平臺,進行所需要的設(shè)計開發(fā)。在云計算中,用戶還可以對資源進行擴展、配置,滿足使用需求變化。哈根達斯公司使用Salesforce.tom,在自已公司的CRM系統(tǒng)中,根據(jù)業(yè)務(wù)改進需求,動態(tài)刪除、添加應(yīng)用模塊。用戶使用云計算中的資源,只需按照實際使用情況付費。華盛頓郵報租用亞馬遜的虛擬服務(wù)器,進行報社文檔轉(zhuǎn)換,使用1407個小時,費用不到150美元。
云計算的主要技術(shù)有虛擬化使用、分布式存儲、海量化處理。這些技術(shù)能夠解決互聯(lián)網(wǎng)平臺的周期管理、大規(guī)模存儲通信等問題,做到資源按需使用按量收費。
云計算虛擬化使用技術(shù)。用戶使用云計算虛擬化技術(shù),可以訪問的資源,可以是網(wǎng)絡(luò)、內(nèi)存、存儲等硬件資源,也可以是應(yīng)用程序、系統(tǒng)等軟件資源。由于提供了標準的接口,這一技術(shù)能夠為用戶簡化訪問、管理各類IT資源的過程。不論是最終用戶,應(yīng)用程序抑或是服務(wù),都可以成為虛擬化技術(shù)的使用者。虛擬化技術(shù)使用的范圍也較為廣泛,可以是服務(wù)器,也可以是存儲設(shè)備,還可以是系統(tǒng)、軟件、網(wǎng)絡(luò)等。
云計算分布式存儲技術(shù)。互聯(lián)網(wǎng)中,過大的存儲需求,往往單臺服務(wù)器存儲有困難,運用云計算分布式存儲技術(shù),可以調(diào)動多臺服務(wù)器來滿足超大量的存儲需求。不過,這一技術(shù)應(yīng)用時,需要將存儲資源抽象表示,并統(tǒng)一管理,還要保證存儲數(shù)據(jù)的安全可靠。谷歌公司設(shè)計的谷歌文件系統(tǒng),是云計算分布式存儲技術(shù)的代表。谷歌文件系統(tǒng),考慮節(jié)點實效問題的大量存在,設(shè)計了自動恢復功能;系統(tǒng)參數(shù)較為特殊,可以包含海量小文件;可以通過文件追加操作,提高讀寫速度。
云計算海量化處理技術(shù)。數(shù)字圖書館建設(shè)中,許多數(shù)據(jù)的統(tǒng)計和分析都是海量級別的。單臺計算機由于性能和可靠性等問題,不能滿足處理海量數(shù)據(jù)的需求。云計算海量化處理技術(shù)基于互聯(lián)網(wǎng),將海量的處理任務(wù),分解成子任務(wù),在不同的計算機中完成。
高校數(shù)字圖書館建設(shè)運用云計算,主要體現(xiàn)在信息存儲、信息處理、數(shù)據(jù)運轉(zhuǎn)、資源共享等四個方面。
(一)運用云計算實現(xiàn)信息存儲虛擬化。高校數(shù)字圖書館的建設(shè)及其運轉(zhuǎn),要求數(shù)據(jù)能夠共享備份,并能實現(xiàn)調(diào)整存儲訪問。云計算的虛擬存儲系統(tǒng),能夠滿足高校數(shù)字圖書館在這方面的要求。云計算的虛擬存儲系統(tǒng),還能適應(yīng)高校數(shù)字圖書館海量信息的增長,提高數(shù)字圖書館對網(wǎng)絡(luò)復雜環(huán)境的適應(yīng)性,有效地存儲、備份海量數(shù)據(jù)。因此,云計算的虛擬存儲系統(tǒng),為高校數(shù)字圖書館的建設(shè)、運轉(zhuǎn)提供了重要保障。
目前,不少高校采用的云計算虛擬存儲系統(tǒng)為DuraSpace開源系統(tǒng)。美國14所大學在2009年,獲得美國國家科學基金會的百萬資助,開展云計算研究。研究數(shù)字內(nèi)容管理存儲的DSpace,聯(lián)合開源軟件Fedora,研發(fā)成功DuraSpace開源系統(tǒng)。DuraSpace開源系統(tǒng),不僅在云計算方面具有成本效益優(yōu)勢,還能夠?qū)崿F(xiàn)數(shù)字內(nèi)容的超長期保存和反復使用,很快成為國內(nèi)外高校數(shù)字圖書館的倉儲系統(tǒng)。
DuraSpace開源系統(tǒng)可以通過Web進行訪問,也可以通過數(shù)據(jù)中的插件進行訪問。DuraSpace開源系統(tǒng)提供的服務(wù)包括視音頻、圖片、數(shù)據(jù)集、文本備份等。用戶使用DuraSpace開源系統(tǒng)非常靈活,因為系統(tǒng)是通過不同供應(yīng)商、不同地域?qū)崿F(xiàn)資源保存,能夠啟用的副本數(shù)量也較多,從而可以滿足用戶的彈性需求。像DuraSpace開源系統(tǒng)這類高校數(shù)字圖書館采用的云計算虛擬存儲系統(tǒng),會建立一個“虛擬存儲池”,使得高校數(shù)字圖書館中,原有的NAS、DAS等機構(gòu)存儲設(shè)備匯集于一起,從而實現(xiàn)系統(tǒng)性能的最大化,消除數(shù)據(jù)存取的瓶頸,減少數(shù)據(jù)尋找的時間,加快數(shù)據(jù)訪問速度。
另外,云計算虛擬存儲系統(tǒng)還能做到對高校數(shù)字圖書館數(shù)據(jù)的無縫管理。高校數(shù)字圖書館中的各種格式資源數(shù)據(jù),如音視頻、文字圖片等,都聚集在“虛擬存儲池”中時,虛擬存儲管理系統(tǒng)會統(tǒng)一處理訪問這些數(shù)據(jù)帶來的數(shù)據(jù)冗余、分層存儲、高速備份等各類問題,從而實現(xiàn)數(shù)據(jù)資源的無縫管理。
(二)運用云計算實現(xiàn)信息處理海量化。在高校數(shù)字圖書館建設(shè)中,有些數(shù)據(jù)的處理量非常巨大,像倒排索引各類資源數(shù)據(jù)庫、掃描識別大量圖文信息、轉(zhuǎn)換各類多媒體數(shù)據(jù)的儲存格式等,數(shù)據(jù)處理的規(guī)模經(jīng)常會達到TB級,甚至是PB級別。海量化處理信息,是云計算的優(yōu)點。面對海量信息,云計算能夠?qū)崿F(xiàn)大量化分析存儲、讀取信息,其信息的讀取操作頻率甚至遠遠高于信息自身的更新速度。云計算為高校數(shù)字圖書館低成本、高速度的處理海量數(shù)據(jù),提供了新的方式。云計算支持高校數(shù)字圖書館用戶,使用映射化簡編程模型,實現(xiàn)數(shù)據(jù)讀取。映射化簡編程模型,可以讓用戶實現(xiàn)大規(guī)模數(shù)據(jù)的處理。這一模型先是通過映射程序,將海量化的數(shù)據(jù),分割成互不相關(guān)的子塊;然后,通過調(diào)度不同地域范圍的計算機,進行分布運算;最后,化簡程序,會將運算結(jié)果進行匯整,傳遞給用戶。
映射化簡編程模型的運轉(zhuǎn)包含五個步驟:文件輸入、文件分配、中間文件寫、映射運行、結(jié)果輸出。由于中間文件寫的減少,減少了網(wǎng)絡(luò)帶寬壓力,也減少了寫的時間。云計算處理海量化信息時,還具有無線接入功能。用戶通過虛擬服務(wù)器,能夠獲得一個十分透明的使用環(huán)境,不需要了解數(shù)字圖書館內(nèi)部復雜的環(huán)境,就可以訪問使用高校數(shù)字圖書館,獲得所需電子資源,大大提高了高校數(shù)字圖書館的效率。所以,通過云計算實現(xiàn)高校數(shù)字圖書館信息數(shù)據(jù)的海量化處理后,用戶可以通過手機等便捷方式實現(xiàn)對資源的訪問。
如果,基于云計算的信息海量處理技術(shù)與基于云計算的信息存儲虛擬化技術(shù),結(jié)合使用,云計算的信息海量處理結(jié)果,可以直接保存在云計算的信息存儲虛擬化設(shè)備上,對于本地資源而言,占用的量將更小,使用的網(wǎng)絡(luò)流量也將減少,時間、成本都會隨之減少,從而更好的解決了海量信息數(shù)據(jù)的存儲問題。
(三)運用云計算實現(xiàn)數(shù)據(jù)運轉(zhuǎn)高效率。高校數(shù)字圖書館正常安全運轉(zhuǎn)的核心設(shè)施主要是數(shù)據(jù)中心。邏輯上的數(shù)據(jù)中心,涵蓋軟件和硬件。數(shù)據(jù)中心安裝的各類程序以及提供各種服務(wù),是軟件;數(shù)據(jù)中心的計算機設(shè)備、支撐系統(tǒng)等基礎(chǔ)設(shè)施,是硬件。云計算概念和理念運用到高校數(shù)字圖書館建設(shè)中,就是由虛擬平臺軟件管理PC服務(wù)器等硬件資源,通過虛擬機按需分配計算資源,使得計算資源從物理的轉(zhuǎn)換為邏輯的。
F大學圖書館,在云計算虛擬化之前,基本通過PC機、PC服務(wù)器加上IDE陣列,進行數(shù)字化,系統(tǒng)故障不斷。后來,F(xiàn)大學圖書館,在購進高性能服務(wù)器、新添電子圖書等數(shù)字化資源后,通過云計算對數(shù)字資源進行了虛擬化,較大提高了資源的使用效率。特別是運用NAT轉(zhuǎn)換端門映射這一虛擬技術(shù),使得系統(tǒng)受到外部入侵的途徑減少,保證了系統(tǒng)安全。
雖然,云計算還處于初步運用階段,不過,隨著云計算的技術(shù)發(fā)展,運用規(guī)模擴大,高校數(shù)字圖書館建設(shè)可靠、安全的云存儲、云服務(wù)將成為趨勢。當前,不少高校在數(shù)字圖書館建設(shè)中,主要通過借助云服務(wù)公司,解決圖書館的云計算問題。也有不少高校的數(shù)字圖書館建設(shè),通過構(gòu)建云計算管理平臺實現(xiàn)。這些高校將自已本館的“云”,通過云計算管理平臺,與全世界不同地域范圍內(nèi)的其他高校數(shù)字圖書館整合起來,統(tǒng)一使用資源,對信息進行分布式、協(xié)作化、智能化處理。
不管怎樣,云計算能夠使得高校數(shù)字圖書館提高效率,有數(shù)據(jù)表明,采用云計算之后的高校數(shù)字圖書館服務(wù)器的使用率從平均值6%-7%提高到60%左右,在高峰使用率從40%左右提高到85%左右。[3]
(四)運用云計算實現(xiàn)數(shù)據(jù)資源共享化。不同的高校在數(shù)字圖書館建設(shè)中運用云計算,可以實現(xiàn)對基礎(chǔ)設(shè)施等資源的共享,從而較大程度降低建設(shè)數(shù)字圖書館的成本,另外,效率不僅不會降低,還會得到大幅度的提高。云計算,能夠使得在異構(gòu)分布環(huán)境處于不同高校的海量數(shù)據(jù)信息,得到統(tǒng)一整合,實現(xiàn)高校之間在信息數(shù)據(jù)資源方面的智能共享,用戶只需要訪問虛擬服務(wù)器,接入統(tǒng)一接口,就能夠在不同高校之間獲取數(shù)據(jù)資源,從而極大提高了高校數(shù)字圖書館資源的利用效率。
國內(nèi)高等教育文獻保障系統(tǒng),近幾年來,將云計算技術(shù)確定為系統(tǒng)的技術(shù)發(fā)展路徑。系統(tǒng)結(jié)合云計算等技術(shù),設(shè)計開發(fā)高校數(shù)字圖書館云服務(wù)平臺。國內(nèi)高等教育文獻保障系統(tǒng)云計算服務(wù)平臺,可以將國內(nèi)高校數(shù)字圖書館資源、服務(wù)進行整合,形成一個整體,能夠?qū)崿F(xiàn)對服務(wù)的動態(tài)管理、支配,既能夠滿足不同層次規(guī)模高校建設(shè)自身數(shù)字圖書資源的需求,實現(xiàn)館際資源的共享共建,也支持高校圖書館之間的協(xié)作,使得每一個高校的數(shù)字圖書館用戶都能夠參與到資源共享中來。
技術(shù)是把雙刃劍。云計算作為一種新的理念、技術(shù),能夠為高校數(shù)字圖書館建設(shè)帶來新的機遇,但是,在高校運用云計算建設(shè)數(shù)字圖書館過程中,也需要注意一些問題。
首先,高校在數(shù)字圖書館建設(shè)中,應(yīng)該注意選擇具有可替代性的云計算供應(yīng)商。考慮云計算供應(yīng)商,既要從價格、技術(shù)、信譽等方面考察,更要從技術(shù)的可替代性角度選擇,如果云計算設(shè)備不能在不同供應(yīng)商之間實現(xiàn)轉(zhuǎn)移,高校數(shù)字圖書館的建設(shè)將會被云計算供應(yīng)商綁架,導致后續(xù)數(shù)字圖書館技術(shù)升級成本過高。
其次,與第一個問題相關(guān)的可替代云計算供應(yīng)商,應(yīng)是基于共同標準的云計算技術(shù)。不同云計算供應(yīng)商之間能夠具有可替代性,根源在于這些供應(yīng)商的云計算具有共同標準。當前,由于云計算處于初始發(fā)展階段,技術(shù)標準問題是這一技術(shù)當前發(fā)展的主要難題。不同云計算供應(yīng)商之間,由于缺乏共同技術(shù)標準,導致技術(shù)的兼容性欠缺。對于圖書館行業(yè),關(guān)注的標準可能需要更加廣泛一些,比如不但需要程序交互接口的標準化,而且需要支持不用再編程的可交互接口,支持數(shù)據(jù)的標準化等等。[4]
最后,高校數(shù)字圖書館建設(shè)中,使用云計算,還要注意數(shù)據(jù)保密和知識產(chǎn)權(quán)問題。由于云計算技術(shù)的使用往往超越國界,不同國家的政策對于云計算中的數(shù)據(jù)安全具有極大的影響。比如美國政府曾勒令微軟公司停止某些國家的MSN服務(wù),類似的政策極有可能導致云計算安全問題產(chǎn)生。需要指出的是云計算會導致企業(yè)和個人可以對非我所有的數(shù)據(jù)進行整合、挖掘,形成新的產(chǎn)品和服務(wù),這新產(chǎn)品和服務(wù)的產(chǎn)權(quán),是屬于原屬內(nèi)容擁有者還是屬于數(shù)據(jù)整合挖掘企業(yè)、個人,目前,這一產(chǎn)權(quán)問題,在傳統(tǒng)法律上還找不到界定。
[參考文獻]
[1] 李開復. 擁抱云計算 把握商機[J]. IT時代周刊,2009(1): 28.
[2][3] 王平. 云計算關(guān)鍵技術(shù)在數(shù)字圖書館中的應(yīng)用研究[J]. 情報資料工作,2010(5): 52.
[4] 胡小菁,范并思. 云計算給圖書館管理帶來挑戰(zhàn)[J]. 大學圖書館學報,2009(4): 10.