,,
(廣西壯族自治區(qū)圖書(shū)館,廣西 南寧 530022)
為深入貫徹落實(shí)中共中央辦公廳、國(guó)務(wù)院辦公廳《關(guān)于加快構(gòu)建現(xiàn)代公共文化服務(wù)體系的意見(jiàn)》精神,“十三五”期間,文化共享工程擬依托國(guó)家公共文化數(shù)字支撐平臺(tái),在地級(jí)市(區(qū))、縣(區(qū))構(gòu)建區(qū)域性公共文化綜合服務(wù)管理平臺(tái)(以下簡(jiǎn)稱“服務(wù)管理平臺(tái)”),實(shí)現(xiàn)對(duì)基層公共文化服務(wù)網(wǎng)絡(luò)設(shè)施及惠民項(xiàng)目的綜合智能管理,實(shí)現(xiàn)基本公共數(shù)字文化資源的全域共建共享。
服務(wù)管理平臺(tái)將信息技術(shù)、數(shù)字技術(shù)、網(wǎng)絡(luò)技術(shù)等現(xiàn)代科學(xué)技術(shù)和傳播手段應(yīng)用于公共文化服務(wù)體系建設(shè),充分利用與集成文化共享工程等重點(diǎn)文化惠民項(xiàng)目基礎(chǔ)設(shè)施與應(yīng)用平臺(tái)資源,構(gòu)建標(biāo)準(zhǔn)統(tǒng)一、互聯(lián)互通的公共數(shù)字文化服務(wù)網(wǎng)絡(luò),在基層實(shí)現(xiàn)共建共享,實(shí)現(xiàn)“一站式”服務(wù),為公共文化服務(wù)體系提供強(qiáng)有力的數(shù)字化支撐,進(jìn)一步提升公共數(shù)字文化資源的服務(wù)效能。
本文從技術(shù)層面對(duì)服務(wù)管理平臺(tái)的構(gòu)建進(jìn)行研究,包括服務(wù)管理平臺(tái)的體系框架和實(shí)現(xiàn)互聯(lián)互通、“一站式”服務(wù)的關(guān)鍵技術(shù)路徑。
實(shí)現(xiàn)公共數(shù)字文化資源的全域共建共享,是服務(wù)管理平臺(tái)的基本要求。當(dāng)前各省都普遍存在公共文化信息基礎(chǔ)設(shè)施、數(shù)字文化資源建設(shè)發(fā)展失衡的問(wèn)題。縱向來(lái)看,省、市、縣級(jí)基礎(chǔ)設(shè)施和數(shù)字文化資源建設(shè)發(fā)展水平失衡,縣級(jí)的基礎(chǔ)設(shè)施不足且老化嚴(yán)重,數(shù)字文化資源匱乏;橫向來(lái)看,同級(jí)公共文化機(jī)構(gòu)的發(fā)展失衡,圖書(shū)館、文化館、博物館等公共文化機(jī)構(gòu)在基礎(chǔ)設(shè)施和數(shù)字文化資源建設(shè)發(fā)展水平同樣存在較大差異。服務(wù)管理平臺(tái),擬從硬件和數(shù)字資源的層面解決基礎(chǔ)設(shè)施、數(shù)字文化資源建設(shè)發(fā)展失衡的問(wèn)題。為此,服務(wù)管理平臺(tái)將構(gòu)建一個(gè)三層的體系架構(gòu),整合各公共文化機(jī)構(gòu)的數(shù)字文化資源,為各公共文化機(jī)構(gòu)提供標(biāo)準(zhǔn)統(tǒng)一、互聯(lián)互通的“一站式”的公共數(shù)字文化服務(wù)。如圖1所示。
圖1 服務(wù)管理平臺(tái)體系架構(gòu)圖
從整體上來(lái)看,服務(wù)管理平臺(tái)主要分為三個(gè)層次,體系框架可概括為“1+6+5”模式,主要包含1個(gè)平臺(tái):區(qū)域性公共數(shù)字文化云支撐平臺(tái);6個(gè)系統(tǒng):統(tǒng)一用戶系統(tǒng)、統(tǒng)一檢索系統(tǒng)、智能推送系統(tǒng)、元數(shù)據(jù)收割系統(tǒng)、垂直搜索引擎系統(tǒng)、統(tǒng)計(jì)分析系統(tǒng);5個(gè)服務(wù)平臺(tái):文獻(xiàn)信息服務(wù)平臺(tái)、知識(shí)創(chuàng)新學(xué)習(xí)平臺(tái)、休閑娛樂(lè)服務(wù)平臺(tái)、信息技術(shù)服務(wù)支持平臺(tái)、數(shù)字資源智能訂制與推送平臺(tái)等。體系框架的三個(gè)層次如下:
云計(jì)算是一種以數(shù)據(jù)為中心的密集型超級(jí)計(jì)算模型,通過(guò)虛擬化技術(shù)把各層次功能封裝為抽象實(shí)體,將IT相關(guān)的能力以服務(wù)的方式提供給用戶,允許用戶在不了解提供服務(wù)的技術(shù)、沒(méi)有相關(guān)知識(shí)以及設(shè)備操作能力的情況下,通過(guò)Internet獲取所需服務(wù)。
云管理平臺(tái)通過(guò)虛擬化技術(shù)實(shí)現(xiàn)軟件應(yīng)用與底層硬件的隔離,提高設(shè)備的使用效率,簡(jiǎn)化軟件的重新配置過(guò)程。各公共文化服務(wù)機(jī)構(gòu)通過(guò)云管理平臺(tái),自主申請(qǐng)計(jì)算資源(CPU、存儲(chǔ)、網(wǎng)絡(luò)等),安裝系統(tǒng)和部署應(yīng)用,消除各公共文化服務(wù)機(jī)構(gòu)之間的基礎(chǔ)設(shè)施差別,實(shí)現(xiàn)硬件資源的共建共享。
云計(jì)算系統(tǒng)需要并行為大量用戶提供服務(wù),必須具有高吞吐率和高傳輸率的特點(diǎn),應(yīng)引入海量數(shù)據(jù)分布式存儲(chǔ)技術(shù)和海量數(shù)據(jù)管理技術(shù),以保證系統(tǒng)的高可用性、高可靠性和經(jīng)濟(jì)性,為服務(wù)管理平臺(tái)提供硬件支撐。
中間層通過(guò)元數(shù)據(jù)收割、垂直搜索引擎等技術(shù),對(duì)區(qū)域內(nèi)各類型文化機(jī)構(gòu)的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合,實(shí)現(xiàn)數(shù)據(jù)資源的共建共享。
服務(wù)管理平臺(tái),采用OAI-PMH元數(shù)據(jù)收割技術(shù)和Handle標(biāo)碼技術(shù),實(shí)現(xiàn)對(duì)各類型公共文化服務(wù)機(jī)構(gòu)的結(jié)構(gòu)化數(shù)字資源自動(dòng)收割、關(guān)聯(lián)整合、智能定位和分布式云備份,采用垂直搜索引擎技術(shù)對(duì)各類型公共文化服務(wù)機(jī)構(gòu)非結(jié)構(gòu)化數(shù)字資源進(jìn)行智能采集。同時(shí),服務(wù)管理平臺(tái)與全國(guó)公共數(shù)字文化支撐平臺(tái)與中間層對(duì)接,使服務(wù)管理平臺(tái)能夠利用其豐富的資源。
中間層通過(guò)對(duì)各類型數(shù)據(jù)的收割、采集、整理,為服務(wù)管理平臺(tái)提供數(shù)據(jù)支撐。
服務(wù)管理平臺(tái)的應(yīng)用層包括五大平臺(tái)(文獻(xiàn)信息服務(wù)平臺(tái)、知識(shí)創(chuàng)新學(xué)習(xí)平臺(tái)、休閑娛樂(lè)服務(wù)平臺(tái)、信息技術(shù)服務(wù)支持平臺(tái)、數(shù)字資源智能訂制與推送平臺(tái))。應(yīng)用層通過(guò)中間層的數(shù)據(jù)支撐,分別實(shí)現(xiàn)五個(gè)平臺(tái)的數(shù)字資源服務(wù)和管理,提供“一站式”的公共數(shù)字文化服務(wù)。
虛擬化技術(shù)作為云計(jì)算的核心技術(shù),在服務(wù)管理平臺(tái)的數(shù)據(jù)中心構(gòu)造過(guò)程中扮演著非常重要的角色。傳統(tǒng)的應(yīng)用模式中,IT資源互相之間不連通,無(wú)法根據(jù)業(yè)務(wù)的變化實(shí)現(xiàn)動(dòng)態(tài)調(diào)整,利用率較低。云計(jì)算把IT資源都變成一個(gè)個(gè)池子,再基于這些基礎(chǔ)架構(gòu)的資源池上去建設(shè)應(yīng)用,以服務(wù)的方式去交付資源。基于“池化”的理念,區(qū)域性公共數(shù)字文化支撐平臺(tái)應(yīng)搭建計(jì)算池、存儲(chǔ)池、網(wǎng)絡(luò)池和安全池,減少設(shè)備釆購(gòu)數(shù)量,降低故障點(diǎn),提高業(yè)務(wù)系統(tǒng)的可用性,提升整體數(shù)據(jù)中心的資源利用率。
云計(jì)算模式安全風(fēng)險(xiǎn)集中,因此可將整個(gè)數(shù)據(jù)中心的網(wǎng)絡(luò)設(shè)計(jì)分為兩部分:后端是采用云計(jì)算相關(guān)技術(shù)、支持多架構(gòu)融合的業(yè)務(wù)資源網(wǎng),網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)資源構(gòu)建成虛擬的資源池;前端則是采用傳統(tǒng)的模塊化數(shù)據(jù)中心的結(jié)構(gòu)。這樣將前端服務(wù)和后端支撐相對(duì)分離,保障其安全性。
實(shí)現(xiàn)虛擬化關(guān)鍵在于,虛擬化層必須能夠截獲計(jì)算元件對(duì)物理資源的直接訪問(wèn),并將其重新定向到虛擬資源池中。虛擬化層可通過(guò)純軟件的方法或利用物理資源提供的機(jī)制來(lái)實(shí)現(xiàn)這種“截獲并重定向”,因此虛擬化系統(tǒng)可分為軟件虛擬化和硬件虛擬化兩種。
Intel在服務(wù)器處理器領(lǐng)域市場(chǎng)占有率超過(guò)90%,其服務(wù)器處理器產(chǎn)品線廣泛支持Virtualization Technology(VT)虛擬化技術(shù),可采用通用的x86平臺(tái),在系統(tǒng)管理程序?qū)又С窒轮С痔摂M化,實(shí)現(xiàn)較高性能。
當(dāng)前市場(chǎng)上常見(jiàn)的服務(wù)器虛擬化程序包括VMware vSphere、Microsoft Hyper-V、Xen、KVM等。VMwared在虛擬化市場(chǎng)占有較大份額,但VMware的閉源且按照CPU數(shù)量授權(quán)的特性,使得在大規(guī)模部署上存在一定隱患;而Hyper-V成熟度有待提高,虛擬Linux系統(tǒng)存在大量兼容性問(wèn)題,使用場(chǎng)景受限;Xen是半虛擬化技術(shù),非常依賴于Domain 0虛擬機(jī),比較難以配置和使用,部署會(huì)占用相對(duì)較大的空間。
相比之下,KVM是基于Linux完全原生虛擬化擴(kuò)展的x86硬件全虛擬化解決方案,通過(guò)可加載的內(nèi)核模塊支持廣泛的虛擬機(jī)操作系統(tǒng),比如Linux、BSD、Solaris、Windows等。在KVM架構(gòu)中,虛擬機(jī)實(shí)現(xiàn)為常規(guī)的Linux進(jìn)程,由標(biāo)準(zhǔn)Linux調(diào)度程序進(jìn)行調(diào)度,每個(gè)虛擬CPU顯示為一個(gè)常規(guī)的Linux進(jìn)程,這使KVM能夠使用Linux內(nèi)核的所有功能。綜合來(lái)看,KVM應(yīng)該是最佳選擇。
在存儲(chǔ)系統(tǒng)中,同時(shí)支持SAN與NAS的統(tǒng)一存儲(chǔ)業(yè)已成為主流。統(tǒng)一存儲(chǔ)具有具備規(guī)劃整體存儲(chǔ)容量的能力,避免分別對(duì)數(shù)據(jù)塊及文件存儲(chǔ)支持相關(guān)的容量利用率方面的問(wèn)題,存儲(chǔ)資源池配置靈活以及積極支持服務(wù)器虛擬化等特點(diǎn)。
由于機(jī)械硬盤(pán)已經(jīng)逐漸成為數(shù)據(jù)中心的瓶頸,為改善核心數(shù)據(jù)庫(kù)與應(yīng)用系統(tǒng)的響應(yīng)速度,應(yīng)引入固態(tài)硬盤(pán)(SSD)技術(shù),將應(yīng)用程序中部分I/O壓力較大的數(shù)據(jù)放置在SSD磁盤(pán)上;同時(shí)可以將部分SSD空間虛擬成存儲(chǔ)系統(tǒng)緩存,大幅度提升整個(gè)存儲(chǔ)系統(tǒng)的緩存命中率,尤其是在虛擬化架構(gòu)下,效果更加明顯;采用自動(dòng)分層技術(shù),存儲(chǔ)系統(tǒng)后臺(tái)自動(dòng)調(diào)整數(shù)據(jù)存放位置,優(yōu)化存儲(chǔ)訪問(wèn)方式,提升應(yīng)用訪問(wèn)效率。此外,還應(yīng)采用同步鏡像、異步備份等方式對(duì)數(shù)據(jù)進(jìn)行保護(hù),若有條件可以考慮實(shí)現(xiàn)數(shù)據(jù)異地備份。
數(shù)據(jù)中心是云計(jì)算的核心支撐平臺(tái),隨著云應(yīng)用的廣泛部署,數(shù)據(jù)中心的通信模式和業(yè)務(wù)需求出現(xiàn)了根本性變化。這些變化具體包括:1)數(shù)據(jù)中心的網(wǎng)絡(luò)規(guī)模和負(fù)載出現(xiàn)了指數(shù)級(jí)增長(zhǎng);2)主要的流量模式由傳統(tǒng)“南北流量”轉(zhuǎn)變?yōu)椤皷|西流量”;3)更多時(shí)延敏感和數(shù)據(jù)密集型業(yè)務(wù)在數(shù)據(jù)中心內(nèi)運(yùn)行;4)一些虛擬化技術(shù),如虛擬機(jī)實(shí)時(shí)遷移,需要網(wǎng)絡(luò)提供更好的支持。
這些變化對(duì)數(shù)據(jù)中心的交換機(jī)提出了更高的性能要求。結(jié)合數(shù)據(jù)中心網(wǎng)絡(luò)未來(lái)的發(fā)展趨勢(shì),在接入層采用10GE交換架構(gòu),在核心層采用40GE/100GE交換架構(gòu)成為一種必然選擇。
在核心層交換機(jī)選擇上,應(yīng)采用數(shù)據(jù)中心級(jí)交換機(jī)產(chǎn)品。傳統(tǒng)的園區(qū)網(wǎng)交換機(jī)一般采用“Crossbar+共享緩存”的交換架構(gòu),這種架構(gòu)限制了設(shè)備的可靠性和性能。而數(shù)據(jù)中心級(jí)交換機(jī)產(chǎn)品將控制平面與轉(zhuǎn)發(fā)平面物理分離,采用獨(dú)立的引擎板和交換網(wǎng)板,同時(shí)采用CLOS多級(jí)交換架構(gòu),多塊交換網(wǎng)板同時(shí)分擔(dān)業(yè)務(wù)流量,可實(shí)現(xiàn)數(shù)倍于單級(jí)交換的能力,引擎切換時(shí)不影響轉(zhuǎn)發(fā),可實(shí)現(xiàn)零丟包,從而滿足云計(jì)算數(shù)據(jù)中心高可靠性、高擴(kuò)展性、低時(shí)延等需求。
另外,交換機(jī)參數(shù)還要考慮MAC表項(xiàng)。在云計(jì)算數(shù)據(jù)中心內(nèi)部,虛擬化以及東西向流量導(dǎo)致更多的MAC表項(xiàng),4K個(gè)Vlan遠(yuǎn)不能滿足大規(guī)模云計(jì)算數(shù)據(jù)中心的需求,為此數(shù)據(jù)中心交換機(jī)必須支持Vxlan。Vxlan采用24bit的網(wǎng)絡(luò)標(biāo)識(shí),用戶可以創(chuàng)建16M相互隔離的虛擬網(wǎng)絡(luò),這使得大規(guī)模多租戶的云環(huán)境中具有了充足的虛擬網(wǎng)絡(luò)分區(qū)資源。
云計(jì)算模式下,以分布式計(jì)算和虛擬化為代表的技術(shù)得到廣泛應(yīng)用,導(dǎo)致傳統(tǒng)的安全邊界已經(jīng)消失,數(shù)據(jù)在數(shù)據(jù)中心內(nèi)部之間的交互增加,需要滿足海量數(shù)據(jù)交互下的安全檢測(cè)需求。同時(shí),云計(jì)算模式下,用戶可以按需用云端資源,合法用戶可能會(huì)利用云端資源進(jìn)行非法的操作,使得整個(gè)云計(jì)算環(huán)境的內(nèi)部安全面臨著重大挑戰(zhàn)。
為應(yīng)對(duì)這些安全挑戰(zhàn),對(duì)于業(yè)務(wù)資源網(wǎng),應(yīng)構(gòu)建大二層的網(wǎng)絡(luò)環(huán)境,以滿足虛擬化和資源的動(dòng)態(tài)遷移需求,同時(shí)將安全策略部署在網(wǎng)絡(luò)端口,確保安全策略得到落實(shí);云管理平臺(tái)上也應(yīng)開(kāi)啟或部署安全虛擬設(shè)備套件,如可集成于VMware vCenter Server的VMware vShield、OpenStack中的Security Group等。對(duì)于前端管理網(wǎng),可根據(jù)傳統(tǒng)的信息安全等級(jí)保護(hù)的安全要求,在不同的區(qū)域邊界部署安全策略,同時(shí),針對(duì)于數(shù)據(jù)中心出口安全風(fēng)險(xiǎn)集中的問(wèn)題,采取針對(duì)性的安全防御措施。
服務(wù)管理平臺(tái)建設(shè)過(guò)程中,業(yè)務(wù)系統(tǒng)需要從傳統(tǒng)的建設(shè)模式遷移到資源池模式的云計(jì)算系統(tǒng)里,將形成超大規(guī)模的數(shù)據(jù)中心或多數(shù)據(jù)中心平臺(tái)。云管理平臺(tái)需要對(duì)龐大的虛擬化計(jì)算資源進(jìn)行智能化的自主管理,實(shí)現(xiàn)資源的集中化管理和業(yè)務(wù)系統(tǒng)的快速交付,不同硬件平臺(tái)虛擬化系統(tǒng)的統(tǒng)一調(diào)用、管理和監(jiān)控。云計(jì)算基礎(chǔ)設(shè)施管理平臺(tái)應(yīng)具備以下功能:資產(chǎn)管理、資源管理、用戶管理、云平臺(tái)用戶門(mén)戶、云平臺(tái)監(jiān)控等。
服務(wù)管理平臺(tái)在運(yùn)行中會(huì)產(chǎn)生海量的數(shù)據(jù),需要進(jìn)行大量的計(jì)算,一個(gè)大數(shù)據(jù)處理的框架成為必然的要求。鑒于Google相關(guān)技術(shù)的非開(kāi)源特性,從運(yùn)行安全與實(shí)施成本考慮,建議選擇Hadoop開(kāi)發(fā)團(tuán)隊(duì)的技術(shù)。
Hadoop的框架最核心的設(shè)計(jì)就是HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了分布式存儲(chǔ)解決方案,它的架構(gòu)建立在大量普通配置的計(jì)算機(jī)組成的集群上。而Map/Reduce為海量的數(shù)據(jù)提供了并行編程模型。
Hadoop有著優(yōu)秀的數(shù)據(jù)處理能力,將其搭建在OpenStack上,可以實(shí)現(xiàn)私有云與大數(shù)據(jù)的協(xié)作,發(fā)揮協(xié)作效應(yīng),還可以有效地節(jié)省網(wǎng)絡(luò)帶寬。同時(shí),虛擬化使得Hadoop部署更為簡(jiǎn)易,除了主要的NameNode,其他的DataNode完全可以使用OpenStack中Heat云編排功能,通過(guò)Cloud Formation實(shí)現(xiàn)定制集群,而虛擬化本身的安全與便捷,都可以大大減輕維護(hù)團(tuán)隊(duì)的運(yùn)維壓力。
垂直搜索引擎是針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎,它相比通用搜索引擎,具有更專業(yè)、更準(zhǔn)確的特點(diǎn)。管理平臺(tái)中的垂直搜索引擎主要將公共文化服務(wù)機(jī)構(gòu)的網(wǎng)站的非結(jié)構(gòu)化數(shù)據(jù),通過(guò)模板化的信息抽取技術(shù),轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),存入倉(cāng)儲(chǔ)。
垂直搜索引擎通過(guò)網(wǎng)絡(luò)爬蟲(chóng)對(duì)區(qū)域內(nèi)各公共文化服務(wù)機(jī)構(gòu)的信息資源進(jìn)行采集和整合,為用戶提供公共文化信息檢索服務(wù),其流程為:網(wǎng)絡(luò)爬行—中文分詞—索引—檢索。
4.1.1 網(wǎng)絡(luò)爬行。區(qū)域內(nèi)的公共文化服務(wù)機(jī)構(gòu)數(shù)量不多,且固定,因此可采用定向采集的策略,使用固定的URL庫(kù),對(duì)各公共文化服務(wù)機(jī)構(gòu)的網(wǎng)站頁(yè)面信息進(jìn)行抽取。并且,由于其頁(yè)面多為網(wǎng)站系統(tǒng)生成,網(wǎng)頁(yè)結(jié)構(gòu)固定,在網(wǎng)頁(yè)信息抽取方法上,使用模板化的抽取方式比較簡(jiǎn)單、準(zhǔn)確,維護(hù)量也不會(huì)太大難以接受。無(wú)論從內(nèi)容還是復(fù)雜程度來(lái)說(shuō),一個(gè)簡(jiǎn)單的模板化爬蟲(chóng)就可以滿足對(duì)區(qū)域內(nèi)各公共文化服務(wù)機(jī)的非結(jié)構(gòu)化信息或半結(jié)構(gòu)化信息的爬取。爬取的網(wǎng)頁(yè)保存到網(wǎng)頁(yè)庫(kù)中。
4.1.2 中文分詞。中文分詞是將一個(gè)中文序列切分成一個(gè)個(gè)單獨(dú)的詞的過(guò)程。中文分詞的準(zhǔn)確性,直接影響檢索結(jié)果的查全率和查準(zhǔn)率。目前,Lucene是個(gè)不錯(cuò)的選擇,Lucene是一個(gè)構(gòu)建具體的搜索引擎工具包,在網(wǎng)絡(luò)上得到廣泛的應(yīng)用,成熟度高。它將構(gòu)建一個(gè)完善的檢索系統(tǒng)功能以Java類和接口的形式向廣大開(kāi)發(fā)者提供,為構(gòu)建自定義的功能提供了強(qiáng)大的靈活性。通過(guò)實(shí)現(xiàn)Lucene的Analyzer接口,使用其自帶的org.apache.lucene.analysis.cn中文語(yǔ)言分詞器,可以實(shí)現(xiàn)不錯(cuò)的分詞效果。
4.1.3 索引。經(jīng)過(guò)分詞處理,還需要通過(guò)預(yù)定義的元數(shù)據(jù)標(biāo)準(zhǔn),分析網(wǎng)頁(yè)的文檔信息,生成網(wǎng)頁(yè)的元數(shù)據(jù),然后對(duì)提取的元數(shù)據(jù)信息建立索引。Lucene框架主要包括兩個(gè)功能:建立索引和檢索索引。使用Lucene分析索引網(wǎng)頁(yè)庫(kù)的關(guān)鍵詞和網(wǎng)頁(yè)的文檔信息,采用倒排索引技術(shù),生成倒排表和索引詞表。通過(guò)建立索引可以明顯加快檢索的響應(yīng)速度。
4.1.4 檢索。檢索功能主要實(shí)現(xiàn)為一個(gè)接口。接口接收檢索關(guān)鍵詞,對(duì)檢索關(guān)鍵詞進(jìn)行切詞操作,然后在索引中進(jìn)行匹配,將匹配的結(jié)果以XML流的形式返回。這個(gè)接口可以由統(tǒng)一檢索系統(tǒng)調(diào)用。
元數(shù)據(jù)收割系統(tǒng)基于OAI-PMH協(xié)議,自動(dòng)地定期收割各公共文化服務(wù)機(jī)構(gòu)的結(jié)構(gòu)化數(shù)據(jù),將其存入倉(cāng)儲(chǔ),并通過(guò)Handle標(biāo)碼技術(shù)實(shí)現(xiàn)數(shù)字資源的智能定位。
OAI-PMH協(xié)議提供了一個(gè)基于元數(shù)據(jù)獲取的獨(dú)立于具體應(yīng)用的互操作框架。在OAI-PMH框架中有兩個(gè)級(jí)別的參與者,分別是數(shù)據(jù)提供者DP(Data Providers)和服務(wù)提供者SP(Service Providers)。DP以O(shè)AI-PMH方式發(fā)布元數(shù)據(jù),而SP以O(shè)AI-PMH為基礎(chǔ)獲取元數(shù)據(jù)來(lái)提供增值服務(wù)。SP通過(guò)收集器(harvester)發(fā)布OAI-PMH請(qǐng)求,向DP的倉(cāng)儲(chǔ)中獲取元數(shù)據(jù)。DP響應(yīng)和處理OAI-PMH協(xié)議的六種請(qǐng)求(6個(gè)OAI-PMH命令動(dòng)詞),將元數(shù)據(jù)發(fā)布給SP的收集器。OAI-PMH協(xié)議通過(guò)這樣一個(gè)相對(duì)簡(jiǎn)單的框架實(shí)現(xiàn)了元數(shù)據(jù)共享。
基于全球統(tǒng)一標(biāo)碼(Handle)的標(biāo)碼技術(shù)是起源于互聯(lián)網(wǎng)、應(yīng)用于物聯(lián)網(wǎng)的一種標(biāo)識(shí)符號(hào)。它賦予互聯(lián)網(wǎng)上的各種對(duì)象文檔、圖像、多媒體等一個(gè)唯一、合法、安全和永久的標(biāo)識(shí),通過(guò)這個(gè)標(biāo)識(shí)可以實(shí)現(xiàn)對(duì)被標(biāo)識(shí)對(duì)象的解讀、定位、追蹤、查詢、應(yīng)用等功能??蛇x取區(qū)域內(nèi)基礎(chǔ)設(shè)施和網(wǎng)絡(luò)條件較好的公共文化服務(wù)機(jī)構(gòu)節(jié)點(diǎn)作為SP(同時(shí)也是DP),其余節(jié)點(diǎn)作為DP。SP部署收割服務(wù)器,包含注冊(cè)功能模塊、日志統(tǒng)計(jì)分析模塊、元數(shù)據(jù)檢索模塊。收割服務(wù)器通過(guò)設(shè)置收割策略,對(duì)各公共文化服務(wù)機(jī)構(gòu)發(fā)布的元數(shù)據(jù)進(jìn)行定時(shí)智能的收割,通過(guò)Handle標(biāo)碼技術(shù)實(shí)現(xiàn)數(shù)字資源的智能定位。
4.2.1 收割策略。元數(shù)據(jù)收割系統(tǒng)在SP的管理系統(tǒng)中提供對(duì)收割策略的定制。收割策略包括收割狀態(tài)、收割時(shí)間和周期。收割狀態(tài)分開(kāi)關(guān)閉和開(kāi)放,決定是否對(duì)其進(jìn)行收割。收割周期可以設(shè)置收割的頻率,一般設(shè)置為24小時(shí),即每天進(jìn)行一次元數(shù)據(jù)的更新。收割時(shí)間指開(kāi)始收割的時(shí)間點(diǎn),各收割輪次盡量避免設(shè)置為同一時(shí)間,減輕收割服務(wù)器的壓力。
4.2.2 服務(wù)智能定位。收割的元數(shù)據(jù)對(duì)象是分布式的,可能存在URL因?yàn)閿?shù)字對(duì)象物理位置改變,IP更換、系統(tǒng)遷移、網(wǎng)站改版或文件目錄調(diào)整導(dǎo)致資源無(wú)法訪問(wèn)的“死鏈”問(wèn)題。解決這個(gè)問(wèn)題可采用與國(guó)際接軌的,全球統(tǒng)一標(biāo)碼(Handle)的標(biāo)碼系統(tǒng)(HandleSystem),對(duì)各類文化資源依據(jù)國(guó)際標(biāo)準(zhǔn)逐一進(jìn)行注冊(cè),注冊(cè)系統(tǒng)與全球注冊(cè)系統(tǒng)建立對(duì)接,負(fù)責(zé)數(shù)字資源地址的解析服務(wù)。
智能推送系統(tǒng)通過(guò)支撐平臺(tái)的Hadoop架構(gòu)和數(shù)據(jù)挖掘工具,以用戶系統(tǒng)的數(shù)據(jù)智能分析用戶的行為,從而推送符合用戶需求偏好的信息。
4.3.1 數(shù)據(jù)準(zhǔn)備。對(duì)服務(wù)管理平臺(tái)進(jìn)行數(shù)據(jù)挖掘,首先要做數(shù)據(jù)準(zhǔn)備,分三個(gè)階段:1)數(shù)據(jù)集成。要采集不同的公共文化機(jī)構(gòu)不同系統(tǒng)的用戶數(shù)據(jù)顯然難度較大且效率低下,因此,服務(wù)管理平臺(tái)采取從五大平臺(tái)和統(tǒng)一檢索、統(tǒng)一用戶功能模塊產(chǎn)生統(tǒng)一的用戶數(shù)據(jù),保存到用戶行為數(shù)據(jù)庫(kù)的辦法來(lái)完成數(shù)據(jù)集成。2)數(shù)據(jù)選擇。從用戶行為數(shù)據(jù)庫(kù)中選取相關(guān)數(shù)據(jù)或樣本,為知識(shí)發(fā)現(xiàn)的目標(biāo)搜索和選擇有關(guān)的數(shù)據(jù),這里不包括同模式數(shù)據(jù)的轉(zhuǎn)換和數(shù)據(jù)的統(tǒng)一和匯總,只需能辨別出需要分析的數(shù)據(jù)集合即可。3)數(shù)據(jù)預(yù)處理。檢查數(shù)據(jù)的完整性及一致性,消除噪聲等。對(duì)數(shù)據(jù)進(jìn)行清理和充實(shí)等預(yù)處理工作,包括對(duì)數(shù)據(jù)編碼,數(shù)據(jù)庫(kù)中字段的不同取值轉(zhuǎn)換成數(shù)碼形式,這將有利于搜索。
4.3.2 數(shù)據(jù)挖掘流程。將數(shù)據(jù)準(zhǔn)備完成后,將進(jìn)行數(shù)據(jù)挖掘。傳統(tǒng)的數(shù)據(jù)挖掘流程為:1)確定挖掘目標(biāo),即確定要發(fā)現(xiàn)的知識(shí)類型。2)選擇算法,即根據(jù)確定的目標(biāo)選擇合適的數(shù)據(jù)挖掘算法。3)數(shù)據(jù)挖掘,即運(yùn)用所選擇算法,提取相關(guān)知識(shí)并以一定的方式表達(dá)。4)進(jìn)行結(jié)果表達(dá)與解釋,即通過(guò)現(xiàn)在的可視化技術(shù),完成模式評(píng)估(對(duì)在數(shù)據(jù)挖掘步驟中發(fā)現(xiàn)的模式/知識(shí)進(jìn)行評(píng)估)以及知識(shí)表示(表示相關(guān)技術(shù),呈現(xiàn)所挖掘的知識(shí))。
鑒于服務(wù)管理平臺(tái)的數(shù)據(jù)內(nèi)容來(lái)源于多個(gè)公共文化機(jī)構(gòu),數(shù)據(jù)屬性之間相互獨(dú)立性大,可以采用樸素貝葉斯算法來(lái)進(jìn)行分類,數(shù)據(jù)處理可以下放到Map/Reduce中計(jì)算完成。例如Hadoop的k-means算法的處理過(guò)程主要有兩部分:第一部分是初始聚類中心,并把數(shù)據(jù)集樣本分為一定大小的數(shù)據(jù)塊,以便并行處理。第二部分及時(shí)啟動(dòng)Map和Reduce任務(wù)進(jìn)行算法的并行化處理,直至產(chǎn)生聚類結(jié)果,將處理結(jié)果寫(xiě)入HDFS,也可放入存儲(chǔ)集群,以供查詢層使用。
圖2 數(shù)據(jù)挖掘簡(jiǎn)易流程圖
統(tǒng)一檢索系統(tǒng)將垂直搜索引擎采集的數(shù)據(jù)和通過(guò)元數(shù)據(jù)收割系統(tǒng)收割的數(shù)據(jù)整合,并提供一站式檢索服務(wù)。
為了提升用戶檢索體驗(yàn),提供智能化、專業(yè)化的檢索,應(yīng)引入領(lǐng)域本體(Ontology)。本體可以是一個(gè)表現(xiàn)為樹(shù)形結(jié)構(gòu)的知識(shí)庫(kù)。如頂層類可以是“公共文化”,之下可以有“戲劇”,“戲劇”又可包含“桂劇”“壯劇”等,類似于圖書(shū)館使用的分類法,但本體還要構(gòu)建推理規(guī)則。引入本體,是在用戶輸入檢索關(guān)鍵詞,進(jìn)行切詞后,由本體的推理擴(kuò)展模塊進(jìn)行擴(kuò)展,然后將擴(kuò)展的結(jié)果發(fā)給垂直搜索引擎和元數(shù)據(jù)收割系統(tǒng)進(jìn)行匹配。經(jīng)過(guò)擴(kuò)展的結(jié)果,并不是簡(jiǎn)單的原始關(guān)鍵詞,而是經(jīng)過(guò)推理的關(guān)鍵詞集合,更能準(zhǔn)確專業(yè)地表達(dá)用戶的檢索意圖,因而檢索的結(jié)果也更符合用戶的需求。
用于給各系統(tǒng)提供用戶認(rèn)證服務(wù),使用戶平滑使用平臺(tái)的各種服務(wù)。目前,對(duì)于統(tǒng)一用戶系統(tǒng),市場(chǎng)上已經(jīng)有了很多成熟的產(chǎn)品。其主要功能是用戶管理、安全認(rèn)證、訪問(wèn)控制、單點(diǎn)登錄服務(wù)和日志審計(jì)。通過(guò)統(tǒng)一用戶系統(tǒng),為用戶訪問(wèn)本管理平臺(tái)的各個(gè)應(yīng)用平臺(tái)提供方便的登錄認(rèn)證服務(wù)。
統(tǒng)計(jì)分析系統(tǒng)分別對(duì)硬件資源、數(shù)字資源進(jìn)行統(tǒng)計(jì)分析,并使用數(shù)據(jù)挖掘工具產(chǎn)生更豐富的、關(guān)聯(lián)指向性更強(qiáng)的報(bào)表提供給文化部門(mén)作為決策輔助信息。在硬件資源方面,通過(guò)對(duì)區(qū)域性公共數(shù)字文化支撐平臺(tái)的日志進(jìn)行統(tǒng)計(jì)分析,掌握硬件資源的利用情況,及時(shí)發(fā)現(xiàn)基礎(chǔ)設(shè)施的瓶頸,進(jìn)行有針對(duì)性的資源擴(kuò)展,降低盲目的投資。在數(shù)字資源方面,通過(guò)元數(shù)據(jù)收割系統(tǒng)和垂直搜索引擎的日志,統(tǒng)計(jì)分析數(shù)字資源總量和資源訪問(wèn)統(tǒng)計(jì)。
各類型公共文化服務(wù)機(jī)構(gòu)現(xiàn)有的信息系統(tǒng)多為獨(dú)立系統(tǒng),系統(tǒng)平臺(tái)各不相同,建設(shè)的數(shù)字資源也結(jié)構(gòu)不一,為典型的“信息孤島”群體。
服務(wù)管理平臺(tái)采用元數(shù)據(jù)收割技術(shù)和標(biāo)碼技術(shù),實(shí)現(xiàn)對(duì)各類型公共文化服務(wù)機(jī)構(gòu)結(jié)構(gòu)化數(shù)字資源進(jìn)行自動(dòng)收割、關(guān)聯(lián)整合、智能定位、分布式云備份;采用垂直搜索引擎技術(shù)對(duì)各類型公共文化服務(wù)機(jī)構(gòu)非結(jié)構(gòu)化數(shù)字資源進(jìn)行智能采集,通過(guò)統(tǒng)一檢索技術(shù)實(shí)現(xiàn)同構(gòu)數(shù)字資源和異構(gòu)數(shù)字資源的“一站式”服務(wù)。
通過(guò)自建和購(gòu)置,整合優(yōu)質(zhì)數(shù)字資源和聚集行業(yè)資深專家學(xué)者,建立以高質(zhì)量深度數(shù)字資源內(nèi)容研發(fā)和系統(tǒng)知識(shí)切片為核心,融合先進(jìn)的用戶行為分析的數(shù)據(jù)挖掘,為用戶提供針對(duì)性個(gè)性化服務(wù),進(jìn)行精于在線學(xué)習(xí)體驗(yàn)設(shè)計(jì)和學(xué)習(xí)體驗(yàn)設(shè)計(jì)的系統(tǒng)與個(gè)人的B2C在線知識(shí)創(chuàng)新學(xué)習(xí)平臺(tái)。內(nèi)容包括寫(xiě)作、外語(yǔ)、美術(shù)、音樂(lè)、舞蹈和進(jìn)城務(wù)工技能、農(nóng)業(yè)種養(yǎng)技術(shù)等,發(fā)揮系統(tǒng)構(gòu)建學(xué)習(xí)型社會(huì)、促進(jìn)人的素質(zhì)提高的作用。
以舞臺(tái)藝術(shù)、電影電視、展覽圖片、音樂(lè)歌曲、有聲讀物、動(dòng)漫連環(huán)畫(huà)等資源為基礎(chǔ),提供片花、票務(wù)和評(píng)論等服務(wù),通過(guò)檢索、推薦等應(yīng)用方式,建立弘揚(yáng)正能量,寓教于樂(lè),提高個(gè)人修養(yǎng)的休閑娛樂(lè)服務(wù)平臺(tái)。
服務(wù)管理平臺(tái)通過(guò)統(tǒng)計(jì)分析系統(tǒng)和云管理系統(tǒng),在信息技術(shù)服務(wù)支持平臺(tái)實(shí)現(xiàn)數(shù)字資源的使用反饋統(tǒng)計(jì),平臺(tái)運(yùn)行數(shù)據(jù)的可視化,并提供對(duì)業(yè)務(wù)培訓(xùn)的技術(shù)支持。
數(shù)字資源智能訂制與推送平臺(tái)通過(guò)數(shù)據(jù)分析各類型公共文化服務(wù)機(jī)構(gòu)的相關(guān)數(shù)據(jù)元素,建立統(tǒng)一標(biāo)準(zhǔn)和模型,并利用數(shù)據(jù)挖掘工具,生成知識(shí)數(shù)據(jù)庫(kù),形成區(qū)域內(nèi)公共數(shù)字文化資源關(guān)聯(lián)的可視化模型,實(shí)現(xiàn)信息交互功能和數(shù)字資源的個(gè)性化定制與智能推送,同時(shí)為相關(guān)文化主管部門(mén)制定發(fā)展規(guī)劃,有針對(duì)性地提高資源利用率提供決策參考。
“互聯(lián)網(wǎng)+”時(shí)代的到來(lái),使得信息資源的存在和傳播方式發(fā)生了根本改變,人們不僅能夠更為便捷地獲取知識(shí),而且獲取文化資源的公平性和文化服務(wù)的多樣性也得到了彰顯。區(qū)域性公共文化綜合服務(wù)管理平臺(tái)的成功構(gòu)建,必將會(huì)是形成一個(gè)知識(shí)信息的集散中心、一個(gè)特色資源數(shù)據(jù)的共建共享平臺(tái)、一個(gè)文化信息的互動(dòng)窗口,也必將會(huì)帶來(lái)一場(chǎng)文化服務(wù)模式的變革。
建設(shè)區(qū)域性公共文化綜合服務(wù)管理平臺(tái),利用數(shù)字化資源、智能化技術(shù)、網(wǎng)絡(luò)化傳播,加強(qiáng)公共數(shù)字文化資源整合開(kāi)發(fā),推進(jìn)文化資源數(shù)字化,拓寬公共數(shù)字文化資源服務(wù)渠道,推廣一站式服務(wù),建設(shè)全域共享、互聯(lián)互通的公共數(shù)字文化服務(wù)平臺(tái),將極大改變目前公共文化發(fā)展不均衡的問(wèn)題,特別是西部地區(qū)和貧困地區(qū)基層公共文化單位服務(wù)能力不足的現(xiàn)狀,從而更好地發(fā)揮公共文化單位在構(gòu)建現(xiàn)代公共文化服務(wù)體系、推進(jìn)文化大發(fā)展大繁榮、實(shí)現(xiàn)中華民族偉大復(fù)興中國(guó)夢(mèng)歷史進(jìn)程中的作用。
[]
[1]劉國(guó)樂(lè),何建波,李 瑜.Xen與KVM虛擬化技術(shù)原理及安全風(fēng)險(xiǎn)[J].北京:保密科學(xué)技術(shù),2015(4).
[2]王曉慶.基于云計(jì)算的南京財(cái)經(jīng)大學(xué)數(shù)據(jù)中心建設(shè)研究[D].南京:南京郵電大學(xué)計(jì)算機(jī)學(xué)院,2013:40.
[3]曉 杉,王 琨,顧華璽,等.云計(jì)算數(shù)據(jù)中心光互連網(wǎng)絡(luò):研究現(xiàn)狀與趨勢(shì)[J].北京:計(jì)算機(jī)學(xué)報(bào),2015(7).
[4]李 虎,來(lái)慶濤,王維鐵,等.云計(jì)算基礎(chǔ)設(shè)施的建設(shè)與研究[C]∥電力行業(yè)信息化優(yōu)秀論文集2014—2014年全國(guó)電力行業(yè)兩化融合推進(jìn)會(huì)暨全國(guó)電力企業(yè)信息化大會(huì)獲獎(jiǎng)?wù)撐模?014.
[5]垂直搜索引擎[EB/OL].[2015-12-25].http:∥baike.baidu.com/link?url=nCIHEUyVNHB1SaDQPdYtrA1jG-Ruc5iuIDwwbEFnI_6NtofN60ptlAFqmcEP78ZySNwlALCHWSY-CnGCGsLhnp4_.
[6]李 進(jìn).基于本體的垂直搜索引擎研究[D].長(zhǎng)春:長(zhǎng)春工業(yè)大學(xué),2013.