• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      RMSCloud與科技文獻云服務(wù)

      2013-03-22 02:54:01吳廣印
      中國科技資源導(dǎo)刊 2013年5期
      關(guān)鍵詞:搜索引擎服務(wù)中心檢索

      吳廣印

      (中國科學(xué)技術(shù)信息研究所,北京 100038)

      RMSCloud與科技文獻云服務(wù)

      吳廣印

      (中國科學(xué)技術(shù)信息研究所,北京 100038)

      在對云計算相關(guān)功能定義進行研究和分析的基礎(chǔ)上,針對科技文獻的云服務(wù)需求結(jié)合云計算的相關(guān)應(yīng)用,介紹RMSCloud的相關(guān)核心技術(shù)及特點。最后基于RMSCloud對科技文獻云服務(wù)應(yīng)用的集成系統(tǒng)架構(gòu)進行闡述。

      RMSCloud;云計算;云服務(wù);科技文獻服務(wù);云服務(wù)集成

      1 引言

      RMS是北京萬方數(shù)據(jù)股份有限公司開發(fā)的一個統(tǒng)一的非結(jié)構(gòu)化資源服務(wù)系統(tǒng)的簡稱。RMSCloud是資源服務(wù)系統(tǒng)的云計算服務(wù)縮寫。RMSCloud在RMS架構(gòu)基礎(chǔ)上以云計算的技術(shù)架構(gòu)為指導(dǎo)面向科技文獻云服務(wù)的學(xué)術(shù)搜素引擎,在國家“863”課題“以科技文獻為主的搜索引擎研制”資助下,歷經(jīng)2年多時間研制完成。

      所謂“云計算”服務(wù),就是直接為用戶提供功能服務(wù),而用戶不必考慮平臺、系統(tǒng)、應(yīng)用軟件甚至公共服務(wù)數(shù)據(jù)來源。用戶在需要某種服務(wù)時,只需向服務(wù)提供商支付一定的服務(wù)費,即可獲取這種直接的服務(wù)。顯然“云計算”的服務(wù)模式是一種硬件、軟件、系統(tǒng)資源的共享服務(wù)模式。云計算的最終目的是將計算、服務(wù)和應(yīng)用作為一種公共設(shè)施提供給公眾,從而大大提高資源的利用率。

      在云計算環(huán)境下,用戶的使用觀念也會發(fā)生徹底的變化:從“購買系統(tǒng)”向“購買服務(wù)”轉(zhuǎn)變,因為他們直接面對的將不再是復(fù)雜的硬件和軟件,而是最終的服務(wù)。用戶不需要擁有看得見、摸得著的硬件設(shè)施,也不需要為機房支付設(shè)備供電、空調(diào)制冷、專人維護等高昂費用,更不需要等待漫長的供貨周期以及項目實施等冗長的時間,而只需要和云計算服務(wù)提供商簽訂服務(wù)合同,即可得到需要的直接服務(wù)。目前,由北京萬方軟件有限公司提供的“中國學(xué)術(shù)搜索網(wǎng)”云服務(wù)接口可為廣大科技信息服務(wù)機構(gòu)提供一體化的“科技文獻搜索云服務(wù)”,從而最大限度地節(jié)約投資,提高服務(wù)效率。

      2 云計算及其核心技術(shù)

      美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)提出的云計算的定義如下[1]:云計算是“一種無處不在且方便使用的計算模式,可按網(wǎng)絡(luò)訪問需求自動配置的計算資源共享池(例如網(wǎng)絡(luò)、服務(wù)器、存儲、應(yīng)用程序和服務(wù)),可以最小的管理代價快速配置管理和發(fā)布資源,并且支持資源服務(wù)商和服務(wù)供應(yīng)商的互動”。NIST提出云計算具有按需自助服務(wù)、寬帶網(wǎng)絡(luò)接入、資源池、快速彈性、量化服務(wù)等5個基本特征,軟件即服務(wù)、平臺即服務(wù)、基礎(chǔ)設(shè)施即服務(wù)等3種服務(wù)模式,私有云、社區(qū)云、公有云、混合云等4類部署形式。

      圖1是國際上對3種不同云服務(wù)模式的用戶控制權(quán)限的說明,其中打包軟件為傳統(tǒng)用戶私有設(shè)施形式。

      云計算系統(tǒng)運用了許多技術(shù),其中以編程模型、數(shù)據(jù)管理與挖掘技術(shù)、數(shù)據(jù)存儲技術(shù)、虛擬化技術(shù)、云計算平臺管理技術(shù)最為關(guān)鍵。

      (1)編程模型

      Map/Reduce[2]是Google開發(fā)的java、Python、C++編程模型,它是一種簡化易于理解的分布式編程模型和高效的任務(wù)調(diào)度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。該編程模型使云計算環(huán)境下的編程十分簡單。Map/Reduce模式的思想是將要執(zhí)行的問題分解成Map(映射)和Reduce(化簡)的方式,先通過Map程序?qū)?shù)據(jù)切割成不相關(guān)的區(qū)塊,分配(調(diào)度)給大量計算機處理,達到分布式運算的效果,再通過Reduce程序?qū)⒔Y(jié)果匯整輸出。Map/Reduce已經(jīng)成為云計算領(lǐng)域分布式編程核心指導(dǎo)思想。

      (2)海量數(shù)據(jù)分布存儲技術(shù)

      云計算系統(tǒng)由大量服務(wù)器組成,同時為大量用戶服務(wù),因此云計算系統(tǒng)采用分布式存儲的方式存儲數(shù)據(jù),用冗余存儲的方式保證數(shù)據(jù)的可靠性。云計算系統(tǒng)中廣泛使用的數(shù)據(jù)存儲系統(tǒng)是Google的GFS和Hadoop團隊開發(fā)的GFS的開源實現(xiàn)HDFS[3]。GFS[4]即Google文件系統(tǒng)(Google File System),是一個可擴展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應(yīng)用。GFS的設(shè)計思想不同于傳統(tǒng)的文件系統(tǒng),是針對大規(guī)模數(shù)據(jù)處理和Google應(yīng)用特性而設(shè)計的。它運行于廉價的普通硬件上,但可以提供容錯功能,可以給大量的用戶提供總體性能較高的服務(wù)。

      圖1 云計算三種服務(wù)模式的控制權(quán)限差異(深色色塊表示用戶控制權(quán)限)

      一個GFS集群由一個主服務(wù)器和大量的塊服務(wù)器構(gòu)成,并被許多客戶訪問。主服務(wù)器存儲文件系統(tǒng)所有的元數(shù)據(jù),包括名字空間、訪問控制信息、從文件到塊的映射以及塊的當(dāng)前位置。它也控制系統(tǒng)范圍的活動,如塊租約管理、碎片數(shù)據(jù)塊的整理與收集、塊服務(wù)器間的塊遷移。主服務(wù)器定期通過HeartBeat消息與每一個塊服務(wù)器通信,給塊服務(wù)器傳遞指令并收集它的狀態(tài)。GFS中的文件被切分為64MB的塊并以冗余存儲,每份數(shù)據(jù)在系統(tǒng)中保存3個以上備份。

      客戶與主服務(wù)器的交換只限于對元數(shù)據(jù)的操作,所有數(shù)據(jù)方面的通信都直接和塊服務(wù)器聯(lián)系,從而提高了系統(tǒng)的效率,防止主服務(wù)器負載過重。

      (3)海量數(shù)據(jù)管理技術(shù)

      云計算需要對分布的、海量的數(shù)據(jù)進行處理、分析,因此,數(shù)據(jù)管理技術(shù)必需能夠高效地管理大量的數(shù)據(jù)。云計算系統(tǒng)中的數(shù)據(jù)管理技術(shù)主要是Google的BT(BigTable)數(shù)據(jù)管理技術(shù)和Hadoop團隊開發(fā)的開源數(shù)據(jù)管理模塊HBase[5]。BT是建立在GFS、Scheduler、Lock Service和Map/Reduce之上的一個大型的分布式數(shù)據(jù)庫,與傳統(tǒng)的關(guān)系數(shù)據(jù)庫不同,它把所有數(shù)據(jù)都作為對象來處理,形成一個巨大的表格,用來分布存儲大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。

      Google的很多項目使用BT來存儲數(shù)據(jù),包括網(wǎng)頁查詢,Google earth和Google金融。這些應(yīng)用程序?qū)T的要求各不相同:數(shù)據(jù)大小(從URL到網(wǎng)頁到衛(wèi)星圖象)不同,反應(yīng)速度不同(從后端的大批處理到實時數(shù)據(jù)服務(wù))。對于不同的要求,BT都成功地提供了靈活高效的服務(wù)。

      (4)虛擬化技術(shù)

      通過虛擬化技術(shù)可實現(xiàn)軟件應(yīng)用與底層硬件相隔離,它包括將單個資源劃分成多個虛擬資源的裂分模式,也包括將多個資源整合成一個虛擬資源的聚合模式。虛擬化技術(shù)根據(jù)對象可分成存儲虛擬化、計算虛擬化、網(wǎng)絡(luò)虛擬化等。計算虛擬化又分為系統(tǒng)級虛擬化、應(yīng)用級虛擬化和桌面虛擬化[6]。

      (5)云計算平臺管理技術(shù)

      云計算資源規(guī)模龐大,服務(wù)器數(shù)量眾多并分布在不同的地點,同時運行著數(shù)百種應(yīng)用,如何有效地管理這些服務(wù)器,保證整個系統(tǒng)提供不間斷的服務(wù)是巨大的挑戰(zhàn)。云計算系統(tǒng)的平臺管理技術(shù)能夠使大量的服務(wù)器協(xié)同工作,方便地進行業(yè)務(wù)部署和開通,快速發(fā)現(xiàn)和恢復(fù)系統(tǒng)故障,通過自動化、智能化的手段實現(xiàn)大規(guī)模系統(tǒng)的可靠運營。

      3 RMSCloud涉及的核心技術(shù)

      RMSCloud是在云計算技術(shù)架構(gòu)基礎(chǔ)上提供科技文獻云服務(wù)的學(xué)術(shù)搜索引擎。RMSCloud云搜索引擎是基于RMS系統(tǒng)的變長數(shù)據(jù)存儲管理、多樣化索引控制技術(shù)、中文智能分詞技術(shù),實現(xiàn)對于中文科技文獻文本信息的快速準(zhǔn)確分詞,采用獨特B*樹文件索引算法,進行索引構(gòu)建索引文件,利用多項檢索優(yōu)化算法實現(xiàn)了基于復(fù)雜布爾表達技術(shù)的全文檢索。其先進索引技術(shù),可以使檢索詞快速定位,檢索速度幾乎不受索引文件大小的限制,為海量科技文獻信息的學(xué)術(shù)搜索提供了全文索引和檢索技術(shù)支持,通過跨語言自動翻譯和詞表擴展技術(shù),確保實現(xiàn)系統(tǒng)的查全、查準(zhǔn)率。同時,RMSCloud云搜索引擎采用云計算架構(gòu)和并行計算技術(shù),通過索引分片,減少單索引數(shù)據(jù)量,提高索引檢索速度;通過索引副本,實現(xiàn)全文索引在集群多節(jié)點之間的分布,實現(xiàn)多節(jié)點并行計算;通過無主從集群節(jié)點通信,實現(xiàn)節(jié)點數(shù)據(jù)同步,為集群節(jié)點可靠并行計算與云搜索服務(wù)提供保障。

      RMSCLoud云搜索引擎核心搜索服務(wù)技術(shù)框架如圖2所示。RMSCloud云搜索引擎分層結(jié)構(gòu)及模塊組成主要包括API接口、傳輸協(xié)議支撐、Java Netty框架、監(jiān)控、RMS中文智能分詞、第三方插件支持、云集群通信、腳本解析引擎、RMS全文索引、RMS全文檢索、索引映射配置、數(shù)據(jù)源、分布式RMS索引目錄支持、文件系統(tǒng)持久化網(wǎng)關(guān)等模塊。RMSCloud云搜索引擎在研制和構(gòu)建過程中,應(yīng)用了大量的云計算技術(shù),實現(xiàn)集群與并行計算支持,滿足大數(shù)據(jù)量科技文獻學(xué)術(shù)搜索與知識挖掘分析需求。

      (1)集群與分布式并行計算

      RMSCloud云搜索引擎支持分布式并行計算技術(shù),主要依賴于以下途徑實現(xiàn)。

      集群技術(shù):集群中有多個節(jié)點,其中有一個為主節(jié)點,這個主節(jié)點可以通過選舉產(chǎn)生,主從節(jié)點是對于集群內(nèi)部來說的。對于集群外部來說,就是去中心化,從外部來看集群,在邏輯上是個整體,與任何一個節(jié)點的通信和與整個集群通信是等價的。集群節(jié)點故障不影響整個集群的對外服務(wù),從而保證集群的可靠性。

      索引分片:可以把一個完整的全文索引分成多個分片,這樣的好處是可以把一個大的全文索引進行拆分,分布到不同的節(jié)點上,在檢索時,依托多個節(jié)點的計算能力進行并行計算和分布式檢索。

      索引副本:可針對索引及分片設(shè)置多個索引的副本。副本的作用一是提高系統(tǒng)的容錯性,當(dāng)某個節(jié)點某個分片損壞或丟失時可以從副本中自動恢復(fù);二是提高檢索效率,可以自動對搜索請求進行負載均衡,調(diào)度到其他節(jié)點副本上進行分布式檢索。

      圖2 RMSCLoud云搜索引擎核心搜索服務(wù)技術(shù)框架

      (2)自動化維護與管理

      RMSCloud云搜索引擎基于分布式計算模式,支持節(jié)點自動發(fā)現(xiàn)、節(jié)點擴展,數(shù)據(jù)自動重新分布、索引自動持久化存儲等能力,可以實現(xiàn)對于云計算集群的自動維護管理功能。

      自動節(jié)點發(fā)現(xiàn):類似一個p2p的系統(tǒng),它先通過廣播尋找存在的節(jié)點,再通過多播協(xié)議來進行節(jié)點之間的通信,同時也支持點對點的交互。

      數(shù)據(jù)重新分布:在有節(jié)點加入或退出時會根據(jù)機器的負載對索引分片進行重新分配,掛掉的節(jié)點重新啟動時也會自動進行數(shù)據(jù)恢復(fù)。

      數(shù)據(jù)源自動索引更新:可支持從數(shù)據(jù)源中自動讀取數(shù)據(jù)并同步索引到RMSClouded云搜索服務(wù)集群中。

      索引持久化存儲網(wǎng)關(guān):RMSClouded默認(rèn)是先把索引存放到內(nèi)存中,當(dāng)分配內(nèi)存滿了時再持久化到硬盤等存儲網(wǎng)關(guān)。當(dāng)這個集群關(guān)閉再重新啟動時就會從存儲網(wǎng)關(guān)中讀取索引數(shù)據(jù)。RMSClouded支持多種類型的持久化存儲網(wǎng)關(guān),有本地文件系統(tǒng),共享文件系統(tǒng),Hadoop的HDFS和Amazon的s3云存儲服務(wù)。

      4 RMSCloud科技文獻服務(wù)相關(guān)核心技術(shù)

      在RMSCloud的研制過程中,除借鑒傳統(tǒng)搜索引擎在云計算應(yīng)用方面的思路,同時也考慮了學(xué)術(shù)搜索引擎的專有特性。

      (1)詞表與中文智能分詞技術(shù)的大量應(yīng)用

      RMSCloud在數(shù)據(jù)索引、用戶檢索需求處理等方面大量應(yīng)用了詞表和中文智能分詞技術(shù),中文分詞技術(shù)的好壞直接影響系統(tǒng)的“查全/查準(zhǔn)率”。

      萬方科技文獻主題詞庫:用于文獻分詞與索引構(gòu)建,檢索語句的分詞與擴展檢索、相關(guān)檢索詞提示等。這些主題詞來源于萬方數(shù)據(jù)期刊、學(xué)位論文等數(shù)據(jù)庫中的作者形成的主題詞項,通過二次規(guī)范加工建立。

      漢語敘詞表:用于對檢索關(guān)鍵詞基于詞間關(guān)系,包括上位詞、下位詞、相關(guān)詞、代用詞等主題詞本體擴展與相關(guān)檢索、相似詞推薦。該詞表以中國科學(xué)技術(shù)信息研究所建立的“工程詞表”為基礎(chǔ),主要用于科技文獻檢索的后空擴展檢索,在“中國學(xué)術(shù)搜索網(wǎng)”中得到應(yīng)用。

      中英文主題詞對照表:用于中英文詞的對照翻譯與中英文混合檢索擴展。

      專家?guī)欤和ㄟ^對萬方的科技文獻倉儲進行數(shù)據(jù)挖掘,形成了600多萬的科技專家數(shù)據(jù)庫,通過人工輔助規(guī)范形成,用于對專家的同名識別和專家知識倉儲庫管理。

      多層級機構(gòu)庫:通過對萬方的科技文獻倉儲進行數(shù)據(jù)提取,然后利用萬方軟件自行研發(fā)的機構(gòu)名稱規(guī)范輔助工具進行處理,人工校對生成。主要用于對于機構(gòu)名稱的標(biāo)引規(guī)范,和機構(gòu)名稱的歸一化檢索,提高機構(gòu)名稱的“查全/查準(zhǔn)率”。在機構(gòu)創(chuàng)新能力評價中意義更為重要。

      (2)深度數(shù)據(jù)加工標(biāo)引與多維度的聚類和知識挖掘分析支持

      除RMSCloud相關(guān)核心技術(shù)研發(fā)之外,同時對科技文獻的加工處理提出了較高的要求。對于中外文科技文獻倉儲知識庫建設(shè),制定了元數(shù)據(jù)加工標(biāo)引、質(zhì)量檢查等一系列標(biāo)準(zhǔn)規(guī)范,提升數(shù)據(jù)加工標(biāo)引的質(zhì)量。同時,對于科技文獻元數(shù)據(jù),嚴(yán)格按照學(xué)科、主題、人物、機構(gòu)、基金等“知識獲取五要素”進行深度標(biāo)引,為圍繞五要素的檢索、導(dǎo)航、多維度聚類和知識挖掘分析提供了基礎(chǔ)。

      (3)相關(guān)度計算排序與相似結(jié)果推薦

      RMSCloud可以根據(jù)用戶檢索關(guān)鍵詞進行自動識別,判斷用戶檢索人物、機構(gòu)、期刊、主題等檢索意圖,同時可提供按照檢索詞的相關(guān)度排序和相似結(jié)果推薦?;谠朴嬎慵軜?gòu)的學(xué)術(shù)搜索引擎通過對于數(shù)據(jù)庫、字段及索引定義權(quán)重分值,以支持多字段過濾與相關(guān)度排序及相似結(jié)果計算。

      關(guān)于RMSCloud的詳細技術(shù)及研究內(nèi)容介紹,參見《數(shù)字圖書館論壇》2013年第6期云計算專刊。

      5 RMSClod應(yīng)用示范

      多年來,北京萬方軟件股份有限公司一直從事科技信息服務(wù)系統(tǒng)相關(guān)的技術(shù)研究開發(fā)工作,開發(fā)出了系列相關(guān)產(chǎn)品,包括非結(jié)構(gòu)數(shù)據(jù)資源管理系統(tǒng)RMS、萬方數(shù)據(jù)資源整合服務(wù)平臺、科技文獻自動分類與摘要服務(wù)系統(tǒng)、萬方學(xué)術(shù)搜索、科技創(chuàng)新文獻共享支撐平臺等系列產(chǎn)品和服務(wù)系統(tǒng)。經(jīng)過近10年的研究與開發(fā)實踐,結(jié)合目前承擔(dān)的國家“863”計劃重大專項“以科技文獻為主的搜索引擎研制”部分成果,尤其是結(jié)合最新的RMSCloud系統(tǒng)的開發(fā)成果,我們提出了基于“云服務(wù)”的國際科技文獻服務(wù)系統(tǒng)總體架構(gòu),并通過“中國學(xué)術(shù)搜索網(wǎng)”和部分省市示范系統(tǒng)建設(shè)得到實施驗證。

      圖3是我們在多年研究開發(fā)基礎(chǔ)上設(shè)計提出的基于“云服務(wù)”的科技文獻服務(wù)系統(tǒng)總體架構(gòu)圖。下面將對這一系統(tǒng)架構(gòu)做詳細功能解釋說明。

      萬方科技文獻倉儲云服務(wù)中心: 該中心是本系統(tǒng)架構(gòu)的核心,它包括規(guī)范化的元數(shù)據(jù)倉儲中心、相關(guān)知識庫中心和管理這些數(shù)據(jù)的基于Web Service架構(gòu)的資源管理與服務(wù)系統(tǒng)[7]RMS,RMSCloud為底層云學(xué)術(shù)搜索引擎。其中,科技文獻倉儲云服務(wù)中心包括中外文期刊、會議、學(xué)位論文、專利、標(biāo)準(zhǔn)、法律法規(guī)、科技成果、科技人物、機構(gòu)等以事實數(shù)據(jù)為基礎(chǔ)的元數(shù)據(jù)倉儲,該倉儲中心的數(shù)據(jù)規(guī)范原則,以本人提出的“知識獲取五要素”為指導(dǎo)思想。該數(shù)據(jù)倉儲數(shù)據(jù)規(guī)范的主要工作目標(biāo)是解決科技信息服務(wù)中的人物重名和機構(gòu)名稱變遷、機構(gòu)合并等引起的“查全/查準(zhǔn)”問題。目前,該倉儲的元數(shù)據(jù)記錄數(shù)達6億規(guī)模,幾乎涵蓋所有科技文獻所涉及的中外文元數(shù)據(jù)記錄。

      知識庫中心:包括知識獲取五要素中涉及的學(xué)科、人物、主題、機構(gòu)、基金等相關(guān)知識庫,其中包括420多萬的主題知識庫和1200萬作者相關(guān)的知識庫,其中作者的科研合作網(wǎng)絡(luò)和學(xué)術(shù)網(wǎng)絡(luò)知識庫是通過數(shù)據(jù)挖掘及其相關(guān)技術(shù)由計算機自動生成的,對外提供服務(wù)接口。

      云學(xué)術(shù)搜索引擎RMSCloud:在元數(shù)據(jù)服務(wù)中心里,RMSCloud負責(zé)元數(shù)據(jù)的接收、存儲、索引,并提供標(biāo)準(zhǔn)的云搜索服務(wù)。以RMSCloud為基礎(chǔ)的云服務(wù)示范系統(tǒng)“中國學(xué)術(shù)搜索網(wǎng)”已經(jīng)正式投入服務(wù)(http://www.sciinfo.cn)。

      在本架構(gòu)中,萬方科技文獻倉儲云服務(wù)中心屬于公共云服務(wù)中心范疇,它除了管理萬方軟件自己的倉儲數(shù)據(jù)外,還可以為用戶提供數(shù)據(jù)共享服務(wù)。目前,該中心支持15種標(biāo)準(zhǔn)格式的元數(shù)據(jù)交換,涵蓋期刊、會議、圖書、方志、報告、視頻等科技文獻數(shù)據(jù)。同時,該服務(wù)中心屬于本架構(gòu)方案中的最底層,除了網(wǎng)絡(luò)和系統(tǒng)上的安全措施外,對存儲在中心的所有數(shù)據(jù)均采用了高強度的128位加密算法進行磁盤級保護。目前,該服務(wù)中心已正式對圖書、情報等信息服務(wù)部門提供服務(wù),用戶通過接口直接調(diào)用本中心(中間經(jīng)過云調(diào)度中心的認(rèn)證和管理)提供的80多種服務(wù)。該中心提供的服務(wù)包括數(shù)據(jù)庫管理、檢索、數(shù)據(jù)交換、自動標(biāo)引與分類、基于“知識獲取五要素”的導(dǎo)航服務(wù)、聚類統(tǒng)計分析等。另外,云服務(wù)中心的硬件設(shè)備也可根據(jù)用戶規(guī)模、資源規(guī)模進行快速擴展部署。

      圖3 基于“云服務(wù)”的國家科技文獻服務(wù)平臺總體架構(gòu)圖

      地方私有云服務(wù)中心:公共云服務(wù)模式客觀存在潛在的用戶關(guān)鍵數(shù)據(jù)的安全風(fēng)險(起碼從技術(shù)上是這樣的),用戶的關(guān)鍵數(shù)據(jù)放在公共云服務(wù)中心,雖然節(jié)省投資,提高了效率,但畢竟放在別人那里。因此,在總體架構(gòu)里面提供了對私有云服務(wù)中心的支持,私有云服務(wù)中心可提供和公共云服務(wù)中心一樣的功能。不同之處在于,該中心還支持對其他關(guān)系數(shù)據(jù)庫的管理,這樣也可以方便將原有老架構(gòu)的系統(tǒng)納入新的云服務(wù)管理架構(gòu)繼續(xù)使用。私有云服務(wù)中心主要用來管理用戶的本地關(guān)鍵數(shù)據(jù),規(guī)避云服務(wù)潛在的安全問題。另外,由于私有云服務(wù)中心提供的各類服務(wù)相對公有云服務(wù)要簡單的多,可采用集中式搜索引擎RMS系統(tǒng)為搜索引擎。

      區(qū)域性公有云服務(wù)中心:目前,部分省市信息服務(wù)機構(gòu)已經(jīng)開始建設(shè)區(qū)域性重點行業(yè)科技創(chuàng)新服務(wù)系統(tǒng),這類系統(tǒng)不同于現(xiàn)有的文獻服務(wù)系統(tǒng),主要表現(xiàn)出區(qū)域性、內(nèi)容涵蓋面廣、交叉性等特征。區(qū)域性:是為本地區(qū)重點產(chǎn)業(yè)的關(guān)鍵業(yè)務(wù)提供支撐。內(nèi)容涵蓋面廣:不僅僅是科技文獻服務(wù),還包括基于互聯(lián)網(wǎng)信息產(chǎn)業(yè)動態(tài)、研究報告、政策法規(guī)、專家互動、競爭情報、成果轉(zhuǎn)化與服務(wù)等一系列產(chǎn)業(yè)信息服務(wù)。交叉性:雖然產(chǎn)業(yè)服務(wù)是某個省市根據(jù)自身區(qū)域業(yè)務(wù)需求提出的,但在全國范圍內(nèi)和部分區(qū)域仍然存在一定的交叉性。鑒于這種情況,萬方軟件提出的區(qū)域性云服務(wù)的架構(gòu)思想,主要是為了避免不同省市間產(chǎn)業(yè)信息的重復(fù)建設(shè)。比如,遼寧省已經(jīng)建設(shè)完成了車床產(chǎn)業(yè)服務(wù)平臺,吉林等其他省市也需要這樣的產(chǎn)業(yè)服務(wù),我們建議以遼寧為主,其他省市參與共建共享。

      區(qū)域性云服務(wù)中心的管理架構(gòu)和萬方元數(shù)據(jù)云服務(wù)中心一樣,只是內(nèi)容的歸屬有所區(qū)別,也可體現(xiàn)多個信息服務(wù)機構(gòu)的共建、共享宗旨,其搜索引擎視規(guī)模來選擇RMS或RMSCloud。

      云服務(wù)調(diào)度中心:云服務(wù)調(diào)度中心是本架構(gòu)中“云服務(wù)”最為核心的部分,是RMSCloud云服務(wù)的基礎(chǔ),所有基于“云服務(wù)”的管理、調(diào)度模式都在這里得到體現(xiàn)。它主要包括整個云的安全防護與認(rèn)證、用戶管理、服務(wù)機構(gòu)管理、云數(shù)據(jù)服務(wù)中心配置、管理與調(diào)度、服務(wù)緩存、服務(wù)負載均衡等功能。無論公有云、私有云,還是區(qū)域性云服務(wù)都通過本調(diào)度中心進行管理與調(diào)度。實際上該調(diào)度中心是“國家科技文獻服務(wù)”的資源調(diào)度中心。

      省市科技文獻共享服務(wù)平臺:省市科技文獻共享服務(wù)平臺是各省科技信息(情報)研究所(院)根據(jù)自身業(yè)務(wù)特點提出的面向本省市的科技文獻共享保障平臺,具有明顯區(qū)域特征和個性化服務(wù)模式。目前,大部分服務(wù)平臺在公共性文獻信息服務(wù)方面基本上都是利用萬方科技文獻倉儲云服務(wù)中心所提供的數(shù)據(jù)和相關(guān)接口服務(wù),將自己擁有的特色數(shù)據(jù)存放在自己的私有云服務(wù)系統(tǒng)中。采用萬方軟件提供的科技創(chuàng)新文獻共享支撐平臺,可直接調(diào)用萬方云服務(wù)平臺的示范系統(tǒng)“中國學(xué)術(shù)搜索網(wǎng)”提供的所有服務(wù),同時可以調(diào)用私有云的所有服務(wù)。

      到本文截稿時,除“中國學(xué)術(shù)搜索網(wǎng)”已經(jīng)正式對外提供服務(wù)外,遼寧、吉林、黑龍江、山東、山西、湖南、河南、云南等省市科技文獻服務(wù)平臺的搜索引擎服務(wù)都已經(jīng)正式接入到萬方科技文獻云服務(wù)中心。其中,最具代表性的是“甘肅省科技文獻服務(wù)平臺”,平臺門戶及業(yè)務(wù)平臺均由他們自己開發(fā)完成,其中的數(shù)據(jù)搜索、數(shù)據(jù)挖掘與分析、主題趨勢分析、原文定位等均是調(diào)用RMSCloud的云服務(wù)接口完成。由于本文主要目的是闡述RMSCloud的科技文獻云服務(wù)功能,涉及科技文獻服務(wù)的相關(guān)核心技術(shù)沒有做更多的介紹。詳細參見參考文獻[8]和文獻[9]。

      6 結(jié)語

      RMSCloud是針對科技文獻服務(wù)的需求特點采用云計算核心技術(shù)架構(gòu),開發(fā)完成的專用科技文獻云搜索服務(wù)平臺。萬方軟件利用RMSCloud系統(tǒng)對原來基于RMS資源服務(wù)系統(tǒng)構(gòu)建的省市科技文獻服務(wù)系統(tǒng)進行了全面升級,使用的科技文獻元數(shù)據(jù)全部來源于倉儲中心,節(jié)省了大量服務(wù)器和搜索引擎部署,大大提高了系統(tǒng)的功能和性能。同時基于“云服務(wù)”的分布式搜索引擎RMSCloud的研制成功,可為未來科技文獻系統(tǒng)的“大數(shù)據(jù)”應(yīng)用提供自主知識產(chǎn)權(quán)技術(shù)支撐和保障。

      [1] NIST. Final Version of NIST Cloud Computing De f nition Published [M/OL]. [2013-04-18]. http://www.nist. gov/itl/csd/cloud-102511.cfm.

      [2] Map Reduce: Simplied Data Processing on Large Clusters [M/OL]. [2013-01-09]. http://static.googleusercontent.com/external_content/untrusted_dlcp/research. google.com/zh-CN//archive/mapreduce-osdi04.pdf.

      [3] Hadoop [EB/OL]. [2012-03-19]. http://hadoop.apache. org.

      [4] 田嵩,晏伯武,楊慧等.基于GFS的分布式云存儲應(yīng)用技術(shù)的設(shè)計[J].福建電腦,2012(10):23-25.

      [5] 劉星.Hbase性能深度分析[J].程序員,2011(7):102-104.

      [6] 朱學(xué)迅.虛擬化技術(shù)研究[J].電信技術(shù)研究,2008(5): 28-31.

      [7] 吳廣印.基于Web Service構(gòu)架的資源共享技術(shù)研究與實現(xiàn)[J].情報學(xué)報,2007(6):851-857.

      [8] 吳廣印.RMS系統(tǒng)架構(gòu)與情報檢索系統(tǒng)的功能需求研究[J].數(shù)字圖書館論壇,2013(6):31-38.

      [9] 吳廣印.分布式學(xué)術(shù)搜索引擎研制及其大數(shù)據(jù)應(yīng)用[J].數(shù)字圖書館論壇,2013(6):10-18.

      RMSCloud and S&T Document Cloud Service

      Wu Guangyin
      (Institute of Science and Technology Information Research of China, Beijing 100038)

      In this paper, the m ain defnition of cloud computing related function has carried on the research and analysis, at the same time cloud service demand of the scientif c documents, combined with the related application of cloud com puting, this paper introduces the RMSCloud related core technologies and features. Finally introduced the RMSCloud based integration of scientif c and technological documents cloud service application system architecture

      RMSCloud, cloud computing, cloud services, S&T document service, cloud service integration

      G35

      :ADOI:10.3772/j.issn.1674-1544.2013.05.013

      吳廣?。?965- ),男,中國科學(xué)技術(shù)信息研究所研究員,北京萬方軟件有限公司董事長,研究方向:非結(jié)構(gòu)數(shù)據(jù)庫管理系統(tǒng)、中文信息檢索。

      國家高科技發(fā)展計劃(863計劃)“云計算關(guān)鍵技術(shù)與系統(tǒng)(一期)”專項“以科技文獻為主的搜索引擎研制”(2011AA 01A206)。

      2013年6月26日。

      猜你喜歡
      搜索引擎服務(wù)中心檢索
      隊旗在黨群服務(wù)中心飄揚
      少先隊活動(2021年5期)2021-12-02 02:43:09
      我國已建成4000多個糧食產(chǎn)后服務(wù)中心
      2019年第4-6期便捷檢索目錄
      上??匆姁壑驹刚叻?wù)中心
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      曲阜行政服務(wù)中心打造為民服務(wù)“升級版”
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      國際標(biāo)準(zhǔn)檢索
      南靖县| 高台县| 双峰县| 新乡市| 安徽省| 丁青县| 新野县| 平和县| 天柱县| 库尔勒市| 呼伦贝尔市| 祁门县| 平舆县| 平原县| 博客| 惠来县| 昭通市| 延寿县| 隆尧县| 天台县| 禄丰县| 阆中市| 唐山市| 阳朔县| 区。| 迭部县| 泽州县| 湘阴县| 明水县| 崇明县| 团风县| 玉溪市| 育儿| 四子王旗| 温州市| 鞍山市| 额尔古纳市| 龙里县| 鹰潭市| 江源县| 朝阳市|