陳 夢(mèng),孟 放
(中國(guó)傳媒大學(xué) 信息工程學(xué)院,北京100024)
?
面向互聯(lián)網(wǎng)資源共享的元數(shù)據(jù)收割系統(tǒng)研究
陳夢(mèng),孟放
(中國(guó)傳媒大學(xué) 信息工程學(xué)院,北京100024)
隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)資源的有效管理與共享成為亟待解決的問(wèn)題。針對(duì)資源元數(shù)據(jù)進(jìn)行的收割操作可實(shí)現(xiàn)對(duì)音視頻等網(wǎng)絡(luò)資源的共享,提高資源利用率。首先介紹基于OAI-PMH協(xié)議的元數(shù)據(jù)收割流程及其應(yīng)用現(xiàn)狀,之后設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)用于網(wǎng)絡(luò)資源元數(shù)據(jù)收割的簡(jiǎn)單示例系統(tǒng)。該系統(tǒng)在MySQL5.6和VC環(huán)境下開(kāi)發(fā),簡(jiǎn)單實(shí)用,在一般配置計(jì)算機(jī)之間即可實(shí)現(xiàn)元數(shù)據(jù)收割功能,對(duì)該系統(tǒng)的測(cè)試,可驗(yàn)證各項(xiàng)基本功能實(shí)現(xiàn)有效。并且通過(guò)此示例系統(tǒng)的運(yùn)行可看出,基于OAI-PMH協(xié)議的元數(shù)據(jù)收割系統(tǒng)可作為互聯(lián)網(wǎng)資源共享與管理的有效途徑之一。
網(wǎng)絡(luò)資源共享;OAI-PMH;元數(shù)據(jù)收割
隨著計(jì)算機(jī)與網(wǎng)絡(luò)的迅速發(fā)展,人們的生活已經(jīng)進(jìn)入了互聯(lián)網(wǎng)時(shí)代。從傳統(tǒng)途徑獲取的資源已經(jīng)無(wú)法滿(mǎn)足人們工作生活的需求,越來(lái)越多的人開(kāi)始在網(wǎng)上搜索、傳播資源。因此,隨著網(wǎng)絡(luò)上的資源數(shù)量呈幾何級(jí)數(shù)增長(zhǎng),海量資源的有效管理、共享與簡(jiǎn)潔高效的展示成為人們亟待解決的問(wèn)題。對(duì)于網(wǎng)絡(luò)視頻、音頻等大數(shù)據(jù)量的資源直接進(jìn)行傳輸與檢索,無(wú)論在成本或是技術(shù)的實(shí)現(xiàn)上都是不現(xiàn)實(shí)的。因此,為了提高網(wǎng)絡(luò)中各類(lèi)資源的利用效率,出現(xiàn)了許多對(duì)于網(wǎng)絡(luò)資源元數(shù)據(jù)的描述與操作管理標(biāo)準(zhǔn)。
針對(duì)元數(shù)據(jù)的收割操作是實(shí)現(xiàn)各地互聯(lián)網(wǎng)數(shù)字資源的開(kāi)放式共享的關(guān)鍵技術(shù)。在收割系統(tǒng)中,中心數(shù)據(jù)庫(kù)可實(shí)時(shí)和定時(shí)向節(jié)點(diǎn)數(shù)據(jù)庫(kù)分發(fā)與收割元數(shù)據(jù)和對(duì)象數(shù)據(jù),各數(shù)據(jù)庫(kù)采用完全分布式的架構(gòu),以網(wǎng)絡(luò)傳輸和元數(shù)據(jù)相關(guān)標(biāo)準(zhǔn)為規(guī)范,對(duì)于數(shù)字資源采用元數(shù)據(jù)的形式進(jìn)行描述,其目的是實(shí)現(xiàn)元數(shù)據(jù)資源和對(duì)象資源的統(tǒng)一管理和共享式檢索。目前,國(guó)際上比較通用的對(duì)于網(wǎng)絡(luò)資源共享的互操作標(biāo)準(zhǔn)中,OAI(Open Archive Initiative)[1]得到了廣泛的認(rèn)可與應(yīng)用。OAI意為開(kāi)放文檔先導(dǎo),目標(biāo)是尋求各種結(jié)構(gòu)數(shù)據(jù)庫(kù)間數(shù)字資源的共享式檢索。在1999年,美國(guó)圣達(dá)菲舉辦的“電子出版文獻(xiàn)互操作”會(huì)議中提出。2001年4月,OAI組織發(fā)表了OAI-PMH(Open Archive Initiative Protocol for Metadata Harvesting)元數(shù)據(jù)收割協(xié)議[2],該協(xié)議針對(duì)資源元數(shù)據(jù)的互操作給出了可實(shí)現(xiàn)框架。在推出后的幾年,以其簡(jiǎn)單性、開(kāi)放性、可操作性的優(yōu)勢(shì)得到了廣泛應(yīng)用。
目前已有基于OAI-PMH協(xié)議的元數(shù)據(jù)收割系統(tǒng),多數(shù)應(yīng)用于數(shù)字圖書(shū)館或高校間進(jìn)行文獻(xiàn)資源的共享,在網(wǎng)絡(luò)資源管理方面應(yīng)用較少。這些系統(tǒng)大部分利用開(kāi)源軟件搭建系統(tǒng)與數(shù)據(jù)倉(cāng)儲(chǔ),普遍規(guī)模龐大且功能繁雜,并不適用于需要實(shí)現(xiàn)簡(jiǎn)潔共享的互聯(lián)網(wǎng)資源管理。針對(duì)這個(gè)問(wèn)題,本系統(tǒng)設(shè)計(jì)作為用于網(wǎng)絡(luò)資源元數(shù)據(jù)收割的簡(jiǎn)單示例系統(tǒng),脫離開(kāi)源代碼,深入分析OAI-PMH協(xié)議并以其核心功能為基礎(chǔ),在MySQL5.6和VC環(huán)境下自行開(kāi)發(fā),簡(jiǎn)潔實(shí)用,在一般配置的計(jì)算機(jī)間即可實(shí)現(xiàn)元數(shù)據(jù)收割功能并測(cè)試有效。通過(guò)對(duì)此示例系統(tǒng)的運(yùn)行測(cè)試可看出,該系統(tǒng)可簡(jiǎn)單有效地解決互聯(lián)網(wǎng)資源元數(shù)據(jù)的收割問(wèn)題,為解決網(wǎng)絡(luò)資源管理與共享的問(wèn)題提供了一種可行思路。
OAI-PMH是能獨(dú)立于應(yīng)用的、規(guī)范實(shí)現(xiàn)網(wǎng)絡(luò)環(huán)境下元數(shù)據(jù)收割功能的互操作協(xié)議標(biāo)準(zhǔn)。根據(jù)職能責(zé)任不同,協(xié)議將元數(shù)據(jù)互操作雙方劃分為數(shù)據(jù)提供者(Data Provider,DP)和服務(wù)提供者(Service Provider,SP)兩類(lèi)。數(shù)據(jù)提供者作為發(fā)布元數(shù)據(jù)的管理系統(tǒng),是元數(shù)據(jù)資源的擁有者,在目前的應(yīng)用模式下可以是嵌入式的元數(shù)據(jù)倉(cāng)儲(chǔ)、資源發(fā)布系統(tǒng)等;服務(wù)提供者是以O(shè)AI-PMH為基礎(chǔ)獲取元數(shù)據(jù)來(lái)建立增值服務(wù)的一方,可以是資源門(mén)戶(hù)系統(tǒng)、資源檢索系統(tǒng),也可以是供其他搜索引擎獲取數(shù)據(jù)的元數(shù)據(jù)倉(cāng)儲(chǔ)系統(tǒng)[3]。
OAI-PMH收割系統(tǒng)框架如圖1所示,數(shù)據(jù)提供方和服務(wù)提供方通過(guò)OAI請(qǐng)求和OAI響應(yīng)來(lái)實(shí)現(xiàn)通信與數(shù)據(jù)傳輸。OAI請(qǐng)求根據(jù)服務(wù)提供者的需求而定,由SP發(fā)出請(qǐng)求獲取DP倉(cāng)儲(chǔ)中的信息,進(jìn)而收割得到所需元數(shù)據(jù)資源。數(shù)據(jù)提供方根據(jù)OAI請(qǐng)求做出響應(yīng),從數(shù)據(jù)倉(cāng)儲(chǔ)中把所需元數(shù)據(jù)資源以O(shè)AI響應(yīng)格式向服務(wù)提供方提供。OAI-PMH協(xié)議規(guī)定了建立在TCP/IP協(xié)議基礎(chǔ)上的網(wǎng)絡(luò)連接,并根據(jù)不同的收割內(nèi)容和范圍定義了6個(gè)請(qǐng)求動(dòng)詞[4-5]:
1)GetRecord:獲取特定唯一的元數(shù)據(jù)記錄。
2)Identify:獲取元數(shù)據(jù)倉(cāng)儲(chǔ)的基本信息。
3)ListIdentifiers:返回倉(cāng)儲(chǔ)中記錄頭部的標(biāo)識(shí)符。
4)ListMetadataFormats:返回?cái)?shù)據(jù)庫(kù)中可能的元數(shù)據(jù)格式,檢索特定格式的元數(shù)據(jù)資源。
5)ListRecords:用于從倉(cāng)儲(chǔ)中獲取多條完整的記錄。
6)ListSets:返回倉(cāng)儲(chǔ)內(nèi)的結(jié)構(gòu)信息,被用于進(jìn)行選擇性收割。
圖1 OAI-PMH協(xié)議收割系統(tǒng)基本框架
以這6種命令動(dòng)詞不同組合、不同參數(shù)設(shè)置實(shí)現(xiàn)全部收割、增量收割和單條收割等不同收割模式并設(shè)定不同的收割周期。系統(tǒng)框架中的OAI請(qǐng)求與響應(yīng)都以XML格式進(jìn)行傳輸。并且DP與SP之間為多對(duì)多的關(guān)系,服務(wù)提供者作為收割方,可同時(shí)收割多個(gè)機(jī)構(gòu)中的元數(shù)據(jù)資源,而數(shù)據(jù)提供方可作為中心數(shù)據(jù)庫(kù),向多個(gè)節(jié)點(diǎn)數(shù)據(jù)庫(kù)進(jìn)行分發(fā)操作。
OAI協(xié)議推出以后,以其配置簡(jiǎn)單、源碼開(kāi)放等優(yōu)點(diǎn),得到了許多組織與科研機(jī)構(gòu)的認(rèn)可,尤其在數(shù)字圖書(shū)館領(lǐng)域得到了廣泛響應(yīng)與使用。包括數(shù)字圖書(shū)館聯(lián)盟在內(nèi)的一些圖書(shū)館、大學(xué)和信息研究所機(jī)構(gòu)都資助并參與了許多關(guān)于OAI的項(xiàng)目。在國(guó)外方面,美國(guó)目前最大的國(guó)家科學(xué)數(shù)學(xué)圖書(shū)館NSDL(Nation Science Digital Library)便是基于OAI-PMH協(xié)議構(gòu)建元數(shù)據(jù)倉(cāng)儲(chǔ),將全美各州元數(shù)據(jù)庫(kù)資源收割匯總到國(guó)家圖書(shū)館數(shù)據(jù)庫(kù)中??鐜?kù)文檔檢索系統(tǒng)中的CRS(Collection Registration Service)負(fù)責(zé)記錄所有的數(shù)據(jù)提供者,描述他們的倉(cāng)儲(chǔ)信息、OAI服務(wù)和收割信息、收割時(shí)刻表和日志。自動(dòng)周期收割上百的數(shù)據(jù)提供者。NSDL從113個(gè)集合收割元數(shù)據(jù),可最終檢索上百萬(wàn)條的元數(shù)據(jù),其中小部分因沒(méi)有URL無(wú)法獲取對(duì)象資源。該平臺(tái)每年1 000次以上的自動(dòng)收割操作中,仍存在由于數(shù)據(jù)提供方XML數(shù)據(jù)錯(cuò)誤和違反協(xié)議規(guī)范產(chǎn)生的收割失敗可能[6]。
由于OAI-PMH協(xié)議源碼開(kāi)放的優(yōu)點(diǎn),大部分機(jī)構(gòu)使用開(kāi)源平臺(tái)實(shí)現(xiàn)元數(shù)據(jù)的收割和檢索操作,其中ARC[7]是Old Dominion大學(xué)開(kāi)發(fā)的一個(gè)基于OAI-PMH的聯(lián)合搜索服務(wù)開(kāi)源平臺(tái),它包括收割器、搜索引擎、一個(gè)簡(jiǎn)單的搜索界面,能夠支持一個(gè)專(zhuān)業(yè)組織的擴(kuò)展和定制。目前ARC提供統(tǒng)一界面可對(duì)約六百萬(wàn)條收割的元數(shù)據(jù)進(jìn)行檢索服務(wù)。此外,麻省理工大學(xué)開(kāi)發(fā)的Dspace系統(tǒng)[8]和針對(duì)數(shù)據(jù)提供者構(gòu)建的OAICat[9]等開(kāi)源軟件[10]的廣泛應(yīng)用,減小了OAI協(xié)議實(shí)現(xiàn)的難度和成本。
在國(guó)內(nèi)方面,近年來(lái)越來(lái)越多的項(xiàng)目開(kāi)始采用OAI協(xié)議來(lái)實(shí)現(xiàn)元數(shù)據(jù)的互操作。其中,國(guó)家科學(xué)數(shù)字圖書(shū)館采用OAI協(xié)議提供的資源檢索服務(wù),實(shí)現(xiàn)了“科學(xué)數(shù)據(jù)庫(kù)跨庫(kù)搜索引擎”。北京大學(xué)中文古籍?dāng)?shù)字圖書(shū)館也采用了OAI協(xié)議來(lái)發(fā)布和檢索估計(jì)拓片的元數(shù)據(jù)信息[11]。OAI-PMH協(xié)議的應(yīng)用雖越來(lái)越廣泛,卻仍局限于各數(shù)字圖書(shū)館與高校間,對(duì)象數(shù)據(jù)也以文獻(xiàn)資料為主,對(duì)于互聯(lián)網(wǎng)音視頻元數(shù)據(jù)收割方面的應(yīng)用還相對(duì)較少。
3.1系統(tǒng)框架設(shè)計(jì)
在對(duì)元數(shù)據(jù)收割協(xié)議OAI-PMH進(jìn)行研究后,針對(duì)互聯(lián)網(wǎng)數(shù)字資源的互操作,以O(shè)AI-PMH協(xié)議的系統(tǒng)框架與收割模式為基礎(chǔ),結(jié)合實(shí)際需要與系統(tǒng)規(guī)模,設(shè)計(jì)了本課題所需的互聯(lián)網(wǎng)資源共享元數(shù)據(jù)收割系統(tǒng)的基本架構(gòu)。如圖2所示,要實(shí)現(xiàn)數(shù)據(jù)的共享,解決數(shù)據(jù)的傳輸問(wèn)題,首先要實(shí)現(xiàn)基本的物理連接,選用的是客戶(hù)端/服務(wù)器(Client/Sever,C/S)模式,建立基于兩臺(tái)服務(wù)器之間的連接。建立連接后便可進(jìn)行文件的傳輸,由元數(shù)據(jù)收割協(xié)議中規(guī)定的數(shù)據(jù)提供者作為客戶(hù)端,服務(wù)提供者作為服務(wù)器端。本系統(tǒng)中客戶(hù)端作為網(wǎng)絡(luò)資源的擁有者,服務(wù)器作為向數(shù)據(jù)擁有者進(jìn)行收割的一方為基礎(chǔ)搭建的架構(gòu)。系統(tǒng)主要由服務(wù)器、客戶(hù)端連接通信模塊、XML文件解析生成模塊、倉(cāng)儲(chǔ)數(shù)據(jù)庫(kù)連接查詢(xún)模塊3部分組成。其中本系統(tǒng)倉(cāng)儲(chǔ)內(nèi)元數(shù)據(jù)結(jié)合網(wǎng)絡(luò)數(shù)字資源對(duì)象數(shù)據(jù)特點(diǎn),考慮系統(tǒng)通用性需求,選取在DC格式基礎(chǔ)上擴(kuò)展的元數(shù)據(jù)格式。
圖2 互聯(lián)網(wǎng)資源元數(shù)據(jù)收割系統(tǒng)框架
3.1.1服務(wù)提供者
在服務(wù)器與客戶(hù)端建立通信后,進(jìn)行收割一方的服務(wù)提供者實(shí)現(xiàn)框架如圖3所示,首先由元數(shù)據(jù)收割器發(fā)送相應(yīng)的收割命令請(qǐng)求所需的元數(shù)據(jù)資源。在本系統(tǒng)中定義了3個(gè)收割命令動(dòng)詞,分別實(shí)現(xiàn)元數(shù)據(jù)資源的全部收割、單條收割和增量收割功能。3個(gè)命令動(dòng)詞分別是:
History_mass,即獲取數(shù)據(jù)提供者倉(cāng)儲(chǔ)內(nèi)的全部元數(shù)據(jù)信息。
History_single,即獲取數(shù)據(jù)提供者倉(cāng)儲(chǔ)內(nèi)特定的一條元數(shù)據(jù)信息。Identifier為一個(gè)被要求提供的參數(shù),指明倉(cāng)儲(chǔ)中條目的唯一標(biāo)識(shí)符。數(shù)據(jù)提供者根據(jù)傳來(lái)的唯一標(biāo)識(shí)符返回特定元數(shù)據(jù)條目。
Fresh_mass,即獲取數(shù)據(jù)提供者倉(cāng)儲(chǔ)內(nèi)繼上一次收割結(jié)束后新增的元數(shù)據(jù)信息。參數(shù)Lasttime為最后收割時(shí)間戳,指明倉(cāng)儲(chǔ)內(nèi)上一次收割結(jié)束時(shí)間。數(shù)據(jù)提供者根據(jù)最后收割時(shí)間戳返回此時(shí)間截點(diǎn)后新增的元數(shù)據(jù)條目。
圖3 服務(wù)提供者實(shí)現(xiàn)框架圖
收到數(shù)據(jù)提供者返回的XML格式的收割響應(yīng)后,對(duì)其進(jìn)行解析,去掉文件中的結(jié)構(gòu)化標(biāo)簽,保留元數(shù)據(jù)信息并存入本地?cái)?shù)據(jù)庫(kù)。通過(guò)向用戶(hù)提供檢索、展示等增值服務(wù),服務(wù)提供者可以對(duì)倉(cāng)儲(chǔ)內(nèi)收割到的元數(shù)據(jù)進(jìn)行有效利用。
3.1.2數(shù)據(jù)提供者
數(shù)據(jù)提供者作為資源的擁有者,主要作為元數(shù)據(jù)發(fā)布方。其實(shí)現(xiàn)框架如圖4所示,數(shù)據(jù)倉(cāng)儲(chǔ)中的元數(shù)據(jù)格式定義結(jié)合了網(wǎng)絡(luò)數(shù)字對(duì)象數(shù)據(jù)的特點(diǎn),在DC都柏林元數(shù)據(jù)的基礎(chǔ)上進(jìn)行了擴(kuò)展,包括唯一標(biāo)識(shí)符、題名、主題、格式、創(chuàng)建者、上載時(shí)間戳等12個(gè)必要元素。數(shù)據(jù)提供者獲得收割命令,解析后將倉(cāng)儲(chǔ)中符合要求的元數(shù)據(jù)條目打包成一個(gè)XML格式的OAI響應(yīng)返回。
圖4 數(shù)據(jù)提供者實(shí)現(xiàn)框架圖
3.2系統(tǒng)模塊實(shí)現(xiàn)及運(yùn)行測(cè)試
3.2.1系統(tǒng)模塊實(shí)現(xiàn)
系統(tǒng)從實(shí)現(xiàn)的角度可以劃分為3個(gè)模塊,分別是Socket通信模塊、XML文件的解析與生成模塊和MySQL數(shù)據(jù)庫(kù)連接模塊。
Socket通信模塊基于C/S(Client/Server)服務(wù)器客戶(hù)端通信模式搭建系統(tǒng),選用速度快且可雙工傳輸數(shù)據(jù)的Socket套接字通信方法。套接字的類(lèi)型有兩種:流式Socket和數(shù)據(jù)報(bào)式Socket。面向連接的是流式套接字,適用于可靠傳輸。而數(shù)據(jù)報(bào)式套接字是一種面向無(wú)連接、不可靠的傳輸方式。本系統(tǒng)為T(mén)CP連接,所以采用流式套接字;XML文件解析模塊采用TinyXML開(kāi)源解析庫(kù)實(shí)現(xiàn)。它主要由DOM模型類(lèi)和操作類(lèi)構(gòu)成。因?yàn)樗腁PI接口和Java的十分類(lèi)似,有很好的面向?qū)ο笮?,可?duì)XML schema中各節(jié)點(diǎn)進(jìn)行指定查詢(xún)、指定刪除、指定增加和修改;MySQL數(shù)據(jù)庫(kù)連接模塊使用VC++中自帶的MySQL API庫(kù)中的函數(shù)實(shí)現(xiàn)即可。
3.2.2系統(tǒng)運(yùn)行測(cè)試
為了驗(yàn)證系統(tǒng)在獨(dú)立的兩臺(tái)服務(wù)器間通信和數(shù)據(jù)傳輸?shù)目尚行?,在服?wù)器與客戶(hù)端分別建立了符合OAI協(xié)議的元數(shù)據(jù)倉(cāng)儲(chǔ)。服務(wù)器端作為服務(wù)提供者向數(shù)據(jù)提供者進(jìn)行收割操作,對(duì)于系統(tǒng)元數(shù)據(jù)各收割功能進(jìn)行測(cè)試??蛻?hù)端倉(cāng)儲(chǔ)中數(shù)據(jù)包括大量數(shù)字文化資源和一部分網(wǎng)絡(luò)影視資源的DC格式元數(shù)據(jù)信息,分別測(cè)試History_mass、Hisory_single和Fresh_mass這3個(gè)動(dòng)詞,分析返回結(jié)果,均滿(mǎn)足收割請(qǐng)求條件要求且完整。以對(duì)History_mass動(dòng)詞進(jìn)行測(cè)試舉例,客戶(hù)端元數(shù)據(jù)倉(cāng)儲(chǔ)接收結(jié)果如圖5所示,下面是收割完成后返回的元數(shù)據(jù)XML schema片段:
……
……
圖5 全部收割后數(shù)據(jù)倉(cāng)儲(chǔ)顯示結(jié)果(截圖)
目前,OAI-PMH協(xié)議已廣泛應(yīng)用于數(shù)字圖書(shū)館等相關(guān)領(lǐng)域,但在網(wǎng)絡(luò)資源管理方面涉及不多。本文設(shè)計(jì)并實(shí)現(xiàn)了互聯(lián)網(wǎng)資源共享元數(shù)據(jù)收割示例系統(tǒng),并面向網(wǎng)絡(luò)音視頻等互聯(lián)網(wǎng)數(shù)字資源構(gòu)建了元數(shù)據(jù)倉(cāng)儲(chǔ)。此系統(tǒng)基于TCP網(wǎng)絡(luò)傳輸協(xié)議和OAI-PMH協(xié)議提出的收割流程進(jìn)行搭建,具有規(guī)模較小且簡(jiǎn)單實(shí)用的特點(diǎn),可在一般配置的計(jì)算機(jī)之間實(shí)現(xiàn)對(duì)各類(lèi)互聯(lián)網(wǎng)資源元數(shù)據(jù)的單條收割、全部收割和增量收割功能,經(jīng)測(cè)試驗(yàn)證準(zhǔn)確有效。目前本系統(tǒng)可獨(dú)立應(yīng)用于局域網(wǎng)內(nèi)小規(guī)模的元數(shù)據(jù)資源共享及管理。本文的下一步工作可在此系統(tǒng)基礎(chǔ)上擴(kuò)展對(duì)象資源收割、多用戶(hù)定時(shí)收割等功能,進(jìn)一步實(shí)現(xiàn)互聯(lián)網(wǎng)資源的共享與有效管理。
[1]CARL L. The open archives initiative protocol for metadata harvesting [EB/OL].[2015-10-08]. http://www.openarchives.org.
[2]NELSON M,WARNER S. The open archives initiative protocol for metadata harvesting protocol [EB/OL] [2015-10-08].http://www.openarchives.org/OAI/2.0/openarchivesprotocol.html.
[3]MALY K,ZUBAIR M,LIU X M. An OAI data service provider for the individual [J].D-Lib magazine,2001,7(4):1082-9873.
[4]齊華偉,王軍. OAI-PMH與數(shù)字圖書(shū)館的互操作[J].圖書(shū)館論壇,2005(4):19-22.
[5]王秀慧. OAI-PMH中元數(shù)據(jù)同步模型的研究[D].太原:太原科技大學(xué),2009.
[6]LAGOZE C,KRAFFT D,CORNWELL T,et al. Metadata aggregation and automated digital libraries: A retrospective on the NSDL experience[C]//Proc. 6th ACM/IEEE-CS Joint Conference on Digital Libraries.[S.l.]:ACM,2006:230-239.
[7]LIU X,MALY K,ZUBAIR M,et al. Arc-an OAI service provider for digital library federation [J]. D-Lib magazine,2001,7(4):12.
[8]Dspace [EB/OL].[2015-09-15]. http://dspace.org/.
[9]OAICat[EB/OL].[2015-09-09].http://www.oclc.org/research/themes/data-science/oaicat.html.
[10]孟喆. 基于開(kāi)源環(huán)境的數(shù)字倉(cāng)儲(chǔ)系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2009.
[11]王蜀安,汪萌,張銘. 支持OAI-PMH的元數(shù)據(jù)互操作體系結(jié)構(gòu)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(20):168-172.
陳夢(mèng)(1992— ),女,碩士生,主研數(shù)字電視技術(shù),網(wǎng)絡(luò)視頻處理等;
孟放(1972— ),碩士生導(dǎo)師,主要研究方向?yàn)閿?shù)字電視技術(shù)、視頻圖像處理、網(wǎng)絡(luò)工程等。
責(zé)任編輯:許盈
Research of metadata harvesting system for internet resource sharing
CHEN Meng, MENG Fang
(SchoolofInformationEngineering,CommunicationUniversityofChina,Beijing100024,China)
With the rapid development of the Internet technologies, effective management and sharing of massive data become a challenge. Metadata harvesting will be helpful in sharing metadata resources and improving the utilization of those resources over the Internet. First, the process of metadata harvesting based on OAI-PMH and its applications are introduced. After that, a metadata harvesting system for Internet resource sharing is designed and implemented in this paper. This system that based on the MySQL5.6 and VC, can realize the metadata harvesting function between computers with general configuration. Experimental results show that the system can be used as an effective way for Internet resources sharing and management.
internet resource sharing; OAI-PMH; metadata harvesting
TP391.3
ADOI:10.16280/j.videoe.2016.07.014
國(guó)家科技支撐計(jì)劃項(xiàng)目(2012BAH01F00)
2015-11-25
文獻(xiàn)引用格式:陳夢(mèng),孟放. 面向互聯(lián)網(wǎng)資源共享的元數(shù)據(jù)收割系統(tǒng)研究[J].電視技術(shù),2016,40(7):60-64.
CHEN M,MENG F. Research of metadata harvesting system for internet resource sharing[J].Video engineering,2016,40(7):60-64.