蘇瑞竹,肖龍翔
(1.廣西民族大學(xué)管理學(xué)院,廣西 南寧 530006;2.華中師范大學(xué)信息管理學(xué)院,湖北 武漢 430070)
“互聯(lián)網(wǎng)+”是指把互聯(lián)網(wǎng)環(huán)境下的創(chuàng)新成果與經(jīng)濟(jì)社會各領(lǐng)域深度融合,推動技術(shù)進(jìn)步、效率提升與組織變革,提升實體經(jīng)濟(jì)創(chuàng)新力與生產(chǎn)力,發(fā)展一種經(jīng)濟(jì)的新模式。2015年7月,國務(wù)院發(fā)布《國務(wù)院關(guān)于積極推進(jìn)“互聯(lián)網(wǎng)+”行動的指導(dǎo)意見》,闡明互聯(lián)網(wǎng)各種各樣的創(chuàng)新成果和其他領(lǐng)域有機(jī)結(jié)合的重要性與必要性。該文件指出,加快推進(jìn)“互聯(lián)網(wǎng)+”發(fā)展,建立公共服務(wù)一種前所未有的全新模式,有利于進(jìn)一步推動經(jīng)濟(jì)發(fā)展。
“互聯(lián)網(wǎng)+”也為圖書館的發(fā)展帶來了機(jī)遇與挑戰(zhàn),可以積極地借助“互聯(lián)網(wǎng)+”的技術(shù)進(jìn)步與政策助力,將“互聯(lián)網(wǎng)+”融入圖書館實際工作中,主動進(jìn)行業(yè)務(wù)創(chuàng)新,通過“互聯(lián)網(wǎng)+”驅(qū)動數(shù)字資源的互聯(lián)融合,使圖書館服務(wù)逐漸向以融合為基礎(chǔ)的服務(wù)生態(tài)系統(tǒng)轉(zhuǎn)變?!盎ヂ?lián)網(wǎng)+”環(huán)境對圖書館多源東盟文獻(xiàn)信息資源融合與揭示帶來了新的機(jī)遇,充分結(jié)合東盟國家多種來源信息,對圖書館運用包括大數(shù)據(jù)在內(nèi)的多種方法進(jìn)行綜合融合與分析,全面了解東盟國家各方面發(fā)展態(tài)勢的方法策略并進(jìn)行規(guī)劃與設(shè)計,為科學(xué)決策提供更有利的情報支撐,以期服務(wù)于“一帶一路”倡議。
2.1.1 公共圖書館。中國國家圖書館為我國最大的圖書館,它的外文數(shù)據(jù)庫收藏著大量的多語種、多來源的東盟文獻(xiàn)信息資源,擁有多語言及多種來源的東盟文獻(xiàn)資料庫。
此外,很多的公共圖書館對東盟信息資源的建設(shè)也愈加重視,如廣東、廣西、福建、云南等毗鄰東盟、與東盟交流密切的省份,均充分發(fā)揮自身區(qū)位優(yōu)勢逐步建立東盟文獻(xiàn)信息資源體系。例如,廣西壯族自治區(qū)圖書館、云南省圖書館等公共圖書館都建有專門的東盟文獻(xiàn)書庫,廣西壯族自治區(qū)圖書館還融合大量的信息資源制作了東南亞研究論文庫和東南亞風(fēng)情資源庫。
2.1.2 高校圖書館。東盟信息資源是東盟語言教育和研究的重要支持資源。東盟信息資源創(chuàng)建因語言限制、人才、處理難度等原因仍面臨諸多困難。但是,通過高校圖書館的共享,許多高校在已有基礎(chǔ)上,拓展東盟文獻(xiàn)方面的信息資源,幫助學(xué)校師生開展教學(xué)和科學(xué)研究。例如,廣西民族大學(xué)圖書館設(shè)有東盟文獻(xiàn)信息中心,收藏了包括越南、老撾、柬埔寨等多個東盟國家的原版圖書 50 000 余冊。其中,詩琳通公主泰文資料中心、越南語文獻(xiàn)信息中心等多個東盟文獻(xiàn)信息中心構(gòu)建了完整的東盟文獻(xiàn)信息資源體系,在相關(guān)教育和研究機(jī)構(gòu)中形成較大影響力。為推進(jìn)資源共享,廣西民族大學(xué)圖書館還利用阿帕比數(shù)字出版全流程解決方案對收藏的東盟紙質(zhì)文獻(xiàn)資源進(jìn)行數(shù)字化,建成東盟原版圖書庫和東盟文獻(xiàn)庫。又如,暨南大學(xué)東南亞研究所建設(shè)的新加坡研究數(shù)據(jù)庫也獲得了廣泛認(rèn)可;CALIS資助建設(shè)的廈門大學(xué)東南亞及閩臺研究數(shù)據(jù)庫和暨南大學(xué)華僑華人文獻(xiàn)信息專題數(shù)據(jù)庫,也成為多語種、多數(shù)據(jù)源和東盟信息資源融合的代表性項目。
2.1.3 東盟研究機(jī)構(gòu)?!耙粠б宦贰背h引導(dǎo)許多研究機(jī)構(gòu)將研究重心轉(zhuǎn)向東盟國家。這些機(jī)構(gòu)將學(xué)術(shù)著作、學(xué)術(shù)期刊和其他出版物與已有的數(shù)據(jù)庫相融合成為信息資源服務(wù)體系,為研究者提供信息支撐。例如,暨南大學(xué)東南亞研究所、廈門大學(xué)東南亞研究中心、廣西大學(xué)東盟研究院等研究機(jī)構(gòu),充分利用了自身所具備的東南亞地區(qū)信息資源優(yōu)勢,在東盟的科研方面取得良好成績;這些研究成果的收藏也豐富了本機(jī)構(gòu)的東盟文獻(xiàn)信息資源。又如,廣西大學(xué)融合網(wǎng)絡(luò)信息構(gòu)建了中國—東盟全息綜合數(shù)據(jù)平臺。通過該平臺的建設(shè),可以實時、直觀、形象、逼真地互動展現(xiàn)中國—東盟地區(qū)政治、經(jīng)濟(jì)、文化、地理、歷史、資源等相關(guān)全息信息,面向各級專家領(lǐng)導(dǎo)、科研團(tuán)隊、數(shù)據(jù)加工團(tuán)隊、公眾用戶等提供專業(yè)的信息咨詢服務(wù),為中國—東盟研究院各類課題研究、日常教學(xué)、專題會議提供各個層次的研究數(shù)據(jù)和實用工具,從資源層面提升研究院的基礎(chǔ)研究能力,為確保廣西大學(xué)在中國—東盟研究領(lǐng)域在全國的領(lǐng)先地位奠定堅實的基礎(chǔ)和技術(shù)保障。
2019年9月,中國東盟信息港與廣西大學(xué)國際學(xué)院聯(lián)合成立中國—東盟信息港大數(shù)據(jù)研究院,其中,最重要的是6大數(shù)據(jù)平臺:以區(qū)塊鏈作為底層技術(shù)的中國—東盟金融合作大數(shù)據(jù)平臺,瀾滄江—湄公河流域生態(tài)與經(jīng)濟(jì)大數(shù)據(jù)平臺、中新互聯(lián)互通南向通道數(shù)據(jù)庫建設(shè)、“泛南海合作”全息數(shù)據(jù)庫平臺、人工智能技術(shù)應(yīng)用與“數(shù)字廣西”大數(shù)據(jù)平臺以及全球價值鏈與中國—東盟生產(chǎn)貿(mào)易鏈大數(shù)據(jù)平臺,建立一個面向全國乃至整個東盟的國際網(wǎng)絡(luò)信息資源系統(tǒng)。
1995年,南海研究院圖書館開創(chuàng)了建設(shè)我國南海問題研究的南海文獻(xiàn)數(shù)據(jù)庫的先河,內(nèi)容涉及國際上與南海問題有聯(lián)系的各類英文資源以及清朝以來內(nèi)地和港澳臺與南海問題相關(guān)的文獻(xiàn)資源,包括各個時期的各類地圖、政府文件檔案以及與東盟國家的往來書信資源,還有電話稿件等相關(guān)資源,更不乏各種會議記錄、影像照片以及第二次世界大戰(zhàn)以后我國關(guān)于接收西南沙群島的一系列重要文獻(xiàn)等,極大地支持了我國對南海問題相關(guān)合法權(quán)益的維護(hù)。
我國關(guān)于多源東盟文獻(xiàn)信息資源融合的研究較少,在CNKI以“篇關(guān)摘”為入口,以“東盟信息*融合”為檢索詞查詢到84篇論文,基本上是教育學(xué)、信息基礎(chǔ)設(shè)施、金融、經(jīng)濟(jì)等方面的論文,沒有一篇是研究多源東盟文獻(xiàn)信息資源融合的。
但是,有關(guān)多源信息資源融合的研究不少,如化柏林對多源信息融合的方法進(jìn)行研究,他還與李廣建利用多源信息融合技術(shù)開展競爭情報研究,他們的另一份研究則關(guān)注多源數(shù)據(jù)融合,用競爭情報方法加上主流的大數(shù)據(jù)方法,形成一個互補(bǔ)的組合,并使用多源信息融合理論與競爭情報、大數(shù)據(jù)等相關(guān)領(lǐng)域進(jìn)行深度融合研究。這些研究成果對多源東盟文獻(xiàn)信息資源的融合具有借鑒意義。
“互聯(lián)網(wǎng)+”環(huán)境的到來,對圖書館提出了新的要求。圖書館傳統(tǒng)的多源東盟文獻(xiàn)信息館藏已無法滿足用戶的需求,需要將文獻(xiàn)信息資源進(jìn)行數(shù)字化,并從各個渠道尋求更多資源來滿足用戶更高的信息需求,這就使圖書館對多源東盟文獻(xiàn)信息資源融合的需求更為迫切。
多源文獻(xiàn)資源的融合包括以不同方式、從不同渠道獲得的各類資源,以統(tǒng)一的形式融合組織成易于使用的數(shù)據(jù)庫。這些資源的來源主要有3個部分:融合的網(wǎng)站資源、本館數(shù)字化的館藏資源、整合的訂購數(shù)字資源(見圖1)。
3.1.1 融合的網(wǎng)站資源。網(wǎng)絡(luò)信息的蓬勃發(fā)展,使網(wǎng)站資源的重要性達(dá)到了前所未有的高度。聚合網(wǎng)站資源是指圖書館從東盟國家的網(wǎng)絡(luò)上采集時事新聞、市場信息、經(jīng)濟(jì)信息資源。這些網(wǎng)絡(luò)信息資源能精準(zhǔn)地反映各東盟國家的政治、經(jīng)濟(jì)等多方面現(xiàn)狀,將其聚合與分析可以為圖書館開展東盟信息服務(wù)和支持用戶決策提供重要的信息資源基礎(chǔ)。
圖1 多源東盟文獻(xiàn)信息資源組成類型
3.1.2 本館數(shù)字化的館藏資源。以文獻(xiàn)資源建設(shè)為主要工作之一的圖書館,收藏東盟各種類型的書籍、報紙、原版音視頻文獻(xiàn)(光盤)以及其他相關(guān)資源。圖書館通過對本館館藏東盟紙質(zhì)文獻(xiàn)的數(shù)字化,聚合所購買的東盟原版音視頻文獻(xiàn),形成數(shù)字化的東盟館藏資源,極大地豐富圖書館的多源東盟文獻(xiàn)信息資源體系。
3.1.3 整合的訂購數(shù)字資源。就目前而言,由于資金、館藏政策、語言等多種條件的限制,單一的圖書館或若干個圖書館組成的圖書館聯(lián)盟并沒有建設(shè)完整而全面的多源東盟文獻(xiàn)信息資源體系的條件與能力。因此,在需要東盟信息資源但無力建設(shè)的情況下,購買外部資源便是一個很好的方式。圖書館可以向數(shù)據(jù)提供商、咨詢公司、情報研究所等機(jī)構(gòu)購買有關(guān)東盟各個國家的專利數(shù)據(jù)庫、政策數(shù)據(jù)庫、論文數(shù)據(jù)庫等數(shù)據(jù)庫,利用這些數(shù)據(jù)庫專業(yè)性、權(quán)威性、實用性為圖書館的有關(guān)服務(wù)提供幫助。
3.2.1 同型異源平臺文獻(xiàn)信息。東盟文獻(xiàn)信息來源類型多樣,像文獻(xiàn)信息數(shù)據(jù)庫、各種機(jī)構(gòu)網(wǎng)站以及微博、博客、微信公眾號等就是東盟文獻(xiàn)信息的載體。信息的主體和形式分布在同一類別的信息平臺中,但每一個都有不同的信息搜集渠道、信息處理系統(tǒng)和信息處理標(biāo)準(zhǔn),使之服務(wù)的內(nèi)容和用戶各有不同。同一類型平臺的不同形式或不同來源渠道的信息就是同型異源的信息。所購置的各類數(shù)據(jù)庫信息以及機(jī)構(gòu)知識庫中有來自各種信息平臺的信息,如微信公眾號里的信息也屬于這一類。同型異源的信息往往在各自的平臺中對相關(guān)的權(quán)益人展開服務(wù)。
3.2.2 異型異源平臺信息。不同類型的東盟文獻(xiàn)信息平臺存在不同形式的信息,如東盟文獻(xiàn)信息數(shù)據(jù)庫主要是由圖書、期刊等學(xué)術(shù)信息構(gòu)成,非常系統(tǒng);東盟微博為短文本形式信息;東盟博客則以篇章博文的形式產(chǎn)生長文本信息;同時還有一些平臺的語音、視頻等形式的信息。這些不同類型的平臺及其不同形式的信息組合構(gòu)成了異型異源信息。
3.2.3 多語種平臺信息。多語種平臺信息實際上是東盟國家各自建立的本國語種的信息媒體平臺發(fā)布的信息。雖然語種多樣,但東盟國家發(fā)布的這些不同語種,內(nèi)容類型多樣的信息,是人們在互聯(lián)網(wǎng)時代對東盟科技信息、經(jīng)濟(jì)信息、生活信息以及學(xué)術(shù)信息的需求和獲取上不可忽視的信息源。
多源信息融合,按照多源信息的不同類型,主要包括同型異源信息融合、異質(zhì)異構(gòu)信息融合以及多語種信息融合三種類型??缃缛诤鲜恰盎ヂ?lián)網(wǎng)+”的一個顯著特點,它為信息源、供應(yīng)商、用戶等融合創(chuàng)造了條件。
3.3.1 同型異源信息的融合。同型異源信息的融合,實際上是對這些信息的聚合,也就是針對同一類型的信息平臺進(jìn)行信息聚合。這里主要指對所購買的文獻(xiàn)信息資源數(shù)據(jù)庫以及對新媒體平臺東盟信息的聚合。
圖書館所獲取的同一類型的東盟文獻(xiàn)信息資源皆為不同來源,具有不同形式、不同標(biāo)準(zhǔn)和不同服務(wù)模式的不同書目資源提供者。在數(shù)據(jù)庫方面,中文期刊的圖書館資源一般由中文數(shù)據(jù)庫提供商提供,如CNKI、維普等,而外文期刊的資源取自外文數(shù)據(jù),如EBSCO、ELSEVIER等。這些數(shù)據(jù)庫資源存在著同型異源的特點。而各新媒體平臺的信息資源如果單從同一類型的平臺來說也有同型異源的特點。
對不同來源的東盟文獻(xiàn)信息資源,需要進(jìn)行集中的整合與處理,通過統(tǒng)一字段格式、同類字段識別轉(zhuǎn)化等方法將這些同型異源文獻(xiàn)信息資源進(jìn)行聚合分析,使這些同型異源的東盟文獻(xiàn)信息資源可被統(tǒng)一的獲取與利用,更好地為服務(wù)與決策提供支撐。
3.3.2 異型異源信息的融合。由于“互聯(lián)網(wǎng)+”的推動以及影響,單一的文獻(xiàn)信息資源類型已經(jīng)不能滿足用戶與決策者的需求。十大文獻(xiàn)信息資源以外的資源如包括社交媒體數(shù)據(jù)等零次、一次文獻(xiàn),如微博、博客、微信公眾號也開始成為圖書館信息資源建設(shè)研究與分析的新重點,東盟文獻(xiàn)信息資源需求可以考慮從這些資源入手。在“互聯(lián)網(wǎng)+”的全新挑戰(zhàn)下,圖書館應(yīng)當(dāng)從不同來源和不同類型這兩個角度對東盟文獻(xiàn)信息資源進(jìn)行全面系統(tǒng)的搜集和整理,也就是說對東盟文獻(xiàn)信息資源的融合需要考慮異型異源信息的融合。
圖書館在不同的條件下搜集論文資源、書籍、報刊、專利、東盟各國不同類型的政策資源和微信、微博等不同平臺類型的異型異源文獻(xiàn)信息資源,通過子字段拆分、融合分析等方法,進(jìn)行統(tǒng)一整合,并對融合過的結(jié)果進(jìn)行計量研究、關(guān)聯(lián)分析,以便更好地反映東盟各國的發(fā)展態(tài)勢,為東盟國家及其國家的用戶提供良好的多層次和多種類的信息服務(wù)。對異型異源信息的融合,可提升東盟文獻(xiàn)信息資源的多樣性表達(dá),同時使文獻(xiàn)信息資源的豐富程度得到多層次提升,多樣化的東盟文獻(xiàn)信息形式還能吸引更多用戶,有助于用戶發(fā)現(xiàn)所需的文獻(xiàn)信息資源,幫助用戶提高獲取文獻(xiàn)信息資源的速度。
3.3.3 多語種信息的融合。多源東盟文獻(xiàn)信息資源,除了類型和來源不同,語言不同也是一大特征。由于東南亞國家聯(lián)盟的特殊歷史條件,東盟國家除了具有自己民族特色的本土語言,如馬來語、越南語、泰語和菲律賓語以外,在一些地方還有法語、英語、俄語、日語、葡萄牙語等語種作為半官方語言。因此,東盟文獻(xiàn)信息資源的語種包括本土語言和上述提及的非本土語言等多語種與東盟相關(guān)的文獻(xiàn)信息資源。在實際采集東盟國家文獻(xiàn)資源的過程中,圖書館會搜集以各種語言呈現(xiàn)的東盟文獻(xiàn)信息資源。此外,由于某些語言的特殊性,除了少數(shù)專業(yè)人士,大多數(shù)圖書館員無法在短時間內(nèi)了解大量的東盟文獻(xiàn)和信息資源。為了融合這些多語言信息,需要使用翻譯工具將多種東盟語言的信息資源自動翻譯成中文,以便館員進(jìn)行文獻(xiàn)信息的分類標(biāo)引和分析挖掘,使融合的東盟文獻(xiàn)信息資源服務(wù)平臺能為用戶提供東盟多語種文獻(xiàn)信息資源服務(wù)。
多源信息融合的實現(xiàn),有著不同的采集和抽象層次,通常來說包括以下4層:基礎(chǔ)層、數(shù)據(jù)層、特征層和決策層(見圖2)。
圖2 多源東盟文獻(xiàn)信息資源融合的層次
3.4.1 基礎(chǔ)層?;A(chǔ)層由網(wǎng)上采集到的東盟各國數(shù)據(jù)和對館藏紙質(zhì)資源進(jìn)行數(shù)字化所形成的數(shù)字化的資源以及圖書館采購的各語種電子資源(數(shù)據(jù)庫)組成,是數(shù)據(jù)融合的基礎(chǔ)。
3.4.2 數(shù)據(jù)層。數(shù)據(jù)層資源融合是指在采集到的原始數(shù)據(jù)層上直接進(jìn)行融合,對各個信息源獲得的未經(jīng)處理的數(shù)據(jù)進(jìn)行綜合與分析,通常采用信息資源統(tǒng)一操作的融合方法。這個層次的信息融合實際上屬于低層次、低維度的簡單融合。
在數(shù)據(jù)層整合東盟文獻(xiàn)信息資源,意味著圖書館將直接整合分析東盟國家的各類數(shù)據(jù),無需任何其他操作,可以最大限度地保證東盟國家相關(guān)數(shù)據(jù)的原始性,完整地掌握和分析相關(guān)數(shù)據(jù)。
但是,這種融合需要面對大量、機(jī)械的數(shù)據(jù)處理,需要極強(qiáng)的對數(shù)據(jù)處理的能力要求。融合過程還要求數(shù)據(jù)具有相同的類型和格式。但圖書館所搜集到的東盟相關(guān)文獻(xiàn)信息資源來源多樣、復(fù)雜、異構(gòu),難以在數(shù)據(jù)層面整合東盟文獻(xiàn)信息資源。
3.4.3 特征層。與數(shù)據(jù)層融合不同的是,特征層的信息融合是一個中間步驟。特征層的融合第一步便是提取之前搜集好的有關(guān)數(shù)據(jù)信息的關(guān)鍵特征,根據(jù)這些特征對信息進(jìn)行科學(xué)的組織和分類。通過提前進(jìn)行特征提取,這一層次的融合對信息總量進(jìn)行壓縮,從而幫助用戶在檢索時根據(jù)自己的需要快速檢索信息,同時,在瀏覽信息時,更利于用戶理解與掌握。
東盟文獻(xiàn)信息資源在特征層信息融合所體現(xiàn)的就是從數(shù)據(jù)庫內(nèi)各個來源匯集的數(shù)據(jù)中篩選出它們各自的特征,并對這些特征的融合進(jìn)行先關(guān)的包括分析和處理在內(nèi)的一系列操作(見圖3)。
圖3 特征層信息資源融合圖
特征層的信息融合可以篩除一些不需要的重復(fù)操作,精簡信息處理步驟和計算量,對數(shù)據(jù)處理能力的要求不再那么高,更容易進(jìn)行長時間的高效操作。
圖書館通過對東盟國家相關(guān)數(shù)據(jù)的具體特征進(jìn)行提取和分析,可以對來自各個數(shù)據(jù)源的數(shù)據(jù)進(jìn)行一定的分析,融合結(jié)果可以直接為決策分析提供信息支持。為國家決策東盟國家有關(guān)事務(wù)提供科學(xué)依據(jù)。
3.4.4 決策層。決策層的信息融合,是將每條文獻(xiàn)信息源的數(shù)據(jù)從宏觀和全局的角度進(jìn)行整體協(xié)調(diào)。通過對不同來源數(shù)據(jù)提取的特征進(jìn)行分析和融合,直接為決策提供支持。
決策層的東盟文獻(xiàn)信息資源融合,針對的是在對有關(guān)東盟國家具體問題進(jìn)行決策時,對之前所提取的東盟不同類型文獻(xiàn)信息資源進(jìn)行特征分析。這可以直接結(jié)合決策定制展開,最大限度地分析多選決策方案的優(yōu)劣,最大限度地協(xié)助決策者作出最科學(xué)的決策和合理的決定。另外,為了幫助用戶以最快的速度作出決策,當(dāng)用戶獲取決策層的信息時,還會有一些處理使后期的利用更加高效,這些處理涉及多語言機(jī)器的自動翻譯、多源信息資源檢索結(jié)果可視化顯示等一系列功能。這些功能在一定程度上提高用戶的檢索效率,優(yōu)化用戶體驗,輔助用戶作出科學(xué)合理的決策。
為了使融合的多源東盟文獻(xiàn)信息資源更好地服務(wù)于信息用戶,對文獻(xiàn)資源的揭示顯得尤為重要,通過對文獻(xiàn)資源在描述層、聚合層和應(yīng)用層的處理與揭示,為多源東盟文獻(xiàn)信息資源更好的服務(wù)呈現(xiàn)提供基礎(chǔ)(見圖4)。
圖4 多源東盟文獻(xiàn)信息資源處理與揭示過程
要對多源東盟文獻(xiàn)信息資源進(jìn)行揭示,就必須采集東盟國家各種類型信息的元數(shù)據(jù),對同一類型的同一來源和不同來源的資源,以用不同類型不同來源的資源進(jìn)行元數(shù)據(jù)提取。將這些元數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)格式轉(zhuǎn)換,使文獻(xiàn)資源揭示實現(xiàn)元數(shù)據(jù)化,標(biāo)準(zhǔn)化的元數(shù)據(jù)多源東盟文獻(xiàn)信息資源揭示,能很好地描述所藏文獻(xiàn)信息資源的特征,也可對少量多源東盟文獻(xiàn)信息資源進(jìn)行壓縮、組織,為多源東盟文獻(xiàn)信息資源的集中揭示提供基礎(chǔ)。對數(shù)量龐大的文獻(xiàn)資源進(jìn)行壓縮、組織,以利于之后的資源利用。
元數(shù)據(jù)標(biāo)準(zhǔn)的制訂決定了元數(shù)據(jù)化是否能高效有效地完成。目前,Dublin Core核心元數(shù)據(jù)是使用最多的國際性元數(shù)據(jù)解決方案,內(nèi)容主要涵蓋了資源標(biāo)識符(Identifier)、標(biāo)題(Title)、主題(Subject)、創(chuàng)作者(Creator)、資源類型(Type)、資源描述(Description)等15個核心元素。針對電子圖書、網(wǎng)絡(luò)資源、期刊論文、學(xué)位論文、電子連續(xù)性資源、圖像資源、音頻資源、視頻和資源古籍文獻(xiàn)等,中國國家圖書館也提出了對相應(yīng)的元數(shù)據(jù)標(biāo)準(zhǔn)與著錄規(guī)則。由于東盟文獻(xiàn)信息資源來源的復(fù)雜性、文獻(xiàn)信息語言的多樣性以及著錄人員缺乏東盟語言支撐,圖書館必須構(gòu)建一個統(tǒng)一的元數(shù)據(jù)格式,以此作出一個詳細(xì)且符合規(guī)范的描述來規(guī)范著錄的格式,以便實現(xiàn)信息的共建共享。對不同的數(shù)字化多源東盟文獻(xiàn)信息資源,無論是圖書、報刊、特種文獻(xiàn)還是網(wǎng)絡(luò)資源,我們認(rèn)為著錄的元數(shù)據(jù)應(yīng)以從Dublin Core核心元數(shù)據(jù)主要包含的15個核心元素選擇部分元素為標(biāo)準(zhǔn):資源標(biāo)識符(Identifier)、標(biāo)題(Title)、主題(Subject)、創(chuàng)作者(Creator)、資源類型(Type)、資源描述(Description)、日期(Date)、格式(Format)、語言(Language)、出版者(Publisher)。一方面,這些元數(shù)據(jù)基本上能揭示資源的主要特征;另一方面,也減輕信息組織者的語言負(fù)擔(dān)。只有建立一致的元數(shù)據(jù)格式,才能進(jìn)行之后的元數(shù)據(jù)記錄。
一旦確定圖書館的標(biāo)準(zhǔn)格式,就可以首先從數(shù)據(jù)庫第一個單一元數(shù)據(jù)模型記錄的各種信息資源類型搜集之前統(tǒng)一格式的元數(shù)據(jù)。通過元數(shù)據(jù)機(jī)制,將不同類型的書目載體轉(zhuǎn)換成多源東盟文獻(xiàn)信息資源,在下一周期部署工具,并統(tǒng)一處理資源。
機(jī)構(gòu)倉儲化,是指建立一個統(tǒng)一的元數(shù)據(jù)存儲體系,將經(jīng)過搜集、標(biāo)準(zhǔn)制訂、整合之后的元數(shù)據(jù)集中到一個倉儲系統(tǒng)之中,實現(xiàn)機(jī)構(gòu)倉儲一體化管理(見圖5)。
對多源東盟文獻(xiàn)信息資源而言,異型異源、同型異源及多語種等多種類型的文獻(xiàn)資源經(jīng)歷了數(shù)據(jù)搜集、元數(shù)據(jù)標(biāo)準(zhǔn)制訂等步驟之后,便可以進(jìn)行元數(shù)據(jù)的整合與倉儲化存儲。在“互聯(lián)網(wǎng)+”的環(huán)境下,如何更好地利用圖書館所搜集到的各類東盟文獻(xiàn)信息資源,是圖書館東盟國家情報支撐的重要環(huán)節(jié)。
圖5 資源組織方式機(jī)構(gòu)倉儲化
對于完成對多源東盟文獻(xiàn)信息資源描述的元數(shù)據(jù),圖書館必須在處理重復(fù)元數(shù)據(jù)后進(jìn)行適當(dāng)?shù)难芯?、清理和?guī)范。
元數(shù)據(jù)存儲系統(tǒng),將多樣化的元數(shù)據(jù)導(dǎo)入元數(shù)據(jù)存儲設(shè)施中,為所有元數(shù)據(jù)提供統(tǒng)一的存儲和集成,可以大大增加多源東盟文獻(xiàn)信息資源的可用性和實用性。通過集成的檢索平臺,可以檢索所有存儲在元數(shù)據(jù)倉儲系統(tǒng)中的數(shù)據(jù),統(tǒng)一內(nèi)存為統(tǒng)一使用恢復(fù)提供一個有效平臺。
多源東盟文獻(xiàn)信息資源的來源各異、形式多樣,具有多元化、分布式、異構(gòu)化的特點,在進(jìn)行文獻(xiàn)資源描述時,可對所有的元數(shù)據(jù)進(jìn)行語義描述,通過語義關(guān)聯(lián)數(shù)據(jù)增加資源的內(nèi)部關(guān)聯(lián),促進(jìn)圖書館多源東盟文獻(xiàn)信息資源的深度聚合展示。
多源東盟文獻(xiàn)信息資源的開發(fā)利用,可借助知識單元的語義關(guān)聯(lián)實現(xiàn)。語義化的資源描述,經(jīng)過對多源東盟文獻(xiàn)信息數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行資源描述、知識聚合等程序,最終應(yīng)用于知識輸出。
規(guī)范的元數(shù)據(jù)格式是進(jìn)行語義關(guān)聯(lián)的重要基礎(chǔ),對海量的多源東盟文獻(xiàn)信息資源的統(tǒng)一描述,需要在進(jìn)行標(biāo)準(zhǔn)確定、特征提取、加工之后存儲在元數(shù)據(jù)庫之中。
多源東盟文獻(xiàn)信息資源描述,主要為揭示不同類型東盟文獻(xiàn)信息資源的語義關(guān)聯(lián),實現(xiàn)知識層面的聚合。多源東盟文獻(xiàn)信息資源的元數(shù)據(jù)關(guān)聯(lián)聚合,主要通過元數(shù)據(jù)值匹配關(guān)聯(lián)和相似性關(guān)聯(lián)的方法實現(xiàn)文獻(xiàn)資源的語義關(guān)聯(lián)。對不同資源的同一元數(shù)據(jù),可以通過元數(shù)據(jù)取值關(guān)聯(lián)的方法,在相應(yīng)的元數(shù)據(jù)項之中建立關(guān)聯(lián)關(guān)系,如多源東盟文獻(xiàn)信息資源的作者、主題等。針對不同的內(nèi)容,可采用元數(shù)據(jù)語義相似性關(guān)聯(lián)的方法,建立文獻(xiàn)資源的語義互聯(lián)關(guān)系,這種方法將元數(shù)據(jù)進(jìn)行細(xì)化劃分,再實現(xiàn)關(guān)聯(lián),是一種細(xì)粒度的知識組織方式。
通過元數(shù)據(jù)記錄、倉儲化管理和語義化描述以及最終的使用水平,可以改善東盟文獻(xiàn)資源的利用。作為東盟相關(guān)決策的重要參考依據(jù),圖書館必須提高信息資源利用效率,通過提供個性化和普遍的資源搜索服務(wù)來獲得搜索結(jié)果的準(zhǔn)確性。
圖書館的不同訪問用戶,會有個性化的特點與要求,圖書館情景智能設(shè)計,就是通過對用戶的需求分析、訪問方式分析等類似判斷操作,將最合理、最符合用戶需求的資源提供給用戶。
而搜索結(jié)果的呈現(xiàn)方式,對多個圖書館來說,由于多源東盟文獻(xiàn)信息資源可以相互關(guān)聯(lián),互為補(bǔ)充,可將結(jié)果整合為一個均勻的知識獲取平臺,當(dāng)用戶進(jìn)行相關(guān)的操作時,采用改進(jìn)的方法進(jìn)行研究,以完善的過程分析,從多個東盟文獻(xiàn)來源中提取相關(guān)信息,從圖書館中搜集、分析和鏈接,為用戶提供更好的服務(wù)。
在多源東盟文獻(xiàn)信息資源現(xiàn)狀很難滿足信息需求的情況下,將資源融合作為解決資源匱乏、資源利用率較低等困難的技術(shù)手段有著廣闊的發(fā)展前景。本文在詳細(xì)分析多源東盟文獻(xiàn)信息資源的特點與建設(shè)現(xiàn)狀的基礎(chǔ)上,對科學(xué)有效的多源東盟文獻(xiàn)信息資源融合技術(shù)路線進(jìn)行一定的分析研究,通過多源東盟文獻(xiàn)信息資源的信息整合與揭示利用,以有效滿足用戶的東盟信息需求為核心,希望可以解決一些現(xiàn)實工作中的問題,為多源東盟文獻(xiàn)信息資源融合的發(fā)展提供一定的理論支撐。