原毅玲
大數(shù)據(jù)時(shí)代科技文獻(xiàn)信息的開發(fā)與利用
原毅玲
科技文獻(xiàn)信息的開發(fā)與利用影響著科技事業(yè)和國民經(jīng)濟(jì)的發(fā)展,本文對大數(shù)據(jù)時(shí)代的元數(shù)據(jù)管理、信息網(wǎng)格、風(fēng)險(xiǎn)防控的技術(shù)要點(diǎn)進(jìn)行了介紹,對在科技文獻(xiàn)信息的開發(fā)與利用過程中,大數(shù)據(jù)對元數(shù)據(jù)的管理方法、信息網(wǎng)格的信息集成及檢索方法進(jìn)行了說明。
科技文獻(xiàn)記錄著科學(xué)技術(shù)研究活動(dòng)的豐碩成果,反映了社會科技水平的發(fā)展?fàn)顩r,是人類智慧和科研水平的集中體現(xiàn)。對科技文獻(xiàn)的開發(fā)利用直接影響著國民經(jīng)濟(jì)的發(fā)展進(jìn)程和科技事業(yè)的發(fā)展水平,對全面提升科技創(chuàng)新能力、進(jìn)一步促進(jìn)科技成果轉(zhuǎn)化起著非常重要的作用。因此,大數(shù)據(jù)時(shí)代的背景下,研究如何完善并促進(jìn)科技文獻(xiàn)信息的開發(fā)與利用在理論和實(shí)踐方面均具有重要意義。
近年來,隨著物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等技術(shù)的發(fā)展,大數(shù)據(jù)時(shí)代已潛移默化的進(jìn)入人類社會。在大數(shù)據(jù)時(shí)代,復(fù)雜數(shù)據(jù)的產(chǎn)生、保存及分析,對科技文獻(xiàn)服務(wù)水平提出了更高的要求。如何通過元數(shù)據(jù)管理、信息網(wǎng)格技術(shù),組織與分析隱藏在用戶行為中的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)信息,改變科技文獻(xiàn)的服務(wù)范圍,達(dá)到文獻(xiàn)服務(wù)提供與用戶需求的理想化匹配,已成為大數(shù)據(jù)時(shí)代科技文獻(xiàn)開發(fā)與利用的研究重點(diǎn)。
在大數(shù)據(jù)時(shí)代通過元數(shù)據(jù)管理、信息網(wǎng)格構(gòu)建及風(fēng)險(xiǎn)控制等技術(shù),搭建一個(gè)全面、高效、安全的科技文獻(xiàn)信息管理平臺,更好的為科技文獻(xiàn)信息的開發(fā)與利用服務(wù)。
元數(shù)據(jù)處理技術(shù)
元數(shù)據(jù)是指描述數(shù)據(jù)的數(shù)據(jù),科技文獻(xiàn)元數(shù)據(jù),在整個(gè)開發(fā)利用過程中,為文獻(xiàn)信息提供檢索、標(biāo)引和揭示等服務(wù),既是科技文獻(xiàn)信息開發(fā)的重要方法,也是科技文獻(xiàn)信息利用不可或缺的重要工具。科技文獻(xiàn)元數(shù)據(jù)作用的發(fā)揮充分兼顧了開發(fā)與利用兩個(gè)方面的需求。
大數(shù)據(jù)時(shí)代對科技文獻(xiàn)元數(shù)據(jù)管理分三步進(jìn)行管理,第一步,建立完整一致的元數(shù)據(jù)管理策略。元數(shù)據(jù)管理策略需要明確科技文獻(xiàn)元數(shù)據(jù)管理的目標(biāo)、愿景、需求、約束和策略等,根據(jù)科技文獻(xiàn)服務(wù)當(dāng)前以及未來所需實(shí)現(xiàn)的管理成熟度及成熟度路線圖,確定元數(shù)據(jù)管理的版本控制、安全策略、元數(shù)據(jù)訂閱推送等。第二步為明確元數(shù)據(jù)集成體系結(jié)構(gòu)。在明確元數(shù)據(jù)管理策略后需要確定實(shí)現(xiàn)該管理策略所需的技術(shù)體系結(jié)構(gòu),即元數(shù)據(jù)集成體系結(jié)構(gòu)。不同科技文獻(xiàn)的元數(shù)據(jù)管理策略和元數(shù)據(jù)管理成熟度差別較大,因此元數(shù)據(jù)集成體系結(jié)構(gòu)也多種多樣,大體上元數(shù)據(jù)集成體系結(jié)構(gòu)可以分為點(diǎn)對點(diǎn)、中央輻射式、分布式和層次/星型體系結(jié)構(gòu)等。第三步為實(shí)施元數(shù)據(jù)管理,在明確了元數(shù)據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu)之后,科技文獻(xiàn)管理可根據(jù)需要選擇合理的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)管理工具,制定相應(yīng)的元數(shù)據(jù)管理制度進(jìn)行元數(shù)據(jù)管理。通常,大數(shù)據(jù)分析是受用例驅(qū)動(dòng)的,科技文獻(xiàn)可以通過梳理大數(shù)據(jù)用例的方式逐步完善大數(shù)據(jù)的元數(shù)據(jù)管理。
信息網(wǎng)格技術(shù)
在大數(shù)據(jù)時(shí)代進(jìn)行信息網(wǎng)格建設(shè),實(shí)現(xiàn)科技文獻(xiàn)信息的統(tǒng)一檢索與廣泛集成?;ヂ?lián)網(wǎng)中科技文獻(xiàn)信息資源雖然是海量的,但由于信息資源的孤立存在、相互分散的特點(diǎn),為其利用帶來了極大的困難。而信息網(wǎng)格技術(shù)可以實(shí)現(xiàn)用戶對存儲于任意地點(diǎn)的科技文獻(xiàn)信息進(jìn)行訪問,并且不受該信息所處的網(wǎng)絡(luò)環(huán)境的影響。通過信息網(wǎng)格,用戶還能夠獲取和利用不同組織的信息與數(shù)據(jù),避免孤立信息的存在。
信息網(wǎng)格的主要功能及實(shí)現(xiàn)技術(shù)如下
(1)信息集成
通過信息集成,進(jìn)一步縮短信息處理時(shí)間,在信息集成過程中,應(yīng)當(dāng)注重從原始數(shù)據(jù)中提取有效數(shù)據(jù)的能力,借助大數(shù)據(jù)的數(shù)據(jù)處理分析技術(shù),提高數(shù)據(jù)訪問的效率,為在信息網(wǎng)格中進(jìn)行科技文獻(xiàn)信息資源的發(fā)現(xiàn)工作提供有力支持。
信息集成主要包括兩個(gè)層次,一是對科技文獻(xiàn)元數(shù)據(jù)信息的整合,二是對不同科技文獻(xiàn)資源檢索接口的整合。利用已建立的元數(shù)據(jù)目錄實(shí)現(xiàn)同時(shí)對多個(gè)科技文獻(xiàn)信息源集成的功能,用戶通過鏈接即可進(jìn)行信息的獲取。目前使用較為成熟方法是使用OAIS參考模型,按照OAIPMH的協(xié)議進(jìn)行信息集成功能框架建設(shè),通過各類科技文獻(xiàn)元數(shù)據(jù)匯編在一起的元數(shù)據(jù)目錄,提供網(wǎng)格中的科技文獻(xiàn)信息集成。
(2)檢索方法
科技文獻(xiàn)信息資源由分布在不同地域、不同結(jié)構(gòu)的信息倉儲組成,在浩瀚的信息資源中,及時(shí)準(zhǔn)確定位所需資源,對于提高文獻(xiàn)信息資源的利用非常重要。由于每個(gè)信息倉儲相對離散和獨(dú)立,信息組織和處理方式迥異,在檢索利用方面,所提供的查詢方式也不盡相同。而用戶對文獻(xiàn)信息的需要范圍廣泛,涉及的文獻(xiàn)類型很多,需要用戶了解每個(gè)數(shù)據(jù)庫的特性并掌握相應(yīng)的檢索技術(shù),才能實(shí)現(xiàn)對多個(gè)數(shù)據(jù)庫的查詢,這是嚴(yán)重影響科技文獻(xiàn)檢索獲取的瓶頸之一。利用信息網(wǎng)格技術(shù)可以將各種類型的科技文獻(xiàn)信息集中在一起,形成一個(gè)功能全面、信息完整的資源平臺,借助資源平臺所提供的檢索技術(shù)和界面,實(shí)現(xiàn)在不同的檢索方式和信息格式之間進(jìn)行統(tǒng)一透明的跨庫檢索。
建立統(tǒng)一的元搜索平臺作為用戶與數(shù)據(jù)源之間的橋梁,平臺通過元數(shù)據(jù)的目錄服務(wù)與集成服務(wù)實(shí)現(xiàn)檢索。由于用戶操作和數(shù)據(jù)庫查詢類似,因此整個(gè)信息網(wǎng)格系統(tǒng)仍然采用常規(guī)數(shù)據(jù)庫系統(tǒng)與和分布式檢索系統(tǒng)的運(yùn)行模式,通過建立在科技文獻(xiàn)信息網(wǎng)格節(jié)點(diǎn)的索引,向上級服務(wù)器提供本地全部元數(shù)據(jù)資源。上級服務(wù)器匯總信息資源后向元搜索平臺提供標(biāo)準(zhǔn)檢索接口。
元搜索的工作流程為:首先通過信息網(wǎng)格所提供的標(biāo)準(zhǔn)協(xié)議,統(tǒng)一底層服務(wù)所使用標(biāo)準(zhǔn)和協(xié)議;其次在標(biāo)準(zhǔn)協(xié)議的基礎(chǔ)上對分布異構(gòu)的科技文獻(xiàn)資源進(jìn)行檢索;之后服務(wù)提供者接收記錄用戶需求的查詢文檔并進(jìn)行解析;最后對元數(shù)據(jù)目錄進(jìn)行檢索,將查詢結(jié)果匯總整理并通過操作界面反饋給用戶。檢索操作僅連接本地?cái)?shù)據(jù)庫,未連接遠(yuǎn)程數(shù)據(jù)提供方,提高了檢索效率。
此外,大數(shù)據(jù)時(shí)代,信息網(wǎng)格能夠充分利用網(wǎng)絡(luò)資源,通過資源共享發(fā)揮科技文獻(xiàn)信息的價(jià)值。用戶管理方面,在科技信息網(wǎng)格中引入用戶分級管理方式,有效控制科技文獻(xiàn)信息的獲取渠道,保證不同密級科技信息的安全??萍夹畔⒕W(wǎng)格實(shí)現(xiàn)了信息的組織、導(dǎo)航與檢索,充分運(yùn)用科技文獻(xiàn)信息網(wǎng)格良好的擴(kuò)展性,集成整合并管理各類服務(wù)商提供的服務(wù)與應(yīng)用,通過對各種文獻(xiàn)信息資源以及檢索和服務(wù)系統(tǒng)的整合,為不同級別用戶提供統(tǒng)一的科技文獻(xiàn)資源共享平臺。
風(fēng)險(xiǎn)控制策略
大數(shù)據(jù)時(shí)代,在科技文獻(xiàn)信息的開發(fā)利用過程中,面臨網(wǎng)絡(luò)環(huán)境、元數(shù)據(jù)、存儲、訪問過程、獲取過程等方面風(fēng)險(xiǎn)的威脅,從技術(shù)層面分析,根據(jù)OSI安全體系結(jié)構(gòu)的技術(shù)特點(diǎn),在網(wǎng)格環(huán)境中數(shù)據(jù)庫安全、訪問控制、身份認(rèn)證與加密等問題最為突出。因此,針對這些環(huán)節(jié)的風(fēng)險(xiǎn)控制策略是確保科技文獻(xiàn)信息開發(fā)利用的關(guān)鍵。
在身份認(rèn)證與加密過程中,用戶在客戶端向網(wǎng)格服務(wù)器發(fā)送用戶名和密碼,網(wǎng)格服務(wù)器向用戶認(rèn)證中心驗(yàn)證資源請求者的身份和權(quán)限,若驗(yàn)證通過,則為用戶調(diào)配響應(yīng)資源。在訪問控制過程中,利用科技信息網(wǎng)格的權(quán)限管理系統(tǒng),通過網(wǎng)格實(shí)現(xiàn)對用戶的分級管理,保證不同層級用戶權(quán)限的安全。在數(shù)據(jù)庫安全過程中建立數(shù)據(jù)庫安全防護(hù)體系,保障數(shù)字化科技文獻(xiàn)的存儲安全。通過多種策略協(xié)作互補(bǔ)方式,保證數(shù)據(jù)庫的安全運(yùn)行。
站在大數(shù)據(jù)時(shí)代的前沿,通過對科技文獻(xiàn)信息開發(fā)與利用的分析研究,理論上有助于拓展科技文獻(xiàn)服務(wù)的研究范圍,推動(dòng)新的學(xué)科增長點(diǎn);實(shí)踐中有助于文獻(xiàn)信息資源管理理論體系的完善,更好地為科研成果的轉(zhuǎn)化服務(wù)。在今后的研究中,應(yīng)繼續(xù)探索基于大數(shù)據(jù)的相關(guān)技術(shù)在科技文獻(xiàn)信息開發(fā)利用中所發(fā)揮的作用,如語義技術(shù)、云計(jì)算、數(shù)據(jù)挖掘、智能分析等。在應(yīng)用上應(yīng)充分借助政府力量,積極籌措多方資源,形成合力,不斷推進(jìn)科技文獻(xiàn)信息的開發(fā)與利用能力的提高。
10.3969/j.issn.1001-8972.2015.15.026