關(guān)鍵詞:數(shù)字圖書館;信息描述;統(tǒng)計(jì)分析;關(guān)聯(lián)分析
摘要:文章就數(shù)字圖書館圖書資料信息描述的基本理論和方法進(jìn)行了研究,著重討論了文本資料和圖像等資料的描述方法以及資源信息描述系統(tǒng)的組成和功能,并給出了可能的應(yīng)用案例分析。
中圖分類號(hào):G253文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-1588(2014)11-0120-03
收稿日期:2014-09-11
作者簡介:肖妍(1967-),南京財(cái)經(jīng)大學(xué)圖書館助理館員。1數(shù)字圖書館的特征
數(shù)字圖書館就是將圖書期刊和圖像視頻等電子信息作為主要資源對(duì)象,使用智能化搜索和云服務(wù)等信息海量存取技術(shù),并以聲音、視頻和圖片等多媒體技術(shù)手段,為用戶保存、整理、查詢、搜集和傳播超大規(guī)模的數(shù)字化信息,使用戶可以通過互聯(lián)網(wǎng)遠(yuǎn)程跨庫的方式,不受時(shí)間和空間的約束獲取所需要的信息資源的電子化圖書館。
基于數(shù)字圖書館的定義可以發(fā)現(xiàn),數(shù)字圖書館具有信息資源數(shù)字化、信息傳遞網(wǎng)絡(luò)化、信息中心虛擬化和信息資源共享化的特點(diǎn),因此數(shù)字圖書館代替?zhèn)鹘y(tǒng)圖書館是未來發(fā)展的必然趨勢。和傳統(tǒng)圖書館相比較,數(shù)字圖書館不僅僅是一個(gè)存儲(chǔ)知識(shí)的載體,更重要的是根據(jù)用戶需求,向用戶提供準(zhǔn)確的、充分的和個(gè)性化的知識(shí)服務(wù)。因此數(shù)字圖書館的工作重點(diǎn)不再是圖書采購、圖書編目、圖書上架等工作,而是對(duì)圖書信息的準(zhǔn)確描述和知識(shí)內(nèi)涵的集成。只有對(duì)圖書信息進(jìn)行充分描述和集成,才能根據(jù)用戶提供的搜索關(guān)鍵字,向用戶提供準(zhǔn)確的而不是有太多冗余的信息資源。因此數(shù)字圖書館的圖書信息獲取和集成就成為了數(shù)字圖書館工作的重點(diǎn)。
2數(shù)字圖書館的文本信息描述
數(shù)字圖書館將所有的圖書等資源以數(shù)字信息的形式儲(chǔ)存起來,顯然這些數(shù)字信息包括文本、圖片、音頻和視頻等各種數(shù)字?jǐn)?shù)據(jù)。如何定義和描述這些數(shù)字信息是能否消除信息孤島,并為用戶所共享和使用的關(guān)鍵,尤其是對(duì)于圖片和視頻等非結(jié)構(gòu)化數(shù)據(jù)而言更是如此。
大多數(shù)圖書資料主要包含文本信息,而對(duì)于文本信息的描述也相對(duì)容易,但是由于學(xué)科專業(yè)分類十分精細(xì),對(duì)于圖書管理員來說,要完全理解并掌握理、工、農(nóng)、林、牧、漁等自然科學(xué)以及分類眾多的人文社會(huì)科學(xué)方面的知識(shí),進(jìn)而對(duì)任何一種圖書資料進(jìn)行精確描述是不可能的。傳統(tǒng)的描述方法是將圖書本身附帶的內(nèi)容摘要直接錄入數(shù)據(jù)庫作為該圖書的文本描述,這就不可避免地帶來兩個(gè)問題,即結(jié)構(gòu)化問題和標(biāo)準(zhǔn)化問題。結(jié)構(gòu)化問題是圖書資料之間缺乏關(guān)聯(lián)性。由于每一本圖書的作者只能關(guān)注其所著圖書的內(nèi)容,無法知道和圖書館收藏的其他圖書之間的關(guān)系,這就使得藏書之間在內(nèi)容上幾乎缺乏深入的關(guān)聯(lián)描述,圖書管理員只能根據(jù)所屬大類進(jìn)行簡單歸類。在用戶就某一主題進(jìn)行查詢時(shí),得到的常常是同一大類內(nèi)的圖書索引,因此用戶總是檢索到許多不需要的圖書。出現(xiàn)這個(gè)問題的根本原因是藏書的關(guān)聯(lián)性太差。另一個(gè)問題就是標(biāo)準(zhǔn)化問題。由于圖書摘要是圖書作者根據(jù)自己的喜好和理解編寫的,帶有很大的隨意性和不準(zhǔn)確性,使得圖書信息描述缺乏統(tǒng)一的客觀標(biāo)準(zhǔn),很難有效構(gòu)建圖書信息描述內(nèi)容的一致性供用戶有效檢索。
現(xiàn)代數(shù)字圖書館對(duì)于圖書資料是以數(shù)字文本文件的形式存儲(chǔ),這為利用計(jì)算機(jī)進(jìn)行智能內(nèi)容分析進(jìn)而準(zhǔn)確地描述圖書信息提供了可能。另外,近年來發(fā)展的數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù)等,可以有效應(yīng)用到圖書信息的提取描述中。
2.1統(tǒng)計(jì)分析的應(yīng)用
對(duì)數(shù)字圖書館中的文本內(nèi)容進(jìn)行句法分析,提取文本中出現(xiàn)頻率最高的詞匯,然后結(jié)合專業(yè)特點(diǎn)以及圖書內(nèi)容摘要和所屬類別,對(duì)圖書內(nèi)容的主要側(cè)重點(diǎn)給出得分,具體包括理論性得分、實(shí)踐性得分、交叉學(xué)科得分、前沿性得分、基礎(chǔ)知識(shí)性得分、科普性得分和專業(yè)性得分等等。獲得得分以后,可以對(duì)該圖書進(jìn)行標(biāo)準(zhǔn)化精確描述。比如對(duì)于計(jì)算機(jī)學(xué)科中操作系統(tǒng)教材的標(biāo)準(zhǔn)化描述:理論性較強(qiáng),實(shí)踐性較強(qiáng),交叉學(xué)科性低,前沿性低,基礎(chǔ)知識(shí)性高,科普性低,專業(yè)性高。如此標(biāo)準(zhǔn)化描述以后,基本弄清楚該圖書適用的讀者對(duì)象層次。另外通過對(duì)高頻率詞匯的分析,可以具體描述該操作系統(tǒng)教程側(cè)重講授的知識(shí)重點(diǎn),比如側(cè)重進(jìn)程管理,存儲(chǔ)管理等基本原理還是側(cè)重操作系統(tǒng)具體的使用等等。
獲得圖書資料的標(biāo)準(zhǔn)化描述以后,借助聚類分析對(duì)數(shù)字圖書館圖書進(jìn)行聚類,實(shí)現(xiàn)不同層次的圖書之間關(guān)系的分析。比如對(duì)操作系統(tǒng)方面的圖書而言,可以將其分類,即哪些是基礎(chǔ)理論性書籍,哪些是實(shí)踐應(yīng)用性書籍等,進(jìn)而給出圖書之間在各個(gè)描述特性的相對(duì)比值,為讀者進(jìn)一步選用提供更好的指導(dǎo)。
肖妍:數(shù)字圖書館的資源信息描述系統(tǒng)分析研究肖妍:數(shù)字圖書館的資源信息描述系統(tǒng)分析研究2.2關(guān)聯(lián)性分析的應(yīng)用
關(guān)聯(lián)分析指的是從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有意義的關(guān)聯(lián)和相關(guān)聯(lián)系。關(guān)聯(lián)分析最初從購物籃分析發(fā)展而來的,也就是通過發(fā)現(xiàn)顧客購物籃中的不同商品之間的聯(lián)系,分析商品之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)分析可以幫助零售商制定營銷策略。顯然,通過分析用戶一段時(shí)間內(nèi)頻繁閱讀的某一些圖書資料,就可以為圖書管理人員對(duì)圖書的關(guān)聯(lián)性描述提供基本數(shù)據(jù)依據(jù)。比如,一個(gè)計(jì)算機(jī)專業(yè)的本科生頻繁地查詢操作系統(tǒng)教程、數(shù)據(jù)結(jié)構(gòu)教程以及相關(guān)的練習(xí)冊(cè),那么通過關(guān)聯(lián)分析發(fā)現(xiàn)這幾本圖書之間存在關(guān)聯(lián)關(guān)系,它們從屬于計(jì)算機(jī)本科教程,同時(shí)和相關(guān)的練習(xí)冊(cè)共同組成本科骨干課程的教輔資料。于是對(duì)于一個(gè)即將報(bào)考碩士研究生的本科生而言,圖書館員可以通過這些分析結(jié)果,將關(guān)聯(lián)關(guān)系的圖書優(yōu)先向該本科生推薦。
關(guān)聯(lián)分析可以豐富圖書關(guān)系的描述,使得數(shù)字圖書館圖書資料不再是一個(gè)個(gè)孤立的圖書資料,而是相互間存在許多關(guān)聯(lián)性,這對(duì)于圖書的存儲(chǔ)和用戶服務(wù)都有很大的促進(jìn)作用。
3數(shù)字圖書館的圖像信息描述
文本數(shù)據(jù)是大多數(shù)圖書資料最主要的內(nèi)容,但是圖書一般也包含一些插圖、圖示等,這些圖片甚至視頻資料常常是圖書重要的補(bǔ)充,而有一些圖書內(nèi)的圖片或者附帶的視頻更是該圖書的主要內(nèi)容,例如畫報(bào)、中藥材書籍以及其他圖書。隨著網(wǎng)絡(luò)的普及,許多視頻和音頻資料也成為數(shù)字圖書館的重要收藏內(nèi)容,因此如何對(duì)這些圖片、視頻或者音頻等非結(jié)構(gòu)數(shù)據(jù)進(jìn)行描述成了關(guān)鍵問題。endprint
目前基于圖像內(nèi)容的描述主要有兩種方法,一種是基于圖像內(nèi)容的人工描述,一種是基于圖像內(nèi)容特征的計(jì)算機(jī)自動(dòng)描述。前者存在人為描述的不準(zhǔn)確性和不完備性,另外,由于圖片數(shù)量龐大,人工描述費(fèi)時(shí)費(fèi)力,更為困難的是對(duì)于專業(yè)性強(qiáng)的圖像,很難通過人工描述完成。后者具有自動(dòng)化程度高,不需要耗費(fèi)巨大的人力和物力,描述的信息完整等優(yōu)勢,但是和人工描述相比,存在一個(gè)不能準(zhǔn)確理解圖片內(nèi)容的困難。因此通過人工和計(jì)算機(jī)描述結(jié)合可以取得更好的效果。例如可以先將基于圖像內(nèi)容的描述進(jìn)行分類,然后使用人工方法對(duì)某一大類圖像進(jìn)行綜合描述。這樣既節(jié)約了人力和物力,也使得圖像描述更為準(zhǔn)確和完整,更重要的是可以集中人力對(duì)圖像進(jìn)行專業(yè)理解和專業(yè)描述。
基于圖像內(nèi)容的人工描述具體應(yīng)該包括:①圖像所屬的圖書名稱。②圖像所屬的專業(yè)領(lǐng)域。③圖像內(nèi)容的基本要素組成。④ 圖像在該圖書中起到的作用以及插圖的目的。⑤圖像描述的組成名稱以及這些組成之間的關(guān)聯(lián)關(guān)系。通過以上五點(diǎn)人工描述,基本完成了對(duì)該圖像內(nèi)容的描述,這為后期用戶的檢索和應(yīng)用提供了基本依據(jù)。基于圖像內(nèi)容的計(jì)算機(jī)自動(dòng)描述主要描述該圖像的幾何形狀特征。主要包括:①該圖像的顏色。② 圖像內(nèi)物體的形狀。③ 圖像內(nèi)特征點(diǎn)的位置以及特征點(diǎn)之間的關(guān)系。④ 圖像內(nèi)曲線段和直線段的關(guān)系等等。這種基于圖像內(nèi)容的描述主要用于圖像的初步聚類和分類中,但是對(duì)于那些需要搜索相關(guān)圖像內(nèi)容的用戶卻是唯一的手段。比如一個(gè)用戶在戶外拍攝到一幅花朵的相片,希望訪問數(shù)字圖書館了解該花朵的名稱以及這種植物的特性等等,而基于圖像內(nèi)容的計(jì)算機(jī)自動(dòng)描述的結(jié)果就成了該用戶檢索花朵的唯一依據(jù)。因此計(jì)算機(jī)自動(dòng)描述的圖像特征對(duì)于僅僅根據(jù)一幅圖像檢索數(shù)字圖書館中的相似圖像是十分重要的。
4圖書資料信息描述系統(tǒng)的組成與應(yīng)用
4.1信息描述系統(tǒng)的組成
數(shù)字圖書館信息描述系統(tǒng)主要有兩個(gè)功能:一個(gè)是對(duì)數(shù)字圖書館圖書資料進(jìn)行信息描述,另一個(gè)是為用戶檢索提供可靠和精確的圖書信息服務(wù)。前者屬于系統(tǒng)的后臺(tái)功能,后者屬于系統(tǒng)的前臺(tái)功能,由此可以得到系統(tǒng)的組成模塊:①圖書資料標(biāo)準(zhǔn)化人工描述模塊。該模塊主要負(fù)責(zé)對(duì)圖書進(jìn)行人工評(píng)估。②圖書資料的非結(jié)構(gòu)化數(shù)據(jù)的綜合描述。該模塊主要實(shí)現(xiàn)對(duì)圖片和視頻等資料進(jìn)行人工解釋和計(jì)算機(jī)特征的自動(dòng)提取。③圖書之間的結(jié)構(gòu)描述模塊。該模塊實(shí)現(xiàn)對(duì)圖書資料之間的分類、聚類和關(guān)聯(lián)分析。④數(shù)據(jù)庫存儲(chǔ)模塊。實(shí)現(xiàn)對(duì)圖書描述信息的存儲(chǔ)。⑤檢索模塊。根據(jù)用戶提供的檢索信息從數(shù)字圖書館提取用戶需要的圖書資料。
4.2信息描述的系統(tǒng)應(yīng)用
數(shù)字圖書館由于其信息資源數(shù)字化和信息傳遞網(wǎng)絡(luò)化的特點(diǎn),使其不可能僅僅是一個(gè)收藏圖書的電子數(shù)據(jù)庫,而必將成為一個(gè)為用戶提供信息服務(wù)的基本支撐平臺(tái)。這樣數(shù)字圖書館不再僅僅局限于被動(dòng)地為用戶提供圖書資料,而是主動(dòng)根據(jù)用戶需求過濾無用信息,將圖書資料信息篩選、集成和分析,給出符合用戶需要的信息報(bào)告,這是數(shù)字圖書館的基本研究方向和發(fā)展方向。
目前,由于云技術(shù)、4G技術(shù)以及移動(dòng)終端的發(fā)展和普及,人們借助移動(dòng)平臺(tái)可以隨時(shí)獲取其相應(yīng)的信息和報(bào)告,數(shù)字圖書館必須滿足人們這種日益增長的信息服務(wù)需求。信息描述系統(tǒng)就是這樣的一種基本支撐平臺(tái)。比如一個(gè)游客到公園里游玩,他如果試圖了解公園里面一種植物的相關(guān)知識(shí),就可以使用手機(jī)拍攝圖片,包括樹干、葉片和花朵形狀等,然后上傳到數(shù)字信息描述系統(tǒng)平臺(tái),系統(tǒng)平臺(tái)根據(jù)傳輸過來的圖像信息,提取特征,然后到數(shù)字圖書館搜索,比如搜索一些相關(guān)的植物學(xué)方面的圖書資料。系統(tǒng)就可以提取其中的文字介紹,形成一個(gè)文檔報(bào)告回傳至用戶手機(jī)終端,這個(gè)報(bào)告可能包括這種植物的名稱、屬性、所屬科目、習(xí)性特點(diǎn)和功能等等。可以發(fā)現(xiàn),這種報(bào)告的形成不再局限于圖書資料的堆積,也不是簡單的類似百度百科的詞條解釋,而是根據(jù)用戶提供的感性描述,提供一個(gè)綜合性報(bào)告。
5結(jié)論
數(shù)字圖書館是計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)深入融合發(fā)展的必然結(jié)果,它大大擴(kuò)展了傳統(tǒng)圖書館的功能,將為用戶提供精確和實(shí)時(shí)的知識(shí)服務(wù),而且不受時(shí)間和地點(diǎn)的限制。本文僅僅就數(shù)字圖書館的信息描述系統(tǒng)做了基本功能性的研究,具體的系統(tǒng)結(jié)構(gòu),數(shù)據(jù)庫設(shè)計(jì)等需要深入的設(shè)計(jì)研究和開發(fā)。隨著信息描述系統(tǒng)平臺(tái)的成熟和完善,數(shù)字圖書館為用戶提供的將不僅僅是簡單的圖書檢索和查詢,而是為他們提供咨詢甚至決策服務(wù)。
參考文獻(xiàn):
[1]白雪冰.網(wǎng)絡(luò)環(huán)境下的數(shù)字圖書館建設(shè)[J].中國信息科技,2014(1):75-76.
[2]王運(yùn)景,王林毅.淺析高校數(shù)字圖書館建設(shè)[J].教育教學(xué)論壇,2014(1): 8-9.
[3]車慧,鐘文娟.基于到館參考咨詢服務(wù)的圖書館服務(wù)優(yōu)化研究[J].內(nèi)蒙古科技與經(jīng)濟(jì),2014 (1):112-113.
[4]楊紅雨.我國數(shù)字化圖書館的發(fā)展[J].內(nèi)蒙古電大學(xué)刊,2014 (1):74-75.
[5]李雪峰.未來圖書館服務(wù)模式的轉(zhuǎn)變[J].理論觀察,2014 (1):110-111.
(編校:周雪芹)endprint