〔摘 要〕文章針對(duì)移動(dòng)設(shè)備的數(shù)字圖書(shū)館檢索過(guò)程中出現(xiàn)的實(shí)際問(wèn)題,全面分析研究了目前輕型文檔匹配新算法的發(fā)展,深入討論了該檢索技術(shù)的預(yù)處理、前后端具體實(shí)現(xiàn)等內(nèi)容,另外,文章介紹了目前二分網(wǎng)絡(luò)聚類方法在數(shù)字圖書(shū)館推薦系統(tǒng)中的應(yīng)用,為目前的數(shù)字圖書(shū)館的檢索提供了一種比較實(shí)用的方法。
數(shù)字圖書(shū)館就是對(duì)有價(jià)值的文本、圖像、語(yǔ)音、影像、軟件和科學(xué)數(shù)據(jù)等多媒體信息進(jìn)行收集、組織規(guī)范性的加工、進(jìn)行高質(zhì)量保存和管理、實(shí)施知識(shí)增值,并提供在廣域網(wǎng)上高速橫向跨庫(kù)連接的電子存取服務(wù)。在現(xiàn)代社會(huì)中,數(shù)字圖書(shū)館所收藏的各類信息對(duì)于知識(shí)經(jīng)濟(jì)的整個(gè)過(guò)程都是必不可少的,它們憑借高新技術(shù)快速地傳播文化知識(shí),不斷推動(dòng)全民族文化素質(zhì)的不斷提高,促進(jìn)社會(huì)的進(jìn)步和發(fā)展。同時(shí),隨著科技的日新月異,使用智能化移動(dòng)設(shè)備訪問(wèn)數(shù)字圖書(shū)館的受眾不斷增多,這就給數(shù)字圖書(shū)館的發(fā)展提出了更高的要求,主要是如何將網(wǎng)絡(luò)服務(wù)逐漸移植到移動(dòng)設(shè)備上,讓用戶更加方便、快捷地使用數(shù)字圖書(shū)館資源。但伴隨著我國(guó)各個(gè)數(shù)字圖書(shū)館的數(shù)據(jù)資源不斷的快速增長(zhǎng),由于數(shù)字圖書(shū)館信息資源的異構(gòu)性、復(fù)雜性等特點(diǎn),面對(duì)浩如煙海的信息,用戶想在最短時(shí)間內(nèi)獲取需要的信息卻經(jīng)常會(huì)相當(dāng)困難。產(chǎn)生這些困難的主要有以下幾個(gè)原因:(1)數(shù)字圖書(shū)館的信息以幾何級(jí)數(shù)急劇膨脹,而信息同時(shí)呈現(xiàn)出異構(gòu)、龐大、分散的特點(diǎn),以至于圖書(shū)館的信息維護(hù)和用戶獲取有用信息的困難較大;(2)基于移動(dòng)設(shè)備數(shù)字圖書(shū)館檢索工具的功能直接關(guān)系到瀏覽者的閱讀效果,由于各個(gè)數(shù)字圖書(shū)館索引編制和標(biāo)引方式以及開(kāi)發(fā)方式的不同,會(huì)造成索引信息的查找速度、覆蓋面和檢索結(jié)果的差別較大;(3)數(shù)字圖書(shū)館檢索帶有一定的主觀性,直接和用戶信息檢索能力相關(guān),而目前的大部分用戶缺少檢索方面的專業(yè)知識(shí),從而直接影響到信息檢索的效果。
1 問(wèn)題闡述現(xiàn)今,我們可以注意到許多人在利用移動(dòng)設(shè)備訪問(wèn)基于服務(wù)器的數(shù)字圖書(shū)館。數(shù)字圖書(shū)館檢索引擎最常用的搜索方法為分類檢索(目錄檢索)、多元檢索和關(guān)鍵詞檢索。分類檢索主要是采用圖書(shū)分類或者學(xué)科分類方法對(duì)數(shù)字圖書(shū)資料進(jìn)行加工整理,最終提供一種等級(jí)結(jié)構(gòu)式檢索目錄,該方法檢索質(zhì)量高,但是檢索信息數(shù)量有限。多元檢索可以同時(shí)檢索多個(gè)數(shù)據(jù)庫(kù)資源,整合后輸出檢索結(jié)果。目前,國(guó)內(nèi)的清華知網(wǎng)和萬(wàn)方數(shù)據(jù)系統(tǒng)等均提供該種檢索方式,但是由于檢索機(jī)制及檢索算法的差異,致使檢索結(jié)果的準(zhǔn)確性差、速度慢。基于關(guān)鍵字的索引是移動(dòng)設(shè)備訪問(wèn)數(shù)字圖書(shū)館最常見(jiàn)的方式,該方式只需移動(dòng)用戶在搜索提問(wèn)框中輸入關(guān)鍵詞,確認(rèn)后,遠(yuǎn)程數(shù)字圖書(shū)館服務(wù)器會(huì)將與關(guān)鍵詞匹配的結(jié)果羅列出來(lái),發(fā)給移動(dòng)用戶終端,這以看似簡(jiǎn)單步驟其實(shí)需要大量的存儲(chǔ)和計(jì)算資源。移動(dòng)設(shè)備數(shù)字圖書(shū)檢索需要的是能接收理想長(zhǎng)度的輸入,并給出類似搜索引擎(對(duì)匹配的文檔進(jìn)行排序)的結(jié)果,這些過(guò)程要在移動(dòng)設(shè)備快速進(jìn)行。另外,目前一些數(shù)字圖書(shū)館的搜索采用數(shù)據(jù)挖掘或者基于案例的分析方法來(lái)查找匹配輸入的文檔,這些方法只能是關(guān)鍵字索引的補(bǔ)充,在用戶有需求的情況下進(jìn)行。
解決概覽目前,業(yè)界提出一種解決移動(dòng)設(shè)備檢索數(shù)字圖書(shū)館的新方法,該方法主要基于輕型文檔匹配的新算法。該快速評(píng)價(jià)算法在移動(dòng)設(shè)備上計(jì)算非常高效,而且僅需極小的數(shù)據(jù)結(jié)構(gòu)。該算法的具體處理過(guò)程主要是首先做一個(gè)預(yù)處理過(guò)程,根據(jù)圖書(shū)館中的文檔生成一組數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)包含了每篇文檔的本地字典和具有惟一關(guān)鍵字的全局字典,該數(shù)據(jù)字典中主要包括了每篇文檔的文檔標(biāo)題、關(guān)鍵字、特定標(biāo)簽內(nèi)容的提取,以及出現(xiàn)頻率最高的單詞,該數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)量較小,當(dāng)用戶瀏覽數(shù)字圖書(shū)館時(shí),直接緩存到移動(dòng)設(shè)備中,當(dāng)用戶利用關(guān)鍵字查找資源時(shí),直接利用提取出的關(guān)鍵字和數(shù)字圖書(shū)館中的文檔作比較,這樣就保證了過(guò)程的高速性,預(yù)處理步驟如圖1所示。
圖1 匹配預(yù)處理圖 接下來(lái),需要一個(gè)在線的匹配計(jì)算過(guò)程,找到用戶檢索的相關(guān)文檔。這一個(gè)過(guò)程其實(shí)就是一個(gè)文檔相似度的計(jì)算問(wèn)題,即求取兩篇文章之間的相似程度的數(shù)值。因?yàn)閮善恼孪嗨贫仍礁?,則表明兩篇文章越有可能是同一類型。首先要做的一個(gè)工作是特征向量的選取,大部分?jǐn)?shù)字圖書(shū)館采用的是中文分詞機(jī)制,即先把文本切分為關(guān)鍵詞序列,再進(jìn)行信息處理。把經(jīng)過(guò)處理之后得到的關(guān)鍵詞進(jìn)行停用詞的處理,即把各種標(biāo)點(diǎn)符號(hào)、漢語(yǔ)中最常用的虛詞,包括介詞、連詞、助詞和嘆詞作為停用詞,這些處理后的關(guān)鍵詞構(gòu)成了文本的特征向量。接下來(lái)。多采用基于空間向量模型(VSM)的文本進(jìn)行分類,文本的特征向量與各類代表向量的夾角是決定文檔歸屬的重要依據(jù),這些夾角的余弦被稱為“相似度”。上述過(guò)程相對(duì)是一個(gè)比較傳統(tǒng)的處理方式,而針對(duì)移動(dòng)設(shè)備未必適用。而目前的對(duì)本地文檔與輸入文檔的相關(guān)量度的評(píng)價(jià)算法是利用匹配成功的單詞數(shù)作為基礎(chǔ)分,然后再抬高權(quán)重的單詞加分。其中文章題目、特定域的標(biāo)簽在匹配單詞成功的過(guò)程中優(yōu)先得到加分。在線處理過(guò)程如圖2所示。
圖2 在線處理過(guò)程圖 該檢索的具體工作方法分為前后端兩部分,后端生成能保證匹配器正常工作的數(shù)據(jù)結(jié)構(gòu)部分,主要就是將與文本相關(guān)的內(nèi)容利用一種XML風(fēng)格的標(biāo)記語(yǔ)言進(jìn)行描述,并呈現(xiàn)給最終用戶。具體派生出的數(shù)據(jù)結(jié)構(gòu)包括兩部分:(1)本地字典主要包含了與特定文檔相關(guān)的內(nèi)容,一般每篇文檔被賦予10個(gè)關(guān)鍵字,但是這些單詞并不是惟一的,同一個(gè)詞可以出現(xiàn)在多個(gè)文檔中。(2)全局字典是經(jīng)過(guò)合并后的內(nèi)容,它包含了與所有文檔相關(guān)的單詞,這組單詞是惟一的。完整的XML格式的文件包括了本地字典和附加的屬性信息,譬如文檔的標(biāo)題以及某些特定應(yīng)用的屬性比如結(jié)構(gòu)標(biāo)識(shí)。最終的全局字典加上一個(gè)包含本地字典和附加屬性的提取文件,就是用來(lái)評(píng)價(jià)新文檔的標(biāo)準(zhǔn)。前端處理過(guò)程主要是接收用戶的輸入,最終產(chǎn)生與之匹配的排好序的文檔。這一過(guò)程的前提保證是新文檔的單詞與全局字典的單詞完全匹配,而且全局字典的單詞要指向存儲(chǔ)文檔的本地字典。在檢索匹配過(guò)程中,每篇本地文檔都有一個(gè)基礎(chǔ)分值,就是該文檔關(guān)鍵字在新文檔中出現(xiàn)的個(gè)數(shù),對(duì)于出現(xiàn)在題目或特殊標(biāo)簽(產(chǎn)品或發(fā)行號(hào))中的匹配單詞有額外的加分,給其加上等同于它權(quán)重的分?jǐn)?shù)單詞權(quán)重為1/num,num是包含了該單詞的本地文檔的數(shù)量,最終使用哈希表完成即時(shí)查詢。該數(shù)字圖書(shū)館新檢索方式的特點(diǎn)在于單詞加分算法非常簡(jiǎn)單,而且匹配機(jī)制具有較大的透明性,特定關(guān)鍵字在匹配文檔檢索時(shí)的作用一目了然。其次,該索引使用了精確地同義詞匹配,根本沒(méi)有文本特征向量的復(fù)雜求解過(guò)程,檢索效果明顯高效。整個(gè)索引排除文檔頻率的索引,這一點(diǎn)極大地降低了復(fù)雜性存儲(chǔ)需求,縮小化的索引作為整個(gè)匹配過(guò)程的基礎(chǔ),省去了所有需要的計(jì)算,非常適合數(shù)字圖書(shū)館的移動(dòng)設(shè)備檢索。
3 檢索系統(tǒng)擴(kuò)展伴隨著數(shù)字圖書(shū)館檢索技術(shù)的迅速發(fā)展,同時(shí)也帶來(lái)了“信息爆炸”的問(wèn)題,即信息較大豐富而只是相對(duì)匱乏。在數(shù)字圖書(shū)館大量、異質(zhì)的信息資源中,蘊(yùn)含有巨大潛在價(jià)值的知識(shí),這就是數(shù)字圖書(shū)館信息挖掘技術(shù)。信息挖掘是數(shù)據(jù)挖掘的分支,它能夠幫助用戶從大量的信息中迅速發(fā)現(xiàn)對(duì)自己有用的信息,并在一定程度上揭示信息與信息的關(guān)聯(lián)。針對(duì)移動(dòng)用戶對(duì)數(shù)字圖書(shū)館檢索的更深入需求,目前業(yè)界提出一種基于復(fù)雜網(wǎng)絡(luò)二分網(wǎng)絡(luò)的聚類推薦檢索機(jī)制,該方法是上述數(shù)字圖書(shū)館輕型文檔檢索的良好補(bǔ)充,它主要針對(duì)需要關(guān)聯(lián)分析與文本挖掘的用戶。用圖論的語(yǔ)言來(lái)描述,一個(gè)網(wǎng)絡(luò)可以抽象為一個(gè)由節(jié)點(diǎn)的集合V和邊集E組成的圖G=(V,E)。節(jié)點(diǎn)數(shù)記為N=V,邊數(shù)記為M=E。E中每條邊都有V中一對(duì)點(diǎn)與之相對(duì)應(yīng)。對(duì)于數(shù)字圖書(shū)館系統(tǒng)而言,點(diǎn)集指的是一個(gè)個(gè)獨(dú)立的圖書(shū)和閱讀者,而邊集就是圖書(shū)與閱讀者之間的鏈接,一個(gè)圖書(shū)系統(tǒng)的這些大量信息被提取出來(lái)就構(gòu)成了一個(gè)完整的復(fù)雜網(wǎng)絡(luò)。該復(fù)雜網(wǎng)絡(luò)同時(shí)具備了一個(gè)顯著的特點(diǎn),該網(wǎng)絡(luò)由兩類節(jié)點(diǎn)以及兩類節(jié)點(diǎn)之間的連邊組成,同類節(jié)點(diǎn)之間不存在連邊,U代表閱讀者,B代表書(shū)籍,這樣的網(wǎng)絡(luò)在復(fù)雜網(wǎng)絡(luò)中被稱為二分網(wǎng)絡(luò),如圖3所示。數(shù)字圖書(shū)館借閱圖書(shū)節(jié)點(diǎn)呈現(xiàn)出若干個(gè)“群”或“團(tuán)”的結(jié)構(gòu),二分網(wǎng)絡(luò)稱之為社團(tuán)結(jié)構(gòu)。通過(guò)數(shù)字圖書(shū)館后臺(tái)服務(wù)器的運(yùn)行計(jì)算,可以挖掘出“群”或“團(tuán)”的特點(diǎn),它們就是給用戶提供系統(tǒng)推薦的依據(jù)。
圖3 高校圖書(shū)借閱系統(tǒng)二分網(wǎng)絡(luò)示圖 目前,國(guó)內(nèi)外眾多劃分二分網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的算法被設(shè)計(jì)出來(lái),主要包括凝聚算法、分裂算法,搜索算法及其他算法4大類。國(guó)內(nèi)的學(xué)者考慮到計(jì)算復(fù)雜度及效率等問(wèn)題,提出直接基于原始二分網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分的算法,該方法首先準(zhǔn)確的把握了二分網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的根本信息,提出二分網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的比較性定義,這個(gè)定義允許社團(tuán)之間存在重疊,并定義了在二分網(wǎng)絡(luò)中頂點(diǎn)與社團(tuán)之間的作用力。接下來(lái),在不引進(jìn)額外參數(shù)的情況下,設(shè)計(jì)了針對(duì)二分網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)定義的算法,算法主要應(yīng)用于探測(cè)社團(tuán)結(jié)構(gòu)明顯的人工網(wǎng),譬如,該算法應(yīng)用于經(jīng)濟(jì)物理科學(xué)家與文章網(wǎng)絡(luò)中,它是一個(gè)具有777個(gè)科學(xué)家和818篇文章的二分網(wǎng)絡(luò),算法首先找到這個(gè)網(wǎng)絡(luò)的最大連通子集,該子集中任何兩個(gè)點(diǎn)都是連通的,然后經(jīng)過(guò)頂點(diǎn)10次移動(dòng),對(duì)科學(xué)家這類頂點(diǎn)進(jìn)行聚類,發(fā)現(xiàn)38個(gè)社團(tuán),對(duì)文章這類頂點(diǎn)進(jìn)行聚類,劃分出社團(tuán)53個(gè),這個(gè)算法具有較高的準(zhǔn)確度,可以比較準(zhǔn)確地對(duì)網(wǎng)絡(luò)進(jìn)行聚類,其結(jié)果可以為數(shù)字圖書(shū)館的用戶提供較可靠的檢索推薦內(nèi)容。
4 結(jié)束語(yǔ)基于移動(dòng)設(shè)備的數(shù)字圖書(shū)館瀏覽業(yè)務(wù)的開(kāi)展,為圖書(shū)館的發(fā)展注入了強(qiáng)大的生命力,與此同時(shí)也改變了傳統(tǒng)的圖書(shū)管理工作思維模式,但該項(xiàng)工作卻存在著諸多挑戰(zhàn)。目前的數(shù)字圖書(shū)館普遍關(guān)注于提供海量的數(shù)字資源,而忽略了基于移動(dòng)設(shè)備的檢索和推薦等功能的具體開(kāi)發(fā)。文章針對(duì)這一實(shí)際問(wèn)題,介紹了輕型文檔匹配檢索技術(shù),它與“傳統(tǒng)”文檔匹配有著本質(zhì)的區(qū)別,“傳統(tǒng)”文檔匹配需要計(jì)算復(fù)雜的距離度量,“傳統(tǒng)”文檔匹配用到的主要是全文索引技術(shù),它對(duì)文檔參考的數(shù)量、單詞匹配的計(jì)算量及存儲(chǔ)需求提出過(guò)高的要求,在不限資源的前提下,它的效果會(huì)更好,但對(duì)于利用移動(dòng)設(shè)備瀏覽數(shù)字圖書(shū)館的用戶,利用輕型文檔匹配可以更快的檢索圖書(shū)信息。另外,文章將二分網(wǎng)絡(luò)聚類與數(shù)字圖書(shū)館檢索緊密的聯(lián)系在一起,這也是數(shù)字圖書(shū)館深入發(fā)展的一個(gè)趨勢(shì),就是加強(qiáng)數(shù)字圖書(shū)館的后臺(tái)數(shù)據(jù)管理與分析處理能力,帶給用戶更加實(shí)用的個(gè)性化檢索體驗(yàn)。
參考文獻(xiàn)
[1]李亞子.跨數(shù)字圖書(shū)館檢索關(guān)鍵技術(shù)研究[J].圖書(shū)館雜志,2010,(5):65-70.
[2]申飛駒.基于XML的數(shù)字圖書(shū)館檢索技術(shù)研究[J].現(xiàn)代情報(bào),2010,(7):97-98.
[3]唐吉深.圖書(shū)館數(shù)據(jù)挖掘技術(shù)研究現(xiàn)狀述評(píng)[J].圖書(shū)館界,2011,(1):42-44.
[4]劉振義.高等教育統(tǒng)計(jì)中圖書(shū)統(tǒng)計(jì)問(wèn)題探析[J].圖書(shū)館建設(shè),2011,(5):70-72.
[5]涂軍,曹鵬.數(shù)字圖書(shū)館中基于本體的語(yǔ)義檢索模型研究[J].情報(bào)雜志,2012,(7):191-194.
[6]吳亞晶,張鵬,狄增如,等.二分網(wǎng)絡(luò)研究[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2010,7(1):1-12.
[7]李曉佳,張鵬,狄增如,等.復(fù)雜網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2008,5(3):19-42.
(本文責(zé)任編輯:馬 卓)