呂精巧
關(guān)鍵詞:智能搜索引擎;數(shù)字圖書館;個(gè)性化服務(wù)
摘 要:隨著互聯(lián)網(wǎng)絡(luò)的發(fā)展以及現(xiàn)代科學(xué)技術(shù)的不斷創(chuàng)新,傳統(tǒng)搜索引擎已經(jīng)不能適應(yīng)時(shí)代的需要,如何有效地利用智能搜索引擎,特別是將它應(yīng)用于數(shù)字圖書館中是我們面臨的重要問題。
中圖分類號(hào):G258.6文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-1588(2009)04-0095-03
Intelligent Search Engine in Digital Library
Lv Jingqiao
(Library of Xinxiang Medical University,Xinxiang 453003,China)
Key words: Intelligent Search Engine; Digital Library; Personalized service
Abstract: With the development of the Internet, as well as modern scientific and technological innovation, search engines already can not meet the traditional needs of the times, how to effectively use intelligent search engine, in particular, it applies to digital libraries is an important issue we face.
隨著互聯(lián)網(wǎng)的出現(xiàn)和發(fā)展,搜索引擎也由傳統(tǒng)的搜索引擎發(fā)展到了智能搜索引擎。作為新一代的信息檢索工具,智能搜索引擎憑著自身的優(yōu)點(diǎn),被越來(lái)越多地應(yīng)用到各個(gè)領(lǐng)域。調(diào)查顯示網(wǎng)站75%的訪問量都來(lái)自于搜索引擎的推薦。如何有效地將智能搜索引擎應(yīng)用于數(shù)字圖書館,打造具有本館特色的數(shù)字圖書館,是我們面臨的一個(gè)問題。
1 搜索引擎
1.1 搜索引擎的概念
搜索引擎(search engine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行理解、提取、組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。
1.2 搜索引擎的組成
搜索引擎一般由搜索器、索引器、檢索器和用戶接口四個(gè)部分組成:搜索器的功能是在互聯(lián)網(wǎng)中漫游、發(fā)現(xiàn)和搜集信息;索引器的功能是理解搜索器所搜索到的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表;檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢索文檔,進(jìn)行相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果排序,并能按用戶的查詢需求合理反饋信息;用戶接口的作用是接納用戶查詢、顯示查詢結(jié)果、提供個(gè)性化查詢項(xiàng)。
1.3 搜索引擎的分類
1.3.1 全文搜索引擎
全文搜索引擎是名副其實(shí)的搜索引擎,具有代表性的有國(guó)外的Google和國(guó)內(nèi)的百度。它們都是從互聯(lián)網(wǎng)提取以網(wǎng)頁(yè)文字為主的各個(gè)網(wǎng)站的信息,建立起自己的數(shù)據(jù)庫(kù),并能檢索與用戶查詢條件相匹配或相近的記錄,按一定的排列順序返回結(jié)果。根據(jù)搜索結(jié)果來(lái)源的不同,全文搜索引擎可分為兩類:一類擁有自己的檢索程序,俗稱“蜘蛛”程序或“機(jī)器人”程序,它能自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用,Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫(kù),并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。
1.3.2 目錄索引
目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,它的信息收集與索引主要依靠人工來(lái)完成,搜索引擎的標(biāo)引主要依靠手工來(lái)搜尋不斷出現(xiàn)的新網(wǎng)站,給每個(gè)網(wǎng)站一個(gè)標(biāo)題和大概的描述,將其放入相應(yīng)的類目體系中。用戶在查詢信息時(shí),可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找。目錄索引雖然有搜索功能,但嚴(yán)格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不依靠關(guān)鍵詞而按照分類目錄找到所需要的信息。目錄索引中最具代表性的有新浪分類目錄搜索。
1.3.3 元搜索引擎
元搜索引擎本身并沒有存放網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù),它的工作原理是將用戶提交的搜索請(qǐng)求轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的查詢結(jié)果集中起來(lái)進(jìn)行處理后,再返回給用戶。元搜索引擎設(shè)計(jì)簡(jiǎn)單,但由于網(wǎng)絡(luò)負(fù)載太大且搜索效果始終不理想,所以沒有哪個(gè)元搜索引擎有過(guò)強(qiáng)勢(shì)地位。中文元搜索引擎中具代表性的是搜星。
2 傳統(tǒng)搜索引擎存在的不足
搜索引擎是伴隨著互聯(lián)網(wǎng)的發(fā)展而發(fā)展起來(lái)的,它的出現(xiàn)為人們查詢資料帶來(lái)了極大的方便。然而,隨著人們對(duì)信息需求的不斷增加,現(xiàn)有搜索引擎的工作方式使得其搜索的結(jié)果讓人越來(lái)越不滿意。
2.1 缺乏個(gè)性化
現(xiàn)有的搜索引擎較少考慮用戶的差異。對(duì)于任何用戶,查詢相同的關(guān)鍵詞,得到的結(jié)果也一樣,不參考用戶的知識(shí)背景、興趣愛好等特征。不具有對(duì)單個(gè)用戶的瀏覽模式和瀏覽行為分析功能。
2.2 缺乏智能化
(1)搜索引擎對(duì)關(guān)鍵詞之間存在的同義、近義、一詞多義等現(xiàn)象極少進(jìn)行處理,這往往導(dǎo)致檢索出來(lái)的信息不正確或不準(zhǔn)確。由于缺乏良好的查詢接口,用戶又不能準(zhǔn)確地表達(dá)自己的查詢請(qǐng)求。系統(tǒng)交互很少考慮用戶的反饋,只是簡(jiǎn)單地把結(jié)果返回給用戶,并不關(guān)心用戶的使用情況。
(2)搜索引擎對(duì)于用戶提交的查詢請(qǐng)求,只是按照它特定的順序返回上百或上千個(gè)網(wǎng)頁(yè),不能根據(jù)用戶需要對(duì)這些搜索結(jié)果重新進(jìn)行層次性的聚類和組合。用戶要在眾多的檢索結(jié)果中找到所需的信息,必須對(duì)這些網(wǎng)頁(yè)逐個(gè)瀏覽,極為費(fèi)時(shí)費(fèi)力。而且缺乏有效的適應(yīng)信息源變化的機(jī)制,無(wú)法避免用戶以前已經(jīng)瀏覽過(guò)而現(xiàn)在不需要的文檔或鏈接。
2.3 覆蓋面有限
目前,每個(gè)搜索引擎平均只能涉及到整個(gè)WWW資源的30-50%。
2.4 數(shù)據(jù)更新速度慢
搜索引擎機(jī)器人只能在由系統(tǒng)管理員限定的時(shí)間間隔內(nèi)跟蹤特定信息,不能做到信息的動(dòng)態(tài)更新,導(dǎo)致錯(cuò)鏈和死鏈的發(fā)生。
3 智能搜索引擎
基于知識(shí)庫(kù)系統(tǒng)的智能搜索引擎是一種高效搜索引擎技術(shù),它是通過(guò)構(gòu)設(shè)知識(shí)庫(kù),將搜索引擎技術(shù)與語(yǔ)言學(xué)相結(jié)合,開發(fā)檢索專用字典或通過(guò)全文掃描和詞間關(guān)系的分析,從知識(shí)或概念層面分析用戶的檢索提問,實(shí)現(xiàn)搜索引擎對(duì)搜索詞在語(yǔ)義層次上的理解。用戶用非常自然的形式(即自然語(yǔ)言文字)提出查詢請(qǐng)求,智能搜索引擎能夠運(yùn)用短語(yǔ)識(shí)別技術(shù)、分詞技術(shù)、同義詞技術(shù)以及概念搜索等技術(shù),將用戶的自然語(yǔ)言提問進(jìn)行切分、抽詞、同義詞輸出、概念搜索,經(jīng)知識(shí)庫(kù)使其規(guī)范化和有序化后,再交給搜索引擎進(jìn)行搜索。實(shí)際上,這種檢索的實(shí)質(zhì)就是以有序的知識(shí)庫(kù)(即人的知識(shí))對(duì)無(wú)序的知識(shí)庫(kù)(Internet)。對(duì)以自然語(yǔ)言文字形式提出的搜索條件的處理,可以使得智能搜索引擎查詢變得更為簡(jiǎn)單,易于操作,搜索服務(wù)更具智能化和人性化。一般而言,智能搜索引擎有如下幾個(gè)主要特征。
3.1 人機(jī)接口智能化
智能搜索引擎可以通過(guò)自然語(yǔ)言和用戶交互。它采取諸如語(yǔ)義網(wǎng)絡(luò)等智能技術(shù),通過(guò)漢語(yǔ)分詞、句法分析以及統(tǒng)計(jì)理論有效地理解用戶的請(qǐng)求,用戶可以靈活選擇要搜索的數(shù)據(jù)庫(kù),配合“中文同音”、“中文近似概念”、“簡(jiǎn)繁轉(zhuǎn)換”、“通配字符搜索”、“詞組搜索”、“多字段平行檢索”等眾多的智能搜索功能,最大程度地滿足用戶的需求。
3.2 個(gè)性化的信息服務(wù)功能
智能搜索引擎能提供用戶角色登記、用戶興趣自動(dòng)識(shí)別、內(nèi)容的語(yǔ)義理解、智能化信息的過(guò)濾和推送等自然語(yǔ)言理解技術(shù),能在更大程度上滿足特定用戶的個(gè)性化信息需求。
3.3 數(shù)據(jù)更新快
眾所周知,信息動(dòng)態(tài)更替無(wú)時(shí)無(wú)刻不在進(jìn)行,即使是在搜索過(guò)程中。智能引擎有一個(gè)設(shè)計(jì)網(wǎng)絡(luò)蜘蛛,網(wǎng)絡(luò)蜘蛛通過(guò)啟發(fā)式學(xué)習(xí)采取最有效的搜索策略,選擇最佳時(shí)機(jī)獲取從Internet上自動(dòng)收集、整理的信息,自動(dòng)完成在線信息的索引。為了提高搜索速度,智能搜索引擎可以同時(shí)啟動(dòng)多個(gè)引擎并行工作(類似于元搜索引擎技術(shù)),將各個(gè)引擎的搜索結(jié)果整合,作為一個(gè)整體存放到數(shù)據(jù)庫(kù)中。
3.4 跨平臺(tái),多文檔處理能力
智能搜索引擎具有跨平臺(tái)工作和處理多種混合文檔結(jié)構(gòu)的能力。譬如既能處理超文本標(biāo)志語(yǔ)言HTML(Hyper Text Markup Language),又能處理通用標(biāo)志語(yǔ)言標(biāo)準(zhǔn)SGML(Standard for General Markup Language)和擴(kuò)展標(biāo)志語(yǔ)言XML(eXtended Marked Language)文檔以及其他類型的文檔,譬如Word、WPS等。
3.5 支持多語(yǔ)言搜索
智能搜索引擎還可以支持多語(yǔ)言搜索,允許用戶用A語(yǔ)言輸入查詢B語(yǔ)言或其他語(yǔ)言的信息。以搜索引擎google為例,我們就可以用漢語(yǔ)輸入查詢英語(yǔ)或其他別的語(yǔ)言的網(wǎng)頁(yè)。
4 智能搜索引擎的設(shè)計(jì)
一部分是用戶興趣分析,即通過(guò)用戶注冊(cè)、用戶評(píng)價(jià)、訪問記錄來(lái)建立用戶信息庫(kù),由分析模塊對(duì)這些信息進(jìn)行用戶興趣分析。用戶興趣分析的結(jié)果經(jīng)過(guò)信息過(guò)濾模塊將重復(fù)信息去除之后把最終結(jié)果返回用戶信息庫(kù),從而建立新的用戶信息模型。另一部分是資源搜索,用戶向搜索引擎提交查詢請(qǐng)求,搜索引擎從各個(gè)資源庫(kù)中搜索出與其相關(guān)的信息,此時(shí),搜索引擎調(diào)用用戶信息庫(kù),從中提取用戶興趣、愛好及個(gè)性化信息,再?gòu)乃阉饕娣祷氐慕Y(jié)果中,消除無(wú)效的鏈接頁(yè)面,去除重復(fù)的、冗余的信息,按照相關(guān)性進(jìn)行排序之后把最終結(jié)果返回給用戶。
5 數(shù)字圖書館個(gè)性化信息服務(wù)的表現(xiàn)形式
5.1 個(gè)性化推送或定制服務(wù)
個(gè)性化推送或定制服務(wù)是根據(jù)用戶的興趣愛好、行為習(xí)慣、獨(dú)特要求等提供具有針對(duì)性的信息。比如:提供定制的WEB頁(yè)面、信息頻道或信息欄目,實(shí)施查詢代理服務(wù),或者是基于電子郵件的信息推送,根據(jù)用戶的定制提供相應(yīng)的信息欄目,定期或不定期地發(fā)送到用戶電子信箱。
5.2 個(gè)性化推薦服務(wù)
個(gè)性化推薦服務(wù)不僅能根據(jù)用戶的特征提供具有針對(duì)性的信息,還能通過(guò)對(duì)用戶專業(yè)特征、研究興趣的智能分析而主動(dòng)向用戶推薦其可能需要的信息,個(gè)性化推薦服務(wù)是一種比較深層次的、主動(dòng)性和個(gè)性化較強(qiáng)的服務(wù)方式。
5.3 個(gè)性化知識(shí)決策服務(wù)
個(gè)性化知識(shí)決策服務(wù)強(qiáng)調(diào)充分利用數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)等技術(shù),對(duì)有用的信息內(nèi)容再進(jìn)行深層次的分析與挖掘,向用戶提供能夠用于決策支持、智能查詢、科學(xué)研究、解決問題的規(guī)則和模式。
6 智能搜索引擎在圖書館中的實(shí)際應(yīng)用
6.1 基于智能搜索引擎的智能化、個(gè)性化等特點(diǎn),我們可以利用它來(lái)完善圖書館的參考咨詢服務(wù)。例如:利用智能搜索引擎為讀者提供各種個(gè)性化信息服務(wù)(包括個(gè)性化推送或定制服務(wù)、個(gè)性化推薦服務(wù)、個(gè)性化知識(shí)決策服務(wù))。智能搜索引擎在參考咨詢中的應(yīng)用,可以使我們更準(zhǔn)確、更快捷的為讀者提供各種信息服務(wù),提高參考咨詢服務(wù)質(zhì)量。
6.2 為了方便廣大讀者使用圖書館資源,許多圖書館網(wǎng)站都設(shè)立了網(wǎng)上咨詢臺(tái),咨詢臺(tái)設(shè)有“常見問題解答”欄目,即我們常說(shuō)的FAQ。FAQ利用智能搜索引擎為我們提供了搜索與查詢的功能,里面列舉了我們?yōu)g覽網(wǎng)站時(shí)的常見問題,利用它我們可以對(duì)這些問題進(jìn)行搜索與查詢。例如:一般性問題、圖書館規(guī)則、OPAC查詢、讀者服務(wù)、電子資源使用等等,各個(gè)圖書館都會(huì)根據(jù)自己的特點(diǎn)設(shè)置相應(yīng)的FAQ。讀者登錄到網(wǎng)上咨詢臺(tái)后,可以很方便的查找自己所需要的信息,解決在使用圖書館資源時(shí)出現(xiàn)的各種問題。為讀者提供方便的同時(shí),也節(jié)約了咨詢館員的時(shí)間,可以讓他們有時(shí)間做更多的工作。
6.3 我們也可以把智能搜索引擎應(yīng)用于圖書館的各種自建數(shù)據(jù)庫(kù)中,以便進(jìn)行搜索與查詢。如隨書附盤數(shù)據(jù)庫(kù)、教學(xué)課件數(shù)據(jù)庫(kù)、視頻資料數(shù)據(jù)庫(kù)、教師論文數(shù)據(jù)庫(kù)、學(xué)生論文數(shù)據(jù)庫(kù)等各種數(shù)據(jù)庫(kù)。
6.4 為了方便讀者在訪問圖書館主頁(yè)時(shí)查詢信息,還可以把智能搜索引擎加入到圖書館主頁(yè)中,如google或baidu工具條等。
7 結(jié)語(yǔ)
智能搜索引擎憑借自身優(yōu)點(diǎn)在數(shù)字圖書館的建設(shè)中起著不可替代的作用。目前,智能搜索引擎技術(shù)在各個(gè)領(lǐng)域的應(yīng)用還不太成熟,在數(shù)字圖書館方面的應(yīng)用還處于起步階段,我們要合理利用它的優(yōu)點(diǎn),謹(jǐn)慎借鑒,結(jié)合各館實(shí)際情況,打造具有本館特色的個(gè)性化數(shù)字圖書館。
參考文獻(xiàn):
[1] 賈宏.基于搜索引擎的數(shù)字圖書館智能信息檢索[J].圖書館學(xué)研究,2006,(3).
[3] 邱均平,余以勝.基于知識(shí)庫(kù)系統(tǒng)的智能搜索引擎研究[J].現(xiàn)代圖書情報(bào)技術(shù),2005,(7).
[4] 馬文峰.數(shù)字圖書館個(gè)性化信息服務(wù)的探索[J].圖書館雜志,2003,(5).
[5] 鄒凱,汪全莉.智能搜索引擎與數(shù)字圖書館個(gè)性化服務(wù)[J].情報(bào)科學(xué),2004,(7).
[6] 馬文峰,高鳳榮等.論數(shù)字圖書館個(gè)性化信息推薦系統(tǒng)[J].現(xiàn)代圖書情報(bào)技術(shù),2003,(2).
[7] 許春漫.數(shù)字圖書館個(gè)性化信息檢索模型研究[J].現(xiàn)代圖書情報(bào)技術(shù),2006,(3).