棲霞市圖書館 牟雪艷
隨著國內(nèi)外近年來電子圖書館、數(shù)字圖書館、虛擬圖書館的興起與發(fā)展,圖書館的工作對象由文獻資源擴展為信息資源。以計算機技術(shù)、網(wǎng)絡(luò)技術(shù)、微電子技術(shù)為核心的現(xiàn)代化技術(shù)將從根本上改變圖書館的工作模式、工作方法甚至體制形態(tài)。新的研究課題不斷涌現(xiàn),其中包括網(wǎng)上信息資源的虛擬鏈接和應(yīng)用、利用計算機進行各類信息(包括多媒體信息、流媒體信息等)的存儲和檢索。
網(wǎng)絡(luò)信息資源是將文字、圖像、聲音、動畫等多種形式的信息,以數(shù)字化形式存儲,并借助計算機與網(wǎng)絡(luò)通信設(shè)備發(fā)布、收集、組織、存儲、傳遞、檢索和利用的信息資源。
網(wǎng)絡(luò)信息資源檢索工具有多種,按照其檢索機制可分為主題指南(目錄型檢索工具)、圖書館的網(wǎng)絡(luò)導(dǎo)航(學(xué)科導(dǎo)航)、搜索引擎等。從功能上來看,主題指南和圖書館的網(wǎng)絡(luò)導(dǎo)航類似圖書中的目次,而搜索引擎則更像索引。搜索引擎使用自動索引軟件來發(fā)現(xiàn)、收集并標引網(wǎng)頁,建立索引數(shù)據(jù)庫,以Web形式提供檢索界面。當用戶輸入某個關(guān)鍵詞的時候,所有在頁面內(nèi)容中包含該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低依次排列。搜索引擎強調(diào)的是檢索功能,而非主題指南那樣的導(dǎo)引、瀏覽。
搜索引擎是指自動從互聯(lián)網(wǎng)搜集信息,經(jīng)過一定整理之后,提供給用戶進行查詢的系統(tǒng)。它是為滿足用戶對網(wǎng)絡(luò)信息搜索需求應(yīng)運而生的網(wǎng)絡(luò)工具,既是互聯(lián)網(wǎng)信息查詢的導(dǎo)航器,也是溝通用戶與網(wǎng)絡(luò)信息的重要橋梁。搜索引擎是在檢索被搜索到的網(wǎng)頁的數(shù)據(jù)庫,而不是檢索互聯(lián)網(wǎng)本身。[1]
機/服務(wù)器(Client/Server—C/S)體系結(jié)構(gòu)
當用戶訪問搜索引擎時,用戶端為客戶機,向搜索引擎發(fā)出檢索請求,搜索引擎為服務(wù)器,檢索自己的索引數(shù)據(jù)庫并將檢索結(jié)果以應(yīng)答形式提交給用戶。當搜索引擎采集數(shù)據(jù)時,搜索引擎為客戶機,向WWW站點等實際資源系統(tǒng)提出頁面搜索請求,各類實際資源系統(tǒng)為服務(wù)器,將有關(guān)數(shù)據(jù)(例如WWW頁面或文檔)作為應(yīng)答提交給搜索引擎。
搜索引擎的目的只有一個:尋找相關(guān)性最高的網(wǎng)頁。
值得一提的是數(shù)據(jù)庫,搜索引擎的數(shù)據(jù)庫資源由用戶提交的登錄信息組成,他們還主動地使用其“Web crawlers”“spiders”或“robots”程序搜索因特網(wǎng)并將搜索到的網(wǎng)頁信息歸入其索引數(shù)據(jù)庫中。
(1)在互聯(lián)中發(fā)現(xiàn)、搜集網(wǎng)頁信息
搜索引擎首先負責(zé)數(shù)據(jù)采集,即按照一定的方式和要求對網(wǎng)絡(luò)上的WWW站點進行搜集,并把所獲得的信息保存下來以備建立索引庫和用戶檢索。但是收集網(wǎng)頁只是搜索引擎的一部分工作,他們的其他服務(wù)器要做的還有進行計算/分配/儲存用戶習(xí)慣等等。
(2)對信息進行提取和組織建立索引庫
首先是數(shù)據(jù)分析與標引,搜索引擎對已經(jīng)收集到的資料給與按照網(wǎng)頁中的字符特性予以分類,建立搜索原則,舉例來說,對于"軟件"這個詞,它必須建立一個索引,當用戶查找的時候,他知道到這里來調(diào)取資料。當然,對于網(wǎng)頁語言,該字符的處理(大小寫/中文的斷字方式等等)等方面,各個搜索引擎都有自己的存檔歸類方式,這些方式往往影響著未來搜索結(jié)果。
接下來是數(shù)據(jù)組織,搜索引擎負責(zé)形成規(guī)范的索引數(shù)據(jù)庫或便于瀏覽的層次型分類目錄結(jié)構(gòu),也就是計算網(wǎng)頁等級,這個原則特別是在Google非常重要,一個接受很多鏈接的網(wǎng)頁,搜索引擎必然在所有的網(wǎng)頁當中將這些連接多的網(wǎng)頁提升上來。
(3)在索引數(shù)據(jù)庫中搜索排序
由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并將查詢結(jié)果返回給用戶。
搜索引擎負責(zé)幫助用戶用一定的方式檢索索引數(shù)據(jù)庫,獲取符合用戶需要的WWW信息。搜索引擎還負責(zé)提取用戶相關(guān)信息,利用這些信息來提高檢索服務(wù)的質(zhì)量,信息挖掘在個性化服務(wù)中起到關(guān)鍵作用。用戶檢索的過程是對前兩個過程的檢驗,檢驗該搜索引擎能否給出最準確、最廣泛的信息,檢驗該搜索引擎能否迅速地給出用戶最想得到的信息。
主要搜索引擎有Goole、百度、Yahoo和Bing。一般來說,如果是搜索英文信息使用Goole會更有效,搜索中文信息則傾向于使用百度。即使在中文信息領(lǐng)域,如果單就搜索的準確性而言,目前Goole仍占據(jù)著明顯優(yōu)勢,應(yīng)成為首選。目前百度以近70%的市場占有率,占據(jù)中文搜索引擎的領(lǐng)先地位,在全球的市場份額則落后于谷歌、雅虎和微軟必應(yīng)排在第4位。
[1]鄒廣嚴,王紅兵.信息檢索與利用[M].北京:科學(xué)技術(shù)出版社,2011.