摘要:元搜索引擎通過調(diào)用多個獨立搜索引擎,從而提高了檢索結果的覆蓋面。本文簡述了元搜索引擎的運作原理,研究了元搜索引擎的核心技術,闡述了它的局限性以及未來發(fā)展趨勢,并對其局限性提出實用可行的優(yōu)化方案。
關鍵詞:元搜索引擎;成員搜索引擎;網(wǎng)頁去重;結果排序
中圖分類號:TP393.09 文獻標識碼:A 文章編號:1007-9599 (2012) 10-0000-02
一、引言
隨著網(wǎng)絡科技的迅猛發(fā)展,網(wǎng)絡深入人們的生活。如何在網(wǎng)絡中尋找需求度額信息顯得尤為重要。
據(jù)Cyceillance于2000年7月10日公布的一項研究表明,目前Internet上已有21億個唯一URL地址的公開網(wǎng)址,并且仍以每天超過700萬的驚人速度增長。十余年過去,信息的膨脹與爆炸,使用戶們不知所措。正如Wurman所說,信息爆炸給人們帶來的事信息焦慮。用戶對信息的需求各不相同,于是搜索引擎逐漸成為web用戶不可或缺的工具。
元搜索引擎(meta search engine,簡稱MSE)作為一個新的搜索技術的研發(fā)領域,已經(jīng)在實踐中初步顯示了其便捷性和重要性。雖然目前元搜索的研究有不斷的發(fā)展,但是由于依賴各個獨立的搜索引擎,元搜索引擎在處理查詢輸入和輸出顯示時均可能出現(xiàn)問題,如檢準率不易控制檢索時間過長,對高級檢索的支持有待改進,檢索結果不能很好體現(xiàn)等等。因此,元搜索的優(yōu)化研究具有一定的時代意義和創(chuàng)新性。
二、元搜索引擎的原理
傳統(tǒng)搜索引擎分為全文搜索引擎、目錄索引、元搜索引擎。元搜索引擎又稱多搜索引擎,通過一個統(tǒng)一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的(甚至是同時利用若干個)搜索引擎來實現(xiàn)檢索操作,是對分布于網(wǎng)絡的多種檢索工具的全局控制機制。目前國內(nèi)的搜索引擎發(fā)展迅速,市場也很廣闊。但是,元搜索引擎的發(fā)展很緩慢,相關網(wǎng)站也比較少。元搜索引擎由3部分組成,包括請求提交、檢索接口代理、檢索結果顯示。
(一)請求提交:
負責實現(xiàn)用戶的檢索要求,檢索內(nèi)容可以是單個關鍵詞、短語,也可以是句子,可以由用戶選擇搜索引擎組合,也可以由默認的搜索引擎搜索,還可以由用戶選擇單個搜索引擎進行搜索。
(二)檢索接口代理
由于各個獨立的搜索引擎所采用的搜索算法和數(shù)據(jù)庫存在很大差異,需要將用戶檢索的請求轉化成各個成員搜索引擎所要求的格式,包括是否支持布爾檢索、是否提供自然語言查詢等高級檢索服務,逐一做出適應各個源搜索引擎的轉換,以提高檢準率。
(三)檢索結果顯示
將所有來自源搜索引擎的搜索結果進行二次處理,包括對結果的去重和排序,并將處理的結果按照統(tǒng)一格式輸出給用戶。難點在于對數(shù)據(jù)的去重和排序。目前的檢索處理方法主要是“將響應最快的搜索結果先返回”、“位置排序法”、“摘要排序法”等,各有利弊,檢索處理算法好壞直接影響檢索時間、檢索覆蓋率、排序質量等。
以上為元搜索引擎的組成部分,也是進行設計元搜索引擎的三個步驟。
三、現(xiàn)有元搜索引擎存在的缺陷
而對于國內(nèi)現(xiàn)在已經(jīng)存在的元搜索網(wǎng)站,例如搜魅網(wǎng)(someta)等,雖然能實現(xiàn)基本的功能,但是卻有一定的缺陷,大多數(shù)存在兩個方面的問題。
其一,是搜索覆蓋面雖然很全面,但是搜索的時間很長,例如搜索“元搜索”這個名詞,我們用了4家國內(nèi)利用元搜索原理開設的搜索應網(wǎng)站進行了搜索測試,其中兩家的搜索時間大于30秒,甚至無結果顯示;
其二,是搜索時間較短,但是覆蓋面較窄。我們同樣對上述幾個網(wǎng)站進行測試,有的返回的搜索結果只有單一搜索引擎的結果,并沒有發(fā)揮元搜索真正的優(yōu)勢。以此來看,目前的元搜索引擎還沒有真正發(fā)揮其本身的優(yōu)勢,為廣大用戶提供便利。
而隨著網(wǎng)絡的發(fā)展,越來越多的信息是人們通過Internet獲取,據(jù)估計網(wǎng)絡中有超過8億個可索引的網(wǎng)頁,大約15TB的信息量,而單個搜索引擎能覆蓋的不超過全部可檢索頁的16%,因此元搜索引擎的開發(fā)勢必成為將來的發(fā)展趨勢。
四、優(yōu)化元搜索引擎的主要功能特點
元搜索引擎的優(yōu)化目的在于在可接受的搜索時間內(nèi),返回更多的信息量。所研究的重點在于如何設計一個元搜索引擎并對由多個獨立搜索引擎結果的二次處理,如對檢索結果的去重、權值排序等。
其核心思路在于:
1.請求提交:負責實現(xiàn)用戶的檢索要求;
2.檢索接口代理:將用戶檢索的請求轉化成各個成員搜索引擎所要求的格式;
3.檢索結果顯示:將所有來自源搜索引擎的搜索結果進行二次處理,包括對結果的去重和排序,并將處理的結果按照統(tǒng)一格式輸出給用戶;
4.個性化設計:元搜索引擎把信息數(shù)據(jù)收集起來,從用戶個性化信息庫獲取個性化特征,比較分析,計算結果,返回給用戶。
五、優(yōu)勢分析及可行性
元搜索引擎作為一個新的搜索技術的研發(fā)領域,已經(jīng)在實踐中初步顯示了其便捷性和重要性。
由于web數(shù)據(jù)量太大,而且增長迅猛,單個搜索引擎的容量,處理能力難以擴展到較大規(guī)模,每個搜索引擎只能包含部分web文檔。元搜素能夠分散處理負載,增加檢索范圍。
元搜素具有較好的擴展性,可以加入多個成員搜索引擎,它使得各個成員搜蘇引擎規(guī)模變小,性能更好。檢索相應時間短,還可使得檢索的內(nèi)容保持最新。
有些web站點的內(nèi)容不能用數(shù)據(jù)采集器抓取,檢索更有效,用戶為了找到滿意的檢索結果可能訪問多個搜索引擎,直到找到合適結果,而元搜索引擎可以幫助用戶自動完成這個任務。
六、結語
本文通過對固有元搜索引擎的研究,提出元搜索優(yōu)引擎優(yōu)化的方式。針對現(xiàn)有元搜索引擎的缺點進行分析,提出切實可靠地提出解決方案。
就元搜索引擎技術本身來說,如何實現(xiàn)和完善元搜索引擎的智能化,個性化,專業(yè)化,將是信息檢索研究的著重點,而中文元搜索引擎還處于起步階段,發(fā)展空間很大。相信在未來的網(wǎng)絡的信息檢索領域,元搜素引擎會有廣泛的應用前景。
參考文獻:
[1]Steve Lawrence,Lee Giles C.Accessibility of information onthe web J J.Nature science joumals,1999,400,(8):107
[2]張儉恭,陳定權,昊振新.關于搜索引擎與元搜索引擎的討論[J].現(xiàn)代圖書情報技術,2OO2,92,(2):338
[3]黃于藍,王洪,徐端等.搜索引擎技術的新發(fā)展—多元搜索引擎系統(tǒng)[J].計算機工程,2002,28,(1):4-6
[4]陳俊杰,薛云,宋翰濤等.基于Agent的元搜索引擎的研究與設計[J].計算機工程與應用,2003,10:33-35
[5]Weiyi Meng,Clement Yu,King-Lup Liu Building efficient and effective Metasearch Engine
[6]Christos Faloutsos and Douglas Oard,A Survey of Information Retrieval and Filtering Methods