劉苗苗 張永生
(大慶石油學(xué)院,河北 秦皇島 066004)
面對萬維網(wǎng)上海量的信息資源,人們迫切需要從中快速準(zhǔn)確地找到有用的信息,搜索引擎技術(shù)的誕生為信息檢索提供了方便,它以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對其進(jìn)行提取和處理,從而為用戶提供檢索服務(wù)[1]。但由于其查準(zhǔn)率或查全率不高,其檢索結(jié)果遠(yuǎn)不能令人滿意,因此本文以現(xiàn)有搜索引擎工作機(jī)制為基礎(chǔ),提出將文本分類[2]和特征抽取[3]技術(shù)應(yīng)用到搜索引擎上,通過文本分類器將檢索結(jié)果進(jìn)行快速自動分類,以分類目錄樹的方式來顯示檢索結(jié)果。該方法有效地改善了檢索結(jié)果的組織,大大降低了用戶所需瀏覽的檢索結(jié)果數(shù)量,方便用戶快速找到跟查詢請求相關(guān)的有用信息。
廣義的搜索引擎指一切提供信息檢索服務(wù)的工具或系統(tǒng)。狹義的搜索引擎指利用網(wǎng)絡(luò)自動搜索技術(shù)軟件對web資源進(jìn)行搜集、整理并提供檢索服務(wù)的一類信息服務(wù)系統(tǒng)[4]。它一般包括信息搜集、信息整理和用戶查詢?nèi)糠帧?/p>
搜索引擎至少有三個因素值得重視:數(shù)據(jù)庫、用戶搜索、搜索結(jié)果排序。其工作原理是:首先利用高性能的Spider程序在互聯(lián)網(wǎng)中發(fā)現(xiàn)并搜集有用的網(wǎng)頁信息,然后利用分析索引系統(tǒng)將收集到的信息進(jìn)行分類整理,建立索引數(shù)據(jù)庫,最后當(dāng)用戶輸入關(guān)鍵詞搜索時,搜索系統(tǒng)從索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁,并將其鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶,而與用戶的搜索條件最相關(guān)的結(jié)果因其相關(guān)度高而出現(xiàn)在檢索結(jié)果最前面的位置。
影響一個搜索引擎系統(tǒng)性能的因素有很多[5],最主要的是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法等。評價一個搜索引擎系統(tǒng)好與壞的指標(biāo)有查全率、查準(zhǔn)率及響應(yīng)速度和時間等。
圖1 基于文本分類的搜索引擎模型
圖2 文本自動分類的過程
搜索引擎位于信息檢索系統(tǒng)的底層,它以Web上的信息為處理對象,用戶可以通過可視化接口跟檢索器相連。由于現(xiàn)有的搜索引擎技術(shù)在查全率或查準(zhǔn)率方面不能令人滿意,因此本文提出了基于文本自動分類的搜索引擎系統(tǒng)。該系統(tǒng)分為以下6個基本部分:Robot、查詢分析器、索引器、檢索器、文本分類器和用戶接口,其模型如圖1所示。
Robot:可稱為“自動跟蹤索引軟件”,它在網(wǎng)絡(luò)上檢索文件且自動跟蹤該文件的超文本結(jié)構(gòu)并循環(huán)檢索被參照的所有文件,隨時將新信息添加到搜索引擎中供查詢;查詢分析器:主要是對本地文檔集合的文檔進(jìn)行分析以用于索引;索引器:它將文檔表示為一種便于檢索的方式并存儲在索引數(shù)據(jù)庫中;檢索器:從索引數(shù)據(jù)庫中找出與用戶的查詢請求相關(guān)的文檔,提交給文本分類器;文本分類器:將檢索器提交過來的文檔進(jìn)行自動分類,其關(guān)鍵技術(shù)主要有文本的表示[6]、特征項的抽取、分類算法的選擇等等;用戶接口:為用戶提供可視化的查詢輸入和結(jié)果輸出界面。
上面所述的基于文本自動分類的搜索引擎的設(shè)計中,Robot軟件程序編制、分析器、索引器、檢索器的功能與設(shè)計均是建立在當(dāng)前搜索引擎工作機(jī)制的基礎(chǔ)之上。目前文本的平面分類技術(shù)已經(jīng)發(fā)展的比較成熟,分類的正確率達(dá)到90%以上,分類器對于文本層次分類和并行處理方面的研究有待加強(qiáng),這是制約其應(yīng)用到搜索引擎上的瓶頸。
文本分類是信息檢索的關(guān)鍵。目前目錄式搜索引擎的分類是由人工完成的,因此實(shí)時性差,更新速度慢,查全率低,成本也較高,且檢索的最終結(jié)果是網(wǎng)址,不便于瀏覽。而全文檢索式搜索引擎的檢索結(jié)果是一個線性文檔的列表,雖然經(jīng)過了相關(guān)度排序,但用戶仍需要逐個瀏覽才能找出所需信息。基于以上兩種搜索引擎的缺點(diǎn)本文提出將粗糙集的文本自動分類技術(shù)應(yīng)用到搜索引擎上。在該系統(tǒng)中文本分類器的設(shè)計是其中的難點(diǎn),將其應(yīng)用到搜索引擎上需要解決兩個主要問題:其一文本分類器對檢索出來的文本的分類速度應(yīng)該足夠快,否則用戶會感到?jīng)]有耐心等待檢索結(jié)果的顯示,即要提高搜索引擎的響應(yīng)速度;其二是分類的準(zhǔn)確率要高,方便用戶在確定的目錄下準(zhǔn)確查找到所需要的文本,即要提高查準(zhǔn)率。
系統(tǒng)中用到的關(guān)鍵技術(shù)主要是文本自動分類和特征抽取。
文本自動分類一般分為訓(xùn)練和分類兩個階段,其系統(tǒng)流程如圖2所示。研究文本自動分類的關(guān)鍵問題是如何構(gòu)造分類函數(shù)。
文本的特征抽取也是設(shè)計中的一個重點(diǎn)。在分類階段,經(jīng)過預(yù)處理后,文本的特征向量維數(shù)仍然很高,因此在分類前需要進(jìn)行特征子集的選取。一般情況下對于正文中特征項的抽取[4]是構(gòu)造一個評估函數(shù),對特征集中的每個特征進(jìn)行獨(dú)立的評估,然后對所有的特征按照其評估分的大小排序,選取預(yù)定數(shù)目的最佳特征作為文本的特征集。
總之,文本自動分類以及特征抽取技術(shù)在搜索引擎上的應(yīng)用,將給信息檢索技術(shù)的研究帶來一定的啟發(fā)與幫助。
在對現(xiàn)有搜索引擎技術(shù)及其工作原理進(jìn)行總結(jié)的基礎(chǔ)上,本文提出了基于文本分類和特征抽取的搜索引擎系統(tǒng)的設(shè)計,對其系統(tǒng)設(shè)計、工作原理及可行性進(jìn)行了一定的探討。該系統(tǒng)能對搜索結(jié)果進(jìn)行快速自動分類,在一定程度上改善了信息檢索的效率及質(zhì)量,方便了用戶的信息查詢。如果能夠?qū)崿F(xiàn)檢索結(jié)果的快速聯(lián)機(jī)分類,將會給目前的信息檢索技術(shù)帶來新的突破,便于用戶快速檢索到需要的結(jié)果,這是本文下一步的研究目標(biāo)。
[1]搜索引擎簡介及研究專欄-搜索引擎發(fā)展歷史.http://www.china-seo.org/se-jj/history.htm
[2]王漢萍,張繼軍等.基于粗糙集的文本自動分類方法的研究[J],信息技術(shù),2003年第8期
[3]魏天濱.基于粗糙集理論的文本分類規(guī)則抽取[J],中國海洋大學(xué)學(xué)報自然科學(xué)版,2003,33(6):943~949
[4]搜索引擎直通車-搜索引擎發(fā)展史[EB/OL].http://www.se-express.com/about/about.htm
[5]馬彪,李恒.搜索引擎的性能評價[EB/OL].新世紀(jì)圖書館 2003年第6期
[6]方蘭、王明文 文本自動分類技術(shù)及其應(yīng)用[J],計算機(jī)與現(xiàn)代化 2004.7第107期,25~29