房 屹
(山東絲綢紡織職業(yè)學院,山東 淄博 255300)
隨著Internet資源的迅速增長,網絡資源愈發(fā)豐富,傳統(tǒng)的基于HTML的搜索技術的準確率水平亟待提高。XML標記語言可以明確的標記多樣化的網絡信息,通過內容與標記之間的關系準確定位,查找目標。突破了傳統(tǒng)意義的全文檢索方式,減小了搜索范圍,提高搜索的精度與準確度。
可擴展標記語言(Extensible Markup Language, XML)是互聯網聯合組織(W3C)創(chuàng)建的一組規(guī)范,為了便于網頁信息的組織而設計的。XML是一種元標記語言,它以一種開放的自我描述方式定義數據結構,在描述數據內容的同時能突出對結構的描述,從而體現出數據之間的關系,這樣所組織的數據對于應用程序和人類都是友好的、可操作的。所以,XML是一種優(yōu)秀的數據打包和數據交換的形式。為分析和轉換 XML文檔,XML還提供了DOM、SAX等技術于實現對XML文檔的解析,并提供Xpath、Xquery等查詢語言實現對XML文檔的有效查詢,形成XML搜索技術。
在基于XML的搜索引擎的設計中,對特定結構的XML文檔存儲網站Web信息,將有關Web頁面的內容或超級鏈接文本以及它們對應的URL分層保存在XML文檔中,并通過對XML文檔的解析實現信息的錄入、更新、修改,最后設計利用XML查詢技術的檢索器,通過對存儲查詢信息的 XML文檔進行檢索,按用戶查詢字找到對應的Web頁面的URL,在用戶瀏覽器端返回其所指的Web頁,從而實現基于XML的Web信息搜索。
建立Web信息集成平臺的目的就是為用戶提供涉及多個Web信息源的統(tǒng)一查詢機制?,F在一般有兩種方法:虛擬(virtual)方法和數據倉庫(warehousing)方法。虛擬方法是基于一個“中間模式”,但數據仍保存在各個參加集成的數據源中,通過各數據源的“包裝程序”(wrappers)將數據虛擬成中間模式,用戶的查詢是基于中間模式,即建立一個虛擬數據庫。數據倉庫法是建立一個數據倉庫,并將參加集成的各個不同的信息源裝入數據倉庫,用戶的查詢是基于數據倉庫的數據?;?XML和ASP語言的中間層方法能夠從多個不同結構的數據源中集成數據,并以XML文檔的形式把這些數據交付給查詢用戶。
用戶興趣建模為用戶提供個性化信息服務,是信息推薦系統(tǒng)的核心,它代表每個用戶的不同信息需求。目前普遍采用的建立用戶興趣模型的顯示獲取和隱式獲取方式都存在一定的缺陷:以關鍵字的方式提供用戶興趣的用戶經常不能準確地表達自己的興趣;從目標樣本文檔提取用戶興趣的不能全面發(fā)現用戶的興趣;用戶主動方式建立興趣的不能自動更新用戶的興趣。因此本文采用顯示和隱式相結合的方式建立用戶興趣模型。先通過用戶注冊時填寫用戶興趣的信息建立起粗略的用戶興趣模型(此部分是可選擇的,如果用戶認為耽誤時間或怕麻煩等也可以不填),然后系統(tǒng)根據用戶的瀏覽內容和瀏覽行為自動構建準確的用戶興趣模型,并通過對搜索結果的反饋信息更新用戶興趣。這樣可在用戶沒有明確參與的情況下,建立并更新用戶興趣。
目前關于XML數據的查詢處理都是針對專門的XML存儲系統(tǒng),對于底層采用數據庫管理系統(tǒng)的情況,則是通過將XML查詢語言書寫的查詢轉換為關系#K&語言或OK&語言查詢,利用傳統(tǒng)數據庫系統(tǒng)的查詢處理功能來完成用戶的查詢請求。
該方法與傳統(tǒng)數據庫中的查詢處理類似,大致有以下幾個步驟:一是對查詢進行語法分析,并將其轉換為傳統(tǒng)的SQL的形式;二是邏輯查詢計劃性生成器產生一個邏輯查詢計劃;三是這個邏輯查詢計劃可以產生很多的物理查詢執(zhí)行計劃,而物理計劃由一些物理操作符構成,這些操作符可由查詢執(zhí)行引擎執(zhí)行。查詢優(yōu)化器通過存儲的統(tǒng)計信息和開銷模型,從眾多的物理查詢執(zhí)行計劃中選出一個最優(yōu)的;四是提交給查詢計劃執(zhí)行引擎完成查詢,并返回查詢結果。
與基于HTML的搜索引擎相比,基于XML的站內搜索引擎適應了計算機技術的發(fā)展需要,它的優(yōu)點是:①由于 XML文檔對內容和結構的良好支持,使搜索引擎脫離了對數據庫的依賴,并較好的支持了非結構信息的處理。②與數據庫文件相比,XML文件存儲容量較小,減小了對存儲空間的占用,并有利于提高查詢速度。③借助于支持XML的API,減輕了數據錄入和管理的人工操作,并易于實現搜索信息的動態(tài)更新;實現了Web搜索引擎;實現了對Web站點的全部文本、圖片、音頻三類數據的索引,并且采用了 XML作為數據存儲容器,它能在大量信息的環(huán)境下大大節(jié)省空間和提高索引的速度。此外,由于 XML文檔結構的可擴展性,通過增加新元素和對檢索器應用程序進行微小調整,既可容易地進一步擴展搜索引擎查詢方式,如按Web頁面建立時間查詢等。并且,在動態(tài)擴展方面,基于XML的搜索引擎也具有獨特優(yōu)勢。
本文對現有的XML搜索技術進行了分析,對Web信息的集成、用戶興趣模型的建立和更新、XML數據的查詢處理方法,給出了索引的數據結構以及查詢的優(yōu)化算法,使網絡信息查詢更加靈活簡便。
1 陳金森.XML搜索引擎中索引技術的研究[D].燕山大學,2006