馬雷雷,梁汝鵬,連世偉, ,陳 虎
(1.信息工程大學(xué) 地理空間信息學(xué)院,河南 鄭州 450052;2.77526部隊,西藏 拉薩 850000;3.國防信息學(xué)院,湖北 武漢 430010)
互聯(lián)網(wǎng)包含海量的數(shù)據(jù)和信息,傳統(tǒng)的搜索引擎基于關(guān)鍵詞進行檢索,僅限于詞匯的語法分析,缺乏語義信息,不能較好地理解用戶的真正需求,致使查準(zhǔn)率和查全率較低。為了解決上述問題,本文限定周邊地緣環(huán)境主題,提出了一種基于主題本體的語義檢索引擎框架,介紹了各個模塊實現(xiàn)的關(guān)鍵技術(shù),并對該搜索引擎的爬蟲性能進行了測試和分析。
本體是對一個領(lǐng)域內(nèi)被共享的概念的形式化和顯式的說明[1],在信息科學(xué)領(lǐng)域本體主要用于知識的共享和重用。本體在地理信息科學(xué)領(lǐng)域中的應(yīng)用被表示成為地理本體,即是對地理領(lǐng)域被共享的概念的形式化說明[2]。
主題本體實際上就是一種針對特定主題的領(lǐng)域本體,如針對周邊地緣環(huán)境、人文地理、計算機網(wǎng)絡(luò)等這樣的主題范圍時才稱為主題本體。主題本體既能較好地描述主題內(nèi)容,又能揭示概念之間的語義關(guān)系,顯著提高主題描述的準(zhǔn)確度[3]。本文構(gòu)建的周邊地緣環(huán)境主題本體是一種典型的地理本體。
語義搜索是在傳統(tǒng)搜索引擎的基礎(chǔ)上發(fā)展起來的,它把關(guān)鍵詞擴展到語義的層次,查詢條件不僅包含關(guān)鍵詞的語法信息,還包含了關(guān)鍵詞與相關(guān)聯(lián)的語義信息,能夠準(zhǔn)確地捕捉到用戶輸入查詢語句背后的真正意圖,顯著提高搜索信息的準(zhǔn)確性和相關(guān)性,返回符合要求的結(jié)果集。現(xiàn)階段國外比較成熟的語義搜索引擎有 Hakia、Kngine、Kosmix、Powerset、DuckDuckGo和Sensebot等[4],國內(nèi)在語義搜索領(lǐng)域進展比較緩慢,目前比較成熟的語義搜索引擎主要是海天語義搜索引擎Laiseek。
本文設(shè)計了一個面向周邊地緣環(huán)境主題的語義搜索引擎框架,如圖1所示。該框架主要包含3個技術(shù)模塊(爬蟲模塊、索引模塊和查詢模塊)和一個本體知識庫(周邊地緣環(huán)境本體庫),它們各自負責(zé)整體功能的一部分。
圖1 面向主題本體的語義搜索引擎框架圖
框架中的本體知識庫就是周邊地緣環(huán)境主題本體庫,主要包含了周邊地緣環(huán)境領(lǐng)域的概念知識、關(guān)系、實例及其語義描述。它主要輔助爬蟲模塊進行主題網(wǎng)絡(luò)爬蟲和查詢模塊與用戶響應(yīng)的關(guān)鍵字語義擴展,起到中流砥柱的驅(qū)動作用。
爬蟲模塊位于語義搜索引擎框架的底層,主要負責(zé)在后臺爬取與主題相關(guān)的網(wǎng)頁并保存在網(wǎng)頁庫中,限定特定的主題能顯著提升爬取網(wǎng)頁的效率;索引模塊主要是對爬蟲模塊爬取的海量周邊地緣環(huán)境頁面庫進行中文分詞后構(gòu)建倒排索引,供查詢模塊使用,以便快速查找到包含用戶查詢擴展的所有網(wǎng)頁;查詢模塊主要是與用戶交互的模塊,能夠正確判斷和分析用戶的真正搜索意圖,返回的是與用戶查詢相對應(yīng)的顧及語義的準(zhǔn)確的搜索結(jié)果,該模塊可以看作是語義搜索引擎的前臺計算系統(tǒng)。爬蟲模塊和索引模塊主要是從互聯(lián)網(wǎng)上獲取并存儲海量的主題相關(guān)網(wǎng)頁集,不需要實時顯示和計算,可以看成是語義搜索引擎的后臺計算系統(tǒng)。
本文面向周邊地緣環(huán)境這一主題構(gòu)建本體庫。由于我國獨特的地理位置,陸海兼?zhèn)?、鄰國眾多,周邊地緣環(huán)境十分復(fù)雜,這就增加了構(gòu)建周邊地緣環(huán)境本體庫的難度。設(shè)計的周邊地緣環(huán)境本體的概念模型如圖2所示。
利用國內(nèi)外本體構(gòu)建理論、方法。明確周邊地緣環(huán)境本體庫構(gòu)建的目標(biāo)和準(zhǔn)則,通過領(lǐng)域?qū)<沂止?gòu)造本體和自動化構(gòu)造本體方法相結(jié)合,研究從多種信息源(相關(guān)主題詞表、測繪學(xué)敘詞表、相關(guān)標(biāo)準(zhǔn)規(guī)范和已有地名庫)進行領(lǐng)域本體的構(gòu)建,并利用構(gòu)建的本體對各種信息源進行語義標(biāo)注。
圖2 一種面向周邊地緣環(huán)境主題的本體概念分類模型
提出了一個面向周邊地緣環(huán)境主題的網(wǎng)絡(luò)爬蟲流程,如圖3所示。主題網(wǎng)頁爬蟲的算法流程如下:
1)首先選擇一個與周邊地緣環(huán)境相關(guān)并且認可度較高的初始URL放入種子列表;
2)依據(jù)主題URL種子列表依次從互聯(lián)網(wǎng)上抓取網(wǎng)頁;
3)對抓取的網(wǎng)頁進行主題信息、時空信息和URL鏈接信息的提取處理;
4)對網(wǎng)頁內(nèi)容進行主題相關(guān)度評價,符合主題的網(wǎng)頁存入主題頁面庫;
5)對網(wǎng)頁中的URL鏈接信息進行分析與過濾,將符合主題的URL鏈接放入主題URL種子列表,重復(fù)1)~ 4)步驟,直至完成全部主題網(wǎng)頁的抓取。
圖3 基于本體的主題網(wǎng)絡(luò)爬蟲流程圖
本模塊主要涉及2個關(guān)鍵技術(shù),即基于本體的語義相似度計算及URL鏈接分析技術(shù)。
基于本體的語義相似度計算主要用于對網(wǎng)頁內(nèi)容的主題相似度計算,通過計算爬取的網(wǎng)頁內(nèi)容與周邊地緣環(huán)境主題的相關(guān)度,根據(jù)計算結(jié)果來決定是否將頁面保存,限定主題爬蟲為索引模塊減輕負擔(dān),現(xiàn)階段的算法已相對成熟[5,6],擬綜合這些算法進行網(wǎng)頁的主題相關(guān)度計算;URL鏈接分析技術(shù)主要是對URL中的title、錨文本等信息進行語義相似度計算,過濾掉與主題無關(guān)的URL,有效地提升主題URL列表的運作效率,現(xiàn)階段算法也相對成熟[5-7],擬結(jié)合構(gòu)建的主題本體庫中概念描述信息,并綜合這些算法進行URL鏈接分析與過濾。
該語義搜索引擎的索引模塊主要是為了查詢模塊快速找到與用戶查詢相關(guān)的所有網(wǎng)頁,主要有中文分詞技術(shù)、倒排索引庫的建立和維護2個關(guān)鍵技術(shù)。中文分詞技術(shù)現(xiàn)階段已較成熟,通過改進Lucene軟件的中文分詞技術(shù)來實現(xiàn)語義搜索引擎索引模塊的分詞。倒排索引是一種經(jīng)典的索引實現(xiàn)方式,也就是對主題網(wǎng)頁文檔建立倒排索引。改進現(xiàn)有的倒排索引技術(shù),采用改進的TFIDF權(quán)重計算公式來建立索引庫,供查詢模塊使用[8]。
查詢模塊是語義搜索引擎與用戶交互的模塊,主要包含3個關(guān)鍵算法,即基于領(lǐng)域本體的關(guān)鍵字查詢擴展算法[9]、基于向量空間模型的語義檢索算法和顧及時空關(guān)系的PageRank算法?;陬I(lǐng)域本體的關(guān)鍵字查詢擴展算法主要是依據(jù)主題本體實現(xiàn)對用戶查詢關(guān)鍵字的語義擴展,然后將獲得的擴展概念集合作為新的查詢條件進行查找;基于向量空間模型的語義檢索算法主要實現(xiàn)語義搜索引擎的檢索功能;顧及時空關(guān)系的PageRank算法主要用于對檢索到的網(wǎng)頁進行排序,考慮時間和空間關(guān)系的影響,按優(yōu)先條件返回用戶最需要的結(jié)果。
本文基于上述方法設(shè)計了一個簡易的語義搜索引擎原型系統(tǒng)SemSear1.0,目前只是實現(xiàn)了周邊地緣環(huán)境本體庫的構(gòu)建和周邊地緣環(huán)境主題網(wǎng)絡(luò)爬蟲。
依據(jù)圖2設(shè)計的面向周邊地緣環(huán)境主題的本體概念分類模型,利用Protégé 3.4.8軟件構(gòu)建了周邊地緣環(huán)境主題本體庫,詳細設(shè)置了各個概念和實例,并進行了語義擴展和描述。
結(jié)合主題本體庫,使用Eclipse和Heritrix進行了主題爬蟲模塊的開發(fā)。本文對主題網(wǎng)絡(luò)爬蟲模塊的性能進行了實驗測試,通過分析抓取收獲率來測試其性能,其中抓取收獲率是衡量大多數(shù)網(wǎng)絡(luò)爬蟲器性能的流行指標(biāo),可表示為[10]:
hr = r / p,hr?[0,1]
式中,r表示滿意的網(wǎng)頁,如果抓取到的網(wǎng)頁中包含主題詞,則此網(wǎng)頁可稱為滿意的網(wǎng)頁;p表示抓取到的網(wǎng)頁。收獲率越高說明抓取效果越好。
以國土資源部網(wǎng)站作為種子URL,采用通用爬蟲策略和本文提出的主題爬蟲策略分別進行網(wǎng)頁抓取,通過實時分析得出抓取的網(wǎng)頁數(shù)量與抓取收獲率之間的關(guān)系如圖4所示。
圖4 爬蟲性能評價結(jié)果圖
本文提出的面向周邊地緣環(huán)境的語義搜索引擎主要有4個應(yīng)用方向,即周邊態(tài)勢輿情監(jiān)測、地理空間情報服務(wù)、輔助決策和周邊態(tài)勢信息可視化。本文只是針對當(dāng)前外交領(lǐng)域獲取周邊地緣環(huán)境信息的迫切需求而提出的一種新型的語義檢索方法,實現(xiàn)方面還存在著很多的不足,有很多的工作需要進一步展開。
[1]Neches R, Fikes R, Gruber T, et al.Enabling Technology for Knowledge Sharing[J].AI Magazine, 1991, 12(3):36-56
[2]李宏偉,成毅,李勤超.地理本體與地理信息服務(wù)[M].西安:西安地圖出版社,2008
[3]拜戰(zhàn)勝,徐德智,彭佳紅,等.基于主題本體的信息采集模型研究[J].計算機技術(shù)與發(fā)展,2009,19(10):102-105
[4]Sudeepthi G, Anuradha G, Surendra M.A Survey on Semantic Web Search Engine[J].International Journal of Computer Science Issues, 2012, 9(2):241-245
[5]武昊,廖安平,何超英,等.基于主題相關(guān)度的地理信息我Web服務(wù)爬蟲研究[J].地理與地理信息科學(xué),2012,28(2):27-30
[6]鄭國良,葉飛躍,林國俊,等.基于領(lǐng)域本體的主題信息采集方法[J].計算機應(yīng)用,2008,28(12):3 274-3 277
[7]蔣宗禮,徐學(xué)可,李帥.一種基于超鏈接引導(dǎo)的主題搜索的主題敏感爬行方法[J].計算機應(yīng)用,2008,28(4):942-944
[8]粱云娟,張麗君.倒排索引技術(shù)在信息檢索中的應(yīng)用[J].計算機光盤軟件與應(yīng)用,2011,22:14-16
[9]趙宏亮,楊鶴標(biāo).面向領(lǐng)域的語義搜索引擎的應(yīng)用研究[J].計算機工程與設(shè)計,2012,33(5):1 801-1 805
[10]Aggarwal C, Al-Garawi F, Yu P.Intelligent Crawling on the World Wide Web with Arbitrary Predicates[C].The 10th Intl.World Wide Web Conference, Hong Kong, 2001