,
(鄭州輕工業(yè)學院,鄭州 450002)
隨著突發(fā)事件的頻繁發(fā)生,各地應急管理辦公室針對每個領域制定的應急預案文件快速增長。但由于缺乏組織和整理,在發(fā)生突發(fā)事件時,人們難以準確地查找到相關的預案信息。而傳統(tǒng)的應急預案檢索方式主要是搜索關鍵詞或查找內(nèi)容分類目錄,這種方式有較多缺點:需要較多人工干預,效率低下;不易選取合適的關鍵詞;返回較多的無關信息,較少做進一步的智能化處理等[1]。所以,人們在檢索過程中逐步引入語義技術。在語義表達方面,目前最流行的是本體,通過本體表示和本體映射對信息做完全形式化的描述。目前本體技術已得到比較廣泛的應用,其中語義網(wǎng)技術以本體論為基礎,以解決機器之間信息理解和處理問題為目的,已成為目前的研究熱點之一。本體正是憑借對概念的精確描述,在這種智能化的檢索過程中,扮演了重要的角色。用本體定義一個共享和共同的領域知識集,可以幫助人們與機器之間實現(xiàn)準確的語義交流,極大地提高信息檢索系統(tǒng)的效率和準確率。本文通過構(gòu)建檢索本體,使檢索過程由關鍵詞匹配演變?yōu)閮?nèi)容匹配。
在傳統(tǒng)的基于關鍵詞檢索方法中,產(chǎn)生誤檢、漏檢的一個重要原因是用戶的需求表達與信息系統(tǒng)的表示方式不一致,實質(zhì)上是對領域知識理解的不一致。本體論可以用來獲取相關的領域知識,形成對該領域知識的共同理解。
從知識共享的角度上來說,本體是通用意義上的概念定義集,是關于概念和關系的詞匯表。這種詞匯表是各種事務代理人之間交換意見時所用到的共同語言?;诒倔w論的信息檢索是基于知識、語義的匹配,在查準率和查全率上有更好的保證,已成為信息檢索的一個新的發(fā)展方向。
目前基于本體論的檢索系統(tǒng)[2]要達到上述目標則需通過2個過程:
(1)信息資源的本體化。運用本體論,通過相關算法分析,判斷文檔隸屬于哪個領域,并以此確定文檔在本體論中的位置。
(2)用戶檢索請求的本體化。人們對信息需求的認識通常比較模糊,且由于自然語言的固有特性,使得用自然語言表達的檢索請求與機器中用來描述的信息特征不匹配。所以,在知識檢索系統(tǒng)中,應該利用本體論的知識對用戶的檢索請求加以規(guī)范和引導,既能使用戶清晰地表達檢索需求,又能使機器很好地理解用戶意圖。
本體論具有較好的邏輯推理功能,對于用戶給出的檢索詞,利用本體論的邏輯推理功能,判斷其所屬的可能領域,然后分別將該領域及其屬下的相關概念與定義以本體化的形式提供給用戶[3]。這樣一方面可以幫助用戶明確其信息需求,把未意識到、未清晰表達的客觀信息需求進一步顯性化;另一方面讓系統(tǒng)確定檢索詞在本體論中的確切位置,從而幫助機器理解用戶的檢索意圖,為用戶提供更精確、更相關的知識與信息。
使用關鍵詞對中文進行檢索的基本原理是:
(1)用戶輸入檢索語句,一般由若干個反映文本主題的詞匯組成;
(2)使用分詞器對檢索語句進行分詞,并過濾掉無關詞項,形成查詢關鍵詞組;
(3)系統(tǒng)在數(shù)據(jù)庫中將關鍵詞組與預存的文本關鍵詞進行自動匹配,兩者相符的文本被檢出。
換言之,檢索者要想正確地檢索出所需信息,需輸入由與文本相匹配的關鍵詞所組成的語句。假設檢索者想要瀏覽名為“鄭州市突發(fā)公共事件應急預案”的文件,則需輸入與“鄭州市”、“突發(fā)公共事件”、“應急預案”等關鍵詞構(gòu)成的語句,如果輸入“金水區(qū)暴雨”,則不會匹配到任何結(jié)果,因為系統(tǒng)不會理解到“金水區(qū)”是鄭州市的一個轄區(qū),“暴雨”是“突發(fā)公共事件”的一種情況。這就需要借助于本體論,通過對關鍵詞進行語義擴展,進而將基于關鍵詞的檢索提升到對知識檢索的層次。
基于上述原因,在設計應急預案系統(tǒng)時,加入檢索本體,并通過語義的匹配、推理,實現(xiàn)整個檢索系統(tǒng)由面向預案的檢索向面向事件的檢索進化。由于預案文本所涵蓋的知識面較廣,若對文體全面檢索需耗費巨大的硬件資源和時間成本,對預案名稱進行檢索是一個較好的折中方法。整個檢索系統(tǒng)設計如圖1所示。
圖1 應急預案系統(tǒng)檢索模塊框圖
圖1所示的查詢實現(xiàn)過程可表述如下:
(1)對用戶輸入詞進行自然語言分詞,得到有意義的關鍵詞組。
(2)將關鍵詞與本體庫中的實例進行匹配,匹配過程就是將用戶輸入詞轉(zhuǎn)化為本體庫中的一個實例集合。
(3)從實例集合中的葉子節(jié)點出發(fā),對每一個實例進行一次隸屬關系遍歷,采用廣度優(yōu)先遍歷算法,產(chǎn)生一個與實例集合中的實例相關聯(lián)的三元組集合。
(4)將三元組集合的所有Resource添加到關鍵詞集合中,將集合中的所有關鍵詞送入搜索引擎,并與預案庫的所有預案名稱進行關鍵詞匹配,將命中的應急預案名稱返回。
通過對相關預案語料庫的分析可知,預案名稱主要由制定預案部門、制定預案部門所屬的行政區(qū)劃和預案對應的事件類別3部分構(gòu)成。根據(jù)實際情況,檢索者更多地會對“地區(qū)”和“應急事件”這兩個方面產(chǎn)生自己的語義表達傾向,本文主要是對這兩個方面進行本體建模[4],以期達到語義擴展的目的。
本體用樹模型進行數(shù)學建模。本體樹中所有的內(nèi)點表示類,葉子節(jié)點表示類或?qū)嵗?,父母?jié)點是子女節(jié)點的父類或是類,而子女節(jié)點是其父節(jié)點的子類或?qū)嵗?。在本體圖的表示中,一般用方框表示類,橢圓表示屬性,而實例則直接使用文字表達,本體描述語言通常采用OWL-FULL。
應用本體知識,并依據(jù)中華人民共和國行政區(qū)劃,對“地區(qū)”概念進行抽象,將地區(qū)本體劃分為4個核心類:地區(qū)、省、市和縣/區(qū),其中“省”、“市”和“縣/區(qū)”為“地區(qū)”類的子類。在Ontology中,子類可以繼承父類的所有屬性和約束,子類的實例是其所有父類的實例。地區(qū)本體的概念相互關系如圖2所示。
為了實現(xiàn)對查詢關鍵詞的語義擴展,首先要對本體中不同的實例進行關聯(lián)。為上述本體定義兩個屬性:“所屬省/直轄市/自治區(qū)的名稱”和“所屬市的名稱”。根據(jù)owl語言描述規(guī)則,屬性用于描述資源與資源之間的關系。owl共有兩種屬性:數(shù)據(jù)屬性和對象屬性,屬性可以聲明多個定義域(Domain)和值域(Range)以對屬性的作用范圍進行限制。分別將“所屬省/直轄市/自治區(qū)的名稱”和“所屬市的名稱”這兩個屬性的定義域設定為“市”和“省”,并新建“中國省/直轄市/自治區(qū)”和“隸屬于河南省的市”兩個枚舉類作為這兩個屬性的值域,“中國省/直轄市/自治區(qū)”和“隸屬于河南省的市”兩個枚舉類分別對應的實例取值集合為{北京市,河南省...}和{鄭州市,洛陽市...},且這兩個枚舉類的值只能是這兩個集合所規(guī)定的值集中的一個。同時定義“partOf”屬性為“所屬省/直轄市/自治區(qū)的名稱”和“所屬市的名稱”的父屬性,并聲明“partOf”屬性具有“owl:TransitiveProperty”和“owl:FunctionalProperty”性質(zhì)[5]。設p=“金水區(qū)”,q=“鄭州市”,r=“河南省”,根據(jù)“所屬省/直轄市/自治區(qū)的名稱”和“所屬市的名稱”這兩個屬性的“owl:FunctionalProperty”性質(zhì),可知“所屬省/直轄市/自治區(qū)的名稱”和“所屬市的名稱”的值具有唯一性,并有如下結(jié)論:
圖2 地區(qū)本體圖
p->q
(1)
q->r
(2)
再根據(jù)“所屬省/直轄市/自治區(qū)的名稱”和“所屬市的名稱”屬性的“owl:TransitiveProperty”性質(zhì),將(1)式和(2)式構(gòu)成假言三段論:
[(p→q)∧(q→r)]→(p→r)
(3)
假如檢索者輸入“金水區(qū)暴雨”,分詞器將上述語句拆分出關鍵詞“金水區(qū)”,將此關鍵詞比照本體模型進行語義關聯(lián),經(jīng)過地區(qū)本體的推理和查詢,得知“金水區(qū)”所屬的“市”是“鄭州市”,“鄭州市”所屬的省為“河南省”,將相關返回值添加到關鍵詞簇中,得到關鍵詞集合{金水區(qū),鄭州市,河南省}。
另外,例如“隸屬于河南省的市”這樣的類,等價于由無名類(具有“所屬省/直轄市/自治區(qū)的名稱”屬性且值是“河南省”)與“市”類的相交集所產(chǎn)生的類。顯然,根據(jù)owl的語法規(guī)則和推理公理,可知如“隸屬于河南省的市”類的任何實例,同樣亦是“市”類和“地區(qū)”類的實例。
應急預案主要是針對形形色色的應急事件而制定的關于應急管理、指揮、救援計劃等內(nèi)容的官方文本,所以應急事件對于區(qū)分不同的應急預案有著舉足輕重的作用[6]。作為應急事件的重要一類,突發(fā)事件的主要特點是突然爆發(fā)、難以預料、需要緊急處理、后果嚴重、具有較復雜的分類等,用戶在檢索時很難給出與預案名稱相符的關鍵詞描述。通過對應急事件構(gòu)建本體,使系統(tǒng)可以支持直接面向事件的關鍵詞搜索功能,增加相關預案被檢索命中的概率。
根據(jù)突發(fā)公共事件的發(fā)生過程、性質(zhì)和機理,我國將突發(fā)公共事件分為4類:自然災害類、社會安全事件類、事故災難類和公共衛(wèi)生事件類,每一類又可分為若干個小類。本體圖表示如圖3所示。
圖3所示本體主要是通過相關概念的類屬關系進行語義擴展的,根據(jù)實際情況還可對相關的類進行進一步的細分,以實現(xiàn)對關鍵詞的細粒度語義檢索。從圖3所示的本體概念圖上可以看出,該本體樹的一二層概念關系相對簡單,而第三層,亦即葉子節(jié)點上聚集了大量的語義信息。除了將檢索關鍵詞與葉子資源進行直接匹配,并對命中值的父類進行語義擴展外,亦可對葉子節(jié)點的兄弟節(jié)點進行語義擴展。特別是在源關鍵詞與檢索者的意圖有較大語義偏離的情況下,使用與其語義相似度較高的兄弟節(jié)點進行拓展,可以檢索出最具借鑒參考意義的相關預案,提高檢索準確率的均值,減少系統(tǒng)搜索命中的離群概率。
依據(jù)上述本體的構(gòu)建,對于輸入的“金水區(qū)暴雨”語句,分詞器將該語句拆分出的關鍵詞“暴雨”,與該本
圖3 應急事件本體圖
體模型“自然災害”下的實例完成匹配,并通過rdfs:subClassOf屬性,得到“自然災害”和“突發(fā)公共事件”等關鍵詞。自此,對于用戶輸入的搜索語句“金水區(qū)暴雨”,通過本體推理得出的語義擴展關鍵詞“突發(fā)公共事件”和“鄭州市”,在搜索引擎中會命中名為“鄭州市突發(fā)公共事件應急預案”的預案,而這正是此文所要達到的研究目的。
本文通過對基于關鍵詞的傳統(tǒng)檢索方式的缺陷進行分析,對應急預案系統(tǒng)檢索模塊進行總體設計,闡明查詢實現(xiàn)過程,分析應急預案名稱的構(gòu)成,并構(gòu)建相關領域本體,通過使用對關鍵詞進行語義擴展的方法,解決關鍵詞檢索方法中產(chǎn)生的誤檢、漏檢問題,提高應急預案檢索效率。結(jié)果表明,該方法不僅解決了傳統(tǒng)方法中存在的一些問題,而且易于實現(xiàn),面向事件的預案搜索也更符合人們的認知規(guī)律和使用習慣。
參考文獻:
[1] 劉紅閣,鄭麗萍,張少方.本體論的研究和應用現(xiàn)狀[J].信息技術快報,2005(1):1-12.
[2] 盛秋艷,印桂生.基于Jena的動態(tài)語義檢索方法[J].計算機工程,2009,35(16):62-64.
[3] 陳琮.基于Jena的本體檢索模型設計與實現(xiàn)[D].武漢:武漢大學,2005.
[4] Grigoris Antoniou,Frank Van Harmelen.語義網(wǎng)基礎教程[M].陳小平,譯.北京:機械工業(yè)出版社,2008.
[5] 蔣運承,史忠植,湯庸,等.面向語義Web 語義表示的模糊描述邏輯[J].軟件學報,2007,18(6):1257-1269.
[6] 許天兵.一個語義制導的圖像檢索框架[J].中原工學院學報,2004,15 (4):17-18.