邱俊安,邱奇志,周三三,陳先橋,賀 宜
(1.武漢理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430063;2.武漢理工大學(xué) 智能交通系統(tǒng)研究中心, 湖北 武漢 430063)
近年來,全球范圍內(nèi)各類突發(fā)事件頻發(fā),給社會和諧穩(wěn)定和人們生活帶來了影響和危害。面對突發(fā)事件的危害,開展突發(fā)事件案例檢索研究對于實現(xiàn)科學(xué)救援、精準(zhǔn)決策具有重要的現(xiàn)實意義。案例檢索是尋找與目標(biāo)案例相似的歷史案例,通過指定策略或設(shè)計算法從案例庫中檢索出相似案例(集),從而幫助目標(biāo)案例的決策。目前,已有研究將案例檢索應(yīng)用于火災(zāi)、地震等突發(fā)事件中,證明了案例檢索在應(yīng)急管理中的實用性和有效性[1-2]。很多學(xué)者針對案例檢索方法進(jìn)行了研究,主要包括最近鄰法、歸納索引法和神經(jīng)網(wǎng)絡(luò)法等。其中,最近鄰法是最常用的案例檢索方法,該方法通過屬性的相似度來衡量案例之間的距離,距離越小的案例越容易被檢索出。如張佰尚等[3]將地震案例的固有屬性特征劃分為確定符號屬性、確定數(shù)屬性和模糊數(shù)屬性,并通過計算這3種類型的屬性相似度來完成案例檢索。韓菁[4-5]等在案例屬性相似度計算時考慮了精確數(shù)、區(qū)間數(shù)和語言值等屬性,并在檢索得到的相似案例上分別結(jié)合后悔理論和證據(jù)理論方法對檢索的結(jié)果進(jìn)行調(diào)整。L?W等[6]提出了一個基于多個檢索案例的推理框架,以解決缺失符號和數(shù)值屬性數(shù)據(jù)的案例推理。WANG等[7]針對清晰符號、清晰數(shù)、模糊數(shù)、模糊語言變量和模糊區(qū)間數(shù)5種類型的屬性,提出了一種混合相似性度量方法,用于解決計算機(jī)數(shù)控炮塔概念設(shè)計的案例推理。
綜上可知,案例屬性的相似度計算對于案例檢索方法的基礎(chǔ)研究和應(yīng)用研究都發(fā)揮著十分重要的作用,盡管已有方法可以較好地完成案例檢索,但案例檢索的屬性相似度計算方面存在局限性,大多數(shù)研究基于案例的數(shù)值屬性、模糊屬性、符號屬性進(jìn)行突發(fā)事件案例之間的相似度計算,忽略了突發(fā)事件案例的文本屬性,如事件原因、事件摘要等,這些屬性無論對于案例檢索還是案例推理都是不可或缺的。為了解決案例檢索文本相似度的計算,筆者首先研究了突發(fā)事件案例文本屬性的特性,著重開展了中文短文本相似度的研究,提出了基于WNCH(word-embedding based on Ngram, character, and HowNet)的詞語語義相似度計算方法,以解決案例檢索文本的相似度計算問題。在此基礎(chǔ)上,將文本屬性的相似度計算引入到案例檢索中,以期提高案例檢索的準(zhǔn)確性。
詞嵌入(word embedding)是自然語言處理領(lǐng)域中常用的方法,主要是將語料庫中的詞語表示成一個低維實數(shù)向量,從而用來解決文本的不可計算問題。早期的詞向量模型多利用<詞-詞>的映射關(guān)系,只討論了詞語在語料庫中的分布情況,因此該方法存在單一的共現(xiàn)信息源問題,從而使得詞嵌入難以達(dá)到較好的結(jié)果。
PENNINGTON等[8-10]通過研究發(fā)現(xiàn),在傳統(tǒng)詞嵌入方法中補(bǔ)充“詞”以外的信息,如詞共現(xiàn)次數(shù)等,能夠顯著提升詞嵌入的語義表達(dá)力。筆者的研究是為突發(fā)事件案例檢索服務(wù)的,而結(jié)構(gòu)化的案例屬性多內(nèi)容短小,屬于短文本,傳統(tǒng)詞嵌入方法只考慮了詞語所包含的信息,能獲取的有效語義信息有限。為了獲得更好的詞嵌入效果,筆者引入了兩種改進(jìn)策略:引入Ngram以擴(kuò)展上下文語義信息、引入“字”以增強(qiáng)中文特有的語義信息。
(1)引入Ngram以擴(kuò)展上下文語義信息。Ngram是一種統(tǒng)計語言模型的方法,其基本思想是將文本內(nèi)容中的詞按照大小為N的窗口進(jìn)行滑動操作,形成長度為N的文本序列,來考察詞語語義。Ngram的優(yōu)勢在于其包含了前N-1個詞所攜帶的信息,產(chǎn)生對未知信息更強(qiáng)的約束力,進(jìn)而達(dá)到在上下文中獲得詞語語義的目的。QIU等[11-12]研究表明,引入Ngram特征能夠有效提升詞語類比和詞語相似性任務(wù)的模型性能。
為了擴(kuò)展上下文語義信息,基于傳統(tǒng)詞嵌入單一的<詞-詞>共現(xiàn)信息,在輸入端引入Ngram共現(xiàn)信息,以<(詞+Ngram)-(詞+Ngram)>替代<詞-詞>共現(xiàn)模式,從而獲得中心詞wt的窗口上下文C(wt)。
t-win≤i≤t+win-n+1}
(1)
式中:wi:i+n為wiwi+1…wi+n-1組成的詞語序列;N為詞語組合中詞語的個數(shù);win為上下文的窗口大小。
win為2、N為2時的“詞+Ngram”模型的上下文示例如圖1所示。示例中,文字序列為“我/曾經(jīng)/踏遍/青山/綠水/只為/看/盡/人間/繁華”,以中心詞“青山”為例,未引入Ngram時,該中心詞的上下文為“曾經(jīng)”“踏遍”“綠水”“只為”;引入Ngram(N=2)后,上下文中增加了“曾經(jīng)踏遍”“踏遍青山”“青山綠水”“綠水只為”,可見引入Ngram豐富了中心詞的上下文信息。
圖1 詞+Ngram模型的上下文示例
(2)引入“字”以增強(qiáng)中文特有的語義信息。漢語起源于象形文字,是一種表義文字,從誕生之初就被賦予了豐富的語義信息。筆者從擴(kuò)充語義信息的角度出發(fā),將詞和字進(jìn)行融合。從而將單一的信息源<詞-詞>類型擴(kuò)展到<(詞+字)-詞>類型,以豐富詞語的語義信息。
定義漢字集合為H,詞語集合為V。h∈H表示一個字,h表示該字對應(yīng)的向量;v∈V表示一個詞語,v表示該詞對應(yīng)的向量。對于一個詞語v,融合字的語義信息之后的向量為hv,如式(2)所示。
(2)
式中:T為詞語v中字的個數(shù);hk為詞語v中第k個字的向量。
字詞融合示例如圖2所示,可以看出文字序列為“踏遍/青山/綠水”,在計算詞語“青山”的向量時融合了單個字“青”和“山”的向量信息。
圖2 字詞融合示例
根據(jù)以上分析,筆者提出WNC(word-embedding based on Ngram and character)向量模型,在傳統(tǒng)的詞嵌入基礎(chǔ)上,融合了Ngram和字的信息,即WNC既體現(xiàn)了詞語、字所包含的語言學(xué)語義信息,又體現(xiàn)了文本的上下文信息。WNC模型如圖3所示。
圖3 WNC模型
在WNC模型中,筆者采用word2vec中的Skip-gram[13]模型,在輸入端引入詞(word)、Ngram、字(character)信息。將單一的上下文輸入擴(kuò)展到多個豐富的上下文信息,從多粒度、多層次的上下文語義信息出發(fā),利用統(tǒng)計學(xué)的方法,最終得到表義能力更強(qiáng)的詞嵌入。
WNC是基于統(tǒng)計的方法挖掘上下文信息,很難從概念上區(qū)分詞語的含義,也無法詳細(xì)地展現(xiàn)概念的層次關(guān)系。因此,引入HowNet方法來解決上述問題。
HowNet表示概念間及概念所具有的屬性間關(guān)系的常識知識庫,通過最小意義單位(稱之為義原)對概念進(jìn)行描述。HowNet收錄的詞語可以分為實詞和虛詞,劉群等[14]根據(jù)HowNet將實詞的概念描述為包含第一基本義原、其他基本義原、關(guān)系義原、關(guān)系符號描述的特征結(jié)構(gòu),并通過這4個特征計算實詞概念之間的相似度。實詞概念S1,S2的相似度為Sim(S1,S2),如式(3)所示。
(3)
式中:Simi(S1,S2)為實詞S1,S2的第i個特征的相似度;β1、β2、β3、β4分別為第一基本義原、其他基本義原、關(guān)系義原和關(guān)系符號描述的調(diào)節(jié)系數(shù)。
張滬寅等[15]針對實詞概念中的具體詞展開研究,以第一基本義原替代義項表達(dá)式中的具體詞。筆者在利用HowNet計算實詞概念相似度時,引入分布式理論“相似的詞具有相似的上下文”,采用“詞+Ngram+字”的方式計算實詞概念中具體詞的語義。為了驗證所采用的實詞概念相似度計算方法的有效性和合理性,以計算“美金”與“日元”的概念相似度為例,開展了文獻(xiàn)[14]、文獻(xiàn)[15]和筆者方法的對比實驗,對比結(jié)果如表1所示。
表1 基于HowNet的實詞概念相似度實驗對比
“美金”和“日元”這兩個概念的義項表達(dá)式分別為:美金:DEF={money|貨幣,(US|美國)};日元:DEF={money|貨幣,(Japan|日本)}??梢姟懊澜稹焙汀叭赵钡牡谝换玖x原都是“money|貨幣”,3種方法計算第一基本義原的相似度均為1,但是計算具體詞的相似度方法有所不同。
(1)根據(jù)文獻(xiàn)[14]中的方法,具體詞“US|美國”和“Japan|日本”不同,具體詞的相似度為0,結(jié)合式(3)計算得到最終的相似度為0.500。
(2)根據(jù)文獻(xiàn)[15]中的方法,使用第一基本義原來替代具體詞,具體詞“US|美國”和“Japan|日本”的第一基本義原均為“place|地方”,因此具體詞“US|美國”和“Japan|日本”的相似度為1,結(jié)合式(3)得到最終的相似度為1.000。
(3)筆者方法中,首先采用大規(guī)模語料庫中文維基百科得到詞語的分布式表示,計算得到具體詞“US|美國”和“Japan|日本”的相似度為0.530,再由式(3)計算得到“美金”和“日元”的最終相似度為0.783。
從相似度結(jié)果上來看,文獻(xiàn)[14]在計算具體詞的相似度時,沒有遞歸計算具體詞的義項表達(dá)式之間的相似度,從而忽略了義項表達(dá)式中義原之間的相似度關(guān)系。文獻(xiàn)[15]在文獻(xiàn)[14]的基礎(chǔ)上進(jìn)行了改進(jìn),使用第一基本義原衡量具體詞之間的相似度,但是實驗結(jié)果中“美金”和“日元”的相似度為1存在一定的不合理性。筆者方法中,引入了分布式理論的計算結(jié)果,從宏觀上更符合人的主觀認(rèn)識,既能表達(dá)其基本信息,又能從上下文語義中體現(xiàn)不同,在最終結(jié)果中顯示出詞語之間的區(qū)別度。
筆者進(jìn)一步融合WNC和HowNet方法,提出基于WNCH的詞語語義相似度計算方法。WNCH方法以大規(guī)模語料庫訓(xùn)練出包含豐富上下文信息的詞嵌入,同時能準(zhǔn)確表達(dá)概念信息的HowNet,從而獲取詞語的準(zhǔn)確含義。筆者使用調(diào)節(jié)系數(shù)對WNC和HowNet方法進(jìn)行融合,融合之后的相似度為simtotal,如式(4)所示。
simtotal=αsim1+(1-α)sim2
(4)
式中:α為調(diào)節(jié)系數(shù),其取值范圍為0~1;sim1為基于WNC計算的詞語相似度;sim2為基于HowNet計算的詞語相似度。
筆者令α取值分別為0.2, 0.4, 0.6, 0.8, 1.0,并以百度百科語料庫進(jìn)行測試,以尋找最優(yōu)的調(diào)節(jié)參數(shù),實驗表明α=0.6時融合效果最好。
為了說明WNCH方法的有效性,將WNCH與傳統(tǒng)詞嵌入(僅使用詞共現(xiàn)信息)方法進(jìn)行對比,實驗采用2016年NLPCC-ICCPOL的詞語相似度任務(wù)的評測數(shù)據(jù)和評測指標(biāo)[16],并使用影響力大、內(nèi)容涵蓋廣的中文維基百科數(shù)據(jù)作為詞嵌入的訓(xùn)練數(shù)據(jù)集,計算得到WNCH方法和傳統(tǒng)詞嵌入方法的詞語相似度結(jié)果分別為0.580、0.405??梢奧NCH方法計算出的詞語相似度相對于傳統(tǒng)詞嵌入方法具有較明顯的提升,說明WNCH方法能夠更加準(zhǔn)確地衡量詞語之間的相似性。
突發(fā)事件案例屬性是表征案例信息的字段,通常包括事件名稱、事件時間、事件地點、事件摘要等信息。針對突發(fā)事件屬性,黃超等[17]參照歐洲的TSO(tactical situation objection)編碼,結(jié)合我國突發(fā)事件的特點,對突發(fā)事件案例屬性進(jìn)行了歸納。突發(fā)事件案例屬性多種多樣,在案例檢索中不同類型的屬性相似度計算方法也不一樣。筆者以文獻(xiàn)[17]的研究為基礎(chǔ),對已有突發(fā)事件案例庫中的描述屬性進(jìn)行整理,根據(jù)屬性類型將突發(fā)事件案例屬性歸納為4種,如表2所示。
表2 突發(fā)事件屬性類型
筆者采用最近鄰法的基本思想進(jìn)行突發(fā)事件的案例檢索,針對目標(biāo)案例先進(jìn)行信息抽取完成結(jié)構(gòu)化處理,再以結(jié)構(gòu)化的目標(biāo)案例作為輸入,通過計算目標(biāo)案例與案例庫中源案例的相似性,最終檢索得到與目標(biāo)案例最相似的案例(集),案例檢索流程如圖4所示。
圖4 案例檢索流程
其中,在進(jìn)行文本屬性相似度計算時,由于結(jié)構(gòu)化的突發(fā)事件案例文本屬性屬于短文本,先利用WNCH方法計算文本中關(guān)鍵詞的相似度,再采用文獻(xiàn)[18]中的方法實現(xiàn)從詞語相似度到文本相似度的計算,進(jìn)而完成文本屬性的相似度計算。
突發(fā)事件語料來源為:中華人民共和國中央人民政府網(wǎng)站應(yīng)急管理頁面、中國應(yīng)急服務(wù)網(wǎng)、中國安全生產(chǎn)網(wǎng)、中國安全管理網(wǎng)等,均為影響力大、涉及范圍廣、及時更新、權(quán)威性高的突發(fā)事件新聞網(wǎng)站。采用文獻(xiàn)[19]中的方法對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,得到滿足案例檢索要求的結(jié)構(gòu)化案例庫。
為了對比有無文本屬性對案例檢索結(jié)果的影響,筆者設(shè)計了對比實驗。
實驗I:不包含文本屬性的案例檢索。共考慮6個屬性,分別為事件時間、事件地點、經(jīng)濟(jì)損失、人員傷亡、事件等級、事件類型,采用模糊層次分析法得到對應(yīng)的權(quán)重為{0.126,0.094,0.235,0.173,0.184,0.188}。
實驗II:包含文本屬性的案例檢索。共考慮9個屬性信息,分別為事件名稱、事件時間、事件地點、經(jīng)濟(jì)損失、人員傷亡、事件摘要、事件類型、事件等級、事件原因,采用模糊層次分析法得到對應(yīng)的權(quán)重為{0.120,0.080,0.060,0.150,0.110,0.133,0.120,0.117,0.110}。其中,事件名稱、事件摘要和事件原因這3個文本屬性采用筆者提出的WNCH方法計算屬性相似度。
選取“江蘇連云港12·9重大爆炸事故”作為目標(biāo)案例,目標(biāo)案例的屬性信息如表3所示,案例檢索實驗結(jié)果對比如表4所示,文本屬性相似度計算結(jié)果如表5所示。
表3 目標(biāo)案例的屬性信息
表4 案例檢索實驗結(jié)果對比
表5 文本屬性相似度計算結(jié)果
綜合表4和表5的結(jié)果可知:
(1)兩組實驗相似度排名前5的案例中,不但存在3個相同案例(案例編號分別為485,188和501),而且所有檢索出的案例均為爆炸、火災(zāi)類事故災(zāi)害案例,可見基于最近鄰的屬性相似度計算能夠有效檢索到相似的案例。
(2)兩組實驗中3個相同案例的相似度排序卻不盡相同,表5則進(jìn)一步給出了3個案例在事件名稱、事件原因、事件摘要的相似度結(jié)果,不難發(fā)現(xiàn):①案例485與目標(biāo)案例最為接近,均為工業(yè)爆炸,且均涉及“苯”這個化學(xué)物質(zhì)。②案例188的關(guān)鍵信息有“瓦斯”“煤礦”,與目標(biāo)案例發(fā)生場景和原因均有明顯區(qū)別,在實驗I中案例188的相似度排名第一,而在實驗II中案例188的相似度排名第三;同時,案例501屬于非工業(yè)環(huán)境下的“火災(zāi)”事故,與目標(biāo)案例的發(fā)生場景和原因也有明顯區(qū)別,在實驗I中案例501的相似度排名第二,而在實驗II中案例501的相似度排名第五,說明無文本屬性相似度計算的情況,無法有效識別兩個案例中的關(guān)鍵信息區(qū)別??梢娢谋鞠嗨贫鹊囊肽軌蛱崛「嗟挠行畔?,如事件原因,這也正是案例檢索的重要依據(jù)。
綜上可知,增加文本屬性的案例檢索能夠精確、有效地獲取案例中文本包含的關(guān)鍵信息,從而有效的案例檢索、應(yīng)急管理輔助決策提供堅實的語義基礎(chǔ)。
筆者針對突發(fā)事件案例的特點,在數(shù)值、符號、模糊屬性相似度計算的基礎(chǔ)上增加了文本屬性的相似度計算,主要解決了兩個問題:①在傳統(tǒng)詞嵌入模型中增加了Ngram和漢字的語義信息,同時融合了HowNet知識庫,有效改進(jìn)了突發(fā)事件案例屬性短文本的詞語語義相似度計算。②將文本屬性的相似度計算引入到案例檢索中,以最近鄰法為基礎(chǔ),給出突發(fā)事件案例檢索方案,豐富了案例檢索中的屬性信息,提高了案例檢索的準(zhǔn)確度。
筆者將自然語言處理領(lǐng)域內(nèi)的技術(shù)和方法應(yīng)用到應(yīng)急管理中,為突發(fā)事件案例檢索提供了更精準(zhǔn)的解決方法,所提出的方法對文本處理、文本分析也具有一定的理論與實踐意義。但突發(fā)事件案例難免存在屬性缺失,筆者沒有考慮屬性缺失對突發(fā)事件案例檢索的影響。下一步工作的研究重點是利用突發(fā)事件案例中的文本屬性來弱化案例屬性缺失對案例檢索結(jié)果的影響。
武漢理工大學(xué)學(xué)報(信息與管理工程版)2020年3期