謝豪
[摘 要] 將文本相似度計(jì)算引入“鄰避”沖突事件的應(yīng)急決策,通過對(duì)案例進(jìn)行文本分詞、詞義相似度替換得到關(guān)鍵詞頻次,然后將數(shù)據(jù)矢量化得到可用于計(jì)算的關(guān)鍵詞權(quán)重表,最后通過皮爾遜算法對(duì)兩個(gè)案例進(jìn)行文本相似度計(jì)算,進(jìn)而通過分析相似度結(jié)果提供相應(yīng)決策建議。
[關(guān)鍵詞] 文本分詞;垃圾焚燒;文本相似度
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 13. 070
[中圖分類號(hào)] TP391.3 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673 - 0194(2018)13- 0157- 03
0 引 言
近年來,隨著工業(yè)化、城市化進(jìn)程的加快,“鄰避”問題日益突出,給人民群眾的生活及健康造成了不利的影響[1]。據(jù)統(tǒng)計(jì),近年來中國(guó)境內(nèi)規(guī)模在百人以上的群體性事件中,約32%與像垃圾焚燒這樣的“鄰避”項(xiàng)目密切相關(guān),因此“鄰避”沖突事件發(fā)生后如何通過科學(xué)決策和快速處置最大限度地降低事件造成的損失和社會(huì)影響成為建設(shè)生態(tài)文明、構(gòu)建和諧社會(huì)過程中亟需解決的現(xiàn)實(shí)問題[2]。
我國(guó)學(xué)者就“鄰避”問題的研究主要通過分析、比較真實(shí)發(fā)生的案例,運(yùn)用經(jīng)濟(jì)學(xué)、政治學(xué)、社會(huì)學(xué)等學(xué)科的視角和研究方法,得出許多對(duì)現(xiàn)實(shí)有著指導(dǎo)意義的建議??傮w上,當(dāng)今國(guó)內(nèi)關(guān)于“鄰避”問題的文獻(xiàn)中,研究方法仍以定性方法占多數(shù),而采用定量分析的文獻(xiàn)仍然較少,這與西方學(xué)界大量運(yùn)用定量分析、以數(shù)據(jù)為支撐的研究仍有很大差距。為此,本文將基于文本分詞、詞義相似度替換以及皮爾遜相關(guān)系數(shù)法計(jì)算案例相似度的方法引入到“鄰避”沖突事件的應(yīng)急決策中,為提出更加精準(zhǔn)高效的決策提供支持。
1 文本分詞
1.1 基于Python結(jié)巴分詞的文本分詞
結(jié)巴分詞支持精準(zhǔn)模式、全模式以及搜索引擎模式三種分詞模式,精準(zhǔn)模式指將句子最精確地分開,適用于文本分析,全模式指把句子中所有的可以成詞的詞語都掃描出來, 優(yōu)點(diǎn)是速度非???,但是無法解決歧義,搜索引擎模式指在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適用于搜索引擎分詞。
結(jié)巴分詞自帶一個(gè)文本詞典,命名為“dict.txt”,其中包含了兩萬多條詞,包含了每個(gè)詞條出現(xiàn)的次數(shù)以及詞性(詞條次數(shù)是結(jié)巴分詞創(chuàng)造者基于人民日?qǐng)?bào)語料等資源訓(xùn)練得出來的)。結(jié)巴分詞屬于概念語言模型分詞,所謂概念語言模型分詞,是指在全切分所得的所有結(jié)果中求某個(gè)切分方案S,使得P(S)最大。
1.2 數(shù)據(jù)矢量化
數(shù)據(jù)矢量化是指將文本分詞得到的元數(shù)據(jù)按照關(guān)鍵詞表和對(duì)應(yīng)的權(quán)重進(jìn)行矢量化的過程。為了使文本分詞得到的結(jié)果能夠進(jìn)行量化計(jì)算,我們將分詞結(jié)果與關(guān)鍵詞表進(jìn)行對(duì)比去除無意義的詞,計(jì)算所有關(guān)鍵詞的權(quán)重,做出對(duì)應(yīng)的鍵值對(duì)矢量表,其中鍵為關(guān)鍵詞,值為權(quán)重。
1.3 關(guān)鍵詞詞義相似度替換
不同人在表達(dá)相同的意思時(shí)可能會(huì)使用不同的詞語,僅僅通過文本分詞無法使數(shù)據(jù)矢量化過程結(jié)果準(zhǔn)確,因此就需要用到關(guān)鍵詞詞義相似度替換,將與關(guān)鍵詞語義相似的詞語替換為關(guān)鍵詞本身。詞義相似度是指兩個(gè)給定詞語的語義相似度。我們使用百度AI開放平臺(tái)NLP(自然語言處理)接口,它依托全網(wǎng)海量?jī)?yōu)質(zhì)數(shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò)技術(shù),通過詞語向量化來計(jì)算兩個(gè)詞之間的相似度,基于自然語言中的分布假設(shè),即越是經(jīng)常共同出現(xiàn)的詞之間的相似度越高。
百度AI開發(fā)平臺(tái)NLP接口使用百度大規(guī)模網(wǎng)頁數(shù)據(jù)進(jìn)行模型訓(xùn)練,具有樣本數(shù)據(jù)豐富且時(shí)效性高,收錄詞匯覆蓋度廣,召回率高的特點(diǎn),同時(shí)其基于DNN深度學(xué)習(xí)大量樣本訓(xùn)練模型,完成詞語的向量化,可建立高精度的詞向量表示體系,另外還基于高精度的詞向量表示系統(tǒng)及海量樣本訓(xùn)練學(xué)習(xí),能夠準(zhǔn)確描述詞義相似度,滿足高精度要求的業(yè)務(wù)場(chǎng)景需求。
2 皮爾遜相似度計(jì)算模型
向量相似度的計(jì)算主要分為歐幾里得距離算法和皮爾遜相關(guān)系數(shù)算法(Pearson)。其中皮爾遜相關(guān)系數(shù)法是比歐幾里得距離更加復(fù)雜的計(jì)算向量相似度的一種方法。該相關(guān)系數(shù)是判斷兩組數(shù)據(jù)與某一直線擬合程序的一種試題,它在數(shù)據(jù)不是很規(guī)范的時(shí)候,會(huì)傾向于給出更好的結(jié)果。皮爾遜相關(guān)系數(shù)是一種度量?jī)蓚€(gè)變量間相關(guān)程度的方法。其結(jié)果是一個(gè)介于-1到1之間的值,其中1表示變量完全正相關(guān),-1表示完全負(fù)相關(guān),0表示無關(guān)。我們使用該系數(shù)用來說明兩個(gè)文本案例之間的強(qiáng)弱程度,數(shù)值越大,兩個(gè)文本案例的相關(guān)性就越高,當(dāng)系數(shù)為負(fù)時(shí),表明案例間無相關(guān)[3]。其計(jì)算公式如下:
3 案例應(yīng)用——垃圾焚燒事件
本文以垃圾焚燒“鄰避”事件為例通過上述方法進(jìn)行文本相似度計(jì)算。將從網(wǎng)絡(luò)任意搜索的一則案例同時(shí)與一個(gè)垃圾焚燒發(fā)電廠順利落地的典型案例和一個(gè)遭受“鄰避”沖突的典型案例對(duì)比計(jì)算出相似度(典型案例可通過聚類方法得出),處理流程如圖1所示。
首先使用Python的結(jié)巴分詞對(duì)其進(jìn)行文本分詞并與人工擬定的“垃圾焚燒”關(guān)鍵詞表對(duì)比計(jì)算頻次,然后調(diào)用百度AI開放平臺(tái)的NLP接口進(jìn)行相似詞語替換(表1)后重新計(jì)算關(guān)鍵詞頻次,最后將得到的關(guān)鍵詞矢量化,得到如下結(jié)果(表2,其中佛山南海案例是順利落地的成功案例,薊縣是遭受激烈“鄰避”沖突的失敗案例,湖北仙桃案例是待分析案例):
通過對(duì)比兩個(gè)相似度結(jié)果可知,湖北仙桃案例與薊縣案例更為相似,因此需要借鑒佛山南海案例成功經(jīng)驗(yàn),擯棄薊縣案例的失敗決策,讓應(yīng)急決策更加精準(zhǔn)有效。
4 結(jié) 語
本文利用基于分詞相關(guān)系數(shù)的文本相似度計(jì)算模型,可以快速計(jì)算兩個(gè)文本案例之間的文本相似度。后期若通過聚類將案例分類后,選出各個(gè)類別最典型案例,將待分析案例與其逐一比較,從而將新案例進(jìn)行歸類,而針對(duì)每種類別的案例其決策方式是不盡相同的,因此能夠?yàn)闆Q策者提供快速解決此類事件的輔助決策方法,節(jié)省寶貴的時(shí)間,提高決策的科學(xué)水平。
主要參考文獻(xiàn)
[1]賀晶.淺談環(huán)境應(yīng)急監(jiān)測(cè)質(zhì)量管理體系的建設(shè)[J].安全與環(huán)境工程,2012,19(1):51-53.
[2]張英菊.案例推理技術(shù)在環(huán)境群體性事件應(yīng)急決策中的應(yīng)用研究[J].安全與環(huán)境工程,2016,23(1):94-99.
[3]王玉山,林澤聰.基于皮爾遜相似度的食材推薦算法研究[J].信息與電腦:理論版,2017(4):100-102.