馬宇舸, 程 華, 寇曉淮, 林家駿
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
軟信息的概率特征關(guān)聯(lián)算法
馬宇舸, 程 華, 寇曉淮, 林家駿
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
基于軟信息的新聞事件態(tài)勢(shì)估計(jì)中,事件當(dāng)前態(tài)勢(shì)的準(zhǔn)確估計(jì)需融合事件的長(zhǎng)期態(tài)勢(shì)。以長(zhǎng)期詞典作為事件長(zhǎng)期態(tài)勢(shì)的特征表達(dá),提出了軟信息的長(zhǎng)期特征與當(dāng)前特征關(guān)聯(lián)融合的概率特征關(guān)聯(lián)算法。由事件的長(zhǎng)期信息抽取得到長(zhǎng)期詞典,基于特征詞相似度將長(zhǎng)期特征與當(dāng)前特征進(jìn)行概率關(guān)聯(lián),得到事件的全特征表達(dá),并提出了特征的長(zhǎng)期關(guān)聯(lián)度指標(biāo)與類別關(guān)聯(lián)度指標(biāo)評(píng)估概率特征關(guān)聯(lián)算法的有效性。實(shí)驗(yàn)結(jié)果表明,概率特征關(guān)聯(lián)算法能夠有效地融合長(zhǎng)期態(tài)勢(shì),提升事件當(dāng)前態(tài)勢(shì)的估計(jì)精度。
軟信息; 長(zhǎng)期詞典; 概率特征關(guān)聯(lián); 態(tài)勢(shì)估計(jì)
在線新聞信息通過(guò)公共事件的直觀報(bào)道,直接反映事件的當(dāng)前態(tài)勢(shì),例如“911”事件中,美國(guó)新聞媒體的報(bào)道反映了白宮對(duì)該事件的判斷,對(duì)在線新聞報(bào)道的分析可以為決策提供可靠的事件態(tài)勢(shì)估計(jì)。這類在線新聞信息來(lái)自人類觀察,相對(duì)于傳統(tǒng)的雷達(dá)測(cè)量信息,難以直接測(cè)量,計(jì)算機(jī)不能直接理解,稱為軟信息(Soft Information)[1-2]。對(duì)這類非結(jié)構(gòu)化或半結(jié)構(gòu)化的信息處理與融合是信息融合領(lǐng)域新的研究熱點(diǎn)和挑戰(zhàn)。相關(guān)研究有Pang[3]的文檔級(jí)情感極性分析、Agarwal[4]的微博級(jí)情感極性分析等,通過(guò)不同細(xì)粒度的情感分析進(jìn)行事件的態(tài)勢(shì)估計(jì)。
傳統(tǒng)的目標(biāo)跟蹤算法、PDA等數(shù)據(jù)關(guān)聯(lián)將傳感器獲得的觀測(cè)數(shù)據(jù)與已知目標(biāo)航跡相關(guān)聯(lián)并最后確定正確的觀測(cè)配對(duì)。軟信息融合中也需要通過(guò)數(shù)據(jù)關(guān)聯(lián)實(shí)現(xiàn)多源融合估計(jì)。Llinas等[5]提出了基于圖形法的數(shù)據(jù)關(guān)聯(lián)算法;Hannigan等[6]以屬性圖的方式對(duì)軟信息進(jìn)行數(shù)據(jù)關(guān)聯(lián);Little等[7]提出了基于本體模型的增強(qiáng)型圖匹配算法;Gross等[8]提出了評(píng)價(jià)軟信息關(guān)聯(lián)算法的指標(biāo)。上述關(guān)聯(lián)算法通常只對(duì)軟信息中的事件要素,如人物、時(shí)間、目的地等設(shè)置為圖節(jié)點(diǎn)的要素進(jìn)行關(guān)聯(lián),未考慮多個(gè)軟信息文本中語(yǔ)義信息的關(guān)聯(lián)。
本文基于軟信息特征詞項(xiàng)研究多文本語(yǔ)義層面的數(shù)據(jù)關(guān)聯(lián),通過(guò)軟信息的特征詞項(xiàng)相似性完成事件長(zhǎng)期特征(長(zhǎng)期詞典中抽取)與當(dāng)前報(bào)道特征的概率關(guān)聯(lián)。實(shí)驗(yàn)表明,概率特征關(guān)聯(lián)算法能有效地關(guān)聯(lián)長(zhǎng)期特征與當(dāng)前特征,使融合后的特征能更準(zhǔn)確地表達(dá)軟信息的語(yǔ)義,從而提升軟傳感器模型[9-10]對(duì)事件態(tài)勢(shì)估計(jì)的融合效果。
1.1 軟信息的結(jié)構(gòu)化表示
軟信息(文本)的結(jié)構(gòu)化采用向量空間模型VSM[11],向量空間模型是目前最基本、最有效的文本表示模型,在特征向量空間將文本表示為特征詞項(xiàng)的加權(quán)向量,即通過(guò)文本中n個(gè)特征詞項(xiàng)CFt={cwt,1,cwt,2,cwt,3,…,cwt,n}將文本表示為特征詞項(xiàng)的權(quán)重向量CVt={cvt,1,cvt,2,cvt,3,…,cvt,n},其中權(quán)重計(jì)算采用TF-IDF方法[11]。TF-IDF算法采用統(tǒng)計(jì)方法計(jì)算和表達(dá)某個(gè)詞或短語(yǔ)在文本中的重要程度,TF-IDF由TF(TermFrequency,詞頻)與IDF(InverseDocumentFrequency,逆向文檔頻率)兩部分組成,若某個(gè)詞或短語(yǔ)在一篇文本中出現(xiàn)頻率高,即TF值大,且在其他文本中很少出現(xiàn),即IDF小,則認(rèn)為此詞或者短語(yǔ)在文本中是較為重要特征詞項(xiàng),TF-IDF權(quán)重的計(jì)算方式為
cvt,i=tfilg(M/ni+0.01)
(1)
其中:tfi為特征詞項(xiàng)cwt,i在軟信息文本中出現(xiàn)次數(shù);M表示數(shù)據(jù)集中軟信息文本的總數(shù);ni表示含有該特征詞項(xiàng)的軟信息文本數(shù)。
由此,通過(guò)n個(gè)特征詞項(xiàng),將一個(gè)包含M篇軟信息的數(shù)據(jù)集表示成了一個(gè)n×M特征矩陣。
1.2 軟信息的長(zhǎng)期詞典抽取
Endsley態(tài)勢(shì)估計(jì)功能模型[12]認(rèn)為態(tài)勢(shì)估計(jì)為高層次的數(shù)據(jù)融合,先驗(yàn)知識(shí)為融合中的原有態(tài)勢(shì)估計(jì)的修正提供了可靠的依據(jù)。對(duì)于某個(gè)新聞事件,定義從發(fā)生時(shí)刻到當(dāng)前時(shí)間累積的所有新聞形式為該事件的長(zhǎng)期信息,是其態(tài)勢(shì)評(píng)估的來(lái)源,本文采用其中的文本類新聞報(bào)道作為軟信息關(guān)聯(lián)融合的長(zhǎng)期信息?;谲浶畔⑽谋镜慕Y(jié)構(gòu)化表示,本文提出長(zhǎng)期詞典法獲取事件長(zhǎng)期信息中的長(zhǎng)期態(tài)勢(shì),即在VSM空間下抽取長(zhǎng)期信息的文本特征權(quán)重向量(特征詞項(xiàng)權(quán)重向量),并取主要特征詞項(xiàng)權(quán)重向量構(gòu)造軟信息的長(zhǎng)期詞典,作為用于關(guān)聯(lián)融合的事件長(zhǎng)期態(tài)勢(shì)向量。
特征詞項(xiàng)在長(zhǎng)期詞典中的權(quán)重表達(dá)了該特征詞項(xiàng)在事件長(zhǎng)期態(tài)勢(shì)中的重要性及相關(guān)性。設(shè)t時(shí)刻長(zhǎng)期詞典LDt={lwt,1,lwt,2,lwt,3,…,lwt,q},其對(duì)應(yīng)的TF-IDF權(quán)重向量表示為L(zhǎng)Vt={lvt,1,lvt,2,lvt,3,…,lvt,q},其中特征詞項(xiàng)lwt,i對(duì)應(yīng)的權(quán)重為lvt,i。
根據(jù)統(tǒng)計(jì)學(xué)習(xí)方法的理論,文本內(nèi)容與其中所包含的詞、短語(yǔ)等特征詞項(xiàng)有著必然的聯(lián)系,同一主題的文本之間總存在多個(gè)共同的特征詞項(xiàng),而不同主題的文本所包含的特征詞項(xiàng)之間差異較大。將長(zhǎng)期信息當(dāng)作特征詞項(xiàng)集合,特征詞項(xiàng)的權(quán)值反映了其反映軟信息主題的程度,因此長(zhǎng)期詞典的特征詞項(xiàng)向量對(duì)事件長(zhǎng)期發(fā)展態(tài)勢(shì)進(jìn)行了有效表示。
事件當(dāng)前特征定義為從即時(shí)獲得的事件文本中采取軟信息結(jié)構(gòu)化得到的特征詞項(xiàng),即t時(shí)刻當(dāng)前特征集合CFt={cwt,1,cwt,2,cwt,3,…,cwt,n},對(duì)應(yīng)的TF-IDF權(quán)重向量CVt={cvt,1,cvt,2,cvt,3,…,cvt,n};長(zhǎng)期詞典LDt={lwt,1,lwt,2,lwt,3,…,lwt,q},對(duì)應(yīng)的TF-IDF權(quán)重向量LVt={lvt,1,lvt,2,lvt,3,…,lvt,q}。
基于事件長(zhǎng)期特征和當(dāng)前特征的表達(dá)形式的一致性,本文提出線性加權(quán)特征關(guān)聯(lián)算法,即采用線性加權(quán)方法實(shí)現(xiàn)當(dāng)前特征重新組合與調(diào)整,當(dāng)前特征權(quán)重按比例融合長(zhǎng)期特征權(quán)重,反映當(dāng)前軟信息受到事件長(zhǎng)期態(tài)勢(shì)的影響。
定義當(dāng)前特征集合CFt與長(zhǎng)期詞典LDt的交集為長(zhǎng)期特征集合conFt,即
conFt=CFt∩LDt
(2)
權(quán)重向量conCVt由CFt中對(duì)應(yīng)長(zhǎng)期特征詞項(xiàng)的權(quán)重構(gòu)成,conLVt由LDt中對(duì)應(yīng)長(zhǎng)期特征詞項(xiàng)的權(quán)重構(gòu)成。
當(dāng)前特征集合CFt中剩下的特征詞項(xiàng)構(gòu)成新特征集合newFt,即
newFt=CFt-CFt∩LDt
(3)
newFt所對(duì)應(yīng)的權(quán)重向量newVt由CVt中對(duì)應(yīng)新特征詞項(xiàng)的權(quán)重構(gòu)成。
長(zhǎng)期特征集合conFt中特征詞項(xiàng)的個(gè)數(shù)反映了當(dāng)前軟信息文本與長(zhǎng)期態(tài)勢(shì)的符合程度,個(gè)數(shù)越多則當(dāng)前態(tài)勢(shì)的發(fā)展越符合長(zhǎng)期態(tài)勢(shì),長(zhǎng)期特征權(quán)重以較大比例融合到當(dāng)前特征權(quán)重中;反之,長(zhǎng)期特征權(quán)重以較小比例融合到當(dāng)前特征權(quán)重中。因此,基于長(zhǎng)期特征集合conFt的權(quán)重向量conVt的調(diào)整方式為
(4)
最后將newVt與conVt重新拼接得到CFt對(duì)應(yīng)的新的權(quán)重向量Vt,將此權(quán)重向量用于軟傳感器模型[9-10],得到當(dāng)前事件的態(tài)勢(shì)融合估計(jì)。
3.1 概 述
線性加權(quán)特征關(guān)聯(lián)算法只將長(zhǎng)期詞典與當(dāng)前特征中的相同特征詞項(xiàng)進(jìn)行關(guān)聯(lián),忽略了長(zhǎng)期詞典中當(dāng)前特征同義詞的影響。本文提出以特征詞項(xiàng)的相似度為基礎(chǔ),采取概率特征關(guān)聯(lián)實(shí)現(xiàn)長(zhǎng)期特征與當(dāng)前特征的融合。
3.2 關(guān)聯(lián)門的設(shè)置
關(guān)聯(lián)門利用詞的相似性算法過(guò)濾掉門限外與當(dāng)前特征無(wú)關(guān)的特征詞項(xiàng),實(shí)現(xiàn)長(zhǎng)期詞典的門限過(guò)濾,限制長(zhǎng)期詞典中無(wú)關(guān)長(zhǎng)期特征對(duì)當(dāng)前特征的影響。
若t時(shí)刻當(dāng)前特征集合CFt與長(zhǎng)期詞典LDt重合特征較多,事件的當(dāng)前態(tài)勢(shì)特征在較大程度上符合長(zhǎng)期態(tài)勢(shì),長(zhǎng)期特征對(duì)當(dāng)前特征的實(shí)際狀態(tài)產(chǎn)生影響大,應(yīng)當(dāng)設(shè)置較大的關(guān)聯(lián)門;反之,當(dāng)前特征集合CFt與長(zhǎng)期詞典LDt重合特征較少,出現(xiàn)較多新特征,當(dāng)前軟信息文本反映了新事件動(dòng)態(tài),長(zhǎng)期態(tài)勢(shì)不能有效地反映當(dāng)前事件態(tài)勢(shì)的發(fā)展,此時(shí)需設(shè)置較小的關(guān)聯(lián)門,減小長(zhǎng)期詞典對(duì)當(dāng)前特征權(quán)值的影響。當(dāng)t時(shí)刻當(dāng)前特征集合為CFt={cwt,1,cwt,2,cwt,3,…,cwt,n}時(shí),針對(duì)當(dāng)前特征詞項(xiàng)cwt,i,設(shè)置以cwt,i為中心的圓型關(guān)聯(lián)門,關(guān)聯(lián)門半徑Rt為
(5)
(6)
其對(duì)應(yīng)的權(quán)重向量LCVt,i由CFt中對(duì)應(yīng)長(zhǎng)期特征詞項(xiàng)的權(quán)重構(gòu)成。
3.3 基于word2vec的詞向量訓(xùn)練
采用word2vec訓(xùn)練得到的詞向量計(jì)算特征詞項(xiàng)之間的相似性。word2vec的語(yǔ)言模型采用沒(méi)有大量的矩陣乘法運(yùn)算的Skip-gram模型[13],Skip-gram模型利用當(dāng)前詞的詞向量預(yù)測(cè)指定窗口上下文的詞向量。對(duì)于訓(xùn)練語(yǔ)料V,Skip-gram模型的目標(biāo)函數(shù)為[13]
(7)
(8)
其中:參數(shù)c決定上下文窗口大小;Context(w)由w前后各c個(gè)詞構(gòu)成。
word2vec網(wǎng)絡(luò)的輸出層采用基于二叉哈夫曼樹(shù)表示的層次softmax算法,將時(shí)間復(fù)雜度降到O(log2(|V|))。層次softmax算法定義的p(u|w)如下[13]:
(9)
其中:
(10)
訓(xùn)練過(guò)程采用隨機(jī)梯度下降方法,得到詞的詞向量表示形式vec(cwx,y)。
3.4 概率特征關(guān)聯(lián)
(11)
關(guān)聯(lián)門內(nèi)的每個(gè)長(zhǎng)期特征都能對(duì)當(dāng)前特征產(chǎn)生影響,但每個(gè)長(zhǎng)期特征產(chǎn)生影響的程度不同,因此,基于關(guān)聯(lián)門內(nèi)的長(zhǎng)期特征,通過(guò)關(guān)聯(lián)概率計(jì)算得到當(dāng)前特征的最優(yōu)特征權(quán)值為
(12)
最后,得到CFt對(duì)應(yīng)的最優(yōu)當(dāng)前特征權(quán)值向量Vt,將此權(quán)重向量用于軟傳感器模型,得到當(dāng)前事件的態(tài)勢(shì)融合估計(jì)。
概率關(guān)聯(lián)算法流程如下:
輸入: 當(dāng)前特征CFt,長(zhǎng)期詞典LDt
計(jì)算關(guān)聯(lián)門半徑Rt
Foreachfeature1inCFt
Foreachfeature2inLDt
similar(feature1,feature2)
ifsimilar(feature1,feature2)≥1-Rt
更新落入關(guān)聯(lián)門內(nèi)的特征LCFt,i.add(feature2)
計(jì)算關(guān)聯(lián)門內(nèi)所有特征的關(guān)聯(lián)概率
計(jì)算當(dāng)前特征的最優(yōu)特征權(quán)值
輸出:最優(yōu)當(dāng)前特征權(quán)值向量
本文提出了以下兩個(gè)關(guān)聯(lián)指標(biāo),并對(duì)線性加權(quán)特征關(guān)聯(lián)算法與概率特征關(guān)聯(lián)算法的有效性進(jìn)行評(píng)估。
(1) 長(zhǎng)期關(guān)聯(lián)度。將當(dāng)前特征集合CFt中被調(diào)節(jié)的特征詞項(xiàng)個(gè)數(shù)與CFt所有特征詞項(xiàng)個(gè)數(shù)之比稱為長(zhǎng)期關(guān)聯(lián)度DegreeL,C,t,以此來(lái)衡量關(guān)聯(lián)算法中長(zhǎng)期態(tài)勢(shì)與當(dāng)前特征的關(guān)聯(lián)程度,計(jì)算公式為
(13)
式中,LCFt,i為特征詞項(xiàng)cwt,i關(guān)聯(lián)門內(nèi)的特征集合。
(2) 類別關(guān)聯(lián)度。定義類別關(guān)聯(lián)度來(lái)衡量關(guān)聯(lián)算法對(duì)特征詞項(xiàng)類別的關(guān)聯(lián)效果。將具有情感極性的特征詞項(xiàng)分類為緊張類與緩和類,當(dāng)前特征集合與長(zhǎng)期詞典中分別用CFt,N、CFt,P與LDt,N、LDt,P表示;cwt,i關(guān)聯(lián)門內(nèi)的特征集合為L(zhǎng)CFt,i也可分為兩類LCFt,i,N、LCFt,i,P。將LDt,N中被當(dāng)前特征集合CFt關(guān)聯(lián)到的特征詞項(xiàng)個(gè)數(shù)與LDt,N的特征詞項(xiàng)總數(shù)之比稱為趨勢(shì)緊張類關(guān)聯(lián)度,即
(14)
同理可以定義趨勢(shì)緩和類關(guān)聯(lián)度:
(15)
5.1 概 述
本文將描述事件發(fā)展的開(kāi)源新聞文本信息作為軟信息,為了驗(yàn)證概率特征關(guān)聯(lián)算法的有效性,以釣魚(yú)島事件為例,根據(jù)報(bào)道時(shí)間先后從新浪網(wǎng)、鳳凰網(wǎng)等新聞網(wǎng)站抓取了從2012年7月到2012年8月這62天664條描述釣魚(yú)島事件的新聞數(shù)據(jù),構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集。
5.2 關(guān)聯(lián)算法評(píng)估
采用長(zhǎng)期關(guān)聯(lián)度指標(biāo)與類別關(guān)聯(lián)度關(guān)聯(lián)指標(biāo)對(duì)線性加權(quán)特征關(guān)聯(lián)與概率特征關(guān)聯(lián)算法的有效性進(jìn)行評(píng)估。8月1日至16日長(zhǎng)期關(guān)聯(lián)度對(duì)比結(jié)果如圖1所示,其中8月6日到8月15日發(fā)生了“香港部分人員組織強(qiáng)登釣魚(yú)島”、“日本購(gòu)買釣魚(yú)島”等事件。由圖1可知:
(1) 在8月6日釣魚(yú)島事件有新動(dòng)態(tài)時(shí),兩個(gè)算法的長(zhǎng)期關(guān)聯(lián)度均下降,當(dāng)前特征引入新特征詞項(xiàng),PFA算法關(guān)聯(lián)窗變小,用于特征關(guān)聯(lián)的當(dāng)前特征詞項(xiàng)也減少,但LFA算法受長(zhǎng)期態(tài)勢(shì)影響的詞更少。
(2) 對(duì)于特定的特征詞項(xiàng),LFA算法只考慮了長(zhǎng)期詞典中的同一特征詞項(xiàng)對(duì)當(dāng)前特征項(xiàng)的影響,忽略了長(zhǎng)期詞典中該特征詞項(xiàng)的同義詞影響,而PFA算法通過(guò)關(guān)聯(lián)門內(nèi)界定了所有可能的長(zhǎng)期特征,由圖1可知該類同義詞對(duì)態(tài)勢(shì)估計(jì)產(chǎn)生了較大的影響。
8月1日至16日趨勢(shì)緊張類關(guān)聯(lián)度對(duì)比、趨勢(shì)緩和類關(guān)聯(lián)度對(duì)比如圖2、圖3所示。由圖2、圖3可知:在事件態(tài)勢(shì)緊張及緩和的分類下,兩個(gè)算法都能夠關(guān)聯(lián)到長(zhǎng)期詞典中對(duì)應(yīng)類特征集合。PFA算法在8月6日事件態(tài)勢(shì)緊張時(shí)趨勢(shì)緊張類的關(guān)聯(lián)度上升,趨勢(shì)緩和類的關(guān)聯(lián)度下降,原因是當(dāng)前特征中趨勢(shì)緊張類的特征詞項(xiàng)比例增高而趨勢(shì)緩和類的特征詞項(xiàng)相對(duì)減少。而LFA算法受長(zhǎng)期態(tài)勢(shì)影響的特征詞項(xiàng)太少,算法也關(guān)聯(lián)部分特征詞,但沒(méi)有PFA算法關(guān)聯(lián)的效果明顯。
圖1 線性加權(quán)特征關(guān)聯(lián)算法與概率特征關(guān)聯(lián)算法長(zhǎng)期關(guān)聯(lián)度對(duì)比
圖2 線性加權(quán)特征關(guān)聯(lián)算法與概率特征關(guān)聯(lián)算法趨勢(shì)緊張類關(guān)聯(lián)度對(duì)比
圖3 線性加權(quán)特征關(guān)聯(lián)算法與概率特征關(guān)聯(lián)算法趨勢(shì)緩和類關(guān)聯(lián)度對(duì)比
5.3 軟信息分類實(shí)驗(yàn)結(jié)果
采用軟傳感器模型對(duì)釣魚(yú)島事件的軟信息進(jìn)行態(tài)勢(shì)估計(jì),其中重要步驟為軟信息的緩和與緊張分類,分類的實(shí)驗(yàn)結(jié)果見(jiàn)表1。
從表1可以看出,LFA算法與PFA算法都對(duì)軟傳感器的分類結(jié)果產(chǎn)生了一定的影響,均提高了各類別上的查全率、查準(zhǔn)率及F1測(cè)試值,表明這兩個(gè)算法有效地提升了文本軟信息的分類效果,從而確保軟信息融合精度的提高。實(shí)驗(yàn)結(jié)果還表明,PFA算法對(duì)分類效果提升更高,即通過(guò)概率特征關(guān)聯(lián)算法能更好地與事件長(zhǎng)期特征相關(guān)聯(lián)。
5.4 態(tài)勢(shì)估計(jì)結(jié)果及分析
采用軟傳感器模型對(duì)釣魚(yú)島事件進(jìn)行態(tài)勢(shì)估計(jì),其中分別采用LFA與PFA算法關(guān)聯(lián)的結(jié)果進(jìn)行態(tài)勢(shì)的融合估計(jì),8月1日至16日融合估計(jì)結(jié)果如圖4所示。
表1 情報(bào)文本分類實(shí)驗(yàn)結(jié)果
8月6日至14日期間,發(fā)生了“香港部分人員組織強(qiáng)登釣魚(yú)島”、“日本購(gòu)買釣魚(yú)島”等事件,局勢(shì)趨于緊張。此前(8月1日至5日),未發(fā)生特別事件,事件態(tài)勢(shì)處于緩和狀態(tài),而在8月6日態(tài)勢(shì)直接出現(xiàn)拐點(diǎn),由圖4可以識(shí)別出事件的轉(zhuǎn)折點(diǎn)。
由圖4可知,8月6日PFA算法得到的態(tài)勢(shì)估計(jì)值為0.59,遠(yuǎn)小于LFA算法得到的值0.71;8月7日PFA算法的態(tài)勢(shì)估計(jì)值為0.67,小于LFA算法的值0.72。其中,PFA算法將長(zhǎng)期態(tài)勢(shì)特征與當(dāng)前特征進(jìn)行了更大范圍的關(guān)聯(lián),對(duì)當(dāng)前特征權(quán)重有效地調(diào)節(jié),長(zhǎng)期態(tài)勢(shì)的引入使圖4中態(tài)勢(shì)曲線變化更平緩。顯然,此態(tài)勢(shì)曲線更符合整個(gè)釣魚(yú)島態(tài)勢(shì)發(fā)展?fàn)顟B(tài)。
圖4 8月1日至16日的態(tài)勢(shì)融合估計(jì)結(jié)果
本文根據(jù)事件的長(zhǎng)期信息抽取得到表達(dá)其特征的長(zhǎng)期詞典,提出軟信息的概率特征關(guān)聯(lián)算法將長(zhǎng)期特征與當(dāng)前軟信息特征進(jìn)行數(shù)據(jù)關(guān)聯(lián),并通過(guò)軟傳感器模型對(duì)實(shí)驗(yàn)和實(shí)際案例進(jìn)行態(tài)勢(shì)估計(jì),驗(yàn)證了概率特征關(guān)聯(lián)算法能有效地將長(zhǎng)期態(tài)勢(shì)引入軟信息的融合估計(jì)中,為決策提供可靠的態(tài)勢(shì)估計(jì)。隨著事件的發(fā)展,描述事件的軟信息逐漸累積,怎樣挖掘更深層次的歷史信息指導(dǎo)事件當(dāng)前的態(tài)勢(shì)估計(jì)將成為下一步研究重點(diǎn)。
[1]KHALEGHI B,KHAMIS A,KARRAY F O,etal.Multisensor data fusion:A review of the state-of-the-art[J].Information Fusion,2013,14(1):28-44.
[2]LLINAS J.New challenges for defining information fusion requirements[C]//International Workshop on Information Fusion & Geographical Information Systems-IF&GIS’07.Petersburg,Russia:Springer,2007:1-17.
[3]PANG B,LEE L.Opinionmining and sentiment analysis[J].Foundations & Trends?in Information Retrieval,2008,2(1/2):1-135.
[4]AGARWAL A,XIE B,VOVSHA I,etal.Sentiment analysis of Twitter data[C]//The Workshop on Languages in Social Media.Stroudsburg,USA:Association for Computational Linguistics,2011:30-38.
[5]BLASCH E,LLINAS J,LAMBERT D,etal.High level information fusion developments,issues,and grand challenges:Fusion 2010 panel discussion[C]//2010 13th Conference on Information Fusion.Edinburgh:IEEE,2010:1-8.
[6]HANNIGAN M,MCMASTER D,LLINAS J,etal.Data association and soft data streams[C]//2011 13th Conference on Information Fusion.Edinburgh:IEEE,2011:1-8.
[7]LITTLE E,SAMBHOOS K,LLINAS J.Enhancing graph matching techniques with ontologies[C]//International Conference on Information Fusion.Cologne:IEEE,2008:1-8.
[8]GROSS G,DATE K,SCHLEGEL D R,etal.Systemic test and evaluation of a hard+soft information fusion framework:Challenges and current approaches[C]//2014 17th International Conference on Information Fusion (FUSION).Cologne:IEEE,2014:1-8.
[9]顧奕哲.基于VSM模型的文檔表示和貝葉斯網(wǎng)絡(luò)的軟傳感器研究[D].上海:華東理工大學(xué),2014.
[10]顧奕哲,林家駿.基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換[J].華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,40(5):631-638.
[11]WU H C,LUK R W P,WONG K F,etal.Interpreting TF-IDF term weights as making relevance decisions[J].ACM Transactions on Information Systems,2008,26(3):55-59.
[12]ENDSLEY M R.Toward a theory of situation awareness in dynamic systems[J].Human Factors the Journal of the Human Factors & Ergonomics Society,1995,37(1):32-64.
[13]XU R,CHEN T,XIA Y,etal.Word embedding composition for data imbalances in sentiment and emotion classification[J].Cognitive Computation,2015,7(2):226-240.
Probabilistic Feature Association Algorithm of Soft Information
MA Yu-ge, CHENG Hua, KOU Xiao-huai, LIN Jia-jun
(School of Information Science and Engineering,East China University of Science and Technology,Shinghai 200237,China)
The situation assessment based on news events should consider the long-term trend of the events.In this paper,the long-term dictionary is introduced to characterize the long-term trend,and then,a probabilistic feature association algorithm is proposed for long-term features and current features.In order to obtain the full feature of the news event,the proposed algorithm firstly extracts long-term dictionary based on long-term text information collection of a news event.Besides,the probabilistic feature association algorithm,which is based on the similar degree of the keywords,is utilized to fuse the long-term feature into the current feature.In order to evaluate the association algorithm performance,both long-term association degree and class association degree are proposed.The experimental results show that the probabilistic feature association algorithm can introduce the long-term trend and improve the accuracy of situation assessment.
soft information; long-term dictionary; probabilistic features association; situation assessment
1006-3080(2017)01-0084-06
10.14135/j.cnki.1006-3080.2017.01.014
2016-04-11
馬宇舸(1991-),男,浙江人,碩士生,主要研究方向?yàn)樾畔⑷诤?。E-mail:mayuge0707@hotmail.com
程 華,E-mail:hcheng@ecust.edu.cn
TP391
A