摘要:交叉印證和差異性分析是情報(bào)分析的重要手段,將相似情報(bào)數(shù)據(jù)歸集后開(kāi)展差異性分析能夠輔助情報(bào)分析人員快速了解大量情報(bào)的數(shù)據(jù)分布、分析重點(diǎn)和分析路徑,提高情報(bào)分析的效率和質(zhì)量。文章針對(duì)情報(bào)關(guān)聯(lián)分析過(guò)程,提出一種情報(bào)差異性分析方法。該方法通過(guò)文本相似度構(gòu)建批量情報(bào)數(shù)據(jù)的關(guān)聯(lián)關(guān)系;通過(guò)逆詞頻抽取情報(bào)的關(guān)鍵詞,構(gòu)建共詞網(wǎng)絡(luò);根據(jù)關(guān)鍵詞的語(yǔ)義差異性定量計(jì)算情報(bào)的差異性。最后,文章基于環(huán)球網(wǎng)時(shí)政新聞數(shù)據(jù)驗(yàn)證了該方法的分析流程,實(shí)驗(yàn)證明該方法是一種準(zhǔn)確、高效、可信的情報(bào)分析方法。
關(guān)鍵詞:情報(bào)分析;差異分析;文本相似度;共詞網(wǎng)絡(luò)
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)24-0054-03
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0 引言
情報(bào)分析是通過(guò)對(duì)全源數(shù)據(jù)進(jìn)行綜合、評(píng)估、分析和解讀,將處理過(guò)的信息轉(zhuǎn)化為情報(bào)以滿(mǎn)足已知或預(yù)期用戶(hù)需求的過(guò)程。為了確保情報(bào)分析報(bào)告的質(zhì)量,在情報(bào)分析過(guò)程中要盡可能全面地掌握數(shù)據(jù),并通過(guò)數(shù)據(jù)關(guān)聯(lián)和融合,在不同數(shù)據(jù)源中尋找同一事實(shí)或規(guī)律,為分析結(jié)論的交叉印證提供數(shù)據(jù)依據(jù)[1]。情報(bào)關(guān)聯(lián)分析是情報(bào)分析流程中不可或缺的環(huán)節(jié),它是指為了相互作用或相互驗(yàn)證的目的將分散的相關(guān)信息關(guān)聯(lián)起來(lái)處理的過(guò)程[2]。關(guān)聯(lián)分析能夠綜合相關(guān)主題的多篇情報(bào),實(shí)現(xiàn)情報(bào)的去偽存真、去粗取精、要素互補(bǔ),提高情報(bào)分析的準(zhǔn)確性和全面性,其意義在于為情報(bào)分析提供推理依據(jù)、交叉驗(yàn)證依據(jù)和減少結(jié)論片面性的依據(jù)。
隨著人工智能技術(shù)發(fā)展,以自然語(yǔ)言處理為代表的文本處理技術(shù)為情報(bào)的關(guān)聯(lián)分析提供了豐富的工具。如李勇男針對(duì)反恐情報(bào)的特征開(kāi)展研究,用于發(fā)現(xiàn)涉恐?jǐn)?shù)據(jù)中不同概念分層的關(guān)聯(lián)規(guī)律[3]。何超等針對(duì)商務(wù)情報(bào)的語(yǔ)義特征設(shè)計(jì)了一種特征網(wǎng)絡(luò)圖,用于分析語(yǔ)義層面的情報(bào)關(guān)聯(lián)[4]。席笑文等針對(duì)科技情報(bào)數(shù)據(jù)的專(zhuān)利權(quán)人、專(zhuān)利和技術(shù)特征使用LDA技術(shù)構(gòu)建了三層主題的概率向量網(wǎng)絡(luò),用于監(jiān)測(cè)專(zhuān)利技術(shù)的相似性[5]。葛文翰等針對(duì)網(wǎng)絡(luò)威脅的技術(shù)和戰(zhàn)術(shù)數(shù)據(jù)訓(xùn)練了分類(lèi)模型,提高了網(wǎng)絡(luò)技戰(zhàn)術(shù)的分類(lèi)效果[6]。
戰(zhàn)略情報(bào)是有關(guān)國(guó)家安全、國(guó)家利益和軍事斗爭(zhēng)全局所需的情報(bào)。包括敵方及有關(guān)各方的軍事思想、戰(zhàn)略方針、戰(zhàn)爭(zhēng)計(jì)劃、作戰(zhàn)原則,武裝力量體制、軍事實(shí)力、戰(zhàn)爭(zhēng)潛力,戰(zhàn)略目標(biāo)、軍事部署、戰(zhàn)備措施 [7]。目前關(guān)于自然語(yǔ)言技術(shù)應(yīng)用于情報(bào)分析的研究主要是針對(duì)戰(zhàn)場(chǎng)情報(bào)、反恐情報(bào)、網(wǎng)絡(luò)安全情報(bào)等某一領(lǐng)域情報(bào)數(shù)據(jù),建立本體和特征級(jí)關(guān)聯(lián)關(guān)系,以實(shí)現(xiàn)目標(biāo)判別,行為分析、知識(shí)構(gòu)建等能力。無(wú)法滿(mǎn)足戰(zhàn)略情報(bào)這類(lèi)體系化、全領(lǐng)域、高站位的情報(bào)分析。
1 相關(guān)研究
文本相似度算法主要包括基于字符串匹配的方法,基于統(tǒng)計(jì)學(xué)的方法和基于深度學(xué)習(xí)的方法。其過(guò)程主要是根據(jù)詞向量算法將文本向量化,并通過(guò)余弦距離、歐氏距離等向量相似度算法計(jì)算兩個(gè)文本相似度。文本相似度的核心是文本向量化表示的過(guò)程,目前最具代表性的算法是Mikolov等人提出的基于word embedding(即詞嵌入方法)的word2vec模型和基于變換器的雙向編碼器表示網(wǎng)絡(luò)(Bidirectional Encoder Representationsfrom Transformers,BERT)的預(yù)訓(xùn)練模型。相比于其他文本表示方法,word2vec不僅可以從根本上解決了文本維度過(guò)高問(wèn)題,還能夠保留了文本上下文中詞與詞間的相關(guān)性,有效提升算法在處理文本分類(lèi)任務(wù)的準(zhǔn)確性[8-9]。Bert預(yù)訓(xùn)練模型雖然在實(shí)體識(shí)別和關(guān)鍵詞抽取方面都具備良好的表現(xiàn),但BERT預(yù)訓(xùn)練出的詞向量存在各向異性和低頻詞匯稀疏的問(wèn)題,在語(yǔ)義文本相似度的表現(xiàn)并不是很好。
共詞分析(Co-word Analysis)方法是內(nèi)容分析方法之一,也是目前情報(bào)學(xué)領(lǐng)域常用的研究方法之一。其基本原理是通過(guò)統(tǒng)計(jì)文本中詞語(yǔ)的共現(xiàn)情況,來(lái)反映文本之間的關(guān)聯(lián)強(qiáng)度,進(jìn)而確定這些文本的研究熱點(diǎn)、組成與范式,橫向和縱向分析學(xué)科領(lǐng)域的發(fā)展過(guò)程和結(jié)構(gòu)演化[10-11]。共詞分析方法具有操作靈活性以及分析結(jié)果的直觀性等特點(diǎn),已成為科技情報(bào)領(lǐng)域識(shí)別學(xué)科發(fā)展的重要工具。
關(guān)于相似關(guān)聯(lián)分析的技術(shù)還包括LDA、情感分析和基于深度學(xué)習(xí)的文本分類(lèi),但是這些技術(shù)都存在分類(lèi)依據(jù)不可見(jiàn),各類(lèi)主題表征結(jié)果不強(qiáng),需要領(lǐng)域數(shù)據(jù)訓(xùn)練的問(wèn)題,不符合戰(zhàn)略情報(bào)的數(shù)據(jù)跨領(lǐng)域和要求結(jié)果可信度高的要求。針對(duì)戰(zhàn)略情報(bào)綜合性強(qiáng)、領(lǐng)域跨度大、涉及特征多的特點(diǎn)。本文基于文本相似度實(shí)現(xiàn)對(duì)跨領(lǐng)域數(shù)據(jù)的主題聚合,并基于共詞網(wǎng)絡(luò)計(jì)算了相似數(shù)據(jù)的語(yǔ)義差異度,實(shí)現(xiàn)描述同一主題的不同文本在闡述角度、態(tài)度情感等方面的差異性分析,對(duì)戰(zhàn)略情報(bào)的關(guān)聯(lián)分析提供一種思路,并使用新聞數(shù)據(jù)驗(yàn)證了該分析方法的效果。
2 情報(bào)差異性分析方法
情報(bào)差異性分析方法包括文本預(yù)處理、文本相似度計(jì)算、共詞網(wǎng)絡(luò)構(gòu)建和文本差異度計(jì)算4個(gè)模塊,文本數(shù)據(jù)經(jīng)過(guò)預(yù)處理模塊的拆分和分詞后生成具備標(biāo)題、正文和分詞結(jié)果的文本庫(kù)。分別對(duì)文本庫(kù)結(jié)果進(jìn)行相似度計(jì)算和共詞網(wǎng)絡(luò)構(gòu)建后形成相似文本集合和共詞網(wǎng)絡(luò)。針對(duì)文本集合計(jì)算集合內(nèi)文本之間的差異度,定量分析相似情報(bào)之間的差異性,為情報(bào)人員提供某個(gè)主題下相似情況的差異比較,能夠補(bǔ)充同一情況的事實(shí)維度和分析觀點(diǎn)。差異性分析方法流程如圖1所示。
2.1文本預(yù)處理
文本預(yù)處理使用BERT模型進(jìn)行分詞。在預(yù)處理過(guò)程中,情報(bào)標(biāo)題往往能夠說(shuō)明整個(gè)情報(bào)數(shù)據(jù)的核心內(nèi)容,因此在預(yù)處理階段,首先對(duì)標(biāo)題和正文進(jìn)行拆分,便于后續(xù)更精準(zhǔn)的關(guān)鍵詞權(quán)重值計(jì)算。分詞后根據(jù)停用詞庫(kù)刪除無(wú)意義的詞語(yǔ),構(gòu)建文本庫(kù)。
2.2文本相似度計(jì)算
文本相似度計(jì)算用于生成文本相似集合,情報(bào)分析人員能夠通過(guò)一篇數(shù)據(jù)獲取關(guān)聯(lián)的其他數(shù)據(jù),開(kāi)展后續(xù)的差異分析。在海量文本數(shù)據(jù)場(chǎng)景下,直接計(jì)算文本之間的相似度會(huì)花費(fèi)n2的算力,無(wú)法滿(mǎn)足情報(bào)實(shí)時(shí)處置的要求。因此本文使用BM25算法快速召回一定數(shù)量的文本后,針對(duì)粗召回文本開(kāi)展相似度計(jì)算更符合實(shí)際使用場(chǎng)景,BM25算法公式如下:
[Score(W,d)=inwi?R(qi,d)] (1)
式中,[wi]表示文本中的一個(gè)詞項(xiàng)權(quán)重,[R(qi,d)]表示文本的一個(gè)詞項(xiàng)與文檔相關(guān)性得分。
針對(duì)粗召回的文本,使用word2vec生成詞向量,并計(jì)算文本之間的余弦相似度,計(jì)算公式如下:
[sim(a,b)=1nAiBi1nA2i1nB2i] (2)
計(jì)算出召回?cái)?shù)據(jù)的相似度后,根據(jù)文本數(shù)據(jù)語(yǔ)義關(guān)聯(lián)密度和分析需求,調(diào)整相似度閾值,形成相似文本集合。
2.3 共詞網(wǎng)絡(luò)構(gòu)建
共詞網(wǎng)絡(luò)的構(gòu)建主要是使用文本中抽取的關(guān)鍵詞建立詞語(yǔ)和文本的關(guān)系,形成關(guān)鍵詞和文本的共現(xiàn)網(wǎng)絡(luò),后續(xù)針對(duì)該網(wǎng)絡(luò)開(kāi)展統(tǒng)計(jì)和分析。選擇關(guān)鍵詞作為共詞網(wǎng)絡(luò)的詞源,可以從更寬泛的維度分析情報(bào)之間的差異,符合戰(zhàn)略情報(bào)綜合性強(qiáng)、領(lǐng)域跨度大的特點(diǎn)。文本關(guān)鍵詞使用jieba庫(kù)的逆詞頻算法TF-IDF,計(jì)算文檔關(guān)鍵詞和權(quán)重,并根據(jù)當(dāng)前詞項(xiàng)是否出自標(biāo)題增加一個(gè)權(quán)重調(diào)整項(xiàng),使詞項(xiàng)更能夠代表文本內(nèi)容。計(jì)算公式如下:
[Pwi=tf(wi)×log(Ndf(wi))×wp] (3)
式中,[tf(wi)]表示當(dāng)前詞項(xiàng)<E:\2022知網(wǎng)文件\24期\2xs202424\Image\image9.pdf>在文本i中出現(xiàn)的頻率,N表示文本集合中所有文本的總數(shù), [df(wi)]表示文本庫(kù)中包含當(dāng)前詞項(xiàng)[wi]的文本數(shù),[wp]根據(jù)詞項(xiàng)是否出現(xiàn)在標(biāo)題配置的詞項(xiàng)權(quán)重。計(jì)算出逆詞頻權(quán)重后,選擇詞權(quán)重前n個(gè)詞作為關(guān)鍵詞,根據(jù)關(guān)鍵詞和文本的關(guān)系,構(gòu)建共詞網(wǎng)絡(luò)。
2.4 文本差異度計(jì)算
根據(jù)選擇的相似文本集合,獲取集合內(nèi)兩篇文本的關(guān)鍵詞,根據(jù)word2vec算法計(jì)算詞語(yǔ)之間的相似度,選擇相似度最高的詞語(yǔ)作為當(dāng)前詞語(yǔ)的相似度。綜合詞語(yǔ)相似度和詞頻權(quán)重作為當(dāng)前詞語(yǔ)的差異度,對(duì)兩個(gè)文本所有詞差異度求和后,得到文本之間的差異度。計(jì)算公式如下:
[difij=1nPa1nPa·max1<b<nsim(wa,wb)] (4)
式中,[sim(wa,wb)]表示i文本中詞項(xiàng)a和j文本中詞項(xiàng)b的相似度,[Pa]表示詞項(xiàng)a在i文本中的詞頻權(quán)重。
3 實(shí)驗(yàn)結(jié)果及分析
3.1 數(shù)據(jù)處理
為了驗(yàn)證情報(bào)差異性分析的效果,本文利用環(huán)球網(wǎng)2020年時(shí)事新聞數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集包括1 170篇新聞數(shù)據(jù),能夠較好地仿真戰(zhàn)略情報(bào)數(shù)據(jù)。本文對(duì)數(shù)據(jù)集進(jìn)行了內(nèi)容清洗,去除了作者、發(fā)文單位等與內(nèi)容無(wú)關(guān)的內(nèi)容,并將清洗后的內(nèi)容分為標(biāo)題和正文,形成了文本庫(kù)。按照本文設(shè)計(jì)的方法,分別對(duì)文本庫(kù)進(jìn)行相似關(guān)聯(lián)計(jì)算和關(guān)鍵詞計(jì)算,形成文本相似關(guān)系網(wǎng)絡(luò)。
3.2 實(shí)驗(yàn)結(jié)果與分析
為了更好地展示數(shù)據(jù)相似關(guān)系,本文設(shè)計(jì)了一種文本關(guān)聯(lián)展示形式,能夠很好地展示文本的匯聚情況,發(fā)現(xiàn)各類(lèi)文本簇。該展示方式將文本作為節(jié)點(diǎn),相似關(guān)系作為連接節(jié)點(diǎn)的線(xiàn),展示了文本之間相似關(guān)聯(lián)關(guān)系,可以在三維空間根據(jù)數(shù)據(jù)分布情況和研究粒度調(diào)整相似度形成不同的分布結(jié)構(gòu)。本文選擇相似度大于60%的數(shù)據(jù)關(guān)聯(lián)關(guān)系,其相似關(guān)聯(lián)分布結(jié)果如圖2所示。
可以看到大部分節(jié)點(diǎn)作為散點(diǎn)分布在外圍,關(guān)聯(lián)性較強(qiáng)的節(jié)點(diǎn)匯聚成多個(gè)簇聚集在一起,同時(shí)各個(gè)簇之間也通過(guò)節(jié)點(diǎn)的相似性產(chǎn)生關(guān)聯(lián),情報(bào)分析人員能夠直觀地看到數(shù)據(jù)的關(guān)聯(lián)關(guān)系,并基于文本差異度得到數(shù)據(jù)結(jié)果。
選擇某個(gè)主題數(shù)據(jù)內(nèi)部開(kāi)展差異度計(jì)算,能夠得到數(shù)據(jù)簇內(nèi)數(shù)據(jù)在共詞網(wǎng)絡(luò)的差異值,從而發(fā)現(xiàn)文本內(nèi)容的差異情況。
綜合以上實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),基于文本相似度能夠清晰地分析出情報(bào)數(shù)據(jù)集內(nèi)部的關(guān)聯(lián)關(guān)系,輔助情報(bào)分析人員快速發(fā)現(xiàn)關(guān)注重點(diǎn)。借助共詞網(wǎng)絡(luò),可以量化的分析出文本之間的差異值,并通過(guò)關(guān)鍵詞顯示出各個(gè)文本的差異特點(diǎn),為分析人員深入全面了解主題內(nèi)容提供關(guān)鍵參考。
4 結(jié)束語(yǔ)
情報(bào)關(guān)聯(lián)與差異性分析是情報(bào)研判的重要手段。本文結(jié)合文本相似度和共詞網(wǎng)絡(luò)提出一種戰(zhàn)略情報(bào)差異性分析方法,該方法使用文本相似關(guān)系發(fā)現(xiàn)情報(bào)聚集情況,并能夠通過(guò)關(guān)鍵詞語(yǔ)義關(guān)聯(lián)定量計(jì)算出文本之間的差異度。該方法能夠針對(duì)批量數(shù)據(jù)開(kāi)展關(guān)聯(lián)發(fā)現(xiàn)和差異分析,提高了海量文本數(shù)據(jù)的分析效率;該方法通過(guò)可量化的數(shù)據(jù)關(guān)聯(lián)性計(jì)算和詞語(yǔ)粒度的差異性計(jì)算,提高了情報(bào)分析過(guò)程的準(zhǔn)確性;該方法相比于深度學(xué)習(xí)模型和大模型處理過(guò)程交互性更高,人可以直觀感受到不同相似度和差異度在內(nèi)容上的異同,并基于數(shù)據(jù)情況調(diào)整參數(shù),是一種可信的情報(bào)分析方法。在實(shí)驗(yàn)過(guò)程中,發(fā)現(xiàn)關(guān)鍵詞關(guān)聯(lián)文本的分析方法可以提供一種更加靈活的分析方法,該方法能夠提高人為閱讀辨別兩份報(bào)文差異的效率和準(zhǔn)確性。所以在未來(lái)的工作中,將考慮如何開(kāi)展文本內(nèi)關(guān)鍵詞、實(shí)體、句段等細(xì)粒度要素之間的關(guān)聯(lián)分析,進(jìn)一步提高情報(bào)分析人員的工作效率和質(zhì)量。
參考文獻(xiàn):
[1] 高金虎.情報(bào)分析方法論的演變:基于國(guó)家安全情報(bào)分析的視角[J].科技情報(bào)研究,2020,2(1):12-29.
[2] 楊建林,李品.基于情報(bào)過(guò)程視角辨析情報(bào)分析與數(shù)據(jù)分析的關(guān)系[J].情報(bào)理論與實(shí)踐,2019,42(3):1-6.
[3] 李勇男.基于多層次關(guān)聯(lián)規(guī)則挖掘的反恐情報(bào)跨層特征關(guān)聯(lián)分析[J].情報(bào)科學(xué),2021,39(11):127-132.
[4] 何超,張玉峰.基于語(yǔ)義關(guān)聯(lián)分析的商務(wù)情報(bào)分析算法研究[J].情報(bào)雜志,2013,32(4):134-137.
[5] 席笑文,郭穎,宋欣娜,等.基于word2vec與LDA主題模型的技術(shù)相似性可視化研究[J].情報(bào)學(xué)報(bào),2021,40(9):974-983.
[6] 葛文翰,王俊峰,唐賓徽,等.基于關(guān)聯(lián)增強(qiáng)的網(wǎng)絡(luò)威脅情報(bào)技戰(zhàn)術(shù)分類(lèi)[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,59(2):100-108.
[7] 馬曉娟,陳燁,聞杰,等.戰(zhàn)略情報(bào)預(yù)測(cè)模型的作用機(jī)理與價(jià)值述評(píng)[J].情報(bào)雜志,2020,39(8):6-15.
[8] 黃文彬,車(chē)尚錕.計(jì)算文本相似度的方法體系與應(yīng)用分析[J].情報(bào)理論與實(shí)踐,2019,42(11):128-134.
[9] 于潤(rùn)羽,李雅文,李昂.融合領(lǐng)域特征的科技學(xué)術(shù)會(huì)議語(yǔ)義相似性計(jì)算方法[J].智能系統(tǒng)學(xué)報(bào),2022,17(4):737-743.
[10] 劉自強(qiáng),岳麗欣,許海云,等.時(shí)序共詞網(wǎng)絡(luò)構(gòu)建及其動(dòng)態(tài)可視化研究[J].情報(bào)學(xué)報(bào),2020,39(2):186-198.
[11] 李綱,巴志超.共詞分析過(guò)程中的若干問(wèn)題研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2017,43(4):93-113.
【通聯(lián)編輯:朱寶貴】