摘要:弱信號(hào)是未來重大事件的早期預(yù)警信號(hào),識(shí)別、分析和追蹤弱信號(hào)對(duì)風(fēng)險(xiǎn)預(yù)警具有重要意義。文章針對(duì)弱信號(hào)處理過程,提出一種定量弱信號(hào)識(shí)別方法。該方法通過文本的平均相似度計(jì)算弱信號(hào)強(qiáng)度,并確認(rèn)弱信號(hào)閾值;根據(jù)主題發(fā)現(xiàn)的方式增強(qiáng)弱信號(hào)數(shù)據(jù)的信號(hào)強(qiáng)度,并關(guān)聯(lián)其他數(shù)據(jù)。最后,文章基于環(huán)球網(wǎng)新聞數(shù)據(jù)驗(yàn)證了該方法的弱信號(hào)識(shí)別過程,實(shí)驗(yàn)證明該方法是一種能夠識(shí)別出弱信號(hào)文本并增強(qiáng)弱信號(hào)強(qiáng)度。
關(guān)鍵詞:風(fēng)險(xiǎn)預(yù)警;弱信號(hào);文本相似度;主題詞
中圖分類號(hào):TN957.52 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)23-0034-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0 引言
對(duì)將要出現(xiàn)的風(fēng)險(xiǎn)和威脅發(fā)出預(yù)警并對(duì)事物的未來發(fā)展作出預(yù)測(cè)是戰(zhàn)略分析的重要目的。弱信號(hào)是一種具備前瞻性和預(yù)見性的碎片數(shù)據(jù),被視為對(duì)未來具有重要影響力事件的早期跡象,往往能夠作為戰(zhàn)略預(yù)警能力的核心指標(biāo)[1]。弱信號(hào)通常以碎片化的形式隱藏在海量信息背后,并夾雜著多種噪聲[2]。從大量信息中識(shí)別和發(fā)現(xiàn)弱信號(hào)具有重大意義,從系統(tǒng)論的角度來看。一方面弱信號(hào)的識(shí)別和分析有利于發(fā)現(xiàn)破壞系統(tǒng)內(nèi)穩(wěn)態(tài)的威脅因素維持系統(tǒng)內(nèi)在平衡另一方面對(duì)系統(tǒng)演化和創(chuàng)新的支持同樣離不開弱信號(hào)研究,早于他人發(fā)現(xiàn)弱信號(hào)可形成一定程度的競(jìng)爭(zhēng)優(yōu)勢(shì)也有助于預(yù)見新系統(tǒng)的出現(xiàn)[3]。本文針對(duì)非結(jié)構(gòu)化文本,從文本語義和詞語兩個(gè)角度綜合設(shè)計(jì)了一套自動(dòng)識(shí)別弱信號(hào)數(shù)據(jù)的方式,輔助分析人員對(duì)弱信號(hào)開展識(shí)別和分析。
美國(guó)戰(zhàn)略規(guī)劃先驅(qū)Ansoff教授通過觀察組織戰(zhàn)略方向的長(zhǎng)期趨勢(shì)變化,于1975年提出了弱信號(hào)的概念,認(rèn)為弱信號(hào)具有重大影響的、不確定的早期征兆,可能蘊(yùn)含著機(jī)會(huì),也可能是威脅,但其形式、過程、來源都不明確。自Ansoff教授之后, H. Lesca等學(xué)者對(duì)弱信號(hào)作出了深入研究,弱信號(hào)的相關(guān)概念也逐漸豐富,總體上目前弱信號(hào)的相關(guān)概念可以分為三種:認(rèn)為弱信號(hào)既關(guān)聯(lián)現(xiàn)象,也同結(jié)果相關(guān);認(rèn)為弱信號(hào)僅代表著正在變化的現(xiàn)象;認(rèn)為弱信號(hào)只是一個(gè)預(yù)示著未來變化的征兆。但是對(duì)弱信號(hào)的認(rèn)知也包括一些共同的看法,比如弱信號(hào)揭示的內(nèi)容不確定性,弱信號(hào)數(shù)據(jù)的碎片性、弱信號(hào)解讀的多視角性、弱信號(hào)本身具備前置期、可演化趨勢(shì)和引導(dǎo)變化的特征。弱信號(hào)難以被分析人員察覺到通常由于以下4個(gè)原因:1)弱信號(hào)可被感知的信息絕對(duì)量較少。2)弱信號(hào)的有效部分難以進(jìn)入分析人員的視野。3)弱信號(hào)通常夾雜著噪聲和虛假信息。4)弱信號(hào)通常呈碎片狀,無法完整收集[4]。由于外部環(huán)境的復(fù)雜多變,導(dǎo)致弱信號(hào)識(shí)別需要以長(zhǎng)期性的方式綜合考慮其有效性和意義,以便通過識(shí)別出的弱信號(hào)發(fā)現(xiàn)未來的發(fā)展趨勢(shì)、機(jī)會(huì)和威脅[5]。
1 相關(guān)研究
從戰(zhàn)略分析的角度來看,所有搜集到的信息最初只能假定為噪聲而不是信號(hào),只有被適當(dāng)處理后的弱信號(hào)才能顯現(xiàn)其價(jià)值。篩選可以起到減少背景噪聲的作用,通過從噪聲中抽取弱信號(hào)可以幫助弱信號(hào)的偵測(cè),總體上,有兩種思路: 一是減少噪聲密度從而揭示出弱信號(hào);二是放大弱信號(hào),讓其從相對(duì)恒定的噪聲中凸顯出來從統(tǒng)計(jì)的角度看,弱信號(hào)的“弱”意指其產(chǎn)生的概率低或頻率低,但同時(shí)弱信號(hào)的信息含量也很低,所以經(jīng)典統(tǒng)計(jì)方法會(huì)受到樣本量的約束,可能無法做到合理地解釋弱信號(hào)所代表的含義[6]。
目前弱信號(hào)的識(shí)別過程大多依賴人工輸入或?qū)<乙庖姡詣?dòng)識(shí)別弱信號(hào)手段仍處于起步階段。Griol-Barres等利用新聞和社會(huì)數(shù)據(jù)監(jiān)測(cè)弱信號(hào),人工挑選并分析關(guān)鍵詞,并使用自然語言處理方法提取準(zhǔn)確結(jié)果[7]。但是人工挑選存在工作量大,主觀易忽視等問題,不適用于大量數(shù)據(jù)的弱信號(hào)發(fā)現(xiàn)。J.Yoon提出一種給定關(guān)鍵字的情況下,基于文本內(nèi)容挖掘的弱信號(hào)主題識(shí)別方法[8]。該方法基于專家確定的關(guān)鍵字發(fā)現(xiàn)數(shù)據(jù)主題,無法發(fā)現(xiàn)容易被主觀忽視的弱信號(hào)。GUTSCHE提出一種運(yùn)用動(dòng)態(tài)主題建模和時(shí)間序列分析的方法自動(dòng)檢測(cè)弱信號(hào),但是監(jiān)測(cè)效果依賴于主題建模的效果,對(duì)模型的實(shí)時(shí)性要求很高。楊波等基于LDA和BERT模型自動(dòng)識(shí)別文本弱信號(hào),使用LDA發(fā)現(xiàn)文本主題,通過緊密中心度、主題權(quán)重和主題自相關(guān)性評(píng)價(jià)主題強(qiáng)弱性,并根據(jù)各個(gè)主題內(nèi)數(shù)據(jù)的歸一化頻率和概率提取出弱信號(hào),最后使用通過BERT模型在語義層面對(duì)弱信號(hào)增強(qiáng)。使用LDA發(fā)現(xiàn)文本主題是一種文本匯聚發(fā)現(xiàn)的方法,該方法會(huì)將部分文本排除在主題之外,會(huì)導(dǎo)致弱信號(hào)的丟失和遺漏,不適用于主題各異且存在交叉的文本數(shù)據(jù)[9]。
文本相似度算法主要包括基于字符串匹配的方法,基于統(tǒng)計(jì)學(xué)的方法和基于深度學(xué)習(xí)的方法。其過程主要是根據(jù)詞向量算法將文本向量化,并通過余弦距離、歐氏距離等向量相似度算法計(jì)算兩個(gè)文本相似度。文本相似度算法能夠準(zhǔn)確計(jì)算出兩個(gè)文本之間的語義關(guān)聯(lián),通過文本之間的語義關(guān)聯(lián)性,綜合文本之間的詞語共現(xiàn)統(tǒng)計(jì)特征,可以量化直觀地識(shí)別出大量數(shù)據(jù)背后隱藏的弱信號(hào)。
綜上所述,目前弱信號(hào)識(shí)別方法主要使用人工識(shí)別或主題自動(dòng)發(fā)現(xiàn)的方式,人工識(shí)別存在工作量大,主觀性強(qiáng)的缺點(diǎn)。主題自動(dòng)發(fā)現(xiàn)對(duì)主題模型的實(shí)時(shí)性和數(shù)據(jù)貼合性要求很高,而且存在信號(hào)抽取不準(zhǔn)導(dǎo)致弱信號(hào)丟失的情況,由于LDA模型屬于無監(jiān)督文本挖掘技術(shù),分析人員也無法對(duì)這種丟失情況進(jìn)行干預(yù)。本文提出一種基于文本相似度和主題頻率統(tǒng)計(jì)的方法,能夠從文本語義和主題特征兩個(gè)角度對(duì)弱信號(hào)進(jìn)行識(shí)別,并通過主題詞關(guān)聯(lián)增強(qiáng)語義信號(hào),以獲得更好的弱信號(hào)識(shí)別能力。
2 弱信號(hào)識(shí)別方法
2.1 方法概述
為增強(qiáng)弱信號(hào)自動(dòng)發(fā)現(xiàn)過程的可控性和發(fā)現(xiàn)效果,本文使用較為可控的文本相似度算法和主題特征兩個(gè)算法從文本語義層面和文本特征層面兩個(gè)角度發(fā)現(xiàn)非結(jié)構(gòu)化文本的弱信號(hào)信息。其中,文本相似度算法通過文本之間的相似度值建立各個(gè)文本在整體內(nèi)容的相似度基準(zhǔn),得到每個(gè)文本的平均相似度,文本平均相似度越高,說明該文本的相似的報(bào)文越多,也就說明文本的信號(hào)強(qiáng)度越強(qiáng)。上述方法實(shí)現(xiàn)了根據(jù)平均相似度可以從語義層面表達(dá)文本的信號(hào)強(qiáng)度,再根據(jù)平均相似度的閾值調(diào)節(jié)可以篩除掉噪聲和強(qiáng)信號(hào),從而發(fā)現(xiàn)該批次數(shù)據(jù)的弱信號(hào)。基于發(fā)現(xiàn)的弱信號(hào)樣本,提取其主題詞,并通過主題詞共現(xiàn)的方式獲取其他相關(guān)數(shù)據(jù),實(shí)現(xiàn)對(duì)弱信號(hào)的增幅效應(yīng),便于分析人員對(duì)弱信號(hào)數(shù)據(jù)開展分析。弱信號(hào)識(shí)別方法整體流程框架如圖1所示。
文本經(jīng)過預(yù)處理后形成文本庫,計(jì)算每一篇報(bào)文的相似報(bào)文,并計(jì)算相似報(bào)文的相似程度,從而得到每篇報(bào)文的平均相似度和整體平均相似度。計(jì)算每個(gè)文本的主題詞,并對(duì)主題頻率進(jìn)行統(tǒng)計(jì),構(gòu)建出主題頻率空間。分析人員根據(jù)整體平均相似度設(shè)定弱信號(hào)閾值,并根據(jù)閾值范圍發(fā)現(xiàn)對(duì)應(yīng)的弱信號(hào)文本,再根據(jù)主題關(guān)聯(lián)和頻率,從不同維度發(fā)現(xiàn)其他關(guān)聯(lián)的報(bào)文,從而增強(qiáng)弱信號(hào)強(qiáng)度,開展弱信號(hào)分析。
2.2 文本預(yù)處理
文本預(yù)處理使用BERT模型進(jìn)行分詞。在預(yù)處理過程中,文本標(biāo)題往往能夠說明整個(gè)文本數(shù)據(jù)的核心內(nèi)容,因此在預(yù)處理階段,首先對(duì)標(biāo)題和正文進(jìn)行拆分,便于后續(xù)更精準(zhǔn)的關(guān)鍵詞權(quán)重值計(jì)算。分詞后根據(jù)停用詞庫刪除無意義的詞語,構(gòu)建文本庫。
2.3 文本平均相似度計(jì)算
文本平均相似度計(jì)算用于計(jì)算單個(gè)文本的平均相似度,并進(jìn)一步計(jì)算整體平均相似度,從而獲取整體文本信號(hào)基準(zhǔn),基于單個(gè)文本的平均相似度能夠表征該文本在整個(gè)文本庫中的信號(hào)強(qiáng)度,文本整體平均相似度能夠表征文本庫整體的數(shù)據(jù)緊密程度,從而可以輔助分析人員根據(jù)自身需求設(shè)定弱信號(hào)的閾值。
在海量文本數(shù)據(jù)場(chǎng)景下,直接計(jì)算文本之間的相似度會(huì)花費(fèi)n2的算力,無法滿足文本實(shí)時(shí)處置的要求。因此本文使用BM25算法快速召回一定數(shù)量的文本后,針對(duì)粗召回文本開展相似度計(jì)算更符合實(shí)際使用場(chǎng)景,BM25算法公式如下:
[Score(W,d)=inwi?R(qi,d)] (1)
其中:[wi]表示文本中的一個(gè)詞項(xiàng)權(quán)重,[R(qi,d)]表示文本的一個(gè)詞項(xiàng)與文檔相關(guān)性得分。
針對(duì)粗召回的文本,使用word2vec生成詞向量,并計(jì)算文本之間的余弦相似度,計(jì)算公式如下:
[sim(a,b)=1nAiBi1nA2i1nB2i] (2)
計(jì)算出召回?cái)?shù)據(jù)的相似度后,根據(jù)文本數(shù)據(jù)語義關(guān)聯(lián)密度和分析需求,調(diào)整相似度閾值,形成相似文本集合。
2.4 主題詞計(jì)算和統(tǒng)計(jì)
主題詞計(jì)算通過詞語權(quán)重計(jì)算出能夠表征文本內(nèi)容的關(guān)鍵詞,再基于關(guān)鍵詞統(tǒng)計(jì)從詞語粒度計(jì)算文本特征的信號(hào)強(qiáng)度,綜合文本語義弱信號(hào),開展弱信號(hào)分析。文本關(guān)鍵詞使用jieba庫的逆詞頻算法TF-IDF,計(jì)算文檔關(guān)鍵詞和權(quán)重,并根據(jù)當(dāng)前詞項(xiàng)是否出自標(biāo)題增加一個(gè)權(quán)重調(diào)整項(xiàng),使詞項(xiàng)更能夠代表文本內(nèi)容。計(jì)算公式如下:
[Pwi=tf(wi)×log(Ndf(wi))×wp] (3)
其中,[tf(wi)]表示當(dāng)前詞項(xiàng)[wi]在文本i中出現(xiàn)的頻率,N表示文本集合中所有文本的總數(shù), [df(wi)]表示文本庫中包含當(dāng)前詞項(xiàng)[wi]的文本數(shù),[wp]根據(jù)詞項(xiàng)是否出現(xiàn)在標(biāo)題配置的詞項(xiàng)權(quán)重。計(jì)算出逆詞頻權(quán)重后,選擇詞權(quán)重前n個(gè)詞作為關(guān)鍵詞,根據(jù)關(guān)鍵詞和文本的關(guān)系,構(gòu)建共詞網(wǎng)絡(luò)。
2.4 弱信號(hào)發(fā)現(xiàn)
基于計(jì)算得到的整體平均相似度,作為弱信號(hào)基準(zhǔn)值。根據(jù)帕累托原則,弱信號(hào)形成的信息不超過20%,且人類專家將噪聲的閾值范圍定義為0%~2%。假定整體平均相似度為Q,弱信號(hào)范圍可以在4%Q~40%Q,文本信號(hào)分布,如圖2所示。
根據(jù)弱信號(hào)閾值,獲取平均相似度在閾值內(nèi)的文本數(shù)據(jù),并根據(jù)文本的主題出現(xiàn)次數(shù)和共現(xiàn)情況對(duì)弱信號(hào)開展分析。其中主題出現(xiàn)次數(shù)能夠表示該主題自身的信號(hào)強(qiáng)度,主題共現(xiàn)情況能夠基于主題關(guān)聯(lián)相關(guān)文本,從而增強(qiáng)弱信號(hào)文本,輔助分析人員開展弱信號(hào)分析。
3 實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證文本弱信號(hào)識(shí)別的效果,本文利用環(huán)球網(wǎng)2020年新聞數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集包括1170篇新聞數(shù)據(jù)。本文對(duì)數(shù)據(jù)集進(jìn)行了內(nèi)容清洗,去除了作者、發(fā)文單位等與內(nèi)容無關(guān)的內(nèi)容,并將清洗后的內(nèi)容分為標(biāo)題和正文,形成了文本庫。按照本文設(shè)計(jì)的方法,分別對(duì)文本庫進(jìn)行平均相似度計(jì)算和主題詞計(jì)算,以便發(fā)現(xiàn)數(shù)據(jù)集中存在的弱信號(hào)數(shù)據(jù)。
通過文本平均相似度計(jì)算結(jié)果,文本整體平均相似度為0.3,而弱信號(hào)閾值為0.012~0.12,根據(jù)弱信號(hào)閾值篩選各個(gè)文本的平均相似度,獲取到23篇弱信號(hào)文本,根據(jù)對(duì)文本特征分析,可以發(fā)現(xiàn)該批次文本存在氣候變化、非洲、歐洲貿(mào)易等弱信號(hào)數(shù)據(jù),對(duì)其關(guān)聯(lián)文本分析,發(fā)現(xiàn)存在全球氣候變化,由疫情引發(fā)的非洲食物短缺,以及英國(guó)脫歐后歐洲貿(mào)易影響等問題。
4 結(jié)束語
弱信號(hào)識(shí)別是基于弱信號(hào)進(jìn)行戰(zhàn)略預(yù)警的重要組成部分,能否完整地識(shí)別和發(fā)現(xiàn)弱信號(hào)決定著戰(zhàn)略預(yù)警是否有效。本文基于文本相似度和主題詞抽取設(shè)計(jì)一種弱信號(hào)發(fā)現(xiàn)方法。該方法能夠針對(duì)批量數(shù)據(jù)開展定量的弱信號(hào)發(fā)現(xiàn)和分析,提高了海量文本數(shù)據(jù)的弱信號(hào)發(fā)現(xiàn)效率;該方法通過可量化的弱信號(hào)識(shí)別分析,提高文本分析過程的準(zhǔn)確性;該方法所有過程均使用統(tǒng)計(jì)學(xué)算法,人可以直觀感受到弱信號(hào)文本在內(nèi)容上的異同,是一種可信的文本分析方法。在實(shí)驗(yàn)過程中,發(fā)現(xiàn)關(guān)鍵詞關(guān)聯(lián)文本的分析方法可以提供一種更加靈活的分析方法,該方法能夠提高人為識(shí)別文本弱信號(hào)的效率。所以在未來的工作中,將考慮如何開展弱信號(hào)文本的特征分析,進(jìn)一步提高弱信號(hào)分析的能力。
參考文獻(xiàn):
[1] 司謹(jǐn)源.基于地平線掃描的公安情報(bào)預(yù)警模式構(gòu)建[J].情報(bào)雜志,2020,39(1):56-62.
[2] 董尹,劉千里,宋繼偉,等.弱信號(hào)研究綜述:概念、方法和工具[J].情報(bào)理論與實(shí)踐,2018,41(10):147-154.
[3] 董尹,李明陽,胡雅萍,等.情報(bào)業(yè)務(wù)語境下的弱信號(hào)理論解析[J].情報(bào)雜志,2023,42(5):137-144,41.
[4] 單彬.認(rèn)知視角下的弱信號(hào)分析及實(shí)證研究[D].北京:中國(guó)人民解放軍軍事醫(yī)學(xué)科學(xué)院,2014.
[5] 馬銘,毛進(jìn),李綱.從弱信號(hào)到機(jī)會(huì):關(guān)于弱信號(hào)的相關(guān)研究進(jìn)展[J].圖書情報(bào)工作,2023,67(19):121-132.
[6] MüHLROTH C,GROTTKE M.A systematic literature review of mining weak signals and trends for corporate foresight[J].Journal of Business Economics,2018,88(5):643-687.
[7] GRIOL-BARRES I,MILLA S,CEBRIáN A,et al.Detecting weak signals of the future:a system implementation based on text mining and natural language processing[J].Sustainability,2020,12(19):7848.
[8] YOON J.Detecting weak signals for long-term business opportunities using text mining of Web news[J].Expert Systems with Applications,2012,39(16):12543-12550.
[9] 楊波,邵婉婷.基于LDA-BERT融合模型的弱信號(hào)識(shí)別研究[J].圖書情報(bào)工作,2021,65(16):98-107.
【通聯(lián)編輯:朱寶貴】