王奕文,張如玉,劉 昕,張瓊聲,田紅磊,曹 帥
(中國石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院,山東 青島 266580)
近年來,借助時(shí)序信息實(shí)時(shí)跟蹤話題的動態(tài)演化趨勢的研究方法主要包括以下兩種[1-3]。第一種方法把文本的時(shí)間信息當(dāng)作其話題屬性參與到特征計(jì)算的過程中,建立動態(tài)演變的話題模型。例如:徐會杰等引入回復(fù)加速度實(shí)現(xiàn)對突發(fā)性熱點(diǎn)話題快速發(fā)現(xiàn)與跟蹤[4];趙旭劍等建立了增量式計(jì)算模型,該模型考慮了話題特征,能很好地挖掘出新聞話題演化各個(gè)階段的信息[5]。第二種方法將時(shí)間信息與概率話題模型結(jié)合,通過計(jì)算時(shí)間信息與話題、文檔、詞項(xiàng)的概率分布,實(shí)現(xiàn)對潛在話題的生成與演變過程的追蹤[6-8]。例如:Kalyanam等提出一種基于社交情景信息的話題演化模型[9];陳興蜀等提出一種基于OLDA的熱點(diǎn)話題演化跟蹤模型[10];王奕文等對關(guān)聯(lián)規(guī)則算法進(jìn)行了改進(jìn),并將其應(yīng)用于熱點(diǎn)事件時(shí)序分析中[11,12]。
目前,在話題的動態(tài)演變跟蹤領(lǐng)域,各種話題模型均能夠很好地考慮到話題結(jié)構(gòu)與演化的特征,但是大部分研究采用相似度來衡量不同話題內(nèi)容的相關(guān)程度,很少考慮各階段話題關(guān)鍵詞的關(guān)聯(lián)關(guān)系在話題演變過程中的影響。
為了解決上述問題,本文引入時(shí)間窗口和關(guān)聯(lián)規(guī)則[13,14],提出一種基于并行關(guān)聯(lián)規(guī)則的話題演化跟蹤方法。該算法有兩個(gè)優(yōu)點(diǎn),一是提高了計(jì)算效率,縮短了關(guān)聯(lián)規(guī)則算法尋找頻繁項(xiàng)集所需的時(shí)間,能夠更快地發(fā)現(xiàn)數(shù)據(jù)之間隱藏關(guān)系;二是結(jié)合時(shí)間信息與關(guān)聯(lián)規(guī)則能夠發(fā)現(xiàn)關(guān)鍵詞在話題演化過程中隨時(shí)間推移的潛在關(guān)聯(lián)關(guān)系,從而深度分析話題演化的具體細(xì)節(jié)。
本文提出的基于并行關(guān)聯(lián)規(guī)則的話題演化跟蹤方法涉及到以下相關(guān)概念。
定義1支持度(support)。一個(gè)關(guān)鍵詞集在數(shù)據(jù)集中出現(xiàn)的頻率。支持度越高代表著該關(guān)鍵詞集出現(xiàn)的頻率越高、熱度越大,說明規(guī)則越有用。支持度的計(jì)算公式為
(1)
關(guān)聯(lián)規(guī)則是形如a?b的蘊(yùn)含式。s(a?b)為{a,b}這個(gè)關(guān)鍵詞集的支持度;P(a∪b)為數(shù)據(jù)集中事件a,b同時(shí)發(fā)生的概率(0≤P(a∪b)≤1);n(a∪b)為數(shù)據(jù)集中事件a,b同時(shí)發(fā)生的次數(shù);n(dataset)為數(shù)據(jù)集中記錄的總條數(shù)。
定義2置信度(confidence)。在事件a發(fā)生的集合中,事件b發(fā)生的概率。置信度衡量了關(guān)鍵詞集中各關(guān)鍵詞的關(guān)聯(lián)關(guān)系強(qiáng)弱,置信度的值越大說明其對應(yīng)的關(guān)聯(lián)規(guī)則越可信。置信度的計(jì)算公式為
(2)
c(a?b)為關(guān)鍵詞集的置信度;P(b|a)為在數(shù)據(jù)集中關(guān)鍵詞集{a}發(fā)生的情況下關(guān)鍵詞集{a,b}也同時(shí)發(fā)生的條件概率(0≤P(b|a)≤1)。
定義3k_項(xiàng)頻繁關(guān)鍵詞集。包括k個(gè)頻繁關(guān)鍵詞的集合,其中每個(gè)頻繁關(guān)鍵詞的支持度均大于等于支持度閾值。lk[i]={wx[i]}表示第i個(gè)k_項(xiàng)頻繁關(guān)鍵詞集,其中的第x個(gè)關(guān)鍵詞表示為wx[i],(x=1,2,…,k)。則Lk={lk[i]}為由全部lk[i]組成的集合,(i=1,2,…,t),t為Lk中包含的k_項(xiàng)頻繁關(guān)鍵詞集的數(shù)目。
定義4關(guān)聯(lián)規(guī)則集。關(guān)聯(lián)規(guī)則集由置信度數(shù)值不小于設(shè)定閾值的關(guān)聯(lián)規(guī)則構(gòu)成。如果蘊(yùn)含式a[y]?b[y]代表第y個(gè)關(guān)聯(lián)規(guī)則,那么關(guān)聯(lián)規(guī)則集則表示為Rules={a[y]?b[y]},(y=1,2,…,r),r為該關(guān)聯(lián)規(guī)則集中包含的關(guān)聯(lián)規(guī)則數(shù)目。
為了提高計(jì)算效率,本文將頻繁關(guān)鍵詞集的獲取任務(wù)分為N個(gè)獲取頻繁關(guān)鍵詞子集的子任務(wù)。首先對時(shí)間窗口的大小進(jìn)行設(shè)置,并將數(shù)據(jù)集中的文本數(shù)據(jù)按照時(shí)序信息劃分到不同窗口中來;然后獲取各時(shí)間窗口對應(yīng)的一項(xiàng)頻繁項(xiàng)集L1;最后使用并行關(guān)聯(lián)規(guī)則算法獲取各個(gè)時(shí)間窗口對應(yīng)的關(guān)聯(lián)規(guī)則集,具體流程如圖1所示。在已經(jīng)獲取的L1基礎(chǔ)上,進(jìn)行任務(wù)分配并實(shí)現(xiàn)Lk-1到Lk的迭代,任務(wù)合并形成全局Lk,在此基礎(chǔ)上獲得關(guān)聯(lián)規(guī)則集;最后通過對所有時(shí)間窗口的關(guān)聯(lián)規(guī)則集進(jìn)行篩選和組合形成不同時(shí)間話題關(guān)鍵詞。
圖1 單個(gè)時(shí)間窗口的并行關(guān)聯(lián)規(guī)則算法流程
k_項(xiàng)頻繁關(guān)鍵詞集是在已知1_項(xiàng)頻繁關(guān)鍵詞集L1的基礎(chǔ)上計(jì)算得出的,1_項(xiàng)頻繁關(guān)鍵詞集L1的獲取分為3個(gè)步驟:
(1)因?yàn)楦魃缃痪W(wǎng)站的話題信息均使用設(shè)定的TOP關(guān)鍵詞進(jìn)行收集,因此我們把各TOP關(guān)鍵詞作為1_項(xiàng)頻繁關(guān)鍵詞集L1的候選關(guān)鍵詞。
(2)從各社交網(wǎng)絡(luò)頁面上收集的數(shù)據(jù)根據(jù)時(shí)序信息劃分到不同時(shí)間窗口中,形成不同的數(shù)據(jù)集。在各時(shí)間窗口對應(yīng)的數(shù)據(jù)集中,統(tǒng)計(jì)各TOP關(guān)鍵詞出現(xiàn)的次數(shù),記為n(top[i])。由支持度的計(jì)算公式知,TOP關(guān)鍵詞的支持度s_top[i]為
(3)
(3)設(shè)置支持度閾值s_min。若s_min≤s_top[i],則將s_top[i]對應(yīng)的TOP關(guān)鍵詞保留,記為l1[j];反之舍棄。由此得到L1={l1[j]},j≤i。
k_項(xiàng)頻繁關(guān)鍵詞集Lk由L1與Lk-1進(jìn)行合并操作得到。Lk的獲得分為5個(gè)步驟:
(1)對Lk-1進(jìn)行數(shù)據(jù)分割成N個(gè)互不交叉的子集,每個(gè)k-1_項(xiàng)頻繁關(guān)鍵詞子集分配給一個(gè)子任務(wù)。
(2)將各子任務(wù)的Lk-1與L1進(jìn)行合并操作,得到k_項(xiàng)關(guān)鍵詞集。該k_項(xiàng)關(guān)鍵詞集為Lk的候選關(guān)鍵詞集之一,第i個(gè)k_項(xiàng)關(guān)鍵詞集記作k_keywords[i]。
(3)在時(shí)間窗口對應(yīng)的文本數(shù)據(jù)集中,對各k_項(xiàng)關(guān)鍵詞集出現(xiàn)的次數(shù)進(jìn)行匯總,記作n(k_keywords[i])。由支持度計(jì)算公式知,k_項(xiàng)關(guān)鍵詞集的支持度s_k_keywords[i]為
(4)
(4)當(dāng)s_min≤s_k_keywords[i]時(shí),則將s_k_keywords[i]對應(yīng)的k_項(xiàng)關(guān)鍵詞合并入Lk,并記為lk[j]。則Lk={lk[j]},j≤i。
(5)將各個(gè)子任務(wù)得到的Lk進(jìn)行合并與刪減操作,得到全局Lk。
在上一步得到的全局Lk基礎(chǔ)上通過計(jì)算得到關(guān)聯(lián)規(guī)則集,關(guān)聯(lián)規(guī)則集的獲得分為4個(gè)步驟:
(1)獲取每個(gè)Lk中k_項(xiàng)頻繁關(guān)鍵詞集的關(guān)聯(lián)規(guī)則,每個(gè)k_項(xiàng)頻繁關(guān)鍵詞集能產(chǎn)生的關(guān)聯(lián)規(guī)則數(shù)目均不少于1。定義由第i個(gè)k_項(xiàng)頻繁關(guān)鍵詞集lk[i]中的s個(gè)關(guān)鍵詞組成的關(guān)鍵詞集為lk[i[s]](1≤s≤k),由lk[i]中去掉s個(gè)關(guān)鍵詞后的k-s個(gè)關(guān)鍵詞組成的關(guān)鍵詞集為lk[i[k-s]]。
(2)計(jì)算關(guān)聯(lián)規(guī)則的置信度。若將lk[i]的支持度表示為公式s_lk[i],則lk[i[s]]的支持度可表示為s_lk[i[s]]。由式(2)可知,關(guān)聯(lián)規(guī)則lk[i[s]]?lk[i[k-s]]的置信度為
(5)
(3)篩選關(guān)聯(lián)規(guī)則。c_min為設(shè)定的置信度閾值,如果c_min≤c(lk[i[s]]?lk[i[k-s]]),則關(guān)聯(lián)規(guī)則lk[i[s]]?lk[i[k-s]]被保留,反之,對應(yīng)的關(guān)聯(lián)規(guī)則lk[i[s]]?lk[i[k-s]]被舍棄。
(4)將步驟(3)篩選出來的關(guān)聯(lián)規(guī)則進(jìn)行合并和約簡操作,得到關(guān)聯(lián)規(guī)則集。
算法1:基于并行關(guān)聯(lián)規(guī)則的話題演化跟蹤算法
輸入:從各個(gè)社交網(wǎng)站上爬取的所有與待分析事件有關(guān)的文本數(shù)據(jù)
輸出:各時(shí)間段對應(yīng)的話題關(guān)鍵詞
(1)從各社交網(wǎng)絡(luò)頁面上獲得的數(shù)據(jù)根據(jù)時(shí)序信息劃分到不同時(shí)間窗口中,形成不同的數(shù)據(jù)集。
(2)在各時(shí)間窗口的文本數(shù)據(jù)集中,對各TOP關(guān)鍵詞出現(xiàn)的次數(shù)進(jìn)行匯總,支持度大于s_min的TOP關(guān)鍵詞作為1_項(xiàng)頻繁關(guān)鍵詞集L1,此時(shí)k=1。
(3)令k=k+1,將集合Lk-1分為N個(gè)互不相交的k-1_項(xiàng)頻繁關(guān)鍵詞子集,并為每個(gè)子集設(shè)定一個(gè)獨(dú)立子任務(wù),將各子任務(wù)的Lk-1與所有的L1進(jìn)行合并操作,各子任務(wù)獨(dú)立生成滿足支持度閾值s_min的Lk。
(4)將N個(gè)子任務(wù)獲得的Lk結(jié)果合并后去重,得到全局Lk。
(5)迭代進(jìn)行步驟(3)和步驟(4),當(dāng)?shù)玫降膋+1_項(xiàng)關(guān)鍵詞集合為空時(shí)停止迭代,將頻繁關(guān)鍵詞集存在的最大項(xiàng)集數(shù)記作n。
(6)在全局Lk(2≤k≤n)基礎(chǔ)上通過計(jì)算得到滿足置信度閾值c_min的關(guān)聯(lián)規(guī)則,對獲得的所有關(guān)聯(lián)規(guī)則合并并刪減,得到關(guān)聯(lián)規(guī)則集。
(7)通過以上6個(gè)步驟得到全部時(shí)間窗口對應(yīng)的關(guān)聯(lián)規(guī)則集,通過對關(guān)聯(lián)規(guī)則集進(jìn)行篩選與組合操作,得到各時(shí)間段對應(yīng)的話題關(guān)鍵詞。
本文用到的實(shí)驗(yàn)數(shù)據(jù)均通過網(wǎng)絡(luò)爬蟲技術(shù)爬取獲得,設(shè)定關(guān)鍵詞“華為,犯罪,孟晚舟”,從新浪微博收集時(shí)間范圍為2020年1月20日到2020年6月6日的輿情數(shù)據(jù),共收集到36 245條相關(guān)的言論,日均230條左右。本文使用Ansj技術(shù)從收集到的微博言論中挖掘關(guān)鍵詞,從同一條微博言論中挖掘到的關(guān)鍵詞彼此互不相同,從不同的微博言論中挖掘到的關(guān)鍵詞數(shù)量也互不相同。
4.2.1 支持度閾值設(shè)置
關(guān)聯(lián)規(guī)則集在1_項(xiàng)頻繁關(guān)鍵詞集L1的基礎(chǔ)上獲得,L1中的關(guān)鍵詞將會對整個(gè)話題演化跟蹤的準(zhǔn)確率產(chǎn)生影響,因此支持度閾值的設(shè)定尤為重要。恰當(dāng)?shù)闹С侄乳撝悼梢允顾惴ǐ@取到各時(shí)間窗口對應(yīng)的盡可能多的高價(jià)值關(guān)鍵詞,對2020年1月20日的數(shù)據(jù)設(shè)置不同的支持度閾值,得到不同的L1見表1。
表1 不同支持度下的L1結(jié)果
支持度設(shè)置為14.6%~14.9%時(shí),L1包括當(dāng)前時(shí)間窗口全部有價(jià)值的關(guān)鍵詞信息;支持度設(shè)置為14%時(shí),L1不僅包括當(dāng)前時(shí)間窗口全部有價(jià)值的關(guān)鍵詞信息,還包括一些與事件主題無關(guān)的信息,如“彈劾、港股、英特爾、洛桑、冬奧”;支持度設(shè)置為15.0%時(shí),篩選出的關(guān)鍵詞數(shù)目較少,部分較為重要的關(guān)鍵詞信息被漏掉,如“伊朗 欺詐 制裁 律師”,無法通過挖掘到的關(guān)鍵詞信息獲得事件起因。由分析可知當(dāng)前時(shí)間窗口的支持度閾值設(shè)置為14.6%,使用以上方式獲取所有時(shí)間窗口的支持度閾值。
4.2.2 置信度閾值設(shè)置
話題相關(guān)的關(guān)鍵詞信息在已有關(guān)聯(lián)規(guī)則集的基礎(chǔ)上獲得,關(guān)聯(lián)規(guī)則集中的關(guān)聯(lián)規(guī)則會對話題演化跟蹤的結(jié)果造成巨大影響,而關(guān)聯(lián)規(guī)則集中的關(guān)聯(lián)規(guī)則又受到置信度閾值的直接影響。故此處將時(shí)間窗口設(shè)為1天,使用該時(shí)間 窗口對應(yīng)的包含約230條微博言論或新聞報(bào)道的數(shù)據(jù)集,對支持度、置信度閾值與新聞報(bào)道的數(shù)目之間的關(guān)系進(jìn)行分析,如圖2所示。
圖2 支持度閾值與置信度閾值關(guān)系趨勢
由圖2可知,數(shù)據(jù)點(diǎn)集中分布在s_min∈[12%,19%],c_min∈[85%,93%]區(qū)間范圍內(nèi)。即,當(dāng)微博言論約230條時(shí),支持度與置信度閾值有較大幾率落在以上區(qū)間內(nèi)。因支持度閾值較大時(shí),關(guān)聯(lián)規(guī)則算法會將一些重要的話題相關(guān)關(guān)鍵詞信息過濾掉;支持度閾值較小時(shí),則會獲取到大量的冗余話題相關(guān)關(guān)鍵詞,比如:當(dāng)s_min=14.4%時(shí),c_min=89.9%;當(dāng)s_min=14.2%時(shí),c_min=91.0%。所以,在微博言論的數(shù)目已經(jīng)確定的前提下,設(shè)定的置信度閾值整體上會隨著設(shè)定的支持度閾值的升高表現(xiàn)出下降的趨勢。
本實(shí)驗(yàn)將時(shí)間窗口設(shè)為1天,圖3為各時(shí)間窗口使用并行關(guān)聯(lián)規(guī)則算法獲取的部分關(guān)聯(lián)規(guī)則集結(jié)果。
1月20日……孟晚舟 華為 聽證會->引渡 中國孟晚舟 法庭 聽證會->引渡 華為 溫哥華加拿大 犯罪 法庭->引渡 美國 孟晚舟 雙重孟晚舟 聽證會 中方 耿爽 回應(yīng) 公正->加媒引渡 美國 孟晚舟 加拿大 法庭->雙重 犯罪孟晚舟 脫困 引渡案->雙重 犯罪 抗辯 聽證會引渡 加拿大 雙重->伊朗 犯罪 孟晚舟 法庭引渡 孟晚舟 犯罪->審理 雙重 加拿大 美國引渡 標(biāo)準(zhǔn) 美國 審理 雙重 犯罪->孟晚舟 加拿大 案件孟晚舟 審理 法庭 美國->引渡 華為 加拿大 雙重 犯罪審理 犯罪 引渡案->引渡 加拿大 孟晚舟 雙重伊朗 孟晚舟 犯罪 美國->引渡 加拿大 雙重……1月21日……孟晚舟 雙重->犯罪 引渡開庭 引渡->聽證會 孟晚舟孟晚舟 首場 -> 聽證會 開庭加拿大 法院 孟晚舟->中國加拿大 孟晚舟 開庭->律師腳戴 電子 開庭->鐐銬 法院孟晚舟 司法 華為->加拿大 清白聽證會 華為->加拿大 孟晚舟 引渡加拿大 開庭 引渡->孟晚舟 引渡案中國 孟晚舟 開庭->拘押案 加拿大加拿大 孟晚舟 引渡案->聽證會 開庭拘押案 鐐銬->法院 電子 孟晚舟 開庭鐐銬 法院 電子 孟晚舟->不卑不亢 開庭…………5月28日……犯罪 雙重 未能->標(biāo)準(zhǔn) 孟晚舟公布 雙重 孟晚舟->加拿大 引渡案雙重 認(rèn)定 孟晚舟->加拿大 犯罪 判決犯罪 獲釋->加拿大 雙重 未能 孟晚舟引渡案 雙重 判決->加拿大 認(rèn)定 孟晚舟加拿大 判決 不列顛->孟晚舟 哥倫比亞省犯罪 認(rèn)定 孟晚舟->加拿大 雙重 引渡案加拿大 引渡案 標(biāo)準(zhǔn)->犯罪 雙重 審理 孟晚舟加拿大 犯罪 雙重 判決->引渡案 標(biāo)準(zhǔn) 孟晚舟加拿大 高等法院 不列顛 孟晚舟->哥倫比亞省加拿大 雙重 不列顛 孟晚舟->犯罪 引渡案 哥倫比亞省…………
將圖3中的所有關(guān)聯(lián)規(guī)則集按照時(shí)間順序組合后篩選,得到的熱點(diǎn)話題的相關(guān)關(guān)鍵詞結(jié)果見表2。其中,為了表格直觀、清晰,實(shí)驗(yàn)中涉及的相同語義的關(guān)鍵詞,如:中國和中方、加拿大和加方等,只選用一個(gè)關(guān)鍵詞。
表2 各階段熱點(diǎn)話題的關(guān)鍵詞結(jié)果
根據(jù)事件發(fā)展,“孟晚舟聽證會”事件可分為7個(gè)階段,每個(gè)階段的話題相關(guān)關(guān)鍵詞信息解析如下:
(1)1.20-1.28階段:加拿大哥倫比亞省法院對孟晚舟案舉行了引渡聽證會,該聽證會聚焦了華為首席財(cái)務(wù)官孟晚舟被起訴雙重犯罪問題。孟晚舟腳戴電子鐐銬,不卑不亢出席,其被指控引導(dǎo)匯豐銀行違反美國對伊朗的制裁,且在加拿大犯有欺詐罪。中方發(fā)言控告美加兩方濫用引渡條約,侵害了中國公民權(quán)益,希望能早日釋放孟晚舟。庭審法官表示將延期判決。
(2)2.13-2.16階段:美國對華為的打壓升級,司法部公布了一份聯(lián)邦起訴書,指控華為犯有敲詐勒索罪,并密謀竊取美國公司的商業(yè)機(jī)密,非法與朝鮮伊朗等國家合作。被告包括華為及其4家子公司和華為首席財(cái)務(wù)官孟晚舟。
(3)2.23-2.26階段:近日華為開始了反擊,向紐約法院遞交了一封信,這封信揭露了美國串通匯豐銀行誣陷華為的事實(shí),以及其引渡孟晚舟的意圖。
(4)3.30-4.3階段:周一,加拿大卑詩省最高法院舉行視頻會議審理孟晚舟向美國引渡案。美國稱華為涉嫌伊朗商業(yè)交易有關(guān)的銀行欺詐指控,因受疫情影響,下次案件管理會議延后至4月27日,且短期內(nèi)不再就是否符合“雙重犯罪”原則公布裁決。
(5)4.28-5.2階段:受疫情影響,在加拿大卑詩省最高法院以電話會議的方式舉行了聽證會,該聽證會聚焦了華為首席財(cái)務(wù)官孟晚舟被起訴雙重犯罪問題。
(6)5.22-5.27階段:加拿大哥倫比亞省最高法院將于5月27日就孟晚舟引渡案做出關(guān)鍵裁決。如果判決不符合美加引渡條件,孟晚舟將擺脫持續(xù)了500多天的被軟禁狀態(tài),重獲自由。5月26日,加拿大總理表示加方司法獨(dú)立,孟晚舟判決情況將不受政治干預(yù)。中國外交發(fā)言人趙立堅(jiān)回應(yīng)稱,美加兩國濫用引渡條約致使中國公民的合法權(quán)益受到侵害,希望能切實(shí)糾正錯(cuò)誤,早日釋放孟晚舟。
(7)5.28-6.6階段:北京時(shí)間28日凌晨,加拿大法院公布孟晚舟引渡案的第一個(gè)判決結(jié)果,孟晚舟被加拿大法院認(rèn)定符合“雙重犯罪”標(biāo)準(zhǔn),因此針對孟晚舟的引渡案將會繼續(xù)審理。該事件引起中方的強(qiáng)烈不滿,中方外交部發(fā)言人表示,加方在該事件中充當(dāng)了美國幫兇,為了打壓華為等高新企業(yè),濫用引渡條約,損害了中國公民的合法權(quán)益。
實(shí)驗(yàn)選取文獻(xiàn)[10]中的OLDA算法作對比。首先,按照時(shí)間信息使用OLDA算法對話題語料進(jìn)行劃分。然后,采用LDA模型通過對不同時(shí)間段對應(yīng)的文本數(shù)據(jù)進(jìn)行建模,最終實(shí)現(xiàn)話題演化分析,其中話題的先驗(yàn)知識是其歷史分布。實(shí)驗(yàn)結(jié)果見表3。
對比表2與表3,使用本文方法獲取的關(guān)鍵詞個(gè)數(shù)為276個(gè),比使用OLDA方法得到的關(guān)鍵詞個(gè)數(shù)多了50個(gè),且本文方法能獲取到更詳細(xì)準(zhǔn)確的信息。如:1.20-1.28階段“司法、公民、腳戴、鐐銬、主權(quán)、匯豐銀行、哥倫比亞省、延期”等關(guān)鍵詞,2.13-2.16階段“首席、民企、起訴書、民主、特朗普、任正非、5G、歐美、朝鮮”等關(guān)鍵詞,2.23-2.26階段“業(yè)務(wù)、手段、發(fā)聲、違反、法院、正式、政府”等關(guān)鍵詞,3.30-4.3階段“伊朗、公布、開庭、欺詐、市場、雙重、制裁、銀行、會議、違反” 等關(guān)鍵詞,4.28-5.2階段“芯片、遠(yuǎn)程、損害、卑詩省、雙重、違反、 會議、涉及、庭審” 等關(guān)鍵詞,5.22-5.27階段“高管、立場、銀行、欺詐、伊朗、結(jié)束、500、法律、發(fā)言人、回應(yīng)、合法權(quán)益、損害、律師、糾正錯(cuò)誤” 等關(guān)鍵詞,5.28-6.6階段“交涉、自由、趙立堅(jiān)、合法權(quán)益、打壓、出賣、支持、發(fā)言人、大國、5G、采訪、侵犯、原則、強(qiáng)烈不滿” 等關(guān)鍵詞。說明本文方法能夠挖掘出事件具體細(xì)節(jié)相關(guān)的關(guān)鍵詞,準(zhǔn)確分析事態(tài)進(jìn)展程度,有助于正確把握話題演化趨勢。
表3 各時(shí)間片OLDA算法的結(jié)果
本文引入“時(shí)間窗口”的概念,首先對各個(gè)時(shí)間窗口采用并行關(guān)聯(lián)規(guī)則算法獲取關(guān)聯(lián)規(guī)則集,進(jìn)而發(fā)現(xiàn)話題與其后續(xù)事件的關(guān)聯(lián)關(guān)系,從而跟蹤話題發(fā)展演變的來龍去脈。實(shí)驗(yàn)結(jié)果表明,本文提出的算法能夠更加完整有效地深入分析話題的動態(tài)演化細(xì)節(jié)。
本文只針對話題的內(nèi)容進(jìn)行跟蹤,沒有從話題強(qiáng)度分析話題的演化趨勢,而且話題在發(fā)展過程中存在漂移的情況。因此,如何有效跟蹤話題的漂移趨勢,并結(jié)合內(nèi)容和強(qiáng)度兩方面跟蹤話題的動態(tài)演化趨勢將是今后研究的主要內(nèi)容。