• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于時間序列分析的微博突發(fā)話題檢測方法

      2016-10-14 05:11:06賀敏徐杰杜攀程學(xué)旗王麗宏
      通信學(xué)報(bào) 2016年3期
      關(guān)鍵詞:動量頻域趨勢

      賀敏,徐杰,杜攀,程學(xué)旗,王麗宏

      ?

      基于時間序列分析的微博突發(fā)話題檢測方法

      賀敏1,2,徐杰2,杜攀1,程學(xué)旗1,王麗宏2

      (1. 中國科學(xué)院計(jì)算技術(shù)研究所,北京 100080;2. 國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)

      針對微博信息噪音大、新穎度難以判斷的問題,在動量模型的基礎(chǔ)上進(jìn)行優(yōu)化,提出了基于時序分析的微博突發(fā)話題檢測方法。通過動量模型提取候選突發(fā)特征后,對特征的動量時間序列分別借鑒信號頻域分析理論和股票趨勢分析理論進(jìn)行建模,分析特征的頻域特性來識別頻繁偽突發(fā)特征,分析特征的新穎程度來識別間歇性偽突發(fā)特征,合并過濾后的有效突發(fā)特征形成突發(fā)話題。微博數(shù)據(jù)實(shí)驗(yàn)表明,該方法有效提高了突發(fā)話題檢測的準(zhǔn)確率和值。

      突發(fā)話題;微博;突發(fā)特征;時序分析

      1 引言

      近年來,隨著Web 2.0社交網(wǎng)絡(luò)的興起,微博以其方便快捷的優(yōu)點(diǎn)迅速流行起來,現(xiàn)在已經(jīng)發(fā)展成為網(wǎng)絡(luò)信息傳播的主要途徑。微博用戶數(shù)量眾多,每天產(chǎn)生的信息量非常龐大。在微博中,人人都是信息的生產(chǎn)者和傳播者,信息發(fā)布、轉(zhuǎn)發(fā)非常便捷,這使微博成為信息傳播速度最快的網(wǎng)絡(luò)媒體。社會上許多突發(fā)性話題,往往在微博平臺上首發(fā),借助其好友轉(zhuǎn)發(fā)機(jī)制迅速傳播,引起廣泛的社會共鳴,進(jìn)而波及傳統(tǒng)媒體如新聞、論壇、博客等,產(chǎn)生巨大的社會影響。因此,微博平臺上的社會突發(fā)話題檢測技術(shù),對于社會熱點(diǎn)及時發(fā)現(xiàn)、網(wǎng)絡(luò)民意盡快感知、突發(fā)事件及早響應(yīng)等方面都具有積極的現(xiàn)實(shí)意義。

      這里的微博突發(fā)話題是指微博上新出現(xiàn)的可能在短時間內(nèi)產(chǎn)生強(qiáng)大影響力的關(guān)于社會熱點(diǎn)事件的網(wǎng)絡(luò)話題。傳統(tǒng)的突發(fā)話題檢測方法主要面向新聞等長文檔數(shù)據(jù),而且以突發(fā)特征的有效識別為基礎(chǔ),擴(kuò)展出突發(fā)話題。與傳統(tǒng)新聞話題相比,微博話題作為大眾媒體的產(chǎn)物,具有顯著的特點(diǎn)。

      1) 話題的多樣性。同一時間微博上各種話題,如社會事件類話題、娛樂八卦類話題、個人生活瑣事等多種話題摻雜在一起,特別是一些生活瑣事類話題,可能表現(xiàn)出一些周期性的突發(fā)特點(diǎn),如周一“不想上班”,周末“出游計(jì)劃”,月末“月光族”等話題。

      2) 話題的間歇性。同一個話題,通常會隨著微博用戶的關(guān)注程度和時間的推移經(jīng)歷一個產(chǎn)生、發(fā)展、成熟、衰退和消亡的完整生命周期。而且微博基于好友的轉(zhuǎn)發(fā)機(jī)制,導(dǎo)致海量的信息冗余,產(chǎn)生大量的滯后過期信息,這使話題表現(xiàn)出一定的間歇性特征。

      微博信息表現(xiàn)出的這些特點(diǎn),對于傳統(tǒng)的基于突發(fā)特征的突發(fā)話題發(fā)現(xiàn)方法提出了新的挑戰(zhàn)。

      1) 對于眾多具有突發(fā)性特點(diǎn)的特征,如何過濾日常生活類的周期性突發(fā)特征,是提高突發(fā)話題準(zhǔn)確性的一個關(guān)鍵問題。

      2) 如何識別間斷性突發(fā)特征,是確保突發(fā)話題新穎性的另外一個關(guān)鍵問題。

      本文針對上述挑戰(zhàn),在有意義串動量模型識別突發(fā)話題[1]的基礎(chǔ)上,進(jìn)一步優(yōu)化識別方法,采用信號頻域分析的方法,分析頻繁特征的頻譜特性,區(qū)分社會性話題的突發(fā)特征與生活類話題的特征,過濾頻繁偽突發(fā)特征;采用股票趨勢分析的方法,利用趨勢性信息間接判斷突發(fā)特征的新穎度,過濾間歇性偽突發(fā)特征,提升突發(fā)特征識別的準(zhǔn)確率,進(jìn)而提高突發(fā)話題檢測的準(zhǔn)確率。

      2 相關(guān)工作

      話題檢測的研究主要包括3類方法,第1類是基于聚類的方法,有層次聚類、增量聚類等多種方法;第2類是基于矩陣分解的方法,有LSI、NMF等模型;第3類是基于概率生成的方法,有PLSI、LDA等模型。但是,突發(fā)話題的檢測方法主要是以突發(fā)特征的發(fā)現(xiàn)來驅(qū)動,再由突發(fā)特征映射到突發(fā)話題。Fung[1]首次提出了以特征為中心的話題聚類方法。該方法通過分析時間信息來獲取突發(fā)特征,然后根據(jù)突發(fā)特征的分布進(jìn)行突發(fā)話題聚類。He[2]借鑒了Fung的方法,通過使用譜分析方法對詞語權(quán)重(如TF-IDF)隨時間變化的曲線進(jìn)行分類,然后使用高斯模型和高斯混合模型分別對非周期性特征和周期性特征進(jìn)行建模,尋找突發(fā)時間段,最后使用無監(jiān)督的貪婪算法檢測發(fā)現(xiàn)周期性和非周期性突發(fā)話題。Kleinberg[3]提出的二狀態(tài)自動機(jī)方法具有開創(chuàng)性,該方法基于一個隱馬爾可夫模型(HMM),模型中的觀測數(shù)據(jù)是主題詞在不同時間點(diǎn)上的詞頻序列,隱變量是詞語所處的狀態(tài)(突發(fā)狀態(tài)或非突發(fā)狀態(tài)),利用參數(shù)解析度和狀態(tài)翻轉(zhuǎn)代價(jià)2個參數(shù)來觸發(fā)狀態(tài)轉(zhuǎn)移,發(fā)現(xiàn)突發(fā)態(tài)和突發(fā)特征。

      近年來,在傳統(tǒng)方法的基礎(chǔ)上結(jié)合了社交網(wǎng)絡(luò)的新特性,提出了一些針對社交網(wǎng)絡(luò)突發(fā)話題檢測的新方法。Cui等[4]提出了將“#”作為Twitter突發(fā)事件的指示,根據(jù)“#”出現(xiàn)的位置、頻次分布、作者等信息定義了穩(wěn)定性、名言的可能性、作者熵等屬性來檢測Twitter突發(fā)事件。Du[5]使用微博中用戶影響力、信息的點(diǎn)擊數(shù)、回復(fù)數(shù)、收藏?cái)?shù)來綜合表示關(guān)鍵詞的能量,通過計(jì)算時間窗口內(nèi)的平均能量發(fā)現(xiàn)突發(fā)關(guān)鍵詞,對突發(fā)關(guān)鍵詞進(jìn)行相似度比較,合并發(fā)現(xiàn)突發(fā)話題。Shiva[6]提出了通過詞典學(xué)習(xí)的方法來識別新話題,如果當(dāng)前時刻的文檔不能用從前一時刻文檔中提取的詞典線性表示,則將文檔判定為新穎文檔,再將所有新文檔聚類產(chǎn)生新話題。Zhu[7]把網(wǎng)絡(luò)論壇話題發(fā)現(xiàn)中2個有代表性的模型(TF-IDF和UF-ITUF)結(jié)合起來,從內(nèi)容特征和用戶參與度兩方面計(jì)算主題和話題的相似度,由此來更新原話題和產(chǎn)生新話題。

      上述方法中,Cui[5]和Du[7]的方法僅考慮了話題的突發(fā)程度,Shiva[6]和Zhu[7]僅考慮了話題的新穎程度。而微博信息紛繁復(fù)雜,充斥著大量的歷史過期信息和個人生活信息,需要將突發(fā)性與新穎性結(jié)合起來分析,才能更加準(zhǔn)確地識別突發(fā)話題。本文在使用動量模型判斷特征突發(fā)程度的基礎(chǔ)上,進(jìn)一步通過分析特征的時間序列判斷特征的頻繁程度和新穎程度,準(zhǔn)確識別新穎的突發(fā)話題特征,有效檢測突發(fā)話題。

      3 基于特征時序分析的微博突發(fā)話題檢測方法

      3.1 基于有意義串動量模型的微博突發(fā)話題檢測方法

      基于有意義串動量模型的突發(fā)話題識別方法[8]中實(shí)時檢測有意義串,發(fā)現(xiàn)微博中不斷涌現(xiàn)的新詞,將新詞作為突發(fā)話題檢測的基本特征;利用動力學(xué)原理建模這些基本特征的動態(tài)變化特性,通過對特征變化的動量和加速度分析,衡量其變化趨勢和突發(fā)程度,識別微博的突發(fā)性特征,進(jìn)而發(fā)現(xiàn)突發(fā)性話題。

      有意義串提取[9]是一種回顧性檢測,具體的提取過程為:首先通過重復(fù)串發(fā)現(xiàn)得到候選字符串;然后計(jì)算重復(fù)串的上下文鄰接類別,來衡量候選串是否滿足語用多樣性;最后通過語言模型來判斷字符串的語義完整性,經(jīng)過兩層過濾得到有意義串。有意義串在真實(shí)語境中大量使用,比詞語粒度更大,可以涵蓋正在使用的新詞和術(shù)語,能夠更加準(zhǔn)確有效地反映實(shí)時微博話題的關(guān)鍵信息。

      動態(tài)提取觀察時間窗口內(nèi)微博信息的有意義串,作為局部微博信息的特征,借鑒動力學(xué)原理對特征進(jìn)行建模,定義特征的“質(zhì)量”、“位置”、“速度”、“加速度”、“動量”等基本屬性,來反映特征在事件發(fā)展過程中的變化趨勢及能量大小,進(jìn)而識別突發(fā)特征。特征的若干物理學(xué)基本屬性的定義如下。

      定義1 特征的“質(zhì)量”指特征的重要性,它不隨時間變化,是特征的基本屬性,在一段較長時間內(nèi)基本恒定。該值采用傳統(tǒng)的來衡量,通過統(tǒng)計(jì)特征在大量信息中的和計(jì)算得到。特征的質(zhì)量。

      定義2 特征的“位置”與時間相關(guān),指特征在某一時刻的流通度或關(guān)注度,隨時間動態(tài)變化。該值與特征在時刻出現(xiàn)的頻次、文檔頻次、參與博主數(shù)等相關(guān),計(jì)算式為

      上述定義中,特征的“質(zhì)量”是在大量信息中統(tǒng)計(jì)得到的,反映了特征在普通文本流中的重要性。特征的“位置”是與時間相關(guān)的值,反映了特征在時刻的熱度。由這2個基本的定義,可以計(jì)算特征在時刻的速度,動量和加速度。

      根據(jù)動力學(xué)定義,動量反映了特征在時刻的能量大小及變化趨勢,加速度反映了特征在時刻與時刻的二階變化趨勢,即時刻的增長率與時刻的增長率相比是加快還是放緩。只有當(dāng)特征的和都滿足一定條件時,表明特征在當(dāng)前時刻的瞬時能量比較大,而且有迅速增長的趨勢,該特征才是突發(fā)特征。

      最后,根據(jù)突發(fā)特征的共現(xiàn)情況對突發(fā)特征聚類,得到突發(fā)話題。

      3.2 基于頻域分析的頻繁偽突發(fā)特征識別

      在3.1節(jié)方法中,突發(fā)特征識別的準(zhǔn)確率直接決定了突發(fā)話題檢測的準(zhǔn)確率。動量模型雖然反映了特征的瞬時能量變化趨勢,但是不能體現(xiàn)特征在較長時間段的歷史能量情況。在真實(shí)微博信息中,存在這樣一類頻繁特征,如“工作人員”、“上半年”,“短信”等,它們周期性或者非周期性的頻繁出現(xiàn),但每天出現(xiàn)的頻次不會特別高。由于語言的多樣復(fù)雜性,這類頻繁特征可以在多重語境中重復(fù)出現(xiàn),偶爾呈現(xiàn)瞬時爆發(fā)增長趨勢,但實(shí)際上并非真正的突發(fā)話題關(guān)鍵特征,稱為頻繁偽突發(fā)特征。在這種情況下,動量模型將這些特征誤識別為突發(fā)特征,最終產(chǎn)生錯誤的突發(fā)話題。

      為了識別上述頻繁偽突發(fā)特征,需要對特征在較長歷史時間段的頻繁程度及變化規(guī)律進(jìn)行分析。而信號的頻域分析能夠直觀看到信號在不同頻率成份上的大小分布,直接反映了信號的頻繁程度,揭示了信號隨出現(xiàn)頻率的能量變化規(guī)律。因此,借鑒信號頻域分析的理論,對特征的動量時間序列建模,將特征在一段時間的動量時間序列看做離散時間信號,變換到頻域空間,來觀察特征的能量分布規(guī)律特性。從離散時間信號變換到離散頻域信號的方法從采用信號處理中應(yīng)用廣泛的離散傅里葉變換,變換式如下

      例如,通過3.1節(jié)方法發(fā)現(xiàn)在2013年10月的數(shù)據(jù)中發(fā)現(xiàn)了“事業(yè)單位”、“今天下午”、“墜入湄公河”、“暴力恐怖襲擊”這幾個突發(fā)特征,將特征連續(xù)28天的動量時間序列,通過離散傅里葉變換變換到頻域中,在不同頻率上的能量分布曲線如圖1所示。

      從圖1中看出,“事業(yè)單位”、“今天下午”2個特征的能量分布曲線中,0頻率上的能量比較大,而其他頻率上的能量相對較小,曲線有較明顯的沖擊,而實(shí)際上它們是頻繁偽突發(fā)特征;“墜入湄公河”、“暴力恐怖襲擊”2個特征的能量分布曲線中,0頻率上的能量與其他頻率上的能量差距相對較小,曲線比較平緩,而它們是真正的突發(fā)特征。曲線中0頻率代表信號的恒定分量,它的大小反映出特征每天出現(xiàn)的穩(wěn)定情況,曲線中的非0頻率代表信號的變化分量,它的大小反映出特征的變化情況。如果特征每天出現(xiàn)的頻次恒定,那么頻譜曲線中將只有0頻率的能量,其他頻率能量為0。為了區(qū)分頻繁偽突發(fā)特征和突發(fā)特征,利用上述特性給出能量比的定義。

      定義3 信號的頻譜分布中,0頻率的能量與其他頻率能量平均值的比值稱為能量比,用符號表示

      可作為特征是否為頻繁特征的度量,的值越大,特征是頻繁特征的可能性越大。實(shí)際應(yīng)用中通過大量的標(biāo)注數(shù)據(jù)訓(xùn)練得到閾值S,采用與閾值比較的方法過濾掉頻繁偽突發(fā)特征。

      3.3 基于趨勢分析的間歇性偽突發(fā)特征識別

      話題呈現(xiàn)出一定的生存周期,有些話題的產(chǎn)生、發(fā)展、消亡是連續(xù)的,從話題產(chǎn)生開始到結(jié)束期間,每天都產(chǎn)生相關(guān)消息,但是有些話題的發(fā)展是間歇性的,話題產(chǎn)生后沉寂幾天才會有新的進(jìn)展和消息,在話題存在的整個周期中,不一定每天都出現(xiàn)相關(guān)討論。因此,在3.1節(jié)方法中,存在一部分突發(fā)特征誤判,這類特征間歇性的出現(xiàn),實(shí)際上是一個話題,但由于動量模型只判斷了瞬時的動量和加速度,尚未判斷特征更長時間段是否活躍,產(chǎn)生誤判。例如,圖2中所示的贛南臍橙被染色的話題中的特征“贛南臍橙”,最早在10月25日出現(xiàn),在接下來的3天內(nèi)討論比較少,而在10月29日又再次爆發(fā),根據(jù)動量模型方法,它被再次識別為新的突發(fā)話題,而該話題實(shí)際上仍是10月25日話題的延續(xù),并非新穎的話題。

      為了識別間歇性偽突發(fā)特征,需要分析特征在一定周期內(nèi)的新穎性。特征在一個話題周期內(nèi)第一次大量出現(xiàn)稱為突發(fā),而當(dāng)特征在一個話題周期內(nèi)再次出現(xiàn)時,即使表現(xiàn)出瞬時爆發(fā),但是由于此次爆發(fā)與第一次真正的突發(fā)存在間歇期,從階段性趨勢來看,經(jīng)過間歇期后的爆發(fā)點(diǎn)應(yīng)該已經(jīng)處于特征的下降趨勢范圍。股票趨勢分析方法就是針對一定時間段的價(jià)格變化進(jìn)行平滑,分析價(jià)格在一定時間范圍的上漲或者下跌趨勢。因此,借鑒股票趨勢分析的方法,對話題周期內(nèi)的特征動量進(jìn)行平滑,分析其階段性的趨勢特點(diǎn),進(jìn)而判斷突發(fā)特征的新穎性,識別出間歇性偽突發(fā)特征。下面給出幾個定義。

      定義4 指數(shù)移動平均(EMA, exponential moving average)將特征的動量時間序列進(jìn)行天指數(shù)平均,平均后的動量值與前天的動量值相關(guān),對于較近的動量值權(quán)重較大。

      定義5 移動平均收斂發(fā)散(MACD, moving average convergencc-divergence)指標(biāo)是由2條曲線構(gòu)成:一條實(shí)線(稱為MACD線)與一條虛線(稱為signal線)。MACD線是較快的EMA線和較慢的EMA線的差值,它對于動量值變動的反應(yīng)比較敏感。較快的EMA線與較慢的EMA線相比,取值更小,受影響的歷史區(qū)間更小,對當(dāng)前值反應(yīng)更快。signal線是MACD線是經(jīng)過指數(shù)平均之后的另一條EMA線,它對于動量值變動的反應(yīng)比較緩慢。計(jì)算式如下

      (6)

      當(dāng)快速的MACD線穿越慢速的Signal線,動量的趨勢發(fā)生變化。用histogram來表示,它是MACD和signal的差值,計(jì)算式如下

      擴(kuò)大了特征的平均動量值和局部波動之間的差異,當(dāng)>0時,表示動量處于上升趨勢,當(dāng)<0時,表示動量處于下降趨勢。它可用來反映特征動量的變化趨勢,作為衡量特征新穎性的指標(biāo)。在經(jīng)過動量模型判斷特征是否突發(fā)后,再次根據(jù)特征的值是否大于0,來判斷特征是否是間歇性偽突發(fā)特征。間歇性突發(fā)特征在首次出現(xiàn)時,>0,動量呈現(xiàn)上升態(tài)勢,屬于突發(fā)特征;當(dāng)間歇性特征在話題周期內(nèi)再次出現(xiàn)時,<0,動量呈現(xiàn)下跌態(tài)勢,則表明特征在前期出現(xiàn)過大規(guī)模爆發(fā),判斷該特征不是新穎的突發(fā)特征,該時間點(diǎn)不是突發(fā)點(diǎn)。例如,“贛南臍橙”的趨勢分析如圖3所示,表示特征的動量,在 10月29日時,雖然動量和加速度都比較大,但是值小于0,表明該特征不是新穎的特征,屬于間歇性的偽突發(fā)特征。

      圖3 “贛南臍橙”趨勢分析

      在突發(fā)特征的趨勢分析中,參數(shù)1、2、3的取值與話題周期相關(guān)。變化較慢的EMA線中2的取值為一個話題周期,因?yàn)殚g歇性偽突發(fā)特征的識別限定在一個話題周期內(nèi),對于時間超過一個話題周期的突發(fā)特征可能是真正的突發(fā)特征。參考股票趨勢分析方法的參數(shù)選取,1的取值為2的一半,3取值介于1和2之間,能夠反映出趨勢的變化情況。通過大量統(tǒng)計(jì)分析和訓(xùn)練發(fā)現(xiàn),大部分話題的生存周期在一周以內(nèi),1取值為3,2取值為7,3取值為5,對于間歇性突發(fā)特征的識別比較有效。對于具體領(lǐng)域的突發(fā)話題檢測,1、2、3的取值需要根據(jù)應(yīng)用場景重新調(diào)整。

      4 實(shí)驗(yàn)及結(jié)果分析

      4.1 實(shí)驗(yàn)數(shù)據(jù)及評價(jià)標(biāo)準(zhǔn)

      本文通過互聯(lián)網(wǎng)采集新浪微博由1 000個加V活躍博主從2013年8月~11月發(fā)表的78萬余條微博信息作為實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)將8月~10月中旬兩個半月的數(shù)據(jù)作為訓(xùn)練語料,將10月13日~11月9日的數(shù)據(jù)作為微博信息流檢測每天的突發(fā)話題。由2名輿情分析領(lǐng)域的專業(yè)人員對每天的數(shù)據(jù)進(jìn)行標(biāo)注,分別產(chǎn)生185和193個突發(fā)話題,取2人標(biāo)注的交集共180個突發(fā)話題做為作為評價(jià)實(shí)驗(yàn)結(jié)果的標(biāo)準(zhǔn)。根據(jù)標(biāo)注結(jié)果計(jì)算突發(fā)話題的準(zhǔn)確率、召回率和綜合指標(biāo)值,以此評價(jià)算法。

      4.2 實(shí)驗(yàn)結(jié)果

      由于微博文本高度稀疏,采用聚類的突發(fā)話題檢測方法在微博上效果較差,本實(shí)驗(yàn)采用將內(nèi)容與用戶結(jié)合起來的經(jīng)典模型TF-IDF&UF-IUF[7]方法與動量模型方法、兩類改進(jìn)型的動量模型方法來作對比。其中,2類改進(jìn)型的動量模型方法是在動量模型基礎(chǔ)上通過對特征頻域分析和趨勢分析進(jìn)行的優(yōu)化。實(shí)驗(yàn)結(jié)果如表1所示。

      表1 突發(fā)話題檢測結(jié)果

      從表1中看出,不管是動量模型方法,還是在其基礎(chǔ)上優(yōu)化的頻域分析和趨勢分析方法,實(shí)驗(yàn)結(jié)果的準(zhǔn)確率和召回率都比TF-IDF&UF-IUF方法高很多。這是因?yàn)閯恿磕P洼^好地反映了特征的瞬時能量變化,能夠快速發(fā)現(xiàn)突發(fā)特征。頻域分析方法和趨勢分析方法進(jìn)一步對特征進(jìn)行較長時間段能量變化分析,與動量模型方法相比,實(shí)驗(yàn)結(jié)果對召回率的影響較小,準(zhǔn)確率都有較大的提升。趨勢分析方法與頻域分析方法相比,準(zhǔn)確率和召回率都略高,因?yàn)橼厔莘治龇椒ㄟ^濾掉的突發(fā)話題均為錯誤結(jié)果,對召回率沒有影響,準(zhǔn)確率提高較多;而頻域方法在過濾掉大部分錯誤結(jié)果的同時,也將個別正確的突發(fā)話題過濾掉,在準(zhǔn)確率提高的同時,對召回率有影響。實(shí)驗(yàn)驗(yàn)證了頻域分析方法能夠準(zhǔn)確地識別頻繁偽突發(fā)特征,趨勢分析方法能夠準(zhǔn)確地識別間歇性偽突發(fā)特征,有效地過濾了動量模型中的偽突發(fā)特征,進(jìn)而減少了錯誤的突發(fā)話題發(fā)現(xiàn)結(jié)果。經(jīng)過頻域分析和趨勢分析方法兩層過濾后,剔除了大部分的錯誤結(jié)果,突發(fā)話題發(fā)現(xiàn)的準(zhǔn)確率已經(jīng)高達(dá)96.27%。

      為了進(jìn)一步分析話題準(zhǔn)確率提高的原因,表2顯示3種方法對于突發(fā)特征的識別結(jié)果對比。從表中看出,頻域分析在過濾掉一些頻繁偽突發(fā)特征的同時,也將一部分正確的突發(fā)特征當(dāng)作頻繁特征錯誤過濾,但是過濾的頻繁偽突發(fā)特征比例仍高于誤判的正確突發(fā)特征比例,所以在突發(fā)特征準(zhǔn)確率上仍有較大提升。雖然過濾掉一部分正確的突發(fā)特征,但是從表1看出,該步驟對正確突發(fā)話題的檢測數(shù)量只產(chǎn)生微小影響,這是因?yàn)闄z測發(fā)現(xiàn)的多個突發(fā)特征最終對應(yīng)一個正確的突發(fā)話題,只要尚未將一個突發(fā)話題對應(yīng)的所有突發(fā)特征都過濾掉,仍然可以通過特征聚類產(chǎn)生該突發(fā)話題。例如,10月14日的數(shù)據(jù)中,“高考改革、分值、英語科目、北京高考”是一個突發(fā)話題,“分值”通過頻域分析方法作為一個頻繁特征被刪除,但是該話題的其他幾個突發(fā)特征仍然存在,合并后突發(fā)話題仍然可以準(zhǔn)確識別。而“短信、客服”這樣的突發(fā)話題本來就是錯誤結(jié)果,對應(yīng)的突發(fā)特征數(shù)量一般比較少,通過頻域分析能夠?qū)⑵淙窟^濾。

      從表2的結(jié)果可以看出:趨勢分析的方法能夠減少錯誤的突發(fā)特征數(shù)量,而準(zhǔn)確的突發(fā)特征數(shù)量幾乎沒有下降,突發(fā)特征發(fā)現(xiàn)的準(zhǔn)確率得到提升。因?yàn)橼厔莘治龇椒▋H將已經(jīng)出現(xiàn)過的間歇性突發(fā)特征過濾,對于正確的突發(fā)特征發(fā)現(xiàn)影響很小。例如,對于圖2所示的話題,通過趨勢分析能夠在10月28日判斷出“贛南臍橙”和“催熟染色”這2個突發(fā)特征并非新穎特征,將其從突發(fā)特征中刪除。

      表2 突發(fā)特征識別結(jié)果

      5 結(jié)束語

      本文針對動量模型方法對突發(fā)特征誤判的現(xiàn)象,提出了采用時間序列分析方法來過濾偽突發(fā)特征來檢測突發(fā)話題的優(yōu)化方法。在動量模型的基礎(chǔ)上,對特征的動量時間序列分別借鑒信號頻域分析理論和股票趨勢分析理論進(jìn)行建模,通過特頻域分析過濾掉頻繁偽突發(fā)特征,通過趨勢分析過濾掉間歇性偽突發(fā)特征,最終對有效的突發(fā)特征聚類產(chǎn)生突發(fā)話題。實(shí)驗(yàn)中,在對突發(fā)話題檢測召回率影響較小的情況下,該方法相對動量模型方法將突發(fā)話題檢測準(zhǔn)確率從87.71%提升到96.27%,能夠有效提升突發(fā)話題檢測的準(zhǔn)確率和值。

      基于特征時序分析的微博突發(fā)話題檢測方法有效提升了突發(fā)話題的準(zhǔn)確率,但未來仍需在如下2個方向上繼續(xù)探索:1)優(yōu)化突發(fā)特征的識別策略,采用學(xué)習(xí)方法或產(chǎn)生式策略加以整合識別;2)提升突發(fā)特征識別的召回率,通過利用好友關(guān)系、鏈接關(guān)系、轉(zhuǎn)發(fā)關(guān)系等豐富的關(guān)聯(lián)關(guān)系,彌補(bǔ)動量模型方法對突發(fā)特征識別的漏檢。

      [1] FUNG G, YU J, YU P, et al. Parameter free bursty events detection in text streams[C]//Conference on 31th VLDB. Trondheim, Norway, c2005: 181-192.

      [2] HE Q. CHANG K, LIM E. Analyzing feature trajectories for event detection[C]//Conference on 30th SIGIR. Amsterdam, c2007: 208-214.

      [3] KLEINBERG J. Bursty and hierarchical structure in steam[C]// Conference on KDD’02. Edmonton, Alberta, Canada, c2002: 91-101.

      [4] CUI A, ZHANG M, LIU Y, et al. Discover breaking events with popular hashtags in twitter[C]// Conference on CIKM’12. Maui, HI, USA, c2012: 1796-1798.

      [5] DU Y Y, HE Y X, TIAN Y. Microblog bursty topic detection based on userrelationship[C]// 6th IEEE Information Technology and Artificial Intelligence Conference. Chongqing, China, c2011: 260-263.

      [6] SHIVA P K, PREM M, ARINDAM B. Emerging topic detection using dictionary learning[C]//Conference on CIKM’11. Glasgow, Scotland, UK, c2011: 745-754.

      [7] ZHU M L, HU W M, WU O. Topic detection and tracking for threaded discussion communities[C]// IEEE/WIC/ACM International Conferences on Web Intelligences and Intelligent Agent Technology. c2008: 77-83.

      [8] 賀敏, 杜攀, 張瑾, 等. 基于有意義串動量模型的微博突發(fā)話題檢測方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(5): 1022-1028.

      HE M, DU P,ZHANG J, et al. Microblog bursty topic detection method based on momentum model [J]. Journal of Computer Research and Development, 2015, 52(5):1022-1028

      [9] 賀敏.面向互聯(lián)網(wǎng)的有意義串挖掘[D]. 北京:中國科學(xué)院計(jì)算技術(shù)研究所,2007.

      HE M. Web-oriented Chinese meaningful string mining[D]. Beijing: Institute of Computing Technology, Chinese Academy of Sciences, 2007.

      [10] ALAN R, MAUSAM, O E. Open domain event extraction from twitter[C]// Conference on KDD’12. Beijing, China, c2012: 1104-1112.

      [11] ANDREW J, YASHAR M, JOEMON M. Building a large-scale corpus for evaluating event detection on twitter[C]// Conference on CIKM’13. San Francisco, CA, USA, c2013: 409-418.

      [12] DIAO Q M, JIANG J, ZHU F D, et al. Finding bursty topics from microblogs[C]// The 50th Annual Meeting of the Association for Computational Linguistics. Jeju, Korea, c2012: 536-544.

      [13] POPESCU A M, PENNACCHIOTTI M, PARANJPE D A. Extracting events and event descriptions from twitter[C]// Conference on WWW’11. Hyderabad, India, c2011: 105-106.

      [14] LI C L, SUN A X, DATTA A. Twevent: segment-based event detection from tweets[C]// Conference on CIKM’12. Maui, HI, USA, c2012: 155-164.

      Bursty topic detection method for microblog based on time series analysis

      HE Min1,2, XU Jie2, DU Pan1, CHENG Xue-qi1, WANG Li-hong2

      (1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China; 2.National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China)

      Detecting bursty topics from microblogs was an important task to understand the current events attracting a large number of internet users. However, the existing methods suitable for news articles cannot be adopted directly for microblogs. Because microblogs have unique characteristics compared with formal texts, including diversity, dynamic and noise. A detection method for microblog bursty topic was proposed based on time series analysis, which was an optimization method of momentum model. The candidate bursty features were extracted by momentum model. The time series of feature’s momentum were modled by frequency domain analysis theory and stock trend analysis theory. The frequently pseudo-bursty features were filtered according to analysis results of frequency-domain characteristics. The intermittently pseudo-bursty features were filtered according to the novelty analysis result through stock trend theory. The bursty topics were finally emerged with combination of effective bursty features. The experiments are conducted on a real Sina microblog data set. It show that the proposed method improves the precision and-measure remarkably compared with the momentum modle.

      bursty topic, microblog, bursty feature, time series analysis

      TP391

      A

      10.11959/j.issn.1000-436x.2016052

      2015-04-03;

      2015-08-29

      國家高技術(shù)研究發(fā)展計(jì)劃(“863”計(jì)劃)基金資助項(xiàng)目(No. 2014AA015203);國家科技支撐計(jì)劃基金資助項(xiàng)目(No. 2012BAH46B01)

      The National High Technology Research and Development Program of China (863 Program)(No. 2014AA015203), The National Key Technology Support Program (No.2012BAH46B01)

      賀敏(1982-),女,山西忻州人,中國科學(xué)院計(jì)算技術(shù)研究所博士生,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全、輿情分析、自然語言處理等。

      徐杰(1982-),男,山西五寨人,博士,國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心工程師,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全和多媒體技術(shù)。

      杜攀(1981-),男,河南南陽人,中國科學(xué)院計(jì)算技術(shù)研究所助理研究員,主要研究方向?yàn)槲谋就诰?、信息檢索、機(jī)器學(xué)習(xí)等。

      程學(xué)旗(1971-),男,安徽安慶人,中國科學(xué)院計(jì)算技術(shù)研究所研究員、博士生導(dǎo)師,主要研究方向?yàn)樾畔z索、文本挖掘、社會計(jì)算等。

      王麗宏(1967-),女,遼寧沈陽人,國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心副總工程師、研究員,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全、輿情分析等。

      猜你喜歡
      動量頻域趨勢
      動量守恒定律在三個物體系中的應(yīng)用
      趨勢
      應(yīng)用動量守恒定律解題之秘訣
      動量相關(guān)知識的理解和應(yīng)用
      頻域稀疏毫米波人體安檢成像處理和快速成像稀疏陣列設(shè)計(jì)
      初秋唇妝趨勢
      Coco薇(2017年9期)2017-09-07 21:23:49
      SPINEXPO?2017春夏流行趨勢
      基于改進(jìn)Radon-Wigner變換的目標(biāo)和拖曳式誘餌頻域分離
      一種基于頻域的QPSK窄帶干擾抑制算法
      基于頻域伸縮的改進(jìn)DFT算法
      電測與儀表(2015年3期)2015-04-09 11:37:24
      湘乡市| 凤山市| 鹤壁市| 湄潭县| 伊宁县| 原平市| 长沙县| 察雅县| 满洲里市| 永泰县| 弋阳县| 蓝山县| 博白县| 威宁| 兴城市| 三明市| 呼和浩特市| 辽阳市| 吉木萨尔县| 镇江市| 灵山县| 松桃| 赤壁市| 嘉定区| 车致| 西贡区| 井研县| 闸北区| 丹寨县| 东兰县| 平遥县| 象州县| 岳普湖县| 平安县| 英山县| 旌德县| 阿坝| 黄浦区| 榕江县| 闽侯县| 万安县|