沈瑞琳,潘偉民,張海軍
(新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054)
由于網(wǎng)絡(luò)的開放性、微博平臺(tái)的言論自由性等特點(diǎn),微博在方便人們?nèi)粘I畹耐瑫r(shí),也為謠言的產(chǎn)生提供了便利場(chǎng)所。本文中謠言指未經(jīng)證實(shí)的信息,即在人與人之間傳播,與公眾關(guān)注的對(duì)象、事件或問題有關(guān),并且在沒有被權(quán)威機(jī)構(gòu)證實(shí)的情況下流傳的信息,因此,信息可能是真的,也可能是假的。
現(xiàn)有的謠言檢測(cè)方法大致分為3種:一是基于人工的方法,主要依靠人的經(jīng)驗(yàn)對(duì)事件的真實(shí)性做出判斷,例如@微博辟謠、@謠言粉碎機(jī),不僅耗費(fèi)大量的人力和物力,還導(dǎo)致了更長(zhǎng)的延遲。二是基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,根據(jù)消息內(nèi)容、用戶信息、傳播模式等進(jìn)行分析來人工構(gòu)造特征,通過人工特征提取數(shù)據(jù)中的關(guān)鍵信息[1-5]。三是基于深度學(xué)習(xí)的方法,該方法不需要特征工程,同時(shí)可以挖掘到不易被人們發(fā)現(xiàn)的深層特征[6-11]。深度學(xué)習(xí)方法需要依賴大量的帶標(biāo)簽數(shù)據(jù)才能學(xué)到更深層的特征表示,目前在微博謠言檢測(cè)工作中僅有少量的帶標(biāo)簽數(shù)據(jù)。因此,解決深度學(xué)習(xí)模型中帶標(biāo)簽數(shù)據(jù)少的問題是如今熱點(diǎn)研究問題之一。對(duì)于標(biāo)注數(shù)據(jù)少的問題,研究者展開了大量研究。起初采用無監(jiān)督的方法,但是由于數(shù)據(jù)沒有標(biāo)注,導(dǎo)致分類歧義性較高。近幾年,隨著遷移學(xué)習(xí)的應(yīng)用,許多領(lǐng)域標(biāo)注數(shù)據(jù)少的問題開始得到有效解決。遷移學(xué)習(xí)是運(yùn)用已有知識(shí)對(duì)不同但相關(guān)領(lǐng)域問題求解的一種機(jī)器學(xué)習(xí)方法[12],打破了傳統(tǒng)機(jī)器學(xué)習(xí)中訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)必須滿足獨(dú)立同分布的假設(shè),并且解決了標(biāo)注數(shù)據(jù)不足的問題。如可以用來辨識(shí)自行車的知識(shí)也可以用來提升識(shí)別摩托車的能力。采用遷移學(xué)習(xí)方法借助相關(guān)領(lǐng)域豐富的數(shù)據(jù)資源,對(duì)于解決微博謠言檢測(cè)中帶標(biāo)簽數(shù)據(jù)少的問題提供了很好的研究思路。本文將遷移學(xué)習(xí)技術(shù)應(yīng)用于微博謠言檢測(cè)中,利用相關(guān)領(lǐng)域中充足的帶標(biāo)簽數(shù)據(jù)輔助微博中少量的標(biāo)簽數(shù)據(jù),進(jìn)行謠言檢測(cè)。
社交媒體上的謠言自動(dòng)檢測(cè)一直是近年來的一個(gè)研究熱點(diǎn)。傳統(tǒng)的謠言檢測(cè)方法主要利用人工構(gòu)造特征,再采用機(jī)器學(xué)習(xí)模型學(xué)習(xí)文本的淺層特征。最早的自動(dòng)謠言檢測(cè)方法源于2011年Castillo等[1]對(duì)Twitter中信息可信度的檢測(cè),該方法首先利用特征工程構(gòu)造特征,然后采用支持向量機(jī)(SVM)對(duì)文本進(jìn)行檢測(cè)。Yang等[2]在2012年提出基于微博的謠言檢測(cè)方法,該方法利用微博中涉及的地理位置、發(fā)文客戶端信息、文本符號(hào)的情感極性等特征,采用SVM構(gòu)造微博謠言分類器模型。后人在此基礎(chǔ)上展開了對(duì)Twitter和微博中謠言檢測(cè)的研究[3-5]。以上方法都需要特征工程的參與,不僅耗時(shí)費(fèi)力,且僅能學(xué)到文本的淺層特征。
隨著深度神經(jīng)網(wǎng)絡(luò)模型在很多領(lǐng)域取得了不錯(cuò)的成果[13,14],研究者開始將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到微博謠言檢測(cè)領(lǐng)域。Ma等[6]提出基于深度神經(jīng)網(wǎng)絡(luò)模型的微博謠言檢測(cè)方法,作者實(shí)現(xiàn)了tanh-RNN、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)、雙層GRU這4種模型,由于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)存在梯度消失和梯度爆炸的問題,其它3種模型的性能普遍高于tanh-RNN,在單層網(wǎng)絡(luò)模型中GRU比LSTM性能略好,與雙層網(wǎng)絡(luò)模型比較,由于雙層GRU可以提取更深層的語義特征,因此性能最優(yōu),這也說明,使用相同的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)層數(shù)越多模型性能越好。Sampson等[7]通過利用少量會(huì)話之間的隱式鏈接提高了早期謠言的檢測(cè)精度。Ruchansky等[8]提出了一種將文章文本、用戶的響應(yīng)以及來源用戶3種特征結(jié)合起來的混合模型,結(jié)果優(yōu)于僅使用單一特征和模型的方法。Yu等[9]將各時(shí)間段文本向量拼接成事件的特征矩陣,并采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)事件的隱層表示。Zhou等[10]通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)謠言早期檢測(cè)。Li等[11]利用內(nèi)容、用戶可信度和傳播信息在社交媒體上發(fā)現(xiàn)謠言。這些方法主要依靠公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),也有研究者對(duì)數(shù)據(jù)進(jìn)行了擴(kuò)充,但都是有限的數(shù)據(jù)擴(kuò)充。微博謠言檢測(cè)仍然面臨數(shù)據(jù)少的困境。雖然基于深度學(xué)習(xí)的方法在微博謠言檢測(cè)任務(wù)取得了一定的進(jìn)展,但是深度學(xué)習(xí)模型對(duì)大量標(biāo)注數(shù)據(jù)的需求也制約了深度學(xué)習(xí)在該領(lǐng)域的進(jìn)一步發(fā)展。
近幾年,隨著遷移學(xué)習(xí)的不斷發(fā)展[12-16],研究者開始將其應(yīng)用于謠言檢測(cè)領(lǐng)域。Ma等[17]將多任務(wù)學(xué)習(xí)應(yīng)用于Twitter謠言檢測(cè)任務(wù),通過共享多個(gè)任務(wù)的通用知識(shí),使多個(gè)任務(wù)同時(shí)獲得較好的效果。Wen等[18]提出了一種基于跨語言跨平臺(tái)的社交媒體謠言檢測(cè)方法,在謠言檢測(cè)中加入其它平臺(tái)與該事件相關(guān)的信息,來提高檢測(cè)結(jié)果的真實(shí)性。劉等[19]將多任務(wù)學(xué)習(xí)應(yīng)用于Twitter中的分領(lǐng)域謠言檢測(cè),通過領(lǐng)域適配技術(shù)使源領(lǐng)域數(shù)據(jù)與目標(biāo)領(lǐng)域的數(shù)據(jù)分布趨于相似。郭[20]將模型遷移應(yīng)用于Twitter謠言檢測(cè)任務(wù),首先利用包含大量標(biāo)簽數(shù)據(jù)的評(píng)論數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,然后利用模型遷移,使模型適用于Twitter謠言檢測(cè)任務(wù),提高了Twitter謠言檢測(cè)任務(wù)的準(zhǔn)確率,同時(shí)驗(yàn)證了評(píng)論數(shù)據(jù)對(duì)謠言檢測(cè)任務(wù)的有用性。
為解決帶標(biāo)簽數(shù)據(jù)少和檢測(cè)準(zhǔn)確率不高的問題,本文將模型遷移應(yīng)用到微博謠言檢測(cè)領(lǐng)域,利用大量帶標(biāo)簽的評(píng)論數(shù)據(jù)輔助微博謠言檢測(cè)任務(wù)。在模型遷移中,微調(diào)學(xué)習(xí)率的設(shè)置決定了遷移效果的好壞,本文將區(qū)分微調(diào)和斜三角學(xué)習(xí)率兩種微調(diào)策略相結(jié)合,為每一層設(shè)置不同的學(xué)習(xí)率,以保留先前的知識(shí),避免災(zāi)難性遺忘,并根據(jù)目標(biāo)任務(wù)的需求對(duì)學(xué)習(xí)率進(jìn)行調(diào)整。
本文提出的基于遷移學(xué)習(xí)的微博謠言檢測(cè)模型(transferring learn-BiGRU-2-CNN,TB2GC)模型如圖1所示。按照自下而上、自左到右的順序?qū)δP瓦M(jìn)行介紹,大致有4個(gè)模塊,分為3個(gè)步驟。首先利用豐富的評(píng)論數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練,然后將訓(xùn)練好的特征提取層遷移到目標(biāo)任務(wù)中,再通過微調(diào)策略對(duì)特征提取模塊進(jìn)行調(diào)整,使其適應(yīng)于目標(biāo)任務(wù)。
圖1 TB2GC模型結(jié)構(gòu)
使用低維向量代替文本中詞的表示是目前自然語言處理中的常見方式。本文將微博文本數(shù)據(jù)輸入到開源的word2vec模型對(duì)文本進(jìn)行向量化,向量的維數(shù)為300,該模型由Google News利用1000億個(gè)單詞訓(xùn)練而成,并使用字結(jié)構(gòu)的連續(xù)文本進(jìn)行訓(xùn)練[21]。未出現(xiàn)在預(yù)先訓(xùn)練的詞集合中的詞是隨機(jī)初始化的。
鑒于BiGRU2和CNN各自的特點(diǎn),本文采用雙層BiGRU和CNN的聯(lián)合模型作為特征提取器,特征提取網(wǎng)絡(luò)模型如圖2所示。將World2vec輸出的詞向量輸入到BiGRU2-CNN聯(lián)合神經(jīng)網(wǎng)絡(luò)中,提取文本數(shù)據(jù)的全局特征,提取的特征將用于后續(xù)分類器的分類工作。
圖2 聯(lián)合神經(jīng)網(wǎng)絡(luò)模型
雙層雙向門控循環(huán)單元(BiGRU2):通過BiGRU2模型獲取微博文本在時(shí)間序列上的深層特征。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中兩個(gè)節(jié)點(diǎn)之間的連接形成了一個(gè)內(nèi)部循環(huán)結(jié)構(gòu),這種結(jié)構(gòu)使它能夠捕捉文本的動(dòng)態(tài)時(shí)間信號(hào)特征。由于RNN模型存在梯度消失和梯度爆炸的問題,通過改進(jìn)得到了LSTM模型結(jié)構(gòu),LSTM模型結(jié)構(gòu)復(fù)雜、模型參數(shù)多、訓(xùn)練時(shí)間長(zhǎng)。隨著樣本數(shù)量的增加,導(dǎo)致訓(xùn)練時(shí)間延長(zhǎng),參數(shù)變多,內(nèi)部計(jì)算復(fù)雜度提高。對(duì)此研究者提出了GRU網(wǎng)絡(luò)模型,GRU模型不僅可以達(dá)到LSTM的效果,并且結(jié)構(gòu)簡(jiǎn)單、參數(shù)少、收斂性好。GRU模型由兩個(gè)門組成,一個(gè)更新門和一個(gè)重置門,更新門決定了前一個(gè)輸出隱藏層對(duì)當(dāng)前層的影響程度,值越大,影響越大。重置門決定忽略以前隱藏層信息的范圍,值越小,信息就越容易被忽略。
GRU只能從前到后獲取信息,不能從后到前對(duì)信息間的依賴關(guān)系進(jìn)行提取。BiGRU是由兩個(gè)方向相反的GRU模型組成的雙向網(wǎng)絡(luò)結(jié)構(gòu),可以雙向的獲取前后文的依賴關(guān)系,這對(duì)獲得更多與任務(wù)相關(guān)的特征非常有利。研究表明,深層網(wǎng)絡(luò)結(jié)構(gòu)有助于獲取深層特征,可以提高分類的效果,因此本文采用雙層的BiGRU網(wǎng)絡(luò)結(jié)構(gòu)獲取數(shù)據(jù)的全局特征。
CNN:通過CNN模型獲取微博文本的局部特征。CNN模型最初是為計(jì)算機(jī)視覺而發(fā)明的,后來被證明對(duì)自然語言處理(NLP)領(lǐng)域有效,已經(jīng)在語義分析、搜索查詢檢索、句子建模和其它傳統(tǒng)NLP任務(wù)中取得了優(yōu)異的成果。CNN利用由多個(gè)相互轉(zhuǎn)換的層組成的計(jì)算模型來學(xué)習(xí)具有多個(gè)抽象級(jí)別的數(shù)據(jù)表示,通過發(fā)現(xiàn)大數(shù)據(jù)集中復(fù)雜的結(jié)構(gòu),極大地提高了圖像識(shí)別、視覺對(duì)象識(shí)別和句子分類的技術(shù)水平。CNN常用的體系結(jié)構(gòu)包括卷積層、池化層和全連接層,本文將帶濾波器的卷積層應(yīng)用于局部特征的提取,將池化層用來提高模型的容錯(cuò)性,然后通過全連接層輸出隱層特征,再利用Softmax函數(shù)進(jìn)行分類結(jié)果的輸出。
首先利用豐富的評(píng)論數(shù)據(jù)對(duì)TB2GC神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練可以獲取文本的通用語言信息,如情感傾向、上下與依賴關(guān)系、深層語義表示等。然后針對(duì)目標(biāo)謠言檢測(cè)任務(wù)對(duì)特征提取層進(jìn)行微調(diào),由于不同的層捕獲不同類型的信息,因此應(yīng)該根據(jù)情況為每一層設(shè)置不同的學(xué)習(xí)率,對(duì)此本文采用區(qū)分性微調(diào)策略。為了使模型在訓(xùn)練開始時(shí)就能夠快速收斂到合適的參數(shù)空間,本文采用斜三角形學(xué)習(xí)率(slanted triangle learning rates,STLR)[22]策略。
區(qū)分性微調(diào):與對(duì)模型的所有層使用相同的學(xué)習(xí)率不同,區(qū)分性微調(diào)能夠用不同的學(xué)習(xí)率來調(diào)整每個(gè)層,從而根據(jù)不同層對(duì)目標(biāo)任務(wù)的貢獻(xiàn)設(shè)置不同的學(xué)習(xí)率,貢獻(xiàn)大的層設(shè)置較小的學(xué)習(xí)率,貢獻(xiàn)小的層設(shè)置較小的學(xué)習(xí)率。第L層模型的參數(shù)θ在時(shí)間t的更新如式(1)所示
(1)
由于神經(jīng)網(wǎng)絡(luò)具有淺層網(wǎng)絡(luò)提取文本的淺層特征,深層網(wǎng)絡(luò)提取文本的深層隱含特征的特點(diǎn),而且深層特征在NLP中更具有通用性,因此選擇最后一層的學(xué)習(xí)率設(shè)為ηL,較低層的學(xué)習(xí)率為ηl-1=ηl/2.3。
斜三角形學(xué)習(xí)率:與微調(diào)過程中使用相同的學(xué)習(xí)率或僅遞增或僅遞減的方式不同,斜三角形學(xué)習(xí)率先線性增加學(xué)習(xí)率,然后再線性衰減,有助于模型快速收斂到合適的范圍,并在學(xué)習(xí)率下降的過程中達(dá)到適應(yīng)目標(biāo)任務(wù)的最佳準(zhǔn)確率,具體方案如式(2)所示
(2)
式中:T是訓(xùn)練迭代次數(shù),cut_frac是使學(xué)習(xí)率增加的迭代次數(shù)占總迭代次數(shù)的比例,cut是學(xué)習(xí)率開始下降時(shí)的迭代次數(shù),ratio指最小學(xué)習(xí)率與最大學(xué)習(xí)率的比值,ηt是迭代t時(shí)的學(xué)習(xí)率。通常使用cut_frac=0.1,radio=32,ηmax=0.01。
在學(xué)習(xí)率不斷增加的過程中觀察準(zhǔn)確率的變化,當(dāng)準(zhǔn)確率第一次出現(xiàn)下降時(shí),學(xué)習(xí)率也開始線性減小。即學(xué)習(xí)率出現(xiàn)拐點(diǎn)。
通過斜三角學(xué)習(xí)率和區(qū)分微調(diào),已經(jīng)將初始模型的特征提取層有效遷移到了微博謠言檢測(cè)任務(wù)中。
將微調(diào)后的特征提取層提取的特征輸入到softmax層,神經(jīng)元的激活函數(shù)使用線性修正單元函數(shù)(rectified linear units,ReLU)。ReLU函數(shù)定義為f(x)=Softmax(0,x),該激活函數(shù)在具有深層體系結(jié)構(gòu)的網(wǎng)絡(luò)中通常會(huì)使網(wǎng)絡(luò)學(xué)習(xí)的更快。最后輸出對(duì)一條事件是否為謠言的檢測(cè)結(jié)果。
源數(shù)據(jù)集選用Zhang等[23]在2014年收集的評(píng)論數(shù)據(jù),該數(shù)據(jù)集來自DianPing.com,包括510 071個(gè)用戶對(duì)209 132個(gè)商家的3 605 300條評(píng)論。
目標(biāo)數(shù)據(jù)集選用Ma等[7]在2016年公開的新浪微博數(shù)據(jù),該數(shù)據(jù)集包含微博和Twitter兩部分,微博謠言數(shù)據(jù)來自新浪微博平臺(tái)已經(jīng)確認(rèn)的微博謠言事件,作者按照謠言數(shù)據(jù)的數(shù)量利用網(wǎng)絡(luò)爬蟲在微博平臺(tái)爬取了相似數(shù)量的非謠言數(shù)據(jù)。共包含2313個(gè)謠言和2351個(gè)非謠言。本文保留10%的事件作為驗(yàn)證集,其余數(shù)據(jù)按照3∶1的比例分割用于訓(xùn)練集和測(cè)試集。
為了提高數(shù)據(jù)的質(zhì)量,對(duì)源數(shù)據(jù)和目標(biāo)數(shù)據(jù)集進(jìn)行了去噪處理。利用正則表達(dá)式去除了數(shù)據(jù)中的@符號(hào)、@的內(nèi)容、空格、空行、URL信息等。本文中并沒有去掉表情符號(hào),因?yàn)槿缃癖砬榉?hào)已經(jīng)成為人們?cè)诰W(wǎng)絡(luò)平臺(tái)表達(dá)自己感情傾向的一種重要形式,深度神經(jīng)網(wǎng)絡(luò)也可以根據(jù)表情符號(hào)挖掘深層情感特征,因此,這里保留了文本中的表情符號(hào)。
(1)本模型和其它基線模型對(duì)比
本文將TB2GC模型方法與以下幾個(gè)基線方法進(jìn)行比較:
DT-Rank[1]:該方法通過對(duì)有爭(zhēng)議的微博信息進(jìn)行聚類,然后根據(jù)統(tǒng)計(jì)特征對(duì)聚類結(jié)果進(jìn)行排序,以識(shí)別趨勢(shì)性謠言。
DTC[4]:該方法對(duì)15個(gè)評(píng)判特征進(jìn)行分析,并將J48決策樹應(yīng)用于謠言檢測(cè)任務(wù)。
SVM-TS[3]:該方法利用時(shí)間序列對(duì)人工構(gòu)造的特征集進(jìn)行建模,利用線性支持向量機(jī)分類器進(jìn)行分類預(yù)測(cè)。
GRU、GRU-2[6]:Ma等在2016年提出的基于深度學(xué)習(xí)的模型中,分別實(shí)現(xiàn)了LSTM、單層GRU和雙層GRU,證明了深度學(xué)習(xí)模型在謠言檢測(cè)中的優(yōu)勢(shì)。
CNN[8]:該方法設(shè)計(jì)3CAMI模型,將各時(shí)間段文本向量拼接成事件的特征矩陣,采用CNN學(xué)習(xí)事件的隱層表示。
TB2GC模型與各基線模型的實(shí)驗(yàn)結(jié)果對(duì)比見表1。
表1 TB2GC模型與基線模型的實(shí)驗(yàn)對(duì)比結(jié)果
表1展示了本文模型與各基線模型的對(duì)比結(jié)果。為了更全面分析傳統(tǒng)機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)方法、遷移學(xué)習(xí)在微博謠言檢測(cè)中的效果,本文在傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法中各選取了3個(gè)基線模型,表1從上到下依次為傳統(tǒng)機(jī)器學(xué)習(xí)模型、傳統(tǒng)深度學(xué)習(xí)模型、本文的遷移學(xué)習(xí)模型。
在3種傳統(tǒng)機(jī)器學(xué)習(xí)模型中,SVM-TS的效果最佳,準(zhǔn)確率達(dá)到了85.7%,在3種深度學(xué)習(xí)方法中CNN的效果最佳,準(zhǔn)確率達(dá)到了93.3%。相比于3種深度學(xué)習(xí)方法,SVM-TS的效果卻是最差的,深度學(xué)習(xí)模型GRU的準(zhǔn)確率比SVM-TS高出5.1個(gè)百分點(diǎn),由此可見,通過深度神經(jīng)網(wǎng)絡(luò)模型提取的特征優(yōu)于人工構(gòu)造的特征。本文提出的基于遷移學(xué)習(xí)的方法在準(zhǔn)確率上比最好的基線模型CNN高出2.9個(gè)百分點(diǎn),在精確率上高出3.2個(gè)百分點(diǎn),在召回率上高出1.8個(gè)百分點(diǎn),在F1值上高出2.5個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,本文提出的神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)出了良好的性能。原因可能在于深度學(xué)習(xí)基線方法中,研究者僅在現(xiàn)有的公開數(shù)據(jù)集上進(jìn)行研究,忽略了數(shù)據(jù)集對(duì)深層特征提取的重要性,因此效果不佳。
(2)模型組合對(duì)比
為了驗(yàn)證提出的聯(lián)合模型的組合方式的有效性,將模型拆分為不同的形式,再結(jié)合遷移學(xué)習(xí)進(jìn)行實(shí)驗(yàn),與本文聯(lián)合模型進(jìn)行對(duì)比,結(jié)果見表2。
表2 TB2GC模型與分解模型的實(shí)驗(yàn)對(duì)比結(jié)果
表2通過對(duì)模型的拆分部分進(jìn)行實(shí)驗(yàn),驗(yàn)證了本文所提出的模型組合的有效性。可以看出,3種使用單一神經(jīng)網(wǎng)絡(luò)模型的方法中BiGRU的效果最佳,準(zhǔn)確率達(dá)到了95.3%,當(dāng)增加CNN模塊時(shí),聯(lián)合模型的準(zhǔn)確率增加了0.2個(gè)百分點(diǎn),因?yàn)镃NN有利于提取文本中的局部特征,使特征提取更全面。當(dāng)再增加第二層BiGRU時(shí),準(zhǔn)確率提高了0.5個(gè)百分點(diǎn),由此可見,在數(shù)據(jù)量足夠的情況下,深層神經(jīng)網(wǎng)絡(luò)模型對(duì)檢測(cè)結(jié)果更有利。
(3)源數(shù)據(jù)集的數(shù)量對(duì)遷移效果的影響
為了探究源數(shù)據(jù)集的數(shù)量對(duì)遷移效果的影響,隨機(jī)抽取源數(shù)據(jù)中的60萬條、120萬條、180萬條和240萬條數(shù)據(jù)進(jìn)行實(shí)驗(yàn),觀察不同數(shù)據(jù)量對(duì)遷移學(xué)習(xí)效果的影響,對(duì)比結(jié)果如圖3所示。
圖3 源數(shù)據(jù)的數(shù)量對(duì)遷移效果的影響
圖3展示了不同量的源數(shù)據(jù)對(duì)遷移效果的影響,實(shí)驗(yàn)結(jié)果顯示隨著源數(shù)據(jù)集數(shù)據(jù)量的增加,準(zhǔn)確率也在增加,表明使用大量帶標(biāo)簽數(shù)據(jù)進(jìn)行遷移學(xué)習(xí)的效果更好。
(4)目標(biāo)數(shù)據(jù)集的數(shù)量對(duì)遷移效果的影響
圖4 目標(biāo)數(shù)據(jù)的數(shù)量對(duì)遷移效果的影響
圖4展示了遷移學(xué)習(xí)在不同量的目標(biāo)數(shù)據(jù)集中的效果,實(shí)驗(yàn)結(jié)果顯示隨著目標(biāo)數(shù)據(jù)量的減少,準(zhǔn)確率也在減小,當(dāng)數(shù)據(jù)量為400條時(shí),準(zhǔn)確率首次出現(xiàn)低于基準(zhǔn)模型的現(xiàn)象,表明本文模型適用于目標(biāo)數(shù)據(jù)大于400條的自然語言處理任務(wù)。
通過分析TB2GC模型與各基線模型的對(duì)比實(shí)驗(yàn)和聯(lián)合神經(jīng)網(wǎng)絡(luò)的各種拆解模型的對(duì)比實(shí)驗(yàn),表明采用聯(lián)合神經(jīng)網(wǎng)絡(luò)模型比僅采用單一的神經(jīng)網(wǎng)絡(luò)能獲取更全面的特征,并且表明更深層的神經(jīng)網(wǎng)絡(luò)模型可以提取更多的特征。遷移學(xué)習(xí)的應(yīng)用則是有助于進(jìn)一步加深神經(jīng)網(wǎng)絡(luò)的深度,這對(duì)學(xué)習(xí)更深層的特征表示提供了幫助,解決了基于深度學(xué)習(xí)中的微博謠言檢測(cè)中帶標(biāo)簽數(shù)據(jù)少的問題。實(shí)驗(yàn)結(jié)果表明,無論是遷移學(xué)習(xí)方法的應(yīng)用,還是神經(jīng)網(wǎng)絡(luò)模型的組合,在微博謠言檢測(cè)任務(wù)中都表現(xiàn)出了良好的效果。
此外,本文還對(duì)數(shù)據(jù)集的數(shù)量對(duì)遷移效果的影響進(jìn)行了分析。通過將源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集進(jìn)行分割實(shí)驗(yàn),結(jié)果表明,在本文提出的神經(jīng)網(wǎng)絡(luò)模型中,無論是源數(shù)據(jù)集還是目標(biāo)數(shù)據(jù)集,更多的數(shù)據(jù)量,會(huì)使遷移效果更好。
本文將遷移學(xué)習(xí)方法應(yīng)用到微博謠言檢測(cè)領(lǐng)域,利用豐富的電商評(píng)論數(shù)據(jù)輔助微博謠言檢測(cè)任務(wù)進(jìn)行學(xué)習(xí),解決了微博謠言檢測(cè)領(lǐng)域帶標(biāo)簽數(shù)據(jù)少的問題。實(shí)驗(yàn)結(jié)果顯示基于遷移學(xué)習(xí)的方法在準(zhǔn)確率、精確率和F1值3個(gè)方面都優(yōu)于基線方法,表明使用相關(guān)數(shù)據(jù)集進(jìn)行遷移是一種很好的策略。當(dāng)然,所提出的方法還有很多不足,例如微調(diào)策略、源數(shù)據(jù)集的選擇、特征提取網(wǎng)絡(luò)的設(shè)計(jì)等方面都可以做進(jìn)一步的調(diào)整。