關(guān)鍵詞:虛假新聞;多目標(biāo)優(yōu)化;Pareto有效;卷積神經(jīng)網(wǎng)絡(luò);兩階段分類;減負(fù)訓(xùn)練;混合標(biāo)簽
DOI:10.3969/j.issn.1008-0821.2024.11.009
〔中圖分類號(hào)〕TP391.1 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2024)11-0090-09
虛假新聞表現(xiàn)為虛構(gòu)內(nèi)容、篡改事實(shí)、捏造證據(jù)、誤導(dǎo)引誘等多種形式交融的混雜狀態(tài)。通過理論抽象可將虛假新聞劃分為內(nèi)容不實(shí)及文題不符兩類,對(duì)新聞虛假性的判別本質(zhì)上是處理兩類混合標(biāo)簽。新聞數(shù)據(jù)的非結(jié)構(gòu)化特征與混合標(biāo)簽結(jié)合形成了一種特殊的復(fù)雜背景,限制了分類模型的性能突破(ACC、F1、TPR和FPR難以同時(shí)兼顧)。針對(duì)這種情況,本文試圖探索一個(gè)行之有效的方法使分類模型能同時(shí)在TPR和FPR兩方面取得突破。
1相關(guān)研究評(píng)述
近年來,國內(nèi)外對(duì)虛假新聞檢測的研究可以歸納為以下3個(gè)方面:
在檢測依據(jù)上,主要依據(jù)新聞內(nèi)容[1-2]、用戶信息[3]和傳播結(jié)構(gòu)[4]3類特征來進(jìn)行識(shí)別。其中以新聞內(nèi)容為依據(jù)的研究主要關(guān)注新聞中的內(nèi)涵屬性,包括所用材料的真實(shí)性、主題的契合性以及語言的恰當(dāng)性等重要判據(jù),而以用戶信息和傳播結(jié)構(gòu)為主要依據(jù)來進(jìn)行判別的研究更多考慮的是新聞外圍因素而非核心內(nèi)涵,因此無法有效地解釋內(nèi)容不實(shí)和文題不符兩類混合標(biāo)簽;同時(shí)由于隱私政策和訪問限制,數(shù)據(jù)獲取方面也存在挑戰(zhàn),傳播結(jié)構(gòu)的不完整性可能導(dǎo)致路徑的缺失,影響分析的準(zhǔn)確性。
在識(shí)別方法上,監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)和知識(shí)圖譜等方法被廣泛用于對(duì)主題[5-6]和語言風(fēng)格[7-8]等文本特征建模。監(jiān)督學(xué)習(xí)可以更好地控制建模的方向和效果,深度學(xué)習(xí)[9]能更有效地抽象和理解特征信息,而卷積神經(jīng)網(wǎng)絡(luò)則可以利用信息交互識(shí)別出虛假新聞[10-11];無監(jiān)督學(xué)習(xí)主要應(yīng)用在對(duì)社交媒體和社交人物基本信息的提取與關(guān)聯(lián)上[12],通過追蹤和鑒別交互關(guān)系來構(gòu)建新聞傳播鏈特征[13]與檢測模型[14];知識(shí)圖譜則是通過借助新聞外部的背景知識(shí)特征進(jìn)行內(nèi)容的一致性檢驗(yàn)[15]。上述方法在理論上是基于一個(gè)獨(dú)立的標(biāo)簽來構(gòu)建的,即假設(shè)標(biāo)簽在概念上是清晰的,表達(dá)的含義是單一的。面對(duì)虛假新聞標(biāo)簽中可能隱含的內(nèi)容不實(shí)和文題不符兩類標(biāo)簽[16],上述方法很難同時(shí)對(duì)兩類標(biāo)簽進(jìn)行分離和識(shí)別,這也是此類研究難以取得模型突破的主要原因。
在模型目標(biāo)上,傳統(tǒng)分類模型追求的是模型的精度和性能[17],而近年來建模目標(biāo)有朝著模型可解釋性轉(zhuǎn)變的傾向,可解釋性旨在通過人類能夠理解的方式描述模型的內(nèi)部結(jié)構(gòu)和原理,這決定了模型的應(yīng)用價(jià)值。這方面的研究主要包括:對(duì)抗神經(jīng)網(wǎng)絡(luò)和協(xié)同注意力網(wǎng)絡(luò)用于對(duì)事件的關(guān)聯(lián)[18]以及圖像和文本的融合[19]來進(jìn)行虛假新聞檢測等。側(cè)重模型的精度通常會(huì)犧牲模型的實(shí)用性,而在模型精度的制約下,模型的應(yīng)用價(jià)值也難以獲得釋放,在保障模型應(yīng)用價(jià)值的前提下提升模型精度是一個(gè)富有挑戰(zhàn)性的課題。
2本文出發(fā)點(diǎn)
本文預(yù)期在識(shí)別精度和可解釋性上對(duì)模型進(jìn)行提升,在研究目標(biāo)上既要給出識(shí)別虛假新聞的分類模型,也要提供判別內(nèi)容不實(shí)和文題不符兩類性質(zhì)的方法和過程,以提高模型性能和應(yīng)用價(jià)值。因此,本文設(shè)計(jì)了一個(gè)兩階段的識(shí)別過程,第一階段側(cè)重顯性的文題不符類虛假新聞的識(shí)別,人們對(duì)這些新聞通常有明顯的直觀感受,這意味著此類新聞具有很強(qiáng)的顯性特征,對(duì)于一則新聞而言,其主題、語義和情感是一個(gè)有機(jī)的整體,其協(xié)調(diào)性和匹配性是新聞評(píng)判的重要因素,好的新聞和真實(shí)的新聞其主題、語義和情感三要素在標(biāo)題和正文上具有良好的匹配性,給讀者以自然協(xié)調(diào)的直觀感受,而正文和標(biāo)題匹配程度越低,其協(xié)調(diào)性就越差,文題不符的特征就越明顯。據(jù)此,首先對(duì)正文和標(biāo)題的匹配性進(jìn)行測度,然后在第一階段依據(jù)Pareto有效性原理對(duì)文題不符類新聞進(jìn)行篩選,同時(shí)為第二階段的模型訓(xùn)練準(zhǔn)備減負(fù)環(huán)境,在最大得失比的意義下盡可能清除文題不符類新聞對(duì)第二階段訓(xùn)練的干擾;第二階段集中識(shí)別隱性的內(nèi)容不實(shí)類虛假新聞,在這一階段采用異構(gòu)圖神經(jīng)網(wǎng)絡(luò)來增強(qiáng)模型的準(zhǔn)確性,在現(xiàn)實(shí)場景中研究對(duì)象往往是多類型的,對(duì)象之間的交互關(guān)系也是多樣化的。因此,異構(gòu)圖神經(jīng)網(wǎng)絡(luò)能夠更好地貼近現(xiàn)實(shí),同時(shí)圖結(jié)構(gòu)可以融合節(jié)點(diǎn)信息和關(guān)系,得到更加豐富的判別依據(jù),以提供更好的技術(shù)性解釋。
3技術(shù)路線
本文的目標(biāo)是建立新聞N={n1,n2,…,nk}和判斷R={虛假新聞,真實(shí)新聞}之間的映射L:N→R,通過兩階段過程來實(shí)現(xiàn)映射L,包括特征融合、差異矩陣計(jì)算、Pareto有效性識(shí)別、異構(gòu)圖構(gòu)建和神經(jīng)網(wǎng)絡(luò)識(shí)別5個(gè)環(huán)節(jié),如圖1所示。
3.1特征融合和差異矩陣計(jì)算
新聞的核心三要素為主題、語義和情感。新聞的中心意圖是主題,內(nèi)容的表述形成語義,表達(dá)的方式體現(xiàn)情感。一則新聞?dòng)蓸?biāo)題和正文兩部分構(gòu)成,三要素在標(biāo)題和正文都會(huì)有所體現(xiàn),其表達(dá)的一致性和相容性是新聞?wù)鎸?shí)性的一個(gè)重要判別依據(jù)。文題不符類新聞為了吸引讀者的閱讀,往往采用誘導(dǎo)話術(shù)和炒作熱點(diǎn)的手段去制造標(biāo)題,導(dǎo)致在標(biāo)題和正文之間會(huì)存在明顯沖突,違背了相容性;而內(nèi)容不實(shí)類新聞則在語義上與新聞事實(shí)不一致。為了度量標(biāo)題和正文之間的一致性與相容性,本文采用余弦距離計(jì)算標(biāo)題和正文特征向量間的差異值,余弦距離適合解決異常值和數(shù)據(jù)稀疏問題,適用于特征向量維度較多的情況,同時(shí)也能處理新聞文本模態(tài)單一的問題。
D=(dij)稱為差異矩陣,差異矩陣的對(duì)角線代表一則新聞的標(biāo)題和自己的正文之間的差異程度,稱為自差異值,它是站在自身角度的一種絕對(duì)差異度量;矩陣中的其他元素為不同新聞的標(biāo)題與正文之間的余弦距離,其中行列都是以不同的標(biāo)題或正文作為參考點(diǎn)進(jìn)行度量的。差異矩陣提供了絕對(duì)和相對(duì)兩種度量結(jié)果以及對(duì)角線、行、列3個(gè)評(píng)價(jià)角度,包含了非常豐富的新聞標(biāo)題與正文之間的關(guān)聯(lián)信息,為判別虛假新聞提供了強(qiáng)大支撐。
3.2顯性虛假新聞識(shí)別原理
根據(jù)差異矩陣可以匹配標(biāo)題和正文:一則新聞的正文和標(biāo)題所涵蓋的內(nèi)容應(yīng)保持一致,如果一則新聞的標(biāo)題恰好與自己的正文匹配(dii較?。┚托纬闪俗云ヅ洌蝗绻?sub>ii較大,就會(huì)由相對(duì)較小的dij決定互匹配。在互匹配下,一則新聞的標(biāo)題沒有與自己的正文匹配,說明該新聞的標(biāo)題和正文一定在主題、語義和情感三要素上存在沖突,文題不符類虛假新聞的主要特征就會(huì)呈現(xiàn)。
匹配結(jié)果可以由1個(gè)多目標(biāo)優(yōu)化過程來決定:假設(shè)aij=1表示Ti與Cj匹配,否則aij=0,對(duì)全部新聞的整體匹配問題可表達(dá)為式(2):
上面的優(yōu)化問題既是一個(gè)多目標(biāo)優(yōu)化,同時(shí)也是一個(gè)指派優(yōu)化,其中自匹配數(shù)量最多的Pareto有效解稱為最佳匹配。Pareto有效性原理可以保障最佳匹配具有如下性質(zhì):
1)任何一個(gè)自匹配的改變必然損傷其他自匹配,因此最佳匹配是不可被改進(jìn)的,不可能有其他匹配比“自己與自己匹配”的效果更好、更合理。
2)如果一則新聞沒有達(dá)到自匹配,就意味著該新聞標(biāo)題和正文之間存在沖突,在Pareto有效解的意義下可歸類為文題不符。
Pareto有效性原理本質(zhì)上[23]是在多個(gè)目標(biāo)之間權(quán)衡取舍,以實(shí)現(xiàn)資源分配的最優(yōu)狀態(tài)?;冢校幔颍澹簦镉行Ы庠u(píng)估虛假新聞,是相對(duì)意義下的篩選過程,具備一定客觀性和動(dòng)態(tài)自適應(yīng)性。
3.3第一階段:顯性樣本識(shí)別
Pareto有效性原理奠定了通過差異矩陣匹配新聞標(biāo)題和正文的理論基礎(chǔ)。但在大樣本情況下,差異矩陣的規(guī)模巨大,計(jì)算復(fù)雜度呈指數(shù)型增長,限制了其應(yīng)用范圍和價(jià)值的發(fā)揮,因此需要找到一個(gè)簡明的、合理的近似計(jì)算過程。Pareto有效性原理揭示了文題不符類的虛假新聞會(huì)以較大的概率形成互匹配,其自差異值較高,互差異值較低;而文題相符類的真實(shí)新聞則會(huì)以較大的概率形成自匹配,表現(xiàn)為自差異值較低,互差異值較高。圍繞這一中心思想,就可以充分挖掘差異矩陣中包含的豐富信息,得到Pareto有效解的近似計(jì)算方法。
大樣本下的自差異值近似服從正態(tài)分布,在虛假新聞日益增多的情況下就會(huì)呈現(xiàn)厚尾分布,根據(jù)實(shí)際的分布適當(dāng)截取厚尾部分,就可以用最小的代價(jià)得到上述多目標(biāo)優(yōu)化問題的近似有效解,對(duì)此本文設(shè)計(jì)兩種計(jì)算方法來完成近似求解過程。
3.3.1基于自匹配信息的顯性樣本識(shí)別
從自匹配角度來進(jìn)行顯性樣本識(shí)別,主要利用差異矩陣的對(duì)角線信息進(jìn)行分析,一則新聞的自差異值越高,其隸屬于文題不符類新聞的可能性越大,在多目標(biāo)匹配優(yōu)化中能實(shí)現(xiàn)自匹配的概率就越低。本文測算了Fake News Corpus數(shù)據(jù)集的差異矩陣,得到主對(duì)角線上自差異值的分布,如圖2所示。
在圖2中,正樣本明顯呈現(xiàn)厚尾分布(可采用四階中心距和Moment型估計(jì)量來判斷厚尾的存在),則可用最大得失比來界定顯性的文題不符類虛假新聞,以保障用較低的誤識(shí)率來換取較高的準(zhǔn)確率。根據(jù)上面分布得到篩選閾值為0.6(稱為弱減負(fù)閾值),將差異值大于閾值的新聞識(shí)別為文題不符類虛假新聞,共篩選出1438個(gè)正樣本和118個(gè)負(fù)樣本,得失比為12.186∶1,其中正樣本占全部正樣本的比率為0.036,負(fù)樣本占全部負(fù)樣本的比率為0.003。將保留樣本送入異構(gòu)圖神經(jīng)網(wǎng)絡(luò)進(jìn)行下一階段的識(shí)別,避免了匹配較差的新聞對(duì)全局信息和訓(xùn)練過程產(chǎn)生的負(fù)面影響。
4實(shí)驗(yàn)
在FakeNewsCorpus新聞數(shù)據(jù)庫[26]中選擇Clickbait和Credible兩種類別的新聞數(shù)據(jù)分別作為正樣本和負(fù)樣本,每類樣本各選40000條,構(gòu)成共80000條數(shù)據(jù)的平衡數(shù)據(jù)集,測試集和訓(xùn)練集按照6∶4進(jìn)行劃分。訓(xùn)練參數(shù)設(shè)置如下:
采用LDA模型提取主題特征向量(u=6),通過DistilBert模型得到語義特征向量(v=768),利用RoBERTa模型得到情感特征向量(w=28)。異構(gòu)圖卷積神經(jīng)網(wǎng)絡(luò)的隱含維度為512,層數(shù)設(shè)置為2,詞嵌入維度為3741,BatchSize為64,正則化因子設(shè)定為0.00001,學(xué)習(xí)率設(shè)置為0.0001,Ep?och設(shè)置為100。
4.1性能提升實(shí)驗(yàn)
性能提升實(shí)驗(yàn)設(shè)計(jì)為以下3組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示,性能提升實(shí)驗(yàn)ROC曲線結(jié)果如圖6所示。
1)用全部訓(xùn)練數(shù)據(jù)進(jìn)行實(shí)驗(yàn)(稱為減負(fù)前實(shí)驗(yàn))。
2)用弱減負(fù)閾值剔除部分樣本進(jìn)行實(shí)驗(yàn)(稱為弱減負(fù)實(shí)驗(yàn)),并將兩階段結(jié)果合并進(jìn)行實(shí)驗(yàn)。
3)用強(qiáng)減負(fù)閾值剔除部分樣本進(jìn)行實(shí)驗(yàn)(稱為強(qiáng)減負(fù)實(shí)驗(yàn)),并將兩階段結(jié)果合并進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)結(jié)果表明,弱減負(fù)后FPR和TPR分別改進(jìn)了0.062和0.045,神經(jīng)網(wǎng)絡(luò)在性能上得到提升。這主要來源于第一階段剔除的正樣本比率為0.036,而付出的召回率代價(jià)僅為0.003,從而減輕了神經(jīng)網(wǎng)絡(luò)擬合的負(fù)擔(dān);弱減負(fù)實(shí)驗(yàn)(兩階段)的綜合模型結(jié)果與弱減負(fù)實(shí)驗(yàn)結(jié)果比較接近,呈現(xiàn)出性能上的總體提升,說明采用最大得失比來確定第一階段的篩選閾值是應(yīng)用Pareto有效性原理的較為經(jīng)濟(jì)的方式。從表1和圖6中可以看出,強(qiáng)減負(fù)的效果比弱減負(fù)又有更大的性能突破。
4.2對(duì)比消融實(shí)驗(yàn)
將本文模型與DTC、SVM、RFC、NDHN和GRU-2[27]5種基線模型進(jìn)行對(duì)比分析,得到準(zhǔn)確率對(duì)比分析結(jié)果如圖7所示??梢钥闯鰺o論是傳統(tǒng)機(jī)器學(xué)習(xí)方法還是深度學(xué)習(xí)方法,本文提出的虛假新聞檢測模型在分類性能上均得到了較好提升,能夠?qū)崿F(xiàn)對(duì)社交媒體虛假新聞的有效識(shí)別。
為驗(yàn)證模型各因素的必要性,分別去除主題、語義和情感因素進(jìn)行消融實(shí)驗(yàn),觀察因素缺失情況下模型的表現(xiàn),如圖8所示。結(jié)果表明,主題、語義和情感3個(gè)因素中任何一個(gè)因素的缺失都會(huì)導(dǎo)致模型性能表現(xiàn)的明顯下降。這說明新聞三要素是分析和評(píng)判新聞性質(zhì)的核心內(nèi)涵,任何一個(gè)要素的缺失都會(huì)形成觀察的片面性。
4.3魯棒性檢驗(yàn)
魯棒性檢驗(yàn)是衡量模型在異常輸入或苛刻環(huán)境條件下是否能維持正常操作的關(guān)鍵環(huán)節(jié)。本文通過向模型引入噪聲的方式,模擬了潛在的干擾場景,并系統(tǒng)地觀察了模型性能的變化,以全面評(píng)估其抗干擾能力。具體而言,本文將原始數(shù)據(jù)集與10%的噪聲數(shù)據(jù)混合,構(gòu)建了對(duì)照數(shù)據(jù)集,并應(yīng)用于模型的魯棒性測試中。
檢驗(yàn)結(jié)果表明,無論在有噪聲還是無噪聲的數(shù)據(jù)環(huán)境下,經(jīng)過優(yōu)化減負(fù)后的模型相較于原始模型,在性能提升方面均展現(xiàn)出了顯著的成效,性能的提升幅度普遍超過0.05,如表2所示。這一結(jié)果充分證明了本文所提出的方法在提升模型性能方面具有較強(qiáng)的魯棒性。此外,本文還發(fā)現(xiàn)在減負(fù)前模型性能較弱的情況下,經(jīng)過優(yōu)化減負(fù)后,模型性能的提升空間更為顯著,如圖9所示。
4.4動(dòng)態(tài)檢驗(yàn)
為檢驗(yàn)?zāi)P驮诓煌瑪?shù)據(jù)規(guī)模下的穩(wěn)定性和一致性,以及對(duì)不同時(shí)間段虛假新聞數(shù)據(jù)的敏感性,本文采用固定數(shù)據(jù)量增量的方法再次對(duì)數(shù)據(jù)集進(jìn)行劃分。由于原始數(shù)據(jù)集中的數(shù)據(jù)是分多個(gè)時(shí)間點(diǎn)獲取的,本文抽取原始數(shù)據(jù)集第1時(shí)間段中前2萬條數(shù)據(jù)作為數(shù)據(jù)集D2,第2時(shí)間段2萬條加上第1時(shí)間段2萬條共4萬條數(shù)據(jù)作為數(shù)據(jù)集D4,依次類推得到數(shù)據(jù)集D6(6萬條數(shù)據(jù))和D8(8萬條數(shù)據(jù))。這樣選取的數(shù)據(jù)集不僅體現(xiàn)了數(shù)據(jù)規(guī)模上的差異,同時(shí)也代表了時(shí)間演化的信息。本文分別根據(jù)上述4個(gè)數(shù)據(jù)集進(jìn)行同樣的實(shí)驗(yàn)過程來實(shí)現(xiàn)對(duì)模型的動(dòng)態(tài)檢驗(yàn),并從穩(wěn)定性、一致性和敏感性3方面對(duì)檢驗(yàn)結(jié)果進(jìn)行具體分析,實(shí)驗(yàn)結(jié)果如表3、圖10~12所示。
1)穩(wěn)定性:在評(píng)估模型穩(wěn)定性時(shí),本文重點(diǎn)關(guān)注了不同數(shù)據(jù)規(guī)模下模型兩階段劃分閾值的變化。如圖10所示,本文發(fā)現(xiàn)不同規(guī)模數(shù)據(jù)集實(shí)驗(yàn)(D2、D4、D6、D8)的第一階段自匹配閾值、互匹配雙閾值與主實(shí)驗(yàn)(D)的閾值差異并不大,這表明兩階段模型在應(yīng)對(duì)不同規(guī)模的數(shù)據(jù)時(shí),能夠保持相對(duì)穩(wěn)定的性能?,F(xiàn)實(shí)世界中數(shù)據(jù)的規(guī)模往往是不確定的,因此能夠在不同數(shù)據(jù)規(guī)模下保持穩(wěn)定性能的模型往往具有更高的使用價(jià)值。
2)一致性:為了驗(yàn)證模型的一致性,本文將動(dòng)態(tài)實(shí)驗(yàn)與性能提升實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比。如圖11所示,在D2、D4、D6、D8數(shù)據(jù)集上,各個(gè)模型的AUC與主實(shí)驗(yàn)(D)保持了高度的一致性。這種一致性不僅證明了模型的有效性和可靠性,也為模型的進(jìn)一步應(yīng)用提供了重要參考。
3)敏感性:本文采用固定增量而非固定時(shí)間間隔的數(shù)據(jù)集進(jìn)行測算,由于網(wǎng)絡(luò)媒體新聞是伴隨著突發(fā)事件而呈現(xiàn)間歇性的模態(tài),因此通過固定數(shù)據(jù)增量的測算方法能夠比固定時(shí)間間隔更精確地捕捉網(wǎng)絡(luò)媒體中虛假新聞的節(jié)奏和趨勢。對(duì)數(shù)據(jù)集D2、D4、D6和D8的測算結(jié)果如圖12所示,在不同時(shí)間段上模型都能夠有效地識(shí)別出虛假新聞,并且其性能提升幅度與主實(shí)驗(yàn)(D)相比并未因時(shí)間因素而出現(xiàn)明顯波動(dòng)。這一結(jié)果說明了本文模型對(duì)時(shí)間因素并不敏感,能夠在不同時(shí)期的數(shù)據(jù)下保持穩(wěn)定的性能,這對(duì)于應(yīng)對(duì)現(xiàn)實(shí)世界中復(fù)雜多變的虛假新聞環(huán)境具有重要意義。
綜上所述,根據(jù)動(dòng)態(tài)檢驗(yàn)結(jié)果可以看出,本文提出的模型對(duì)數(shù)據(jù)規(guī)模大小和時(shí)間演進(jìn)過程均具有較強(qiáng)的適應(yīng)性和穩(wěn)定性。這說明:在原理上,時(shí)間因素不是模型性能的核心本質(zhì)因素;在應(yīng)用上,本文提出的模型可以根據(jù)時(shí)間的推進(jìn)和樣本的演化變遷進(jìn)行動(dòng)態(tài)跟隨,以適應(yīng)時(shí)代的發(fā)展。
5結(jié)語
虛假新聞和真實(shí)新聞形成的雙側(cè)厚尾分布給以神經(jīng)網(wǎng)絡(luò)為代表的分類模型帶來較大負(fù)擔(dān),限制了模型性能上的提升和突破。本文研究表明:通過減負(fù)訓(xùn)練可以明顯提升模型性能;雙側(cè)厚尾分布提供了兩階段分類過程的可行性,可以選擇對(duì)一側(cè)或雙側(cè)厚尾進(jìn)行切割形成弱減負(fù)或強(qiáng)減負(fù)的應(yīng)用環(huán)境,以最大得失比為依據(jù)確定閾值對(duì)減負(fù)訓(xùn)練最為有利;Pareto有效性原理表明真實(shí)新聞具有良好的自匹配性,這種自匹配性還可用于對(duì)新聞的質(zhì)量和水平等方面的評(píng)價(jià),為Pareto有效性原理與新聞數(shù)據(jù)分析的結(jié)合提供了橋梁。本文模型對(duì)于無標(biāo)題新聞數(shù)據(jù)的識(shí)別存在局限性,將兩階段混合標(biāo)簽處理過程拓展到對(duì)多標(biāo)簽的識(shí)別仍有很大的空間值得探索。