郭文強(qiáng),李 嬪*
(新疆財(cái)經(jīng)大學(xué) 信息管理學(xué)院,新疆 烏魯木齊 830012)
COVID-19 病例于2019 年被人類發(fā)現(xiàn),作為一種新發(fā)現(xiàn)并對人類生命健康產(chǎn)生致命威脅的病毒,其傳播速度快、范圍廣、途徑多,在短短一年時(shí)間里迅速席卷各國,在疫情防控的緊張時(shí)刻,真實(shí)可靠的信息對大眾的安全及健康有著至關(guān)重要的影響[1]。從一方面來看,由于網(wǎng)絡(luò)平臺(tái)言論發(fā)布相對自由,傳播時(shí)速快,受眾范圍廣,網(wǎng)絡(luò)中出現(xiàn)的信息越來越魚龍混雜,真假信息混淆,例如在消費(fèi)者網(wǎng)絡(luò)評(píng)論中,虛假的評(píng)論信息掩蓋了影響消費(fèi)者效用的產(chǎn)品質(zhì)量問題,誘導(dǎo)消費(fèi)者做出錯(cuò)誤的購買及使用決策,成為“檸檬市場”現(xiàn)象出現(xiàn)的誘因之一。在”劣品驅(qū)逐良品“的情境下,有序、高效、平等的市場秩序難以建立和維護(hù)。
在與新冠疫情相關(guān)的虛假新聞傳播速度遠(yuǎn)遠(yuǎn)高于真實(shí)信息的情形下,接收信息和識(shí)別信息的關(guān)系不可分割開來的重要性凸顯。在如新冠疫情此類的突發(fā)公共衛(wèi)生事件流行期間,虛假新聞不僅會(huì)導(dǎo)致大眾的不理性行為,而且會(huì)危及到人類生命,對整個(gè)國家的政治與經(jīng)濟(jì)安全產(chǎn)生負(fù)面影響[2],因此需要迅速遏制虛假言論信息在網(wǎng)絡(luò)平臺(tái)的傳播?;ヂ?lián)網(wǎng)信息技術(shù)升級(jí)帶來了生產(chǎn)效率及生活質(zhì)量的提升,Web 挖掘、機(jī)器學(xué)習(xí)、人工智能等熱點(diǎn)技術(shù)的開發(fā)與運(yùn)用成為大勢所趨[3]。Jindal 團(tuán)隊(duì)創(chuàng)造性地提出了虛假評(píng)論信息的定義,并將其劃分為三種類型:其一為虛假評(píng)論即不真實(shí)評(píng)論;其二為不相關(guān)評(píng)論;其三為非評(píng)論相關(guān)信息,即不是關(guān)于產(chǎn)品的直接評(píng)論[4]。從國內(nèi)的相關(guān)研究來看,與COVID-19 相關(guān)的研究多集中于定性方面,例如對虛假信息的甄別與對策,虛假信息治理的途徑等[5-7],在定量與構(gòu)建模型進(jìn)行虛假信息識(shí)別方面的研究還有待擴(kuò)展。國內(nèi)關(guān)于虛假信息識(shí)別的研究大部分集中于電子商務(wù)產(chǎn)品、互聯(lián)網(wǎng)銷售等領(lǐng)域[8-10]。從國外的相關(guān)研究來看,與COVID-19 相關(guān)的研究多集中于檢測模型的構(gòu)建,檢測技術(shù)的創(chuàng)新與虛假信息傳播對人們產(chǎn)生的影響方面[11-12]。
本文以新冠疫情事件為研究對象,以各大權(quán)威性新聞網(wǎng)站以及新浪微博平臺(tái)為數(shù)據(jù)來源,搜尋與新冠疫情相關(guān)的新聞與言論,對數(shù)據(jù)進(jìn)行標(biāo)簽并分類,以權(quán)威性數(shù)據(jù)為真實(shí)數(shù)據(jù)集,建立辨別真實(shí)數(shù)據(jù)與虛假數(shù)據(jù)的特征,設(shè)立7 個(gè)可進(jìn)行本質(zhì)識(shí)別的特征屬性對模型進(jìn)行訓(xùn)練,最后獲取不通核函數(shù)的分類結(jié)果。
虛假新聞識(shí)別模型的構(gòu)建目的是對樣本數(shù)據(jù)集中的新聞進(jìn)行真假分類,將訓(xùn)練好的分類器運(yùn)用到其他真假兩類同時(shí)存在的數(shù)據(jù)集中,能夠保持較高的分類準(zhǔn)確度。模型體系主要包括三個(gè)部分,分別是新聞數(shù)據(jù)平臺(tái)的選擇與數(shù)據(jù)提取、特征屬性的構(gòu)建及劃分?jǐn)?shù)值選擇、SVM 函數(shù)的構(gòu)造,如圖1 所示。
圖1 虛假新聞識(shí)別模型
澎湃新聞?dòng)缮虾?bào)業(yè)集團(tuán)投入打造,以新媒體的印象走入公眾視野,主要有網(wǎng)站、App、Wechat、新浪微博等四個(gè)主要信息發(fā)布途徑,設(shè)立45 個(gè)欄目,日發(fā)布至少十幾萬字的內(nèi)容中原創(chuàng)內(nèi)容占大部分。作為一個(gè)官方正式新聞媒體,澎湃沒有用自有資金開設(shè)線下渠道,而是由東方日報(bào)負(fù)擔(dān),因此有足夠的資金保證充分的新聞采集。鑒于以上原因,本文通過澎湃新聞官網(wǎng)對新冠疫情辟謠信息新聞數(shù)據(jù)進(jìn)行采集。
由于關(guān)于新冠疫情的真實(shí)新聞與虛假新聞相比較總數(shù)差異較大且分布的范圍較為廣泛,因此通過新浪微博官網(wǎng)、騰訊新聞官網(wǎng)和央視新聞官網(wǎng)等平臺(tái)對真實(shí)新聞數(shù)據(jù)進(jìn)行提取,在對數(shù)據(jù)進(jìn)行預(yù)處理(去重復(fù),去相似性,篩選與刪除無效信息)之后,總共保留93 條數(shù)據(jù)。
為了保證數(shù)據(jù)的全面性和完整性,采用網(wǎng)絡(luò)爬蟲技術(shù)對新冠疫情的虛假信息進(jìn)行爬取,總共爬取數(shù)據(jù)100 余條,在對數(shù)據(jù)進(jìn)行預(yù)處理(篩選與刪除無效信息,去重復(fù))之后,保留93 條有效數(shù)據(jù)。
為保證識(shí)別概率的平等性以及訓(xùn)練分類器的準(zhǔn)確性,采取了提取相同數(shù)量真假樣本新聞數(shù)據(jù)的設(shè)計(jì)方案。提取結(jié)果含93 條新冠疫情虛假信息和93 條新冠疫情真實(shí)信息,提取的部分?jǐn)?shù)據(jù)樣本如表1所示。
表1 新聞樣本數(shù)據(jù)提取結(jié)果
新聞的生命在于其所具有的真實(shí)性,這不僅是理論和實(shí)踐的基石,更是不能打破的原則。由于當(dāng)代社會(huì)浮躁風(fēng)氣的浸染,個(gè)人乃至媒體一味通過提高新聞閱讀量與轉(zhuǎn)發(fā)量追求利益,虛假新聞屢見不鮮,通過查閱相關(guān)文獻(xiàn)和研究,發(fā)現(xiàn)被認(rèn)定為謠言的虛假新聞?dòng)幸韵绿卣鳎簶?biāo)題浮夸;在真實(shí)事件報(bào)道的基礎(chǔ)上添加過多主觀情感;新聞字?jǐn)?shù)較短,內(nèi)容詳盡程度低;新聞事件及官方消息來源方不明;應(yīng)用名人效應(yīng)混淆視聽。
鑒于以上虛假新聞的特點(diǎn)和新冠疫情的實(shí)際情況,筆者構(gòu)建了以下7 個(gè)特征屬性。
(1)敏感性詞匯占比。突發(fā)公共性安全事件涉及全國乃至全世界人民的生命安全,心理學(xué)研究指出,人具有“嗜血”的本質(zhì),由此負(fù)面事件的傳播速度遠(yuǎn)高于正面事件的傳播速度。關(guān)于新冠疫情的虛假新聞制造者往往通過敏感詞匯的提及來擴(kuò)大社會(huì)傳播面,極易引起大眾心理的恐慌和躁動(dòng),設(shè)定的特征屬性中的敏感詞匯包含死亡錄音、逃亡、感染出逃、爆炸、墜樓自殺等。在設(shè)立過程中,沒有將虛假與真實(shí)新聞的字?jǐn)?shù)單獨(dú)設(shè)置特征屬性,而是通過將其作為特征值計(jì)算過程中的分母來體現(xiàn),后續(xù)三個(gè)指標(biāo)同理。
(2)地點(diǎn)名詞與人物名詞占比。虛假新聞的表現(xiàn)形式是多方面的。從虛假新聞的過程來看,可以分為源頭性失真、傳播過程失真和結(jié)果失真。在大眾傳媒時(shí)代,人人都是自媒體人,發(fā)布言論甚至新聞的成本幾乎接近于零,人人都會(huì)發(fā)聲且可發(fā)聲,傳媒平臺(tái)的良莠不齊給虛假言論創(chuàng)造了滋生環(huán)境,“求熱不求真”成為媒體界的一大亂象。張雷等研究指出,輕信信源是虛假新聞產(chǎn)生的主要原因。因此設(shè)置地點(diǎn)名詞與人物名詞占比指標(biāo),地點(diǎn)和人物說明越詳盡,新聞可信度越高,在法制社會(huì),若以他人名義散播謠言將受到法律的制裁,責(zé)任的歸咎和個(gè)人信譽(yù)度的降低成為謠言制造及傳播者不得不考慮的“發(fā)聲成本”。
(3)序數(shù)詞、基數(shù)詞等數(shù)字信息占比。21 世紀(jì)是信息化的時(shí)代,數(shù)據(jù)信息是信息時(shí)代的重要角色,能夠反映事物的面貌與發(fā)展變化規(guī)律。通過數(shù)字信息客觀有效的描述,能夠更精準(zhǔn)地對表達(dá)對象進(jìn)行描述和進(jìn)行發(fā)展變化的反應(yīng)。數(shù)字信息面對對象的內(nèi)容精準(zhǔn)且唯一,主觀成分不能參雜入內(nèi)。文字信息面對對象的內(nèi)容不明確且存在理解多樣性,由于人的有限理性存在,同一種文字表述被傳達(dá)出的含義大相徑庭,主觀成分摻雜過多。由于上述原因,通過虛假新聞的規(guī)律研究發(fā)現(xiàn),偽造信息中數(shù)字信息的占比較低甚至不出現(xiàn),偽造者和謠言傳播者難以對事物的數(shù)字特征進(jìn)行精準(zhǔn)的定位,通過構(gòu)建序數(shù)詞和基數(shù)詞在新聞總字?jǐn)?shù)中的占比指標(biāo)能夠?qū)Υ爽F(xiàn)象辨別,占比越低則新聞為虛假新聞的可能性越大,反之,可能性越小。除此之外不排除偽造者對造假對象進(jìn)行詳細(xì)了解后同時(shí)虛構(gòu)令人信任度較高的數(shù)字特征,本文對此處的考慮沒有在單一特征指標(biāo)中體現(xiàn),而是通過多個(gè)特征值的求和來減小錯(cuò)判的可能性。
(4)肯定預(yù)防控制效果的前提下,食物或行為的占比。根據(jù)人類對事件可控程度不同進(jìn)行劃分,分為可控事件和不可控事件。新冠疫情的爆發(fā)雖有因果,但是由于人的認(rèn)識(shí)的限制,對事物的真理性認(rèn)知需要一個(gè)螺旋式曲折上升的過程,至今沒有官方消息報(bào)道發(fā)現(xiàn)疫情出現(xiàn)的根源。虛假新聞則以此為對立面,在文字中多出現(xiàn)過度肯定對不可控事物的發(fā)展態(tài)勢及結(jié)果的詞匯,在肯定預(yù)防控制疫情效果的前提下,對事物或行為的詞匯占比指標(biāo)能夠?qū)Υ爽F(xiàn)象進(jìn)行量化,主觀肯定詞匯出現(xiàn)的前提下,事物或行為占比越高,則為虛假新聞的可能性越高。
(5)是否是關(guān)于新冠疫情過度反應(yīng)的負(fù)面信息??紤]到新冠疫情對大眾心理狀態(tài)及情緒的過度影響,真實(shí)新聞對疫情的負(fù)面消息的評(píng)論客觀性高,主觀評(píng)價(jià)幾乎被杜絕。虛假新聞則出于政治、經(jīng)濟(jì)利益、社會(huì)穩(wěn)定性等各方面的原因,偽造傳播對疫情過度反應(yīng)的負(fù)面信息,依此為出發(fā)點(diǎn),構(gòu)造指標(biāo),指標(biāo)值為布爾型,若值為1,則表示出現(xiàn)過度反應(yīng)的疫情負(fù)面信息,反之,則為0。
(6)專家是否與表達(dá)肯定或否定的詞匯一起出現(xiàn)。新聞價(jià)值由若干個(gè)要件共同組成,顯著性是構(gòu)成價(jià)值的重要成分之一。顯著性程度的高低取決于新聞中人物與事件所具有的吸引力的高低。名人的行動(dòng)和言語帶來的影響類似于蝴蝶效應(yīng),根據(jù)調(diào)查結(jié)果顯示,出于對名人的崇拜及追隨心理,大眾往往傾向于相信其言語所描述和評(píng)價(jià)的事物。事業(yè)成就越高、公信力越大的人,其一舉一動(dòng)的新聞價(jià)值越高。新聞偽造者出于此,往往通過偽造名人的言論來進(jìn)行虛假新聞的撰寫與傳播。在新冠疫情中,由于對疫情趨勢的未知性和權(quán)威專家的理性判斷,專家若與明確表達(dá)肯定或否定的詞匯一起出現(xiàn),則該新聞為虛假新聞的可能性越高,綜上所述,構(gòu)建指標(biāo),若指標(biāo)值為1,表示專家與明確表達(dá)肯定或否定的詞匯一起出現(xiàn),反之,則為0。
(7)武漢地區(qū)評(píng)論性質(zhì)指標(biāo)。武漢作為新冠疫情的主要受害地區(qū),承擔(dān)著全國戰(zhàn)役行動(dòng)的主要責(zé)任,英雄的武漢人民為了防止疫情的進(jìn)一步擴(kuò)散,封閉一切進(jìn)鄂離鄂通道,為抗擊疫情做出重大犧牲和貢獻(xiàn)。根據(jù)網(wǎng)絡(luò)評(píng)論顯示,仍有針對武漢的地方歧視主義情況出現(xiàn),對一切來源于武漢的人或事物強(qiáng)烈排斥和詬病,超出正常的防范程度。因此,通過構(gòu)建武漢是否與負(fù)面詞匯一起出現(xiàn)的指標(biāo)來對此方面的虛假新聞進(jìn)行識(shí)別,若指標(biāo)值為1,則該新聞為虛假新聞的可能性較大,反之,可能性較小。提取的部分樣本如表2 所示,分別對每個(gè)樣本的敏感詞匯占比、明確肯定預(yù)防詞匯占比、序數(shù)、基數(shù)詞出現(xiàn)占比等8個(gè)數(shù)據(jù)特征進(jìn)行了分析。
表2 樣本數(shù)據(jù)特征屬性值
SVM(Support Vector Mac)為一種二分類的模型,按其功能可以分為線性和非線性兩大類。SVM 主要思想是找到空間中的一個(gè)能夠?qū)⑺袛?shù)據(jù)樣本劃開的超平面,并且使得樣本數(shù)據(jù)集中所有數(shù)據(jù)到這個(gè)超平面的距離最短。
按照與二維空間類似的原理,超平面的方程可表示為
假設(shè)T 為特征空間上的數(shù)據(jù)集,即
其中,yi∈{+1,-1},i=1,2,…,n,yi為類別標(biāo)簽,當(dāng)yi=+1 時(shí)為正例,yi=-1 時(shí)為負(fù)例。
對于數(shù)據(jù)集T 和超平面,定義二者的幾何間隔如下
式(4)中所表示距離為支持向量到超平面距離。
所以SVM 可以表示為以下約束最優(yōu)化問題
對于線性可分的問題,可以用SVM 算法進(jìn)行求解,但面對非線性可分函數(shù),需要引入核函數(shù),核函數(shù)的合理性在于從理論意義上來說,任何數(shù)據(jù)樣本都可以找到特定映射使在低維空間中不可劃分的樣本到高維空間中之后線性可分。
主要的6 種核函數(shù)如表3 所示。
表3 核函數(shù)表達(dá)式
本文采用Matlab 作為分類預(yù)測工具來對新冠疫情期間的虛假新聞進(jìn)行檢測,用所得數(shù)據(jù)作為訓(xùn)練集對SVM 分類器進(jìn)行訓(xùn)練,在訓(xùn)練過程中分別采用線性核函數(shù)(Linear)、多項(xiàng)式核函數(shù)(Polynomia)、RBF 核函數(shù)和Sigmiod 核函數(shù)4 種核函數(shù)形式,研究不同核函數(shù)對虛假新聞檢測的精準(zhǔn)度,通過選擇精準(zhǔn)度最高的核函數(shù)分類器來作為最優(yōu)檢測模型。分析過程的實(shí)現(xiàn)使用libsvm 工具包。
首先,對所得新聞數(shù)據(jù)分成真實(shí)和虛假兩類,真實(shí)新聞集的標(biāo)簽設(shè)置為+1,虛假新聞集的標(biāo)簽設(shè)置為-1,依據(jù)所構(gòu)建的7 個(gè)特征屬性分別對每條數(shù)據(jù)進(jìn)行計(jì)算賦值。
其次,為了提高分類結(jié)果準(zhǔn)確性和分析過程的高效性,將6 個(gè)相互有相關(guān)關(guān)系的特征值進(jìn)行加總作為分類器訓(xùn)練的第一維屬性,提取一個(gè)獨(dú)立性特征較顯著的特征屬性作為第二維屬性。處理后的二維特征屬性值的部分情況如表4 所示。將特征總值作為x 軸,單個(gè)特征值作為y 軸,得到原始數(shù)據(jù)散點(diǎn)分布圖如圖2 所示。
圖2 原始訓(xùn)練數(shù)據(jù)散點(diǎn)圖
表4 處理后二維特征屬性
利用libsvm 工具包,采用4 種不同核函數(shù)對訓(xùn)練集進(jìn)行訓(xùn)練得到的分類結(jié)果如下:
線性核函數(shù):Accuracy=88.7097% (165/186) (classification)
多項(xiàng)式核函數(shù):Accuracy=55.3763% (103/186) (classification)
RBF 核函數(shù):Accuracy=62.3656% (116/186) (classification)
sigmiod 核函數(shù):Accuracy=61.2903% (114/186) (classification)
各個(gè)核函數(shù)做對應(yīng)的分類器邊界線圖如圖3~6 所示。
圖3 線性核函數(shù)分類圖
圖4 Polynomial 核函數(shù)分類圖
圖5 RBF 核函數(shù)分類圖
圖6 Sigmiod 核函數(shù)分類圖
線性核函數(shù)對數(shù)據(jù)的分類結(jié)果最好,精準(zhǔn)度達(dá)到88.8%左右,總共186 個(gè)樣本中有165 個(gè)被準(zhǔn)確分類。RBF 核函數(shù)與Sigmiod 核函數(shù)的分類器分類效果相似度較高,二者均在61.5%左右,多項(xiàng)式核函數(shù)的分類效果較差,僅高于50%約5 個(gè)百分點(diǎn)左右。
綜上所述,在突發(fā)性公共安全事件領(lǐng)域,每一次新消息的產(chǎn)生和傳播,不論真假,均調(diào)動(dòng)著國民的敏感神經(jīng),對安全事件的正面或負(fù)面的影響有至關(guān)重要的影響。虛假新聞檢測研究是國內(nèi)新興的研究領(lǐng)域,具有廣闊的應(yīng)用前景。目前從國內(nèi)的相關(guān)研究來看,與COVID-19 相關(guān)的研究多集中于定性方面,在定量與構(gòu)建模型進(jìn)行虛假信息識(shí)別方面的研究還有待擴(kuò)展。本文以新冠疫情事件為研究對象,以各大權(quán)威性新聞網(wǎng)站以及新浪微博平臺(tái)為數(shù)據(jù)來源,搜尋與新冠疫情相關(guān)的新聞與言論,對數(shù)據(jù)進(jìn)行標(biāo)簽并分類,以權(quán)威性數(shù)據(jù)為真實(shí)數(shù)據(jù)集,建立辨別真實(shí)數(shù)據(jù)與虛假數(shù)據(jù)的特征,設(shè)立7 個(gè)可進(jìn)行本質(zhì)識(shí)別的特征屬性對模型進(jìn)行訓(xùn)練,最后獲取不通核函數(shù)的分類結(jié)果。分析結(jié)果表明,利用本文所構(gòu)建的特征值和SVM 中的線性核函數(shù)方法能夠?qū)μ摷傩侣勥M(jìn)行高精準(zhǔn)度識(shí)別,分類效果較好。在未來研究中,需要結(jié)合不同的突發(fā)性公眾衛(wèi)生事件應(yīng)用場景,提取各類事件真假信息辨別的重要特征,深究其信息產(chǎn)生機(jī)制,研究更高效的檢測方法。
佛山科學(xué)技術(shù)學(xué)院學(xué)報(bào)(自然科學(xué)版)2021年6期