程小剛 安夢佳 郭韌
摘? 要: 網(wǎng)絡(luò)輿情具有時(shí)效性強(qiáng)、傳播迅速、涉及方面雜而廣、意見指向性特征明顯、泛娛化特征明顯等特點(diǎn)。因此,提出對LDA輸入數(shù)據(jù)采用TF-IDF算法加強(qiáng)特征詞篩選的方法。選取 “巴黎圣母院大火”事件,采集作為網(wǎng)絡(luò)輿情重要來源的微博數(shù)據(jù),進(jìn)行LDA建模,引入TF-IDF算法進(jìn)行特征詞的篩選,能較準(zhǔn)確地分析出該事件的主題分布。
關(guān)鍵詞: 網(wǎng)絡(luò)輿情; 主題提取; LDA; TF-IDF
Abstract: Network public opinion has the characteristics of strong timeliness, rapid dissemination, wide and miscellaneous involved aspect, obvious directional feature of opinion, and obvious characteristics of pan-entertainment. Therefore, TF-IDF algorithm is proposed to enhance the feature word filtering for LDA input data. Select "Notre Dame Fire in Paris" event, collect micro-blog data, which is an important source of public opinion on the network, model it with LDA, and introduce TF-IDF algorithm to select the feature words, it is found that the subject distribution of the event can be analyzed more accurately.
0 引言
相對傳統(tǒng)輿情,網(wǎng)絡(luò)輿情傳播互動(dòng)更加迅捷,影響擴(kuò)散更敏感,帶有網(wǎng)友的主觀性,直接以多種形式發(fā)布在互聯(lián)網(wǎng)上。各類社交平臺(tái)的出現(xiàn),緩解了網(wǎng)民在網(wǎng)絡(luò)信息上作為傳播者和受傳者角色上的不平等,網(wǎng)民可以發(fā)布和傳播一手信息,網(wǎng)絡(luò)信息的真實(shí)性失去嚴(yán)格的把控,大量偏差甚至虛假信息橫行網(wǎng)絡(luò),而網(wǎng)民的情緒又極易被煽動(dòng),若無法針對輿論事件及時(shí)作出反應(yīng),就會(huì)出現(xiàn)一些不理智的言論,可能加速事件惡化,讓相關(guān)單位的公信力受挫。及時(shí)、準(zhǔn)確地收集輿論信息,提取出輿情事件的主題,并針對主題給出具有針對性、行之有效的解決方案,不僅能夠?yàn)槲磥硐嚓P(guān)主題事件的解決做準(zhǔn)備,更提高了解決效率,遏制了事件的惡化。網(wǎng)絡(luò)輿情的研究主要集中在網(wǎng)絡(luò)輿情概念理論、傳播特征及途徑、輿情傳播影響因子、輿情引導(dǎo)策略等[1-2]方面,利用云計(jì)算、相關(guān)算法、聚類技術(shù)進(jìn)行網(wǎng)絡(luò)輿情的熱點(diǎn)發(fā)現(xiàn)、情感分析、觀點(diǎn)挖掘、監(jiān)測模式分析、主題演化等[3-4]的研究。網(wǎng)絡(luò)的開放性讓人們越來越容易表達(dá)自己,網(wǎng)絡(luò)輿情的監(jiān)測控制變得重要。準(zhǔn)確發(fā)現(xiàn)和提取網(wǎng)絡(luò)輿情的主題,對輿情的監(jiān)測和疏導(dǎo)有著積極的意義。
1 主題提取模型和算法
判斷兩篇文檔是否相關(guān),通常不僅僅取決于其在字面上的詞語重復(fù)程度,還很大程度上取決于文本中所隱含的主題是否類似。在文本創(chuàng)作中,作者通常先確定文章的主旨,再根據(jù)要涉及到的每個(gè)主題,選取相應(yīng)詞匯,以突出主題、構(gòu)成文章。在文本挖掘中,可模擬文本創(chuàng)作過程,先從主題集合中選取一些主題,再從每個(gè)主題下選取一些詞語,這些詞語構(gòu)成了最終的文檔。對一篇文檔判斷其主題分布,便是上述過程的逆過程。而也是由上述過程可知判斷一篇文檔的主題分布,關(guān)鍵便是得到文檔-主題分布、主題-詞分布。LDA(潛在狄利克雷分配主題)模型針對每篇文檔,文檔-主題矩陣、主題-詞矩陣都是不確定的,通過貝葉斯方法估計(jì)詞分布和主題分布的兩個(gè)未知量,提高了文檔處理的靈活性。
文本經(jīng)數(shù)據(jù)預(yù)處理之后,成為一系列對文檔主題有貢獻(xiàn)的詞,每個(gè)詞的對主題的貢獻(xiàn)率不同。TF-IDF算法便是用來評估詞匯在所在文檔中的重要程度,算法結(jié)果是得出每個(gè)詞的權(quán)重。詞權(quán)重不僅取決于其在文章中出現(xiàn)的次數(shù)多少,還取決于該詞常見與否。當(dāng)某個(gè)詞較為少見卻在一篇文章中出現(xiàn)頻繁時(shí),那么該詞很可能反映了該篇文章的特點(diǎn)。算法步驟如下。
第一步,計(jì)算詞頻。TF=某詞在文章中出現(xiàn)的次數(shù)/文章的總詞數(shù)。
第二步,計(jì)算逆文檔頻率,用于衡量該詞在所分析的語言環(huán)境中的常見程度。IDF=log(文檔集D的文檔總數(shù)/(包含該詞的文檔數(shù)+1))。一個(gè)詞在所分析的語言環(huán)境中越常見,則IDF值越小。
第三步,計(jì)算TF-IDF。TF-IDF=詞頻(TF)× 逆文檔頻率(IDF)。
2 網(wǎng)絡(luò)輿情主題模型構(gòu)建
網(wǎng)絡(luò)輿情的時(shí)效性較強(qiáng),對主題提取的及時(shí)性有著較高的要求,網(wǎng)絡(luò)輿情所涉及的民眾角度多而雜,口語化表達(dá)較多,構(gòu)建的LDA模型時(shí)需加強(qiáng)數(shù)據(jù)輸入的代表性。TF-IDF算法能夠計(jì)算出每個(gè)特征詞的權(quán)重,值較小的詞則對文檔主題的貢獻(xiàn)率較低,如不去除必然影響主題提取的準(zhǔn)確率。在數(shù)據(jù)預(yù)處理階段引入TF-IDF算法對分詞結(jié)果進(jìn)行過濾,使其轉(zhuǎn)化為更具代表性的特征詞。
2.1 語料庫構(gòu)建
語料庫是由文檔集提取而來,一個(gè)好的文檔集中每篇文檔涉及的主題較為廣泛,不僅利于事件主題提取的準(zhǔn)確性,還提高了訓(xùn)練出的LDA模型的在事件類型的適用性。結(jié)合網(wǎng)絡(luò)輿情表現(xiàn)形式,將某一網(wǎng)絡(luò)熱點(diǎn)事件的輿情在文本形式上分為兩大類:字?jǐn)?shù)超800字的文章式分析型和字?jǐn)?shù)較少的短文本評論型,參與范圍較廣的是后者,若想更廣泛更全面了解民意,其更具主題提取價(jià)值。
網(wǎng)絡(luò)輿情無論發(fā)布在哪個(gè)網(wǎng)站平臺(tái),人們針對某一特定事件的態(tài)度及評論的方式總是不變的,不同之處僅在于由于不同網(wǎng)站轉(zhuǎn)發(fā)回復(fù)形式不同,使得采集的原始數(shù)據(jù)的預(yù)處理過程有些相異之處。多數(shù)微博用戶所發(fā)博文內(nèi)容字?jǐn)?shù)不超過500字,屬于短文本評論型,可在微博上選取10位以上微博博文內(nèi)容“時(shí)事評論純度高”,即博文內(nèi)容涉及其他無關(guān)輿情主題較少的時(shí)事評論人,每個(gè)評論人所有博文內(nèi)容構(gòu)成一篇文檔,以此構(gòu)成文檔集。采取這些時(shí)評人的微博內(nèi)容用以訓(xùn)練模型不僅由于其涉及面廣,而且因?yàn)樵撐谋緝?nèi)容在表達(dá)形式上接近網(wǎng)友評論,同時(shí)這些時(shí)評人具有一定的權(quán)威性,其表達(dá)的觀點(diǎn)較普通大眾更為準(zhǔn)確客觀,更利于主題分類。
2.2 事件文檔構(gòu)建
網(wǎng)民參與度較高的表現(xiàn)為短文本評論,其表現(xiàn)為熱門新聞下的評論、熱門帖子或博文下的跟帖評論、單獨(dú)開帖發(fā)表觀點(diǎn)等。而對于所分析事件文檔構(gòu)建,若要更真實(shí)地了解民意,需主題提取的更有效,應(yīng)抓取事件熱門新聞下的評論數(shù)據(jù),或用于表達(dá)個(gè)人觀點(diǎn)的微博博文數(shù)據(jù)等。前者是客觀的新聞內(nèi)容及評論區(qū),其合情合理地成為輿論觀點(diǎn)聚集地,后者毋庸置疑亦是屬于輿情的重要來源。這兩者納入同一篇文檔即構(gòu)成所分析事件的輿情數(shù)據(jù)。
2.3 網(wǎng)絡(luò)輿情主題模型
LDA模型是基于貝葉斯模型的,如圖1所示。
θd表示第d篇文檔的主題分布,用向量表示,θd,k表示第k個(gè)主題在第d個(gè)文檔中的比例;Zd表示第d篇文檔的主題分布全體,Zd,n表示文檔中第n個(gè)詞的主題;Wd表示第d篇文檔的全體特征詞,Wd,n是第d個(gè)文檔中第n個(gè)詞;N表示第d篇文檔的特征詞總數(shù),d篇文檔構(gòu)成要生成的文檔集D;K代表所有主題的集合,βk表示第k個(gè)主題中詞的分布;α、η表示語料參數(shù),p (θd|α)表示參數(shù)為α?xí)r第d篇文檔的主題分布,p(βk|η)表示參數(shù)為η時(shí)第k個(gè)主題中詞的分布。
LDA是在PLSA的參數(shù)上引入先驗(yàn)分布并進(jìn)行貝葉斯改造所形成的,而LDA的Dirichlet先驗(yàn)分布則體現(xiàn)在語料參數(shù)α、η上:α代表文檔中隱含主題之間的先驗(yàn)參數(shù),η代表主題內(nèi)部詞語分布的先驗(yàn)參數(shù),二者均服從Dirichlet分布。根據(jù)Xing Wei和W. Bruce Croft[5]等的研究,先驗(yàn)參數(shù)α、η可由經(jīng)驗(yàn)確定,α=50/T、η=0.01,其中T為主題個(gè)數(shù)。LDA的聯(lián)合概率公式為:
3 輿情主題分析及實(shí)證研究
3.1 微博輿情數(shù)據(jù)采集和處理
3.1.1 數(shù)據(jù)采集
利用網(wǎng)絡(luò)爬蟲技術(shù),通過八爪魚數(shù)據(jù)采集器實(shí)現(xiàn)數(shù)據(jù)爬取。語料庫數(shù)據(jù)方面,選取了10個(gè)權(quán)威時(shí)事評論人:陳迪Winston、連鵬、敬一山、唐有訟、陳純Camus、石述思、喬凱文、楊文戰(zhàn)律師、呂頻、韓東言。這10個(gè)時(shí)評人的關(guān)注事件角度均較為廣泛,涉及醫(yī)療、教育、國際關(guān)系、女性權(quán)利、刑事、科技生活等眾多能夠引起廣泛輿論討論的方面。本文對該10個(gè)時(shí)評人微博主頁中2019年內(nèi)的微博數(shù)據(jù)進(jìn)行了爬取,共抓取10054條有效微博博文數(shù)據(jù)。
輿情事件數(shù)據(jù)方面,選取“巴黎圣母院大火”事件。當(dāng)?shù)貢r(shí)間2019年4月15日下午6點(diǎn)50分左右,法國巴黎圣母院發(fā)生大火,整座建筑損毀嚴(yán)重,這座擁有人們集體記憶的“全人類的偉大遺產(chǎn)之一”受到如此重創(chuàng),新聞一出,輿論嘩然。利用八爪魚通過微博關(guān)鍵字“巴黎圣母院大火”的搜索,共搜集1000條微博數(shù)據(jù),6557條評論數(shù)據(jù)。
3.1.2 數(shù)據(jù)預(yù)處理
對爬取到的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、結(jié)構(gòu)化,轉(zhuǎn)化為LDA模型可輸入的數(shù)據(jù)形式。數(shù)據(jù)預(yù)處理過程主要包括三個(gè)階段:對提取到的內(nèi)容做分詞處理——去除分詞結(jié)果中的無用詞——TF-IDF算法提取特征詞。
⑴ 文本分詞:對于英文分詞來說,基本只需要按照空格基于區(qū)分,而中文分詞將一個(gè)個(gè)漢字組成的序列切割成一個(gè)個(gè)單獨(dú)的詞,也即將一個(gè)連續(xù)的字序列按照一定的規(guī)范重新組合成一系列詞的過程。中文文本之間不但是彼此連續(xù)的,而且還有常用詞、詞性、成語等許多語法現(xiàn)象,需要借助一些特定的中文分詞模塊。本文采用Python中jieba分詞工具。
⑵ 去停用詞:分詞結(jié)果中存在較多無意義的符號(hào),與其他詞相比沒有具體的實(shí)際含義,但由于在磁盤中占用空間較大,為提高檢索效率,可將其剔除。在文本處理中,一旦遇到該類詞就停止處理,將其扔掉。停用詞一般包括英文字符、數(shù)學(xué)字符、數(shù)字、標(biāo)點(diǎn)符號(hào)、使用頻率很高的單漢字等。本文引入來自于網(wǎng)絡(luò)的較為全面的停用詞表對分詞結(jié)果進(jìn)行處理,其內(nèi)容涵蓋了哈工大停用詞、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫、百度停用詞等常見的停用詞表,分詞表共含1893個(gè)詞符。在python中對前一步分詞結(jié)果,引入停用詞表進(jìn)行處理后。
過濾掉停用詞后,事件文本數(shù)據(jù)中仍存在大量詞匯,詞匯數(shù)目過多,輸入到LDA模型中,產(chǎn)生的文檔-詞匯矩陣映射到向量空間時(shí),信息過多、維數(shù)過大,不利于事件輿情主題提取的及時(shí)性和有效性。
⑶ TF-IDF提取特征詞:通過在python中編寫TF-IDF函數(shù),共提取了前300個(gè)關(guān)鍵詞。得關(guān)鍵詞及其權(quán)重值如圖2所示。
3.2 LDA實(shí)證建模及結(jié)果分析
在Python中引入gensim包,調(diào)用其LdaModel方法,輸入已經(jīng)預(yù)處理好的文檔集作為corpus語料庫、文檔-詞矩陣轉(zhuǎn)化而來的數(shù)據(jù)字典及所欲得到的主題個(gè)數(shù)。輸入得主題個(gè)數(shù)能夠直接影響LDA模型的好壞,通過困惑度(perplexity)確定LDA模型主題個(gè)數(shù):
其中,分母為測試集總長度,即文檔集所有詞匯數(shù),p(w)指測試集中每個(gè)單詞出現(xiàn)的概率,,p(z|d)指每個(gè)文檔中每個(gè)主題的概率,p(w|z)指每個(gè)詞匯在該主題下的概率。困惑度越低,說明LDA模型建的越好,而必然主題數(shù)越多,文檔所屬主題的不確定性也即困惑度越低。但主題數(shù)目過多,不但主題提取失去意義,更是容易出現(xiàn)模型的過擬合。由于對所分析事件最終共提取300個(gè)關(guān)鍵詞,對LDA模型主題數(shù)從1-300的困惑度均進(jìn)行了計(jì)算,通過Python完成上述過程,并對計(jì)算結(jié)果繪制了折線圖。如圖3所示。
主題數(shù)在178個(gè)附近時(shí),困惑度達(dá)到最小,而>178,困惑度趨于平緩。然而,當(dāng)將topic-number=178輸入LDA模型時(shí),得到的主題-詞匯矩陣中存在大量主題的詞匯相同,出現(xiàn)過擬合現(xiàn)象,經(jīng)過主題數(shù)調(diào)整,最終確定topic-number=20時(shí),困惑度最低且無過擬合現(xiàn)象。將新文檔帶入LDA模型,得到的主題分布如圖4所示。
選取其中幾個(gè)話題進(jìn)行分析:
Topic2:作為全人類共同文化遺產(chǎn)的巴黎圣母院,如今被燒得幾乎沒了屋頂,大多數(shù)人表示痛心難過,更是希望法國政府徹底調(diào)查出起火原因,加強(qiáng)文物保護(hù)。