李沅靜,葉仁玉
(安慶師范大學(xué) 數(shù)理學(xué)院,安徽 安慶 246133)
2021年7月國家正式實施的《關(guān)于進一步減輕義務(wù)教育階段學(xué)生作業(yè)負(fù)擔(dān)和校外培訓(xùn)負(fù)擔(dān)的意見》(簡稱為“雙減”政策)受到社會廣泛關(guān)注。隨著政策的發(fā)布和實施,各大網(wǎng)絡(luò)平臺產(chǎn)生了大量的關(guān)于“雙減”政策的評論文本和相關(guān)的短文本信息,這些文本信息反映了民眾對該政策的情感態(tài)度。通過文本情感分析方法對這些評價文本進行有效的挖掘和分析,能更好地分析熱點輿論,了解大眾的觀點,以便給政府部門提供重要的決策依據(jù)。目前對于“雙減”政策的短文本分析的研究較少,本文旨在針對微博和抖音平臺爬取到的“雙減”政策評論的短文本數(shù)據(jù),利用文本挖掘技術(shù),基于機器學(xué)習(xí)與深度學(xué)習(xí)模型對短文本進行訓(xùn)練,將實證結(jié)果進行對比與分析,結(jié)合分析結(jié)果提出關(guān)于“雙減”政策相關(guān)建議。
文本情感分析是對主觀性信息的挖掘,是對其蘊含主觀情緒的文本進行采集、分類和分析的過程[1]。文本情感分析涉及統(tǒng)計學(xué)、語言學(xué)、人工智能等多個專業(yè)方向的研究內(nèi)容,是當(dāng)前自然語言處理領(lǐng)域的研究熱點。目前主要有基于機器學(xué)習(xí)和基于深度學(xué)習(xí)的兩種文本情感分析方法。
基于機器學(xué)習(xí)的方法是將訓(xùn)練集中的數(shù)據(jù)訓(xùn)練成為情感分類器,再使用該分類器對新句子的進行情感傾向預(yù)測,常用的機器學(xué)習(xí)分類算法有樸素貝葉斯、支持向量機等[2]?;跈C器學(xué)習(xí)的文本情感分析方法最初是由Pang等人提出[3],證實了支持向量機在文本分類上具有較好的性能。在大批量數(shù)據(jù)實例下,樸素貝葉斯分類器對于支持向量機具有更佳的情感極性分類性能[4]。實證表明相較于經(jīng)典方法,主題模型與支持向量機的評論分類方法有更低的困惑度、信息提取更為充分[5]。
基于深度學(xué)習(xí)的文本情感分析主要利用深度學(xué)習(xí)模型的自動捕捉文本的重要表達(dá)特征,提高分類的效率,充分挖掘語意文本情感信息[6]。常用的深度學(xué)習(xí)模型有長短期記憶模型(LSTM)、雙向長短期記憶模型(BiLSTM)等[7]。實踐證明,基于LSTM模型的中文文本多分類器,同時融合Dropout算法得出的最終分類模型,具有良好的文本多分類性能[8]。在注意力機制下,利用character-SATT-BiLSTM中文情感分析算法,短文本信息的稀疏特征能夠完整保留,有效提高了分類性能[9]。目前基于機器學(xué)習(xí)與深度學(xué)習(xí)的文本情感分析方法主要著重于對模型的創(chuàng)新與研究,而基于這些模型對具體事件的分析與探討較少?!半p減”政策是國家新出臺的一項教育民生政策,受到全社會民眾的高度關(guān)注和多方面評價,該政策涉及面廣泛,意義深遠(yuǎn)和重大。目前利用機器學(xué)習(xí)與深度學(xué)習(xí)的方法對“雙減”政策進行文本情感分析的研究幾乎空白。本文結(jié)合四種學(xué)習(xí)方法對爬取到的“雙減”政策評論短文本進行訓(xùn)練與分析,并結(jié)合分析結(jié)果給予相關(guān)建議。
由于中文所具有的特殊性,針對中文文本進行分詞處理成為一項基礎(chǔ)任務(wù)。目前使用最為廣泛的分詞工具有SnowNLP, Thulac, Jieba分詞等。Jieba分詞作為當(dāng)前最簡單、便捷且高效的工具之一,其基本原理是在前綴詞典的基礎(chǔ)上對句子進行掃描,然后構(gòu)成有向無環(huán)圖,再利用路徑規(guī)劃找出最大概率路徑以及基于詞頻的最大切分組合[10]。
為了將文字語言轉(zhuǎn)化為計算機能識別的符號,需要將文本形式化表示。詞向量生成模型(Word2vec)作為目前使用較為廣泛的文本表示模型,能夠充分體現(xiàn)詞語之間的關(guān)聯(lián)性,適用于詞語間的相似度計算。
2.2.1 樸素貝葉斯分類
樸素貝葉斯分類法是基于獨立性假設(shè)的前提,并結(jié)合了貝葉斯定理的概率分類方法,通過學(xué)習(xí)和總結(jié)輸入和輸出變量之間的文本特征,從而對新數(shù)據(jù)輸出變量值進行分類預(yù)測[11]。該方法將文本按照一定比例分為訓(xùn)練集與測試集,訓(xùn)練集中包含N個文本D={D1,D2,…,DN},以上文本分別屬于不同類別C={C1,C2},其中C1對應(yīng)本文中的積極情感傾向,C2對應(yīng)消極情感傾向。訓(xùn)練集中共有L個文本特征詞{W1,W2,…,WL}。樸素貝葉斯分類的訓(xùn)練過程如下:
(1)計算文本類別的先驗概率估計,如公式(1)所示
(1)
(2)計算特征詞Wk在類別Cj中的條件概率估計
(2)
其中,N(Wk,Cj)表示樣本中屬于Cj且含有Wk的樣本數(shù)量。N(Cj)表示樣本屬于Cj的樣本數(shù)量。
(3)每個文本都由若干個特征詞所構(gòu)成,則類別Cj產(chǎn)生文本Di的概率估計為
(3)
(4)輸出類別:通過測試集中的文本特征計算測試集中每條文本所屬類別的概率,按照最大后驗概率進行分類,測試文本Di屬于類別Cj的概率估計為
(4)
2.2.2 支持向量機分類
支持向量機是一種基于間隔最大化的有監(jiān)督的二分類機器學(xué)習(xí)算法,具有極佳的預(yù)測能力[12]。在訓(xùn)練集D={(x1,y1),(x2,y2),…,(xm,ym)}中,xm是指第m個特征向量,ym∈{+1,-1}表示向量所屬類別,其中+1表示具有積極情感傾向的文本,-1表示具有消極情感傾向的文本。支持向量機的基本原理如下:
在存在無數(shù)超平面的兩個類別的樣本空間中找到區(qū)分程度最大的兩個類別的超平面,將超平面表示為
y=wTx+b
(5)
其中w是法向量,b是位移項。定義分類規(guī)則如下:
(6)
s.t.yi(wTxi+b)≥1 (i=1,2,…,m)
(7)
引用拉格朗日函數(shù)構(gòu)造無約束的目標(biāo)函數(shù),并利用求偏導(dǎo)數(shù)解出超平面參數(shù),進而得到分類模型
(8)
為避免維度災(zāi)難,使用核函數(shù)簡化運算,K(xi,xj)表示核函數(shù),最終分類模型函數(shù)為
(9)
因徑向基核函數(shù)學(xué)習(xí)能力和泛化能力較強,因此常常選用徑向基核函數(shù)作為默認(rèn)核函數(shù)[13],故本文選擇徑向基核函數(shù)進行實際處理,徑向基核函數(shù)公式如下:
(10)
其中σ>0為高斯核帶寬。
2.2.3 LSTM模型和BiLSTM模型
LSTM模型主要包含記憶單元c,輸入門i,遺忘門f以及輸出門o。記憶細(xì)胞起到了儲存信息的功能。遺忘門對來自當(dāng)前輸入和前一個歷史狀態(tài)的值進行合并加權(quán)處理。輸入門控制信息輸入,輸出門判斷下一狀態(tài)的信息輸出,模型結(jié)構(gòu)如圖1所示。
圖1 LSTM模型結(jié)構(gòu)圖
(1)遺忘門決定前一個記憶單元中的信息被遺忘的程度,即
ft=σ(Wf[ht-1,xt]+bf)
(11)
其中,Wf是遺忘門的權(quán)值向量,bf是遺忘門函數(shù)的偏移變量,ht-1是上一時刻隱藏層輸出,xt表示當(dāng)前時刻的輸入向量,σ是sigmoid函數(shù)。
(2)輸入門通過控制當(dāng)前時刻信息決定其存留下來的程度,即
it=σ(Wi[ht-1,xt]+bi)
(12)
(13)
(3)當(dāng)前時刻的記憶單元狀態(tài)是由遺忘門輸入和上一時刻狀態(tài)的積加上輸入門兩部分的積:
(14)
(4)輸出門決定記憶單元輸出信息多少,再經(jīng)過tanh函數(shù)處理,與記憶單元ct共同匯總LSTM最終的輸出信息:
在經(jīng)過分詞處理后,固定每條文本的索引長度,使用Word2vec將每條文本轉(zhuǎn)化為詞向量(x1,x2,…,xn)輸入LSTM模型對文本情感特征進行訓(xùn)練學(xué)習(xí)得到對應(yīng)的輸出結(jié)果(h1,h2,…,hn)。
BiLSTM模型由兩層LSTM組合而成,其結(jié)構(gòu)圖如圖2,一層為前向LSTM,是按照正向?qū)W習(xí)順序(文本順序從前往后)進行訓(xùn)練,另一層為后向LSTM,按照逆向?qū)W習(xí)順序(文本順序從后往前)進行訓(xùn)練,kt表示第t時刻前向LSTM隱含層的輸出,ht表示第t時刻后向LSTM隱含層的輸出,由正向?qū)拥碾[含層輸出kt與后向隱含層輸出ht得到第t時刻的最終輸出ot=[ht,kt]。BiLSTM模型雙向并行的訓(xùn)練方式保證了充分地提煉上下文文本的信息。
圖2 BiLSTM模型結(jié)構(gòu)圖
對于“雙減”政策短文本進行實證情感分析研究,具體步驟流程圖如下:
圖3 “雙減”政策短文本實證研究流程圖
通過python爬蟲軟件后羿采集器在微博和抖音平臺上抓取了關(guān)于“雙減”政策的評論短文本,數(shù)據(jù)包括用戶ID、用戶頭像鏈接、短文本評論內(nèi)容、評論時間等。然后對數(shù)據(jù)進行如下處理:
(1)由于微博平臺限制,每次爬取數(shù)據(jù)可能存在重復(fù)值。本文將評論內(nèi)容、用戶ID和評論時間完全相同時視為重復(fù)文本,將多余數(shù)量內(nèi)容項刪除。
(2)短文本長度普遍只具有幾十到幾百個字節(jié)大小,內(nèi)容簡短且容易存在部分無效評論,其評論內(nèi)容無效或者評論不相關(guān)內(nèi)容都會對最終情感分析造成極大影響,故選擇手動剔除,最終有效評論文本共10217條。
(3)利用Jieba分詞對每一條評論短文本進行分詞處理,結(jié)合自定義停用詞文本進行處理。
本文選擇將波森情感詞典作為文本情感極性分類的輔助工具。波森情感詞典是基于微博、知乎等社交軟件數(shù)據(jù)來源所構(gòu)造的詞典,適用于處理社交軟件短文本,該詞典對于各單詞都賦予了一定的權(quán)重,由單詞權(quán)重為基礎(chǔ)計算整句的情感得分,得分為正則認(rèn)為該句具有積極的情緒,得分為負(fù)則認(rèn)為該句具有消極的情緒,得分為零的文本進行剔除。圖4為波森情感詞典計算得分的具體步驟流程圖。
圖4 波森情感詞典計算情感得分的步驟圖
使用Jieba分詞對每條“雙減”政策評論語料進行分句、分詞處理后,導(dǎo)入波森情感詞典對分詞賦予相應(yīng)的情感值,再進行情感值的加和匯總,最終得到每一條短文本的情感值,再對情感值進行情感極性分類。剔除情感得分為零的79條文本后,最終具有情感值的有效文本共10138條。結(jié)果顯示,積極情感文本共4097條( 40.4%),消極情感文本共6041條( 59.6%),說明60%的民眾對于國家的“雙減”政策持有焦慮態(tài)度。
本文使用Jieba和WordCloud庫對于積極情感文本和消極情感文本分別繪制詞云圖,設(shè)置詞云圖中生成的詞數(shù)分別為100。
圖5顯示最高頻數(shù)主題詞為“支持”,對于“雙減”政策表現(xiàn)出明確的肯定態(tài)度?!巴泄堋薄拜o導(dǎo)班”“培訓(xùn)”等主題詞表明了擁有積極情感的民眾對于輔導(dǎo)機構(gòu)的校外補課方式十分抵制,認(rèn)為“雙減”政策對于加重學(xué)業(yè)壓力的行為采取適宜的抑制政策極其合理。
圖5 積極情感分類短文本詞云圖
圖6中“作業(yè)”出現(xiàn)最為頻繁,擁有消極情感的民眾認(rèn)為“雙減”政策并沒有真正落實,作業(yè)負(fù)擔(dān)仍然過重?!案咧小薄案呖肌薄敖箲]”等主題詞表明家長對于學(xué)業(yè)競爭和考試存在擔(dān)心與焦慮,尤其是中高考的面臨使得家長質(zhì)疑“雙減”政策的推廣是否真正符合我國國情。同時主題詞“游戲”在消極情感文本樣本中出現(xiàn)了263次,一定程度上反映出“雙減”政策后,一部分家長對于孩子沉迷于游戲問題的擔(dān)憂。
圖6 消極情感分類短文本詞云圖
3.4.1 確定文本索引長度
考慮到評論短文本的長度不一,需要對句子長度進行標(biāo)準(zhǔn)化處理,將文本轉(zhuǎn)換為相同的索引長度。繪制樣本語料句子長度的分布直方圖和累積分布函數(shù)曲線,圖7顯示90%的文本字符數(shù)小于等于100,99%的文本字符數(shù)小于等于109,本文確定選擇文本索引標(biāo)準(zhǔn)長度為109。
圖7 語料句子長度的分布直方圖和累積分布函數(shù)曲線
3.4.2 構(gòu)建模型
本文基于Word2vec進行詞向量表示,使用sklearn構(gòu)建樸素貝葉斯模型和支持向量機模型,使用TensorFlow和Keras構(gòu)建LSTM模型和BiLSTM模型。利用split函數(shù),隨機從10138條文本中篩選出90%文本作為訓(xùn)練集數(shù)據(jù),10%文本作為測試集數(shù)據(jù),將文本索引長度定為109。為避免過擬合現(xiàn)象產(chǎn)生,本文使用了Dropout機制進行處理,取Dropout值為常用值0.2,即一層神經(jīng)元經(jīng)過Dropout處理后,神經(jīng)元中會有20%的數(shù)值被置為0??紤]到樣本大小與運行環(huán)境,每次訓(xùn)練在訓(xùn)練集中取64個樣本訓(xùn)練,即批尺寸設(shè)置為64;經(jīng)過多次試驗對比,并結(jié)合文獻[14]的參數(shù)設(shè)定,將每個單詞映射為維度為100的向量,即詞向量維度設(shè)定為100,將輸出維度大小為50,優(yōu)化器為Adam-Optimizer[15]。
3.4.3 定義模型評價指標(biāo)
為了驗證模型訓(xùn)練與測試的有效性,考慮到精確率(P)和召回率(R)在實踐中會出現(xiàn)矛盾的情況,而F1分?jǐn)?shù)作為兩者的調(diào)和平均值,往往成為實驗最有效的綜合評價指標(biāo)[16]。本文選取準(zhǔn)確率(A)、F1分?jǐn)?shù)兩種模型評價指標(biāo)。公式如下:
其中TP表示預(yù)測為積極,實際標(biāo)簽為積極的樣本數(shù);TN表示預(yù)測為消極,實際標(biāo)簽為消極的樣本數(shù);FP表示預(yù)測為積極,但實際標(biāo)簽是消極的樣本數(shù);FN表示預(yù)測為消極,實際標(biāo)簽是積極的樣本數(shù)。
利用樸素貝葉斯、支持向量機、LSTM、BiLSTM四種方法對“雙減”政策評論短文本情感極性分類數(shù)據(jù)進行訓(xùn)練,并對訓(xùn)練結(jié)果進行比較,具體結(jié)果如表1。
表1 四種學(xué)習(xí)模型的實證結(jié)果對比
由表1、圖8和圖9顯示,樸素貝葉斯與支持向量機兩個模型在F1分?jǐn)?shù)和準(zhǔn)確率相接近,樸素貝葉斯模型準(zhǔn)確率為75.44%,支持向量機模型準(zhǔn)確率達(dá)到76.92%;LSTM模型相比樸素貝葉斯與支持向量機效果要優(yōu),準(zhǔn)確率達(dá)到79.88%;BiLSTM模型同時進行了正向和逆向的學(xué)習(xí)順序,充分提煉了上下文文本信息,該模型識別效果最好,其F1值分別為78%和86%,準(zhǔn)確率為82.74%。同時可見兩類深度學(xué)習(xí)模型比機器學(xué)習(xí)模型的情感分類性能好。
圖8 四種模型的F1分?jǐn)?shù)對比圖
圖9 四種模型的準(zhǔn)確率對比圖
本文結(jié)合Jieba分詞處理,使用波森情感詞典作為輔助工具,針對微博和抖音平臺爬取的“雙減”政策評論短文本數(shù)據(jù)進行語料分析和情感分析,繪制了詞云圖,同時基于樸素貝葉斯、支持向量機、LSTM和BiLSTM四種模型對“雙減”政策同一語料集進行訓(xùn)練與預(yù)測,并進行效果對比,得出在“雙減”評論數(shù)據(jù)方面,深度學(xué)習(xí)模型相比傳統(tǒng)機器學(xué)習(xí)模型有更優(yōu)的分類效果,BiLSTM模型對于“雙減”政策的文本分類最有效。
結(jié)合數(shù)據(jù)分析結(jié)果,本文針對“雙減”政策提出如下建議:首先,政策實施帶來的后期評價褒貶不一,對于60%家長擔(dān)憂的“雙減”政策對中高考的負(fù)面影響,建議相關(guān)部門給予相應(yīng)回應(yīng)。其次,“雙減”后周末時間完全交給了孩子和父母,依據(jù)文本詞云圖分析結(jié)果,部分家長擔(dān)心可能會增加周末學(xué)生沉迷游戲的風(fēng)險,建議社會和學(xué)校能開設(shè)豐富學(xué)生周末業(yè)余生活的有益活動。最后,相關(guān)部門可以利用大數(shù)據(jù)和人工智能技術(shù)對于“雙減”政策的實施效果進行實時跟蹤,及時發(fā)現(xiàn)問題和解決問題,對政策實施的進行相應(yīng)地細(xì)化與調(diào)整,實現(xiàn)決策的科學(xué)化和民主化,以便政策實施效果達(dá)到最好。