李銘鑫 尹凱倩 吳岳松 郭晨璐 李想
摘要:現(xiàn)階段網(wǎng)絡(luò)問(wèn)政系統(tǒng)發(fā)展趨勢(shì)較為緩慢,政府部門迫切需要提高管理水平和問(wèn)題處理效率的方法,面對(duì)海量的留言文本,快速準(zhǔn)確地處理留言成為目前急于解決的問(wèn)題。該文通過(guò)對(duì)比現(xiàn)有的文本分類方式,通過(guò)Word2Vec模型對(duì)文本進(jìn)行特征提取,獲得初步詞向量表示,構(gòu)建了邏輯回歸模型(LR)、樸素貝葉斯(Na?ve Bayes)模型、TextCNN、TextRNN等分類模型對(duì)留言問(wèn)題進(jìn)行對(duì)比分類。
關(guān)鍵詞:?jiǎn)栒粞?數(shù)據(jù)挖掘;中文文本分類
中圖分類號(hào):TP3? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)29-0160-02
社情民意調(diào)查是采用科學(xué)的調(diào)查和統(tǒng)計(jì)學(xué)方法,對(duì)一定時(shí)期一定范圍內(nèi)的社會(huì)公眾進(jìn)行的對(duì)社會(huì)現(xiàn)實(shí)主觀反應(yīng)的調(diào)查,具有反映民意、引導(dǎo)輿論、決策參考、檢驗(yàn)政策實(shí)效等作用。隨著互聯(lián)網(wǎng)的發(fā)展,社情民意調(diào)查的途徑不斷增加,微博,微信,市長(zhǎng)信箱,陽(yáng)光熱線成為網(wǎng)絡(luò)問(wèn)政平臺(tái),成為政府了解民意、匯聚民智、凝聚民氣的重要渠道。各類社情民意調(diào)查文本數(shù)量的不斷增加,給留言劃分以及熱點(diǎn)整理工作帶來(lái)了挑戰(zhàn)[1],因此,建立基于自然語(yǔ)言處理技術(shù)的“智慧政務(wù)”系統(tǒng),提高政府部門管理水平和處理問(wèn)題的效率成為政府的普遍需求,本文通過(guò)實(shí)驗(yàn)對(duì)比,找到一種相對(duì)合理的政務(wù)留言文本分類模型。
1預(yù)處理
1.1 Jieba分詞和去停用詞[2]
由于留言文本存在句子冗雜,主題不明確等問(wèn)題,文本整體具有較強(qiáng)的干擾性和隱蔽性,導(dǎo)致文本分類識(shí)別存在著巨大的挑戰(zhàn)。因此對(duì)中文文本一般進(jìn)行分詞(如Python語(yǔ)言中的jieba庫(kù)),對(duì)收集到的每一條留言進(jìn)行預(yù)處理工作,并通過(guò)預(yù)處理完成去停用詞等操作。
1.2 Word2Vec
本文采用了自然語(yǔ)言處理的 Word2Vec[3]方法,通過(guò) Word2Vec工具分別對(duì)預(yù)處理后的留言文本進(jìn)行詞向量訓(xùn)練。
1)Word2Vec 的CBOW模型
Word2Vec 中的CBOW模型的工作原理是通過(guò)上下文預(yù)測(cè)當(dāng)前中心詞。在本文中,設(shè)置windows_size為3,向量的維度為200,現(xiàn)在將中心詞wi上下文分詞的獨(dú)熱編碼輸入,由于win?dows_size為3,故有2個(gè) One-Hot 編碼向量輸入。設(shè)輸入層的權(quán)值矩陣為Win,v為W 的一行,則有l(wèi)ookup 的過(guò)程:
由此可知,將One-Hot編碼的向量wi和W相乘,wi中只有一個(gè)維度是1,得權(quán)值矩陣中wi對(duì)應(yīng)的每一行向量,則該行向量vi就為分詞wi對(duì)應(yīng)的詞向量。
2)特征提取處理
通過(guò)lookup得出每個(gè)分詞的詞向量,因?yàn)檫@些詞向量是權(quán)值矩陣 W所對(duì)應(yīng)的每一行分向量,所以維數(shù)相同。將其累加后求取平均值所得的向量,即該句對(duì)應(yīng)的語(yǔ)義向量為最終的數(shù)據(jù)輸入分類模型。
CBOW模型的訓(xùn)練目標(biāo)是使訓(xùn)練集中的樣本的似然概率最大,需要優(yōu)化似然函數(shù)的值,則有:
即使用梯度下降法,多次迭代求取最優(yōu)值。
1.3訓(xùn)練數(shù)據(jù)
實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)使用“問(wèn)政湖南”網(wǎng)站(https://wz.rednet.cn/#/ home)共計(jì)12710條脫敏留言數(shù)據(jù)。
2構(gòu)建分類模型
常用的文本分類算法有傳統(tǒng)的機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法等。本文選取機(jī)器學(xué)習(xí)中的邏輯回歸算法和樸素貝葉斯分類器,與神經(jīng)網(wǎng)絡(luò)算法中的TextCNN和TextRNN做對(duì)比,對(duì)比其分類功能,選取最優(yōu)模型對(duì)留言內(nèi)容進(jìn)行分類。圖1是文本訓(xùn)練流程圖。
數(shù)據(jù)集有七個(gè)類別,召回率(Recall)、精確度(Precision)、 F1-score 的值對(duì)應(yīng)的是二分類問(wèn)題中的評(píng)價(jià)標(biāo)準(zhǔn),因此,將七分類問(wèn)題轉(zhuǎn)換為多個(gè)二分類問(wèn)題,其中 F1-score 為首要指標(biāo)。
2.1邏輯回歸分類器
邏輯回歸算法是典型的二分類算法[4][6],可用于預(yù)測(cè)和分類。邏輯回歸模型可以看作一個(gè)Sigmoid 函數(shù),將輸入的向量
映射為概率值,實(shí)現(xiàn)預(yù)測(cè)功能,再調(diào)整其閾值進(jìn)行分類。
一般我們規(guī)定:hθ(x)< 0.5時(shí),當(dāng)前處理的數(shù)據(jù)屬于同一類別;相反的,就屬于另一類。根據(jù)實(shí)驗(yàn)驗(yàn)證,閾值設(shè)為0.5。
2.2樸素貝葉斯分類器
樸素貝葉斯分類器[7]是一種簡(jiǎn)單,且分類快速精確的分類器,樸素貝葉斯分類可以在分類中表現(xiàn)出良好的抗干擾能力,綜合準(zhǔn)確率較高。
樸素貝葉斯分類器是一種建立在條件獨(dú)立性前提下的分類器,根據(jù)貝葉斯定理和前提,可以得到樸素貝葉斯的以下分類公式:
CNB = argmaxP(Y)∏ =1P(xi|Y)? (3)
樸素貝葉斯的分類過(guò)程的關(guān)鍵就是計(jì)算條件概率和先驗(yàn)概率,這樣就可以進(jìn)行分類操作。
2.3 TextCNN分類器
TextCNN模型是2014年Yoon Kim針對(duì)CNN 的輸入層做的一些變形[5],整個(gè)模型由四部分組成:輸入層、卷積層、池化層、全連接層。卷積操作是CNN 的重要特征之一,卷積層以特征映射為組織的方式,其中的每個(gè)單位與前一層的局部感受野連接,利用共享的卷積核(或稱過(guò)濾器)與局部感受野做卷積運(yùn)算,這里的卷積核為128,再通過(guò)激活函數(shù)做非線性運(yùn)算,得到特征值,給定一個(gè)矩陣X ∈ RM × N 和卷積核,一般 m 其卷積如式所示:
卷積操作將矩陣映射為一個(gè)3*1的特征矩陣[2,3,4],通過(guò)max-pooling 方式池化,從提取的特征矩陣中選取最大值,用 dropout與其他通道的最大值拼接,組合成篩選過(guò)的特征向量,再通過(guò)softmax層對(duì)文本進(jìn)行7分類。
2.4 TextRNN分類器
TextRNN是直接利用循環(huán)神經(jīng)網(wǎng)絡(luò)處理文本的詞向量序列[5],并通過(guò)softmax函數(shù)進(jìn)行分類。對(duì)文本進(jìn)行分類時(shí),我們一般會(huì)指定一個(gè)固定的輸入序列或文本長(zhǎng)度:此時(shí)對(duì)于過(guò)長(zhǎng)的文本需要進(jìn)行截?cái)?,反之則進(jìn)行填充。
3實(shí)驗(yàn)
對(duì)四種模型進(jìn)行K折交叉驗(yàn)證,分別得到10組召回率(Re? call)、精確度(Precision)、F1-score 的值,對(duì)其求平均值有:
(1)在以召回率(Recall)、精確度(Precision)、F1-score為評(píng)價(jià)指標(biāo)時(shí),TextCNN較邏輯回歸模型F1-score提升了17.2%,較TextRNN的 F1-score 提升了0.1%,性能較為顯著提高。基于 Word2Vec 的TextCNN模型相比于LR模型和TextRNN模型更具有優(yōu)勢(shì),分類效果更好。
(2)在基于4種模型訓(xùn)練時(shí),計(jì)算出邏輯回歸模型訓(xùn)練時(shí)長(zhǎng)為13分鐘,樸素貝葉斯模型訓(xùn)練時(shí)長(zhǎng)為33分20秒,TextCNN模型訓(xùn)練時(shí)長(zhǎng)為20分鐘,而TextRNN訓(xùn)練時(shí)長(zhǎng)為1小時(shí)27秒。
(3)在交叉驗(yàn)證的過(guò)程中,通過(guò)分析結(jié)果的方差得出,TextCNN的F1值方差較小。
4結(jié)語(yǔ)
在針對(duì)訓(xùn)練效率、模型F1-score 與交叉驗(yàn)證情況分析后,得出結(jié)論:在基于文本內(nèi)容進(jìn)行一級(jí)標(biāo)簽分類時(shí),優(yōu)先選擇TextCNN模型作為分類器。
參考文獻(xiàn):
[1]陳曦.文本挖掘技術(shù)在社情民意調(diào)查中的應(yīng)用[J].中國(guó)統(tǒng)計(jì), 2019(6):27-29.
[2]曾小芹.基于Python 的中文結(jié)巴分詞技術(shù)實(shí)現(xiàn)[J].信息與電腦(理論版),2019,31(18):38-39,42.
[3] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.
[4]許騰騰.基于貝葉斯邏輯回歸文本分類模型的改進(jìn)及其應(yīng)用[D].蘭州:蘭州財(cái)經(jīng)大學(xué),2018.
[5]涂文博,袁貞明,俞凱.針對(duì)文本分類的神經(jīng)網(wǎng)絡(luò)模型[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(7):145-150.
[6]安波.基于邏輯回歸模型的垃圾郵件過(guò)濾系統(tǒng)的研究[D].哈爾濱:哈爾濱工程大學(xué),2009.
[7]潘忠英.樸素貝葉斯中文文本分類器的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦編程技巧與維護(hù),2021(2):37-39,70.
【通聯(lián)編輯:代影】