魏川程 劉清文 王柄鈔 黃胤秋
摘 要:近年來,隨著網(wǎng)絡問政平臺逐步成為政府了解民意、匯聚民智、凝聚民氣的重要渠道,各類社情民意相關(guān)的文本數(shù)據(jù)量不斷攀升。針對傳統(tǒng)人工處理網(wǎng)絡問政平臺的群眾留言分類的工作量大、低效率和不準確等問題,依據(jù)機器學習理論、深度學習理論,利用數(shù)據(jù)清洗、文本向量表示、改進卷積神經(jīng)網(wǎng)絡多文本分類器構(gòu)造、F-score評價等方法,確定了留言內(nèi)容以及標簽分類模型。
關(guān)鍵詞:改進CNN ;F-Score聚類;文本分類;政務處理
1挖掘目標
群眾留言分類。在處理網(wǎng)絡問政平臺的群眾留言時,當前的處理方法是工作人員首先按照一定的劃分體系對留言進行分類;然后將群眾留言分派至相應的職能部門處理。請你們針對目前大部分電子政務系統(tǒng)還是依靠人工根據(jù)經(jīng)驗處理中存在的工作量大、效率低、且差錯率高等問題,根據(jù)給出的數(shù)據(jù),建立關(guān)于留言內(nèi)容的一級標簽分類模型,并考慮用F-Score對分類方法進行評價。
2問題分析
根據(jù)數(shù)據(jù)可知群眾留言一級分類標簽總共為7個,因此我們建立的標簽分類模型是要解決一個文本多分類問題。因此第一問要做的工作就是,首先對給出的留言詳情數(shù)據(jù)清洗,包括去除字母、數(shù)字、漢字以外的其他字符,Jieba進行分詞,去除停用詞等過程;隨后進行特征向量表示,構(gòu)造文本分類器,將數(shù)據(jù)分為測試數(shù)據(jù)和訓練數(shù)據(jù),分別進行模型的訓練和測試;最后再利用F-Score、查準率、查全率對分類器的留言分類效果進行檢驗,最終評價構(gòu)造的文本分類模型的好壞。
3基于卷積神經(jīng)網(wǎng)絡的多文本分類模型的求解與評價
(1)數(shù)據(jù)清洗
在留言詳情文本中,總共清洗出9210條留言作為樣本數(shù)據(jù),再按照每類留言平均分成10等份,每次實驗抽取各類留言的8份組成訓練集,剩余2份組成測試集,每次實驗訓練集數(shù)據(jù)為7638個,測試集數(shù)據(jù)為1842個。
(2)文本表示
將文本映射為詞向量,造一個 M. embedding Size大小的隨機矩陣,M是字典dic的大小embedding Size詞向量的位數(shù),我們設定為128,并將隨機向量矩陣作為卷積神經(jīng)網(wǎng)絡模型的輸入。
(3)模型訓練與測試
在CNN模型完成之后,再將樣本數(shù)據(jù)輸入其中進行測試,本次數(shù)據(jù)挖掘采用十折交叉驗證法進行CNN模型能力評估,將數(shù)據(jù)集劃分為訓練集和測試集,訓練集用于模型訓練,測試集用于評估模型性能,CNN參數(shù)使用默認設置。
最終得到卷積神經(jīng)網(wǎng)絡的分類器在留言分類文本數(shù)據(jù)集上的訓練過程,并求得各評價指標的值,取10次實驗結(jié)果的均值進行評估。模型訓練過程中的Loss曲線如圖3-1所示,ACC曲線如圖3-2所示。
在圖3-1中橫坐標為訓練時時長,縱坐標為Loss絕對值,可以發(fā)現(xiàn)訓練過程中Loss 曲線有明顯下降的趨勢,且后期開始慢慢收斂。
由圖3-2中橫坐標為訓練時時長,縱坐標為ACC絕對值,ACC指標呈快速上升趨勢??梢园l(fā)現(xiàn)隨著訓練進行,損失函數(shù)Loss明顯降低,而ACC則明顯上升,兩者呈明顯反比,符合預期。
為了對比CNN模型的分類效果,本次也選取了傳統(tǒng)機器學習樸素貝葉斯文本分類方法[4]做對比,最終分類效果如表3-3所示。
由表3-3可知,最終構(gòu)建的卷積神經(jīng)網(wǎng)絡多文本分類測試結(jié)果, 均值和ACC可以達到90%,且在文本預處理和特征詞項,都一致的條件下,基于卷積神經(jīng)網(wǎng)絡模型的分類算法的分類精度略比樸素貝葉斯算法高一些,可見本次挖掘所構(gòu)建的基于卷積神經(jīng)網(wǎng)絡模型的文本分類器,不僅可行,而且有著更好的分類效果。
4總結(jié)
本文通過深度學習、機器學習等技術(shù),使用卷積神經(jīng)網(wǎng)絡分類構(gòu)造器、DB-SCAN聚類、層次分析等方法構(gòu)造了多文本分類模型、熱點提取模型以及答復意見的評價系統(tǒng)來解決“智慧政務”中的文本挖掘問題,得到以下結(jié)論:
對于“智慧政務”中文本多分類問題而言,文本預處理和特征詞項都一致的條件下,基于卷積神經(jīng)網(wǎng)絡模型的分類算法的分類精度略比樸素貝葉斯算法高一些,可見本次挖掘所構(gòu)建的基于卷積神經(jīng)網(wǎng)絡模型的文本分類器對于“智慧政務”的文本分類有著不錯的效果。對于詞向量生成而言,使用Skip-gram模型生成的詞向量一定程度上彌補了隨機向量詞之間缺乏聯(lián)系的不足,更能體現(xiàn)詞向量之間的聯(lián)系。最后我們改進了模型,使用改進的雙通道文本表征方式,雙通道相比單通道,輸入特征更豐富,而深度學習模型在特征提取方面有天然的優(yōu)勢,兩者得到了很好地融合。
綜上所述,我們的模型能夠高效、準確地解決“智慧政務”中的文本挖掘問題,實現(xiàn)真正的智慧政務管理。
參考文獻:
[1]白璐.基于卷積神經(jīng)網(wǎng)絡的文本分類器的設計與實現(xiàn)[D].北京交通大學,2018.
[2]黃鶴,荊曉遠,董西偉,吳飛.基于Skip-gram的CNNs文本郵件分類模型[J].計算機技術(shù)與發(fā)展,2019,29(06):143-147.
[3] 孫璇. 基于卷積神經(jīng)網(wǎng)絡的文本分類方法研究[D]. 上海: 上海師范大學,2018.
作者簡介 :
魏川程(1998-),男,四川省廣安市人。西南石油大學計算機科學學院軟件工程專業(yè)學生.
劉清文(1999-),女,山東省淄博市人。西南石油大學化學與化工學院化學工程與工藝專業(yè)學生.
王柄鈔(1997-),男,四川省達州市人。西南石油大學計算機科學學院軟件工程專業(yè)學生.
黃胤秋(1999-),男,四川省遂寧市人。西南石油大學計算機科學學院網(wǎng)絡工程專業(yè)學生.