• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于NLP的政企類文本智能分類的實現(xiàn)與應用

    2022-11-16 02:16:54胡文燁郭文濤李振業(yè)許鴻奎
    電子技術與軟件工程 2022年16期
    關鍵詞:分類文本模型

    胡文燁 郭文濤 李振業(yè) 許鴻奎

    (山東建筑大學信息與電氣工程學院 山東省濟南市 250000)

    1 引言

    近年來,隨著計算機技術的發(fā)展,各行業(yè)信息化建設水平也隨之提高,政務部門出于對數(shù)據(jù)安全性以及政務處理智能化的考慮,對于政府的信息化建設也越來越重視。顯然,政府的信息化建設必須借助于電子信息及數(shù)字網(wǎng)絡技術,作為政府信息化建設中的關鍵一環(huán),電子政務業(yè)務的實現(xiàn)并不是簡單的將傳統(tǒng)的政府管理事務及相關數(shù)據(jù)由紙面遷移到互聯(lián)網(wǎng)上,而是要利用互聯(lián)網(wǎng)技術給予它們第二次的生命。政府相關管理事務需要在互聯(lián)網(wǎng)上進行組織結構的重組以及業(yè)務流程的再造,簡單來說是需要以信息化的方式重塑業(yè)務;而政府在管理運行中產(chǎn)生的數(shù)據(jù),也需要在重新整合存儲的基礎上進行更加智能化的分析和利用。

    2016 年國家首次在政府工作報告中提到了“互聯(lián)網(wǎng)+政務服務”的概念,將互聯(lián)網(wǎng)、大數(shù)據(jù)等信息技術與政府工作緊密連接起來[1]。實現(xiàn)“互聯(lián)網(wǎng)+政務服務”的核心是政務大數(shù)據(jù)的互通共享,而政務大數(shù)據(jù)則要依賴信息化、智能化的系統(tǒng)。信息化、智能化的系統(tǒng)可以幫助政務部門提升工作效率及準確性,并同步留存關鍵性的操作數(shù)據(jù)。在政府及中大型企業(yè)中,目前存在并持續(xù)產(chǎn)生的信息形式以文本信息為主,而如何整理文本信息本身就是一個復雜又消耗時間的過程,因此如何在大量且復雜的文本信息中獲取到對使用者來說有價值的信息是文本挖掘領域的核心目標。文本挖掘是一個涵蓋多種技術的新興領域,它可以實現(xiàn)利用計算機處理技術從文本數(shù)據(jù)中抽取有價值的信息和知識,同時利用抽取到的知識來更好的組織信息,以便進行下一步的利用。這個過程類似于人類學習知識又加以應用的過程。它的實現(xiàn)技術包括了數(shù)據(jù)挖掘技術[2]、信息檢索[3],機器學習[4]、自然語言處理(natural language processing,NLP)[5]、計算語言學[6]、線性幾何[7]、概率理論[8]等。表達文本數(shù)據(jù)最直接的方式就是語言,任何事物都可以通過語言來表達意圖,政企類文本數(shù)據(jù)作為自然語言的一種表達形式,從這個角度上來說,自然語言處理是實現(xiàn)政企類文本數(shù)據(jù)與計算機之間通信的最合適手段。

    文本分類作為文本挖掘領域最基礎且最重要的應用,在政企類文本信息的挖掘中有著舉足輕重的作用,它能夠很好的解決大數(shù)據(jù)時代數(shù)據(jù)量大且難以梳理的問題。以政務部門接線12345 市民熱線電話[9]業(yè)務為例,業(yè)務員在接到電話后需要根據(jù)群眾提供的信息首先在新工單中將其整合為事件描述,然后需要根據(jù)個人業(yè)務經(jīng)驗選擇事件處理的部門,由被派單的部門在確認后處理,否則工單將被退回重新指派。實際上,接線員的個人經(jīng)驗參差不齊,派單時更多依賴個人想法,且每天接線數(shù)量巨大,給整體的派單準確率和處理效率都帶來了很大影響,從而影響政府服務的群眾滿意度。而政企類文本的數(shù)據(jù)來源不僅限于此,社會治理中網(wǎng)格員的事件上報、政府公開網(wǎng)站中群眾反映渠道、各鎮(zhèn)街搜集民意反饋的信息等,來源廣泛、格式風格不同的數(shù)據(jù)源成了文本分類中首先要解決的問題。

    人們對于文本分類這一文本挖掘應用的研究始于上世紀的50 年代[10]。在此之前一直采用手工分類的方法,直到Luhn 提出的詞匹配法開始走進人們的視野[11],但這種方法由于其簡單機械的特點無法取得好的分類結果。60 年代以后,Maron 發(fā)表了有關自動分類的第一篇文章,把文本分類技術發(fā)展向前推進了一個臺階。此后一直到2010 年前后,在文本分類領域占據(jù)主流地位的一直是基于淺層學習的模型,例如樸素貝葉斯方法(Nave Bayes,NB)[12],K 近鄰(K‐Nearest Neighbor,KNN)[13]和支持向量機(Support Vector Machine,SVM)[14]等。

    隨著人們對深度學習的不斷深入挖掘,自然語言處理領域的難題也得到了不斷突破,通過自然語言處理可以實現(xiàn)人與機器之間的交流。在文本分析領域,NLP 做了很大的貢獻,而通過結合NLP 與文本分析,可以幫助政府和企業(yè)在政企類文本大數(shù)據(jù)中獲取更多重要的信息,從而產(chǎn)生巨大的數(shù)據(jù)價值。2005 年,柳炳祥、章義來等人將關聯(lián)規(guī)則和決策樹兩種數(shù)據(jù)挖掘技術應用到電子政務數(shù)據(jù)分析中[15],并進行了相關研究,為電子政務數(shù)據(jù)分析提出了一種新的研究思路。2021 年,李銘鑫等人從自然語言處理的角度對政務留言文本的分類問題進行了研究[16],將機器學習中的邏輯回歸算法、樸素貝葉斯算法以及深度學習中的TextCNN 及TextRNN 算法做對比,得出文本一級分類時TextCNN 效果優(yōu)于其他算法。在市民服務熱線接線分析場景,楊歡提出了Word2vec‐TLSTM‐Attention 的融合神經(jīng)網(wǎng)絡模型進行分類[17],同單一網(wǎng)絡神經(jīng)模型相比,取得了更好的效果。

    上述的研究主要應用于語義的簡單分類,例如語句的情感分析或大意理解。然而,隨著業(yè)務需求不斷提高,對于語句具體含義的理解以及語義與宏觀對象的映射關系的分析這類復雜的現(xiàn)實任務,上述研究所提出的模型并準確率低且泛化性差,極易出現(xiàn)過擬合問題。而在中文的政企類文本智能分類任務中,其文本內容具有文本較長、信息冗余、映射關系復雜、文本質量不一等特點,對于數(shù)據(jù)處理方法與模型的性能提出了極高的要求。目前,對于中文政企類文本自然語言處理方法的研究大多停留對于簡單模型的應用研究,不能滿足實際應用需要,工程落地困難,因此,亟待研究一種擬合能力強,泛化性能好的政企類文本智能分類方法。

    本文用于訓練及學習的數(shù)據(jù)集來自于社會治理脫敏數(shù)據(jù),包含了市民熱線、網(wǎng)格員上報、市民信箱、微信公眾號等渠道,數(shù)據(jù)來源比較復雜。基于NLP 領域目前的相關研究成果以及前輩老師們的處理經(jīng)驗,在文本預處理階段,本文采用了jieba 分詞、去停用詞、LDA 主題模型過濾、Word2vec 詞向量轉化等自然語言處理手段;在文本分類研究中對比了DNN、CNN、LSTM、GRU、BERT 等模型的分類效果,在使用經(jīng)典的BERT 預訓練模型的基礎上,對其中的部分參數(shù)和訓練方法進行調整,最終得到的模型及參數(shù)得到了81.47%的分類準確率,相較于其他算法具有明顯的提升。同時,BERT 作為一種無監(jiān)督預訓練模型,通過已經(jīng)訓練好的編碼器具備的中文閱讀理解能力,可以應用于不同的業(yè)務場景。此外,本文從模型及技術實際應用的角度,分析了其在實際工程生產(chǎn)中的應用價值。

    2 文本預處理

    在實際的中文文本分類研究中,原始的中文文本數(shù)據(jù)經(jīng)常會存在許多影響最終分類效果的內容,這部分數(shù)據(jù)或文本如果不加處理,直接交給模型去學習,會導致模型無法準確獲得文本數(shù)據(jù)的特征和語義重點,從而會導致模型準確率低。因此文本預處理的步驟是幫助文本數(shù)據(jù)更加符合模型的輸入要求而產(chǎn)生的,所有待學習的文本數(shù)據(jù)都需要在進入文本分類模型之前就被清洗干凈,科學的文本預處理環(huán)節(jié)可以起到有效指導選擇、提升模型效果的作用。文本預處理過程包含的主要環(huán)節(jié)有數(shù)據(jù)清洗(包含缺失值處理、去重處理、噪聲處理、特殊文字處理等)、文本處理(包含分詞、詞性標注、命名實體識別等)、文本張量表示(包含文本編碼、詞向量表示等)、文本語料數(shù)據(jù)分析(包含長度、特征、詞頻等的統(tǒng)計分析)、文本特征處理(包含特征增強、長度規(guī)范等)以及數(shù)據(jù)增強等。

    文本數(shù)據(jù)進行預處理前,首先對數(shù)據(jù)情況進行分析,以方便確定數(shù)據(jù)處理方法。每一次文本預處理都應該先明確最終你希望把原本的文本數(shù)據(jù)處理成什么格式或者樣例。本文研究的數(shù)據(jù)為政企類文本數(shù)據(jù),數(shù)據(jù)信息具有復雜性和多變性,且根據(jù)分類目標來看,分類數(shù)量多,原始可用數(shù)據(jù)量約12.3 萬條,文本分類的類型數(shù)量約為90。因此本實驗對于文本數(shù)據(jù)在預處理階段能夠達到的處理效果有更多的期待,也需要采用更多的方法和途徑來提升文本數(shù)據(jù)與分類模型之間的匹配度。因而在本實驗中,從數(shù)據(jù)的處理前分析、數(shù)據(jù)去重、文本過濾、文本主題挖掘、文本詞向量表示等環(huán)節(jié)都采用了多種方法進行效果比較,最終以最優(yōu)的方法進行組合,完成文本數(shù)據(jù)的預處理過程。

    2.1 數(shù)據(jù)去重處理

    政企類文本數(shù)據(jù)的特點是內容多,文本的固定位置具有重復現(xiàn)象。針對某些政企類文本數(shù)據(jù)來說,數(shù)據(jù)的開頭和結尾分別有表示數(shù)據(jù)來源的信息以及固定的需求表達,或具有某種特定規(guī)律。對于文本數(shù)據(jù)的分析過程來說,這些對類別特征區(qū)分沒有貢獻的文本都是干擾因素,將會影響模型的分析效果,因此首先應當做去重處理,提取對文本智能分類的分類依據(jù)有實際貢獻的文本信息。比如在本次實驗數(shù)據(jù)中,來源于12345 市民熱線的文本數(shù)據(jù),由于數(shù)據(jù)是經(jīng)過接線業(yè)務員轉述進行重新組合而成的,因而在數(shù)據(jù)結構上顯得較為標準。

    以某條文本數(shù)據(jù)為例:張先生來電,某某小區(qū)門口某某路上下水井蓋松動,有安全隱患,請派人維修。處理后請回復。

    在以上文本數(shù)據(jù)中,“張先生來電,”和“處理后請回復?!痹谒形谋局休^為標準,位置固定且內容重復,因此可以認為,其存在對于模型特征的學習并沒有貢獻,需要進行數(shù)據(jù)去重處理。

    2.2 文本過濾

    文本過濾是在對文本數(shù)據(jù)進行去重處理后進行的,主要是對數(shù)據(jù)去重后留下的文本信息主體進行模型可用信息的過濾提取。常見的處理方法有去停用詞[18]、詞性標注、命名實體識別等。經(jīng)過對于文本數(shù)據(jù)特點的分析,在單條文本描述中,經(jīng)常涉及身份證號、手機號等數(shù)字字符以及樓牌號等字母字符,以及部分固定的表述方式。這些具有干擾性的文字描述,可通過去停用詞環(huán)節(jié)進行處理,即選取合適的中文停用詞表(stop word),再根據(jù)業(yè)務場景增加部分特有的停用詞,形成具有針對性的專用停用詞表。然后對全量的政企類文本數(shù)據(jù)進行文本過濾。而詞性標注及命名實體識別的使用,往往在需要篩查分析不同信息時進行使用,對于文本過濾也有很大的意義。例如在文本數(shù)據(jù)描述中出現(xiàn)地名及姓名等,這些都是模型學習分類特征不需要的信息,可以通過對于單條文本數(shù)據(jù)詞性的認定以及命名實體識別來篩查去除固定詞性及命名實體,從而達到文本過濾的效果。

    2.3 文本主題挖掘

    在文本數(shù)據(jù)描述較長,通過數(shù)據(jù)去重及文本過濾又沒有達到很好的清洗效果時,可以針對性的進行文本主題挖掘的處理。即利用文本分析模型進行文本特征學習時,將文本數(shù)據(jù)中挖掘到的主題描述結果,作為輸入的文本特征用于模型訓練,其實際效果可根據(jù)模型學習及分類效果進行驗證。將過濾后的文本利用中文分詞和文本編碼進行處理,在此基礎上,采用文本主題挖掘模型提取文本主題關鍵詞組,形成文本主干;或采用中文詞法分析進行文本詞性標注并針對性的去除某些詞性的詞語,得到文本關鍵詞組。文本主題挖掘的過程包括詞干的提取、停用詞的去除、同類詞或語義相近的詞條間的合并、主題排序等。通過文本主題挖掘后得到的主題應是彼此間含義不同的一組詞語,且文本信息中較為核心的主題詞匯將排列在前,而用戶有權在主題挖掘后根據(jù)需要選擇生成主題詞的數(shù)量。

    文本主題挖掘可采用TF‐IDF 算法[19]、TextRank 算法以及LDA 主題模型等,在TF‐IDF 算法中,其計算過程如式(1)(2):

    其中,ft為詞頻,ni,j表示某個詞在該文本中出現(xiàn)的次數(shù),表示該文本中包含的總詞數(shù);fid為逆向文件頻率,|D|為語料庫中所有文檔總數(shù),為包含詞語ti的文檔數(shù),分母可能出現(xiàn)等于0 的情況,因此使用

    在面對某些場景時,可使用改進后的詞頻計算公式如式(3):

    其中,maxk(nk,j)表示該文本中出現(xiàn)次數(shù)最多的詞的出現(xiàn)次數(shù)

    最后計算TF‐IDF,只需要將計算的tf 值與idf 值累乘就得到了某個詞在當前文本中的權重值,經(jīng)過所有詞權重的排序,就能根據(jù)詞的重要程度保留文本主題。但TF‐IDF 的計算過程決定了它對于長文本數(shù)據(jù)的主題抽取效果較好,對于簡短的文本數(shù)據(jù)結果則不盡如人意,況且其精準度很大程度上依賴算法使用的詞表是否合適。

    TextRank 算法是一種無監(jiān)督的主題抽取算法,它不依賴于其他語料,可以直接從文本中挖掘主題詞。它的弊端和TF‐IDF 算法類似,在長文本數(shù)據(jù)中表現(xiàn)較好,而且它需要進行迭代計算,所以效率會隨著迭代次數(shù)的增加而降低。采用TextRank 算法進行關鍵詞提取,主要步驟如下:

    將文本T 按照一個句子進行分割,得到T=[S1,S2,...,Sn];

    (2)根據(jù)保留的關鍵詞構建有向有權圖G=(V,E),其中V 為點集合,E 為邊集合,圖中任意兩點Vi,Vj間的邊權重為Wji。

    (3)設窗口大小為K,根據(jù)以式(4)計算詞語得分:

    其中,S(Vi)為詞語得分,I(Vi)為指向Vi點的點集合,O(Vj)為Vj點指向的點集合。根據(jù)公式進行迭代傳播,對各節(jié)點得分進行排序,得到文本T 的關鍵詞。

    LDA 主題模型方法是一種基于貝葉斯模型誕生的無監(jiān)督的方法,可以自由選擇需要計算的主題詞語數(shù)量,在使用LDA 模型進行主題挖掘前,需根據(jù)要處理的文本數(shù)據(jù)訓練出LDA 模型,模型將自主學習文本數(shù)據(jù)中的詞語重要性,政企類文本數(shù)據(jù)較為規(guī)范,特征比較密集,因此在采用LDA 模型時能得到較好的效果。

    2.4 文本向量化表示

    文本向量化是將文本表示成眾多能夠表達文本語義的向量。文本向量化模塊實現(xiàn)對文本集合的數(shù)值向量化表示,向量化后的文本集合可以被文本分類模型識別和計算。詞語是表達文本信息的最基本處理單元。當前對文本向量化大部分研究都是通過詞向量化實現(xiàn)的,但也有doc2vec 和str2vec方法將文本和句子作為基本處理單元。為了更好的挖掘句中包含的詞語含義,區(qū)分多類特征,本文采用詞袋模型處理詞向量化的方法進行文本向量化表示。

    以詞語為處理單元的方法為word2vec 方法[20]。word2vec 方法是基于樣本數(shù)據(jù)中出現(xiàn)的詞語構建詞典作為索引,通過統(tǒng)計每個詞語出現(xiàn)的詞頻構成向量。word2vec本質上是一種簡單的神經(jīng)網(wǎng)絡,它分為CBOW 和Skip‐gram兩種訓練模型。CBOW 和Skip‐gram 模型在進行處理時目標不同,CBOW 模型是根據(jù)周圍的單詞預測中心單詞,而Skip‐gram 模型則相反。其原理分別如圖1 和圖2 所示。

    圖1:CBOW 模型訓練原理圖

    圖2:Skip-gram 模型訓練原理圖

    采用gensim 工具包中的word2vec 模型可快速得到文本向量化訓練結果。

    3 文本智能分類

    文本分類作為一種信息組織和管理的有效方法,在諸多方面有著重要的應用,如情感分析、垃圾郵件識別、推薦系統(tǒng)、文檔分類等。將原始數(shù)據(jù)進行去重處理、文本過濾、文本主題挖掘等文本預處理過程后,得到處理后的數(shù)據(jù)集。再根據(jù)分類模型對數(shù)據(jù)集進行處理準備工作。在分析了各種市場主流的文本分類模型后,擬使用比較的分類模型有深度神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、反饋神經(jīng)網(wǎng)絡等。

    DNN 模型是基本的深度學習網(wǎng)絡,擁有全連接的神經(jīng)元結構,包含輸入層、隱藏層、輸出層三部分,使用場景比較廣泛。卷積神經(jīng)網(wǎng)絡例如CNN,它最初在圖像領域取得了巨大成功,其核心點在于可以捕捉局部相關性,TextCNN是基于CNN 模型,針對文本領域創(chuàng)造的卷積模型,做文本的特征表達工作。循環(huán)神經(jīng)網(wǎng)絡RNN 是NLP 領域常用的模型,它允許信息的持久化,但RNN 容易出現(xiàn)梯度消失或者梯度爆炸的問題,LSTM 和GRU 是改進后的兩種算法模型。LSTM 是一種特殊的RNN 模型,是為了解決長序列訓練過程中的梯度消失問題而產(chǎn)生的,由4 個全連接層進行計算,與原始的RNN 相比,LSTM 增加了一個細胞狀態(tài),模型的核心結構如圖3。

    圖3:LSTM 模型核心結構圖

    其中,模型輸入有三部分,即Ct‐1為細胞狀態(tài)信息,ht‐1為隱層狀態(tài)信息,Xt為t 時刻輸入向量,輸出有兩部分,分別是:細胞狀態(tài)信息Ct,隱層狀態(tài)信息ht。細胞狀態(tài)信息和隱層狀態(tài)信息按照不同的線路進行傳遞,它們之間的交互叫做“門”結構。在“門”結構中,σ 表示sigmoid 函數(shù),它的輸出在0 到1 之間,tanh是雙曲正切函數(shù),它的輸出在‐1到1 之間。GRU 則是LSTM 網(wǎng)絡的一種效果很好的變體,相比于LSTM,它的計算更簡單,計算量也比較低,GRU和LSTM 都是通過各種門函數(shù)來將重要特征保留下來,二者實際效果的優(yōu)劣需針對不同場景來看。

    對于語言分析領域,谷歌提出了基于雙向Transformer特征提取器的BERT 模型[21],相較于原來的RNN、LSTM 等,它可以在多個不同層次同時提取詞在句子中的關系特征,從而能更全面的反映句子意思。BERT 模型的架構圖如圖4。

    圖4:BERT 模型內部架構圖

    從模型架構圖中很明顯可以看出,BERT 模型采用的是雙向編碼,是一個基于雙向transformer 的模型,它可以共同調節(jié)left‐to‐right 的transformer 和right‐to‐left 的transformer。此外,它將預訓練模型和下游任務模型結合在一起,它更注重于識別句子中單詞與單詞之間的關系或者是句子與句子之間的關系,它采用一個半監(jiān)督學習和語言來表示模型。在預訓練階段,BERT 使用無監(jiān)督的預測任務執(zhí)行預訓練,該任務包括下文遮蔽的語言模型MLM(Masked Language Model,MLM)[22],在執(zhí)行完預訓練后,BERT 模型會針對下游任務進行fine‐tune 來微調模型參數(shù),以達到最適應的效果。

    4 實驗與分析

    本實驗的原始數(shù)據(jù)量約12.3 萬條,文本分類的類型數(shù)量約為90。原始數(shù)據(jù)采用隨機劃分的方式,以8:1:1 的比例劃分為訓練集、驗證集、測試集,使用訓練集訓練模型,選取在驗證集中表現(xiàn)最好的模型,在測試集中測試模型分類準確率,以測試集的準確率作為實驗的評價指標。

    劃分數(shù)據(jù)集后,將每個數(shù)據(jù)集進行一定的文本預處理。為適應各類模型的輸入要求,實驗中采用的文本預處理方法包括根據(jù)文檔中文字出現(xiàn)頻率訓練編碼器,文本去重、過濾并編碼,文本去重、過濾、提取主題并編碼,BertTokenizer編碼器,文本去重、過濾、提取主題、BertTokenizer 編碼器等。

    將處理后的輸入量輸入分類模型,進行文本智能分類訓練,并在訓練過程中調整各訓練參數(shù)以尋求更優(yōu)結果。在實驗結果分析中,發(fā)現(xiàn)在文本預處理過程中將文本處理的越詳細,模型獲取到的特征越清晰;在模型的互相比較中,BERT 模型在經(jīng)過參數(shù)調優(yōu)后取得的效果明顯優(yōu)于其他模型,因此著重對BERT 模型的實驗過程進行介紹。

    首先使用transformers 中的BertTokenizer 編碼器對文本進行編碼,其次對編碼數(shù)據(jù)進行預處理:

    通過分析,添加特殊編碼[CLS]、[SEP]、[UNK]等標志以幫助執(zhí)行分類任務。

    構建輸入矩陣:輸入矩陣存放編碼結果;輔助矩陣使用全零矩陣;注意力掩碼矩陣用于記錄輸入文字長度;標簽矩陣存放類別標簽。

    在模型微調環(huán)節(jié),使用預訓練模型,對模型進行fine‐tune 微調。具體過程為:

    (1)獲取模型:獲取預訓練模型結構與參數(shù);

    (2)分類模型構建:在預訓練模型后添加MLP 分類器,采用激活函數(shù)softmax;

    (3)模型優(yōu)化:優(yōu)化器使用Adam 優(yōu)化器,設置參數(shù)solver 為’adam’,損失函數(shù)為稀疏分類交叉熵;

    (4)模型訓練。

    在完成全部模型的訓練及測試后,得到最終測試集準確率,多次實驗后各模型及不同編碼方式的分類效果對比如表1 所示。

    表1:各模型及不同編碼方式的分類效果對比

    在對各類模型進行參數(shù)優(yōu)化以及編碼方式的不同效果對比后,可以看出,DNN 作為最基礎的深度學習算法,在模型未加改進以及優(yōu)化的前提下準確率較低,而作為后續(xù)出現(xiàn)的CNN 以及GRU、LSTM 等算法都針對文本智能分類工作表現(xiàn)出了各自的優(yōu)勢,其中BERT 作為建立在雙向transformer 上的語言處理模型,以其強大的中文文本理解能力以及模型參數(shù)微調的能力取得了相對較好的結果,面對分類種類多、原始數(shù)據(jù)有傾斜的樣本現(xiàn)狀,也有較好的表現(xiàn),完成了預期實現(xiàn)的目標。而在編碼方式上,通過數(shù)據(jù)對比可以得知,提取文本主題作為模型輸入的方式能夠使模型更好的學習樣本特征,在不同的模型中均有準確率提升的效果。

    5 實驗結果分析及應用

    5.1 實驗結果分析

    本實驗針對數(shù)據(jù)原始特征及特性,從各個實驗環(huán)節(jié)提高了實驗效果。對于樣本類別不均衡導致的部分類別特征少,很難從中提取規(guī)律的情況,在具體分析模型效果后,采用了BERT 預訓練模型,使得模型獲得足夠優(yōu)秀的中文閱讀理解能力,再使用fine‐tune 的微調方法實現(xiàn)文本分類任務的需求,降低了對于樣本數(shù)據(jù)的依賴。對于傳統(tǒng)分類模型帶來的嚴重過擬合現(xiàn)象,采用了MLM 對雙向的Transformers 進行預訓練,以生成深層的雙向語言表征,有效的提升了模型的特征提取能力。同時,通過遷移學習的方法有效的解決了模型過擬合問題。在通過對實驗模型的組合和改進后,最終獲得了81.47%的效果,優(yōu)化了傳統(tǒng)方法和數(shù)據(jù)本身特點帶來的弊端,唯一值得注意的是,整個訓練過程往往需要強大的算力來支撐。

    5.2 實驗結果應用

    實際工程項目中的政企類文本數(shù)據(jù)來源廣、數(shù)據(jù)質量不一,用于分析的數(shù)據(jù)量收到實際情況的限制,因而在解決政企類文本分析相關問題上仍然是一個需要研究的課題。通過以及訓練好的模型具備的中文閱讀理解能力,可以應對實際工程中超過80%以上的識別需求。

    近年來,智慧城市的建設漸漸成為數(shù)字化政府建設的重點需求,而社會治理作為政務服務管理中的重要環(huán)節(jié),對于民情事件的智能化流轉和迅速響應是核心需求。基于NLP的政企類文本智能分類,可以以民情事件的責任部門作為分類目標,為部門設定分類標簽,設置業(yè)務流程,以文本智能分類手段替代常規(guī)人工業(yè)務流轉,從而實現(xiàn)系統(tǒng)的事件智能分派功能,節(jié)省人工成本、提高處理效率的同時,為城市建設賦予更多的智能化元素。

    此外,政務服務部門作為工作量較大、民眾需求比較集中的部門,為更快更好的解決民眾實際問題,也需要以智能機器人的形式輔助政務服務工作。在保證民眾滿意度的情況下,面對各式各樣的群眾需求,政企類文本智能分類的實現(xiàn)備受關注,因而通過分析文本智能分類工作可以大大提升群眾滿意度和政務工作的積極性。政務工作的業(yè)務需求也是推進NLP 領域迅速發(fā)展的主要因素。

    猜你喜歡
    分類文本模型
    一半模型
    分類算一算
    重要模型『一線三等角』
    重尾非線性自回歸模型自加權M-估計的漸近分布
    在808DA上文本顯示的改善
    分類討論求坐標
    基于doc2vec和TF-IDF的相似文本識別
    電子制作(2018年18期)2018-11-14 01:48:06
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    3D打印中的模型分割與打包
    成人二区视频| 中国美白少妇内射xxxbb| 亚洲色图av天堂| 日产精品乱码卡一卡2卡三| 国产精品av视频在线免费观看| 有码 亚洲区| 久久6这里有精品| 欧美xxxx性猛交bbbb| 最近最新中文字幕大全电影3| 免费看光身美女| 国产高潮美女av| 色综合亚洲欧美另类图片| 最近视频中文字幕2019在线8| 国产亚洲精品久久久com| 国产91av在线免费观看| 麻豆成人av视频| 国内少妇人妻偷人精品xxx网站| 久久久久久伊人网av| 国产亚洲最大av| 国产精品嫩草影院av在线观看| 亚洲人成网站在线播| 日日摸夜夜添夜夜添av毛片| 日本五十路高清| 国产精品一区二区三区四区久久| 天天躁日日操中文字幕| 女的被弄到高潮叫床怎么办| 日韩,欧美,国产一区二区三区 | 国产黄色视频一区二区在线观看 | 一级毛片电影观看 | 国产白丝娇喘喷水9色精品| 日产精品乱码卡一卡2卡三| 床上黄色一级片| 一边摸一边抽搐一进一小说| 中文字幕人妻熟人妻熟丝袜美| 看免费成人av毛片| 亚洲真实伦在线观看| 有码 亚洲区| 久久久色成人| 啦啦啦韩国在线观看视频| 国产精品久久久久久久电影| 亚洲自偷自拍三级| 99在线视频只有这里精品首页| 久久人妻av系列| 白带黄色成豆腐渣| 99久久精品热视频| 欧美成人一区二区免费高清观看| 一卡2卡三卡四卡精品乱码亚洲| 色5月婷婷丁香| 又粗又爽又猛毛片免费看| 国产一区亚洲一区在线观看| 国产在视频线精品| 欧美一级a爱片免费观看看| 最近中文字幕2019免费版| 久久精品久久久久久噜噜老黄 | 亚洲成人av在线免费| 久久精品久久久久久噜噜老黄 | 国内精品美女久久久久久| 亚洲精品乱久久久久久| 亚洲最大成人手机在线| 亚洲三级黄色毛片| 午夜福利在线在线| 久久久精品欧美日韩精品| 国产精品一区www在线观看| 成人综合一区亚洲| 国产乱人视频| 成人漫画全彩无遮挡| 国产乱来视频区| 成人午夜精彩视频在线观看| 免费看a级黄色片| 九九热线精品视视频播放| 亚洲国产精品成人久久小说| 国产成人精品一,二区| 中文亚洲av片在线观看爽| 亚洲怡红院男人天堂| 毛片一级片免费看久久久久| 中文在线观看免费www的网站| 人人妻人人澡人人爽人人夜夜 | 草草在线视频免费看| 搡老妇女老女人老熟妇| 日本黄色片子视频| 免费av观看视频| 男的添女的下面高潮视频| 亚洲自偷自拍三级| 国产黄色视频一区二区在线观看 | 99国产精品一区二区蜜桃av| 蜜桃亚洲精品一区二区三区| 白带黄色成豆腐渣| 热99在线观看视频| 久久午夜福利片| 亚洲久久久久久中文字幕| 欧美高清成人免费视频www| 中文字幕av成人在线电影| 精品久久久久久久久av| 非洲黑人性xxxx精品又粗又长| 看片在线看免费视频| 国产精品一区二区性色av| 亚洲国产欧美在线一区| 亚洲成人久久爱视频| 国产精品麻豆人妻色哟哟久久 | 国产欧美另类精品又又久久亚洲欧美| 乱系列少妇在线播放| 成人欧美大片| 免费看a级黄色片| 听说在线观看完整版免费高清| 少妇人妻精品综合一区二区| kizo精华| av国产免费在线观看| 免费观看性生交大片5| 干丝袜人妻中文字幕| 高清视频免费观看一区二区 | 国产一区亚洲一区在线观看| 免费在线观看成人毛片| 日韩,欧美,国产一区二区三区 | 精品国内亚洲2022精品成人| 2022亚洲国产成人精品| 视频中文字幕在线观看| 欧美高清性xxxxhd video| 岛国毛片在线播放| 热99在线观看视频| 日本一二三区视频观看| 精品久久久久久久久亚洲| 我要看日韩黄色一级片| 国产久久久一区二区三区| av天堂中文字幕网| 日韩三级伦理在线观看| 精品无人区乱码1区二区| 亚洲成av人片在线播放无| 国产三级在线视频| 我要搜黄色片| 国产大屁股一区二区在线视频| 夜夜看夜夜爽夜夜摸| 日韩欧美三级三区| 精品无人区乱码1区二区| 伦精品一区二区三区| 欧美bdsm另类| 久久国内精品自在自线图片| 久久久久久久久中文| 日日啪夜夜撸| 一个人观看的视频www高清免费观看| 亚洲av电影不卡..在线观看| 99久久九九国产精品国产免费| 日本免费在线观看一区| 中文字幕av成人在线电影| www日本黄色视频网| 七月丁香在线播放| 黑人高潮一二区| 亚洲内射少妇av| 舔av片在线| 卡戴珊不雅视频在线播放| 久久久久网色| 免费看日本二区| 国产免费又黄又爽又色| 国产精品乱码一区二三区的特点| 在线天堂最新版资源| 国产精品福利在线免费观看| 亚洲精品乱久久久久久| 91久久精品国产一区二区成人| 99热6这里只有精品| 欧美变态另类bdsm刘玥| 26uuu在线亚洲综合色| 一区二区三区乱码不卡18| 男女那种视频在线观看| 亚洲精品,欧美精品| 日日干狠狠操夜夜爽| 天堂影院成人在线观看| 日韩一本色道免费dvd| 亚洲最大成人av| 国产精品伦人一区二区| 亚洲成人av在线免费| 亚洲内射少妇av| 建设人人有责人人尽责人人享有的 | 欧美另类亚洲清纯唯美| 精品国产露脸久久av麻豆 | 超碰av人人做人人爽久久| 午夜精品国产一区二区电影 | 国产色爽女视频免费观看| 国产精品一区二区性色av| 激情 狠狠 欧美| 免费看日本二区| 欧美最新免费一区二区三区| 有码 亚洲区| 国产亚洲一区二区精品| av天堂中文字幕网| 乱人视频在线观看| 国产又黄又爽又无遮挡在线| 国产三级在线视频| 男人的好看免费观看在线视频| 午夜精品一区二区三区免费看| 亚洲精品aⅴ在线观看| 最近视频中文字幕2019在线8| 精品99又大又爽又粗少妇毛片| 九九在线视频观看精品| av在线天堂中文字幕| 国产91av在线免费观看| 亚洲精品自拍成人| 97热精品久久久久久| 99热精品在线国产| 国内揄拍国产精品人妻在线| 亚洲欧美清纯卡通| 日韩在线高清观看一区二区三区| 久久久久精品久久久久真实原创| 亚洲国产精品成人久久小说| 久久久久国产网址| АⅤ资源中文在线天堂| 国产麻豆成人av免费视频| 免费看光身美女| 久久久久久久久久黄片| 成年免费大片在线观看| 在线天堂最新版资源| 国产国拍精品亚洲av在线观看| 国产亚洲一区二区精品| 麻豆久久精品国产亚洲av| 国产精品精品国产色婷婷| 精品久久久久久成人av| 午夜福利在线在线| 午夜福利视频1000在线观看| 伊人久久精品亚洲午夜| 有码 亚洲区| 女的被弄到高潮叫床怎么办| 中文字幕av成人在线电影| 亚洲aⅴ乱码一区二区在线播放| 又黄又爽又刺激的免费视频.| 男人舔奶头视频| 久久6这里有精品| 青春草视频在线免费观看| 日本与韩国留学比较| 欧美成人一区二区免费高清观看| 国产精品99久久久久久久久| 日韩三级伦理在线观看| 欧美高清性xxxxhd video| 欧美一区二区精品小视频在线| 校园人妻丝袜中文字幕| 亚洲天堂国产精品一区在线| 黄片wwwwww| 2021少妇久久久久久久久久久| 亚洲,欧美,日韩| 亚洲精品色激情综合| 婷婷色av中文字幕| 午夜福利高清视频| 能在线免费看毛片的网站| 国产伦精品一区二区三区四那| 亚洲精品成人久久久久久| 国内精品宾馆在线| 夫妻性生交免费视频一级片| 亚洲av一区综合| 最近最新中文字幕大全电影3| av播播在线观看一区| 99久国产av精品国产电影| 伊人久久精品亚洲午夜| 淫秽高清视频在线观看| 午夜精品一区二区三区免费看| 五月伊人婷婷丁香| 久久久久性生活片| 三级国产精品欧美在线观看| 天美传媒精品一区二区| 日韩欧美在线乱码| 九色成人免费人妻av| 国产精品蜜桃在线观看| 91午夜精品亚洲一区二区三区| 久久6这里有精品| 可以在线观看毛片的网站| 纵有疾风起免费观看全集完整版 | 国产在视频线在精品| 日日啪夜夜撸| 亚洲人与动物交配视频| 国产高潮美女av| 亚洲婷婷狠狠爱综合网| 一个人看视频在线观看www免费| 国产精品人妻久久久影院| 久久精品国产99精品国产亚洲性色| av在线蜜桃| av在线播放精品| 免费人成在线观看视频色| 国产精品av视频在线免费观看| 日韩一区二区三区影片| 边亲边吃奶的免费视频| 精品免费久久久久久久清纯| 赤兔流量卡办理| 美女国产视频在线观看| 如何舔出高潮| 中文欧美无线码| 午夜精品在线福利| 国产高清不卡午夜福利| 少妇猛男粗大的猛烈进出视频 | 亚洲图色成人| 村上凉子中文字幕在线| 水蜜桃什么品种好| 亚洲第一区二区三区不卡| 免费观看人在逋| 亚洲丝袜综合中文字幕| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 淫秽高清视频在线观看| 联通29元200g的流量卡| 又粗又硬又长又爽又黄的视频| 午夜福利成人在线免费观看| 2021天堂中文幕一二区在线观| 午夜福利视频1000在线观看| av天堂中文字幕网| 91精品伊人久久大香线蕉| 麻豆一二三区av精品| 国产精品久久久久久精品电影| 女人被狂操c到高潮| 成人毛片60女人毛片免费| 99久久无色码亚洲精品果冻| 国内精品一区二区在线观看| or卡值多少钱| 国产午夜精品一二区理论片| 久久精品影院6| 亚洲av电影不卡..在线观看| av免费观看日本| 最近2019中文字幕mv第一页| 1000部很黄的大片| 美女cb高潮喷水在线观看| 国产精品.久久久| 最近视频中文字幕2019在线8| 啦啦啦观看免费观看视频高清| 色综合亚洲欧美另类图片| 国产v大片淫在线免费观看| 久久热精品热| 国产人妻一区二区三区在| 一级黄色大片毛片| 免费搜索国产男女视频| 日韩,欧美,国产一区二区三区 | 网址你懂的国产日韩在线| 99九九线精品视频在线观看视频| 亚洲av中文字字幕乱码综合| 国产成人精品婷婷| 国产色爽女视频免费观看| 久久婷婷人人爽人人干人人爱| 一级av片app| 日韩人妻高清精品专区| 国产片特级美女逼逼视频| 三级男女做爰猛烈吃奶摸视频| 视频中文字幕在线观看| 欧美人与善性xxx| 久久久久久国产a免费观看| 丝袜喷水一区| 七月丁香在线播放| 国产综合懂色| 亚洲18禁久久av| 精品久久久久久久久久久久久| 看非洲黑人一级黄片| 久久99热6这里只有精品| 中文天堂在线官网| 水蜜桃什么品种好| 日韩av不卡免费在线播放| 亚洲国产色片| av在线蜜桃| 国产亚洲av嫩草精品影院| 久久久久久久久久久免费av| 日本av手机在线免费观看| 日韩中字成人| 2021少妇久久久久久久久久久| h日本视频在线播放| 午夜亚洲福利在线播放| 国产伦理片在线播放av一区| 激情 狠狠 欧美| 赤兔流量卡办理| 国产亚洲午夜精品一区二区久久 | 色视频www国产| 国产三级中文精品| 国产麻豆成人av免费视频| 国产精品综合久久久久久久免费| 免费黄色在线免费观看| 日日啪夜夜撸| 男人狂女人下面高潮的视频| 哪个播放器可以免费观看大片| 国产人妻一区二区三区在| 一区二区三区高清视频在线| 国产片特级美女逼逼视频| 两个人的视频大全免费| 国产精品一区www在线观看| 中文天堂在线官网| 秋霞在线观看毛片| 国产 一区精品| 免费看av在线观看网站| av免费观看日本| 18禁动态无遮挡网站| 美女大奶头视频| 婷婷色av中文字幕| 最新中文字幕久久久久| videos熟女内射| 国产成人91sexporn| 久久精品国产亚洲av天美| 久久精品夜夜夜夜夜久久蜜豆| 亚洲人成网站在线播| 婷婷六月久久综合丁香| 国产在线一区二区三区精 | 特大巨黑吊av在线直播| 最新中文字幕久久久久| 乱码一卡2卡4卡精品| 国产成人免费观看mmmm| 一级爰片在线观看| 精品午夜福利在线看| 99热精品在线国产| 国产高清国产精品国产三级 | 亚洲高清免费不卡视频| 99视频精品全部免费 在线| 日韩高清综合在线| 亚洲中文字幕一区二区三区有码在线看| 春色校园在线视频观看| av在线蜜桃| 亚洲成人久久爱视频| 欧美又色又爽又黄视频| 99久国产av精品| 久久久久精品久久久久真实原创| av黄色大香蕉| 国产一区亚洲一区在线观看| 麻豆一二三区av精品| 舔av片在线| 国产免费男女视频| 六月丁香七月| 亚洲av日韩在线播放| 熟女人妻精品中文字幕| av在线观看视频网站免费| 一级av片app| 免费播放大片免费观看视频在线观看 | 高清视频免费观看一区二区 | 午夜精品国产一区二区电影 | 人体艺术视频欧美日本| 亚洲四区av| 两个人的视频大全免费| 国产精品国产三级国产专区5o | 别揉我奶头 嗯啊视频| 九九久久精品国产亚洲av麻豆| 国产69精品久久久久777片| 成年女人看的毛片在线观看| 欧美成人a在线观看| www.av在线官网国产| 我要看日韩黄色一级片| 国产午夜精品一二区理论片| 日本爱情动作片www.在线观看| 三级经典国产精品| 男人和女人高潮做爰伦理| 国产午夜福利久久久久久| 国产老妇伦熟女老妇高清| 成人毛片a级毛片在线播放| 亚洲人与动物交配视频| 97人妻精品一区二区三区麻豆| 亚洲久久久久久中文字幕| 99久久中文字幕三级久久日本| 青春草视频在线免费观看| 欧美性猛交黑人性爽| 亚洲丝袜综合中文字幕| 综合色丁香网| 国语自产精品视频在线第100页| 男插女下体视频免费在线播放| 99视频精品全部免费 在线| kizo精华| 免费看光身美女| 狠狠狠狠99中文字幕| 久久久久免费精品人妻一区二区| av在线天堂中文字幕| 美女被艹到高潮喷水动态| 九色成人免费人妻av| 国产伦理片在线播放av一区| 六月丁香七月| 亚洲精品aⅴ在线观看| 建设人人有责人人尽责人人享有的 | 国产精品一区二区三区四区免费观看| 超碰av人人做人人爽久久| 国产精品不卡视频一区二区| 高清日韩中文字幕在线| 久久久久久久久久久丰满| 国产欧美另类精品又又久久亚洲欧美| 天堂网av新在线| 色综合站精品国产| 国产免费又黄又爽又色| 一级毛片电影观看 | 在线免费观看的www视频| 麻豆乱淫一区二区| 国产精品无大码| 日本欧美国产在线视频| 精品人妻偷拍中文字幕| 国产一级毛片在线| 男女下面进入的视频免费午夜| 成人亚洲精品av一区二区| 精华霜和精华液先用哪个| 亚洲精品456在线播放app| 亚洲av男天堂| 亚洲av中文字字幕乱码综合| 久久久久久国产a免费观看| 啦啦啦韩国在线观看视频| 免费大片18禁| 伦精品一区二区三区| 一区二区三区免费毛片| 精品熟女少妇av免费看| 亚洲婷婷狠狠爱综合网| 国产成人精品久久久久久| 激情 狠狠 欧美| 精品少妇黑人巨大在线播放 | 久久久久久久亚洲中文字幕| 国产伦精品一区二区三区视频9| 国产69精品久久久久777片| 3wmmmm亚洲av在线观看| 欧美xxxx性猛交bbbb| av在线蜜桃| 99热全是精品| eeuss影院久久| 亚洲av电影不卡..在线观看| 久久精品夜夜夜夜夜久久蜜豆| 乱码一卡2卡4卡精品| 国产男人的电影天堂91| 精品人妻一区二区三区麻豆| 国产成人免费观看mmmm| 高清在线视频一区二区三区 | 长腿黑丝高跟| 免费观看精品视频网站| 国产高清国产精品国产三级 | 日韩在线高清观看一区二区三区| 99在线人妻在线中文字幕| 少妇的逼水好多| 色吧在线观看| 大又大粗又爽又黄少妇毛片口| av在线天堂中文字幕| 可以在线观看毛片的网站| 九九热线精品视视频播放| 久久亚洲国产成人精品v| 一夜夜www| a级一级毛片免费在线观看| 久久久久久久久久黄片| 精品久久久久久久久久久久久| 日韩欧美三级三区| 人人妻人人看人人澡| 我的女老师完整版在线观看| 亚洲精品一区蜜桃| 床上黄色一级片| 国产乱人偷精品视频| 久久久久久久久久黄片| 午夜免费男女啪啪视频观看| 久久99热这里只有精品18| 丝袜喷水一区| 丰满乱子伦码专区| 亚洲人成网站在线观看播放| 亚洲熟妇中文字幕五十中出| 久久亚洲国产成人精品v| 淫秽高清视频在线观看| 久久久欧美国产精品| 深爱激情五月婷婷| 亚洲成av人片在线播放无| 日日摸夜夜添夜夜爱| 熟妇人妻久久中文字幕3abv| 国产精品久久久久久av不卡| 1000部很黄的大片| 国产美女午夜福利| 97人妻精品一区二区三区麻豆| 精品久久久久久久久久久久久| 亚洲自偷自拍三级| 亚洲av成人精品一区久久| 免费大片18禁| 熟妇人妻久久中文字幕3abv| 97热精品久久久久久| 国产亚洲5aaaaa淫片| 久久久久久久久久久丰满| 天堂√8在线中文| 国产探花极品一区二区| av国产久精品久网站免费入址| 在线天堂最新版资源| 国产麻豆成人av免费视频| www日本黄色视频网| 亚洲不卡免费看| 亚洲av男天堂| 熟妇人妻久久中文字幕3abv| 国产片特级美女逼逼视频| 3wmmmm亚洲av在线观看| 国产成人精品一,二区| 日日干狠狠操夜夜爽| 久久久久久九九精品二区国产| 美女高潮的动态| 欧美精品国产亚洲| 欧美激情久久久久久爽电影| 成人午夜高清在线视频| 国产女主播在线喷水免费视频网站 | 能在线免费看毛片的网站| 亚洲精品久久久久久婷婷小说 | 可以在线观看毛片的网站| 最近视频中文字幕2019在线8| 黄色一级大片看看| 欧美色视频一区免费| 国产一区二区在线观看日韩| 国产在线男女| 最后的刺客免费高清国语| 国产三级在线视频| 亚洲精品乱码久久久v下载方式| 色综合站精品国产| 在线天堂最新版资源| 国产一级毛片在线| 国产精品一及| 免费看光身美女| 亚洲人与动物交配视频| 欧美日本亚洲视频在线播放| 中文字幕久久专区| 国产免费视频播放在线视频 | 午夜日本视频在线| 少妇人妻精品综合一区二区| 国产精品国产三级国产av玫瑰| 日本熟妇午夜| 午夜爱爱视频在线播放| 日本wwww免费看| 最近最新中文字幕大全电影3| 日日干狠狠操夜夜爽| 国产成人精品久久久久久| 成人亚洲精品av一区二区| 美女国产视频在线观看| 精品少妇黑人巨大在线播放 | 国产午夜福利久久久久久| 特大巨黑吊av在线直播| 综合色av麻豆| 国产成人91sexporn| 内射极品少妇av片p| 亚洲国产色片| 亚洲av.av天堂| 18+在线观看网站| 日本一二三区视频观看| 日韩精品有码人妻一区|