• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于詞向量模型的95598工單文本挖掘

      2017-12-19 07:57:18國網(wǎng)山東省電力公司電力科學(xué)研究院謝季川宗振國劉宏國張春秋
      電子世界 2017年23期
      關(guān)鍵詞:工單分詞詞典

      國網(wǎng)山東省電力公司電力科學(xué)研究院 謝季川 宗振國 劉宏國 張春秋 田 曉

      基于詞向量模型的95598工單文本挖掘

      國網(wǎng)山東省電力公司電力科學(xué)研究院 謝季川 宗振國 劉宏國 張春秋 田 曉

      本文結(jié)合電力工單特點,提出運用神經(jīng)網(wǎng)絡(luò)語言模型進(jìn)行文本挖掘,使用word2vec方法對電力工單文本進(jìn)行訓(xùn)練,生成電力工單詞向量。在電力工單詞向量的基礎(chǔ)上,作為其他模型的輸入,實現(xiàn)對電力工單進(jìn)一步的文本挖掘分析,幫助客服人員了解客戶訴求,提供更優(yōu)質(zhì)便捷的服務(wù)。

      95598工單;神經(jīng)網(wǎng)絡(luò)語言模型;詞向量;文本分類

      1.引言

      95598客服中心作為電網(wǎng)公司與客戶交流的窗口,每天都要處理大量來自客戶的訴求,形成大量的工單文本數(shù)據(jù)。目前,針對電力工單數(shù)據(jù)的文本挖掘已經(jīng)取得進(jìn)展,但在方法上仍有可以改進(jìn)之處。本文通過分析電力工單文本挖掘的現(xiàn)狀,結(jié)合前沿技術(shù),提出運用神經(jīng)網(wǎng)絡(luò)語言模型對工單文本進(jìn)行訓(xùn)練,形成詞向量。在詞向量的基礎(chǔ)上,作為其他模型的輸入,實現(xiàn)進(jìn)一步的文本挖掘分析,如電力領(lǐng)域詞典、工單分類等功能,幫助客服人員了解客戶訴求,提供更優(yōu)質(zhì)便捷的服務(wù)。

      2.電力工單文本挖掘現(xiàn)狀

      當(dāng)前電力工單文本挖掘(Text Mining)主要有語料分析、文本分類(Text classification)兩方面,如客戶訴求分析、客戶滿意度預(yù)測[3],電力標(biāo)簽特征詞典、工單自動分類[4]。文本挖掘最基礎(chǔ)的環(huán)節(jié)就是文本表示,電力工單的文本表示多采用LDA主題模型進(jìn)行特征提取。主題模型可以實現(xiàn)有效的降維,發(fā)現(xiàn)文檔的潛在主題,但是主題模型需要大量的樣本進(jìn)行學(xué)習(xí),訓(xùn)練難度大并且非常耗時,影響了分類的效率[2],而且無法捕捉詞與詞之間的共現(xiàn)關(guān)系。因此本文采用神經(jīng)網(wǎng)絡(luò)語言模型進(jìn)行訓(xùn)練得到詞向量,在詞向量的基礎(chǔ)上進(jìn)行相應(yīng)文本挖掘。

      3.詞向量模型

      詞向量(word embedding)將每個詞映射成一個固定長度的短向量,既能夠降低維度,又能夠把詞與上下文的聯(lián)系體現(xiàn)出來。詞向量可以通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練語言模型可以得到。神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)由Bengio 等人于2001年正式提出[6],2013年,Mikolov 等人提出了 CBoW( Continuous Bagof-Words)和 Skip-gram 模型。CBoW的優(yōu)化目標(biāo)是:給定詞序列w1,w2,w3,…,wt,最大化下式,

      其中,P(wt|wt?c,…wt?1,wt+1…wt+c)采用log-linear(Softmax)模型用于正確分類當(dāng)前詞,通過用t-n+1…t-1,t+1,…t+n-1的word作為輸入,目標(biāo)是正確分類得到第t個word。

      而Skip-gram模型相反,通過輸入為當(dāng)前word,經(jīng)過projection的特征提取去預(yù)測該word周圍的C個詞,給定詞序列w1,w2,w3,…,wt,最大化下式:

      其中,c是上下文的大小,P(wt+j|wt)采用softmax方程,vw和vTw為對應(yīng)的輸入和輸出詞向量。

      本文使用的Word2vec便由Google公司依據(jù)這兩種模型實現(xiàn),在輸出層采用Huffman 編碼計算層次Softmax,具有模型簡單、訓(xùn)練速度快的特點。

      4.電力工單詞向量

      對電力工單進(jìn)行文本挖掘,屬于特定領(lǐng)域挖掘,沒有現(xiàn)成的詞向量,因此首先是要訓(xùn)練生成電力工單領(lǐng)域詞向量。本文使用Word2Vec進(jìn)行訓(xùn)練,主要流程有文本預(yù)處理、模型訓(xùn)練、輸出詞向量,其中文本預(yù)處理包括工單文本收集、文本分詞兩步,而模型訓(xùn)練的同時,更新電力特征詞庫反饋提升文本分詞的效果。

      4.1 文本預(yù)處理

      在進(jìn)行模型訓(xùn)練之前,需要對工單文本進(jìn)行預(yù)處理,主要包含工單文本收集、文本分詞、特征詞庫處理。

      4.1.1 工單文本收集

      目前營銷系統(tǒng)內(nèi)工單主要被分為故障報修、業(yè)務(wù)咨詢、服務(wù)申請、投訴舉報等12大類,每一大類又分為二級子類、三級子類。

      將工單受理內(nèi)容整理到文本中,每一行代表一個工單。工單受理內(nèi)容主要形式是“問題總結(jié)+描述”,例如“【電能表異?!靠蛻魜黼姺从?,戶號為06157*****的電能表異常顯示。現(xiàn)申請對電表進(jìn)行現(xiàn)場檢查,請相關(guān)工作人員核實處理”,為大類為“服務(wù)申請”類型的工單受理內(nèi)容。因此下一步進(jìn)行分詞,需要考慮去除停用詞以及電力領(lǐng)域自身特點。

      4.1.2 文本分詞

      本文分詞屬于特殊領(lǐng)域的分詞,采用jieba分詞對文本工單句子進(jìn)行分詞,形成電力工單語料庫。在分詞是需要結(jié)合電力領(lǐng)域詞典取得更好效果,同時工單受理內(nèi)容存有大量無用信息,可利用停用詞進(jìn)行處理。如上面提到的工單文本內(nèi)容直接用jieba分詞后根據(jù)詞性以及停用詞處理后如下“電能表異??蛻?來電反映戶號電能表異常顯示申請電表進(jìn)行現(xiàn)場檢查相關(guān)工作人員核實處理”,如“現(xiàn)場檢查”屬于電力領(lǐng)域的特殊詞匯可以通過加入電力特征詞典進(jìn)行處理。前期我們通過專家經(jīng)驗初步形成一個簡單詞典但并不完善,而Word2vec最大的特點恰好就是對于詞性的判斷,在詞向量完成訓(xùn)練的同時可以根據(jù)結(jié)果不斷對電力工單特征詞典的進(jìn)行補充。

      4.1.3 模型訓(xùn)練

      將經(jīng)過分詞處理的工單文本利用Python工具包Gensim中的Word2vec模型進(jìn)行訓(xùn)練,Word2vec主要參數(shù)為sg-設(shè)置訓(xùn)練算法,size-特征向量的維度,window-上下文窗口最大距離,alpha-學(xué)習(xí)速率,min_count-字典做截斷,詞頻小于不計算等。模型訓(xùn)練完成后,得到vectors.bin這個模型文件。vectors.bin這個文件就是文檔中詞語和其對應(yīng)的向量,向量維度就是之前設(shè)置的,本次設(shè)置為50維。結(jié)果如圖1所示:

      圖1 詞向量表示圖

      5.詞向量應(yīng)用

      在詞向量的基礎(chǔ)上結(jié)合其他方法,進(jìn)行進(jìn)一步的文本挖掘,可以應(yīng)用到電力領(lǐng)域工單詞典構(gòu)建,也可以作為SVM等分類模型的輸出對工單進(jìn)行分類。

      5.1 電力工單詞典

      電力領(lǐng)域工單詞典前期通過專家經(jīng)驗總結(jié)產(chǎn)生,后面可以通過詞向量找尋與已有詞匯相似的詞補充加入到電力工單詞典中,不斷豐富詞典內(nèi)容。Word2vec本身提供distance的應(yīng)用,讀取模型文件中每一個詞和其對應(yīng)的向量,計算所輸入query的詞,與其他所有詞語的cosine相似度,兩個詞相似度超過閾值便被補充到詞典中,不斷豐富點力領(lǐng)域工單詞典內(nèi)容。

      5.2 電力文本工單分類

      電力文本工單分類,屬于監(jiān)督學(xué)習(xí)。根據(jù)之前人工分類結(jié)果作為依據(jù),構(gòu)建分類模型。因為文本工單分類需以語句為最小單位作為輸入,所以采用根據(jù)詞頻進(jìn)行賦權(quán)對語句中詞向量相加,來表示句子,構(gòu)造輸入向量,保證向量維度,再結(jié)合SVM進(jìn)行構(gòu)建多分類文本模型。但是這樣做忽略了單詞之間的排列順序即上下文的影響,在文本短時有不錯效果。為處理可變長度文本的總結(jié)性方法,Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一個段落向量以外,這個方法幾乎等同于 Word2Vec。因此可以利用電力工單預(yù)料庫,利用Doc2vec進(jìn)行段落向量,直接作為SVM多分類的輸入進(jìn)行訓(xùn)練分類,構(gòu)建分類模型,進(jìn)行文本工單分類。

      6.結(jié)語

      本文完整描述了運用神經(jīng)網(wǎng)絡(luò)語言模型對電力工單文本訓(xùn)練,形成電力詞向量,并在電力詞向量的基礎(chǔ)上進(jìn)行更多進(jìn)一步的文本挖掘的過程,豐富電力文本挖掘分析的方法。但運用詞向量在電力領(lǐng)域進(jìn)行深入文本挖掘的效果方面,如工單分類的準(zhǔn)確率,需要進(jìn)一步研究與提升。

      [1]閆琰.基于深度學(xué)習(xí)的文本表示與分類方法研究[D].北京科技大學(xué), 2016.

      [2]馮貴川.基于Word2vec的文本建模及分類研究[D].深圳大學(xué),2016.

      [3]何薇,張劍,于雪霞,吳佐平,張小華,陳晨.基于文本挖掘的電網(wǎng)客戶服務(wù)滿意度評價模型[J].電子世界,2017,(07):81+83.

      [4]王震,代巖巖,陳亮,林曉蘭.基于LDA模型的95598熱點業(yè)務(wù)工單挖掘分析[J].電子技術(shù)與軟件工程,2016,(22):190-192.

      [5]丁麒,莊志畫,劉東丹.基于文本數(shù)據(jù)挖掘技術(shù)的95598業(yè)務(wù)工單主題分析應(yīng)用[J].電力需求側(cè)管理,2016,18(S1):55-57.

      [6]Bengio Y,Schwenk H,Senécal J S,et al.A neural probabilistic language model[J].Journal of MachineLearning Research,2003, 3(6):1137-1155.

      [7]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013.

      [8]Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and theirCompositionality[J].Advances in Neural Information Processing Systems,2013,26:3111-3119.

      猜你喜歡
      工單分詞詞典
      基于量化考核的基層班組管理系統(tǒng)的設(shè)計與應(yīng)用
      電子測試(2022年7期)2022-04-22 00:13:16
      基于transformer的工單智能判責(zé)方法研究
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      評《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      基于HANA的工單備件采購聯(lián)合報表的研究與實現(xiàn)
      中國核電(2017年1期)2017-05-17 06:09:55
      值得重視的分詞的特殊用法
      電力95598熱線全業(yè)務(wù)集中后的工單預(yù)警機(jī)制
      高考分詞作狀語考點歸納與疑難解析
      施秉县| 横山县| 兰州市| 黄冈市| 利川市| 鄂托克前旗| 休宁县| 长岭县| 自贡市| 怀仁县| 长宁县| 东丽区| 淮滨县| 迭部县| 郁南县| 正宁县| 罗源县| 德格县| 杭锦后旗| 赣州市| 资兴市| 泸溪县| 潢川县| 麻阳| 卓资县| 龙泉市| 定南县| 南城县| 东阿县| 六安市| 富阳市| 太和县| 沭阳县| 昆山市| 广宗县| 苗栗县| 宜良县| 宾阳县| 玉环县| 栖霞市| 丽水市|