褚金鵬 劉昕武 唐超偉 曹德洪
摘要:歷史故障記錄數(shù)據(jù)對(duì)產(chǎn)品的質(zhì)量分析和提升有重大意義?,F(xiàn)存大量由售后人員手動(dòng)錄入的故障及維護(hù)記錄,帶有強(qiáng)烈的個(gè)人風(fēng)格,標(biāo)準(zhǔn)化缺失。一方面提升售后數(shù)據(jù)的分析難度,另一方面也會(huì)因錯(cuò)誤信息的存在而降低數(shù)據(jù)價(jià)值。為解決上述問題,此處給出一種基于文本結(jié)構(gòu)和關(guān)鍵詞的售后文本分類方法。首先,采用經(jīng)典分詞方法對(duì)文本進(jìn)行分詞,然后基于臨近詞的條件關(guān)系,提出一種基于字詞信息熵增益的臨近詞關(guān)聯(lián)方法,針對(duì)專業(yè)售后文本提出更優(yōu)的關(guān)鍵詞提取方法;在該分詞方法的基礎(chǔ)上,利用TF-IDF算法篩選關(guān)鍵詞,利用關(guān)鍵詞和詞性的統(tǒng)計(jì)分布特征,建立文本的評(píng)價(jià)特征;最后以少量標(biāo)記文本為訓(xùn)練樣本,采用決策樹進(jìn)行模型訓(xùn)練,實(shí)現(xiàn)全量文本的分類算法。實(shí)驗(yàn)結(jié)果表明,基于熵信息的詞關(guān)聯(lián)方法有效提升分詞準(zhǔn)確性,提取的文本特征和訓(xùn)練的模型在文本的分類篩選上表現(xiàn)良好。
關(guān)鍵詞:售后故障數(shù)據(jù);熵增益;TF-IDF;決策樹;文本分類
引言
文本數(shù)據(jù)的分析需求不僅存在于工業(yè)界,也是學(xué)術(shù)界一直都關(guān)注的熱點(diǎn)之一。這方面的研究工作很多。按照應(yīng)用領(lǐng)域劃分,有互聯(lián)網(wǎng)的漢語術(shù)語提取研究[1],按照方法劃分則有基于中文詞語的結(jié)構(gòu)定義研究[2],也有純粹按照統(tǒng)計(jì)方法的分詞研究[3].一系列研究成果表明,文本的分析和評(píng)價(jià)方法都是從字到詞再到段落再到文章的順序開展。
方法主要分三步進(jìn)行,首先基于隨機(jī)分布熵對(duì)現(xiàn)有的分詞結(jié)果進(jìn)行迭代關(guān)聯(lián)優(yōu)化,然后利用TF-IDF進(jìn)行關(guān)鍵詞提取,最后在提出的關(guān)鍵詞和文本自身的結(jié)構(gòu)之上建立故障記錄的準(zhǔn)確性、文檔簡潔性、完備性三個(gè)維度的特征,通過少量文本數(shù)據(jù)的人工標(biāo)注,建立決策樹分類模型,實(shí)現(xiàn)文本的有效分類。數(shù)據(jù)實(shí)驗(yàn)表明,本方法能夠提升關(guān)鍵字的提取效果,且篩選的優(yōu)質(zhì)文本描述與業(yè)務(wù)人員分類結(jié)果一致。
1 故障記錄的分類評(píng)價(jià)模型
對(duì)售后文本的分類評(píng)價(jià)可以有效從大量故障記錄中篩選出優(yōu)質(zhì)的故障記錄,降低分析樣本條數(shù);基于以上字詞關(guān)聯(lián)迭代算法后的分詞進(jìn)一步降低字詞的維度,通過TF-IDF方法對(duì)新的詞組對(duì)進(jìn)行關(guān)鍵詞提取后,則具備按照關(guān)鍵詞的分布特征進(jìn)行分類模型的構(gòu)建,完成文本的評(píng)價(jià)。
1.1 分類模型特征工程
1.1.1 準(zhǔn)確性特征
根據(jù)TF-IDF方法選出N個(gè)關(guān)鍵詞,分別為則對(duì)應(yīng)這N個(gè)關(guān)鍵詞,其在文本集中的詞頻分別記為。
從統(tǒng)計(jì)的角度出發(fā),準(zhǔn)確性高的詞語具有更大的出現(xiàn)概率,因此將詞頻作為單個(gè)詞的準(zhǔn)確性評(píng)估,考慮到詞頻的量級(jí)問題,對(duì)單個(gè)詞的準(zhǔn)確性進(jìn)行歸一化轉(zhuǎn)換,即對(duì)關(guān)鍵詞,其準(zhǔn)確性為:
由于本部分是探討單挑記錄的描述準(zhǔn)確性,因此將各個(gè)字詞的準(zhǔn)確性特征加權(quán)作為記錄的準(zhǔn)確性。
假設(shè)記錄包含個(gè)關(guān)鍵詞,分別為其中依照設(shè)定,的準(zhǔn)確性為:
1.1.2簡潔性特征
以下構(gòu)造的簡潔性特征也是基于關(guān)鍵詞構(gòu)建。考慮到關(guān)鍵詞在記錄的綱領(lǐng)性作用,本文采用單句的含關(guān)鍵字量進(jìn)行單句的簡潔程度描述。
對(duì)記錄的單個(gè)句子,假設(shè)按照前述分詞方法分解成維詞序列:,其中的關(guān)鍵字子序列:則的簡潔性特征。記錄的整體簡潔性表征值參照前述準(zhǔn)確性特征的方式構(gòu)造如下:
其中表示記錄中的句子總數(shù)。
1.2 基于決策樹的文本分類
按1.1描述的步驟,對(duì)全量數(shù)據(jù)進(jìn)行分詞和特征提取,將故障記錄被轉(zhuǎn)化為的三元數(shù)組,從全量故障記錄中抽取一定比例的故障記錄進(jìn)行人工分類打標(biāo)簽,利用決策樹模型,基于前述記錄長度、用詞準(zhǔn)確性、簡潔性三維特征,訓(xùn)練出對(duì)應(yīng)的文本分類模型,通過分類模型對(duì)大量文本進(jìn)行自動(dòng)分類,實(shí)現(xiàn)低質(zhì)量售后故障記錄的過濾。
2 數(shù)據(jù)實(shí)驗(yàn)及結(jié)果分析
本次數(shù)據(jù)實(shí)驗(yàn)的樣本來源為2009-2015年部分機(jī)車模塊故障數(shù)據(jù),初始故障條數(shù)為2308條,經(jīng)過對(duì)重復(fù)記錄和刪除部分過于簡短(描述字?jǐn)?shù)少于10字)的故障描述后,剩余1918條數(shù)據(jù)樣本。
2.1 基于熵的臨近詞組關(guān)聯(lián)
以下是詞組關(guān)聯(lián)的兩點(diǎn)結(jié)果,一是本文研究的數(shù)據(jù)集合中臨近條件熵的分布,確定文本的關(guān)聯(lián)初始閾值,二是詞組關(guān)聯(lián)前后的分詞效果比較。
圖1.將1918條數(shù)據(jù)樣本進(jìn)行分詞,計(jì)算每對(duì)臨近詞的條件熵,得到。
按照臨近詞組的關(guān)聯(lián)選取方法,對(duì)出現(xiàn)次數(shù)超過5次以上的數(shù)據(jù)以上的關(guān)聯(lián)詞組。
2.2 分類模型及測試結(jié)果
將構(gòu)造的數(shù)據(jù)按照80%:20%的比例,分別作為訓(xùn)練集和測試集,并采用決策樹進(jìn)行分類模型訓(xùn)練,決策樹采用的分類度量是基尼純度,決策樹的最大分層數(shù)5??芍P驮跍y試文本集上的分類準(zhǔn)確率為90%,且對(duì)標(biāo)簽為“好”的文本具有非常高的準(zhǔn)確率,說明本文提出的文本分類方法對(duì)文本的篩選具有極佳適應(yīng)性。
3 結(jié)語
本文基于計(jì)算機(jī)分詞算法,首先創(chuàng)新性地提出基于臨近二元詞組的條件分布熵的臨近詞組迭代關(guān)聯(lián)算法,顯著提升機(jī)車故障售后維護(hù)記錄文本的分詞表現(xiàn),準(zhǔn)確有效地從故障文本中提取到專業(yè)關(guān)鍵詞;然后從關(guān)鍵詞出發(fā),利用關(guān)鍵詞在記錄中的分布規(guī)律,提出兩種表征描述的準(zhǔn)確性和簡潔性的特征構(gòu)造方式,并引入文本長度作為完備性的特征,采用決策樹分類算法,僅需通過少量文本的人工標(biāo)記,就能夠?qū)崿F(xiàn)優(yōu)質(zhì)售后文本的準(zhǔn)確篩選。該方法操作簡單,且需要人工干預(yù)少,就能夠方便地從海量售后文本中快速篩選出優(yōu)質(zhì)的故障記錄,進(jìn)一步準(zhǔn)確開展后續(xù)的文本分析工作,節(jié)省大量的文本數(shù)據(jù)預(yù)處理工作。
參考文獻(xiàn)
[1]張榕, 宋柔. 基于互聯(lián)網(wǎng)的漢語術(shù)語定義提取研究[C]// 全國計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議. 2005.
[2]張艷, 宗成慶, 徐波. 漢語術(shù)語定義的結(jié)構(gòu)分析和提取[J]. 中文信息學(xué)報(bào), 2003.