深圳供電局有限公司信息中心 王旭勇
隨著我國(guó)經(jīng)濟(jì)發(fā)展水平的不斷提高,智能質(zhì)檢系統(tǒng)的研究日趨深入,使之不斷進(jìn)步與發(fā)展,語(yǔ)言質(zhì)檢深入研究之下,大大將呼叫中心質(zhì)檢抽樣準(zhǔn)確率提高了,工作效率也大幅度提高。縱向分析智能質(zhì)檢系統(tǒng)當(dāng)前備受關(guān)注,人們開(kāi)始普遍對(duì)智能質(zhì)檢自動(dòng)關(guān)鍵詞發(fā)現(xiàn)功能開(kāi)展研究,系統(tǒng)整合后可以快速將預(yù)設(shè)好的關(guān)鍵詞提取到,將語(yǔ)音轉(zhuǎn)換為文本后,提取錄音文本關(guān)鍵詞,還可以通過(guò)TextRank對(duì)文本錄音中關(guān)鍵詞提取,匹配、融合與預(yù)設(shè)的質(zhì)檢關(guān)鍵詞庫(kù),最終將文本錄音中出現(xiàn)頻率最高的目標(biāo)關(guān)鍵詞提取出來(lái)。本文將具體對(duì)智能質(zhì)檢關(guān)鍵詞基于語(yǔ)音分析的提取方法的設(shè)計(jì)進(jìn)行論述。
基于語(yǔ)音分析的智能質(zhì)檢關(guān)鍵詞提取意義有以下幾方面:語(yǔ)音文本表述口語(yǔ)化更嚴(yán)重并且存在一些不規(guī)范表述,關(guān)鍵詞提取可準(zhǔn)確鎖定有價(jià)值信息,有效去除冗余;質(zhì)檢人員要對(duì)檢測(cè)重點(diǎn)信息有所了解,并獲取信息權(quán)重值,關(guān)鍵詞提取可將重點(diǎn)質(zhì)檢問(wèn)題及時(shí)發(fā)現(xiàn)并處理好。還有就是快速識(shí)別關(guān)鍵詞并提取,可以幫助質(zhì)檢人員對(duì)語(yǔ)音信息全面了解。
為了更好的應(yīng)對(duì)新一輪電力改革帶來(lái)的巨大挑戰(zhàn),增強(qiáng)供電企業(yè)與用戶(hù)間的交流,進(jìn)一步將服務(wù)質(zhì)量與效率提高,就必須對(duì)語(yǔ)音服務(wù)質(zhì)量相關(guān)智能質(zhì)檢系統(tǒng)當(dāng)前得到廣泛關(guān)注,更深層次的研究及應(yīng)用語(yǔ)音分析技術(shù),轉(zhuǎn)換為文本的語(yǔ)音信息,為進(jìn)一步檢測(cè)語(yǔ)音服務(wù)質(zhì)量創(chuàng)造了條件。在實(shí)際檢測(cè)中,固有主題的檢測(cè)仍是語(yǔ)音文本信息檢測(cè)的重點(diǎn),為幫助質(zhì)檢人員獲取更多有價(jià)值信息,就必須快速將關(guān)鍵詞檢索出來(lái),精煉文本信息,將關(guān)鍵的、能夠反映原文主旨思想的詞語(yǔ)反映出來(lái)。已經(jīng)具備非常強(qiáng)的實(shí)用性對(duì)于關(guān)鍵詞提取來(lái)說(shuō),同時(shí)也稱(chēng)為信息處理基本工作之一。為此,對(duì)于提升質(zhì)檢工作質(zhì)量及效率來(lái)說(shuō),高效、準(zhǔn)確提取關(guān)鍵詞非常有必要,也是智能化質(zhì)檢系統(tǒng)核心內(nèi)容。自然語(yǔ)言處理(NLP)是指用自然語(yǔ)言對(duì)錄音文本處理,并抽取文本關(guān)鍵詞的方法,作為人工智能的重要研究領(lǐng)域,該方法中體現(xiàn)語(yǔ)音識(shí)別、文本分類(lèi)、文本校對(duì)等基本功能,還可以體現(xiàn)機(jī)器翻譯、自動(dòng)分詞等智能化功能。信息抽取(IE),可快速提取關(guān)鍵信息。
語(yǔ)音質(zhì)檢系統(tǒng)與原有電銷(xiāo)管理系統(tǒng)之間是相互關(guān)聯(lián)的,輸入語(yǔ)音分析系統(tǒng)將錄音管理中的語(yǔ)音,借助語(yǔ)音識(shí)別功能,可以將文本轉(zhuǎn)換完成,隨后就可以檢索關(guān)鍵詞,并進(jìn)行建模等。基于語(yǔ)音質(zhì)檢系統(tǒng),首先進(jìn)行信息轉(zhuǎn)化,即將錄音信息轉(zhuǎn)變?yōu)槲谋拘畔?,然后使用TextRank算法將文本錄音中關(guān)鍵詞自動(dòng)提取出來(lái),做詳細(xì)匹配與預(yù)設(shè)好的質(zhì)檢關(guān)鍵詞,并實(shí)現(xiàn)兩者融合,最終將實(shí)際文本錄音中出現(xiàn)次數(shù)最多的目標(biāo)關(guān)鍵詞提取出來(lái)。整個(gè)設(shè)計(jì)方案流程見(jiàn)圖1:
圖1 基于語(yǔ)音分析的智能質(zhì)檢關(guān)鍵詞提取方案
由Page Rank算法衍生出來(lái)的一種算法,TextRank基于排序算法原理使用,不單單依靠局部某點(diǎn)信息進(jìn)行節(jié)點(diǎn)排序,而是依據(jù)全局信息遞歸計(jì)算,對(duì)文本分割,由分割出的若干個(gè)單元組建出一個(gè)完整的圖像模型,排序?qū)ξ谋局兄匾煞郑崛∷惴ㄡ槍?duì)單一文檔中關(guān)鍵詞??捎靡粋€(gè)有向權(quán)圖G=(V,E)表示TextRank模型,詞語(yǔ)構(gòu)成權(quán)圖中的V,V×V的子集就是E。任意兩點(diǎn)vi由Wji表示,圖中指向該點(diǎn)的其他集合表示為In(Vi)入度,vi指向其他點(diǎn)集合,稱(chēng)為出度,表示為Out(vi),Vi得分計(jì)算公式為:
圖中表示某一點(diǎn)都有1-d的概率指向其他任意點(diǎn)為d,即阻尼系數(shù),d∈[0,1],0.85為d的默認(rèn)系數(shù)。每個(gè)點(diǎn)進(jìn)行打分時(shí),應(yīng)用TextRank算法,每個(gè)點(diǎn)必須為指定任意的初值,計(jì)算采用迭代計(jì)算方式并收斂。鑒于圖有著一定連貫性,收斂需經(jīng)過(guò)較少次數(shù)迭代實(shí)現(xiàn)。
從一段文本中將眾多有價(jià)值的語(yǔ)句提取出來(lái)就是TextRank算法下關(guān)鍵詞提取的基本方法。利用一定窗口內(nèi)的詞匯間關(guān)系排序后續(xù)關(guān)鍵詞,關(guān)鍵詞從文本中直接抽取出來(lái),也就是指在圖中隨機(jī)游走的過(guò)程,關(guān)鍵詞的選擇最終依據(jù)投票得分高低而定。具體方法為:
獲取到錄音集合文本T,通過(guò)接口,對(duì)完整的語(yǔ)句進(jìn)行分割。各個(gè)分割的片段表示為[S1、S2、S3、S4.....,Sn]。先分詞、確定詞性對(duì)每個(gè)文本,然后進(jìn)行詞性標(biāo)注,并集中處理,最終將與主題無(wú)關(guān)或者冗余的文字去除,比如“的”、“而且”、“但是”,剩下的定性詞作為備選關(guān)鍵詞,這些備選詞表示為[ti,1,、ti,2、ti,r,.....ti,n]。構(gòu)建出備選關(guān)鍵詞圖,即G=(V,E),依據(jù)指定共現(xiàn)窗口K大小進(jìn)行構(gòu)造,任意兩點(diǎn)間的邊由共同關(guān)系構(gòu)造出來(lái)。然后依據(jù)特定公式進(jìn)行計(jì)算,最終將迭代傳播計(jì)算各節(jié)點(diǎn)權(quán)重得分值計(jì)算出,直到將收斂完成。對(duì)各節(jié)點(diǎn)權(quán)重進(jìn)行排列,按照倒序排列方式,關(guān)鍵詞提取的結(jié)果為得到的最重要的T個(gè)單詞。
因?qū)儆谝环N無(wú)監(jiān)督的提取方法,TextRank算法對(duì)文本整體結(jié)構(gòu)綜合考慮后進(jìn)行提取,受業(yè)務(wù)規(guī)范流程影響,會(huì)出現(xiàn)關(guān)鍵詞提取數(shù)目過(guò)大的情況,在使用TextRank算法提取關(guān)鍵詞時(shí),并且有較多的禮貌用語(yǔ),包括“您好”、“謝謝”等,會(huì)影響到目標(biāo)關(guān)鍵詞的提取效果。
為將語(yǔ)音質(zhì)檢關(guān)鍵詞日趨的針對(duì)性增強(qiáng)并提高準(zhǔn)確性,就必須總結(jié)過(guò)去呼叫中心語(yǔ)音質(zhì)檢關(guān)鍵詞提取相關(guān)經(jīng)驗(yàn),將語(yǔ)音出現(xiàn)頻率最高的關(guān)鍵詞提取出來(lái),同時(shí)提取出出現(xiàn)次數(shù)最多的專(zhuān)業(yè)詞語(yǔ)。對(duì)重點(diǎn)關(guān)鍵詞構(gòu)建自定義詞庫(kù),依據(jù)語(yǔ)音質(zhì)檢工作實(shí)際要求及標(biāo)準(zhǔn),這樣才能保證關(guān)鍵詞更為規(guī)范、具備更強(qiáng)的表達(dá)性,同時(shí),還要給予一個(gè)權(quán)重值對(duì)于自定義詞庫(kù)中每一個(gè)關(guān)鍵詞。關(guān)于自定義詞庫(kù)關(guān)鍵詞提取方法,具體做如下介紹。
可以直接將語(yǔ)音質(zhì)檢中與關(guān)鍵詞相關(guān)程度高的樣本篩選出來(lái),從眾多的篩選出的樣本中提取出關(guān)鍵詞。具體方法如下:
(1)將錄音集合文本T獲取到以后通過(guò)接口方式,中分分詞對(duì)文本內(nèi)容,仍表示為[S1、S2、S3、S4.....,Sn]。
(2)對(duì)每個(gè)詞語(yǔ)在文本中出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),這里主要指自定義詞庫(kù)。其中,關(guān)鍵詞在文本中出現(xiàn)頻率表示為count(Si),文本中總分詞數(shù)表示為count(T)。
(3)經(jīng)過(guò)兩次抽取以后的語(yǔ)音文本,將關(guān)鍵詞結(jié)果集最終得到,結(jié)果集帶有兩組關(guān)鍵詞。此時(shí),按照1:1的比例數(shù)量設(shè)置關(guān)鍵詞顯示數(shù),最終將關(guān)鍵詞結(jié)果集提取出來(lái)。具體過(guò)程詳見(jiàn)圖2。
比如,關(guān)鍵詞總共有10個(gè),需要從結(jié)果集中提取出5個(gè)關(guān)鍵詞,這5個(gè)關(guān)鍵詞一定要是分?jǐn)?shù)最高的,并作為備選,去重處理對(duì)這5個(gè)備選關(guān)鍵詞,提取出其他關(guān)鍵詞從詞庫(kù)中,補(bǔ)充備選關(guān)鍵詞,將最終的關(guān)鍵詞結(jié)果集得到。
圖2 基于語(yǔ)音分析的智能質(zhì)檢關(guān)鍵詞融合過(guò)程
本文主要介紹了基于語(yǔ)音分析技術(shù),將語(yǔ)音轉(zhuǎn)換為文本進(jìn)行關(guān)鍵詞智能提取的方法,設(shè)計(jì)了基于TextRank算法的智能質(zhì)檢關(guān)鍵詞提取方法,基于這種算法可以對(duì)單一文本文件關(guān)鍵詞進(jìn)行提取,將關(guān)鍵詞提取的準(zhǔn)確性與針對(duì)性增強(qiáng)。同時(shí),參照呼叫中心語(yǔ)音質(zhì)檢相關(guān)經(jīng)驗(yàn)成果,將自定義詞庫(kù)引進(jìn),給予不同權(quán)重,最終將目標(biāo)文本的關(guān)鍵詞提取出來(lái)。同時(shí),在提取后,對(duì)兩組關(guān)鍵詞集進(jìn)行融合與匹配,將出現(xiàn)頻率最高的目標(biāo)關(guān)鍵詞結(jié)果輸出,這種關(guān)鍵詞日趨方式有效保證了關(guān)鍵詞質(zhì)量與準(zhǔn)確性,可進(jìn)一步將呼叫中心質(zhì)檢問(wèn)題錄音監(jiān)測(cè)概率提高,對(duì)于將語(yǔ)音質(zhì)檢工作質(zhì)量提高有著非常重要的意義。在今后,仍需要不斷改進(jìn)自定義詞庫(kù)并對(duì)其優(yōu)化,這樣才能對(duì)質(zhì)檢工作出現(xiàn)的變化更好的適應(yīng),將關(guān)鍵詞提取問(wèn)題解決,將客戶(hù)服務(wù)質(zhì)量提升。