李俊峰, 黃秀彬, 劉娟, 董蓓, 王建波
(1.國(guó)家電網(wǎng)有限公司, 市場(chǎng)營(yíng)銷部, 北京 100000;2.國(guó)家電網(wǎng)有限公司客戶服務(wù)中心, 天津 300304;3.國(guó)網(wǎng)信通產(chǎn)業(yè)集團(tuán)北京中電普華信息技術(shù)有限公司, 北京 100085)
由于短文本缺乏上下文本信息對(duì)語(yǔ)言環(huán)境的制約,且漢語(yǔ)語(yǔ)義、語(yǔ)音多樣化,同一個(gè)文本的發(fā)音不同,表達(dá)的意思也不同。因此,文本的語(yǔ)義歧義成為常態(tài),影響智能客服與用戶間的交互,降低服務(wù)質(zhì)量,帶來(lái)經(jīng)濟(jì)損失。為了解決以上問(wèn)題,文獻(xiàn)[1]通過(guò)智能體agent不斷與周圍環(huán)境進(jìn)行交互和學(xué)習(xí),對(duì)短文本數(shù)據(jù)內(nèi)容進(jìn)行訓(xùn)練;文獻(xiàn)[2]將Logistic映射產(chǎn)生的序列作為擴(kuò)頻通信的擴(kuò)頻碼,提出了標(biāo)簽可完全識(shí)別的重復(fù)幀算法,RFID多閱讀器防碰撞算法,完成短文本分類和分析,具有較高的文本分析能力。
這些方法在一定程度上減少了短文本內(nèi)容的特征提取過(guò)程,提高了文本內(nèi)容的核心偏差,降低了模型分類的準(zhǔn)確率。對(duì)此,本文提出的基于自適應(yīng)多叉樹防碰撞算法的智能客服NLP短文本分類模型,在保證智能客服高效分析能力的基礎(chǔ)上,提高對(duì)本文主題提取的精確度,實(shí)現(xiàn)提高服務(wù)質(zhì)量的目的。
智能客服NLP短文本分類模型架構(gòu)是短文本分類模型功能運(yùn)行的基礎(chǔ),為客服NLP短文本分析提供文本訓(xùn)練數(shù)據(jù)。為了達(dá)到本文設(shè)計(jì)的目的,智能客服NLP短文本分類模型由構(gòu)造詞嵌入層、多頭自注意層、輸出層以及卷積層,架構(gòu)結(jié)構(gòu)示意圖如圖1所示。
圖1 智能客服NLP短文本分類模型架構(gòu)結(jié)構(gòu)示意圖
智能客服NLP短文本分類模型中,構(gòu)造詞嵌入層的任務(wù)是按照可變?cè)~匯的基本構(gòu)造方法,對(duì)智能客服接收到的短文本信息數(shù)據(jù)進(jìn)行處理,分析短文本中每個(gè)詞匯的多重含義,為卷積層提取短文本內(nèi)容的核心主題奠定數(shù)據(jù)基礎(chǔ)。文本的映射處理包括分析多報(bào)頭注意層輸出的短文本轉(zhuǎn)換矩陣,獲取關(guān)系矩陣和字節(jié)向量特征矩陣,然后對(duì)矩陣進(jìn)行權(quán)重優(yōu)化訓(xùn)練,優(yōu)化公式如式(1):
(1)
其中,AWQ表示文字的關(guān)系矩陣,AWK表示字節(jié)向量矩陣,SDA(Q、K、V)表示短本文格式轉(zhuǎn)換矩陣,dK表示權(quán)重優(yōu)化系數(shù)[3-4]。
多頭自注意層的任務(wù)是對(duì)該模型首次得到的文本特征進(jìn)行劃分。在提取過(guò)程中,為了簡(jiǎn)化構(gòu)造詞嵌入層的工作,我們將根據(jù)短文本的內(nèi)容,利用文本的自注意計(jì)算,合理地進(jìn)行語(yǔ)義增強(qiáng)層,自注意力計(jì)算式如下:
(2)
其中,m表示短文本信息的真實(shí)文本特征標(biāo)簽,t表示文本轉(zhuǎn)換編碼,θ表示短文本信息分類的估計(jì)概率,k表示短文本目標(biāo)分類的個(gè)數(shù),γ表示短文本分類的正則超函數(shù),log(yi)表示短文本訓(xùn)練目標(biāo)的損失函數(shù)[5-8]。
最后,將優(yōu)化處理后的多頭自注意力短文本信息序列重新切割,得到短文本序列的多個(gè)分向量。
輸出層的任務(wù)是輸出其他層次的分類結(jié)果,獲得客服接收到的短文本信息。因此,在模型一個(gè)周期的計(jì)算過(guò)程中,需要調(diào)用2次輸出輸入層,分別表示短文本分類的開始和結(jié)束[9-11]。為了保證短文本信息數(shù)據(jù)的完整性,將短文本變量的輸入或輸出與頭向量和尾向量混合。當(dāng)模型獲得文本變量時(shí),它將自動(dòng)解析頭部和尾部變量,不會(huì)改變?cè)级涛谋拘畔⒌暮x。具體輸出層的解析結(jié)構(gòu)如圖2所示。
圖2 短文本分類特征向量簡(jiǎn)圖
為了保證數(shù)據(jù)信息的精度,輸入輸出層在輸入過(guò)程中會(huì)自動(dòng)地將文本信息和文字特征向量相互融合,輸入詞組分類器,進(jìn)行歸一處理,完成最終的工作。歸一函數(shù)如式(3):
(3)
卷積層的任務(wù)是為NLP短文本分類模型提供捕獲短文本內(nèi)容核心主題特征。卷積層的工作是分析待分類短文本詞之間的依賴關(guān)系,從而降低提取短文本主題特征的難度,設(shè)短本文主題特征間的依賴關(guān)系提取公式為
(4)
卷積層將輸出的短本文信息特征直接輸送到池化層,進(jìn)行短文本信息的其他處理。
自適應(yīng)多叉樹防碰撞算法的目的是防止文本閱讀器與文本的特征標(biāo)簽在進(jìn)行文本分類時(shí)出現(xiàn)碰撞,一旦碰撞文本分類模型就會(huì)崩潰,所有的數(shù)據(jù)信息失去意義。自適應(yīng)多叉樹防碰撞算法的優(yōu)點(diǎn)是調(diào)用的執(zhí)行命令少,降低分類模型的自身負(fù)載[14-15]。自適應(yīng)多叉樹防碰撞算法的工作流程如圖3所示。
圖3 自適應(yīng)多叉樹防碰撞算法的工作流程圖
短文本分類模型的通信方式要保證通信量,無(wú)效通信量過(guò)大會(huì)導(dǎo)致分類模型運(yùn)行效率低,出現(xiàn)通信信道堵塞的狀態(tài),為了防止智能客服NLP短文本分類模型在計(jì)算訓(xùn)練過(guò)程中出現(xiàn)無(wú)效字節(jié)的情況,本文統(tǒng)一制定智能客服NLP短文本模型內(nèi)數(shù)據(jù)通信的模式為曼徹斯特編碼。此編碼模式的編碼遵守邏輯1和邏輯0的準(zhǔn)則,當(dāng)數(shù)據(jù)上傳時(shí),對(duì)外封裝邏輯1編碼;當(dāng)數(shù)據(jù)處理時(shí),利用下降編碼0進(jìn)行解碼,再進(jìn)行本文的運(yùn)算[15]。解碼雙循環(huán)控制單元如圖4所示。
圖4 編碼雙向控制循環(huán)單元結(jié)構(gòu)圖
數(shù)據(jù)在解碼和編碼過(guò)程中,一旦數(shù)據(jù)出現(xiàn)跳碼或者空格時(shí),都需要重新處理,否則通信無(wú)效。曼徹斯特編碼通信模式在自適應(yīng)多叉樹防碰撞算法在出現(xiàn)本文標(biāo)簽碰撞時(shí),通過(guò)向自適應(yīng)算法重新傳回文本的最高碰撞數(shù)據(jù)和最低碰撞數(shù)據(jù)即可,不需要其他冗余的碰撞數(shù)據(jù),就可完成全部數(shù)據(jù)包的復(fù)盤,提高通信模式的通信效率。具體的短文本數(shù)據(jù)標(biāo)簽與閱讀器通信編碼的碰撞結(jié)構(gòu)示意圖如圖5所示。
圖5 短文本編碼通信碰撞原理結(jié)構(gòu)圖
在以上論述的基礎(chǔ)上,基于自適應(yīng)多叉樹防碰撞算法的智能客服NLP短文本分類模型的工作流程如下。
步驟一 開啟模型內(nèi)架構(gòu)工作的狀態(tài),獲取需要處理的短文本數(shù)據(jù),初始化所有數(shù)據(jù),利用自適應(yīng)多叉樹防碰撞算法的堆棧向模型發(fā)送分析命令。
步驟二 模型接收到短文本分類命令,按照架構(gòu)層次的功能依次對(duì)文本進(jìn)行序列處理,逐步輸出文本序列之間的依賴關(guān)系、文本的特征,集成特征標(biāo)簽,同時(shí),模型調(diào)用自適應(yīng)多叉樹防碰撞算法,實(shí)時(shí)監(jiān)控短文本模型內(nèi)所有的標(biāo)簽數(shù)據(jù)是否存在碰撞的趨勢(shì),一旦出現(xiàn)時(shí)隙碰撞、空閑碰撞和可讀時(shí)隙時(shí),立即調(diào)用自適應(yīng)多叉樹防碰撞算法進(jìn)行制約。
步驟三 調(diào)用多頭自注意層功能,對(duì)智能客服NLP短文本分類模型架構(gòu)輸出的短文本序列特征進(jìn)行有效劃分和解析,完成短文本的分類。對(duì)于文本分類的整個(gè)工作周期,自適應(yīng)防碰撞算法保持監(jiān)控狀態(tài),保證模型的正常運(yùn)行。
具體基于自適應(yīng)多叉樹防碰撞算法的智能客服NLP短文本分類模型如圖6所示。
圖6 分類模型的工作流程
通過(guò)以上分析,完成了基于自適應(yīng)多叉樹防碰撞算法的智能客服NLP短文本分類模型的設(shè)計(jì),為了檢驗(yàn)此模型對(duì)于短文本分類的工作效率和精確度,進(jìn)行對(duì)比實(shí)驗(yàn)。
選擇文獻(xiàn)[1]方法(傳統(tǒng)方法1)和文獻(xiàn)[2]方法(傳統(tǒng)方法2)輔助完成實(shí)驗(yàn)測(cè)試。在實(shí)驗(yàn)前需要搭建一個(gè)處理器為Windows 10的操作系統(tǒng),并且配置Internet 17高容錯(cuò)的處理器以及Pycharm的文字編譯平臺(tái)。
將3個(gè)模型導(dǎo)入待完成測(cè)試的計(jì)算機(jī),然后隨機(jī)采集某商家客服與用戶之間的交互短文本信息作為測(cè)試的樣本,形成短文本樣本,進(jìn)行實(shí)驗(yàn)測(cè)試后,對(duì)3個(gè)模型輸出的短文本分類結(jié)果進(jìn)行分析,具體的分析數(shù)據(jù)匯總?cè)绫?和圖7所示。
表1 實(shí)驗(yàn)結(jié)果
圖7 實(shí)驗(yàn)測(cè)試分類精度結(jié)果
綜合以上實(shí)驗(yàn)結(jié)果可知,本文方法的最終輸出準(zhǔn)確率和分類精度、召回率、反應(yīng)效率都高于其他2個(gè)傳統(tǒng)方法,表示本文方法的工作效率較高。因?yàn)楸疚姆椒ㄔ谳斎肓怂卸涛谋拘畔⒆止?jié)后,每個(gè)周期的調(diào)用字節(jié)為64字節(jié),學(xué)習(xí)速率為we5e-5,其同步進(jìn)行,可以保證模型的分類效率;利用自適應(yīng)多叉樹防碰撞算法提高短文本分類模型對(duì)于文本內(nèi)詞組和句子語(yǔ)義做捕獲分析,保證召回率;采用多頭自注意機(jī)制完成短文本內(nèi)容主題特征的提取,保證方法的準(zhǔn)確率和分類精度。
本文提出了一種基于自適應(yīng)多叉樹防碰撞算法的智能客服NLP短文本分類模型,由構(gòu)造詞嵌入層、多頭自注意層、輸出層以及卷積層構(gòu)成,依據(jù)自適應(yīng)多叉樹防碰撞算法的工作原理和內(nèi)容,重新傳回文本的最高碰撞數(shù)據(jù)和最低碰撞數(shù)據(jù),對(duì)于短文本數(shù)據(jù)信息具有較高的分析力,可以在保證準(zhǔn)確率和分類精度、召回率、反應(yīng)效率的基礎(chǔ)上,解決目前客服交互存在的問(wèn)題,保證客服的服務(wù)質(zhì)量。