陳 謙,徐興梅,陳 帥
(吉林農(nóng)業(yè)大學(xué)信息技術(shù)學(xué)院,吉林 長(zhǎng)春 130118)
近年來(lái),各個(gè)行業(yè)的用戶投訴數(shù)據(jù)數(shù)量已經(jīng)呈現(xiàn)出爆炸性上升的趨勢(shì),多用戶投訴數(shù)據(jù)流可以視為不確定數(shù)據(jù)流,隨著Internet技術(shù)的快速發(fā)展,信息資源日益豐富,但是那些隱藏在大批多用戶投訴的數(shù)據(jù)資源中的信息未能夠得到充分利用。隨著投訴信息的形式和內(nèi)容變得越來(lái)越繁瑣和混亂,現(xiàn)代社會(huì)對(duì)于利用投訴信息技術(shù)的水平和能力還需要進(jìn)行大幅度的改善和增強(qiáng)。如何通過(guò)挖掘和整合多個(gè)企業(yè)用戶投訴的數(shù)據(jù)資源中的有用知識(shí)和方法來(lái)改善企業(yè)的運(yùn)營(yíng)環(huán)境,滿足不同用戶的需要是現(xiàn)在亟待解決的問(wèn)題。在此背景下,對(duì)數(shù)據(jù)流聚類(lèi)算法進(jìn)行分析,成為了近年來(lái)的研究熱點(diǎn)。
文獻(xiàn)[1]提出了基于離群點(diǎn)檢測(cè)的不確定數(shù)據(jù)流聚類(lèi)算法,利用微聚類(lèi)把數(shù)據(jù)集分為若干個(gè)微聚類(lèi),利用信息熵微聚類(lèi)的過(guò)濾機(jī)制確定得到一個(gè)全局隔離群點(diǎn),對(duì)數(shù)據(jù)流進(jìn)行微聚類(lèi)后經(jīng)過(guò)判別距離確定得到一個(gè)局部隔離群點(diǎn),在數(shù)據(jù)流聚類(lèi)后經(jīng)過(guò)判別距離得到局部隔離群點(diǎn),完成不確定數(shù)據(jù)流的聚類(lèi);在相關(guān)學(xué)者研究的文獻(xiàn)[2]提出了基于密度峰值的改進(jìn)K-Means文本聚類(lèi)算法,針對(duì)企業(yè)在投訴時(shí)遇到的熱點(diǎn)話題,建立了一個(gè)企業(yè)特有的專(zhuān)門(mén)詞庫(kù),引入了向量空間模型對(duì)其進(jìn)行計(jì)算得出與分詞相近程度的部分,運(yùn)用高密度的峰值聚類(lèi)算法對(duì)其結(jié)果進(jìn)行了聚類(lèi)和分析。文獻(xiàn)[3]提出了基于改進(jìn)NSGA-Ⅲ的文本空間樹(shù)聚類(lèi)算法,首先需要對(duì)倒排文本空間中多目標(biāo)模型數(shù)據(jù)進(jìn)行分類(lèi),構(gòu)建倒排文本空間索引樹(shù)改進(jìn)非支配排序遺傳算法的求解過(guò)程,完成數(shù)據(jù)的聚類(lèi)。在傳統(tǒng)的數(shù)據(jù)聚類(lèi)處理方法中,缺乏對(duì)文本信息的挖掘?qū)е聼o(wú)法有效提取數(shù)據(jù),造成聚類(lèi)結(jié)果較差,因此,本文提出基于文本挖掘的多用戶投訴數(shù)據(jù)流聚類(lèi)算法。
從技術(shù)層面上來(lái)講,文本挖掘是一個(gè)多面性的研究領(lǐng)域,涉及含義挖掘、信息檢索、關(guān)鍵字處理、多字段篩查等眾多內(nèi)容。文本挖掘是一種高效率的挖掘工具,既能有效地提取深層次含義,還能夠?qū)ζ渲杏行У牟糠诌M(jìn)行精確處理[4,5]。文本聚類(lèi)技術(shù)應(yīng)用中的文本聚類(lèi)方式主要指將統(tǒng)一的數(shù)據(jù)對(duì)象經(jīng)過(guò)判斷,分為多種類(lèi)的方式,使得關(guān)鍵字之間存在著高度相近的含義,同時(shí)不同數(shù)據(jù)的含義又相反。聚類(lèi)的過(guò)程首先是文本特征提取的過(guò)程,在此基礎(chǔ)上,將相近關(guān)鍵字的文本對(duì)象分為同組,依次按照組別重新建立一個(gè)聚類(lèi)模型,根據(jù)所有描述聚類(lèi)的算法使用軟件描述方法來(lái)實(shí)現(xiàn)對(duì)聚類(lèi)的分析[6,7]。以上過(guò)程可以通過(guò)圖1進(jìn)行展示:
圖1 文本聚類(lèi)分析流程
圖1描述了文本聚類(lèi)分析過(guò)程,文本數(shù)據(jù)通過(guò)預(yù)處理后,再進(jìn)行聚類(lèi)分析可以大大提高文本挖掘的準(zhǔn)確性。
以文本挖掘技術(shù)原理為基礎(chǔ),選擇支持向量機(jī)作為文本聚類(lèi)模型構(gòu)建方法,支持向量機(jī)SVM(support vector machines)模型以空間上的相似程度來(lái)表達(dá)詞匯的相似程度,具有直觀易懂的優(yōu)勢(shì)[8,9]。運(yùn)用空間的向量計(jì)算法來(lái)分類(lèi)文本時(shí),文本之間的相似程度可以用空間向量來(lái)計(jì)算。計(jì)算剩余弦的距離是分析文本相似度度量的一種經(jīng)典方法,在SVM模型中,由于每個(gè)文本集的信息都必須轉(zhuǎn)換成計(jì)算機(jī)能夠進(jìn)行處理的各種多維數(shù)據(jù),整個(gè)計(jì)算機(jī)的文本集用一個(gè)空間矢量函數(shù)來(lái)表示。
對(duì)于一個(gè)文檔集D1=(T1,W1;T2,W2;…;Tn,Wn),由于Ti在一個(gè)文檔集合中很有可能會(huì)因?yàn)槠湎群蟠涡蚝椭貜?fù)性的關(guān)系而嚴(yán)重地影響到文本分析。為了使它直觀易懂,假定文檔Tk忽略了文檔的排列順序,并且不會(huì)被重復(fù)。這時(shí)n維坐標(biāo)可以表示成T1,T2,…,Tn,把權(quán)值W1,W2,…,Wn當(dāng)作一個(gè)對(duì)應(yīng)的位置和坐標(biāo),所以D1也可寫(xiě)成D2=(W1,W2,…,Wn)。SVM模型的構(gòu)造框圖如圖2所示:
圖2 SVM模型的構(gòu)造框圖
在用SVM方式來(lái)表示一個(gè)文本時(shí),首先需要對(duì)這個(gè)文本的形式進(jìn)行預(yù)處理,例如分詞;其次,用文本的特征降維來(lái)表示向量,以便將文檔的內(nèi)容轉(zhuǎn)換為形式,并構(gòu)造出一個(gè)特征向量。
2.3.1 多用戶投訴數(shù)據(jù)文本特征提取
文本挖掘中最重要的一步是文本特征提取,特征詞是通過(guò)分詞后的詞語(yǔ)組成的文檔中篩選出來(lái)的,因此,當(dāng)文本數(shù)據(jù)量大時(shí),相對(duì)應(yīng)篩選出的特征項(xiàng)就會(huì)對(duì)應(yīng)增加很多,導(dǎo)致特征模型維度很高,而大多數(shù)算法無(wú)法對(duì)維度高的向量空間加以計(jì)算,因此,需要對(duì)高維度的向量空間進(jìn)行降維工作,降維工作的進(jìn)行需要根據(jù)關(guān)鍵字的權(quán)值進(jìn)行,對(duì)特征項(xiàng)的總數(shù)進(jìn)行降維,并進(jìn)行特征選取工作,去除無(wú)關(guān)緊要的特征項(xiàng),保留對(duì)文本數(shù)據(jù)影響大的特征項(xiàng)。
特征選取工作的方法可以分為以下兩類(lèi),分別為綜合評(píng)估法和獨(dú)立評(píng)估法[10,11]。在獨(dú)立評(píng)估法的文本特征提取工作中默認(rèn)文本中的特征詞語(yǔ)之間相對(duì)獨(dú)立,沒(méi)有關(guān)聯(lián),通過(guò)一些評(píng)估方法對(duì)特征項(xiàng)進(jìn)行評(píng)估,對(duì)于中文文本而言,文本頻數(shù)法方法相對(duì)于信息增益法、信息互聯(lián)法更具有可靠性。獨(dú)立評(píng)估法一般應(yīng)用文本中具有關(guān)聯(lián)性的詞語(yǔ),在關(guān)聯(lián)性的影響下會(huì)對(duì)文本處理結(jié)果造成偏差,因此,需要用綜合評(píng)估法對(duì)有關(guān)聯(lián)性的詞語(yǔ)進(jìn)行分析變換與降維處理[12]。利用線性分析變換的方法提取特征分析的方法稱(chēng)為主成分分析法,具體公式如下
(1)
(2)
式中,D=(t1,t2,…,tm)′表示文檔,用U=(u1,u2,…,uq)′表示主成分,由于ui和uj(i≠j,j=1,2,…,q)互為不相關(guān),且u1是t1,t2,…,tm中最大數(shù)據(jù)差的主成分組合;而u2是t1,t2,…,tm中所有與u1不相關(guān)的數(shù)據(jù),用u1,u2,…,uq-1來(lái)表示主成分。同時(shí),與各特征根對(duì)應(yīng)的特征向量是(a1i,a2i,…,aqi)′。其中,變量i的有些特征項(xiàng)不具備主成分作用,將這些無(wú)用的主成分特征項(xiàng)去掉,這個(gè)過(guò)程即為特征降維。
2.3.2 文本之間的相似性度量
(3)
(4)
(5)
(6)
通過(guò)兩個(gè)向量的正弦相似度的范圍介于0-1間來(lái)判定建立的數(shù)據(jù)向量空間模型中的文本相似性。兩個(gè)文檔向量相似性度量結(jié)果為:
(7)
式中,x∩y表示兩個(gè)文檔具有相同特征的合集,x∪y表示兩個(gè)文檔所有內(nèi)容的全部合集,至此完成文本相似性度量的計(jì)算。
由于根據(jù)兩個(gè)文檔具有的相同特征集合判斷是否相似得出的結(jié)果比較籠統(tǒng),是非精確性的,因此,需要對(duì)數(shù)據(jù)流聚類(lèi)算法進(jìn)行優(yōu)化。優(yōu)化數(shù)據(jù)流聚類(lèi)算法是指通過(guò)對(duì)輸入數(shù)據(jù)的優(yōu)化輸出滿足條件的數(shù)據(jù),算法聚類(lèi)劃分圖如下所示
圖3 算法聚類(lèi)示意圖
在上圖所示的算法聚類(lèi)中,對(duì)每個(gè)聚類(lèi)對(duì)象的權(quán)重平衡均值中心點(diǎn)進(jìn)行計(jì)算得出每個(gè)聚類(lèi)對(duì)象與中心點(diǎn)之間的最大距離,并根據(jù)最小距離將其與相應(yīng)的聚類(lèi)對(duì)象進(jìn)行比較,將所有發(fā)生改變的聚類(lèi)中心對(duì)象按照優(yōu)化后的數(shù)據(jù)進(jìn)行重新計(jì)算。以上兩個(gè)步驟的過(guò)程是一次循環(huán)往復(fù),直至各個(gè)聚類(lèi)中心在進(jìn)行計(jì)算時(shí)不再有任何變動(dòng)。由此可以輸出一個(gè)滿足方差最小精度標(biāo)準(zhǔn)的k個(gè)聚類(lèi)個(gè)體,至此完成基于文本挖掘的多用戶投訴數(shù)據(jù)流聚類(lèi)算法設(shè)計(jì)。
為驗(yàn)證本文設(shè)計(jì)的基于文本挖掘的多用戶投訴數(shù)據(jù)流聚類(lèi)算法具有一定的有效性,需要設(shè)計(jì)實(shí)驗(yàn)進(jìn)行分析。
在實(shí)驗(yàn)中,選取某企業(yè)業(yè)務(wù)部門(mén)所提供的2019年度投訴工單共8314個(gè)。將上述的投訴工單添加一個(gè)符合高斯分布的概率,并劃分成4個(gè)不同的數(shù)據(jù)集聚類(lèi),數(shù)據(jù)集A中主要包括1247個(gè)工單,投訴的類(lèi)型包括5個(gè),數(shù)據(jù)集B中主要包括973個(gè)工單,投訴的類(lèi)型包括4個(gè),數(shù)據(jù)集C中主要包括1511個(gè)工單,投訴的類(lèi)型包括7個(gè),數(shù)據(jù)集D中主要包括1037個(gè)工單,包括4個(gè)投訴類(lèi)型,剩余的投訴工單將其視為訓(xùn)練集對(duì)所提算法進(jìn)行訓(xùn)練。以上投訴工單中共包括8類(lèi)投訴問(wèn)題,文本挖掘聚類(lèi)過(guò)程中,首先以投訴工單作為文本文檔庫(kù),經(jīng)過(guò)分詞、去停用詞、特征表示等預(yù)處理之后,得到文本向量集,再經(jīng)過(guò)聚類(lèi)分析得到結(jié)果,完成聚類(lèi)評(píng)價(jià)。測(cè)試語(yǔ)料庫(kù)如下圖4所示:
圖4 測(cè)試語(yǔ)料庫(kù)
在投訴工單訓(xùn)練集中生成特征詞后,將其轉(zhuǎn)換為文本特征向量。本文聚類(lèi)的過(guò)程中,選取兩個(gè)指標(biāo)作為聚類(lèi)性能的描述指標(biāo),一個(gè)是正確歸類(lèi)投訴工單數(shù)量在所有檢出數(shù)量的占比,也將其稱(chēng)之為聚類(lèi)準(zhǔn)確率,其計(jì)算公式如下
(8)
式中,Pj表示聚類(lèi)算法檢出的投訴工單數(shù),Ci表示人工分類(lèi)得到的數(shù)量。另一個(gè)性能描述指標(biāo)是正確歸類(lèi)投訴工單數(shù)量在該類(lèi)投訴工單總數(shù)的占比,也將其稱(chēng)之為聚類(lèi)召回率,計(jì)算公式如下
(9)
在聚類(lèi)算法的性能描述中,準(zhǔn)確率和召回率是相互制約的,將兩個(gè)指標(biāo)獨(dú)立進(jìn)行評(píng)判無(wú)法得到聚類(lèi)算法的真實(shí)聚類(lèi)性能,因此,將兩個(gè)指標(biāo)進(jìn)行綜合,得到一個(gè)可量化的F1測(cè)度指標(biāo)
(10)
F1測(cè)度值在0-100之間,越靠近1,說(shuō)明算法的聚類(lèi)性能越好。在上述的實(shí)驗(yàn)環(huán)境下,分別使用本文設(shè)計(jì)的基于文本挖掘的多用戶投訴數(shù)據(jù)流聚類(lèi)算法和傳統(tǒng)基于離群點(diǎn)檢測(cè)的不確定數(shù)據(jù)流聚類(lèi)算法(文獻(xiàn)[1]算法)和基于密度峰值的改進(jìn)K-Means文本聚類(lèi)算法(文獻(xiàn)[2]算法)進(jìn)行實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行比較。
經(jīng)過(guò)多次實(shí)驗(yàn),得到不同聚類(lèi)算法的投訴類(lèi)型聚類(lèi)指標(biāo)結(jié)果,具體如圖5所示。
圖5 不同算法的F1測(cè)度對(duì)比
從圖5中的F1測(cè)度情況可以看出,在誠(chéng)信投訴方面的聚類(lèi)中,本文算法稍差,在賬戶逾期、充值失敗和意外事故投訴中,所提算法與文獻(xiàn)[1]算法性能相近,在優(yōu)惠活動(dòng)、產(chǎn)品質(zhì)量、服務(wù)質(zhì)量以及發(fā)票問(wèn)題的投訴中,所提算法的聚類(lèi)性能優(yōu)于傳統(tǒng)算法,由此驗(yàn)證了所提算法在聚類(lèi)中具有的優(yōu)越性能。
本文從文本挖掘入手,深挖文本特征提取方法以及文本間相似性度量方法,對(duì)數(shù)據(jù)流進(jìn)行聚類(lèi)。在數(shù)據(jù)發(fā)達(dá)的當(dāng)今社會(huì)多用戶投訴數(shù)據(jù)的信息整合遠(yuǎn)沒(méi)有達(dá)到充分利用的程度,通過(guò)本文的分析可以高效地進(jìn)行多用戶投訴數(shù)據(jù)流聚類(lèi),以達(dá)到合理利用信息資源的目的。