梁浩波 林浩釗 封祐鈞
摘要:文本挖掘和聚類分析是數(shù)據(jù)挖掘的重要內(nèi)容之一,其應(yīng)用十分廣泛。本文首先對(duì)文本挖掘技術(shù)和聚類分析的基本概念進(jìn)行系統(tǒng)地歸納總結(jié),然后將文本挖掘和聚類分析技術(shù)應(yīng)用于信息服務(wù)事件的智能分析中,實(shí)現(xiàn)信息服務(wù)客戶群的細(xì)分以及信息系統(tǒng)熱點(diǎn)問(wèn)題發(fā)現(xiàn),從而大大提升信息服務(wù)水平。
關(guān)鍵詞:文本挖掘;聚類分析;信息服務(wù);客戶細(xì)分
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)20-0143-02
ITSM(IT服務(wù)管理),它是一套面向過(guò)程、以客戶為中心的規(guī)范的管理方法,它通過(guò)集成IT服務(wù)和業(yè)務(wù),協(xié)助企業(yè)提高其IT服務(wù)提供和支持能力,而ITSM服務(wù)管理系統(tǒng)則是ITSM方法論的系統(tǒng)實(shí)現(xiàn),具有變更管理、配置管理、請(qǐng)求管理、事件管理、知識(shí)管理等功能模塊。
ITSM服務(wù)管理系統(tǒng)中的事件管理模塊中詳細(xì)記錄了信息服務(wù)人員與企業(yè)員工問(wèn)題事件交互的信息,其中包括事件報(bào)告人、事件報(bào)告人部門、事件分類、事件描述等。但由于這些信息服務(wù)事件信息一般以文本方式存放,傳統(tǒng)的數(shù)據(jù)分析的工具和軟件無(wú)法對(duì)其內(nèi)容進(jìn)行分析,導(dǎo)致長(zhǎng)期以來(lái)信息服務(wù)事件描述所蘊(yùn)含的價(jià)值無(wú)法得以利用。本文綜合利用文本挖掘和聚類分析技術(shù),實(shí)現(xiàn)信息服務(wù)事件的智能分析,以實(shí)現(xiàn)信息服務(wù)水平的提升。
1 文本挖掘技術(shù)概述
文本挖掘又稱為文本數(shù)據(jù)挖掘或文本知識(shí)發(fā)現(xiàn),是指為了發(fā)現(xiàn)知識(shí),從文本數(shù)據(jù)中抽取隱含的、以前未知的、潛在有用的模式的過(guò)程,它是個(gè)分析文本數(shù)據(jù),抽取文本信息,進(jìn)而發(fā)現(xiàn)文本知識(shí)的過(guò)程。
文本挖掘的具體流程如圖1所示:
1)文本收集:在文本挖掘前應(yīng)盡可能尋找和檢索所有被認(rèn)為可能與當(dāng)前挖掘工作有關(guān)的文本。
2)文本分析:由于文本不僅是非結(jié)構(gòu)化或半結(jié)構(gòu)的,而且文本的內(nèi)容是人類所使用的自然語(yǔ)言,所以文本如果不經(jīng)過(guò)特別加工,數(shù)據(jù)挖掘技術(shù)無(wú)法直接應(yīng)用于其上。文本分析首先要提取文本的特征,然后再結(jié)構(gòu)化表示這些特征。
3)特征選擇:經(jīng)過(guò)文本分析得到的特征有必要進(jìn)行特征選擇, 以降低特征的維數(shù)。通過(guò)特征選擇, 就可以得到代表文檔集合的有效的、精簡(jiǎn)的特征子集, 并在此基礎(chǔ)上開展各種文檔挖掘工作。
4)獲取知識(shí)模式:該階段的目標(biāo)是應(yīng)用有效的文本挖掘算法挖掘出一些有用的知識(shí)模式。這些知識(shí)模式主要包括: 文本總結(jié)、文本分類、聚類分析、關(guān)聯(lián)規(guī)則、趨勢(shì)預(yù)測(cè)等。
5)結(jié)果評(píng)價(jià):對(duì)文本挖掘算法發(fā)現(xiàn)的知識(shí)模式進(jìn)行評(píng)估。比較常用的評(píng)估方法有準(zhǔn)確率( Precision) 、召回率( Recall) 等。
圖1 文本挖掘工作流程圖
2 聚類分析技術(shù)概述
聚類就是對(duì)物理對(duì)象或抽象對(duì)象進(jìn)行分組的過(guò)程,所生成的組稱為簇,簇是數(shù)據(jù)對(duì)象的集合。簇內(nèi)部任意對(duì)象之間應(yīng)該具有較高的相似度,而屬于不同簇的兩個(gè)對(duì)象之間應(yīng)該具有較高的相異度。
一般而言,主要的基本聚類算法可以劃分為如下幾類:
1)基于劃分方法的聚類:給定一個(gè)n個(gè)對(duì)象的集合,劃分方法構(gòu)建數(shù)據(jù)的k個(gè)分區(qū),其中每個(gè)分區(qū)表示一個(gè)簇,并且k<=n。也就是說(shuō),它把數(shù)據(jù)劃分為k個(gè)組,使得每個(gè)組至少包含一個(gè)對(duì)象。大部分劃分方法是基于距離的。
2)基于層次方法的聚類:層次方法創(chuàng)建給定數(shù)據(jù)對(duì)象集的層次分解。根據(jù)層次分解如何形成,層次方法可以分為凝聚的或分裂的方法。
3)基于密度方法的聚類:其主要思想是只要“鄰域”中的密度(對(duì)象或數(shù)據(jù)點(diǎn)的數(shù)目)超過(guò)某個(gè)閾值,就繼續(xù)增長(zhǎng)給定的簇。這樣的方法可以用來(lái)過(guò)濾噪聲或離群點(diǎn),發(fā)現(xiàn)任意形狀的簇。
4)基于網(wǎng)格方法的聚類:把對(duì)象空間量化為有限個(gè)單元,形成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu),所有的聚類操作都在這個(gè)網(wǎng)格結(jié)構(gòu)(即量化空間)上進(jìn)行。
3 信息服務(wù)事件智能分析應(yīng)用
ITSM信息服務(wù)系統(tǒng)詳細(xì)記錄了信息服務(wù)人員與企業(yè)員工問(wèn)題事件交互的詳細(xì)信息,其中包括事件報(bào)告人、事件報(bào)告人部門、事件分類、事件描述等。為挖掘信息服務(wù)事件所蘊(yùn)含的價(jià)值,一方面通過(guò)聚類分析實(shí)現(xiàn)信息服務(wù)客戶群細(xì)分,獲取各客戶群的信息服務(wù)需求特征,有助于為各客戶群提供個(gè)性化信息服務(wù);另一方面,獲取各主營(yíng)業(yè)務(wù)系統(tǒng)熱點(diǎn)問(wèn)題,可作為日后業(yè)務(wù)系統(tǒng)培訓(xùn)的重點(diǎn)內(nèi)容,使系統(tǒng)培訓(xùn)更具有針對(duì)性。
3.1 聚類分析實(shí)現(xiàn)信息服務(wù)客戶群細(xì)分
實(shí)現(xiàn)思路:以各部門對(duì)各主營(yíng)業(yè)務(wù)系統(tǒng)的信息服務(wù)報(bào)障數(shù)作為客戶細(xì)分的重要指標(biāo),利用聚類分析技術(shù)以部門為對(duì)象進(jìn)行客戶群劃分。
客戶細(xì)分實(shí)現(xiàn)過(guò)程如圖2所示:
1)數(shù)據(jù)準(zhǔn)備:從ITSM服務(wù)管理系統(tǒng)中導(dǎo)出某指定時(shí)間段的ITSM事件單;包括事件ID、事件報(bào)告人、事件報(bào)告部門、事件性質(zhì)、事件類別等字段信息。
2)數(shù)據(jù)預(yù)處理:采用數(shù)據(jù)清理、數(shù)據(jù)歸約、數(shù)據(jù)變換等多種數(shù)據(jù)預(yù)處理技術(shù),解決現(xiàn)實(shí)數(shù)據(jù)中存在不完整的、不正確的或含噪聲的、不一致的問(wèn)題,提高數(shù)據(jù)質(zhì)量。
3)特征選?。喊凑帐录悇e,以部門為單位,匯總統(tǒng)計(jì)出各部門各業(yè)務(wù)系統(tǒng)的報(bào)障數(shù),用于標(biāo)識(shí)各部門的特征。
4)聚類分析:將每個(gè)部門單位看作是一個(gè)獨(dú)立的對(duì)象,該部門單位各業(yè)務(wù)系統(tǒng)報(bào)障數(shù)看作是該對(duì)象的屬性值,各對(duì)象的相異度則根據(jù)描述對(duì)象的屬性值進(jìn)行計(jì)算。在本實(shí)驗(yàn)中,采用k-means聚類算法(相異度采用的度量指標(biāo)是對(duì)象間的距離),根據(jù)各部門單位的業(yè)務(wù)系統(tǒng)報(bào)障數(shù)的特點(diǎn),進(jìn)行信息服務(wù)客戶群的細(xì)分,得到客戶群細(xì)分結(jié)果。
模型應(yīng)用前景:通過(guò)聚類;分析對(duì)信息服務(wù)群進(jìn)行細(xì)分,同一客戶群的部門單位具有相似的信息服務(wù)需求特征,有助于日后為各客戶群提供個(gè)性化信息服務(wù),提升客戶體驗(yàn)。
圖2 客戶細(xì)分實(shí)現(xiàn)過(guò)程
3.2 文本挖掘歸納業(yè)務(wù)系統(tǒng)最熱點(diǎn)問(wèn)題
實(shí)現(xiàn)思路:ITSM中有關(guān)業(yè)務(wù)系統(tǒng)咨詢問(wèn)題是以文本方式存放,而中文語(yǔ)句無(wú)法用一般統(tǒng)計(jì)軟件進(jìn)行簡(jiǎn)單的數(shù)量統(tǒng)計(jì)。本文基于中文文本挖掘技術(shù),實(shí)現(xiàn)對(duì)業(yè)務(wù)系統(tǒng)咨詢問(wèn)題的自動(dòng)分類(簡(jiǎn)稱“文本聚類”)。根據(jù)聚類后的結(jié)果,統(tǒng)計(jì)各類事件的出現(xiàn)頻數(shù),從而得到各業(yè)務(wù)系統(tǒng)的熱點(diǎn)問(wèn)題。
業(yè)務(wù)系統(tǒng)熱點(diǎn)問(wèn)題挖掘?qū)崿F(xiàn)過(guò)程如圖3所示:
1)數(shù)據(jù)準(zhǔn)備:從ITSM服務(wù)管理系統(tǒng)中導(dǎo)出某指定時(shí)間段的ITSM事件單;包括事件ID、事件報(bào)告人、事件報(bào)告部門、事件性質(zhì)、事件類別等字段信息。
2)數(shù)據(jù)整理:根據(jù)事件類別字段,將涉及某一指定業(yè)務(wù)系統(tǒng)的所有事件的描述信息匯總,得到一個(gè)文本文件。
3)文本聚類:首先采用IK Analyzer工具包對(duì)文本文件進(jìn)行中文分詞,并通過(guò)詞頻統(tǒng)計(jì)提取出關(guān)鍵詞。然后將提取的關(guān)鍵詞作為事件描述的聚類特征,并給每個(gè)事件添加“類標(biāo)簽”。
4)頻數(shù)統(tǒng)計(jì):根據(jù)事件的“類標(biāo)簽”進(jìn)行事件頻數(shù)統(tǒng)計(jì),并根據(jù)業(yè)務(wù)知識(shí)得到各業(yè)務(wù)系統(tǒng)熱點(diǎn)問(wèn)題。
模型應(yīng)用前景:通過(guò)文本挖掘技術(shù)得到各主營(yíng)業(yè)務(wù)系統(tǒng)熱點(diǎn)問(wèn)題,可作為日后業(yè)務(wù)系統(tǒng)培訓(xùn)的重點(diǎn)內(nèi)容,使系統(tǒng)培訓(xùn)更具針對(duì)性,提高系統(tǒng)培訓(xùn)效果。
圖3 業(yè)務(wù)系統(tǒng)熱點(diǎn)問(wèn)題挖掘過(guò)程
4 結(jié)語(yǔ)
通過(guò)文本挖掘和聚類分析等數(shù)據(jù)挖掘技術(shù),一方面對(duì)信息服務(wù)群進(jìn)行細(xì)分,獲取各客戶群的信息服務(wù)需求特征,有助于為各客戶群提供個(gè)性化信息服務(wù);另一方面獲取各主營(yíng)業(yè)務(wù)系統(tǒng)熱點(diǎn)問(wèn)題,可作為日后主營(yíng)業(yè)務(wù)系統(tǒng)培訓(xùn)的重點(diǎn)內(nèi)容,使系統(tǒng)培訓(xùn)更具有針對(duì)性,并提高系統(tǒng)培訓(xùn)效果。上述兩個(gè)措施,能有效地幫助信息服務(wù)人員了解用戶對(duì)信息服務(wù)更深層次、更真實(shí)的需求,有助于提升信息服務(wù)人員服務(wù)能力,進(jìn)一步提高信息服務(wù)質(zhì)量。
參考文獻(xiàn):
[1] 諶志群, 張國(guó)煊. 文本挖掘研究進(jìn)展[J]. 模式識(shí)別與人工智能, 2005,18(1):66-74.
[2] 程志, 黃榮懷. 文本挖掘及其教育應(yīng)用[J]. 現(xiàn)代遠(yuǎn)距離教育, 2008(2):71-73.
[3] 諶志群, 張國(guó)煊. 文本挖掘與中文文本挖掘模型研究[J]. 情報(bào)科學(xué), 2007, 25(7):1047-1051.
[4] 唐守忠. 文本挖掘關(guān)鍵技術(shù)研究[D]. 北京: 北京林業(yè)大學(xué), 2013.
[5] Feldman R,Hirsh H,Dagan I. Mining Text Using Keyword Distributions[J]. Journal of Intelligent Information Systems, 1998, 10(3): 281-300.