陳 林
(福建中醫(yī)藥大學(xué)人文與管理學(xué)院,福建 福州 350108)
改進(jìn)的GHSOM算法在文本聚類(lèi)中的應(yīng)用
陳 林
(福建中醫(yī)藥大學(xué)人文與管理學(xué)院,福建 福州 350108)
信息時(shí)代,文本信息極其巨大。本文運(yùn)用一種改進(jìn)GHSOM算法進(jìn)行文本聚類(lèi),該算法具有顯著的文本聚類(lèi)能力,能夠?qū)⑽谋镜南嗨菩杂枚喾N手段表現(xiàn)。實(shí)驗(yàn)結(jié)果表明改進(jìn)GHSOM算法整體上是優(yōu)于SOM算法,它的先進(jìn)性主要體現(xiàn)在更短的計(jì)算時(shí)間,并提供更豐富的有序性表達(dá)能力。
文本聚類(lèi);成長(zhǎng)型分級(jí)自組織映射;SOM
信息時(shí)代信息量極大,可以用“信息爆炸”來(lái)形容,對(duì)信息的查詢、存取、處理都要前期對(duì)信息進(jìn)行分類(lèi)處理。在浩如煙海的信息中,文本信息占據(jù)的比重較大,同時(shí)很多其他的信息也可以轉(zhuǎn)換成文本或者以文本的某種形式體現(xiàn),而這些信息的處理可以歸結(jié)為文本分類(lèi)問(wèn)題。如何從這些繁多的文本信息中找到滿足用戶的文本信息是文本挖掘的重要研究?jī)?nèi)容。利用文本聚類(lèi)將文本進(jìn)行自動(dòng)分類(lèi)是解決這類(lèi)問(wèn)題的重要手段。眾多學(xué)者對(duì)文本聚類(lèi)算法進(jìn)行了研究,取得了很多成果[1~8]。文本聚類(lèi)的基本思想就是通過(guò)計(jì)算文本間的相似度,將文本劃分成若干個(gè)子類(lèi),使得同一子類(lèi)中文本盡可能相似,而不同子類(lèi)中的文本盡可能不同。文本聚類(lèi)已得到廣泛的應(yīng)用,比如數(shù)據(jù)挖掘、信息檢索等方面[4]。
本文針對(duì)文本聚類(lèi)問(wèn)題,提出一種改進(jìn)的成長(zhǎng)型分級(jí)自組織映射(Growing Hierarchical Self-organizing Map,GHSOM)算法處理[9~11]。實(shí)驗(yàn)顯示改進(jìn)的GHSOM算法具有明顯的文本聚類(lèi)能力,能夠?qū)⑽谋镜南嗨菩杂枚喾N手段表現(xiàn)。將最相似的文本映射到同一神經(jīng)元,同一映射相鄰神經(jīng)元、不同映射間由全局導(dǎo)向作用導(dǎo)致的相鄰也都體現(xiàn)著一定程度的相似性。改進(jìn)GHSOM算法整體上是優(yōu)于SOM算法[12~15],它的先進(jìn)性主要體現(xiàn)在更短的計(jì)算時(shí)間,并提供更豐富的有序性表達(dá)能力。
2.1 GHSOM原理
GHSOM是多層分級(jí)結(jié)構(gòu),每一層包含數(shù)個(gè)獨(dú)立的成長(zhǎng)型SOM,通過(guò)增長(zhǎng)規(guī)模來(lái)在一定詳細(xì)程度上描述數(shù)據(jù)集。表示過(guò)分復(fù)雜數(shù)據(jù)的神經(jīng)元被擴(kuò)展,在下層形成一個(gè)小的成長(zhǎng)型SOM,而表示一個(gè)相似數(shù)據(jù)集的單元將不需要進(jìn)一步擴(kuò)展。因此,通過(guò)它特有的結(jié)構(gòu)與數(shù)據(jù)固有的分級(jí)結(jié)構(gòu),GHSOM的結(jié)果更加反映出它的適應(yīng)性。
在圖1中給出了GHSOM的典型結(jié)構(gòu)。第一層映射提供輸入數(shù)據(jù)中主要聚類(lèi)的粗略組織。在第二層中的六個(gè)單獨(dú)的SOM提供數(shù)據(jù)的更詳細(xì)的表示。值得注意的是,由于數(shù)據(jù)結(jié)構(gòu)的不同,映射的規(guī)模也不同。第0層為虛擬映射,為成長(zhǎng)過(guò)程提供服務(wù)。
圖1 GHSOM的典型結(jié)構(gòu)
2.2 GHSOM核心算法流程
根據(jù)GHSOM的原理,設(shè)計(jì)了算法的主要步驟如下:
(1)計(jì)算第0層單元的量化誤差qe,計(jì)算式如下:
其中,C0為映射到第0層單元上的輸入向量集,即為全部向量集;m0代表輸入向量的平均值。
(2)構(gòu)建第1層映射為2*2個(gè)單元的SOM,采用K-means方法對(duì)向量權(quán)值進(jìn)行初始化,并設(shè)置此網(wǎng)絡(luò)為活動(dòng)網(wǎng)絡(luò),活動(dòng)網(wǎng)絡(luò)層級(jí)數(shù)為1,訓(xùn)練數(shù)據(jù)集為全部數(shù)據(jù)集[11]。
(3)使用SOM訓(xùn)練算法訓(xùn)練活動(dòng)網(wǎng)絡(luò)。
(4)計(jì)算活動(dòng)網(wǎng)絡(luò)內(nèi)所有神經(jīng)元的量化誤差qei,并根據(jù)平均量化誤差MQE定義式:
計(jì)算當(dāng)前網(wǎng)絡(luò)的MQEm值。其中,m為活動(dòng)網(wǎng)絡(luò)所在層級(jí)數(shù),qei出自數(shù)據(jù)投射到的映射單元的子集μ。
(5)驗(yàn)證級(jí)內(nèi)終止條件:MQEm<τ1·qeu,其中,qeu是相應(yīng)的上層單元的量化誤差。條件成立時(shí),轉(zhuǎn)第7步。
(6)選取活動(dòng)網(wǎng)絡(luò)中qe值最大的單元,標(biāo)記為錯(cuò)誤單元e。然后按下式得到最相異的鄰居d:d=argmax(‖ ‖me-mi), mi∈Ne,其中Νe是e的鄰居集。在e和d之間插入一行新的單元,重置SOM參數(shù),轉(zhuǎn)第3步。
(7)對(duì)活動(dòng)網(wǎng)絡(luò)單元逐個(gè)驗(yàn)證全局終止條件:qei<τ2·qe0。發(fā)現(xiàn)不滿足條件的單元時(shí),計(jì)算該單元四個(gè)鄰居的模型向量值,然后構(gòu)建以此四個(gè)向量值為初始值的2*2新映射網(wǎng)絡(luò),并設(shè)置新建網(wǎng)絡(luò)為活動(dòng)網(wǎng)絡(luò),層級(jí)數(shù)加1。將映射在該單元上的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),轉(zhuǎn)第3步。
(8)完成一個(gè)活動(dòng)網(wǎng)絡(luò)的驗(yàn)證時(shí),將此網(wǎng)絡(luò)父親單元所在網(wǎng)絡(luò)設(shè)置為活動(dòng)網(wǎng)絡(luò),層級(jí)數(shù)為1時(shí)結(jié)束。否則,層級(jí)數(shù)減1,轉(zhuǎn)第7步。
上述算法步驟僅僅列出了GHSOM網(wǎng)絡(luò)的構(gòu)建和訓(xùn)練過(guò)程,不包含對(duì)數(shù)據(jù)的預(yù)處理以及輸入輸出操作。
2.3 GHSOM算法實(shí)現(xiàn)的改進(jìn)
為了完善和改進(jìn)GHSOM算法,以得到更好的性能,本文提出了以下改進(jìn)方法:
(1)使用自定義的映射結(jié)構(gòu)和相應(yīng)的訓(xùn)練函數(shù)。本文中算法實(shí)現(xiàn)時(shí)GHSOM結(jié)構(gòu)中每一個(gè)映射都是由一個(gè)SOM網(wǎng)絡(luò)結(jié)構(gòu)和其它相關(guān)信息組成的結(jié)構(gòu)體表示的,這其中SOM網(wǎng)絡(luò)結(jié)構(gòu)包含了在GHSOM算法中并無(wú)用處的數(shù)據(jù)項(xiàng)和函數(shù),使用自定義的映射結(jié)構(gòu),可以更貼近GHSOM算法中各個(gè)函數(shù)的需要,這樣不但可以明確映射結(jié)構(gòu)包含的數(shù)據(jù)項(xiàng)內(nèi)容,有效防止計(jì)算中意外情況的發(fā)生(如未使用數(shù)據(jù)默認(rèn)值對(duì)計(jì)算的影響),而且可以提供以下所有改進(jìn)意見(jiàn)中對(duì)數(shù)據(jù)結(jié)構(gòu)支持的要求。此處訓(xùn)練函數(shù)指的是一層映射的訓(xùn)練函數(shù),即是用自定義的函數(shù)代替原算法實(shí)現(xiàn)中SOM的標(biāo)準(zhǔn)訓(xùn)練函數(shù)。采用自定義的函數(shù)的最大好處就是可以充分利用GHSOM的特點(diǎn),加快訓(xùn)練時(shí)的計(jì)算速度。
(2)從算法流程的角度改進(jìn),可以將本文中采用的深度優(yōu)先的結(jié)構(gòu)構(gòu)建過(guò)程改為廣度優(yōu)先的構(gòu)建過(guò)程。這樣處理需要對(duì)訓(xùn)練過(guò)程中的數(shù)據(jù)保存和內(nèi)存使用進(jìn)行合理的安排,否則算法將出現(xiàn)邏輯錯(cuò)誤。改為廣度優(yōu)先的構(gòu)建方法的一個(gè)最大優(yōu)勢(shì)在于提供繼續(xù)計(jì)算功能,即首先設(shè)定全局成長(zhǎng)參數(shù)為比較大的數(shù)值,使GHSOM成長(zhǎng)過(guò)程在聚類(lèi)精度較粗時(shí)暫時(shí)停止計(jì)算,經(jīng)過(guò)人工檢驗(yàn)不滿意時(shí),再將全局成長(zhǎng)參數(shù)設(shè)置得更小一些,并以先前計(jì)算得到的GHSOM網(wǎng)絡(luò)結(jié)構(gòu)為初始繼續(xù)進(jìn)行計(jì)算。
(3)根據(jù)耗散結(jié)構(gòu)論理論,系統(tǒng)有序結(jié)構(gòu)形成過(guò)程中,“負(fù)熵流”起到的作用至關(guān)重要,而信息即可以看作一種典型的“負(fù)熵流”。如在上述GHSOM結(jié)構(gòu)形成過(guò)程中,僅僅依靠了程序設(shè)置參數(shù)的信息和映射中每個(gè)神經(jīng)元權(quán)值向量的量化誤差信息。由此可以想到,只要在有序結(jié)構(gòu)的形成過(guò)程中提供更多的信息,就可以得到有序程度更高的結(jié)構(gòu)。舉例來(lái)說(shuō),在上述GHSOM算法中,上層映射向下層映射轉(zhuǎn)移的過(guò)程中,數(shù)據(jù)樣本向量要進(jìn)行刪減,在算法中刪減掉的特征值未發(fā)揮作用。仔細(xì)分析發(fā)現(xiàn),這些刪減掉的特征值實(shí)際是對(duì)上層映射起到重要作用的特征值,即具有這些特征的數(shù)據(jù)樣本很可能屬于刪減這些特征的上層映射。如果將刪減信息傳遞給上層映射,并利用此信息對(duì)以后的聚類(lèi)提供導(dǎo)向性信息,則可以加快訓(xùn)練的速度。
程序訓(xùn)練使用的數(shù)據(jù)集為NSF(The National Science Foundation國(guó)家科學(xué)基金會(huì))在基礎(chǔ)研究領(lǐng)域授獎(jiǎng)情況(1990-2013)的摘要描述文集。每一篇摘要保存為一個(gè)文件,這些文件以NSF標(biāo)準(zhǔn)的摘要格式存儲(chǔ)。這些摘要文件集經(jīng)過(guò)名為NSFAbst的文本自動(dòng)分析器處理,輸出四個(gè)文本文件。程序訓(xùn)練所采用的數(shù)據(jù)集為docwords.txt文件,其內(nèi)容與格式如下:
docwords.txt=docid wordid freq (e.g.,1 9792 1)
其中,docid表示摘要文件的被處理時(shí)的編號(hào);wordid表示關(guān)鍵詞編號(hào),編號(hào)從文件word.txt中獲得;freq表示關(guān)鍵詞在相應(yīng)摘要中出現(xiàn)的次數(shù)。
算法中,程序用docid代表文本,在聚類(lèi)效果檢查時(shí),使用idnsfid.txt文件查找得到文本的NSF編號(hào),進(jìn)行人工聚類(lèi)效果檢查。
GHSOM算法實(shí)現(xiàn)程序要求輸入數(shù)據(jù)為一個(gè)二維數(shù)組,其中列向量表示一個(gè)個(gè)數(shù)據(jù)樣本。原始的輸入數(shù)據(jù)樣本集不是滿足這一要求的,因此要對(duì)輸入數(shù)據(jù)進(jìn)行處理以便滿足程序要求,同時(shí),應(yīng)該盡量保證更好的訓(xùn)練效果。
本次實(shí)驗(yàn)所用的數(shù)據(jù)集文件docwords.txt剛好符合稀疏數(shù)組的形式;另外,本數(shù)據(jù)集每一文本中只包含數(shù)百單詞,而作為關(guān)鍵詞出現(xiàn)的單詞數(shù)目高達(dá)數(shù)千并接近一萬(wàn),最終以向量表示文本時(shí),存在固有的稀疏特性。因此可以使用標(biāo)準(zhǔn)的稀疏數(shù)組生成函數(shù)來(lái)處理輸入數(shù)據(jù)集文件,得到程序輸入要求的fulldata.mat數(shù)據(jù)文件。
此時(shí)輸入數(shù)據(jù)的向量表示包含了大量的特征值,即向量長(zhǎng)度都很長(zhǎng)。數(shù)據(jù)向量包含的特征值過(guò)多時(shí),一方面會(huì)增大計(jì)算量,也就降低了計(jì)算速度;另一方面,由于在算法中每個(gè)特征值的權(quán)重是相同的,大量對(duì)聚類(lèi)效果不大的特征值的存在,可能會(huì)干擾正常的聚類(lèi)計(jì)算。因此,在輸入數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練之前,應(yīng)該先對(duì)輸入數(shù)據(jù)的特征值進(jìn)行選擇。
在特征值的選擇上,我們刪減出現(xiàn)概率過(guò)高和過(guò)低的特征,因?yàn)檫@些特征對(duì)聚類(lèi)的貢獻(xiàn)相對(duì)比較小(從信息量角度)。
4.1 文本聚類(lèi)結(jié)果
在本文實(shí)驗(yàn)時(shí),訓(xùn)練數(shù)據(jù)樣本數(shù)目采用100個(gè)。由于數(shù)據(jù)樣本中前14個(gè)存在噪音,因此修改程序,取編號(hào)101-200的樣本。
刪減樣本向量長(zhǎng)度時(shí),采用的特征值概率上下限分別為:0.5和0.03,即僅僅保留在3篇摘要以上、50篇摘要以下出現(xiàn)的特征。經(jīng)過(guò)刪減后,輸入數(shù)據(jù)樣本轉(zhuǎn)換為594*100的二維數(shù)組。成長(zhǎng)參數(shù)采用默認(rèn)值:層內(nèi)成長(zhǎng)參數(shù)τ2=0.15,全局成長(zhǎng)參數(shù)τ1=0.03,訓(xùn)練后得到如圖2的分級(jí)結(jié)構(gòu)。整個(gè)計(jì)算過(guò)程用時(shí)大約為100秒至110秒。
圖2 GHSOM算法得到的文本分級(jí)結(jié)構(gòu)
計(jì)算得到的GHSOM結(jié)構(gòu)共有三級(jí),第一級(jí)為2*4映射,第二級(jí)多數(shù)為2*3映射,只有2個(gè)為2*2映射,第三級(jí)只在個(gè)別位置出現(xiàn),絕大多數(shù)為2*2映射。整個(gè)GHSOM結(jié)構(gòu)中共有70個(gè)葉神經(jīng)元節(jié)點(diǎn)(即不再擴(kuò)展子映射的節(jié)點(diǎn)),其中有10個(gè)節(jié)點(diǎn)為沒(méi)有文本映射在上面的死節(jié)點(diǎn)。
為了能夠與普通的SOM算法進(jìn)行對(duì)比,在本次實(shí)驗(yàn)中,還編寫(xiě)了使用SOM標(biāo)準(zhǔn)算法解決此文本聚類(lèi)問(wèn)題的程序。
在使用SOM算法時(shí),將SOM網(wǎng)絡(luò)規(guī)模定義為7*10(根據(jù)GHSOM結(jié)果),并采用與GHSOM相同的迭代次數(shù)。SOM整個(gè)算法實(shí)現(xiàn)就是一系列的命令調(diào)用,本文將其全部保存于imsom.m文件。利用與GHSOM中函數(shù)visualmap()類(lèi)似的方法,編寫(xiě)了SOM聚類(lèi)結(jié)果的圖表輸出函數(shù)visualsom(),得到如圖3的聚類(lèi)結(jié)果圖表。
圖3 SOM算法得到的文本聚類(lèi)
使用SOM算法進(jìn)行訓(xùn)練時(shí),使用與上面GHSOM算法時(shí)相同的訓(xùn)練數(shù)據(jù),最終計(jì)算時(shí)間大約為160秒至170秒。
4.2 聚類(lèi)效果分析
由于是進(jìn)行的文本聚類(lèi)計(jì)算,沒(méi)有期望的分類(lèi)對(duì)計(jì)算的結(jié)果進(jìn)行定量的檢驗(yàn)。本次實(shí)驗(yàn)在檢驗(yàn)聚類(lèi)結(jié)果時(shí),將程序運(yùn)行所用數(shù)據(jù)調(diào)出,由人工定性檢查GHSOM網(wǎng)絡(luò)的聚類(lèi)效果。
在檢驗(yàn)聚類(lèi)結(jié)果之前,先規(guī)定每一映射中神經(jīng)元的編號(hào)。由于分級(jí)結(jié)構(gòu)的存在,低層級(jí)中神經(jīng)元的編號(hào)中包含其父親神經(jīng)元的編號(hào),不同層級(jí)間用→隔開(kāi)。同一映射中,神經(jīng)元的編號(hào)自左下向右上依次編號(hào)為1、2、……,如圖4。
圖4 神經(jīng)元編號(hào)
按此編號(hào)方法,GHSOM分級(jí)結(jié)構(gòu)中,左下角包含61的神經(jīng)元編號(hào)為[1→1],包含52的神經(jīng)元編號(hào)為[1→3→4],右上角包含99的神經(jīng)元編號(hào)為[8→6→4]。
觀察分級(jí)映射的左上角[7→4],有三個(gè)文本(14 15 21)聚類(lèi)為一類(lèi),為2級(jí)映射神經(jīng)元,這三篇摘要實(shí)際上是針對(duì)同一個(gè)獎(jiǎng)項(xiàng)的摘要。此映射下面有四個(gè)3級(jí)映射神經(jīng)元(由神經(jīng)元[7→2]擴(kuò)展得到),代表的四篇摘要均是關(guān)于大學(xué)內(nèi)的計(jì)算機(jī)相關(guān)系統(tǒng),但是具體內(nèi)容有所差別。由此看來(lái),盡管[7→4]、[7→2]兩個(gè)神經(jīng)元相鄰,它們代表的摘要內(nèi)容相似性卻很差,造成這種情況的原因主要是因?yàn)閇7→4]代表的內(nèi)容過(guò)于特別,而沒(méi)有與之相似的文本。
神經(jīng)元[1→4]內(nèi)容為北太平洋新生代板塊模型和馬爾代夫周?chē)h(huán)境和沉積物研究,均屬于地殼研究?jī)?nèi)容;它的右邊神經(jīng)元[1→5]內(nèi)容為東太平洋的地震攝影術(shù)研究,也涉及地殼研究?jī)?nèi)容;它的上面神經(jīng)元[3→1]則是關(guān)于大氣層熱量與紫外線研究,與地殼研究相關(guān)性不大。由此可以看出,同一映射下相鄰關(guān)系鄰近度要高于全局導(dǎo)向的鄰近度。神經(jīng)元[1→1]內(nèi)容為海洋生態(tài)系統(tǒng)中捕食者間的相互作用研究,它的右側(cè)[1→2]內(nèi)容為海洋漂流物研究和海洋表面水域的研究,這兩個(gè)神經(jīng)元間內(nèi)容相似性較強(qiáng),但是與神經(jīng)元[1→4]的相似性僅僅體現(xiàn)在研究領(lǐng)域中均出現(xiàn)了太平洋。由此可以看出,GHSOM算法也可能導(dǎo)致專(zhuān)斷的劃分,即將兩個(gè)相似程度不高的兩類(lèi)強(qiáng)行聚類(lèi)成相鄰關(guān)系。
神經(jīng)元[4]擴(kuò)展成的映射包含密度最大的文本,神經(jīng)元[4→1]包括的內(nèi)容有DNA變異研究、幾何變形容忍、機(jī)械加工容忍、機(jī)器人動(dòng)作計(jì)劃,這四篇文章雖然研究領(lǐng)域各異,但主要內(nèi)容均是從幾何學(xué)出發(fā),說(shuō)明聚類(lèi)算法是一種按內(nèi)容分類(lèi)的方法。向右方,神經(jīng)元[4→2→1]為機(jī)器人任務(wù)分派算法,神經(jīng)元[4→2→3]為隨機(jī)網(wǎng)絡(luò)產(chǎn)量?jī)?yōu)化算法,這都是數(shù)學(xué)問(wèn)題。向上方,神經(jīng)元[4→3]是關(guān)于物理學(xué)中表面現(xiàn)象的研究,再向上,神經(jīng)元[4→5]都是幾何學(xué)在特殊領(lǐng)域中的應(yīng)用。而它們的右邊,有的文本聚類(lèi)的結(jié)果并不理想,文本37、78都涉及了地殼的內(nèi)容,即與主要研究地殼的左下角神經(jīng)元相距較遠(yuǎn)。因此,GHSOM算法依然存在相似聚類(lèi)間聯(lián)系丟失的問(wèn)題。
綜上所述,GHSOM算法具有明顯的文本聚類(lèi)能力,能夠?qū)⑽谋镜南嗨菩杂枚喾N手段表現(xiàn)。將最相似的文本映射到同一神經(jīng)元,同一映射相鄰神經(jīng)元、不同映射間由全局導(dǎo)向作用導(dǎo)致的相鄰也都體現(xiàn)著一定程度的相似性。不同級(jí)別的映射也體現(xiàn)了不同程度的相似性,低級(jí)別的相鄰神經(jīng)元體現(xiàn)了更高的相似性,如3級(jí)神經(jīng)元相鄰的相似性要高于2級(jí)相鄰。GHSOM算法也存在問(wèn)題,首先是對(duì)于獨(dú)特的文本,算法會(huì)專(zhuān)斷地將其與某類(lèi)文本相鄰。這個(gè)問(wèn)題更可能出現(xiàn)在少量文本聚類(lèi)問(wèn)題中,因?yàn)樵诤A课谋局胁粫?huì)出現(xiàn)“獨(dú)特”的文本。其次,GHSOM表現(xiàn)相似性能力只能以樹(shù)型方式,比起網(wǎng)絡(luò)狀還有一定差距,因此會(huì)造成部分子聚類(lèi)間聯(lián)系無(wú)法體現(xiàn)。
與SOM算法對(duì)比,SOM算法在已經(jīng)知道合適的網(wǎng)絡(luò)(70)的情況下,它的計(jì)算時(shí)間也要長(zhǎng)于GHSOM算法,并且產(chǎn)生了更多的死節(jié)點(diǎn)(17),因此在計(jì)算性能上,GHSOM算法要優(yōu)于SOM。
聚類(lèi)效果方面,SOM表現(xiàn)相似性的手段比GHSOM少,只有一種相鄰性來(lái)體現(xiàn)。SOM算法中,文本35、40、41、50的分別比較接近的神經(jīng)元中,并且也與文本23、53、66映射的神經(jīng)元相鄰,體現(xiàn)了GHSOM中神經(jīng)元[7→1]、[7→2]對(duì)相似性的體現(xiàn),但是,SOM算法中相似級(jí)別只有一種,而GHSOM中在此處的相似級(jí)別有兩種。
關(guān)于地殼相關(guān)文本,SOM算法將原來(lái)GHSOM算法中[1→4]和[3→1]映射到了右下角,而對(duì)于GHSOM中海洋相關(guān)的研究[1→1]和[1→2]的文本也專(zhuān)斷的進(jìn)行了映射。對(duì)于GHSOM算法中密度最大的文本映射,SOM算法將這些文本映射在了網(wǎng)絡(luò)的中部偏右的位置,特別注意的是,在GHSOM算法中未能體現(xiàn)出來(lái)的文本37、78與地殼研究相關(guān)性,在SOM中得到了一定的體現(xiàn),這兩個(gè)文本映射在了接近右下角(地殼研究?jī)?nèi)容)的位置。出現(xiàn)這種情況,并不能說(shuō)明SOM有更好的有序性表達(dá)能力,只是算法中隨機(jī)性的一種體現(xiàn)。
因此,GHSOM算法整體上是優(yōu)于SOM算法的,它的先進(jìn)性主要體現(xiàn)在更短的計(jì)算時(shí)間,并提供更豐富的有序性表達(dá)能力。
實(shí)現(xiàn)的改進(jìn)GHSOM算法在文本聚類(lèi)領(lǐng)域中的應(yīng)用體現(xiàn)了自組織性:在毫無(wú)教師信號(hào)的前提下,自動(dòng)將文本分成了不同的類(lèi)別,并用不同映射神經(jīng)元的相鄰關(guān)系顯示了文本的相似性。文本的相似性表現(xiàn)手段也是多樣的:映射到同一神經(jīng)元的文本具有最高的相似性,同一映射神經(jīng)元的相鄰、不同映射間由全局導(dǎo)向作用導(dǎo)致的相鄰也都體現(xiàn)了一定程度的相似性;不同級(jí)別映射神經(jīng)元相鄰也體現(xiàn)了不同程度的相似性,低級(jí)別的相鄰神經(jīng)元體現(xiàn)了更高的相似性,如3級(jí)神經(jīng)元相鄰的相似性要高于2級(jí)相鄰。改進(jìn)GHSOM算法整體上是優(yōu)于SOM算法,它的先進(jìn)性主要體現(xiàn)在更短的計(jì)算時(shí)間,并提供更豐富的有序性表達(dá)能力。
[1]MAHDAVI M,ABOLHASSANI H.Harmony K-means algorithm for document clustering[J].Data Mining and Knowledge Discovery,2009,18(3):370-391.
[2]徐森,盧志茂,顧國(guó)昌.解決文本聚類(lèi)集成問(wèn)題的兩個(gè)譜算法[J].自動(dòng)化學(xué)報(bào),2009,35(7):997-1002.
[3]ZHENG Hai-tao,KANG B Y,KIM H G.Exploiting noun phrases and semantic relationships for text document clustering[J].Information Sciences,2009,179(13):2249-2262.
[4]趙衛(wèi)中,馬慧芳,李志清,等.一種結(jié)合主動(dòng)學(xué)習(xí)的半監(jiān)督文檔聚類(lèi)算法[J].軟件學(xué)報(bào),2012,23(6):1486-1499.
[5]BASAVARAJU M,PRABHAKAR R.A novel method of spam mail detection using text based clustering approach[J].International Journal of Computer Applications,2010,5(4):15-25.
[6]卜東波,白碩,李國(guó)杰.文本聚類(lèi)中權(quán)重計(jì)算的對(duì)偶性策略[J].軟件學(xué)報(bào),2002,13(11):2083-2090.
[7]趙軍,金千里,徐波.面向文本檢索的語(yǔ)義計(jì)算[J].計(jì)算機(jī)學(xué)報(bào),2005,28(12):2068-2078.
[8]管仁初,裴志利,時(shí)小虎,等.權(quán)吸引子傳播算法及其在文本聚類(lèi)中的應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2010,47(10):1733-1740.
[9]Rauber A,Merkl D,Dittenbach M.The Growing Hierarchical Self-organizing Map:Exploratory Analysis of High-dimensional Data[J].IEEE Transactions on Neural Networks,2002,13(6):1331-1341.
[10]Yen G G,Wu Zheng.Ranked centroid projection:A data visualization approach with self-organizing maps[J].IEEE Transactions on Neural Networks,2008,19(2):245-259.
[11]Alahakoon D,Halgarmuge S K,Srinivasan B.Dynamic self-organizing maps with controlled growth for knowledge discovery[J].IEEE Transactions on Neural Network,2000,11(3):601-614.
[12]譚長(zhǎng)貴,動(dòng)態(tài)平衡態(tài)勢(shì)論研究——一種自組織系統(tǒng)有序演化新范式,電子科技大學(xué)出版社,2004.
[13]Kohonen T.Self-organizing Maps[M].Berlin:Springer,2001.
[14]Kohonen T,Ritter H.Self-organizing semantic maps[J].Biological Cybernetics,1989,61(4):241-254.
[15]Yen G G,Wu Zheng.Ranked centroid projection:A data visualization approach with self-organizing maps[J].IEEE Transactions on Neural Networks,2008,19(2):245-259.
An Improved GHSOM Algorithm for Text Clustering
Chen Lin
(Fujian University of Traditional Chinese Medicine,Fuzhou 350108,Fujian)
In the information era,the text information is very great.An improved GHSOM algorithm for text clustering is presented in this paper.This algorithm which has obvious text clustering ability can use a variety of means to show the similarity of text.The experimental results show that the improved GHSOM algorithm is better than SOM algorithm on the whole,and its advanced nature is mainly reflected in the shorter computation time and more expression.
text clustering;growing hierarchical self-organizing map;SOM
TP181
A
1008-6609(2016)05-0057-05
陳林,男,福建福州人,碩士,助教,研究方向:計(jì)算機(jī)應(yīng)用與軟件,信息管理。