張弛 周艷玲 張貫虹
摘要:為了更加準(zhǔn)確地計(jì)算文本特征權(quán)重,提高文本相似度計(jì)算的精確度,文章提出了一種基于《知網(wǎng)(HowNet)》語(yǔ)義知識(shí)庫(kù)的加權(quán)語(yǔ)義復(fù)雜網(wǎng)絡(luò)文本相似度計(jì)算方法.該方法首先以特征詞為節(jié)點(diǎn),以特征詞窗口共現(xiàn)為邊,以特征詞的TF-IDF值為特征詞節(jié)點(diǎn)的初始權(quán)重,以融合共現(xiàn)頻率和概念間語(yǔ)義距離計(jì)算特征詞節(jié)點(diǎn)之間邊的權(quán)重,構(gòu)建加權(quán)語(yǔ)義文本復(fù)雜網(wǎng)絡(luò).然后利用綜合特征指數(shù)作為加權(quán)語(yǔ)義網(wǎng)中文本的特征權(quán)重.最后基于公開數(shù)據(jù)集和KNN算法進(jìn)行文本聚類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,在基于F-度量值標(biāo)準(zhǔn)上本文提出的方法要優(yōu)于傳統(tǒng)基于向量空間模型的TF-IDF方法和另一種結(jié)合復(fù)雜網(wǎng)絡(luò)權(quán)重的方法.
關(guān)鍵詞:復(fù)雜網(wǎng)絡(luò);特征詞;KNN算法;文本相似度;HowNet
中圖分類號(hào):TP391.1 ?文獻(xiàn)標(biāo)識(shí)碼:A ?文章編號(hào):1673-260X(2019)05-0019-05
隨著互聯(lián)網(wǎng)的普及和使用,互聯(lián)網(wǎng)中文本數(shù)據(jù)的產(chǎn)生正在以指數(shù)級(jí)的速度增長(zhǎng),如何從龐大的信息庫(kù)中提取有用的信息就依賴于文本挖掘技術(shù)[1],其如何能夠?qū)崟r(shí)、高效地挖掘出對(duì)社會(huì)生產(chǎn)、生活有價(jià)值的信息,已經(jīng)成為文本聚類、信息檢索、問答系統(tǒng)等諸多研究領(lǐng)域知識(shí)管理者和研究者所要亟待解決的問題.
文本相似度計(jì)算是文本數(shù)據(jù)挖掘中需要解決的關(guān)鍵問題之一.傳統(tǒng)的文本相似度計(jì)算方法是基于統(tǒng)計(jì)特征的TF-IDF算法[2-4],該方法是將文本經(jīng)過預(yù)處理后表示為一個(gè)向量的形式,向量中每個(gè)元素值為特征詞的詞頻(TF)和逆文本頻率(IDF)的乘積,這樣就可以通過計(jì)算向量之間的差異來衡量文本之間的相似性.這種方法的優(yōu)點(diǎn)是既可以排除文本中的低區(qū)分度詞,又可以避免在文本集中分布廣泛的高頻詞干擾文本相似度計(jì)算結(jié)果.但是這種方法同樣忽略了特征詞自身一般都具備豐富的語(yǔ)義,詞與詞之間的關(guān)系也不是相互孤立的,詞語(yǔ)間的語(yǔ)義關(guān)系、詞與詞之間共同出現(xiàn)的頻率和詞的上下文結(jié)構(gòu)信息等都將影響著文本相似度計(jì)算結(jié)果的準(zhǔn)確性[5-7].
近年來,隨著復(fù)雜網(wǎng)絡(luò)科學(xué)研究的發(fā)展,在自然語(yǔ)言處理研究領(lǐng)域中也發(fā)現(xiàn)了小世界特性[8],為國(guó)內(nèi)外學(xué)者研究文本的相似度計(jì)算提供了新的思路.文獻(xiàn)[9-11]等基于語(yǔ)義知識(shí)庫(kù)的方法,通過對(duì)特征詞進(jìn)行概念或義項(xiàng)的映射,計(jì)算特征詞所對(duì)應(yīng)的概念或義項(xiàng)的語(yǔ)義相似性、相關(guān)度和語(yǔ)義距離等來構(gòu)建文本復(fù)雜網(wǎng)絡(luò),并使用復(fù)雜網(wǎng)絡(luò)的物理結(jié)構(gòu)特征進(jìn)行關(guān)鍵詞的提取研究,如節(jié)點(diǎn)度、介數(shù)、聚集系數(shù)等.文獻(xiàn)[12]、文獻(xiàn)[13]根據(jù)特征詞之間的語(yǔ)義關(guān)系構(gòu)建文本復(fù)雜網(wǎng)絡(luò),然后利用復(fù)雜網(wǎng)絡(luò)社區(qū)的結(jié)構(gòu)特性,使用社區(qū)挖掘算法來進(jìn)行特征選擇.文獻(xiàn)[14]引入相似性和相關(guān)性對(duì)詞語(yǔ)語(yǔ)義關(guān)系進(jìn)行復(fù)雜網(wǎng)絡(luò)構(gòu)建,通過調(diào)節(jié)各個(gè)參數(shù)的權(quán)重進(jìn)行特征項(xiàng)選擇.雖然這些研究已經(jīng)取得較好的成果,但它們都未考慮節(jié)點(diǎn)對(duì)全局網(wǎng)絡(luò)的影響,忽略了在文本復(fù)雜網(wǎng)絡(luò)中特征詞的位置、共現(xiàn)頻率、全局統(tǒng)計(jì)信息等因素的重要性,造成在文本網(wǎng)絡(luò)構(gòu)建中邊權(quán)重計(jì)算方法不科學(xué),結(jié)果不準(zhǔn)確,導(dǎo)致最終計(jì)算結(jié)果存在較大偏差.
鑒于特征詞本身具備的豐富語(yǔ)義特征,本文綜合考慮了特征詞間的語(yǔ)義相似性、統(tǒng)計(jì)TF-IDF值以及共現(xiàn)頻率等因素,提出了一種基于《知網(wǎng)(How Net)》語(yǔ)義知識(shí)詞典的文本加權(quán)語(yǔ)義網(wǎng)絡(luò)構(gòu)建和相似度計(jì)算方法.該方法首先對(duì)文本進(jìn)行分詞、去停用詞操作,并依據(jù)復(fù)雜網(wǎng)絡(luò)中的小世界特性,以特征詞為節(jié)點(diǎn),以特征詞的TF-IDF值作為節(jié)點(diǎn)的初始權(quán)重,以特征詞窗口共現(xiàn)為邊,基于《知網(wǎng)(How Net)》語(yǔ)義詞典將特征詞映射為詞典中的概念,考慮到特征詞在文本中的共現(xiàn)系數(shù),融合共現(xiàn)系數(shù)和概念間語(yǔ)義距離計(jì)算特征詞之間邊的權(quán)重,充分利用了文本的結(jié)構(gòu)信息和全局統(tǒng)計(jì)信息.最后使用余弦相似性公式計(jì)算向量化文本之間的相似度,使用K最近鄰(KNN)分類算法在標(biāo)準(zhǔn)數(shù)據(jù)集上對(duì)文本進(jìn)行分類實(shí)驗(yàn),對(duì)本文提出的加權(quán)語(yǔ)義網(wǎng)絡(luò)方法、文獻(xiàn)[11]提出的結(jié)合復(fù)雜網(wǎng)絡(luò)的方法以及文獻(xiàn)[2]提出的基于統(tǒng)計(jì)的向量空間方法進(jìn)行實(shí)驗(yàn)對(duì)比,驗(yàn)證了本文提出的基于加權(quán)語(yǔ)義復(fù)雜網(wǎng)絡(luò)的方法能夠有效提高文本相似度計(jì)算結(jié)果的準(zhǔn)確性.
1 相關(guān)理論
1.1 復(fù)雜網(wǎng)絡(luò)特性
復(fù)雜網(wǎng)絡(luò)是指在結(jié)構(gòu)、節(jié)點(diǎn)類型和連接形式等方面復(fù)雜的網(wǎng)絡(luò),該類網(wǎng)絡(luò)具有明顯小世界、無(wú)標(biāo)度等特征[16].在復(fù)雜網(wǎng)絡(luò)中不同的統(tǒng)計(jì)量能夠反映不同的物理含義,對(duì)復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)涞姆治?,能夠剖析系統(tǒng)演化的過程和內(nèi)部存在的機(jī)制,本文主要使用如下的復(fù)雜網(wǎng)絡(luò)物理統(tǒng)計(jì)特征量對(duì)節(jié)點(diǎn)的重要性進(jìn)行評(píng)估.
1.1.1 節(jié)點(diǎn)加權(quán)度
1.2 加權(quán)語(yǔ)義網(wǎng)
語(yǔ)義網(wǎng)是一個(gè)語(yǔ)義網(wǎng)絡(luò)系統(tǒng),它系統(tǒng)地描述了現(xiàn)實(shí)中詞匯與詞匯之間的各種語(yǔ)義關(guān)系.因?yàn)樵~匯之間一般都具有豐富的語(yǔ)義關(guān)系,傳統(tǒng)上直接計(jì)算文本特征詞之間的語(yǔ)義關(guān)系是很困難的.目前,常用兩種方法對(duì)特征詞進(jìn)行語(yǔ)義關(guān)系的計(jì)算,一種是基于大規(guī)模語(yǔ)料庫(kù)的方法[18],一種是基于世界知識(shí)的方法[19].考慮到前者需要大量的語(yǔ)料作為訓(xùn)練集,使用中經(jīng)常受到語(yǔ)料庫(kù)規(guī)模的影響;本文選擇了使用基于世界知識(shí)的《知網(wǎng)(How Net)》語(yǔ)義詞典進(jìn)行語(yǔ)義復(fù)雜網(wǎng)絡(luò)的構(gòu)建,這種方法相對(duì)前者更加簡(jiǎn)單、有效.借助《知網(wǎng)(How Net)》語(yǔ)義知識(shí)詞典,將特征詞轉(zhuǎn)化為知識(shí)詞典中的概念,這樣每個(gè)特征詞都將對(duì)應(yīng)于《知網(wǎng)(How Net)》知識(shí)庫(kù)中的特定的概念.這樣就可以使用概念之間的距離來間接度量特征詞之間的語(yǔ)義聯(lián)系,能夠區(qū)別出不同文本特征詞之間的語(yǔ)義相似性和差異性.借鑒文獻(xiàn)[15]在概念層面上對(duì)距離的計(jì)算,本文對(duì)概念間距離的計(jì)算也使用語(yǔ)義距離、語(yǔ)義重合度、層次關(guān)系三個(gè)因素,利用概念間語(yǔ)義距離作為對(duì)應(yīng)特征詞之間關(guān)系強(qiáng)弱的衡量標(biāo)準(zhǔn).如圖1所示為基于《知網(wǎng)(How Net)》語(yǔ)義詞典的概念距離計(jì)算案例.
語(yǔ)義距離:表示為在《知網(wǎng)(How Net)》語(yǔ)義詞典中兩個(gè)概念之間的最短路徑長(zhǎng)度,文中用D(Si,Sj)表示兩個(gè)概念Si和Sj之間的語(yǔ)義距離,值越小表示兩個(gè)概念所對(duì)應(yīng)特征詞的間關(guān)系就越相近,以圖1中節(jié)點(diǎn)S7和S4為例,D(S7,S4)=3.
語(yǔ)義重合度:表示為兩個(gè)概念所擁有的共同父節(jié)點(diǎn)數(shù)量,擁有的共同父節(jié)點(diǎn)數(shù)量越多,說明概念間關(guān)系越相近.使用C(Si,Sj)表示概念Si和Sj之間的語(yǔ)義重合度.以圖1中節(jié)點(diǎn)S7和S4、S7和S8為例,C(S4,S7)=2,C(S7,S8)=3.
層次深度:用Hi和Hj表示兩個(gè)概念Si和Sj的所在語(yǔ)義樹中的層次深度,隨著兩個(gè)概念間的層次深度差增加,所對(duì)應(yīng)詞匯之間的相似性就越小.
2 基于改進(jìn)加權(quán)語(yǔ)義網(wǎng)絡(luò)的文本相似度計(jì)算
2.1 文本特征詞之間語(yǔ)義相似度計(jì)算
通常在文本復(fù)雜網(wǎng)絡(luò)中,特征詞節(jié)點(diǎn)之間邊的權(quán)重是難以直接衡量的,特征詞之間權(quán)重的精確性將直接影響到文本特征詞提取的正確性.本文綜合考慮詞匯的共現(xiàn)頻率權(quán)重、語(yǔ)義距離、語(yǔ)義重合度和層次深度這四個(gè)方面的因素作為語(yǔ)義復(fù)雜網(wǎng)絡(luò)中邊的權(quán)重.
2.5 算法流程
使用本文提出的文本復(fù)雜網(wǎng)絡(luò)構(gòu)建和特征詞權(quán)重計(jì)算方法,對(duì)文本的特征詞進(jìn)行特征權(quán)重計(jì)算,提高文本相似度計(jì)算結(jié)果的精度,算法描述如下:
輸入:帶有類標(biāo)簽的訓(xùn)練文本集D1和測(cè)試文本集D2.
輸出:帶有類標(biāo)簽的測(cè)試文本集D2.
(1)對(duì)訓(xùn)練集D1和測(cè)試集D2分別進(jìn)行分詞和去停用詞操作,得到初始訓(xùn)練集和測(cè)試集特征詞集合.
(2)對(duì)訓(xùn)練集D1中的每篇文檔使用第2.1節(jié)介紹的方法,分別計(jì)算特征詞節(jié)點(diǎn)和邊的權(quán)重,構(gòu)建文本加權(quán)語(yǔ)義復(fù)雜網(wǎng)絡(luò).
(3)根據(jù)2.3節(jié)介紹的方法,對(duì)訓(xùn)練集D1中的每篇文檔,使用綜合特征指數(shù)CFi計(jì)算每篇文檔中每個(gè)特征詞的權(quán)重,選取文檔權(quán)重排名靠前的m個(gè)特征詞作為該文檔的特征選擇結(jié)果,形成訓(xùn)練集數(shù)據(jù)詞典.
(4)根據(jù)訓(xùn)練集數(shù)據(jù)詞典,對(duì)測(cè)試集D2中的每篇文檔,使用2.1節(jié)介紹的方法,進(jìn)行加權(quán)語(yǔ)義復(fù)雜網(wǎng)絡(luò)構(gòu)建和特征詞特征綜合權(quán)重計(jì)算,形成待分類的測(cè)試文檔特征向量.
(5)根據(jù)步驟(4)的數(shù)據(jù)字典,對(duì)待分類文檔進(jìn)行特征詞選擇,使用公式7計(jì)算待分類文檔與數(shù)據(jù)字典中的每一個(gè)文檔的相似度,選取相似度值排名靠前的k篇文本作為相似文檔集.
(6)根據(jù)相似文檔的文本類別標(biāo)記,統(tǒng)計(jì)這k篇相似文檔中出現(xiàn)次數(shù)最多的類別標(biāo)記為該待分類文檔最終的類別標(biāo)記.
(7)對(duì)測(cè)試集D2中的每個(gè)文檔特征向量,循環(huán)重復(fù)步驟(5)和步驟(6),直到測(cè)試集中的每篇文檔都確定一個(gè)類別標(biāo)簽.
3 實(shí)驗(yàn)驗(yàn)證分析
3.1 實(shí)驗(yàn)數(shù)據(jù)及方法
實(shí)驗(yàn)數(shù)據(jù)選取復(fù)旦大學(xué)提供的中文語(yǔ)料庫(kù)中的農(nóng)業(yè)、政治、經(jīng)濟(jì)、體育和環(huán)境五個(gè)類別,每個(gè)類別中各隨機(jī)選取800篇.本文采用Java語(yǔ)言開發(fā)環(huán)境,使用jdk版本為1.8.0_121,分詞軟件使用中國(guó)科學(xué)院計(jì)算技術(shù)研究所的ICTCLAS軟件[17],選取哈爾濱工業(yè)大學(xué)的中文停用詞表,包含767個(gè)停用詞,并使用《知網(wǎng)(HowNet)》計(jì)算中文特征詞之間的相似度,具體實(shí)驗(yàn)過程如下:
本文使用三組實(shí)驗(yàn)進(jìn)行對(duì)比,第一組采用本文提出的基于加權(quán)語(yǔ)義的方法,第二組實(shí)驗(yàn)采用文獻(xiàn)[13]提出的綜合復(fù)雜網(wǎng)絡(luò)特性的計(jì)算方法,第三組實(shí)驗(yàn)采用文獻(xiàn)[2]提出的基于向量空間模型的算法.實(shí)驗(yàn)中公式?茁i采用文獻(xiàn)[9]的取值,即?茁1為0.4、?茁2為0.3、?茁3為0.3.為了驗(yàn)證本文所提出方法在計(jì)算結(jié)果上的準(zhǔn)確性,本文使用KNN分類算法在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行文本分類實(shí)驗(yàn),根據(jù)分類的結(jié)果來驗(yàn)證本文所提出算法的有效性.KNN分類算法中,K取值為15,特征維數(shù)取值為1200,實(shí)驗(yàn)時(shí)采用5折交叉驗(yàn)證法,取這五次的F1平均值作為最終的分類結(jié)果.
3.2 實(shí)驗(yàn)評(píng)價(jià)方法
3.3 實(shí)驗(yàn)結(jié)果與分析
三組實(shí)驗(yàn)的文本分類結(jié)果在各類別中的F1值和平均值如表1所示.
將實(shí)驗(yàn)結(jié)果的F1平均值繪制成柱狀圖,如圖2所示.
從表1和圖2可以看出,無(wú)論是每個(gè)類別還是實(shí)驗(yàn)最終的F1平均值,實(shí)驗(yàn)一的F1值比實(shí)驗(yàn)二和實(shí)驗(yàn)三都要高,這說明本文提出的文本相似度計(jì)算方法相比文獻(xiàn)[13]提出的結(jié)合復(fù)雜網(wǎng)絡(luò)的方法和文獻(xiàn)[2]提出的向量空間模型算法,可以更加有效地提高文本相似度計(jì)算結(jié)果的精確性,使最終的分類結(jié)果更加準(zhǔn)確.實(shí)驗(yàn)一和實(shí)驗(yàn)二相比,同是使用基于復(fù)雜網(wǎng)絡(luò)的構(gòu)建和特征選擇方法,但是實(shí)驗(yàn)二在文本復(fù)雜網(wǎng)絡(luò)的構(gòu)建中并未考慮特征詞的共現(xiàn)因素,而且需要調(diào)節(jié)的參數(shù)較多,增加了算法的時(shí)間復(fù)雜度.實(shí)驗(yàn)二和實(shí)驗(yàn)三相比可以看出,使用結(jié)合復(fù)雜網(wǎng)絡(luò)特征選擇的實(shí)驗(yàn)二因?yàn)榭紤]了特征詞之間的語(yǔ)義關(guān)系和統(tǒng)計(jì)特征,使得最終的分類效果要比單純TF-IDF方法結(jié)果好.
4 結(jié)束語(yǔ)
本文提出了一種改進(jìn)的加權(quán)語(yǔ)義復(fù)雜網(wǎng)絡(luò)文本相似度計(jì)算方法,首先基于文本特征詞的統(tǒng)計(jì)特征,融合特征詞的共現(xiàn)頻率和語(yǔ)義距離,計(jì)算文本復(fù)雜網(wǎng)絡(luò)中特征詞節(jié)點(diǎn)間邊的權(quán)重,然后對(duì)文本的特征詞綜合指數(shù)進(jìn)行計(jì)算,根據(jù)綜合特征指數(shù)值的大小,對(duì)特征項(xiàng)向量進(jìn)行選降維處理,使用相似度計(jì)算公式對(duì)文本進(jìn)行相似度計(jì)算.最后通過對(duì)三組實(shí)驗(yàn)結(jié)果的對(duì)比分析,驗(yàn)證了本文所提出的方法能夠充分利用文本網(wǎng)絡(luò)中特征詞節(jié)點(diǎn)間的語(yǔ)義信息、結(jié)構(gòu)信息和統(tǒng)計(jì)信息,提高相似度計(jì)算結(jié)果的準(zhǔn)確性.但是鑒于文本相似度計(jì)算的復(fù)雜性,本文的研究還有一定的局限性,例如特征詞所在文本的位置、特征詞與句子、句子與句子之間的關(guān)系等因素,這些還都有待于進(jìn)一步的研究.
參考文獻(xiàn):
〔1〕崔嘉樂,姜明洋,裴志利,盧奕南. 基于深度學(xué)習(xí)的文本挖掘研究[J]. 內(nèi)蒙古民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2016(05):403-407.
〔2〕Salton G,Wong A,Yang C.A Vector Space Model for Automatic Indexing[J]. Communications of ACM. 1975, 18(11): 613-620.
〔3〕葉雪梅,毛雪岷,夏錦春,王波.文本分類TF-IDF算法的改進(jìn)研究[J].計(jì)算機(jī)工程與應(yīng)用,2018(12):1-8.
〔4〕周源,劉懷蘭,杜朋朋,廖嶺.基于改進(jìn)TF-IDF特征提取的文本分類模型研究[J].情報(bào)科學(xué),2017, 35(05):111-118.
〔5〕夏冰,李寶安,呂學(xué)強(qiáng).綜合詞位置和語(yǔ)義信息的專利文本相似度計(jì)算[J].計(jì)算機(jī)工程與設(shè)計(jì),2018, 39(10):3087-3091.
〔6〕孫麗莉,張小剛.一種基于HowNet語(yǔ)義計(jì)算的綜合特征詞權(quán)重計(jì)算方法[J].統(tǒng)計(jì)與決策,2018, 34(18):82-85.
〔7〕葛斌,李芳芳,郭絲路,湯大權(quán).基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算方法研究[J].計(jì)算機(jī)應(yīng)用研究,2010, 27(09):3329-3333.
〔8〕Cancho R F I , R V Solé. The small world of human language.[J]. Proc Biol Sci, 2001, 268(1482):2261-2265.
〔9〕Zhao Hui, Liu Huailiang, Fan Yunjie. Study on the Application of Complex Network Theory in Chinese Text Feature Selection [J]. New Technology of Library and Information Service, 2012(9): 23-28.
〔10〕Liu G, Zhai Z W. Research on Keywords Extraction of Chinese Documents Based on TEXT-NET [C]. In: Proceedings of the 2011 International Conference on Electric Information and Control Engineering. 2011: 6074-6077.
〔11〕趙京勝,張麗,肖娜.基于復(fù)雜網(wǎng)絡(luò)的中文文本關(guān)鍵詞提取研究[J].青島理工大學(xué)學(xué)報(bào),2018,39(03):102-108.
〔12〕Jia X Q.Feature Selection Algorithm Based on the Community Dis covery[C].In: Proceedings of the 7th International Conference on Computational Intelligence and Security.2011:455-458.
〔13〕尹麗英,趙捧未.基于語(yǔ)義網(wǎng)絡(luò)社團(tuán)劃分的中文文本分類研究[J].圖書情報(bào)工作,2014,58(19):124-128.
〔14〕杜坤,劉懷亮,郭路杰.結(jié)合復(fù)雜網(wǎng)絡(luò)的特征權(quán)重改進(jìn)算法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2015(11):26-32.
〔15〕廖開際,楊彬彬.基于加權(quán)語(yǔ)義網(wǎng)的文本相似度計(jì)算的研究[J].情報(bào)雜志,2012,31(07):182-186.
〔16〕汪小帆、李翔、陳關(guān)榮.復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].清華大學(xué)出版社,2006.
〔17〕Wu Z B, Palmer M. Verb Semantics and Lexical Selection [C]. In: Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 1994: 133-138.
〔18〕Semantic Similarity Measures in MeSH Ontology and Their Application to Information Retrieval on Medline[EB/OL].[2007-12-10].http://www.intelligence.tuc.gr/publications/Hliautakis.pdf.
〔19〕張碩望,歐陽(yáng)純萍,陽(yáng)小華,劉永彬,劉志明.融合《知網(wǎng)》和搜索引擎的詞匯語(yǔ)義相似度計(jì)算[J].計(jì)算機(jī)應(yīng)用,2017,37(04):1056-1060.