胡 浩,李 平,陳凱琪
(西南石油大學(xué) 計算機科學(xué)學(xué)院 智能與網(wǎng)絡(luò)化系統(tǒng)研究中心,四川 成都 610500)
基于漢字固有屬性的中文字向量方法研究
胡 浩,李 平,陳凱琪
(西南石油大學(xué) 計算機科學(xué)學(xué)院 智能與網(wǎng)絡(luò)化系統(tǒng)研究中心,四川 成都 610500)
中文短文本在如今高速發(fā)展的互聯(lián)網(wǎng)應(yīng)用中變得日趨重要,如何從海量短文本消息中挖掘出有價值的信息,已成為當前中文自然語言處理中非常重要且具有挑戰(zhàn)性的課題。然而,采用傳統(tǒng)的長文本處理方法進行分析往往得不到很好的效果,其根本原因在于中文短文本消息的語法及其語義的稀疏性?;诖?,該文提出一種基于漢字筆畫屬性的中文字向量表示方法,并結(jié)合深度學(xué)習(xí)對短文本消息進行相似性計算。該方法結(jié)合中文漢字的構(gòu)詞和拼音屬性,將中文漢字映射為一個僅32維的空間向量,最后使用卷積神經(jīng)網(wǎng)絡(luò)進行語義提取并進行相似性計算。實驗結(jié)果表明,與現(xiàn)有的短文本相似性計算方法相比,該方法在算法性能及準確率上均有較大的提高。
短文本;中文字向量;深度學(xué)習(xí)
隨著互聯(lián)網(wǎng),尤其是移動互聯(lián)網(wǎng)的快速發(fā)展,社交媒體已經(jīng)變成人們交流和傳遞思想的主要平臺。每天從社交平臺上產(chǎn)生的信息交互量難以估計。面對如此海量的消息,如何進行科學(xué)的有效管理,已成為當前的研究熱點。根據(jù)中國互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告,文本信息已占網(wǎng)絡(luò)資源的70%以上,是互聯(lián)網(wǎng)中信息傳播的主要載體,每天從網(wǎng)絡(luò)中產(chǎn)生的文本信息量在TB級別以上。在文本處理領(lǐng)域,一般將文本信息分為長文本和短文本。 互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)大多數(shù)以短文本為主,如騰訊空間說說、新浪微博、百度知識問答和淘寶商品的評價等。 相對于傳統(tǒng)大篇幅的長文本,人們更容易接受以短文本的形式進行交流。如新浪微博限制其消息字數(shù)為140,知識問答都是以簡略語句的形式來概括。短文本能更好的表達出人們的情緒,人們更喜歡以幾個字甚至一個表情來表達自己的情感傾向。如何使用機器學(xué)習(xí)的相關(guān)方法對這些數(shù)據(jù)進行分析,挖掘出有用的信息,從而更好的利用互聯(lián)網(wǎng)改善人民的生活已經(jīng)變得日趨重要,如幫助商家提供決策,以使其利益最大化,幫助用戶更有效的提高產(chǎn)品體驗,是當前文本挖掘的重要課題。
中文文本挖掘中一個關(guān)鍵問題是對文本語義相似度[1]進行計算,這也一直是自然語言處理(natural language processing,NLP)[2]的研究熱點之一,其應(yīng)用場景非常廣泛。在推薦系統(tǒng)[3]中,可以找到與其商品屬性描述類似的其他商品進行推薦;在文本聚類[4]中,可以找到一些主干相似的句子;在信息檢索中,可以找到與用戶檢索信息匹配的信息;在搜索引擎中,可以根據(jù)相似度排序提供查詢結(jié)果。另外,文本相似度分析還可應(yīng)用于論文文獻查重。然而,對短文本的研究發(fā)現(xiàn),短文本消息不像傳統(tǒng)的長文本消息具有豐富的結(jié)構(gòu)信息,并且詞與詞之間的相關(guān)性較弱,語義及語法的稀疏性使它很難利用傳統(tǒng)研究長文本的方法來分析。近年來,隨著在圖像及語音領(lǐng)域獲得的各種突破,深度學(xué)習(xí)也越來越受到自然語言領(lǐng)域研究者的重視。然而,自然語言處理任務(wù)由于其自身特點,與圖像、語音處理在應(yīng)用深度學(xué)習(xí)技術(shù)上存在著一些區(qū)別。其中一個最根本的區(qū)別在于,圖像、語音信號可以直接在向量空間進行表示,而傳統(tǒng)的自然語言處理是在詞匯一級表示,不能直接作為深度神經(jīng)網(wǎng)絡(luò)的輸入變量。因此,采用深度學(xué)習(xí)方法處理文本的首要任務(wù)是對語言的向量化。在傳統(tǒng)自然語言處理過程中,通常用向量空間模型(vector space model,VSM)[5]對文本進行向量化。在向量空間模型中,單個詞被表示成One-hot的形式,即在基于詞表的向量中該詞出現(xiàn)的位置為1,其余置為0。由于詞表通常很大,表征詞匯的向量維度很高,容易造成數(shù)據(jù)稀疏。
另一方面,One-hot的表征方式無法反映語義信息。典型的做法是用奇異值分解(singular value decomposition,SVD)[6]來獲得關(guān)于詞的語義信息。然而,這種方式得到的關(guān)于詞的表征受詞匯量的影響較大,計算復(fù)雜度也比較高。目前,一種基于深度神經(jīng)網(wǎng)絡(luò)[7]自動學(xué)習(xí)的向量表示受到極大關(guān)注。深度學(xué)習(xí)是機器學(xué)習(xí)中一個相對比較新興的領(lǐng)域,主要通過構(gòu)建多層神經(jīng)網(wǎng)絡(luò),通過組合低層特征形成更加抽象的高層表達,根據(jù)其結(jié)構(gòu)不同,目前主要有前饋神經(jīng)網(wǎng)絡(luò)(feed-forward neural network)[8]、卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)[9]、遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network)[10]、反饋神經(jīng)網(wǎng)絡(luò)(recurrent neural network)[11]等。各種不同架構(gòu)的神經(jīng)網(wǎng)絡(luò)用于不同的任務(wù),如遞歸神經(jīng)網(wǎng)絡(luò)可以用于情感分析;長短時記憶模型(long-short term memory, LSTM)用于處理帶序列的數(shù)據(jù),屬于反饋神經(jīng)網(wǎng)絡(luò)的一種;卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛應(yīng)用于圖像處理領(lǐng)域。在確立神經(jīng)網(wǎng)絡(luò)模型之后,其主要難點是如何把要處理的對象表示成可計算的數(shù)值或向量輸入到網(wǎng)絡(luò)中,從而得到想要的輸出結(jié)果。
借助于神經(jīng)網(wǎng)絡(luò)模型,詞義信息可以用它的上下文來表達,這種表征不僅在維度上較One-hot的表示低了很多,而且能夠很大程度上反映詞與詞之間語義的相關(guān)關(guān)系。然而,需要指出的是,深度神經(jīng)網(wǎng)絡(luò)模型中的輸入層通常還是采用One-hot表示。由于這種表示非常浪費空間資源,微軟亞洲研究Huang等人[12]提出了一種基于字母組合的輸入表示法,并在深度語義網(wǎng)絡(luò)模型的訓(xùn)練下取得了較好的效果。盡管在英文及其他西文文本的詞向量表示方法上,自然語言處理領(lǐng)域已經(jīng)取得了顯著進展,但一些有效的方法并不能直接用于表征中文文本的語義。清華大學(xué)Chen[13]等人提出一種詞向量表示方法CWE(character-enhanced word embedding), 它是在CBOW(continue BOW)[14]的基礎(chǔ)上,通過融合漢字的特性(如漢字在詞語中出現(xiàn)的位置和所屬類別等)提出的一種詞向量方法,該方法取得了較好的效果。受Huang等人的工作啟發(fā),本文提出一種基于漢字筆畫的字向量表示法,并用于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),從而獲取短文本的語義信息。實驗證明,在短文本相似度計算上,該字向量表示方法具有較好的效果。特別地,該字向量表示的向量維度低,空間開銷小。
針對短文本消息的特征,本文提出使用卷積神經(jīng)網(wǎng)絡(luò)的方法來實現(xiàn)中文短文本語義相似度的計算,針對網(wǎng)絡(luò)的輸入問題,同時也提出一種根據(jù)中文漢字的結(jié)構(gòu)屬性來獲取它在高維空間中的表達,即用一個32維的向量來表示每一個漢字,并將其作為網(wǎng)絡(luò)的輸入。實驗中,使用相關(guān)短文本數(shù)據(jù),結(jié)合提出的字向量表達方法,并對實驗結(jié)果進行分析,驗證了本文所提方法的有效性。
文本相似性計算是指給出兩個文本消息,通過分別對它們進行數(shù)據(jù)預(yù)處理,分析并使用恰當?shù)乃惴ㄌ崛∑湎鄳?yīng)的特征,再通過一定的方法來度量它們之間的相似性。當前計算短文本消息相似性的方法有如下幾種。
(1) 傳統(tǒng)經(jīng)典模型TF-IDF以及一些基于它改進的方法: 主要思想是通過提取文本消息中詞語的權(quán)重來標識句子,使文本消息構(gòu)成向量表達。權(quán)重主要由兩部分組成,即該詞語在文本中的頻率(term frequency, TF)與反文檔頻率(inverse document frequency, IDF)。然而這種方法太過于依賴詞語的共現(xiàn),加上本身短文本消息就由很少的字組成,往往實際應(yīng)用中得不到很好的效果。因為兩個文本消息可能沒有共同的詞語但也可以語義相關(guān),相反如果兩個文本消息有一些共同的詞語也不一定語義相關(guān)。如”富士蘋果很好吃,趕緊買”,“蘋果六代真好用,趕緊買”和”喬布斯逝世了”。
(2) 基于知網(wǎng)的方法: 知網(wǎng)是一個以包括漢語和英語所代表的概念為描述對象,以揭示它們之間所具有的屬性關(guān)系為基本內(nèi)容的常識知識庫[15],義原作為其最小的不可分割的語義單位被廣泛應(yīng)用。通過對文本消息分詞處理加上使用義原樹可以計算詞語之間的相似度,最終通過一定的方法來得出文本之間的相似性,其中吳健[16]、江敏[17]、劉群[18]、Resnik[19]、李峰[20]、李培[21]、Dekang Lin[22]等在義原間相似度計算方面做了大量的研究工作。
(3) 通過對短文本消息進行特征擴展: 擴充它的語義信息來彌補其稀疏性[23-28]。文獻[28]通過適當聚合某一個Tweet用戶發(fā)布的一些短文本消息,使之構(gòu)成相對較豐富的文本信息。但這種方式的局限性在于不一定都能找到適合與原文本消息擴展的其他消息,比如某些用戶可能只有很少的Tweet消息。
(4) 基于主題模型的方法:LDA(latent dirichlet allocation)是主題模型的典型代表,由于理論的完備性與可解釋性被廣泛應(yīng)用于文本主題挖掘任務(wù)中,主要用來發(fā)現(xiàn)在文本集中潛在的主題分布。在實驗研究中發(fā)現(xiàn),短文本消息主題模型同樣存在上述所說的稀疏性問題。為了解決這一問題,文獻[29]提出BTM(biterm topic model)主題建模,它充分利用基于全局文檔的詞語共現(xiàn)模式,能一定程度克服短文本消息的語義特征稀疏性,能夠取得比LDA更好的效果,表1展示了BTM的部分效果,但是BTM的算法復(fù)雜度較高。
表1 BTM 主題模型樣例
由于短文本消息語義稀疏并且沒有豐富的結(jié)構(gòu)信息,其包含的可利用的信息量非常有限,以上傳統(tǒng)的文本間相似度計算方法普適性普遍較差。本文主要使用卷積神經(jīng)網(wǎng)絡(luò)對短文本消息進行語義特征提取,并在此基礎(chǔ)上提出根據(jù)漢字字型結(jié)構(gòu)及其拼音形式構(gòu)造字向量作為網(wǎng)絡(luò)的輸入,然后利用隱藏層不斷學(xué)習(xí)其抽象特征,最后得出其文本消息更高層次的向量表達,即可視為該文本消息的語義特征。
3.1 基于筆畫的字向量模型
漢字造字法,即古人所說的“六書”: 象形字、會意字、指事字、形聲字、轉(zhuǎn)注、假借,可分為“四體二用”,其中四體的含義如下。
(1) 象形字是描摹事物的記錄方式,是世界上最早的文字,也是最形象、演變至今保存最完好的一種漢字字形。它純粹利用圖形來刻畫文字的使用,而這些文字與所代表的含義在形狀上很相像。如“休”字,像是一個人依偎著一棵樹。“山”就像一座大山的樣子,在一群山的中間有一座高高的山峰。
(2) 會意字是指兩個或兩個以上的獨體字根據(jù)其意思合成的一個字。
(3) 指事字是一種抽象的造字方法,當沒有或不方便用具體形象刻畫的時候就用一種抽象的符號來表示。
(4) 形聲字是在象形字、會意字、指事字三種形式的基礎(chǔ)上形成的。它是兩個文或字復(fù)合成體,其中一個文或字表示事物的類別,而另一個表示事物的讀音,也就是人們通常說的“讀音認字認半邊”。
另外,漢字還可以拆分為偏旁和部首,很多漢字如果具有同一個偏旁,可能表示同一個意思,甚至讀音也一樣。例如,很多帶“扌”的漢字表示為一個動作, 即提、扛、搶、挑等。不僅如此,根據(jù)漢字的結(jié)構(gòu),研究發(fā)現(xiàn)任何一個漢字都可以分別由橫、豎、撇、捺、折的個數(shù)線性組合。例如,
良=2·橫 +0·豎 +1·撇 +2·捺 +2·折
綜合以上信息,本文根據(jù)漢字的組成結(jié)構(gòu)和其拼音結(jié)構(gòu),提出一種新的字向量模型,把漢字完全映射到歐氏空間。其中,每個漢字由一個長度僅為32位的向量組成。相比于One-hot的向量表示方法,基于筆畫的字向量具有非常低的維度,詳見表2。
表2 字向量模型的32位構(gòu)成
在實驗中,通過公開的漢字筆畫庫和拼音庫[30],對20 902個漢字使用上述方法分別構(gòu)造出它們的字向量(表3),發(fā)現(xiàn)僅有297對字向量沖突,即不同的漢字具有相同的字向量表達,如表4列舉了部分沖突的漢字對。 然而,從表4中可以看到,很多沖突的漢字對都是通假字或是生僻字或是一些已經(jīng)從字典中丟棄的字,并且在沖突的漢字對中,幾乎沒有在常用的2 500個漢字和次常用的1 000個漢字的范圍內(nèi)。這說明基于筆畫的字向量模型是可行的。
表3 字向量舉例
表4 字向量模型中的部分沖突
3.2 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)屬于人工神經(jīng)網(wǎng)絡(luò),廣泛應(yīng)用于語音處理和圖像識別領(lǐng)域。與其他神經(jīng)網(wǎng)絡(luò)模型相比,它的主要優(yōu)勢在于權(quán)值共享,減少了網(wǎng)絡(luò)結(jié)構(gòu)中權(quán)值的數(shù)量,從而降低了后期訓(xùn)練網(wǎng)絡(luò)模型的復(fù)雜度。此外,在圖像處理領(lǐng)域使用卷積神經(jīng)網(wǎng)絡(luò)可以把圖像直接作為網(wǎng)絡(luò)的輸入,避免了像傳統(tǒng)圖像識別算法中復(fù)雜的數(shù)據(jù)重建和特征提取過程。卷積神經(jīng)網(wǎng)絡(luò)是一個特殊的多層感知器,使之更類似于生物神經(jīng)網(wǎng)絡(luò)。
在自然語言處理領(lǐng)域同樣可以使用卷積神經(jīng)網(wǎng)絡(luò),其關(guān)鍵點就在于如何把漢字表示成數(shù)字或向量輸入到網(wǎng)絡(luò)模型中。只要獲取到漢字的表達之后,就可以完全使用卷積神經(jīng)網(wǎng)絡(luò),最后提取出相應(yīng)的語義特征。類似于圖像處理,使用卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點在于,當獲取到相應(yīng)漢字表達之后,可以直接將其輸入網(wǎng)絡(luò),不像傳統(tǒng)基于詞語類的特征提取方法。傳統(tǒng)方法中,要首先進行分詞,然后再根據(jù)詞語來提取該文本的特征,并且不同的分詞模型還可能會影響到最后的結(jié)果。對此,本文提出了一種基于漢字屬性結(jié)構(gòu)的哈希映射方法。
4.1 方法概述
利用基于筆畫的字向量模型將漢字映射成向量,就可將短文本消息直接輸入網(wǎng)絡(luò)中計算。卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)包括: 輸入層、卷積層、采樣層、特征表達層,詳見圖1(注: 以下將用到的字母表示完全依照圖1)。
我們把使用卷積神經(jīng)網(wǎng)絡(luò)加上基于筆畫的的字向量模型稱為CNN_CC(CNN for Chinese Character),下面對CNN_CC是如何進行短文本特征提取的做出詳細解釋。
圖1 CNN_CC 模型
輸入層: 首先運用字向量模型,把待操作的短文本消息中的每一個字表示成一個字向量,并把它們拼接起來。拼接之后的向量就表示該短文本消息。如圖1表示,并非將每一個字向量單獨的輸入網(wǎng)絡(luò)中運算,而是采用上下文滑動窗口機制,即設(shè)某短文本消息有T個漢字組成,窗口大小為d,lt表示該消息中第t個字向量,則:
卷積層: 卷積層上的卷積操作可以視為基于滑動窗口的特征提取,首先根據(jù)滑動窗口產(chǎn)生一個上下文拼接向量,然后使用一個線性映射矩陣和tanh激活函數(shù)來產(chǎn)生局部特征向量,即
其中,
以這樣的方式操作每一組字向量。這種操作簡化了模型參數(shù)個數(shù),因為對于每一個拼湊之后的矩陣lt都使用Wc來進行卷積操作?;谏舷挛牡幕瑒哟胺绞?,類似于自然語言處理中語言模型的思想,如n-gram模型。這樣做是因為很多字或詞在不同的語境下所表示的意思不盡相同,其周圍的鄰居詞語在一定程度上可以反映出它的含義,這種思想在很多自然語言處理任務(wù)中被廣泛使用。
采樣層: 在卷積層中提取出一系列局部上下文特征之后,這些詞語級別的特征需要被整合成句子級別的特征,它是一個固定長度且獨立于輸入字序列的一個特征向量。從直觀上理解,在提取短文本語義特征時,句子中那些并沒有顯著含義的字或詞應(yīng)該過濾掉。相反,那些意思顯著的主干字應(yīng)盡量保存下來。即在采樣層要盡量保留顯著的局部特征而抑制那些不重要的局部特征。出于這樣的目的,在此使用了max函數(shù)求每一維度的最大值,即
其中,v(i)表示采樣層v的第i個元素,ht(i)表示卷積層第t個局部特征的第i個元素。K是采樣層采樣的維度,和卷積層的維度相等。
特征表達層: 當采樣層提取出句子級別的特征之后,使用一個非線性的傳輸層來提取更高層次的語義表達,對應(yīng)圖1中的語義表達層如式(5)所示。
其中,Ws表示語義映射矩陣,v是通過采樣層得到的特征向量,y表示潛在的語義空間表達,即所要求的目標量。
4.2 訓(xùn)練模型參數(shù)
為最優(yōu)化圖1的參數(shù),即θ={Wc,Ws},使用基于文檔對之間的語義誤差作為訓(xùn)練的目標(Yih et al.[31])。考慮一個短文本信息s,有兩個候選短文本消息t1和t2,其中t1和s的語義更相關(guān),即使得:
其中σ(s,t)表示短文本消息s和t之間的語義相似度,其計算方法如式(7)所示。
其中ys和yt表示由卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的短文本消息s和t的語義特征向量,參數(shù)用θ表示。直觀上,我們需要最大化Δ,即最大化語義相似度高的文本集與語義相似度低的文本集之間的差距。因此,選取邏輯回歸的誤差損失函數(shù)表示,即
由于使用了余弦相似性,Δ的范圍為[-2,2],為了使它有一個更大的取值范圍,我們引入了比例因子γ。在實驗中取γ=10。由于式(8)可微,可以使用隨機梯度下降法來最優(yōu)化。在其訓(xùn)練過程中,我們采用自適應(yīng)方法來調(diào)整學(xué)習(xí)率η: 即開始設(shè)置η=1.0,在每一次全部文本消息迭代完成之后,設(shè)置η=η·0.5,直到損失函數(shù)不再明顯減少或η小于預(yù)先設(shè)置的閾值(如0.000 01),才停止迭代。
5.1 實驗數(shù)據(jù)集
為了驗證本文所提方法的有效性,我們使用了搜狗開放實驗室(Sogou Labs)[32]提供的兩份數(shù)據(jù): 用戶點擊數(shù)據(jù)集和語義相關(guān)度標注數(shù)據(jù)集。不同數(shù)據(jù)集有其相應(yīng)的特性。 點擊數(shù)據(jù)集里面的數(shù)據(jù)分散,對于每一條短文本,除了與其對應(yīng)的標題語義相關(guān)之外,其他消息與之幾乎不相關(guān)。而標注數(shù)據(jù)集則相反,里面存在很多(大于20)彼此相關(guān)的短文本消息,只是相關(guān)程度不一,但都確保有其語義最相關(guān)的消息。部分數(shù)據(jù)展示如表5、表6所示。除此之外,還在網(wǎng)頁中爬取了相關(guān)URL的網(wǎng)頁標題, 這樣可以視為用戶搜索詞與點擊URL的標題這兩個短文本消息正相關(guān),即視為他們表示相同的語義信息。這些數(shù)據(jù)與其他不相關(guān)的語義的短文本消息一起,就構(gòu)成了模型的訓(xùn)練數(shù)據(jù)集。
表5 用戶點擊數(shù)據(jù)集
表6 語義相關(guān)度標注數(shù)據(jù)集
5.2 實驗效果對比
實驗中加入三個模型作為實驗結(jié)果的對比: VSM、BTM和CWE。其中,BTM被認為是目前短文本計算效果相對較好的主題模型,而CWE則是一種采用深度學(xué)習(xí)技術(shù)的詞向量表示方法。
在實驗過程中,當訓(xùn)練好模型之后,分別提取每一個短文本消息的語義特征,即一個32維的向量,再通過余弦相似度計算短文本集中每一對短文本消息的語義相似性,最后反向?qū)Ρ让恳粋€短文本消息是否匹配到最相關(guān)的語義消息,記準確率P為評論指標??紤]到空間向量模型(VSM)的特性,實驗分兩組進行:
第一組為CNN_CW、BTM和CWE的對比,應(yīng)用在用戶點擊數(shù)據(jù)集中;
第二組為CNN_CW、VSM和CWE的對比,應(yīng)用在語義相關(guān)度標注數(shù)據(jù)集中。
根據(jù)圖2可以得出: 在兩個數(shù)據(jù)集中的兩次實驗結(jié)果中,CNN_CC均比BTM和VSM的效果好,特別是在標注數(shù)據(jù)集中,甚至比VSM的命中率多了十倍。這是因為在標注數(shù)據(jù)集中每一個文本都至少有20條與其語義相關(guān)的消息,換言之,僅從組成漢字而言,有很多與目標消息在表面上字或詞重疊,這就使得VSM效果極差。
圖 2 實驗結(jié)果
為了進一步說明CNN_CC的優(yōu)越性,圖3列出了更詳細的實驗結(jié)果,其中橫坐標表示通過模型計算出的與目標短文本最相似的前N個短文本,如果包含其最相似的短文本消息,即視為命中。
從圖3中可以看出: 由于點擊數(shù)據(jù)集由非常短的短文本消息(最短的兩個字)組成,使得基于傳統(tǒng)CBOW方法的學(xué)習(xí)效果非常差,從而導(dǎo)致CWE的效果不太理想。然而,在圖4中,由于語義相關(guān)度標注數(shù)據(jù)集文本的長度相對要長很多,而且固定模式的詞組會反復(fù)出現(xiàn),所以CWE取得的效果比前一個數(shù)據(jù)集的效果好。綜上所述,CNN_CC在兩個數(shù)據(jù)集上的效果均優(yōu)于其他兩種方法,并且在兩個數(shù)據(jù)集中的穩(wěn)定性也相對更好。
圖 3 對比三個模型在點擊數(shù)據(jù)集上的準確率
圖 4 對比三個模型在語義相關(guān)度標注數(shù)據(jù)集中的準確率
隨著移動互聯(lián)網(wǎng)的快速發(fā)展以及移動智能設(shè)備的日益普及,短文本消息數(shù)量將成為信息傳播的主流載體。本文以短文本消息為研究對象,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)提出一種基于漢字的字向量模型(CNN_CC)。通過把漢字表示成一個32維的向量,再經(jīng)過神經(jīng)網(wǎng)絡(luò)每一層的復(fù)雜特征提取過程,最后得到短文本消息的語義特征表達。因此,只要獲取了其相應(yīng)的語義特征向量,就可以計算出兩個短文本消息之間的語義相似度。利用筆畫信息進行漢字的向量化,不僅降低了文本向量化的維度,大幅降低了計算的復(fù)雜度,在真實數(shù)據(jù)集上的實驗結(jié)果也證明了該方法優(yōu)于其他兩種常用的短文本處理方法。
在下一步的工作中,我們會考慮在32維的基礎(chǔ)上融入漢字的其他結(jié)構(gòu)信息(如漢字有上下結(jié)構(gòu)、左右結(jié)構(gòu)、上中下結(jié)構(gòu)等)和多音字信息,以及標點符號信息,因為中文的標點也帶有一定的感情色彩。此外,由于在當前的研究模型中我們只使用了一層全連接網(wǎng)絡(luò),未來可以嘗試增加多層全連接網(wǎng)絡(luò),使得網(wǎng)絡(luò)可以獲取更加豐富的文本信息。
[1] 代六玲, 黃河燕, 陳肇雄. 中文文本分類中特征抽取方法的比較研究[J]. 中文信息學(xué)報, 2004, 18(1): 26-32.
[2] 陳肇雄, 高慶獅. 自然語言處理[J]. 計算機研究與發(fā)展, 1989,(11): 1-16.
[3] Bedi P, Kaur H, Marwaha S. Trust based recommender system for the semantic web[C]//Proceedings of the 20th international joint conference on artifical intelligence. Morgan Kaufmann Publishers Inc.. 2007: 2677-2682.
[4] 劉遠超, 王曉龍, 徐志明,等. 文檔聚類綜述[J]. 中文信息學(xué)報, 2006,20(3): 55-62.
[5] Lee D L, Chuang H, Seamons K. Document Ranking and the Vector-Space Model[J]. Software IEEE, 1997, 14(2): 67-75.
[6] Yoshikawa T. Singular-value decomposition[M]. Foundations of Robotics: Analysis and Control. MIT Press, 2003: 268-271.
[7] Dong Y, Li D. Feature representation learning in deep neural networks[M]. Automatic Speech Recognition. Springer London, 2015: 157-175.
[8] Zhang J R, Zhang J, Lok T M, et al. A hybrid particle swarm optimization-back-propagation algorithm for feedforward neural network training[J]. Applied Mathematics & Computation, 2007, 185(2): 1026-1037.
[9] Huang W, Qiao Y, Tang X. Robust scene text detection with convolution neural network induced MSER trees[M]. Computer Vision-ECCV 2014 Springer International Publishing, 2014: 497-511.
[10] Dong L, Wei F, Tan C, et al. Adaptive recursive neural network for target-dependent twitter sentiment classification[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. 2014: 49-54.
[11] Williams R J, Zipser D. A learning algorithm for continually running fully recurrent neural networks[J]. Neural computation, 1989, 1(2): 270-280.
[12] Huang P S,He X,Gao J,et al. Learning deep structured semantic models for web search using clickthrough data[C]//Proceedings of the 22nd ACM international conference on conference on information & knowledge management ACM, 2013: 2333-2338.
[13] Chen X, Xu L, Liu Z, et al. Joint learning of character and word embeddings[C]//Proceedings of International Conference on Artificial Intelligence. AAAI Press, 2015.
[14] Goldberg Y, Levy O. word2vec Explained: deriving Mikolov et al.’s negative-sampling word-embedding method[J]. Eprint Arxiv, 2014.
[15] 董振東,董強.知網(wǎng)[DB/OL].[2011-06-23]. http://www.keenage.com/.
[16] 吳健,吳朝暉,李瑩,等.基于本體論和詞匯語義相似度的web服務(wù)發(fā)現(xiàn)[J]. 計算機學(xué)報,2005,28(4):595-602.
[17] 江敏,肖詩斌,王弘蔚,等.一種改進的基于《知網(wǎng)》的詞語語義相似度計算[J].中文信息學(xué)報,2008,22(5): 84-89.
[18] 劉群, 李素建. 基于《 知網(wǎng)》 的詞匯語義相似度計算[J]. 中文計算語言學(xué), 2002, 7(2): 59-76.
[19] Resnik P. Using Information Content to Evaluate Semantic Similarity in a Taxonomy[C]//Proceedings of the 14th International Joint Conference on Artificial Intelligence. 1995: 448-453.
[20] 李峰,李芳. 中文詞語語義相似度計算——基于《知網(wǎng)》2000[J].中文信息學(xué)報,2007,21(3): 99-105.
[21] 李培.基于《知網(wǎng)》的文本相似度研究[D].河北工業(yè)大學(xué)碩士學(xué)位論文,2012.
[22] LIN Dekang.An information—theoretic definition of similarity semantic distance in WordNet[C]//Proceedings of the 15th International Conference on Machine Learning, San Francisco,CA: [s.n.], 1998.
[23] 寧亞輝,樊興華,吳渝. 基于領(lǐng)域詞語本體的短文本分類[J].計算機科學(xué), 2009,03: 142-145.
[24] 王盛,樊興華,陳現(xiàn)麟. 利用上下位關(guān)系的中文短文本分類[J].計算機應(yīng)用,2010,3(3): 603-606.
[25] 白秋產(chǎn),金春霞.概念屬性擴展的短文本聚類算法[J].長春師范大學(xué)學(xué)報,2011,(10): 29-33.
[26] 史偉,王洪偉, 何紹義. 基于微博平臺的公眾情感分析[J].情報學(xué)報, 2012,31(11) : 1171-1178.
[27] Hong L and Davison B. Empirical study of topic modeling in twitter[C]//Proceedings of the First Workshop on Social Media Analytics, 2010:80-88.
[28] Weng J, Lim E, Jiang J, et al. Twitterrank: finding topic-sensitive influential twitterers[C]//Proceedings of the 3rd ACM international conference on Web search and data mining, 2010:261-270.
[29] Cheng Xueqi, et al. BTM: topic modeling over short texts[J]. IEEE Transactions on Knowledge and Data Engineering, 2014,26(12): 2928-2941.
[30] 漢字筆畫庫與拼音庫[EB/OL]. http://download.csdn.net/download/cshaoty/4295604.
[31] Yih W T, Toutanova K N, Meek C A, et al. Learning discriminative projections for text similarity measures[C]//Proceedings of the 15th conference on Computitional Natural Language Learning, portland, Oregon, USA, 2011:247-256.
[32] 搜狗開放實驗室(Sogou Labs)[EB/OL]. http://www.sogou.com/labs/.
ResearchonChineseCharacterEmbeddingBasedonItsInherentAttributes
HU Hao, LI Ping,CHEN Kaiqi
(Center of Intelligence and Networked System, School of Computer Science, Southwest Petroleum University, Chengdu, Sichuan 610500, China)
With the rapid development of Internet, Chinese short text has become increasingly im- portant. How to mining valuable information from massive short text has become a very important and challenging task in Chinese natural language processing. However, using the traditional methods which analyze long text often get bad results due to the sparsity of syntax and semantic. This paper proposed a Chinese word embedding method based on stroke, combined with deep learning of short text similarity calculation. This method combined Chinese word-building and its Pin-Yin attributes. The Chinese characters were mapped to a 32-dimensional vector. Then we used convolution neural network to extract the semantic of each short text and calculate similarity. Experimental results show that compared with the existing short text similarity calculation method, the method has greatly improved on performance and accuracy.
short text; Chinese word embedding; deep learning
胡浩(1990—),碩士研究生,主要研究領(lǐng)域為自然語言處理、深度學(xué)習(xí)。
李平(1977—),博士,副研究員,主要研究領(lǐng)域為網(wǎng)絡(luò)科學(xué)、統(tǒng)計機器學(xué)習(xí)、自然語言處理。
陳凱琪(1992—),碩士研究生,主要研究領(lǐng)域為自然語言處理、機器學(xué)習(xí)。
1003-0077(2017)03-0032-09
2016-04-26定稿日期: 2016-06-02
TP391
: A