?
基于跨語言語料的漢泰詞分布表示*
通信地址:650500 云南省昆明市昆明理工大學(xué)信息工程與自動化學(xué)院Address:School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,Yunnan,P.R.China
張金鵬1,2,周蘭江1,2,線巖團(tuán)1,2,余正濤1,2,何思蘭3
(1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650500;
2.昆明理工大學(xué)智能信息處理重點(diǎn)實(shí)驗室,云南 昆明 650500;3.昆明理工大學(xué)理學(xué)院,云南 昆明 650500)
摘要:詞匯的表示問題是自然語言處理的基礎(chǔ)研究內(nèi)容。目前單語詞匯分布表示已經(jīng)在一些自然語言處理問題上取得很好的應(yīng)用效果,然而在跨語言詞匯的分布表示上國內(nèi)外研究很少,針對這個問題,利用兩種語言名詞、動詞分布的相似性,通過弱監(jiān)督學(xué)習(xí)擴(kuò)展等方式在中文語料中嵌入泰語的互譯詞、同類詞、上義詞等,學(xué)習(xí)出泰語詞在漢泰跨語言環(huán)境下的分布。實(shí)驗基于學(xué)習(xí)到的跨語言詞匯分布表示應(yīng)用于雙語文本相似度計算和漢泰混合語料集文本分類,均取得較好效果。
關(guān)鍵詞:弱監(jiān)督學(xué)習(xí)擴(kuò)展;跨語言語料;跨語言詞匯分布表示;神經(jīng)概率語言模型
1引言
詞匯表征問題是自然語言處理的重要內(nèi)容,是信息檢索、數(shù)據(jù)挖掘、知識圖譜構(gòu)建等研究方向的重要技術(shù)支持?;诮y(tǒng)計機(jī)器學(xué)習(xí)的詞匯表征方法的目標(biāo)是從自然語言文本中學(xué)習(xí)出詞序列的概率表示函數(shù),其面臨的一個困難在于詞向量的維度災(zāi)難與數(shù)據(jù)稀疏問題[1],在訓(xùn)練的過程中每一個詞序列與其它訓(xùn)練語料中的詞序列在離散空間表示時有很大的不同。在單語詞匯的空間表示過程中,一個傳統(tǒng)但有效的方法是n元語法模型,它通過學(xué)習(xí)目標(biāo)詞匯一個短的窗口信息來預(yù)測目標(biāo)詞匯出現(xiàn)的概率。它的缺點(diǎn)在于不能反映窗口以外的詞對序列生成概率的影響及相似詞序列的分布概率的相似性[2]。BengioY等人[2]在2001年提出的神經(jīng)概率語言模型在單語環(huán)境中較好地解決了這個問題。神經(jīng)概率語言模型通過從自然語言文本中獲取句法語義信息學(xué)習(xí)出詞語的分布表示特征,對相似的詞序列有相似詞分布,CollobertR等[3]驗證了詞分布能很好地應(yīng)用于詞性標(biāo)注、命名實(shí)體識別、語義角色標(biāo)注等自然語言問題。雖然單語詞匯分布表示上取得了不錯的效果,但在跨語言自然語言處理領(lǐng)域的國內(nèi)外研究稀少,目前主要有兩種方法:第一種是遷移學(xué)習(xí)[4~7],該方法將標(biāo)記學(xué)習(xí)信息從一種語言遷移到另一種語言,使得資源較少的語言獲得較好的處理效果。ZemanD等[4]在跨語言句法樹庫建設(shè)上驗證了該方法,但該方法有較大的局限性,其效果直接依賴于知識轉(zhuǎn)移的過程,不同的跨語言自然語言處理任務(wù)有不同的遷移方法。第二種方法將兩種語言轉(zhuǎn)化為其中一種語言或第三方語言上,用一種語言表達(dá)跨語言信息[8~10]。SteinbergerR等[8]在跨語言文本相似度計算上應(yīng)用了該方法。但這些方法無一例外依賴已有的雙語翻譯概念詞典(如WordNet)的質(zhì)量或統(tǒng)計語料共現(xiàn)信息來計算跨語言詞之間的相似度,需要解決譯詞歧義問題,過程復(fù)雜,效果有限。
以上方法在處理跨語言自然處理問題上都取得了一定的效果,但都存在可移植性不強(qiáng)、算法過程復(fù)雜、準(zhǔn)確性存在提升空間的缺點(diǎn)。目前,主流的文本層面分析方法只考察名詞、動詞的分布特征,借鑒這一思想,本文針對以上存在的問題分析漢語、泰語名詞、動詞的分布相似性,將泰語名詞、動詞看做漢語名詞、動詞,將泰語詞嵌入到漢語語料中,生成漢泰跨語言詞匯序列語料,通過神經(jīng)概率語言模型學(xué)習(xí)泰語名詞、動詞在跨語言空間中的分布。通過這種方式將在跨語言語料中學(xué)習(xí)得到的漢泰跨語言詞向量分布表示,直接應(yīng)用到泰語文本,解決泰語學(xué)習(xí)語料資源缺少和跨語言文本分析問題。本文基于漢語、泰語跨語言文本分類和文本相似度實(shí)驗,驗證了漢語、泰語跨語言詞匯分布表示的效果。
本文第2節(jié)介紹了神經(jīng)概率語言模型,第 3節(jié)介紹了漢語泰語跨語言語料生成方法,第4節(jié)對本文的方法進(jìn)行了測試與評價。
2神經(jīng)概率語言模型
神經(jīng)概率語言模型[2]由BengioY等人于2003年第一次提出,基于人工神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)一種語言的詞匯序列的聯(lián)合概率函數(shù),目前已經(jīng)在自然語言處理各個領(lǐng)域得到了廣泛應(yīng)用,并取得不錯的效果。該模型同時學(xué)習(xí)每個詞的分布和表示詞序列的概率函數(shù)。模型可以得到泛化是因為一個從未出現(xiàn)的詞序列,如果它是由與它相似的詞(在其附近的一個代表性的意義上)組成過已經(jīng)出現(xiàn)的句子的話,那么它獲得較高的概率。它有效地解決了詞典向量語言空間的維度災(zāi)難與數(shù)據(jù)稀疏問題,同時解決了n元語法模型不能解決的分布相似問題,從而相比詞典向量及n元語法模型可更好地表示詞匯的分布。
神經(jīng)概率語言模型的描述如下:
通過給定的詞序列w1,…,wt,其中wt∈V,V代表目標(biāo)語言所有的詞匯集,V雖然很大但有限,神經(jīng)語言模型的目標(biāo)是要學(xué)到一個好的函數(shù)來估計詞匯的條件概率:
(1)
公式(1)包括兩個過程:
(1)首先構(gòu)建映射C將詞匯集V中的任意元素映射到詞的特征向量C(i) ∈Rd,它代表關(guān)聯(lián)詞表中詞的分布特征向量,d代表特征向量的維度。實(shí)驗中被表示為|V|*d的自由參數(shù)矩陣。
(2)
f由以上映射C與g組合而成,這兩個映射都關(guān)聯(lián)一些參數(shù)。映射C的參數(shù)就是特征向量本身,被表示成一個|V|*d的矩陣C,C的第i行是詞i的特征向量。函數(shù)g可由前饋神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。式(2)表明函數(shù)f通過上下文詞來預(yù)測詞表中第i個詞最終轉(zhuǎn)化為函數(shù)g通過上下文詞的分布特征向量來預(yù)測第i個詞的分布。
3漢泰跨語言詞分布表示
漢語與泰語有較大程度的相似性,它們在語法上有很多共同點(diǎn)。例如針對同一句話:漢語的句法結(jié)構(gòu)為(+定語)主語+(+狀語)謂語+(+定語)賓語(+補(bǔ)語);而泰語的句法結(jié)構(gòu)為主語(+定語)+謂語+賓語(+定語)(+狀語或補(bǔ)語),兩種句子的主干:主謂賓序列關(guān)系完全一致,主要差異體現(xiàn)在泰語的定語、狀語必須放在中心詞之后,而漢語的定語、狀語必須放在中心詞之前。從句子的組成來講,主干反映句子的主要內(nèi)容,定狀補(bǔ)是枝葉成分可有可無,兩種語言主干主謂賓成分是完全一致的,主謂賓對應(yīng)詞性中的名詞、動詞,兩者句子主干結(jié)構(gòu)一致。兩種語言名詞、動詞的詞序列的分布也應(yīng)該是有相似性的。
正是由于漢語與泰語在以上句子詞序列上的主干相似性決定在同一分布空間下用相同維度向量表征名詞、動詞的分布成為可能,在自然語言處理中,文本分析只考察名詞、動詞,解決了名詞、動詞的跨語言詞分布問題也就解決了跨語言文本分析問題。
我們的目標(biāo)旨在忽略中泰兩種語言的差異,將泰語名詞、動詞看做漢語名詞、動詞,在漢語的語言環(huán)境下學(xué)習(xí)它們的分布,從而使較為成熟的漢語的文本分析方法可以直接應(yīng)用在泰語文本上。
我們選取從中國廣播電臺獲取并人工校正得到平行句對10 216對。盡管原始文本包含所有的文本信息,但是目前的自然語言處理技術(shù)無法完全處理這些文本信息,因此,需要對文本進(jìn)行預(yù)處理。傳統(tǒng)的文本預(yù)處理主要是去除停用詞,如“的”“地”等。由于本文的方法需要對詞的序列分布進(jìn)行學(xué)習(xí),所以我們沒有去除停用詞,但我們將一些與漢泰文本內(nèi)容無關(guān)的符號(“#、*”等)、無意義數(shù)字去除,并將一些人名等轉(zhuǎn)化為統(tǒng)一的符號,避免因為人名的變化造成對詞序列分布學(xué)習(xí)的影響,減少噪聲干擾。
我們將以上處理后的平行語料輸入GIZA++[11]中,實(shí)現(xiàn)漢泰雙語詞對齊。GIZA++是包含IBM1-5訓(xùn)練模型及隱馬爾可夫模型的統(tǒng)計機(jī)器學(xué)習(xí)工具包。GIZA++有幾種詞對齊啟發(fā)式算法,我們主要使用交叉啟發(fā)式算法,通過運(yùn)行從漢語映射到泰語及從泰語映射到漢語兩個方向來獲取對齊詞對。我們只考慮在兩個方向都有的對齊詞對。通過詞對齊我們可以獲取一個詞語在平行語料中相應(yīng)的跨語言翻譯詞。
例句:
(1)今天/0 下午/1 我們/2 要/3 打/4 籃球/5
Figure 1 Word distribution example with word sequence similarity圖1 詞序列相似詞分布示例
雖然通過WordNet可以考察漢語詞與泰語詞之間的語義關(guān)系對齊,但我們將語義詞對齊泛化為更一般的情況,在自然語言詞的序列分布中,只要是相似的語法語義角色就會有相似的詞序列分布,即詞相似則詞在自然語言文本的詞序列中的分布也相似。例如有以下實(shí)例集:(1)很多游客在麗江品嘗麗江粑粑。(2)幾個姑娘在樹下享用普洱茶。(3)一群男人在河邊吃酸角。對以上三個實(shí)例可以進(jìn)行如圖1所示的轉(zhuǎn)化。
從圖1的三個實(shí)例句的成分可以看出,量詞“很多、一群、幾個”在句子集中可以相互替換位置,替換后它們各個句子的詞序列聯(lián)合概率分布仍是相似的。反映在神經(jīng)概率語言模型中條件概率表達(dá)為:
P(很多|游客,在,麗江,品嘗,麗江粑粑)≈P(幾個|姑娘,在,樹下,享用,普洱茶)≈P(一群|男人,在,河邊,吃,酸角)
同理,主語“姑娘、男人、游客”,狀語“麗江、樹下、河邊”,動詞“吃、品嘗、享用”,賓語“酸角、麗江粑粑、普洱茶”都可以相互替換。替換過之后的句子詞序列聯(lián)合概率分布仍與原句子序列聯(lián)合概率分布相似,即兩個句子在神經(jīng)概率語言模型空間上的分布表示向量夾角余弦值接近于1或者歐氏距離較小。表達(dá)為如下公式:
V(很多|游客,在,麗江,品嘗,麗江粑粑)≈V(一群|姑娘,在,河邊,享用,酸角)
由于在平行句對中,與每句泰語平行對齊的漢語句子是其譯句,如果泰語句子中的泰語詞匯“thwordi”對應(yīng)的漢語譯句中的漢語詞“chwordi”,而漢語詞“chwordi”與其他漢語詞“chwordj”存在上例所說的相似對齊,我們認(rèn)為泰語詞“thwordi”與漢語詞“chwordj”相似分布對齊。我們將“thwordi”與“chwordj”的這種對齊方式在本文中定義為原理1。
在神經(jīng)概率語言模型中,相近的詞序列會有相近的分布概率表示,由于模型的平滑性,分布的微小改變會造成詞的預(yù)測概率的微小改變,同時訓(xùn)練語料中任何一個實(shí)例句子的詞的出現(xiàn)不僅會影響這個詞所在句子的聯(lián)合概率分布,也會影響到所有相似(鄰近)實(shí)例句子的聯(lián)合概率分布[12]。例如,有以下三個實(shí)例句:
(1)很多游客在麗江喜歡品嘗麗江粑粑。
(2)游客在麗江喜歡品嘗麗江粑粑。
(3)很多游客在麗江品嘗麗江粑粑。
“游客”這個詞在實(shí)例句(1)中的分布概率改變會影響到游客在實(shí)例(2)、(3)中的分布概率表示。即“游客”這個詞在實(shí)例(1)~(3)中也是詞序列中分布概率表示相似的。實(shí)例(1)~(3)中的任何一個在訓(xùn)練語料中的詞序列變化都會影響到其余兩個實(shí)例最后的概率分布表示。我們認(rèn)為實(shí)例(1)中的“游客”跟實(shí)例(2)、(3)中的“游客”是相似的。因此,如果泰語句子對應(yīng)的漢語譯句為實(shí)例(1),泰語詞“thwordi”對應(yīng)實(shí)例(1)中的游客,則“thwordi”與實(shí)例(2)、(3)中的“游客”一詞也為相似分布對齊。我們在本文中定義這個原理為原理2。
基于神經(jīng)概率語言模型的原理1與原理2,我們通過3.3節(jié)的工作可以獲得泰語句子中的每個泰語詞“thowrdi”對應(yīng)的漢語譯句對應(yīng)的漢語詞“chwordi”。我們將已經(jīng)通過神經(jīng)概率語言模型對平行句對中的漢語句子語料集進(jìn)行訓(xùn)練得到每個詞在漢語語料中的分布表示。如果泰語實(shí)例句中的泰語詞“thwordi”對應(yīng)的漢語詞“chwordi”的分布表示與其他漢語詞“chwordj”的分布表示相近,我們就認(rèn)為“thwordi”與“chwordj”在神經(jīng)概率語言模型中相似分布對齊(即它們扮演相似的語法語義角色)。我們把“chwordj”與“thowrdi”的這種相似傳播過程稱為相似傳遞。
遍歷語料中所有漢語句子,本文通過相似傳遞統(tǒng)計出每個泰語詞“thwordi”與其它漢語詞“chwordj”(“chwordj”不為“thwordi”的互譯詞)的相似對齊實(shí)例。我們通過泰語詞“thwordi”與滿足相似對齊的其它漢語詞“chwordj”,在漢語實(shí)例中相應(yīng)位置的“chwordj”替換為泰語詞“thwordi”生成新的實(shí)例,對語料中的每個泰語名詞、動詞重復(fù)以上過程,直到所有泰語名詞、動詞都嵌入它們在漢語實(shí)例中應(yīng)有的位置,這個過程中我們不考慮已經(jīng)在3.3節(jié)中計算過的互譯對齊詞。如果泰語詞與漢語詞之間的替換衍生實(shí)例越多,則說明它們之間的相似程度越高,最后通過神經(jīng)概率語言模型學(xué)習(xí)到的詞分布越接近。
我們將衍生實(shí)例與漢語實(shí)例一同作為學(xué)習(xí)語料進(jìn)行學(xué)習(xí),因為通過衍生實(shí)例我們可以學(xué)習(xí)到泰語名詞、動詞在漢語語言環(huán)境下應(yīng)有的詞分布。通過這個過程使?jié)h語名詞、動詞與泰語相似的名詞、動詞有相近的分布,實(shí)現(xiàn)漢泰跨語言詞匯在同一模型空間下的分布表示。
基于以上分析,我們在第一次跨語言混合語料集中學(xué)習(xí)得到每個泰語詞相似度高于一定閾值的漢語詞,并對這些漢語泰語詞通過synset_id轉(zhuǎn)化為英文,在英語WordNet中進(jìn)行查詢,如果漢語詞與泰語詞屬于同類關(guān)系或者直接上義詞,我們都將泰語詞替換漢語詞相應(yīng)的位置,生成新的衍生實(shí)例。這個閾值如果選取過高,將很難學(xué)習(xí)到新的漢語相似詞,如果閾值選取過低,則學(xué)習(xí)得到新的漢語詞相似度太低,很多情況下不能替換,我們把閾值設(shè)為0.5。
我們對包含泰語詞的語料進(jìn)行如下過程的弱監(jiān)督學(xué)習(xí)擴(kuò)展:
Figure 2 Learning flow chart of Chinese and Thai cross-lingual word distribution圖2 漢泰跨語言詞匯分布學(xué)習(xí)流程圖
(1)將泰語詞與漢語詞的相似度進(jìn)行比較,如果相似度高于閾值,我們把漢語詞放入候選替換詞集中。
(2)對泰語詞與候選替換詞集中的詞通過synset_id轉(zhuǎn)化為英語,在英文Wordnet的is_a層級樹中查詢他們之間的語義關(guān)系,如果它們之間是同類詞或者直接上義詞則可以直接替換,生成新的候選衍生實(shí)例。
(4)將篩選出的衍生實(shí)例加入語料集中,通過神經(jīng)概率語言模型學(xué)習(xí)新的漢泰詞匯跨語言分布,并跳轉(zhuǎn)到過程(1)。
(5)重復(fù)過程(1)~(4),直到學(xué)習(xí)不出新的漢語替換詞為止。
我們將整個漢泰跨語言詞匯分布學(xué)習(xí)過程總結(jié)如流程圖2所示。
我們把漢語神經(jīng)概率語言模型擴(kuò)展到漢泰跨語言詞匯分布表示上,由于在學(xué)習(xí)語料中合適的位置嵌入了泰語名詞、動詞,所以我們的神經(jīng)概率語言模型經(jīng)過學(xué)習(xí),可以得到漢泰跨語言詞匯較為準(zhǔn)確的分布表示。
神經(jīng)概率語言模型中用反向傳播算法[13]學(xué)習(xí)模型參數(shù)。目前針對反向傳播算法的參數(shù)改進(jìn)學(xué)習(xí)算法有很多,我們選用ZeilerMD等人[14]改進(jìn)的ADADELTA梯度下降算法來最優(yōu)化模型的參數(shù)集。該方法可以動態(tài)地適應(yīng)一階信息,并對梯度下降有最小的計算開銷。訓(xùn)練一次實(shí)例就更新一次參數(shù)。首先從神經(jīng)網(wǎng)絡(luò)的輸出層開始,每一層的每個參數(shù)的梯度通過后一層的梯度來獲得,經(jīng)過網(wǎng)絡(luò)的每一層最后到達(dá)輸入層的詞的分布特征向量,不斷迭代直至誤差符合預(yù)期完成整個過程。
4實(shí)驗及分析
我們首先用神經(jīng)概率語言對上述跨語言語料進(jìn)行學(xué)習(xí),得到漢泰詞匯的跨語言分布表示,基于經(jīng)驗,我們設(shè)定每個詞的向量維度為200,神經(jīng)概率語言模型隱藏層的神經(jīng)單元個數(shù)為64,允許誤差0.001,訓(xùn)練窗口為5。在語料集學(xué)習(xí)的過程中只考慮出現(xiàn)頻數(shù)大于或等于3次的漢泰詞匯。我們把學(xué)習(xí)得到的漢泰詞匯跨語言分布作為文本相似度計算的基礎(chǔ)。
我們通過tf-idf算法篩選出每篇文檔特征權(quán)重占前5位的特征詞,文本t的特征詞組為(vt1,vt2,…,vt5),權(quán)重為(wt1,wt2,…, wt5),同理文本k的特征詞組為(vk1,vk2,…,vk5),特征詞對應(yīng)tf-idf權(quán)重為(wk1, wk2,…,wk5)。兩篇文本間的相似度通過文本t中的每個特征詞與文本k中的每個特征詞的詞向量余弦相似度及各自特征權(quán)重的乘積累加求和除以總共相加次數(shù)25。詞vk1與vt1的詞向量余弦相似度表示為vk1&vt1。文本相似度計算公式為:
(3)
我們選用維基百科上的漢泰篇章對齊文本作為實(shí)驗文本集,選取經(jīng)濟(jì)、政治、文化、科技、體育五類漢泰平行文本各100篇。實(shí)驗由兩部分組成:第一部分:漢泰平行文本相似度計算;第二部分:漢泰混合文本集中的文本隨機(jī)打亂順序后判斷它們在五大類中的分類。漢泰文本的相似性說明兩者之間的同義詞的跨語言詞分布相似性,只有兩篇文本中的同義詞在一致的向量空間分布表示上的相似才能使文本相似度高。
維基百科上篇章平行文本都是針對同一詞條的描述,但它們在描述上有差異,很多情況下一種語言的描述很詳細(xì)而另外一種語言描述較簡單,我們?nèi)斯ずY選漢泰平行文本描述一致、篇幅相當(dāng)?shù)奈恼?,?jīng)語言學(xué)家判定相似程度高于95%的平行文章。由于我們不追求單語言環(huán)境下的文本相似度效果,只追求在同種計算方式下的雙語平行文本相似性,因此采用上節(jié)描述的文本相似度計算方法計算相似性。實(shí)驗結(jié)果如表1所示。
文本相似度實(shí)驗表明,通過跨語言詞匯分布表示來表征漢泰文本相似度方面有一定的效果,針對平行文本均取得了69.84%以上的相似度。
漢泰文本混合文本集的文本分類準(zhǔn)確性說明漢泰詞在跨語言模型中的詞匯分布表征準(zhǔn)確性,如果詞匯的跨語言詞匯分布表示不準(zhǔn)確會導(dǎo)致文本分類準(zhǔn)確率下降。我們的目的是檢驗跨語言詞匯表示的準(zhǔn)確性,故我們采用KNN文本分類算法,它是較理想的文本分類算法。待分類文本與訓(xùn)練文本相似度計算時采用上節(jié)的文本相似度計算方法。我們選取的漢泰文本都是單種分類標(biāo)記的文本,不考慮多分類標(biāo)記文本,并將我們的方法同跨語言文本分類效果較好的模型翻譯[15](通過期望最大算法把源語言分類標(biāo)記文本翻譯為目標(biāo)語言分類標(biāo)記文本學(xué)習(xí)分類知識后分類)、結(jié)合半監(jiān)督適應(yīng)的模型翻譯[15](模型翻譯同時結(jié)合半監(jiān)督學(xué)習(xí)更新目標(biāo)語言的分類特征詞分布)及機(jī)器翻譯(兩種方法:(1)源語言分類標(biāo)記文本翻譯為目標(biāo)語言,目標(biāo)語言待分類文本學(xué)習(xí)分類知識后分類;(2)目標(biāo)語言翻譯為源語言學(xué)習(xí)分類知識后分類)的方法作對比。結(jié)果如表2所示。
Table 1 Cross-lingual text similarity
Table 2 Cross-lingual text classification accuracy
實(shí)驗結(jié)果表明:相同語料規(guī)模情況下,跨語言詞分布在跨語言文本分類方面較兩種機(jī)器翻譯方式效果較好,略差于基于期望最大算法翻譯分類方式,與期望最大算法翻譯+半監(jiān)督適應(yīng)方式相比有一定的差距。原因在于跨語言詞匯分布可以反映跨語言詞匯相似程度,相比機(jī)器翻譯的翻譯結(jié)果提高了準(zhǔn)確性,但分類效果略差于期望最大翻譯。因為期望最大算法考慮了在類別信息下源語言詞翻譯為目標(biāo)語言詞的最大翻譯概率,相比跨語言詞匯相似度是所有類別下的平均相似度,準(zhǔn)確性更高,而結(jié)合半監(jiān)督適應(yīng)后可以更新目標(biāo)語言文本分類的特征詞,效果最好。實(shí)驗說明漢泰跨語言詞匯分布表示的準(zhǔn)確性,即詞匯意義的表達(dá)準(zhǔn)確性。本文的方法在跨語言文本分類方面效果不是最佳但操作過程簡單,沒有復(fù)雜的翻譯消歧過程,基于跨語言詞分布將源語言的分類知識直接遷移到目標(biāo)語言,有一定效果的同時速度最快。
5結(jié)束語
本文為解決漢泰詞匯的跨語言分布表示問題,忽略兩種語言的差異,將泰語名詞、動詞嵌入到漢語語料的合適位置生成跨語言語料,并通過弱監(jiān)督學(xué)習(xí)擴(kuò)展語料規(guī)模,最終通過神經(jīng)概率語言模型學(xué)習(xí)得到漢泰詞匯的跨語言分布表示,使在漢語上應(yīng)用成熟的文本分析方法可以直接應(yīng)用到泰語文本上,且在跨語言文本分析上的應(yīng)用方法較為簡單,沒有很復(fù)雜的消歧過程。實(shí)驗通過文本相似度和文本分類驗證取得了一定效果。我們下一步期望對神經(jīng)概率語言模型進(jìn)行改進(jìn)(如增加隱藏層的層數(shù)等)來提高跨語言詞匯分布表示的準(zhǔn)確性,并進(jìn)一步探討跨語言詞匯的分布特征向量表示維數(shù)對跨語言詞匯分布表示的影響。
參考文獻(xiàn):
[1]Bengio S,Bengio Y.Taking on the curse of dimensionality in joint distributions using neural networks[J].IEEE Transactions on Neural Networks,2000,11(3):550-557.
[2]Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic language model[J].Journal of Machine Learning Research,2003,4(3):1137-1155.
[3]Collobert R,Weston J,Bottou L,et al.Natural language processing (almost) from scratch[J].Journal of Machine Learning Research,2011,12(1):2493-2537.
[4]Zeman D,Resnik P.Cross-language parser adaptation between related languages[C]∥IJCNLP,2008:35-42.
[5]S?gaard A.Data point selection for cross-language adaptation of dependency parsers[C]∥Proc of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies:Short Papers-Volume 2,2011:682-686.
[6]Ando R K,Zhang T.A framework for learning predictive structures from multiple tasks and unlabeled data[J]. Journal of Machine Learning Research,2005,6(6):1817-1853.
[7]Prettenhofer P,Stein B.Cross-language text classification using structural correspondence learning[C]∥Proc of the 48th Annual Meeting of the Association for Computational Linguistics,2010:1118-1127.
[8]Steinberger R,Pouliquen B,Hagman J.Cross-lingual document similarity calculation using the multilingual thesaurus eurovoc[C]∥Proc of CICLing’02,2002:415-424.
[9]Wu L,Huang X,Guo Y,et al.FDU at TREC-9:CLIR,filtering and QA tasks[C]∥Proc of the 9th Text Retrieval Conference,2000:1.
[10]Gao J,Nie J,Xun E,et al.Improving query translation for cross-language information retrieval using statistical models[C]∥ACM SIGIR,2001:96-104.
[11]Och F J,Ney H.Improved statistical alignment models[C]∥Proc of the 3th Annual Meeting of the Association for Computational Linguistics,2000:440-447.
[12]Emami A,Jelinek F.A neural syntactic language model[J].Machine Learning,2005,60(1-3):195-227.
[13]Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors[J].Nature,1986,323(6088):533-536.
[14]Zeiler M D.ADADELTA:An adaptive learning rate method[J].arXiv Preprint arXiv:1212.5701,2012.
[15]Shi L,Mihalcea R,Tian M.Cross language text classification by model translation and semi-supervised learning[C]∥Proc of the 2010 Conference on Empirical Methods in Natural Language Processing,2010:1057-106.
張金鵬(1989-),男,河南新密人,碩士生,研究方向為自然語言處理。E-mail:939127870@qq.com
ZHANG Jin-peng,born in 1989,MS candidate,his research interest includes natural language processing.
周蘭江(1964-),男,云南昆明人,副教授,研究方向為自然語言處理與嵌入式系統(tǒng)研究。E-mail:915090822@qq.com
ZHOU Lan-jiang,born in 1964,associate professor,his research interests include natural language processing, and embedded system.
DistributedrepresentationofChineseandThaiwordsbasedoncross-lingualcorpus
ZHANGJin-peng1,2,ZHOULan-jiang1,2,XIANYan-tuan1,2,YUZheng-tao1,2,HESi-lan3
(1.SchoolofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500;
2.TheKeyLaboratoryofIntelligentInformationProcessing,
KunmingUniversityofScienceandTechnology,Kunming650500;
3.SchoolofScience,KunmingUniversityofScienceandTechnology,Kunming650500,China)
Abstract:Word representation is the basic research content of natural language processing. At present, distributed representation of monolingual words has shown satisfactory application effect in some Neural Probabilistic Language (NPL) research, while as for distributed representation of cross-lingual words, there is little research both at home and abroad. Aiming at this problem, given distribution similarity of nouns and verbs in these two languages, we embed mutual translated words, synonyms, superordinates into Chinese corpus by the weakly supervised learning extension approach and other methods, thus Thai word distribution in cross-lingual environment of Chinese and Thai is learned. We applied the distributed representation of the cross-lingual words learned before to compute similarities of bilingual texts and classify the mixed text corpus of Chinese and Thai. Experimental results show that the proposal has a satisfactory effect on the two tasks.
Key words:weakly supervised learning extension;cross-lingual corpus;cross-lingual word distribution representations;neural probabilistic language model
作者簡介:
doi:10.3969/j.issn.1007-130X.2015.12.025
中圖分類號:TP391
文獻(xiàn)標(biāo)志碼:A
基金項目:國家自然科學(xué)基金資助項目(61363044)
收稿日期:修回日期:2015-10-17
文章編號:1007-130X(2015)12-2358-08