孫 媛,趙 倩
(1.中央民族大學(xué) 信息工程學(xué)院,北京 100081;2.國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心,北京 100081)
藏漢跨語言話題模型構(gòu)建及對齊方法研究
孫 媛1,2,趙 倩1,2
(1.中央民族大學(xué) 信息工程學(xué)院,北京 100081;2.國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心,北京 100081)
如何獲取藏文話題在其他語種中的相關(guān)信息,對于促進少數(shù)民族地區(qū)的社會管理科學(xué)化水平、維護民族團結(jié)和國家統(tǒng)一、構(gòu)建和諧社會具有重要意義。目前大多數(shù)研究集中在英漢跨語言信息處理方面,針對藏漢跨語言研究較少。如何根據(jù)藏語、漢語的特點,并結(jié)合目前藏語信息處理的研究現(xiàn)狀,實現(xiàn)藏漢多角度的社會網(wǎng)絡(luò)關(guān)系關(guān)聯(lián),同步發(fā)現(xiàn)關(guān)注話題并進行數(shù)據(jù)比較,是迫切需要解決的問題。該文在藏漢可比語料的基礎(chǔ)上,利用詞向量對文本詞語進行語義擴展,進而構(gòu)建LDA話題模型,并利用Gibbs sampling進行模型參數(shù)的估計,抽取出藏語和漢語話題。在LDA話題模型生成的文檔-話題分布的基礎(chǔ)上,提出一種基于余弦相似度、歐氏距離、Hellinger距離和KL距離四種相似度算法的投票方法,來實現(xiàn)藏漢話題的對齊。
藏漢跨語言;話題抽?。籐DA;話題對齊
我國是一個統(tǒng)一的多民族國家,由56個民族組成,有著豐富的語言資源。隨著互聯(lián)網(wǎng)在少數(shù)民族地區(qū)的普及,越來越多少數(shù)民族民眾開始認識網(wǎng)絡(luò)、利用網(wǎng)絡(luò),并通過網(wǎng)絡(luò)了解外界知識和信息。隨著少數(shù)民族地區(qū)人民網(wǎng)絡(luò)使用率的飛速增加,少數(shù)民族新聞網(wǎng)站每天有大量的新聞發(fā)布,巨大的信息量使得人們無法快速、準(zhǔn)確地獲取有價值的信息。而且,網(wǎng)絡(luò)信息對民眾認識、了解社會起了一定的導(dǎo)向作用,其準(zhǔn)確性也會對社會穩(wěn)定乃至國家政策的制定產(chǎn)生影響。通過跨語言話題抽取和對齊的研究,可以提高各民族不同語言之間的知識共享,增強民族地區(qū)網(wǎng)絡(luò)信息安全,推進民族地區(qū)經(jīng)濟文化發(fā)展,促進民族團結(jié),為構(gòu)建“和諧社會”和“科學(xué)發(fā)展”的社會環(huán)境提供重要的條件支撐。藏漢話題抽取和對齊作為藏漢跨語言話題檢測與跟蹤的基礎(chǔ),對其相關(guān)研究起著重要的作用。
本文首先對話題模型的發(fā)展進行了研究,分析了LSI和pLSI的不足,并將繼承兩者優(yōu)點的LDA模型作為新聞文本表示模型。然后基于藏漢可比語料庫來構(gòu)建藏、漢LDA話題模型,在構(gòu)建過程中利用詞向量對文本詞語進行語義擴展,分別抽取出藏語和漢語話題,然后基于相似度計算進行投票,將同一話題的藏語和漢語描述聯(lián)系起來,實現(xiàn)藏漢話題的對齊,從而構(gòu)建起跨語言LDA話題模型。
隨著藏文信息處理技術(shù)的發(fā)展,藏文信息處理無論是在藏字信息處理研究及其相關(guān)標(biāo)準(zhǔn)制定方面,還是在藏語信息處理應(yīng)用開發(fā)方面,眾多科研人員進行了不懈的努力和有益的探索,并取得了不少成績。藏文的字處理技術(shù)研究是最早的[1-2],也是取得成效較好的。在基本完成以“字”為單位的研究內(nèi)容后,以“詞”、“句”、“段”、“篇”為主的研究也逐步開展起來。藏語分詞、詞類研究、語料庫建設(shè)、機器翻譯等都取得了一定的進展。但與國內(nèi)外語言文字信息處理技術(shù)的總體發(fā)展水平和研究狀況相比較,藏文信息處理的相關(guān)研究都還只是一些初步的探討,發(fā)展得還不夠完善,有待深入研究。
話題(Topic)[3]就是一個核心事件以及與之直接相關(guān)的事件。通常情況下,可以簡單地認為話題就是對特定事件相關(guān)報道的集合,如果新聞報道的內(nèi)容與某一話題的核心事件相關(guān),那么可以認為此報道與這個話題相關(guān)。傳統(tǒng)的向量空間模型(Vector Space Model,VSM)使用關(guān)鍵字來表示話題,但偏重于對文檔貢獻度較大的詞語,有時候這些詞語中會存在一些有二義性的詞,描述文檔的效果往往不太理想,為了彌補向量空間模型的這些不足,隱性語義索引(Latent Semantic Indexing,LSI)[4]被提了出來,利用奇異值分解(Singular Value Decomposition,SVD)技術(shù),實現(xiàn)對文本的降維。LSI并不屬于概率模型,也算不上一個話題模型,但它是話題模型發(fā)展的基礎(chǔ)。Hofmann[5]在LSI的基礎(chǔ)上提出了概率隱性語義索引(probabilistic Latent Semantic Indexing,pLSI),該模型假設(shè)每篇文檔是由多個話題組合而成的,文檔中的每一個詞是由一個話題產(chǎn)生,因此文檔中不同的詞可以由不同的話題生成。Blei等人[6]又在pLSI的基礎(chǔ)上進行了擴展,得到一個更為完全的概率生成模型——隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)。
2.1 LSI話題模型
LSI,又稱為潛在語義分析(Latent Semantic Analysis,LSA)。它使用SVD來分解詞語—文檔矩陣。SVD可以從詞語—文檔矩陣中發(fā)現(xiàn)不相關(guān)的索引變量,將原本的數(shù)據(jù)映射到語義空間。
LSI方法的引入可以減輕一義多詞和一詞多義的問題?;赟VD分解,我們可以基于原始向量矩陣構(gòu)造一個低秩逼近矩陣,把原本的向量轉(zhuǎn)化到一個低維隱含語義空間中,實現(xiàn)對特征的降維。奇異值與語義維度的權(quán)重相對應(yīng),將不太重要的權(quán)重置為0,只保留最重要的維度信息,這樣可以去掉一些噪音,因此可以得到文檔的一種更好的表示方式。
2.2 pLSI話題模型
雖然基于奇異值分解的LSI取得了一定的成效,但是沒有嚴(yán)謹(jǐn)?shù)臄?shù)理統(tǒng)計基礎(chǔ)作支撐,并且SVD的分解十分耗時。Hofmann就在此基礎(chǔ)上提出了基于概率統(tǒng)計的pLSI模型,用期望最大化算法(Expectation Maximization Algorithm,EM)算法學(xué)習(xí)模型參數(shù)。該模型假定文檔d、特征詞w、話題z三者間的條件概率相互獨立,那么特征詞w和文檔d之間的關(guān)系如式(1)所示。
p(d,w)=p(d)∑p(w|z)p(z|d)
(1)
2.3LDA話題模型
LDA 模型[7-8],也稱為三層貝葉斯概率模型,是一種文檔話題生成模型,包含詞語、話題和文檔三層結(jié)構(gòu)。文檔到話題服從多項式分布,話題到詞也服從多項式分布。由于pLSI模型的參數(shù)數(shù)量會由于文檔數(shù)量的增加而線性增加,不能很好地預(yù)測沒有觀測到的文本。LDA克服了這些缺點并繼承了pLSI的所有優(yōu)點,可以很好地產(chǎn)生話題分布,而且參數(shù)的數(shù)量不會隨文檔數(shù)量的增加而線性增加。
LDA是一種無監(jiān)督的機器學(xué)習(xí)方法[9-10],用來識別大規(guī)模文檔集或語料庫中隱藏的話題信息。它采用詞袋的方法,將每一篇文檔視為一個用詞頻表示的向量,從而將文本信息轉(zhuǎn)化為計算機可以處理的數(shù)字信息。詞袋的方法忽略了詞的先后順序,使問題的處理變得簡單。
3.1 模型構(gòu)建過程
LDA生成過程可以如圖1所示。
圖1 LDA話題模型
雖然LDA模型采用的詞袋的方法簡化了問題的復(fù)雜度,但同時也帶了一個問題。詞袋方法認為,一個文檔中的所有的詞是等價的,并沒有重要性的區(qū)分。而在現(xiàn)實中,不同的詞對一篇新聞文檔的貢獻程度有時也是不同的。例如,位于標(biāo)題的詞比位于正文中的詞要重要,名詞比修飾詞的貢獻度要強?;谶@種考慮,我們在進行文檔輸入的時候,加入了詞性選擇和位置重要性,根據(jù)詞性和位置對輸入的詞進行篩選。在詞性選擇方面,我們認為名詞、動詞以及包括人名、地名、組織機構(gòu)名在內(nèi)的命名實體對一個話題的標(biāo)識性更強。對于位置的影響,我們按照新聞文本中詞語出現(xiàn)的位置來說,分為三類:在標(biāo)題和正文中都存在的詞、只存在于標(biāo)題中的詞和只存在于正文中的詞。對網(wǎng)絡(luò)新聞來說,標(biāo)題具有舉足輕重的作用,因此標(biāo)題中的詞應(yīng)有較高的權(quán)重,所以這三類詞的權(quán)重依次降低。
通過語料庫訓(xùn)練,按照式(2)計算得到每個詞的IDF值,根據(jù)式(3)中詞的位置不同賦予不同的重要性,得到新的權(quán)重IDF′。
(2)
D為語料中的文檔總數(shù),Di為包含詞語i的文檔數(shù)。
(3)
3.2 詞向量
我們采用詞向量對文本關(guān)鍵詞進行語義擴展,利用跨語言文本相似度匹配藏語和漢語文本,從而獲得藏漢可比資料。
1.詞向量訓(xùn)練的過程
(1) 從訓(xùn)練文件讀入詞匯;
(2) 統(tǒng)計詞頻,初始化詞向量,放入哈希表中;
(3) 構(gòu)建哈夫曼樹,得到每個詞匯的哈夫曼樹中的路徑;
(4) 從訓(xùn)練文件讀入一行語句,去除停用詞,獲得該行語句中每一個中心詞的上下文,詞向量求和Xw。獲得中心詞的路徑,使用路徑上所有節(jié)點的目標(biāo)函數(shù)對Xw的偏導(dǎo)數(shù)的和優(yōu)化中心詞詞向量;
(5) 統(tǒng)計已訓(xùn)練詞匯數(shù)目,大于10 000時更新學(xué)習(xí)率;
(6) 保存詞向量。
2.詞語語義距離
當(dāng)計算詞語語義的距離時,首先需要加載存儲詞向量的二進制文件。將文件中詞向量讀入到哈希表中。在加載過程中,為了后續(xù)詞義距離計算的方便,對詞語的每個向量做了除以它向量長度的計算,如式(4)所示。
(4)
獲得訓(xùn)練語料詞語的詞向量之后,采用余弦值法計算詞語與詞語之間的語義距離。假設(shè)詞語A的向量表示為(Va1,Va2,…,Van),詞語B的向量表示為(Vb1,Vb2,…,Vbn),則詞語A和詞語B的語義計算如式(5)所示。
(5)
之前已經(jīng)完成了對向量距離的除運算,所以上述公式的計算轉(zhuǎn)化如式(6)所示。
(6)
3.3 參數(shù)估計
本文采用吉布斯抽樣法[11-12](Gibbs sampling)對LDA模型進行參數(shù)估計。Gibbs sampling是馬爾科夫鏈蒙特卡洛(Markov-Chain Monte Carlo,MCMC)算法的一種簡單實現(xiàn),主要思想是構(gòu)造出收斂于目標(biāo)概率分布函數(shù)的馬爾科夫鏈,并且從中抽取最接近目標(biāo)概率的樣本。利用Gibbs sampling對LDA模型進行參數(shù)估計的過程[13-14]如圖2所示。
圖2 Gibbs sampling 進行LDA參數(shù)估計的過程
事先人為設(shè)置迭代次數(shù),參數(shù)α和β通常分別設(shè)為50/K、0.01。根據(jù)式(7)訓(xùn)練產(chǎn)生話題—詞匯分布φk,v,即出現(xiàn)在話題k中的詞語v的概率。
(7)
針對文檔集中每篇文檔,根據(jù)式(8)計算文檔的文檔—話題分布θm,k,即文檔m中話題k所占的概率。
(8)
在構(gòu)建出LDA話題模型后,在生成的話題—文檔概率分布中,每一個話題在每一篇文檔中都會以一定的概率出現(xiàn)。因此,對每個話題來說,可以表示成文檔上的空間向量。通過向量之間的相似度來衡量藏漢話題的相關(guān)性,將藏漢話題對齊。話題對齊的過程如圖3所示。
圖3 藏漢話題對齊過程
此算法不需要藏漢詞典,也不需要機器翻譯,只需要我們之前已經(jīng)建立起的可比語料庫。
對于藏語話題ti和漢語話題tj,計算兩者的相關(guān)性的步驟如下:
(1) 將事先已經(jīng)構(gòu)建出的m對藏漢可比新聞文檔,作為概念空間索引文檔集;
a.余弦相似度,利用向量的余弦夾角來計算相似度,余弦值越大,相關(guān)性越大,如式(9)所示。
(9)
b.歐氏距離,用來描述空間中兩個點的常規(guī)距離。計算的值越小,兩點之間的距離就越近,相似度就越大,如式(10)所示。
(10)
c.Hellinger距離,度量兩個分布之間差異的一種方法。由于話題可以表示成離散的概率分布,因此,Hellinger距離可以用來計算話題之間的相似度。計算值越大,話題之間的差異度就越大,相似度就越?。挥嬎阒翟叫?,話題之間的相似度就越大,如式(1)所示。
(11)
DKL(P||Q)=P*log(P/Q)
(12)
Q到P的KL距離如式(13)所示。
DKL(Q||P)=Q*log(Q/P)
(13)
KL距離是非對稱的,而事實上,藏語話題ti到漢語話題tj的距離與tj到ti的距離是相等的。因此,我們使用對稱的KL距離來計算話題的距離,如式(14)所示。
(14)
將式(14)代入,得到式(15) 。
(15)
整理得到式(16)。
(16)
(5) 比較上述四種常用方法并嘗試將四種方法結(jié)合起來來觀察效果,我們基于以上四種方法對結(jié)果進行投票,第n種方法methodn在藏語話題ti上對漢語話題tj的投票值為1或者0,記為Vote(methodn,ti,tj)∈{1,0},當(dāng)投票結(jié)果Votes(ti,tj)≥3時為有效投票;否則,為無效投票。當(dāng)投票無效時,投票方法一以余弦計算的結(jié)果為最終的投票結(jié)果,投票方法二將Hellinger距離作為最終結(jié)果,兩種方法進行對比,選擇合適的計算方法。
5.1 詞向量擴展實驗
1.實驗數(shù)據(jù)來源
利用網(wǎng)絡(luò)爬蟲,從有藏漢雙語鏈接的新聞網(wǎng)站爬取語料。具體網(wǎng)站網(wǎng)址如表1所示,語料統(tǒng)計信息如表2所示。
表1 藏漢雙語網(wǎng)站
表2 語料統(tǒng)計信息
2.根據(jù)Word2Vec擴展關(guān)鍵詞
利用獲得的語料,訓(xùn)練出詞向量??傆嬘?xùn)練出365 428個漢語詞的詞向量,382 022個藏語詞的詞向量。對于每篇文本,計算每個詞詞義距離最近的三個詞,加入到文本表示中。每次計算的詞義距離都保存下來,避免之后進行重復(fù)計算。漢語詞義擴展示例如表3所示,藏語詞義擴展示例如表4所示。
表3 漢語詞義擴展
表4 藏語詞義擴展
5.2 藏漢LDA話題模型構(gòu)建實驗
本文采用java編程來構(gòu)建LDA話題模型,主要包括四個階段:文檔輸入、話題建模、話題預(yù)測、話題輸出。
在話題建模之前,我們要事先設(shè)置好先驗參數(shù),以便于后續(xù)的話題預(yù)測。
(1) 話題數(shù)量K:通過經(jīng)驗,人工設(shè)置找到合適的值;
(2) 迭代次數(shù):本文設(shè)為800;
(3)α:默認設(shè)為50/K;
(4)β:通常設(shè)為0.01;
(5) 話題詞的數(shù)量:設(shè)為20。
話題模型構(gòu)建訓(xùn)練語料是從中國西藏新聞網(wǎng)漢語版和藏語版下載的語料,得到132篇藏漢可比新聞文本對。將訓(xùn)練語料中的文本進行分詞標(biāo)注、去除停用詞,通過調(diào)試,選擇出合適的話題數(shù)量。通過實驗獲得漢語話題70個,藏語話題65個。對每個話題類選取概率最大的二十個詞語來展現(xiàn)該話題。我們從藏語話題出發(fā),尋找與藏語話題相對應(yīng)的漢語話題,實現(xiàn)藏漢話題的對齊,由此建立起跨語言LDA話題模型。
我們從訓(xùn)練集中隨機抽取出新聞文本,來檢驗話題模型的同話題聚類效果,列出這些新聞文本的主要話題分布(按照比重選取前三個話題),如表5和表6所示,分別列出了漢語和藏語同話題新聞聚類。
表5 漢語新聞報道中同話題新聞聚類
表6 藏語新聞報道中同話題新聞聚類
續(xù)表
由表5和表6可以看出,具有相似報道內(nèi)容的新聞文本被聚集在一個話題類中,接下來要進行話題的對齊,話題對齊之后能夠?qū)⒂嘘P(guān)于同一話題的藏語和漢語新聞報道聯(lián)系起來。
5.2 話題對齊實驗
抽取出藏語話題和漢語話題之后,需要進行藏漢話題的對齊。將話題映射到文檔概念空間,計算藏語話題和漢語話題的相似度,四種方法以及投票方法實驗結(jié)果的準(zhǔn)確率如表7所示。
表7 多種方法準(zhǔn)確率比較
圖4 各方法準(zhǔn)確率比較柱狀圖/%
由表7和圖4可以看出,在余弦距離、歐式距離、Hellinger距離和KL距離四種相似度計算算法中,余弦距離和Hellinger距離在本文的工作中較有優(yōu)勢,因此在投票過程中,當(dāng)產(chǎn)生無效投票時,考慮分別將余弦距離和Hellinger距離作為最終的投票結(jié)果,并將這兩種投票方法進行比較。從實驗結(jié)果可以看出,投票無效時將余弦距離作為最終投票結(jié)果的方法即投票1有較好的效果。投票過程示例如表8所示。
表8 話題對齊票數(shù)
續(xù)表
以表8中數(shù)據(jù)為例,每種方法對藏語話題22在漢語話題4上都投出了一票,表明對于藏語話題22與漢語話題4對齊,四種方法都表示贊成。四種方法中有三種方法對藏語話題1和漢語話題9對齊投出了贊成票。少于三種方法對藏語話題57與漢語話題61對齊表示贊成,因此,這時依據(jù)余弦相似度的計算結(jié)果,作為最終的投票結(jié)果。對齊的藏漢話題示例如表9所示。
表9 藏漢對齊話題列表
由表9可以看出,通過話題對齊,描述同一話題的藏語和漢語基本能夠?qū)?yīng)。但由于相比于漢語的分詞,藏語分詞在準(zhǔn)確度和效果上還是有所欠缺,因此,對于同一話題的藏語和漢語描述詞只是大致能夠?qū)?yīng)上,還不能準(zhǔn)確到具體的每一個詞。
伴隨互聯(lián)網(wǎng)的飛速發(fā)展和廣泛應(yīng)用,人類步入網(wǎng)絡(luò)時代,互聯(lián)網(wǎng)成了人們獲取信息的主要途徑??缯Z言話題抽取和對齊可以幫助人們從雜亂無章的網(wǎng)絡(luò)信息中快速地獲取到所需的關(guān)鍵信息,并且可以了解不同語種的相關(guān)信息。本文在可比語料的基礎(chǔ)上構(gòu)建出LDA話題模型,分別抽取出藏語和漢語話題,并提出了一種基于投票機制的話題對齊方法,該方法跨越了語言的障礙,能夠很好地實現(xiàn)不同語言同話題的聚集。
本文也存在一些不足:
1.用于實驗的新聞?wù)Z料規(guī)模還不夠大,后續(xù)將會擴大語料庫規(guī)模,并在此基礎(chǔ)上對提出的方法進行完善;
2.相比于漢語分詞,藏語分詞準(zhǔn)確率還有待提高,分詞的準(zhǔn)確性對計算的效果有著至關(guān)重要的作用,這也是進行后續(xù)研究的基礎(chǔ);
3.詞向量訓(xùn)練語料的好壞直接影響到語義距離的計算,相比于漢語,由于網(wǎng)絡(luò)上藏語語料環(huán)境的復(fù)雜性和藏語語料的缺乏,常常會導(dǎo)致藏語詞向量使用效果不佳,今后,需要尋求相對規(guī)范化的藏語語料,并對藏語詞向量訓(xùn)練語料規(guī)模進行擴大。
[1] 高定國,關(guān)白.回顧藏文信息處理技術(shù)的發(fā)展[J].西藏大學(xué)學(xué)報:社會科學(xué)版,2009(3):18-27.
[2] 何明華.當(dāng)代藏文信息處理的現(xiàn)狀與展望[J].科技資訊,2014,12(23):249-249.
[3] J Allan,J Carbonell,G Doddington,et al.Topic Detection and Tracking Pilot Study:Final Report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop,Virginia:Lansdowne,1998:194-218.
[4] Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by latent semantic analysis[J].JASIS,1990,41(6):391-407.
[5] Hofmann T.Probabilistic latent semantic indexing[C]//Proceedings of SIGIR.ACM,1999:50-57.
[6] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].The Journal of machine learning research,2003(3):993-1022.
[7] Connell M,Feng A,Kumaran G,et al.UMass at TDT 2004[C]//Proceedings of the Topic Detection and Tracking Workshop Report.2004.
[8] Allan J,Papka R,Lavrenko V.On-line New Event Detection and Tracking[C]//Proceedings of SIGIR,1998:37-45.
[9] 洪宇,張宇,劉挺,等.話題檢測與跟蹤的評測及研究綜述[J].中文信息學(xué)報,2007,21(6):71-87.
[10] Yang Y,Pierce T,Carbonell J.A Study of Retrospective and On-line Event Detection[C]//Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval.ACM,1998:28-36.
[11] Wei X,Croft W B.LDA-based document models for ad-hoc retrieval[C]//Proceedings of the SIGIR.ACM,2006:178-185.
[12] 徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計算機學(xué)報,2011,34(8):1423-1436.
[13] 陸前.英、漢跨語言話題檢測與跟蹤技術(shù)研究[D].中央民族大學(xué)博士學(xué)位論文,2013.
[14] 石杰.中泰跨語言話題檢測方法與技術(shù)研究[D].昆明理工大學(xué)碩士學(xué)位論文,2015.
Research on the Extraction and Alignment of Tibetan-Chinese Cross-language Topics
SUN Yuan1,2,ZHAO Qian1,2
(1.School of Information Engineering,Minzu University of China,Beijing,100081,China;2.Minority Languages Branch,National Language Resource and Monitoring Research Center,Beijing,100081,China)
In contrast to the,To discover synchronication topics associated in Tibetan and Chinese social networking,we build LDA topic model on the basis of Tibetan-Chinese comparable corpus,with word2vec as the input and Gibbs sampling to estimate model parameters.To align Tibetan topics and Chinese topics,we calculate the similarity between Tibetan and Chinese topics according to the distribution of text-topic disctrbution via a voting method based on cosine distance,Euclidean distance,Hellinger distance and KL distance.
topic extraction; LDA model; topic alignment
孫媛(1979—),博士,副教授,碩士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理和知識工程。E-mail:173701102@qq.com趙倩(1990—),碩士研究生,主要研究領(lǐng)域為自然語言處理。E-mail:393984725@qq.com
1003-0077(2017)01-0102-10
2016-05-18 定稿日期:2016-08-05
國家自然科學(xué)基金(61501529,61331013);國家語委項目(ZDI125-36,YB125-139)
TP391
A