楊 帆,劉亮亮
(1.中國(guó)船舶重工集團(tuán)公司第723研究所,江蘇 揚(yáng)州 225001;2.江蘇科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 鎮(zhèn)江 212003)
?
基于統(tǒng)計(jì)的漢語(yǔ)疊詞自動(dòng)識(shí)別研究
楊帆1,劉亮亮2
(1.中國(guó)船舶重工集團(tuán)公司第723研究所,江蘇 揚(yáng)州225001;2.江蘇科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 鎮(zhèn)江212003)
摘要:提出一種漢語(yǔ)疊詞的自動(dòng)獲取方法。首先利用結(jié)構(gòu)合理的五元組模型對(duì)分詞后的語(yǔ)料進(jìn)行統(tǒng)計(jì)以獲得各類疊詞候選集;在此基礎(chǔ)上,通過(guò)疊詞度的運(yùn)算判斷實(shí)現(xiàn)“AAB”式、“ABB”式、“ABA”式、“ABAB”式、“AABB”式疊詞的自動(dòng)獲?。辉诏B詞度判斷的基礎(chǔ)上,通過(guò)左、右鄰接熵的運(yùn)算判斷實(shí)現(xiàn)“AA”式疊詞的自動(dòng)獲取。該方法根據(jù)結(jié)構(gòu)合理的五元組模型獲得的統(tǒng)計(jì)信息,結(jié)合疊詞度和信息熵的判斷,實(shí)現(xiàn)了疊詞的量化判斷和自動(dòng)獲取。實(shí)驗(yàn)結(jié)果證明:該方法能有效實(shí)現(xiàn)漢語(yǔ)疊詞的自動(dòng)獲取,且準(zhǔn)確率高。
關(guān)鍵詞:漢語(yǔ)疊詞;五元組模型;疊詞度;左、右鄰接熵
疊詞是一種特殊的語(yǔ)言現(xiàn)象。漢語(yǔ)疊詞是由2個(gè)或2個(gè)以上的字形和字義都相同的漢字重疊在一起使用所組成的詞語(yǔ)。在漢語(yǔ)文本中,由于漢語(yǔ)疊詞的存在,在錯(cuò)別字識(shí)別的過(guò)程中可能會(huì)將疊詞當(dāng)做成插入錯(cuò)誤。如果將所有滿足疊詞格式的都看成疊詞的話,則很多類似疊詞格式的插入錯(cuò)誤會(huì)被過(guò)濾掉。本文首先分析疊詞的種類,然后利用大規(guī)模語(yǔ)料統(tǒng)計(jì)來(lái)獲取疊詞。
國(guó)內(nèi)對(duì)于疊詞的定義基本可以分為傳統(tǒng)派、西洋派和字典派[1]。汪維懋[2]的解釋是“重言詞的‘重疊’或‘重疊形式’,包括一個(gè)雙音形式,這個(gè)雙音形式為詞或詞的一部分”。西洋派則是把西方的定義直接翻譯過(guò)來(lái)用到漢語(yǔ)疊詞中。雷蕾[3]認(rèn)為“疊詞是指相同的詞、詞素或音節(jié)重疊使用”,以及“疊詞是由重疊法所構(gòu)成的詞”。黃成洲[4]認(rèn)為”疊詞指的是2個(gè)或2個(gè)以上意義和形態(tài)相同或相似成分重疊而構(gòu)成的新詞”。字典派使用的是當(dāng)代語(yǔ)言學(xué)的字眼重復(fù)傳統(tǒng)定義,例如《現(xiàn)代漢語(yǔ)規(guī)范詞典》給疊詞下的定義是“修辭方式,音、形、義相同的字連用在一起,使形式整齊、語(yǔ)音和諧,并增強(qiáng)形象性”[5]。而《漢語(yǔ)疊字詞詞典》的定義是“疊字詞古稱疊音、重言,是將字形、讀音、字義完全相同的漢字重疊起來(lái)組成的詞匯”[6]。目前對(duì)疊詞的研究成果雖然非常多[7],不過(guò)主要集中在語(yǔ)法形式及其使用方面。從構(gòu)詞的角度對(duì)疊詞進(jìn)行分析和研究的成果并不多見(jiàn)。
疊詞有很多種分類的方法[1],本文主要介紹疊詞在結(jié)構(gòu)上的分類,并且按結(jié)構(gòu)的分類來(lái)獲取疊詞。汪維懋將疊詞分為“AA”、“AABB”、“AAB”、“ABB”4類,并且認(rèn)為“ABAB”與“A里AB” 型的疊詞是這4種的擴(kuò)展,沒(méi)有本質(zhì)區(qū)別,從而在他的詞典里面沒(méi)有進(jìn)行收錄[8]。后來(lái)很多學(xué)者在汪維懋研究成果的基礎(chǔ)上對(duì)疊詞的結(jié)構(gòu)分類進(jìn)行擴(kuò)展。于連江等將疊詞分為“AA”、“AABB”、“ABAB”、“AAB”、“ABB”、“BCAA”、“AABC”、“ABAC”、“一AA”、“A了A”、“A一A”、“A呀/啊A”、“A著A著”、“A里AB”、“A都A不”、“A又A”、“A是A”、“A就A”。根據(jù)這些類別的結(jié)構(gòu)特點(diǎn),將“一AA” 歸入到“ABB”,“A了A”、“A 一A”、“A呀/啊A”,“A又A”、“A是A”、“A就A”可以歸類為“ABA”,“A著A著”、“ABAB”,“A里AB” 和“A都A不”都是“ABAC”的特殊形式。這樣疊詞的形式就可以歸為以下幾類:“AA”、“AAB”、“ABB”、“ABA”、“AABB”、“ABAB”、“AABC”、“BCAA”和“ABAC”[1]。下面對(duì)這幾種疊詞形式進(jìn)行詳細(xì)介紹:
1) “AA”式疊詞
在這種形式中,A代表一個(gè)漢字(除了人名等)?!癆A”式疊詞一般具有形容詞的特性,描述人物和景物等的形態(tài)(例如徐徐、藹藹等),情狀(例如悠悠、郁郁等)和聲音(例如淙淙、汩汩等)等。
2) “AAB”式疊詞
“AAB”式疊詞可由3種方式來(lái)構(gòu)成:一是由1個(gè)雙音節(jié)詞AB通過(guò)部分重疊AB詞中的第1個(gè)語(yǔ)素A而成,這類重疊詞大部分是由離合動(dòng)詞構(gòu)成,例如擺擺手、點(diǎn)點(diǎn)頭、咬咬牙、過(guò)過(guò)癮、散散步等;二是由1個(gè)AA式的疊詞加上一個(gè)B構(gòu)成,例如毛毛雨、呱呱叫;三是2個(gè)單音節(jié)詞A、B以重疊A的方式來(lái)構(gòu)成,例如面面觀、麻麻亮等。
3) “ABB”式疊詞
“ABB”式疊詞所覆蓋的詞性范圍比較廣,有名詞(例如山溝溝),動(dòng)詞(例如過(guò)家家),擬聲詞(例如嘩啦啦),副詞(例如不僅僅),形容詞(例如干巴巴、白胖胖),數(shù)量詞(例如一天天、一絲絲)等,其中主要是形容詞[8]?!癆BB”式疊詞由以下幾種方式來(lái)構(gòu)成:一是1個(gè)雙音節(jié)詞AB通過(guò)重疊AB詞中的第2個(gè)語(yǔ)素而成,例如沉悶悶、孤單單等;二是通過(guò)1個(gè)單音節(jié)詞A和重疊詞BB來(lái)構(gòu)成,例如老奶奶、小寶寶;三是雙音節(jié)詞BA通過(guò)顛倒,重疊B而成,例如亮閃閃、冷冰冰等。
4) “ABA”式疊詞
在這種疊詞形式中,由單音節(jié)詞A和單音節(jié)詞B重疊A來(lái)構(gòu)成。一般而言,B不是任意的漢字,可以是“了”,“一”,“呀/啊”,“又”,“是”,“就”等。例如看一看、看了看、看就看、看呀看等。
5) “ABAB”式疊詞
在這種形式的疊詞中,一種形式是由一個(gè)雙音節(jié)詞AB重疊本身構(gòu)成,一般重疊以后作為動(dòng)詞使用,例如打掃打掃、放松放松、思考思考。另一種形式是“A著A著”,其中A是單音節(jié)詞,例如聽(tīng)著聽(tīng)著、看著看著。
6) “AABB”式疊詞
“AABB”式疊詞是由2個(gè)單音節(jié)詞A和B分別重疊后再進(jìn)行重疊構(gòu)成,一般來(lái)說(shuō),AA與BB不能單獨(dú)使用,例如平平安安、高高興興。
7) “AABC”式疊詞
漢語(yǔ)中的“AABC”式疊詞,一般來(lái)說(shuō)都是一種固定的成語(yǔ),通過(guò)單音節(jié)詞A重疊,然后限定和修飾BC,一般表示BC的一種程度,BC可以是兩個(gè)單音節(jié)詞或一個(gè)雙音節(jié)詞,例如苦苦哀求、牢牢把握、念念不忘。
8) “BCAA”式疊詞
“BCAA”式疊詞和“AABC”式疊詞類似,疊詞部分AA一般充當(dāng)補(bǔ)語(yǔ)的形式來(lái)修飾BC,例如風(fēng)雪茫茫、白雪皚皚、逃之夭夭等。
9) “ABAC”式疊詞
在漢語(yǔ)成語(yǔ)中還存在“ABAC”式的疊詞,其基礎(chǔ)詞是一個(gè)雙音節(jié)詞BC,通過(guò)重疊一個(gè)單音節(jié)詞A構(gòu)成,這種重疊是A插入到BC當(dāng)中而成。例如不慌不忙、不驕不躁、不三不四。
崔健新[9]例舉了大量20世紀(jì)90年代以來(lái)報(bào)刊、電臺(tái)中包含重疊的句子,論證分析了形容詞“AABB”式在使用過(guò)程中的復(fù)雜性,反對(duì)把它簡(jiǎn)單化,反映出了學(xué)者對(duì)語(yǔ)言事實(shí)的重視,有助于推動(dòng)語(yǔ)言的動(dòng)態(tài)研究。孟令子等[10]利用語(yǔ)料庫(kù)研究了“AABB” 式疊詞在莎劇3部漢譯本中的使用情況。關(guān)于形容詞“ABAB”式,陳光[11]在分析了“AA ABB”對(duì)“VA ABB”的影響的同時(shí),認(rèn)為“VABAB”對(duì)“AAABB”同樣具有功能滲透與類化作用。李宇明[12]通過(guò)對(duì)比性質(zhì)形容詞“ABAB”和“AABB”,專門分析了“ABAB”式的特點(diǎn)。從構(gòu)詞的角度對(duì)“ABB”式疊詞進(jìn)行分析和研究的成果并不多見(jiàn)。戴莉[13]的《ABB類形容詞的構(gòu)成要素及其性質(zhì)》主要談A和BB的語(yǔ)法語(yǔ)義性質(zhì),以及A與BB之間的選擇性,并未涉及構(gòu)詞方面的問(wèn)題。殷寄明[14]的《從語(yǔ)源學(xué)角度看“干巴巴” 類派生詞》是把“ABB”式疊詞作派生詞來(lái)看待的。
除了詞典中收錄了部分疊詞以外,很多疊詞都在文本中出現(xiàn)而未收錄在詞典中,因此需要從大規(guī)模語(yǔ)料中獲取疊詞。本文從百科類文本語(yǔ)料中去獲取疊詞。對(duì)于“ABAC”、“BCAA”、“AABC”型疊詞一般都是固定的表達(dá)法,大部分收錄在漢語(yǔ)成語(yǔ)詞典中。因?yàn)闈h語(yǔ)文本中的大部分插入錯(cuò)誤,都是相同字或詞的插入錯(cuò)誤,因此本文對(duì)“AA”、“AAB”、“ABB”、“ABA”、“ABAB”、“AABB”這5種類型的疊詞進(jìn)行獲取。
定義五元組模型five-element mod
一個(gè)五元組可以抽象表示為如下形式:
Five-ElementModel= (leftWord,leftInterval,word,rightInterval,rightWord)
其中:word為當(dāng)前統(tǒng)計(jì)的詞;leftWord是與詞word左邊相隔距離為leftInterval的詞;leftInterval表示word與leftWord之間的距離;rightWord是與詞word右邊相隔距離為rightInterval的詞;rightInterval:表示word與rightWord之間的距離。
本文通過(guò)對(duì)大規(guī)模語(yǔ)料中的句子進(jìn)行分詞,利用五元組模型來(lái)進(jìn)行統(tǒng)計(jì)。由于疊詞是相鄰的詞,因此只需要考慮和相等且為0的五元組模型。
首先通過(guò)五元組模型來(lái)統(tǒng)計(jì)滿足“AA”,“AAB”,“ABB”, “ABA”, “ABAB”式的五元組。統(tǒng)計(jì)方法如下:
此后,喜姑和二狗伢常常在鄉(xiāng)黨們黑汗水流辛勤勞作的時(shí)候,一句連一句,一段接一段地你來(lái)我往唱山歌,給白家灣帶來(lái)了不少的歡樂(lè),喜姑的名聲很快在十里八方傳開(kāi)了。
1) “AA”式疊詞。將五元組滿足 (A,0,A,0,*)和(*,0,AA,0,*)(*表示任意詞)的加入到AA式疊詞候選集中。
2) “AAB”式疊詞:根據(jù)以上的分析,將五元組滿足以下模式的元組加入到AAB式疊詞候選集中:① (A,0,AB,0,*);② (AA,0,B,*);③ (A,0,A,0,B)。
3) “ABB”式疊詞:將五元組滿足如下模式的元組加入到“ABB”式疊詞候選集中:① (AB,0,B,0,*);② (A,0,BB,0,*);③ (A,0,B,0,B)。
4) “ABA”式疊詞:將五元組滿足(A,0,B,0,A)的元組加入到“ABA”式疊詞候選集中,“B”是一個(gè)單字詞。
5) “ABAB”式疊詞:將五元組滿足(AB,0,AB,0,*)的元組加入到ABAB式疊詞候選集中。
6) “AABB”式疊詞:將五元組滿足(AA,0,BB,0,*)的元組加入到“AABB”式疊詞候選集中。
由于有AA式重疊詞以及漢語(yǔ)分詞會(huì)將AA分成一個(gè)詞,因此對(duì)于滿足AA、ABB、AAB的高頻元組不能簡(jiǎn)單認(rèn)為就是一個(gè)疊詞。例如:(他們,0,個(gè)個(gè),0,都)中, “個(gè)個(gè)都”就不是AAB式疊詞(其中“個(gè)個(gè)都”也是高頻出現(xiàn)),(一,0,車車,的)中“一車車”是“ABB”式疊詞,“車車的”就不是“AAB”式疊詞。因此,需要對(duì)滿足模式的候選進(jìn)行驗(yàn)證。本文采用未登錄識(shí)別的方法對(duì)疊詞進(jìn)行識(shí)別[15]。
定義疊詞的結(jié)合度(comDegree)
一個(gè)疊詞的結(jié)合度是用來(lái)表示疊詞的內(nèi)部結(jié)度。用如下公式來(lái)計(jì)算疊詞的結(jié)合度:
(1)
結(jié)合度反映了詞W中的詞在一起的強(qiáng)度,結(jié)合度越大,反映了W中的詞經(jīng)常在一起出現(xiàn),如果W中詞的結(jié)合度越小,說(shuō)明W中的詞是偶然在一起。例如,對(duì)于“一車車”與“車車的”,通過(guò)計(jì)算可以發(fā)現(xiàn),
ComDegree(一車車)=6.806 93
ComDegree(車車的)=1.223 4
因此通過(guò)結(jié)合度來(lái)看“一車車”是一個(gè)疊詞,而“車車的”就不是一個(gè)疊詞。
由于有些“AAB”和“ABB”中存在“AA”式疊詞,但是“AAB”與“ABB”式疊詞中“AA”或“BB”不一定是“AA”式疊詞,例如“血淋淋”中的“淋淋”就很少單獨(dú)使用,而“個(gè)個(gè)”不但可以構(gòu)成“一個(gè)個(gè)”疊詞,還可以經(jīng)常單獨(dú)使用。用信息熵來(lái)衡量一個(gè)“AA”式候選疊詞的左右鄰接詞的不確定性。信息熵是對(duì)不確定性的測(cè)量。熵越高,則能傳輸越多的信息;熵越低,則意味著傳輸?shù)男畔⒃缴?。例如“個(gè)個(gè)”,其左邊出現(xiàn)的有“一,他們,我們,學(xué)生,老師……”,而“淋淋”的左邊的鄰接的字只有“血,水,濕”,通過(guò)左鄰接詞的信息熵計(jì)算發(fā)現(xiàn),“個(gè)個(gè)”的左鄰接詞的信息熵很大,而“淋淋”的左鄰接詞的信息熵很小,從而可以判斷“個(gè)個(gè)”是一個(gè)常見(jiàn)的“AA”式疊詞,而“淋淋”就不能作為“AA”式疊詞出現(xiàn),如果“淋淋”在句子中單獨(dú)出現(xiàn)的話,可能存在錯(cuò)誤。
AA的鄰接詞W集合:
AdjWordSe={W1,W2,…,Wn}
對(duì)應(yīng)的鄰接詞和AA的共現(xiàn)頻次F={F1,…,Fn},疊詞的鄰接詞信息熵采用如下方式計(jì)算:
(2)
式(2)中的P(Wi|W)用如下方式計(jì)算:
(3)
本文通過(guò)算法1來(lái)獲取和驗(yàn)證“AAB”、“ABB”、“ABA”、“ABAB”、“AABB”和“AA”式疊詞。算法1以“AAB”式和“AA”式疊詞為例,具體如下:
輸入:五元組FiveElementModel輸出:AAB疊詞詞典AABDic;AA疊詞詞典AADic1:Begin2:CandidateSet←?3: foreachgraminFiveElementModeldo4: ifgram是滿足(A,0,AB,0,*)或(AA,0,B,*)(A,0,A,0,B)then5:CandidateSet←AAB6: 統(tǒng)計(jì)AAB的頻次,并且統(tǒng)計(jì)AA其左右鄰接詞7: endif8: endfor9: foreachwordindo10: 利用公式1計(jì)算疊詞結(jié)合度11: ifcombineDegree(word)>αthen12: AABDic←word13: endif14: 利用公式2計(jì)算AA的左右信息熵LH(AA),RH(AA)15: ifLH(AA)>β&&RH(AA)>βthen16: AADic←AA17: endif18: endfor19: 輸出AAB式詞典20: 輸出AA式詞典21:End
通過(guò)進(jìn)行大規(guī)模語(yǔ)料(8G)中自動(dòng)獲取疊詞的實(shí)驗(yàn)來(lái)驗(yàn)證本文方法的有效性。本文方法在實(shí)驗(yàn)語(yǔ)料中獲取的疊詞數(shù)量如表1所示。
統(tǒng)計(jì)分析后得知:本文提出的基于統(tǒng)計(jì)的漢語(yǔ)疊詞的自動(dòng)獲取方法,其疊詞獲取的準(zhǔn)確率可達(dá)85.7%。實(shí)驗(yàn)結(jié)果表明:本文提出的漢語(yǔ)疊詞的自動(dòng)獲取方法能有效地獲得漢語(yǔ)疊詞。本研究只獲取到“AAB”、“ABB”、“ABA”、“ABAB”、“AABB”和“AA”式疊詞,下一步工作是設(shè)計(jì)算法獲取“AABC”、“BCAA”、“ABAC”式疊詞。
表1 實(shí)驗(yàn)結(jié)果
本文介紹了一種基于統(tǒng)計(jì)的漢語(yǔ)疊詞自動(dòng)識(shí)別方法。首先利用結(jié)構(gòu)合理的五元組模型對(duì)分詞后的語(yǔ)料進(jìn)行統(tǒng)計(jì)以獲得各類疊詞候選集。本文提出了疊詞的結(jié)合度計(jì)算方法,用疊詞的結(jié)合度來(lái)判斷實(shí)現(xiàn)“AAB”、“ABB”、“ABA”、“ABAB”、“AABB”式疊詞的自動(dòng)獲取,在疊詞度判斷的基礎(chǔ)上,進(jìn)一步通過(guò)左、右鄰接熵的運(yùn)算判斷實(shí)現(xiàn)“AA”式疊詞的自動(dòng)獲取。本文提出的方法根據(jù)結(jié)構(gòu)合理的五元組模型獲得的統(tǒng)計(jì)信息,結(jié)合疊詞度和信息熵的判斷,實(shí)現(xiàn)了疊詞的量化判斷和自動(dòng)獲取。實(shí)驗(yàn)結(jié)果表明:本文方法準(zhǔn)確率高,有利于更為精準(zhǔn)地開(kāi)展自然語(yǔ)言的信息化處理工作,在自然語(yǔ)言處理領(lǐng)域中具有十分明顯的實(shí)用意義。
參考文獻(xiàn):
[1]戰(zhàn)曉峰.漢英疊詞的語(yǔ)言類型學(xué)研究初探[J].考試周刊,2013(36):19-22.[2]汪維懋.漢語(yǔ)重言詞詞典[M].北京:軍誼出版社,1999.[3]雷蕾.漢英疊詞比較與翻譯探究[J].湖南工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào),2008(4):162-164..
[4]黃成洲.文學(xué)疊詞結(jié)構(gòu)漢譯[J].西安外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2001(1):33-35.
[5]李行建.現(xiàn)代漢語(yǔ)規(guī)范詞典[M].北京:外語(yǔ)教學(xué)與研究出版社,2004.
[6]孫繼萬(wàn).漢語(yǔ)疊字詞詞典[M].北京:中國(guó)大百科全書(shū)出版,2011.
[7]劉云.重疊研究索引[J].漢語(yǔ)學(xué)報(bào),2001(2):.1-10.
[8]鄭厚堯.ABB式疊詞的內(nèi)部結(jié)構(gòu)分析[J].湖北師范學(xué)院學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2005,25(3):51-55.
[9]崔健新.可重疊為AABB式的形容詞的范圍[J].世界漢語(yǔ)教學(xué),1995(4):14-22.
[10]孟令子,胡開(kāi)寶.基于語(yǔ)料庫(kù)的莎劇漢譯本中AABB式疊詞應(yīng)用的研究[J].上海外國(guó)語(yǔ)大學(xué)學(xué)報(bào),2015(1):82-89.
[11]陳光.現(xiàn)代漢語(yǔ)雙音動(dòng)詞和形容詞的特別重疊式——兼論基本重疊式的類化作用與功能滲透[J].漢語(yǔ)學(xué)習(xí),1997(3):54-58.
[12]李宇明.雙音節(jié)性質(zhì)形容詞的ABAB式重疊[J].漢語(yǔ)學(xué)習(xí),1996(4):24-27.
[13]戴莉.ABB類形容詞的構(gòu)成要素及其性質(zhì)[J].社科縱橫,1999(1):23-26.
[14]殷寄明.從語(yǔ)源學(xué)角度看“干巴巴”類派生詞[J].南京師范大學(xué)文學(xué)院學(xué)報(bào),2001(1):50-56.
[15]顧森.基于大規(guī)模語(yǔ)料的新詞發(fā)現(xiàn)算法[J].程序員,2012(7):54-57.
(責(zé)任編輯楊黎麗)
收稿日期:2016-03-22
作者簡(jiǎn)介:楊帆(1982—),男,工程師,主要從事計(jì)算機(jī)應(yīng)用研究;通訊作者 劉亮亮(1979—),博士,講師,主要從事自然語(yǔ)言理解研究。
doi:10.3969/j.issn.1674-8425(z).2016.07.021
中圖分類號(hào):TP39
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1674-8425(2016)07-0123-06
Automatic Recognition Method for Chinese Reduplicated Words Based on Statistical Method
YANG Fan1, LIU Liang-liang2
(1.The 723rdResearch Institute of China Shipbuilding Industry Corp,Yangzhou 225001, China; 2.Computer Science and Engineering School,Jiangsu University of Science and Technology, Zhenjiang 212003, China)
Abstract:We proposed a Chinese reduplicated words automatic acquisition method. Firstly, the structure reasonable five-tuple model obtained various kinds of reduplicated words from corpus after segmentation. And on this basis, reduplicated words in forms of “AAB” and “ABB”, “ABA”, “ABAB”, “AABB” would be automatically acquired according to combination degree. In order to obtain “AA” type of reduplicated words, this method calculated left adjacent entropy and rightadjacent entropy. According to the statistical information obtained by the structure reasonable five-tuple model, combination degree and entropy, these methods can automatically acquire Chinese reduplication. Experiments show that this method can effectively achieve the automatic acquisition of Chinese reduplication, and the accuracy rate is high.
Key words:Chinese reduplicated words; five-element model; combinative degree of reduplicated woeds; left and right adjoined entropy
引用格式:楊帆,劉亮亮.基于統(tǒng)計(jì)的漢語(yǔ)疊詞自動(dòng)識(shí)別研究[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2016(7):123-128.
Citation format:YANG Fan, LIU Liang-liang.Automatic Recognition Method for Chinese Reduplicated Words Based on Statistical Method[J].Journal of Chongqing University of Technology(Natural Science),2016(7):123-128.