• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向普通未登錄詞理解的二字詞語(yǔ)義構(gòu)詞研究

      2015-04-21 10:52:22吉志薇馮敏萱
      中文信息學(xué)報(bào) 2015年5期
      關(guān)鍵詞:詞素構(gòu)詞分詞

      吉志薇,馮敏萱

      (1. 南京師范大學(xué) 文學(xué)院,江蘇 南京 210097; 2. 天津?yàn)I湖中學(xué),天津 300060)

      ?

      面向普通未登錄詞理解的二字詞語(yǔ)義構(gòu)詞研究

      吉志薇1,2,馮敏萱1

      (1. 南京師范大學(xué) 文學(xué)院,江蘇 南京 210097; 2. 天津?yàn)I湖中學(xué),天津 300060)

      把詞素作為基本資源,從語(yǔ)義上尋找他們組合成詞的規(guī)律,可以輔助自然語(yǔ)言理解。該文首先參照《現(xiàn)代漢語(yǔ)詞典》和知網(wǎng)標(biāo)注了二字詞的詞素意義,繼而從意合結(jié)構(gòu)、意根分布、意指方式、意變類型四個(gè)角度標(biāo)注了詞素間的詞化意義,最后綜合詞素意義和詞化意義,在定量統(tǒng)計(jì)的基礎(chǔ)上建立了一個(gè)二字詞的語(yǔ)義描寫體系。通過對(duì)論壇及《現(xiàn)代漢語(yǔ)詞典》的新詞進(jìn)行實(shí)驗(yàn),我們發(fā)現(xiàn)二字詞的語(yǔ)義構(gòu)詞研究在普通未登錄詞的理解中具有一定的應(yīng)用價(jià)值。

      二字詞;普通未登錄詞;語(yǔ)義構(gòu)詞

      1 引言

      根據(jù)黃昌寧的研究,未登錄詞中除去日期、時(shí)間、百分?jǐn)?shù)、人名、地名、機(jī)構(gòu)名等專名以及派生詞的那一部分就是普通未登錄詞,也有學(xué)者稱之為新詞。在中文信息處理領(lǐng)域,未登錄詞是影響分詞精度最主要的因素之一。未登錄詞中的新詞數(shù)量眾多, 和

      現(xiàn)代漢語(yǔ)中基本詞、常用詞等在構(gòu)詞規(guī)律上有很大的相似性,具有重要的研究?jī)r(jià)值。在現(xiàn)代漢語(yǔ)詞匯中,二字詞占主體地位,對(duì)其研究有助于我們了解大多數(shù)詞匯的構(gòu)詞規(guī)律。與詞相比,詞素?cái)?shù)量相對(duì)有限,在一個(gè)相對(duì)封閉的范圍內(nèi),對(duì)二字詞的詞素進(jìn)行窮盡式考察可以幫助我們更好地發(fā)現(xiàn)一個(gè)字串之所以成為詞的理由。

      2 確定研究對(duì)象

      首先利用計(jì)算機(jī)提取《現(xiàn)代漢語(yǔ)詞典》*下文簡(jiǎn)稱《現(xiàn)漢》。(第6版)[1]中的所有二三字詞*盡管本文的研究目標(biāo)是二字詞,但考慮到三字詞的意義以及進(jìn)一步研究的需要,我們選擇高頻詞素時(shí)也兼顧到了三字詞。和構(gòu)成這些二三字詞的詞素,進(jìn)而計(jì)算每個(gè)詞素的構(gòu)詞量,最終選取構(gòu)詞能力最強(qiáng)的50個(gè)詞素,在《現(xiàn)漢》中查找這些詞素構(gòu)成的二字詞并將其錄入excel表格中。

      根據(jù)本文的研究目標(biāo),我們排除以下幾類詞匯: (1)標(biāo)注有〈方〉的方言詞;(2)意義虛化、讀音弱化、位置固定、能產(chǎn)性強(qiáng)的典型詞綴構(gòu)成的詞,以“子”為例,它有兩種用法: 有意義區(qū)別作用的自由和半自由詞素,如“父子”、“男子”等;沒有意義區(qū)別作用的不自由詞素,如“帽子”、“旗子”等。后一類就屬于典型詞綴構(gòu)成的詞;(3)單純?cè)~,如“卡車”;(4)簡(jiǎn)稱,如“光驅(qū)”;(5)專名,如“道光”;(6)《現(xiàn)漢》(第6版)中新出現(xiàn)的二字詞。

      3 構(gòu)建標(biāo)注體系

      參照魯川[2]的詞義方程式,本文將詞素間的靜態(tài)關(guān)系,即義類組合,稱為詞素意義;將詞素間的動(dòng)態(tài)關(guān)系,即詞素和詞素化合時(shí)產(chǎn)生的詞素義之外的意義,稱為詞化意義;綜合詞素意義和詞化意義即可得到一個(gè)二字詞的釋義模式。

      3.1 詞素意義的標(biāo)注說明

      本文首先依據(jù)《現(xiàn)漢》標(biāo)注詞義,又參照知網(wǎng)對(duì)前字和后字的義項(xiàng)進(jìn)行歸類,最后根據(jù)詞義為前字和后字選擇相應(yīng)的義類。以“滾水”為例,由《現(xiàn)漢》可知“滾水”的詞義是“正在開著的或剛開過的水”。

      “滾”字的義項(xiàng)見表1:

      表1 “滾”字的義項(xiàng)

      觀察上表可得“滾”字七個(gè)義項(xiàng)分屬五個(gè)義類,義項(xiàng)①、②和⑤均屬于“變空間位置”這一義類,需要進(jìn)行合并。根據(jù)詞義“正在開著的或剛開過的水”可知,“滾”字在“滾水”一詞中使用的是義項(xiàng)③,所屬義類為“外觀變”。同理, “水”字在“滾水”一詞中使用的義項(xiàng)是“最簡(jiǎn)單的氫氧化合物”,所屬義類為“液”。因此,“滾水”的詞素意義應(yīng)為“外觀變+液”。8 984個(gè)二字詞共包含2 268個(gè)不同的詞素,通過標(biāo)注,我們構(gòu)建了基于這2 268個(gè)詞素的詞素-義類數(shù)據(jù)庫(kù)。

      3.2 詞化意義的標(biāo)注說明

      詞化意義主要是從意合結(jié)構(gòu)、意根分布、意指方式和意變類型四個(gè)方面進(jìn)行界定: 意合結(jié)構(gòu)說明詞素和詞素間的語(yǔ)法關(guān)系;意根分布是指二字詞意義核心所在的位置;意指方式說明詞素義和詞義之間的關(guān)系;意變類型立足于歷時(shí)發(fā)展,說明詞義變化的類型。具體分類如表2。

      表2 詞化意義標(biāo)注體系

      續(xù)表

      另外,在標(biāo)注失指(S)、另指(L)和仿指(F)時(shí)還需標(biāo)出產(chǎn)生失落、換喻或隱喻的詞素的位置(YZWZ),具體有三種: 前字(Q)、后字(H)以及整詞(Z)。

      綜合詞素意義和詞化意義示例如表3所示。

      表3 標(biāo)注示例

      4 二字詞語(yǔ)義描寫體系的構(gòu)建

      對(duì)8 984個(gè)二字詞的詞素意義和詞素間的詞化意義逐一進(jìn)行標(biāo)注和統(tǒng)計(jì),可得詞素意義分布表(見表4)、詞化意義分布表(見表5)和釋義模式分布表(見表6)。綜合詞素-義類數(shù)據(jù)庫(kù),我們構(gòu)建了二字詞的語(yǔ)義描寫體系。

      表4 二字詞詞素意義分布表部分示例

      ①本文所有數(shù)據(jù)均四舍五入精確到小數(shù)點(diǎn)后兩位。

      續(xù)表

      表5 二字詞詞素間詞化意義分布表部分示例

      表6 二字詞釋義模式部分示例

      續(xù)表

      5 二字詞語(yǔ)義描寫體系的應(yīng)用

      (1) 實(shí)驗(yàn)對(duì)象

      根據(jù)研究目標(biāo),本文從天涯論壇一則名為“你好,陌生人!日記接龍,獻(xiàn)給八卦的筒子們”的帖子*http://bbs.tianya.cn/post-funinfo-3189865-1.shtml中選取2014年4月至2015年4月的所有留言,經(jīng)過簡(jiǎn)單的人工處理,得到共計(jì)3 128個(gè)字的實(shí)驗(yàn)語(yǔ)料。

      (2) 實(shí)驗(yàn)過程

      分別利用陳小荷的中文信息處理實(shí)驗(yàn)平臺(tái)和中科院的ICTCLAS對(duì)實(shí)驗(yàn)語(yǔ)料進(jìn)行分詞。選取兩種分詞軟件均切分有誤的二字詞,可將其分成兩類: 一是專名,例如,“倒 春寒、回 南 天、汪 峰、徐 靜 蕾、齊 秦、星 某 克”等;二是普通未登錄詞,例如,“舍 友 、前 路、自 處、煎 蛋、水 煮、微 博、發(fā) 帖、命 格、妹 紙、腦 抽、驢 飲、扎 口”等。應(yīng)用二字詞的語(yǔ)義描寫體系對(duì)分詞有誤的22個(gè)普通未登錄詞進(jìn)行識(shí)別和理解。

      利用詞素-義類數(shù)據(jù)庫(kù)自動(dòng)標(biāo)注二字詞前后字的義類組合,以“安監(jiān)”為例,首先從詞素-義類數(shù)據(jù)庫(kù)中分別提取“安”和“監(jiān)”的所有義類,可知“安”有六種義類,“監(jiān)”有兩種義類;然后將“安”的所有義類逐一與“監(jiān)”的所有義類進(jìn)行組合,最終共得12種義類組合類型(見表7)。依據(jù)詞素意義分布表,計(jì)算機(jī)會(huì)對(duì)所有義類組合進(jìn)行自動(dòng)排序,同時(shí)返回排名最高的義類組合作為該詞最有可能的詞素意義。仍然以“安監(jiān)”為例,觀察表7可得,“安監(jiān)”的義類組合中,排名最高的是“變空間位置+變感知”。

      依據(jù)釋義模式分布表,計(jì)算機(jī)會(huì)為已經(jīng)確定詞

      表7 “安監(jiān)”的義類組合類型

      素意義的新詞標(biāo)注釋義模式并進(jìn)行排序,同時(shí)返回排名最高的釋義模式,據(jù)此推測(cè)新詞的詞義。觀察表8可得,詞素意義為“變空間位置+變感知”的釋義模式共有五種,其中“XEG+(變空間位置+變感知)”的排名最高,因此“安監(jiān)”最有可能的釋義模式就是“XEG+(變空間位置+變感知)”。

      表8 “安監(jiān)”的釋義模式排序

      (3) 實(shí)驗(yàn)結(jié)果

      觀察表9可得,除了“自處”一詞,其他21個(gè)普通未登錄詞的詞素意義均在詞素意義分布表中出現(xiàn)過,即這21個(gè)詞含有輔助計(jì)算機(jī)自動(dòng)識(shí)別的詞素意義類型,可被計(jì)算機(jī)識(shí)別,識(shí)別率為95.45%。

      我們將詞素意義分布表的構(gòu)詞量百分比*構(gòu)詞量百分比是指在8 984個(gè)二字詞中,一定范圍的詞素意義能構(gòu)成二字詞的比例。作為標(biāo)準(zhǔn),結(jié)合構(gòu)詞量,在降序排列的詞素意義分布表中以 20%左右的梯 度進(jìn)行分類,設(shè)定了五個(gè)參照集(見表10)。在這個(gè)表格中,處于第1參照集的詞素意義構(gòu)詞量最多,處于第5參照集的詞素意義構(gòu)詞數(shù)量最少。構(gòu)詞數(shù)量越多,證明此類詞素意義構(gòu)詞能力越強(qiáng),因此五個(gè)參照集中,第1參照集的構(gòu)詞能力最強(qiáng),剩下四個(gè)的構(gòu)詞能力依次降低。

      表9 22個(gè)普通未登錄詞的識(shí)別結(jié)果

      表10 五個(gè)詞素意義參照集

      續(xù)表

      在21個(gè)可識(shí)別的普通未登錄詞中(見表11),有六個(gè)二字組處于第1參照集中,成詞可能性非常大;有四個(gè)二字組處于第2參照集中,成詞可能性比較大;有五個(gè)二字組處于第3參照集中,成詞可能性一般;有四個(gè)二字組和2個(gè)二字組分別處于第4和第5參照集中,成詞可能性比較小。

      表11 21個(gè)二字組的成詞可能性分布表

      利用釋義模式分布表標(biāo)注各詞,結(jié)果如表12。觀察可得,22個(gè)詞中,只有“發(fā)帖、命格、舍友、霧霾、作死”5個(gè)詞的釋義模式可以大致推測(cè)出正確的詞義,理解正確率為22.73%。

      表12 22個(gè)普通未登錄詞的釋義模式

      續(xù)表

      本文的實(shí)驗(yàn)語(yǔ)料來自論壇,所以這些分詞有誤的普通未登錄詞大多為網(wǎng)絡(luò)語(yǔ)言。這些詞有些為原創(chuàng),難以尋找構(gòu)詞理?yè)?jù),如“心塞”;有些為諧音,難以還原詞素意義,如“妹紙”;有些為借用,往往產(chǎn)生了引申義或比喻義,如“扎口”等。因此,盡管大多數(shù)詞都含有可輔助計(jì)算機(jī)自動(dòng)識(shí)別的詞素意義,但計(jì)算機(jī)還是很難準(zhǔn)確地推測(cè)出它們的詞義。

      鑒于上述實(shí)驗(yàn)的局限性,作為補(bǔ)充,本文又在《現(xiàn)漢》(第6版)新出現(xiàn)的2 400多個(gè)二字詞中選取了新的實(shí)驗(yàn)對(duì)象。本文構(gòu)建的二字詞語(yǔ)義描寫體系只對(duì)8 984個(gè)二字詞中出現(xiàn)過的詞素所構(gòu)成的新詞有應(yīng)用價(jià)值。經(jīng)過篩選,我們共得到1 419個(gè)有效新詞,刪掉6個(gè)同形詞,最終確定了1 413個(gè)實(shí)驗(yàn)對(duì)象。經(jīng)過實(shí)驗(yàn),我們發(fā)現(xiàn)有1 367個(gè)新詞含有至少出現(xiàn)一次的義類組合形式,約占新詞總數(shù)的96.74%?;谖鍌€(gè)詞素意義參照集,這1 367個(gè)二字組的成詞可能性如表13所示。

      我們選取了詞素意義排名最高的“特性值+人”作為考察對(duì)象,由釋義模式分布表可知,“特性值+人”最常和“JHG”連用,其次為“JHZ、JHJ、JHGT”等。在1 413個(gè)新詞中,共有71個(gè)詞的義類組合中有“特性值+人”這一類,由于此類排名最高,所以計(jì)算機(jī)自動(dòng)將“JHG+(特性值+人)” 認(rèn)定為這些詞最有可能的釋義模式。依據(jù)“JHG+(特性值+人)”進(jìn)行推測(cè),詞義應(yīng)為“具有某種特性的人”。參照《現(xiàn)漢》(第六版)的釋義,我們可以發(fā)現(xiàn)共有31個(gè)詞,例如,“坐臺(tái)、主廚、雜役、淫婦、新兵”等可以表示這種詞義,其余40個(gè)詞如“座駕、坐臺(tái)、重器、中號(hào)”等均不含這種詞義,理解正確率為43.67%。由此可見,基于《現(xiàn)漢》(第6版)1 413個(gè)二字新詞的實(shí)驗(yàn)效果更好,本文的研究成果對(duì)較為規(guī)范的普通未登錄詞的應(yīng)用價(jià)值更大。

      表13 1 367個(gè)二字組的成詞可能性分布表

      ①百分比是指二字組個(gè)數(shù)在1367個(gè)總數(shù)中的百分比。

      6 結(jié)語(yǔ)

      通過面向自然語(yǔ)料的實(shí)驗(yàn),我們發(fā)現(xiàn)在規(guī)模較小的語(yǔ)料中,普通未登錄詞對(duì)分詞精度的影響非常之大?,F(xiàn)有的基于詞表的分詞方法、基于統(tǒng)計(jì)的分詞方法以及基于隱馬爾科夫模型的分詞方法對(duì)普通未登錄詞的識(shí)別都有點(diǎn)兒束手無策,而二字詞的語(yǔ)義描寫體系能夠有效地輔助識(shí)別普通未登錄詞?,F(xiàn)有問題是究竟頻率多大的詞素意義可以被基本認(rèn)定為詞,還有待進(jìn)一步驗(yàn)證。通過進(jìn)一步的對(duì)比實(shí)驗(yàn),我們還發(fā)現(xiàn),二字詞的語(yǔ)義描寫體系對(duì)較為規(guī)范的二字詞的理解效果更好。從實(shí)驗(yàn)結(jié)果來看,“從語(yǔ)義上尋找詞素和詞素組合成詞的規(guī)律,進(jìn)而指導(dǎo)普通未登錄詞的識(shí)別和理解”這一思路對(duì)中文自動(dòng)分詞存在著較高的應(yīng)用價(jià)值,對(duì)這一專題深入研究,看似是一條提高自動(dòng)分詞精度的可行之路。

      [1] 中國(guó)社會(huì)科學(xué)院語(yǔ)言所詞典編輯室.現(xiàn)代漢語(yǔ)詞典(第6版)[Z].北京: 商務(wù)印書館,2012.

      [2] 魯川,王玉菊.漢語(yǔ)信息語(yǔ)法學(xué)[M].濟(jì)南:山東教育出版社,2008.

      [3] 李行健.漢語(yǔ)構(gòu)詞法研究中的一個(gè)問題—關(guān)于“養(yǎng)病”“救火”“打抱不平”等詞語(yǔ)的結(jié)構(gòu)[J].語(yǔ)文研究,1982,(2):61-68.

      [4] 符淮青.現(xiàn)代漢語(yǔ)詞匯[M].北京:北京大學(xué)出版社,1985.

      [5] 王樹齋.漢語(yǔ)復(fù)合詞詞素義和詞義的關(guān)系[J].漢語(yǔ)學(xué)習(xí),1993,(3):17-22.

      [6] 苑春法,黃昌寧.基于語(yǔ)素?cái)?shù)據(jù)庫(kù)的漢語(yǔ)語(yǔ)素及構(gòu)詞研究[J].世界漢語(yǔ)教學(xué),1998,(2):7-12.

      [7] 朱彥.復(fù)合詞的語(yǔ)義結(jié)構(gòu)與詞素義的提示機(jī)制[D].廣西師范大學(xué)碩士學(xué)位論文,2000.

      [8] 馮海霞,張志毅.《現(xiàn)代漢語(yǔ)詞典》釋義體系的創(chuàng)建與完善[J].中國(guó)語(yǔ)文,2006,(5):455-480.

      A Study on Semantic Word-Formation of Bi-Character Words for Common Unknown Word Understanding

      JI Zhiwei1,2, FENG Minxuan1

      (1. School of Chinese Language and Literature, Nanjing Normal University, Nanjing, Jiangsu 210097, China;2. Bin Hu Middle School, Tianjin 300060, China)

      The approach to investigate the semantic rules in word- formation via the the granularity of the morpheme can help understand natural language .This paper first labeles the sense of the front and back morpheme of the two-character words by referring to the Modern Chinese Dictionary and HowNet. Then we labele the lexicalized meaning between the morphemes from the perspectives of the structure of semantic combination, the distribution of semantic root, the mode of semantic combination and the type of semantic variation. Finally, we combined the morpheme meaning with lexicalization meaning quantitatively to set up a semantic scheme to account for the two-character words . Tested by the two-character words from BBS and the Modern Chinese Dictionary, it reveals some applicationvalue on the understanding of common unknown words.

      two-character words; semantic word-formation; common unknown word

      吉志薇(1988—),碩士研究生,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)、詞匯語(yǔ)義學(xué)。E-mail:sichenfeimengli@163.com馮敏萱(1978—),通信作者,副教授,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?、平行語(yǔ)料庫(kù)建設(shè)。E-mail:fengminxuan@njnu.edu.cn

      1003-0077(2015)05-0063-06

      2015-07-10 定稿日期: 2015-09-10

      江蘇高校優(yōu)勢(shì)學(xué)科建設(shè)工程資助項(xiàng)目;基于注疏文獻(xiàn)的先秦漢語(yǔ)語(yǔ)料信息處理研究(15BYY096);向量組合學(xué)習(xí)框架下基于依存混合樹的中文語(yǔ)義解析研究(F020606)

      TP391

      A

      猜你喜歡
      詞素構(gòu)詞分詞
      從構(gòu)詞詞源看英漢時(shí)空性差異
      結(jié)巴分詞在詞云中的應(yīng)用
      詞素配價(jià)理論與應(yīng)用
      亞太教育(2018年5期)2018-12-01 04:58:23
      認(rèn)知視野下“好”、“壞”構(gòu)詞的對(duì)稱性研究
      從詞素來源看現(xiàn)代漢語(yǔ)詞素同一性問題
      辭書研究(2017年3期)2017-05-22 14:04:16
      值得重視的分詞的特殊用法
      “分”的音變構(gòu)詞及其句法語(yǔ)義特征
      詞素溶合與溶合詞素
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      俄語(yǔ)詞素及其意義探究
      平凉市| 尉犁县| 丰镇市| 溧阳市| 吉隆县| 锦州市| 绵竹市| 盐山县| 长沙县| 海口市| 肃宁县| 宣恩县| 高雄市| 太湖县| 密山市| 久治县| 德阳市| 康定县| 万宁市| 大田县| 米易县| 东莞市| 武城县| 名山县| 芜湖市| 延寿县| 通河县| 花垣县| 长春市| 鸡西市| 武功县| 龙口市| 加查县| 化德县| 巴林左旗| 英吉沙县| 惠东县| 绥棱县| 大足县| 安平县| 和林格尔县|