• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    三詞型術(shù)語抽取研究

    2017-07-10 07:52:42那日松劉青
    中國科技術(shù)語 2017年3期

    那日松+劉青

    摘 要:主要討論了由三個詞組成的術(shù)語的抽取問題。首先從實(shí)驗(yàn)語料中抽取了三個詞組成的詞串,利用語法規(guī)則剔除了不符合要求的三詞串,最后對剩下的三詞串進(jìn)行了人工判別,判斷其是否為術(shù)語。研究發(fā)現(xiàn):1)由三個詞組成的術(shù)語數(shù)量相對較少;2)所獲得術(shù)語中被賦予新含義的術(shù)語占多數(shù);3)同一領(lǐng)域術(shù)語間的流通性不同;4)三個以上的詞組成的術(shù)語仍然存在,只是數(shù)量直線下降。

    關(guān)鍵詞:三詞型術(shù)語,術(shù)語抽取,法律術(shù)語

    中圖分類號:H083;H087;D90 文獻(xiàn)標(biāo)識碼:A DOI:10.3969/j.issn.1673-8578.2017.03.002

    Research on Triword Term Extraction//Narisong,LIU Qing

    Abstract: This paper mainly discussed the topic of triword term extraction. We extracted all the linguistic strings formed by three words from the corpus, and filtered those illegal phrases based on the rule of grammar, and judge whether the rest of triword linguistic strings could be identified as terms. Our conclusions are: 1) there are a relatively small number of triword terms in the corpus; 2) many triword terms have been given new meanings; 3) terms in the same field have different negotiability; 4) there are terms formed by more than three words in the corpus, but the number of this kind term is falling sharply.

    Keywords: triword term,term extraction,legal term

    引 言

    術(shù)語是專業(yè)領(lǐng)域中概念的語言指稱[1]。從不同的角度出發(fā)可以對術(shù)語進(jìn)行多種分類。從術(shù)語語言結(jié)構(gòu)的角度,可以把中文術(shù)語系統(tǒng)中的術(shù)語分為單詞型術(shù)語和多詞型術(shù)語[2]。單詞型術(shù)語是指由單詞構(gòu)成的術(shù)語,多詞型術(shù)語是指采用原有的單詞構(gòu)成詞組來表示新概念的術(shù)語。也就是說術(shù)語的長度不一,正如馮志偉在《現(xiàn)代術(shù)語學(xué)引論》中提出的,以組成術(shù)語的單詞數(shù)作為長度單位,術(shù)語的最小長度為1,大量術(shù)語分布在2~6詞之間[2]。

    從目前的術(shù)語抽取研究來看,主要是基于語料庫利用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法[3-6]來抽取術(shù)語,不過很多研究主要是側(cè)重于抽取單詞型的術(shù)語。多詞型術(shù)語數(shù)量較少、抽取難度大,使得其受到的關(guān)注度較低,而一些研究不再將術(shù)語分為單詞型術(shù)語和多詞型術(shù)語。

    本文主要是討論法律術(shù)語[7-8]的抽取問題,在之前的研究中筆者主要探討了單詞型和雙詞型法律術(shù)語的抽取[9],這里重點(diǎn)討論三詞型法律術(shù)語抽取的問題。首先對實(shí)驗(yàn)語料進(jìn)行分詞和詞性標(biāo)注,然后利用三元語法,將所有三詞串提取出來,之后利用排除法,剔除不符合語法規(guī)則的三詞串,最后人工識別出了所有可能的三詞型法律術(shù)語。

    一 語料與研究方法

    研究材料選用了香港雙語法例資料系統(tǒng)(BLIS, Bilingual Laws Information System)[10]中的1萬個句子,包含37萬多個詞的語料。語料利用ICTCLAS分詞系統(tǒng)進(jìn)行了分詞和詞性標(biāo)注,標(biāo)注時遵循了北大詞性標(biāo)準(zhǔn)。

    研究采用了統(tǒng)計(jì)和語法規(guī)則相結(jié)合的方法。三個詞組成的詞串的抽取主要使用了n元語法,即將語料中同時出現(xiàn)在一個上下文中的三個詞組成的詞串都挑選出來,并對其出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì)。之后對所有三詞串進(jìn)行是否合法的判別,判斷三詞串是否符合語法規(guī)則,是否為符合人類語言規(guī)律的詞串。

    n元語法(ngram)[11]是指文本中連續(xù)出現(xiàn)的n個語詞。n元語法模型是基于(n-1)階馬爾可夫鏈的一種概率語言模型,通過n個語詞出現(xiàn)的概率來推斷語句的結(jié)構(gòu)。本文使用三元語法,提取了語料中所有三詞串,并計(jì)算了它們的出現(xiàn)次數(shù)。

    按照國家標(biāo)準(zhǔn)GB/T 10112—1999 術(shù)語工作·原則和方法,術(shù)語選擇和術(shù)語構(gòu)成的要求是:1)單名單義性;2)顧名思義性;3)簡明性;4)派生性;5)穩(wěn)定性;6)合乎本族語言習(xí)慣。我們嚴(yán)格按照該原則和方法來人工識別了語料中所有的法律術(shù)語。

    二 數(shù)據(jù)與討論

    除去標(biāo)點(diǎn)符號,我們共獲得了94 823個三詞串,去掉包含助詞(/u)、介詞(/p)、副詞(/d)、方位詞(/f)、非語素詞(/x)、連詞(/c)、量詞(/q)的詞串后,剩下16 778個三詞串。人工識別出406個候選三詞型術(shù)語,在百度百科和法律詞典中查詢和確認(rèn)后,共獲得了76個待定的法律術(shù)語和36個法律術(shù)語。

    1.待定的法律術(shù)語

    76個待定的法律術(shù)語大部分以“法律、條例、程序、合約、令、規(guī)則、狀、罪、訴訟、權(quán)、法則、法令、事宜”等詞結(jié)尾,這類詞雖然由多個修飾成分組合而成,而且大部分能讓大家理解所表述的內(nèi)容,但是也存在著法律層面對于這種條例新的詮釋和解讀,所以類似這樣的詞該如何判別其是否為術(shù)語呢?如果從術(shù)語的定義出發(fā),這樣的組合詞已經(jīng)在法律領(lǐng)域賦予了新的定義,而不是人們普遍理解的字面含義,應(yīng)該有法律層面的解釋。這類詞主要特點(diǎn)是使用頻率相對較高,頻繁出現(xiàn)在法律領(lǐng)域文獻(xiàn)中,只是組成部分組詞能力較強(qiáng)。我們將這類法律術(shù)語稱為法律常用詞。

    2.法律術(shù)語

    嚴(yán)格來說,我們從16 778個詞串中只抽取到了36個法律術(shù)語,占全部三詞串的0.2%,非常低,假設(shè)我們把前述76個詞也認(rèn)作術(shù)語,其比例也只占到0.67%,這也是人們很少討論或者忽略討論多詞型法律術(shù)語的原因所在。表1是我們從實(shí)驗(yàn)語料中提取出來的36個法律術(shù)語。表中分別列出了每個詞的詞性和出現(xiàn)頻數(shù)。由于分詞工具無法做到百分百正確,所以有些分詞和詞性標(biāo)注結(jié)果有誤。這些法律術(shù)語大部分是賦予了法律含義后的詞,所承載的含義不是組成它們的三個詞的含義的相加,所以這類法律術(shù)語是真正的法律專用詞。

    3.問題討論

    (1)頻率不是判斷法律術(shù)語的關(guān)鍵指標(biāo)。從表1可見,這些法律術(shù)語的出現(xiàn)頻數(shù)并不高,基本都在10次以下。主要原因可能在于我們選擇的語料規(guī)模不夠大,而且這些法律術(shù)語使用范圍受限,只適合在法律領(lǐng)域或者其中某些部分使用,即有些法律術(shù)語只是在某些章節(jié)中集中出現(xiàn),而在其他章節(jié)較少提及或者基本不會提及。但有些組合能力較強(qiáng)的術(shù)語,在整個法律語料中使用的頻率都比較高。所以有必要將術(shù)語分為兩個等級:領(lǐng)域常用詞和領(lǐng)域?qū)S迷~。領(lǐng)域常用詞主要特點(diǎn)是在某一個領(lǐng)域內(nèi)使用頻繁,組詞能力強(qiáng),而領(lǐng)域?qū)S迷~使用頻率并不高,但是所承載的領(lǐng)域信息較強(qiáng)。這也充分說明了在流通性方面,術(shù)語間有較大的差別。

    (2)多詞型術(shù)語雖然少,仍有少量以片段的形式出現(xiàn)在三詞串中,例如:“監(jiān)/g 理/v 誓/g (2)”(監(jiān)理誓章);“知/v 會/v 備/v (45)”(知會備忘);“皇/g 制/v 誥/v (4)”(英皇制誥);“餉/v 租/v 值/v (41)”“課/n 差/v 餉/v (41)”(應(yīng)課差餉租值)。

    (3)分詞和詞性標(biāo)注錯誤也部分影響術(shù)語的判別。特別是對于兼類詞的分詞和詞性標(biāo)注錯誤常有發(fā)生。例如:“雙/b 語法/n 例/v”。

    (4)多詞型術(shù)語的自動識別難度較大,因?yàn)檫@些術(shù)語出現(xiàn)頻次較低,組詞能力較弱,都是些新生詞,且賦予了新的含義,分詞工具無法正確地應(yīng)對和切分這些詞,反而有所妨礙。

    三 結(jié) 語

    以上針對性地討論了三個詞組成的三詞型法律術(shù)語的抽取問題,由于大部分詞和術(shù)語的長度集中在一詞或二詞范圍內(nèi),所以三詞組成的術(shù)語相對較少。我們將所有可能的三詞串都抽取出來,對其進(jìn)行了進(jìn)一步的研究分析,最后只獲得了極少的術(shù)語。這也說明了自動抽取多詞型術(shù)語的難度相當(dāng)大,而且完全靠自動的方法獲得所有多詞型術(shù)語需要付出比較大的代價,需要大量的人力和時間才能實(shí)現(xiàn)。不過也不能因?yàn)槎嘣~型術(shù)語數(shù)量少,抽取難度大而忽略了對它們的研究,也應(yīng)積極搜集并補(bǔ)充相應(yīng)的術(shù)語詞典。

    研究中我們總結(jié)出:1)建議將術(shù)語進(jìn)行分類,例如分為領(lǐng)域常用詞和領(lǐng)域?qū)S迷~,這樣更利于術(shù)語特點(diǎn)的掌握及自動提取。2)分詞和詞性標(biāo)注出現(xiàn)錯誤,會影響語法規(guī)則(詞性,短語結(jié)構(gòu))在剔除非法律術(shù)語時所起的作用。3)從詞的層面或者詞間關(guān)系的層面,較難給出判別術(shù)語的特別有效的規(guī)則來,所以可以考慮從句子結(jié)構(gòu)的層面出發(fā),通過句法分析來發(fā)現(xiàn)和抽取術(shù)語。

    參考文獻(xiàn)

    [1] 國家技術(shù)監(jiān)督局. GB/T 10112—1999 術(shù)語工作·原則和方法[S].北京:中國標(biāo)準(zhǔn)出版社,2000:1-8.

    [2] 馮志偉.現(xiàn)代術(shù)語學(xué)引論[M].北京:語文出版社,1997.

    [3] 周浪. 中文術(shù)語抽取若干問題研究[D]. 南京:南京理工大學(xué), 2009.

    [4] 張榕.術(shù)語定義抽取、聚類與術(shù)語識別研究[D].北京:北京語言文化大學(xué),2003.

    [5] 張勇.中文術(shù)語自動抽取相關(guān)方法研究[D].武漢:華中師范大學(xué),2006.

    [6] 凌祺,樊孝忠.領(lǐng)域詞匯自動獲取的研究[J].微機(jī)發(fā)展,2005(8):148-150.

    [7] 劉紅嬰.法律語言學(xué)[M].北京:北京大學(xué)出版社,2007.

    [8] 封鵬程.現(xiàn)代漢語法律語料庫的建立及其詞匯計(jì)量研究[D].南京:南京師范大學(xué),2005.

    [9] 那日松.法律術(shù)語抽取研究[D].北京:中國傳媒大學(xué),2008.

    [10] 揭春雨,劉曉月,冼景炬,等.從網(wǎng)絡(luò)獲取香港法律雙語語料[C]//南京師范大學(xué).全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集.北京:清華大學(xué)出版社,2005:193-199.

    [11] Manning C D, Schütze H. Foundations of Statistical Natural Language Processing[M].Cambridge: MIT Press, 1999:192-195.

    敖汉旗| 长子县| 汝南县| 诸暨市| 壤塘县| 石家庄市| 镶黄旗| 澄城县| 财经| 南溪县| 雅安市| 家居| 翁源县| 正阳县| 崇义县| 阜新市| 明水县| 汝城县| 封开县| 玉龙| 甘孜| 惠安县| 永安市| 蚌埠市| 白河县| 齐齐哈尔市| 会东县| 昌邑市| 唐河县| 舒兰市| 文昌市| 新沂市| 长治市| 黄大仙区| 闵行区| 连州市| 宝鸡市| 凭祥市| 淳安县| 固镇县| 宜宾县|