• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺析人工智能在辭書編纂中的應用
      ——以收詞立目為例

      2019-01-24 01:23:12
      新聞傳播 2018年23期
      關鍵詞:新義高頻詞辭書

      (上海理工大學 上海 200093)

      近年來,人工智能發(fā)展勢頭迅猛,對各行各業(yè)都產(chǎn)生了深遠的影響,體現(xiàn)在辭書出版領域即人工智能技術在辭書編纂現(xiàn)代化中的應用。眾所周知,傳統(tǒng)的辭書編纂是一項勞力費時的工作,動輒“十年磨一劍”。尤其是收詞立目,工作量巨大。因此,收詞立目的智能化對辭書編纂現(xiàn)代化至為關鍵。本文試圖對如何利用人工智能促進收詞立目的智能化進行初步探討。

      一、收詞立目是辭書編纂的基礎

      一部嚴肅編纂的辭書,基本上要經(jīng)歷“確定體例、收詞立目、編寫條目、編輯加工”等諸多知識創(chuàng)造的過程。新辭書的編纂體例確定之后,收詞立目就成了辭書編纂的基礎。《漢語大詞典》的編纂中,動用了華東地區(qū)五省一市的專家學者,從1萬多部典籍(報刊)中,制作了800多萬張資料卡片,才編寫出了5000萬字、37萬多條目的皇皇巨著。這1萬多部典籍(報刊)中,《新民晚報》《魯迅全集》《四庫全書》各算1種。

      (一)資料的積累

      實際上一些中小型辭書的編寫,是在作者平時資料的積累之上實現(xiàn)的。如王均熙先生的《漢語新詞詞典》,就是其積累了大量漢語新詞的資料后,開始了這一辭書的編寫。其編寫和修訂長達二三十年。

      陳尚君先生在《我作〈辭?!敌抻啞芬晃闹幸苍U述,“1989版《辭?!?,唐宋文學部分修訂費時在半年以上。此后幾次費時沒有這么多,因所涉問題已熟悉,且有長期關注積累?!?/p>

      可見,收詞立目是傳統(tǒng)辭書編纂的重要一環(huán),也就是說,資料的積累是辭書編纂的基礎。

      (二)收詞立目是知識含量巨大的工作

      在辭書的編纂中,收詞立目是一項曠日持久、費力巨大的工作,也是知識含量巨大的工作。

      如以《漢語大詞典》為例,從1萬多部典籍(報刊)中,制作了800多萬張資料卡片,平均每部典籍(報刊)約收錄了800張資料卡片??紤]到這些典籍中不乏《四庫全書》《四部備要》《四部叢刊》《二十四史》《全唐詩》《全宋詞》《魯迅全集》等叢書、類書、合集等,因此一部書平均只制作800張資料卡片——其圈詞率非常之低,所制作的資料卡片質(zhì)量極佳。這與《漢語大詞典》編纂初期,有大批被閑置的專家學者參與了《漢語大詞典》的編纂工作有關。他們淵博的知識極大地提高了這批資料卡片的質(zhì)量。在國家轉(zhuǎn)入四個現(xiàn)代化建設后,專家學者紛紛回到了自己的工作崗位上。現(xiàn)在如果再有類似項目,將無法召集如此多的專家學者參與其中。

      二、計算機技術的應用對收詞立目的幫助

      計算機技術中漢字顯示技術、漢字輸入法、數(shù)據(jù)庫等技術的發(fā)展,極大地幫助了辭書編纂工作的數(shù)字化,推進了辭書編纂現(xiàn)代化的發(fā)展。國內(nèi)多家出版社紛紛建立了各類辭書數(shù)據(jù)庫,編纂平臺的研究與應用也十分火熱。尤其是計算機技術中統(tǒng)計與匹配技術的運用,解決了漢語詞語的切詞問題,使?jié)h語新詞的發(fā)現(xiàn)變得不費吹灰之力,從而解決了漢語新詞的收詞立目難題,極大地幫助了辭書編纂與修訂工作。

      例:2004年復旦大學宋國梁老師在易文網(wǎng)演示的漢語新詞確認原理

      計算機技術解決漢語新詞的發(fā)現(xiàn)與確認,對于解決辭書編纂中新詞的例證收集與語義分析有很大的幫助,解決了新詞的收詞立目問題。然而對于辭書編纂中舊詞新義的發(fā)現(xiàn),以及漢語高頻詞如何能精選出有典型意義的例證,目前的實際發(fā)展情況仍然是困難重重。

      三、語義理解的瓶頸下收詞立目的兩大難題

      (一)難題一:舊詞新義的發(fā)現(xiàn)

      舊詞新義主要有兩類。

      一是舊詞中被遺漏的義項。

      數(shù)千年傳承的中華民族文化博大精深,卷帙浩繁,在已經(jīng)編纂的辭書中遺漏一些不常用的義項,是很正常的事。在渺如煙海的典籍中檢索某個詞,檢索的結果可能會達數(shù)萬個,甚至數(shù)十萬個。這數(shù)萬、數(shù)十萬個用例中,有很多的義項都是相同的。從中找出被遺漏的義項,無疑是沙里淘金,需要花費大量的功夫。以前的這類工作,主要靠學者在平時的積累與發(fā)現(xiàn)。而面對浩繁的典籍,無法再用專家學者收詞立目時的傳統(tǒng)閱讀辨識方法進行。

      二是舊詞在新環(huán)境下產(chǎn)生的新義項、新的語法功能。

      在語言的發(fā)展中,很多新的義項的表達,往往采用舊詞賦以新義的方法來實現(xiàn)。由于目前的辭書編纂平臺中缺乏語義的辨析功能,因此還無法實現(xiàn)對這類舊詞新義的發(fā)現(xiàn)。

      舊詞新義的發(fā)掘,是辭書編纂中,新辭書編纂和舊辭書修訂的一個重要部分。目前仍是靠個別專家學者日常閱讀中的發(fā)現(xiàn)進行記錄保存。誠如陳尚君先生所言,只能靠“長期關注積累”。

      (二)難題二:如何精選出高頻詞的經(jīng)典例證

      高頻詞在語料庫中大量存在。編纂一部新的辭書,如果僅僅依靠對語料進行切詞處理來解決高頻詞的義項和例證,一些高頻詞的數(shù)量將是成千上萬。篩選的工作將不堪之重。如副詞“的、地、得”,在語料庫中的數(shù)量非常多,篩選的工作量非常之大。

      從目前來說,舊詞新義的發(fā)現(xiàn)以及如何精選出高頻詞的經(jīng)典例證,仍然是辭書編纂現(xiàn)代化中還沒有逾越的一個頑障,計算機語義理解的瓶頸阻礙了辭書編纂現(xiàn)代化的發(fā)展。

      四、運用人工智能高效率解決收詞立目難題的可行性

      與辭書出版界在詞匯的語義分析前躊躇不前相反,中文信息的計算機處理卻在高歌猛進。2014年的中國計算機學會中文信息處理專業(yè)委員會的學生會員比賽中,已經(jīng)能對140字的微博進行情感分析。因此運用中文信息處理的人工智能,將之與辭書編纂平臺技術相結合,可以高效率地解決收詞立目中舊詞新義的識別難題。

      在辭書編纂現(xiàn)代化中,人工智能施展的舞臺極其廣闊。僅從收詞立目的角度來看,起碼可以在兩個方面著手,解決收詞立目的瓶頸問題。

      (一)可以幫助發(fā)現(xiàn)舊詞新義

      上面談到了在浩繁的典籍中,尋覓舊詞新義的難度在于對語義的分析。而在下面的工作流程中,添加了人工智能對語義的分析,就可以幫助實現(xiàn)舊詞新義的辨析。

      上面的處理過程中,在完成詞庫匹配并確認為一個詞時,智慧系統(tǒng)可以自動進行該詞的資料卡片制作。

      如果是初級的智慧系統(tǒng),在制作資料卡片時可以自動截取出現(xiàn)該詞部分的前80字和后80字(此處80字僅為舉例說明),并自動將這段文字中最早出現(xiàn)的表示句子完成的標點符號(如句號、感嘆號、問號等)之前的文字和該標點符號剔除,再剔除這段文字最后出現(xiàn)的表示句子完成的標點符號之后的文字和符號。然后自動配上該文本的篇名、作者名、章節(jié)等基本信息,即完成了該詞的資料卡片制作。

      如果是高級的智慧系統(tǒng),可以直接對該詞的前后文字進行截取和分析,然后完成該詞資料卡片的制作。

      完成資料卡片的制作后,智慧系統(tǒng)將自動進行語義的辨析,隨后與已有的釋義庫進行匹配比對。如果釋義庫已經(jīng)有了該項釋義,則該詞將被另行處理或直接放棄。如果釋義庫中沒有該詞(即匹配不合格),即呈送專家進行人工干預,確認為舊詞新義后,歸入舊詞新義數(shù)據(jù)庫。

      (二)可以解決高頻詞經(jīng)典例證的精選

      之所以說辭書編纂過程中的圈詞是含金量非常高的工作,在于專家圈詞時可以自動將一些高頻詞的出現(xiàn)忽略,但同時對具備典型義項的高頻詞例證非常敏感,不會疏漏。這就對模仿人工智能的智慧系統(tǒng)提出了更高的要求:既要能自動篩選掉高頻詞中無典型語義的例證,又要能迅速抓取高頻詞中具有典型語義的例證。

      上面的處理過程中,要求智慧系統(tǒng)能夠自動分析高頻詞在具體語境中的語義,然后自動與釋義庫該詞條下的所有義項進行語義的匹配比對。如果釋義庫中已經(jīng)有了該項釋義,則該詞將被另行處理或直接放棄。而解決高頻詞義項的精選,正是“另行處理”中的一例。例如可以補充某個詞的某個義項的更早出處,或更典型的用例。

      結語

      在計算機技術的推動之下,辭書編纂的現(xiàn)代化已經(jīng)有了長足的發(fā)展。但應該說,還沒有充分利用計算機學界已經(jīng)研發(fā)的新技術和新成果,導致在辭書編纂的某些環(huán)節(jié)中遇到了瓶頸,阻滯了辭書編纂現(xiàn)代化的進程。而從本文的初步探討中,我們可以看到,充分運用人工智能技術對語料進行語義的智能分析,從而突破舊詞新義的發(fā)現(xiàn)和高頻詞經(jīng)典例證精選的兩大難題,是切實可行的??梢哉f,人工智能是新時代背景下推進辭書編纂現(xiàn)代化的最佳利器,其發(fā)展空間極為廣闊,有待業(yè)內(nèi)人士進一步探索。

      猜你喜歡
      新義高頻詞辭書
      CISHU YANJIU LEXICOGRAPHICAL STUDIES
      辭書研究(2022年2期)2022-03-19 23:04:19
      30份政府工作報告中的高頻詞
      小康(2022年7期)2022-03-10 11:15:54
      省級兩會上的高頻詞
      小康(2022年7期)2022-03-10 11:15:54
      大型辭書疑難字考釋七則
      28份政府工作報告中的高頻詞
      小康(2021年7期)2021-03-15 05:29:03
      省級兩會上的高頻詞
      小康(2021年7期)2021-03-15 05:29:03
      舊裙新義
      從異解看成語新義的形成
      “奇葩”一詞的發(fā)展變化及原因
      文學教育(2017年11期)2017-10-23 13:19:58
      あたらずといえどもとおからず
      双牌县| 岑溪市| 尼勒克县| 时尚| 苏尼特左旗| 华池县| 科技| 泸西县| 南充市| 无极县| 新野县| 桑日县| 武穴市| 蓬安县| 青海省| 久治县| 香河县| 永安市| 阿鲁科尔沁旗| 江安县| 金川县| 正宁县| 当阳市| 长汀县| 中阳县| 阿克苏市| 西宁市| 金华市| 三门县| 普定县| 洛阳市| 清苑县| 甘泉县| 阳山县| 东乌珠穆沁旗| 花垣县| 黑河市| 大埔区| 兖州市| 油尖旺区| 金湖县|