英青加
西北民族大學(xué) 甘肅 蘭州 730030
“成語是用喻法手段表達(dá)喻義,是一種概括性極強(qiáng)的名詞組固定組合形式,具有結(jié)構(gòu)固定、構(gòu)詞簡潔、寓意深刻、表現(xiàn)力強(qiáng)的特點(diǎn)?!背烧Z本身蘊(yùn)含著豐富的社會、歷史文化知識,是一個(gè)民族語言中最具有特色的組成部分。而“藏文成語信息庫”是指從計(jì)算機(jī)科學(xué)視角對藏文成語進(jìn)行深入研究和理解為重點(diǎn),將成語語料存放在電子文庫中進(jìn)行分詞與標(biāo)注、語法分析,對文本中的字、詞、詞組等各級語言單位的出現(xiàn)率等進(jìn)行計(jì)算分析與統(tǒng)計(jì)等的過程,是藏語自然語言處理系統(tǒng)中重要的組成部分,也是研究計(jì)算機(jī)如何對藏文成語語法特點(diǎn)進(jìn)行識別、如何使它便于理解、處理等提供研究依據(jù)的一種電子信息庫。研究類似成語、習(xí)語、諺語等多詞表達(dá)(Muti- word Expression )并建設(shè)這種語言單位的知識庫對于藏語語言對比研究、語言教學(xué)研究、詞典編纂,以及機(jī)器翻譯、跨語言檢索等自然語言處理等領(lǐng)域的研究和發(fā)展具有實(shí)質(zhì)性的意義[1]。
任何一個(gè)人類社會中的詞典的出現(xiàn),必然是該社會文明發(fā)展到一定程度的標(biāo)志和為滿足社會的特大需求。詞典學(xué)家們把詞典的起源分為兩個(gè)重要原因,一是了解和學(xué)習(xí)古代歷史典故、經(jīng)典文獻(xiàn)的含義。二是與不同語言的人們建立了政治、經(jīng)濟(jì)、文化聯(lián)系,為滿足相互交流和學(xué)習(xí)的需要?!霸~典是社會文明進(jìn)步的產(chǎn)物。詞典產(chǎn)生的原因不外乎兩種需要,首先,古籍積累漸多,隨著語言不同的人群接觸日增,出于交流的需要,雙語詞典或多語詞典應(yīng)運(yùn)而生?!睙o論從哪方面看,詞典都是文明發(fā)展的成果,所以編纂字典是個(gè)極其重要的語言教學(xué)工程。構(gòu)建藏文成語信息庫首先要有足夠的成語語料,其次對語料進(jìn)行自動分詞、詞性標(biāo)注、數(shù)據(jù)統(tǒng)計(jì)、語法分析等程序,使人們便于檢索藏文成語并獲取詳解。藏文成語數(shù)量龐大,要構(gòu)建標(biāo)準(zhǔn)的成語信息庫,要具備專業(yè)的研究方法和知識體系,構(gòu)建出結(jié)構(gòu)合理,內(nèi)容完整的標(biāo)準(zhǔn)化的成語信息庫。因此,成語信息庫的構(gòu)建在傳承和收集成語、編纂詞典的過程中有著舉足輕重的作用[2]。
藏文信息處理是自然語言信息處理的一個(gè)分支,是一門與計(jì)算機(jī)科學(xué)、語言學(xué)、數(shù)學(xué)、信息學(xué)、聲學(xué)等多種學(xué)科相關(guān)聯(lián)的綜合性學(xué)科。一般分為分為文字信息處理與語言信息處理兩部分,具體內(nèi)容包括對字、詞、句、篇章的輸入、存儲、傳輸、輸出、識別、轉(zhuǎn)換、壓縮、檢索、分析、理解和生成等方面的處理技術(shù)。在自然語言處理領(lǐng)域中,語言信息庫就好比人類大腦中儲存語言知識的記憶區(qū)域,是支撐語言信息處理發(fā)展的基礎(chǔ)[3]。
“語義分析是自然語言處理和人工智能的關(guān)鍵技術(shù)之一,在很多自然語言處理和AI系統(tǒng)中有廣泛應(yīng)用。”藏文成語一般都有很強(qiáng)的語義,也有著嚴(yán)格的語境限制,在機(jī)器翻譯和自然語言處理等過程中有較大難度。構(gòu)建成語信息庫的過程中除了分詞標(biāo)注、語法分析之外還提供了例句,方便判斷語境和使用條件,更好地了解成語的含義。通過信息處理等對藏文詞匯進(jìn)行研究的目的也是用計(jì)算語言學(xué)的方法對藏文詞匯和詞組的規(guī)律與功能,性質(zhì)、分類、語法結(jié)構(gòu)、語義等進(jìn)行細(xì)致的研究,它一方面能促進(jìn)自然語言翻譯和AI的發(fā)展,另一方面使語言文字研究要貼近現(xiàn)代文化的需要,對于面向現(xiàn)代人工智能研究的路徑,提供能力理論和數(shù)據(jù)具有重要意義[4]。
“機(jī)器翻譯是指通過計(jì)算機(jī)將源語言句子翻譯到與之語義等價(jià)的目標(biāo)語言句子的過程,是自然語言處理領(lǐng)域的一個(gè)重要研究方向”。成語內(nèi)涵豐富,且概括性強(qiáng),不易理解,構(gòu)建藏文成語信息庫過程中要對字、詞、詞組等層次進(jìn)行全面研究和分析,為翻譯工作得以發(fā)展和提高提供了前提條件,也是機(jī)器翻譯、搜索引擎、文件分類等藏文自然語言翻譯中的基本要領(lǐng),為建設(shè)公共信息庫提供研究經(jīng)驗(yàn)和理論數(shù)據(jù),具有重要的價(jià)值和意義[5]。
藏文成語收集數(shù)量為數(shù)不多,還有待進(jìn)一步收集更多的成語語料來豐富成語信息庫內(nèi)容和擴(kuò)大信息庫構(gòu)建規(guī)模,只要建設(shè)好成語知識庫,絕大部分成語的理解問題就會迎刃而解。因此,綜上所述,成語信息庫的構(gòu)建在藏文詞典編纂、自然語言處理方面都有著舉足輕重的作用。