摘 要:由于語言信息具有大數(shù)據(jù)量、隨機性等特征,在語言學(xué)研究中常引進統(tǒng)計學(xué)方法來定量分析,以確定語言現(xiàn)象的基本特征,通過揭示數(shù)量關(guān)系來幫助判定語言系統(tǒng)之間的關(guān)系。本文選用現(xiàn)代維吾爾語中常用的發(fā)生語音弱化的詞匯,建立一個語料庫(弱化規(guī)則庫),利用傳統(tǒng)語言學(xué),計算語言學(xué)和統(tǒng)計學(xué)相結(jié)合的方法對語料進行統(tǒng)計分析,實現(xiàn)了維吾爾語中生活常用詞的詞頻統(tǒng)計分析,考察了維吾爾語詞匯中的弱化情況和詞頻統(tǒng)計。
關(guān)鍵詞:現(xiàn)代維吾爾語;詞頻統(tǒng)計;語音弱化
中圖分類號:TP391.1
維吾爾語是屬于阿勒泰語系突厥語族語言之一,現(xiàn)代維吾爾文有32個字母,其中元音字母8個,輔音字母24個,是粘著性語言。每個字母按詞中出現(xiàn)的位置分為獨立式、詞前式、詞中式和詞尾式等多種字體形式。維吾爾文字母大都有各自的基本筆畫和結(jié)構(gòu)符號,用來表示語音和字形。國際上一些語言在自動分詞方面的成就和相關(guān)理論非常值得我們的參考與借鑒。例如,英語在書寫過程中,詞與詞之間用空格來分開,于是空格就可作為自動分詞中的界限,而維吾爾語是以詞為單位自右至左連體書寫,自然折行,詞之間也以空格來區(qū)分,這與英語相類似。維吾爾語中詞可由單個或多個字母組成,且字母在書寫時必須按照文字書寫規(guī)則以詞為單位聯(lián)體書寫,標(biāo)點符號的方向為從右向左,與漢,英文的方向相反。詞與詞之間用空格分開,在本文的研究中是以空格分開的詞為單位進行詞頻統(tǒng)計和分析的。
1 詞頻統(tǒng)計分析方法
詞頻(word frequency)是在一定范圍內(nèi)的語料中詞語的實際使用情況統(tǒng)計,詞頻有絕對頻度和相對頻度之分。絕對頻度是詞語出現(xiàn)的次數(shù),相對頻度是該次數(shù)與整個語料所包含的詞例總數(shù)之比。詞語的領(lǐng)域通用度是用來衡量詞語在各流通領(lǐng)域內(nèi)的通用程度,即詞語常用程度的量化指標(biāo)。
維吾爾語作為一種自然語言,具有自然語言所共有的一些規(guī)則,發(fā)現(xiàn)國內(nèi)外的經(jīng)典詞頻統(tǒng)計方法同樣適合于維吾爾語的詞頻統(tǒng)計。
本文以數(shù)據(jù)庫技術(shù)為基礎(chǔ)對維吾爾語句法分析的數(shù)據(jù)進行處理,解決實際應(yīng)用中的一些問題。比如說:現(xiàn)代維吾爾語中最常見的語音的弱化現(xiàn)象等。
在現(xiàn)代維吾爾語里,當(dāng)在原來帶有 等低位性元音的很多名詞詞根或詞干后頭綴加一些詞綴或詞尾,原詞根或詞干內(nèi)的 等低位性元音提升為 等高位性元音。這種低位性元音提升為高位性元音的的音系現(xiàn)象,不僅僅發(fā)生在詞根和詞干后面綴加詞綴后的詞干上,也同樣發(fā)生在詞根和詞干后面綴加詞尾后形成的各類語法形式上。也就是說,低位性元音提升為高位性元音的音系現(xiàn)象同樣發(fā)生在名詞或動詞的構(gòu)形詞尾內(nèi)的低位性元音上。
本文主要用維吾爾詞匯中最常見的這種語音弱化現(xiàn)象而歸納出來的規(guī)則庫表來處理海量的維吾爾語詞匯并對它進行詞頻統(tǒng)計。以通過詞頻統(tǒng)計的結(jié)果來提供用戶維吾爾語言中元音間發(fā)生弱化的詞和哪些詞中詞頻最高的詞等相關(guān)的信息。
2 語音弱化處理分析
在人工處理維吾爾語的常用詞語音弱化現(xiàn)象過程中遇到的主要問題就是歸納出弱化規(guī)則。準(zhǔn)備語料的時候首先確定每個詞的詞長,然后找出這個詞有幾個弱化現(xiàn)象,這個弱化現(xiàn)象發(fā)生在哪一個語音上,出現(xiàn)在第幾個音節(jié),在語料庫里面共有幾種弱化現(xiàn)象等問題。由于要處理的詞匯較多,工作量也較大,因此迫切需要尋找一種更高效的方法,來找出弱化規(guī)則和處理復(fù)雜現(xiàn)象,降低語音弱化分析所花費時間,這是一項有意義的工作。
存儲在Excel表中的維吾爾語音數(shù)據(jù),雖然用手工可以抽取出“維吾爾語弱化規(guī)則”,但是比較困難而且費時易出錯。比如,不同的32個字母之間存在68種弱化現(xiàn)象,每一種弱化現(xiàn)象還能給我們顯示出第幾音節(jié)發(fā)生弱化,并指出它的弱化頻率等等,這些規(guī)則可以組成多重條件來抽取數(shù)據(jù),因此難免涉及到大量復(fù)雜的數(shù)據(jù)處理問題,使用Excel方法處理數(shù)據(jù)不僅效率低,用那些弱化規(guī)則來判斷要處理的語料分類的時候是因為一個一個地比較,容易判斷出錯或漏判,誤判。如果數(shù)據(jù)有變動,整個計算過程必須重新來?,F(xiàn)有的弱化規(guī)則僅僅是通過處理有限個(一萬多個)詞而得出來的,如果再用更大的詞庫(如是原來的數(shù)十倍),就會因數(shù)據(jù)的變動而使整個計算過程必須重新進行一次,費時費力。如果對于這種含大量數(shù)據(jù)的任務(wù)采用數(shù)據(jù)庫系統(tǒng)的操作功能來處理分析會方便、快捷和準(zhǔn)確的多。
在多種數(shù)據(jù)處理方法中引入數(shù)據(jù)庫的處理方法,通過數(shù)據(jù)庫的操作指令進行數(shù)據(jù)的各種比較運算、查詢和統(tǒng)計分析,高效省力。本文根據(jù)采集的數(shù)據(jù),所得到的規(guī)則也有可能跟現(xiàn)在的弱化規(guī)則不完全一樣,從文本中提取任意個詞比較已有的弱化規(guī)則,并補充一些規(guī)則,會容易的多。為了提高工作效率,更好的應(yīng)用數(shù)據(jù)庫的整體性和共享性特點,本文用Access數(shù)據(jù)庫來處理這些問題。
3 數(shù)據(jù)操作實現(xiàn)——應(yīng)用實例
數(shù)據(jù)庫和高級程序設(shè)計語言C#結(jié)合起來,可以構(gòu)建分布式的網(wǎng)絡(luò)操作平臺以解決很多實際問題。比如,數(shù)據(jù)資源共享、數(shù)據(jù)遠(yuǎn)程傳遞的實現(xiàn)、通信開銷的降低等,利用C#實現(xiàn)分布式數(shù)據(jù)庫查詢給我們帶來很多方便。
下面的實例是根據(jù)維吾爾語弱化規(guī)則和語料分類在Access數(shù)據(jù)庫里面的處理情況。
本數(shù)據(jù)庫系統(tǒng)共有3個基本表:弱化數(shù)據(jù)表,查找成功數(shù)據(jù)表found words和未登錄或未找到的數(shù)據(jù)表not found words(從弱化數(shù)據(jù)庫找不到的詞放在這個數(shù)據(jù)表中),如果查找成功則增加頻次(第一個詞語添加,從第二個開始查找。不成功的話添加新紀(jì)錄)。首先把人工處理好的Excel表中的“弱化規(guī)則”導(dǎo)入到Access數(shù)據(jù)庫里面。
圖1 已人工處理的弱化規(guī)則表
圖1所示是已導(dǎo)入到Access里面的要參考的維吾爾語弱化規(guī)則表。將已知的語料先進行分詞,然后對本詞在變次,音節(jié)位,弱化字母等方面進行統(tǒng)計。待處理本文的研究就是按這種規(guī)則來處理語料分類的。
為了方便,跟“弱化規(guī)則”比較把語料分類的詞匯表格文件也導(dǎo)入到Access數(shù)據(jù)庫,目的是將待處理的表中的詞匯以與已建立的“弱化規(guī)則”表來進行比較、分析,通過兩表之間進行關(guān)聯(lián),利用數(shù)據(jù)庫處理指令進行操作處理,結(jié)果存入到查找成功數(shù)據(jù)表。本文通過以下的代碼來實現(xiàn)了Access數(shù)據(jù)庫的連接和查詢。
運行步驟如下:
(1)待處理語料分類的文本中提取詞語。
(2)將本從詞弱化數(shù)據(jù)庫中查找,如果查找成功讀取弱化規(guī)則數(shù)據(jù)庫中的記錄。
(3)讀取的該記錄新數(shù)據(jù)庫中查找,如果查找成功增加該記錄的頻次,如果不成功添加新記錄。同時顯示該記錄。結(jié)果如圖2所示。
圖2 以弱化規(guī)則來處理的詞匯表
圖2表示數(shù)據(jù)鏈接成功以后從待處理的語料分類表中提取某個詞,跟歸納出來的弱化規(guī)則庫表中查找、匹配并讀取弱化規(guī)則數(shù)據(jù)庫中的記錄,被提取的詞從已人工處理的弱化規(guī)則表中查找成功了就增加該記錄的頻次。
(4)從待處理的文本中再提取新詞并分別進行查找和比較弱化規(guī)則表和已找到的詞匯表中。
(5)如果本詞在弱化數(shù)據(jù)庫中查找不成功就尋找,若還是查不找就本次記載并讀取未登錄數(shù)據(jù)庫表中。
(6)如果查找成功就本詞的詞長,頻次,詞中有幾個弱化現(xiàn)象,弱化發(fā)生在第幾個音節(jié)等方面進行比較。如果這幾方面都一樣就增加了本詞的頻次。
4 結(jié)束語
本文用已人工處理的現(xiàn)代維吾爾語中最常見的低位性元音提升為高位性元音的音系現(xiàn)象,即原來帶有 等低位性元音的很多名詞、詞根或詞干后頭綴加一些詞綴或詞尾,使原詞根或詞干內(nèi)的低位性元音提升為 等高位性元音的語音弱化現(xiàn)象來組成的常用詞匯,建立了一個弱化規(guī)則庫表,并對待處理的語料按這個規(guī)則來進行詞頻統(tǒng)計,效果良好。
上述討論僅僅是給出了一個實例,并不是數(shù)據(jù)庫(Access數(shù)據(jù)庫)在數(shù)據(jù)處理中的全部應(yīng)用,但是從以上的例子可以看出利用數(shù)據(jù)庫和數(shù)據(jù)庫技術(shù),可以縮小處理海量信息的時間和工作量,通過程序代碼來處理大量的同類的信息。從最簡單的數(shù)據(jù)表到能夠進行海量數(shù)據(jù)存儲的大型數(shù)據(jù)庫系統(tǒng),都在各個方面得到了廣泛的應(yīng)用。
參考文獻:
[1]玉素甫·艾白都拉.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞長研究[J].計算機應(yīng)用與軟件,2012(05).
[2]苗雪蘭,劉瑞新,宋歌.數(shù)據(jù)庫系統(tǒng)原理[M].北京:機械工業(yè)出版社,2007.
[3]趙青松,鄭阿奇,時躍華.C#使用教程[M].北京:電子工業(yè)出版社,2008.
[4]哈米提·鐵木爾.現(xiàn)代維吾爾語語法[M].北京:民族出版社出版,1987.
[5]曹秀英,朱毅華.利用C#實現(xiàn)分布式數(shù)據(jù)庫查詢[M].北京:電子工業(yè)出版社,2004.
[6]段紅光,羅一靜.Excel表在數(shù)據(jù)庫中的應(yīng)用[M].北京:人民郵電出版社,2006.
[7]力提甫·托乎提.維吾爾語語法參考[M].北京:民族出版社,2012.
作者簡介:努爾比亞·買買提(1987.12-),女,維吾爾族,文學(xué)院2012級碩士研究生,研究方向:計算語言學(xué),主要從事自然語言處理方面的研究;欒靜(指導(dǎo)老師),女,碩士生導(dǎo)師,計算機科學(xué)技術(shù)學(xué)院,主要從事計算機教學(xué)工作。
作者單位:新疆師范大學(xué),烏魯木齊 830054
基金項目:本文部分受到新疆師范大學(xué)重點實驗室課題《高中維吾爾語數(shù)學(xué)教材用詞定量研究(項目編號:WLYQ201304)》的資助,部分受到新疆大學(xué)文學(xué)院研究生科技創(chuàng)新項目《現(xiàn)代維吾爾作家和著作搜索系統(tǒng)的研究(項目編號:ZYW2013002)》的資助。