艾孜爾古麗,努爾艾合買提,玉素甫·艾白都拉
(新疆師范大學(xué) 計算機科學(xué)與技術(shù)學(xué)院 新疆 烏魯木齊 830054)
現(xiàn)代維吾爾語常用詞計量研究是少數(shù)民族語言信息處理領(lǐng)域急需研究的重要課題。維吾爾語常用詞匯表的欠缺,是影響維吾爾語詞匯學(xué)、計算語言學(xué)和維吾爾語信息處理工作質(zhì)量的重要因素,因此迫切需要研制具有代表性、可靠性、權(quán)威性的維吾爾語常用詞匯表,促進(jìn)維、哈、柯等阿爾泰語系的新疆少數(shù)民族自然語言理解跨越式發(fā)展。
為確保收集語料的可靠性、代表性和權(quán)威性,本文重點對語料來源、語料范圍、語料載體等進(jìn)行了研究,以保證常用詞候選表的權(quán)威性和代表性。
(1) 在現(xiàn)有的語料庫資源基礎(chǔ)上,系統(tǒng)、持續(xù)地進(jìn)行收集、整理、加工和處理現(xiàn)代維吾爾文平面媒體、教育教材媒體、有聲媒體、網(wǎng)絡(luò)媒體語料,構(gòu)建現(xiàn)代維吾爾語語料庫,相比之前的語料庫,本語料庫語料來源更廣、語料領(lǐng)域更寬、各個領(lǐng)域比率控制適當(dāng)。
(2) 對構(gòu)建現(xiàn)代維吾爾語語料庫的關(guān)鍵技術(shù)與方法進(jìn)行進(jìn)一步優(yōu)化與完善,新增了人名識別和數(shù)據(jù)自動分析技術(shù)。對詞語使用頻次及其詞匯文本數(shù)進(jìn)行基本考察,從詞語的使用頻度和詞語在文本中出現(xiàn)的次數(shù)兩方面加以考慮,提取了現(xiàn)代維吾爾語常用詞候選表。
本研究不但為維吾爾語等少數(shù)民族自然語言理解及處理工作提供了基礎(chǔ),也可為阿爾泰語系的少數(shù)民族語言的規(guī)范化、教材設(shè)計、中小學(xué)語文教育、掃盲教育、雙語教育和辭書編纂提供服務(wù)。
為確保收集語料的可靠性,重點對語料來源、語料范圍、語料載體等進(jìn)行研究,以保證常用詞候選表的權(quán)威性和代表性。根據(jù)現(xiàn)有語料具體情況,以傳播媒體作為篩選依據(jù)。本語料庫是由平面媒體(以主要文學(xué)作品和經(jīng)典名著為主,代表文學(xué)語言)、教育教材媒體(新疆教育出版社、新疆科技出版社、新疆人民出版社、美術(shù)出版社等正規(guī)出版社出版的正規(guī)出版物,代表科學(xué)技術(shù)、文化、金融、工業(yè)生產(chǎn)多領(lǐng)域的文學(xué)和生活語言)、有聲媒體(新疆電視臺每天播出的30分鐘新疆新聞和30分鐘的新聞聯(lián)播文本語料,代表新聞報道語言)、網(wǎng)絡(luò)媒體(十多家比較正規(guī)的網(wǎng)站,代表網(wǎng)絡(luò)語言)組成的總語料。它們基本代表維吾爾族人政治、經(jīng)濟和社會生活的方方面面。
本語料資源是由國家語言資源監(jiān)測中心少數(shù)民族分中心“維吾爾語文研究基地”、新疆師范大學(xué)“網(wǎng)絡(luò)信息安全與輿情分析重點實驗室”提供。
本語料是把由國家正式出版社出版的文學(xué)作品組成的語料作為研究對象,語料容量188MB,占總語料容量的26.81%。
本語料是以科普性和教育性較強的正式出版物組成的語料作為研究對象,語料容量173MB,占總語料容量的24.67%。
所收集的語料來源于新疆電視臺每天播出的新疆新聞和新聞聯(lián)播各30分鐘的文本語料。采集的語料時間跨度為2010年1月至2012年12月,共1 080天的1 080小時播放時間的文本語料。語料容量171.2MB,占總語料容量的24.42%。
網(wǎng)絡(luò)媒體語料來源于新疆政府網(wǎng)、昆侖網(wǎng)、天山網(wǎng)等18家網(wǎng)站。收集語料時間跨度為2006年4月至2012年12月。語料容量169MB,占總語料容量的24.10%。
(1) 現(xiàn)代維吾爾語語料預(yù)處理技術(shù): 收集語料,對語料進(jìn)行預(yù)處理,并形成文本文件。
(2) 現(xiàn)代維吾爾語語料統(tǒng)計技術(shù)
① 對調(diào)查語料統(tǒng)計: 研究項目包括詞次、頻率、詞種、詞長和文本數(shù)等,最終形成維吾爾語詞頻表。
② 人名識別: 根據(jù)維吾爾族人、漢族人、外國人姓名在維吾爾語中的特點,對已研究的識別技術(shù)進(jìn)一步優(yōu)化,確定識別規(guī)則,解決漢族人名中姓和名空格隔開描述問題,優(yōu)化漢族、外國人姓名識別率。
(3) 現(xiàn)代維吾爾語詞干提取技術(shù)
利用基于詞典和人機交互結(jié)合技術(shù)方法提取詞干。提取詞干過程中,通過現(xiàn)代維吾爾語詞干詞典維護(hù)來發(fā)現(xiàn)提取詞干過程中出現(xiàn)的新詞干,并對機器詞典中新詞干進(jìn)行補充,增加機器學(xué)習(xí)等功能。
圖1 基于平衡語料庫的現(xiàn)代維吾爾語多策略統(tǒng)計模型
維吾爾語詞語的具體構(gòu)詞方式見圖2。
圖2 現(xiàn)代維吾爾語詞法結(jié)構(gòu)模型
圖2中,A表示詞根,B表示詞綴,C表示詞尾,D表示詞干,W表示詞語。
(4) 現(xiàn)代維吾爾語數(shù)據(jù)分析技術(shù)
本技術(shù)主要解決常用詞、次常用詞、部分常用詞、獨用詞、詞種分布、覆蓋率、詞語領(lǐng)域通用度、時間通用度等幾個部分?jǐn)?shù)據(jù)的自動分析技術(shù)。
詞次(頻次): 每一調(diào)查對象的頻次同其前調(diào)查對象頻次的累加和。頻次是一個具體的數(shù)字,它直觀地反映了某個詞語在語料中真實、原始的使用情況,計算公式如式(1)所示。
(1)
其中: Ai為調(diào)查對象i的累加頻次,ni為調(diào)查對象i的出現(xiàn)次數(shù)。
頻率: 每一調(diào)查對象的詞次的累加和,與所有語料中調(diào)查對象總次數(shù)的比值,即式(2)所示。
(2)
其中: Bi為調(diào)查對象i的累加頻率,ni為調(diào)查對象i的出現(xiàn)次數(shù),N為所有語料中調(diào)查對象出現(xiàn)的總次數(shù)。
一般來說,頻率愈高的詞其常用程度愈高。這是最直觀,且大多情況下都頗有成效的統(tǒng)計方法。
累加覆蓋率: 指所有詞語的頻率由高到低降序排列時,每一個詞語與其前詞語的頻率之和在全部語料中所占的比重,見式(3)。
(3)
其中: Fi為調(diào)查對象i的覆蓋率,ni為調(diào)查對象i的出現(xiàn)次數(shù),N為所有語料中調(diào)查對象出現(xiàn)的總量。
累加覆蓋率的作用是能清楚觀察到每個詞在由高到低的頻率排序中在詞語整體中所處的位置。
詞語領(lǐng)域通用度: 用來衡量詞語在語言各流通領(lǐng)域的通用程度,即詞語常用程度的量化指標(biāo)。其計算公式不僅應(yīng)該考察詞匯的詞頻,同時還應(yīng)該考慮詞語在不同文本及不同領(lǐng)域和分領(lǐng)域的分布是否均勻。
本項目采用改進(jìn)后的領(lǐng)域通用度計算步驟如下:
① 計算領(lǐng)域類詞語頻度Fx:
FX為k號詞語在領(lǐng)域類語料中出現(xiàn)的總頻次。
② 計算k號詞語文本使用度UIK:
采用A.Juilland公式計算詞語的文本使用度:
(5)
詞的文本使用度:
UIK=DK×Fk(取整數(shù)值)
(6)
③ 計算k號詞語的領(lǐng)域通用度Uk:
采用分布均勻度計算詞語在各領(lǐng)域類分布的均勻程度,計算公式為:
分布均勻度:
DCk=SMR/Mean (0≤DCk≤1)
(7)
SMR及Mean分別定義如下:
k號詞語的領(lǐng)域通用度:
Uk=DCk×UIk
(10)
上式中,n表示領(lǐng)域類數(shù),要求各領(lǐng)域類語料庫語料等量;FKi是詞語在第i領(lǐng)域類k號詞的頻度,UIk表示k號詞的文本使用度,DCk表示k號詞的領(lǐng)域類分布均勻度。
詞語的時間通用度: 詞語在考察時間內(nèi)通用程度的量化指標(biāo)。它需要觀察詞語在考察期內(nèi)使用是否穩(wěn)定,即詞語詞頻在各月分布的均勻程度。
時間通用度計算步驟如下:
① 計算詞語月頻度Fk:
Fk為k號詞語在各月語料中出現(xiàn)的總頻次。
② 計算k號詞語的時間通用度Tk:
采用分布均勻度計算詞語在考察時間內(nèi)各月分布的均勻程度,計算公式為:
k號詞語的時間度通用度:
Tk=SMR/Mean (0≤Tk≤1)
(13)
上式中,n表示考察時間內(nèi)月數(shù),要求各月中語料庫語料等量;FKi是詞語在第i個月的詞頻度。
詞語通用度: 綜合考慮詞語的領(lǐng)域使用度及時間穩(wěn)定度而提出的,并未考慮地域通用度對詞語通用度的影響,以后在考慮較大地域范圍流通語料時,應(yīng)納入地域通用度的考察。
詞匯通用度的計算方法為:
詞語通用度Ok=Tk×Uk
(14)
Tk表示k號詞的時間通用度,Uk表示k號詞的領(lǐng)域通用度。Ok表示詞語的通用程度,該值越大,k號詞的常用性特征及考察時間內(nèi)使用穩(wěn)定性特征表現(xiàn)就越好。
對詞語進(jìn)行基本考察,從詞語的使用頻度和詞語的分布兩方面加以考慮。維吾爾語詞語的“詞種數(shù)、頻次、頻率、文本數(shù)、詞長”作為常用詞候選表的依據(jù)。
在此基礎(chǔ)上,提取出不同媒體語料庫的高頻詞表,在四個詞表中,篩選出不同媒體語料的共用詞,作為現(xiàn)代維吾爾語常用詞候選表;篩選出任意三個語料庫的共用詞,作為現(xiàn)代維吾爾語次常用詞候選表;篩選出任意兩個媒體語料庫的共用詞,作為現(xiàn)代維吾爾語部分常用詞候選表;篩選出各媒體語料庫的獨用詞,作為現(xiàn)代維吾爾語獨用詞候選表。
本文的研究語料涵蓋平面媒體、有聲媒體、網(wǎng)絡(luò)媒體、教材媒體4種,共計96 025個文本文件,43 529 435詞次?,F(xiàn)代維吾爾語語料采集的依據(jù)及選擇詳見本文第三部分。
本語料為平面媒體(文學(xué)作品語料)、教育教材媒體(科普教材媒體)、有聲媒體(新聞?wù)Z料)、網(wǎng)絡(luò)媒體(網(wǎng)絡(luò)語料)組成的總語料。它基本代表維吾爾族人政治、經(jīng)濟和社會生活的方方面面。語料具體情況如表1所示。
表1 總語料的分布情況表
為了保證常用詞候選的代表性和權(quán)威性,需要進(jìn)一步確認(rèn)是將現(xiàn)代維吾爾語的詞還是詞干作為現(xiàn)代維吾爾語常用詞。本文根據(jù)維吾爾語的特點和具體四大媒體語料,對語料統(tǒng)計數(shù)據(jù)進(jìn)行比較分析。
(1) 現(xiàn)代維吾爾語詞語基本數(shù)據(jù)
本文首先提取平面媒體、教育媒體、有聲媒體、網(wǎng)絡(luò)媒體等四大媒體的常用詞表,通過比較,提取出四大媒體常用詞表共用的部分,作為現(xiàn)代維吾爾語常用詞候選表。本表共收錄了現(xiàn)代維吾爾語常用詞語62 330個,具體情況如表2所示。
表2 現(xiàn)代維吾爾語常用詞語情況表
從表2可以看出, 62 330個共用詞語的頻次占總詞頻比例77.73%。說明常用詞語占總語料的覆蓋率相對偏低,不能承擔(dān)現(xiàn)代維吾爾語常用候選詞的角色。
(2) 4大媒體詞干基本數(shù)據(jù)
同樣對4大媒體的4個詞干表進(jìn)行比較,提取4大媒體共用總詞干,作為現(xiàn)代維吾爾語常用詞干候選表。本表共收錄了現(xiàn)代維吾爾語常用候選詞干36 488個,具體情況如表3所示。
表3 現(xiàn)代維吾爾語常用詞干情況表
從表3可以看出,36 488個共用詞干占總語料覆蓋率95.23%。說明對總語料的覆蓋率接近整個語料,能承擔(dān)代表現(xiàn)代維吾爾語常用候選詞角色。
高頻詞是指在語料中詞頻累加覆蓋率達(dá)到90%的全部用詞。根據(jù)這個定義,從每一種媒體語料中覆蓋率達(dá)到90%時提取高頻詞,具體分布情況如表4所示。
表4 高頻詞、詞干種總語料中分布情況
從表4可以看出,每一種媒體語料在總語料中分布情況。
以詞干能代表現(xiàn)代維吾爾語常用候選詞角色特點為依據(jù),根據(jù)高頻詞在媒體中分布情況,確定現(xiàn)代維吾爾語共用詞、部分共用詞、準(zhǔn)部分共用詞和獨用詞等四個檔次。計算時教育媒體定義為A、平面媒體定義為B、網(wǎng)絡(luò)媒體定義為C、有聲媒體定義為D。四大媒體(ABCD)共用部分叫做常用候選詞(共用詞);任意三種媒體(ABC、ABD、ACD、BCD)和任意兩個媒體(AB、AC、AD、BC、BD、CD)共用的部分叫做次常用候選詞(大部分共用詞),只有一種媒體(A、B、C、D)中出現(xiàn)的詞叫做獨用詞。經(jīng)過四大媒體高頻詞干進(jìn)行比較,提取常用候選詞、次常用候選詞和獨用詞。常用候選詞和獨用詞的具體情況如表5所示。
表5 常用候選詞和獨用詞表
從表5可以看出,常用詞和獨用詞的分布情況。由于常用候選詞和次常用候選詞合并后占總高頻詞語料中的比例為90.20% 。這說明提取的常用候選詞表對本次考察語料是可行的。
表6給出詞次10萬次以上的22條高頻常用候選詞樣例表。
在維吾爾語基地相關(guān)研究的基礎(chǔ)之上選取了更大規(guī)模的真實語料建成現(xiàn)代維吾爾語語料庫,其語料庫包括平面媒體、教材媒體、有聲媒體、網(wǎng)絡(luò)媒體等四類主流媒體。語料量43 529 435詞次。而現(xiàn)階段,這些資源的合理、有效應(yīng)用,對于深化與擴展語言資源的監(jiān)測工作有重要意義,同時也是計算語言學(xué)服務(wù)于語言生活、語言教學(xué)、語言工程、辭書編纂等方面的重要體現(xiàn)與有益嘗試。其中,四大媒體語言文字使用頻率變化、頻序排位相對變化反映了媒體對社會生活的關(guān)注點的變化。透過這些字詞語的使用狀況可以看到年度的社會生活、時事面貌。
[1] 艾孜爾古麗,李曉,玉素甫·艾白都拉.中小學(xué)維吾爾語文教材用詞數(shù)據(jù)分析方法與應(yīng)用研究[J].計算機工程與應(yīng)用,2014,2: 108-111.
[2] 艾孜爾古麗,艾山江·阿不力孜,玉素甫·艾白都拉.現(xiàn)代維吾爾文網(wǎng)絡(luò)媒體用詞研究[J].計算機應(yīng)用與軟件,2012,2: 67-68.
[3] 艾孜爾古麗等.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞干提取和應(yīng)用[J].計算機應(yīng)用與軟件,2012,3: 32-34.
[4] 艾孜爾古麗,齊向偉,玉素甫·艾白都拉.現(xiàn)代維吾爾語語言資源監(jiān)測中數(shù)據(jù)分析技術(shù)研究[J].計算機應(yīng)用與軟件, 2013,4: 36-39.
[5] 玉素甫,艾孜爾古麗.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞尾切分和應(yīng)用研究[J].計算機應(yīng)用與軟件,2012,4: 13-15.
[6] 玉素甫,艾孜爾古麗,祖力皮亞.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞長研究[J].計算機應(yīng)用與軟件,2012,5: 32-34.
[7] 玉素甫.信息處理用現(xiàn)代維吾爾語詞干類標(biāo)記集研究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2011,6: 45-48.
[8] 蘇新春.漢語詞匯計量研究[M].廈門大學(xué)出版社,2001.
[9] 蘇新春,楊爾弘.2005年度漢語詞匯大規(guī)模統(tǒng)計的分析與思考[J].廈門大學(xué)學(xué)報,2006年6月.
[10] 趙小兵.基于動態(tài)流通語料庫的現(xiàn)代漢語基本詞匯自動識別與提取方法研究[D].博士學(xué)位論文,2007年6月.