穆妮熱?穆合塔爾 玉素甫?艾拜都拉
摘 要
本文解決的核心問題是運(yùn)用數(shù)據(jù)庫軟件對維吾爾語句子進(jìn)行分析與研究、解決文本中對句子進(jìn)行批處理等一系列問題,要解決這些問題、首先必須得了解維吾爾語和維吾爾語句子的概念以及特點(diǎn)并且對于數(shù)據(jù)庫以及數(shù)據(jù)庫的主要的特點(diǎn)進(jìn)行探討。
【關(guān)鍵詞】維吾爾語句子 數(shù)據(jù)庫 編程
1 引言
維吾爾語句法分析是維吾爾文信息處理領(lǐng)域一個重要的基礎(chǔ)性課題、同時也是一個公認(rèn)的難題、在機(jī)器翻譯、文本摘要、信息過濾、自動問答中都有廣泛的應(yīng)用、該論文通過研究國內(nèi)外相關(guān)句法分析算法與理論、再結(jié)合維吾爾語自身的特點(diǎn)對計算語言學(xué)中的句子分析進(jìn)行了討論、由于維吾爾語作為一種自然語言、具有自然語言所共有的一些規(guī)則、發(fā)現(xiàn)國內(nèi)外的經(jīng)典句法分析方法同樣適合于維吾爾語的句法分析。
2 維吾爾語句子特點(diǎn)
維吾爾文指維吾爾族使用的拼音文字。維吾爾族在歷史上使用過突厥文、回鶻文、察合臺文。中國維吾爾族在二十一世紀(jì)使用的維吾爾文是在晚期察合臺文基礎(chǔ)上形成的以阿拉伯字母為基礎(chǔ)的拼音文字。20世紀(jì)30年代以后維吾爾文經(jīng)過幾次改進(jìn)、最近的一次是在1983年?,F(xiàn)行維吾爾文有32個字母、自右至左橫書。每個字母按出現(xiàn)在詞首、詞中、詞末的位置有不同的形式。
維吾爾語中句子表示說話人一定的思想和思維的語言單位、句子平常由兩個或者兩個以上的短語相連接構(gòu)成的、有時候一個詞語也可以表達(dá)一定的意義組成一個句子、維吾爾語中句子分為簡單句和復(fù)合句兩種。
3 數(shù)據(jù)庫技術(shù)特點(diǎn)
數(shù)據(jù)庫(Database)是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫、它產(chǎn)生于距今50年前、隨著信息技術(shù)和市場的發(fā)展、特別是20世紀(jì)90年代以后、數(shù)據(jù)管理不再僅僅是存儲和管理數(shù)據(jù)、而轉(zhuǎn)變成用戶所需要的各種數(shù)據(jù)管理的方式。數(shù)據(jù)庫有很多種類型、從最簡單的存儲有各種數(shù)據(jù)的表格到能夠進(jìn)行海量數(shù)據(jù)存儲的大型數(shù)據(jù)庫系統(tǒng)都在各個方面得到了廣泛的應(yīng)用。數(shù)據(jù)庫主要特點(diǎn):數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)的共享性高、數(shù)據(jù)獨(dú)立性高、數(shù)據(jù)有DBMS同意管理和控制。
3.1 Access數(shù)據(jù)庫概述
Microsoft Access是一種關(guān)系式數(shù)據(jù)庫、它是單機(jī)版的數(shù)據(jù)庫管理系統(tǒng)。關(guān)系式數(shù)據(jù)庫由一系列表組成、表又由一系列行和列組成、每一行都是一個記錄、每一列是一個字段。Access數(shù)據(jù)庫有很多優(yōu)點(diǎn)比如說存儲方式簡單、易于維護(hù)管理、面向?qū)ο?Access是一個面向?qū)ο蟮拈_發(fā)工具、利用面向?qū)ο蟮姆绞綄?shù)據(jù)庫系統(tǒng)中的各種功能對象化、將數(shù)據(jù)庫管理的各種功能封裝在各類對象中、界面友好、易操作、集成環(huán)境、處理多種數(shù)據(jù)信息、Access支持ODBC(開發(fā)數(shù)據(jù)庫互連、Open Data Base Connectivity)、利用Access強(qiáng)大的DDE(動態(tài)數(shù)據(jù)交換)和OLE(對象的聯(lián)接和嵌入)特性、可以在一個數(shù)據(jù)表中嵌入位圖、聲音、Excel表格、Word文檔、還可以建立動態(tài)的數(shù)據(jù)庫報表和窗體等、支持廣泛、易于擴(kuò)展、彈性較大 能夠?qū)⑼ㄟ^鏈接表的方式來打開EXCEL文件、格式化文本文件等。
3.2實例分析
句法分析本身并不解決使內(nèi)容分析困難的模糊問題、除此以外、還必須考慮上下文的關(guān)系。因此、人們都普遍認(rèn)為要考慮新方法、包括從現(xiàn)存詞表和詞典中抽取的詞定義信息及從反應(yīng)具體學(xué)科語義特性的知識庫中獲取的信息。我們不管是一個一個處理或者是批處理一些文本文件里面的句子、本文中先得把文本文件導(dǎo)入Access數(shù)據(jù)庫中、然后用所使用的計算機(jī)語言平臺下進(jìn)行連接、(就是說正對本文中使用的計算機(jī)語言比如C#等跟數(shù)據(jù)庫進(jìn)行綁定)這樣可以一下子處理多個文件。圖1是處理維吾爾語句子時運(yùn)行的文本的處理過程、比如說本文在處理很多文本、然后從中再進(jìn)一步處理句子整體和構(gòu)成句子的有些結(jié)構(gòu)、這個過程總共建立了4個數(shù)據(jù)庫表、就是在文本中查找所需要的詞匯、查找成功的放在一個數(shù)據(jù)庫表(found word)中、查找未成功的存放在另一個數(shù)據(jù)庫表(no found word)中、然后提供一個規(guī)則數(shù)據(jù)庫表(sheet1)、還有一個word數(shù)據(jù)庫表、其作用是要把處理的文本內(nèi)容以空格為準(zhǔn)分裂成單個的詞匯以便處理。為了更好地描述數(shù)據(jù)庫的作用我還插入了表word。(圖2)
4 總結(jié)
綜上述說、目前應(yīng)用于現(xiàn)代漢語句法分析的語法以短語結(jié)構(gòu)語法、范疇語法和依存語法為代表。所有應(yīng)用于漢語句法分析的語法當(dāng)中、短語結(jié)構(gòu)語法(Phrase Structure Grammar、 PSG) 是可行的方法之一、本文中運(yùn)用Access數(shù)據(jù)庫系統(tǒng)對維吾爾語句子進(jìn)行了研究和分析、因為現(xiàn)代維吾爾語句法分析是時尚未深入研究的一個難點(diǎn)、在多個文本中處理不管是句子邊界定義問題或者是相似度算法應(yīng)用中、首先解決的問題就是怎么樣才從文本中抽取我們需要的句子然后進(jìn)行處理、在這一過程中數(shù)據(jù)庫應(yīng)用的作用是非常大的、就像上述所提講述的一樣、Access數(shù)據(jù)庫的靈活應(yīng)用實現(xiàn)了維吾爾語句子在研究中比較快的、有效地方法、當(dāng)然也可以用傳統(tǒng)語言學(xué)的人工識別來處理這些問題也可以解決的。
句法分析的難點(diǎn)之一是歧義問題、同一個句子因為詞的多義性或者句法結(jié)構(gòu)上的歧義性可能存在不同的句法分析結(jié)果。要完全消除歧義問題到目前還沒有可行的方法、但是可以利用數(shù)據(jù)庫的主鍵、外鍵功能可以減少歧義問題的出現(xiàn)率、維吾爾語的32字母構(gòu)成相同詞匯的可能性比較大、在多個文本中抽取詞匯中為了避免相同的詞匯的再次出現(xiàn)使系統(tǒng)再次運(yùn)行、降低系統(tǒng)的運(yùn)行速度、可以借助數(shù)據(jù)庫主鍵的無重復(fù)性特點(diǎn)來達(dá)到維吾爾語詞匯的重復(fù)性的歧義。通過主外鍵、非空、限制、唯一索引等保證數(shù)據(jù)的健壯、提高數(shù)據(jù)的查詢效率、通過合理表結(jié)構(gòu)、安排物理存儲分區(qū)、增加索引等方式、提高數(shù)據(jù)的讀取速度、提高查詢效率。
參考文獻(xiàn)
[1]謝新洲,陳睿.文本自動分析中句法分析應(yīng)用述評[J].情報理論與實踐 , 1992(3).
[2]張峰嶺. 數(shù)據(jù)庫應(yīng)用的需求分析研究[J]. 計算機(jī)工程與應(yīng)用,2002(18).
[3]張磊,杜小勇,王珊. 文本數(shù)據(jù)庫中的擴(kuò)展短語挖掘[J]. 計算機(jī)科學(xué),2001(8).
[4]張磊,杜小勇,王珊. 文本數(shù)據(jù)庫中的擴(kuò)展短語挖掘[J]. 計算機(jī)科學(xué),2001(8).
[5]馮秋香. 基于數(shù)據(jù)庫語義學(xué)的古漢語句法語義分析研究[J]. 計算機(jī)科學(xué),2011(11).
作者簡介
穆妮熱·穆合塔爾(1989-),女,現(xiàn)為新疆師范大學(xué)碩士研究生。研究方向為計算語言學(xué)。
導(dǎo)師簡介
玉素甫·艾白都拉,男,現(xiàn)為新疆師范大學(xué)教授,主要從事計算語言學(xué)、自然語言處理。
作者單位
新疆師范大學(xué) 新疆維吾爾自治區(qū)烏魯木齊市 830054endprint
摘 要
本文解決的核心問題是運(yùn)用數(shù)據(jù)庫軟件對維吾爾語句子進(jìn)行分析與研究、解決文本中對句子進(jìn)行批處理等一系列問題,要解決這些問題、首先必須得了解維吾爾語和維吾爾語句子的概念以及特點(diǎn)并且對于數(shù)據(jù)庫以及數(shù)據(jù)庫的主要的特點(diǎn)進(jìn)行探討。
【關(guān)鍵詞】維吾爾語句子 數(shù)據(jù)庫 編程
1 引言
維吾爾語句法分析是維吾爾文信息處理領(lǐng)域一個重要的基礎(chǔ)性課題、同時也是一個公認(rèn)的難題、在機(jī)器翻譯、文本摘要、信息過濾、自動問答中都有廣泛的應(yīng)用、該論文通過研究國內(nèi)外相關(guān)句法分析算法與理論、再結(jié)合維吾爾語自身的特點(diǎn)對計算語言學(xué)中的句子分析進(jìn)行了討論、由于維吾爾語作為一種自然語言、具有自然語言所共有的一些規(guī)則、發(fā)現(xiàn)國內(nèi)外的經(jīng)典句法分析方法同樣適合于維吾爾語的句法分析。
2 維吾爾語句子特點(diǎn)
維吾爾文指維吾爾族使用的拼音文字。維吾爾族在歷史上使用過突厥文、回鶻文、察合臺文。中國維吾爾族在二十一世紀(jì)使用的維吾爾文是在晚期察合臺文基礎(chǔ)上形成的以阿拉伯字母為基礎(chǔ)的拼音文字。20世紀(jì)30年代以后維吾爾文經(jīng)過幾次改進(jìn)、最近的一次是在1983年?,F(xiàn)行維吾爾文有32個字母、自右至左橫書。每個字母按出現(xiàn)在詞首、詞中、詞末的位置有不同的形式。
維吾爾語中句子表示說話人一定的思想和思維的語言單位、句子平常由兩個或者兩個以上的短語相連接構(gòu)成的、有時候一個詞語也可以表達(dá)一定的意義組成一個句子、維吾爾語中句子分為簡單句和復(fù)合句兩種。
3 數(shù)據(jù)庫技術(shù)特點(diǎn)
數(shù)據(jù)庫(Database)是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫、它產(chǎn)生于距今50年前、隨著信息技術(shù)和市場的發(fā)展、特別是20世紀(jì)90年代以后、數(shù)據(jù)管理不再僅僅是存儲和管理數(shù)據(jù)、而轉(zhuǎn)變成用戶所需要的各種數(shù)據(jù)管理的方式。數(shù)據(jù)庫有很多種類型、從最簡單的存儲有各種數(shù)據(jù)的表格到能夠進(jìn)行海量數(shù)據(jù)存儲的大型數(shù)據(jù)庫系統(tǒng)都在各個方面得到了廣泛的應(yīng)用。數(shù)據(jù)庫主要特點(diǎn):數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)的共享性高、數(shù)據(jù)獨(dú)立性高、數(shù)據(jù)有DBMS同意管理和控制。
3.1 Access數(shù)據(jù)庫概述
Microsoft Access是一種關(guān)系式數(shù)據(jù)庫、它是單機(jī)版的數(shù)據(jù)庫管理系統(tǒng)。關(guān)系式數(shù)據(jù)庫由一系列表組成、表又由一系列行和列組成、每一行都是一個記錄、每一列是一個字段。Access數(shù)據(jù)庫有很多優(yōu)點(diǎn)比如說存儲方式簡單、易于維護(hù)管理、面向?qū)ο?Access是一個面向?qū)ο蟮拈_發(fā)工具、利用面向?qū)ο蟮姆绞綄?shù)據(jù)庫系統(tǒng)中的各種功能對象化、將數(shù)據(jù)庫管理的各種功能封裝在各類對象中、界面友好、易操作、集成環(huán)境、處理多種數(shù)據(jù)信息、Access支持ODBC(開發(fā)數(shù)據(jù)庫互連、Open Data Base Connectivity)、利用Access強(qiáng)大的DDE(動態(tài)數(shù)據(jù)交換)和OLE(對象的聯(lián)接和嵌入)特性、可以在一個數(shù)據(jù)表中嵌入位圖、聲音、Excel表格、Word文檔、還可以建立動態(tài)的數(shù)據(jù)庫報表和窗體等、支持廣泛、易于擴(kuò)展、彈性較大 能夠?qū)⑼ㄟ^鏈接表的方式來打開EXCEL文件、格式化文本文件等。
3.2實例分析
句法分析本身并不解決使內(nèi)容分析困難的模糊問題、除此以外、還必須考慮上下文的關(guān)系。因此、人們都普遍認(rèn)為要考慮新方法、包括從現(xiàn)存詞表和詞典中抽取的詞定義信息及從反應(yīng)具體學(xué)科語義特性的知識庫中獲取的信息。我們不管是一個一個處理或者是批處理一些文本文件里面的句子、本文中先得把文本文件導(dǎo)入Access數(shù)據(jù)庫中、然后用所使用的計算機(jī)語言平臺下進(jìn)行連接、(就是說正對本文中使用的計算機(jī)語言比如C#等跟數(shù)據(jù)庫進(jìn)行綁定)這樣可以一下子處理多個文件。圖1是處理維吾爾語句子時運(yùn)行的文本的處理過程、比如說本文在處理很多文本、然后從中再進(jìn)一步處理句子整體和構(gòu)成句子的有些結(jié)構(gòu)、這個過程總共建立了4個數(shù)據(jù)庫表、就是在文本中查找所需要的詞匯、查找成功的放在一個數(shù)據(jù)庫表(found word)中、查找未成功的存放在另一個數(shù)據(jù)庫表(no found word)中、然后提供一個規(guī)則數(shù)據(jù)庫表(sheet1)、還有一個word數(shù)據(jù)庫表、其作用是要把處理的文本內(nèi)容以空格為準(zhǔn)分裂成單個的詞匯以便處理。為了更好地描述數(shù)據(jù)庫的作用我還插入了表word。(圖2)
4 總結(jié)
綜上述說、目前應(yīng)用于現(xiàn)代漢語句法分析的語法以短語結(jié)構(gòu)語法、范疇語法和依存語法為代表。所有應(yīng)用于漢語句法分析的語法當(dāng)中、短語結(jié)構(gòu)語法(Phrase Structure Grammar、 PSG) 是可行的方法之一、本文中運(yùn)用Access數(shù)據(jù)庫系統(tǒng)對維吾爾語句子進(jìn)行了研究和分析、因為現(xiàn)代維吾爾語句法分析是時尚未深入研究的一個難點(diǎn)、在多個文本中處理不管是句子邊界定義問題或者是相似度算法應(yīng)用中、首先解決的問題就是怎么樣才從文本中抽取我們需要的句子然后進(jìn)行處理、在這一過程中數(shù)據(jù)庫應(yīng)用的作用是非常大的、就像上述所提講述的一樣、Access數(shù)據(jù)庫的靈活應(yīng)用實現(xiàn)了維吾爾語句子在研究中比較快的、有效地方法、當(dāng)然也可以用傳統(tǒng)語言學(xué)的人工識別來處理這些問題也可以解決的。
句法分析的難點(diǎn)之一是歧義問題、同一個句子因為詞的多義性或者句法結(jié)構(gòu)上的歧義性可能存在不同的句法分析結(jié)果。要完全消除歧義問題到目前還沒有可行的方法、但是可以利用數(shù)據(jù)庫的主鍵、外鍵功能可以減少歧義問題的出現(xiàn)率、維吾爾語的32字母構(gòu)成相同詞匯的可能性比較大、在多個文本中抽取詞匯中為了避免相同的詞匯的再次出現(xiàn)使系統(tǒng)再次運(yùn)行、降低系統(tǒng)的運(yùn)行速度、可以借助數(shù)據(jù)庫主鍵的無重復(fù)性特點(diǎn)來達(dá)到維吾爾語詞匯的重復(fù)性的歧義。通過主外鍵、非空、限制、唯一索引等保證數(shù)據(jù)的健壯、提高數(shù)據(jù)的查詢效率、通過合理表結(jié)構(gòu)、安排物理存儲分區(qū)、增加索引等方式、提高數(shù)據(jù)的讀取速度、提高查詢效率。
參考文獻(xiàn)
[1]謝新洲,陳睿.文本自動分析中句法分析應(yīng)用述評[J].情報理論與實踐 , 1992(3).
[2]張峰嶺. 數(shù)據(jù)庫應(yīng)用的需求分析研究[J]. 計算機(jī)工程與應(yīng)用,2002(18).
[3]張磊,杜小勇,王珊. 文本數(shù)據(jù)庫中的擴(kuò)展短語挖掘[J]. 計算機(jī)科學(xué),2001(8).
[4]張磊,杜小勇,王珊. 文本數(shù)據(jù)庫中的擴(kuò)展短語挖掘[J]. 計算機(jī)科學(xué),2001(8).
[5]馮秋香. 基于數(shù)據(jù)庫語義學(xué)的古漢語句法語義分析研究[J]. 計算機(jī)科學(xué),2011(11).
作者簡介
穆妮熱·穆合塔爾(1989-),女,現(xiàn)為新疆師范大學(xué)碩士研究生。研究方向為計算語言學(xué)。
導(dǎo)師簡介
玉素甫·艾白都拉,男,現(xiàn)為新疆師范大學(xué)教授,主要從事計算語言學(xué)、自然語言處理。
作者單位
新疆師范大學(xué) 新疆維吾爾自治區(qū)烏魯木齊市 830054endprint
摘 要
本文解決的核心問題是運(yùn)用數(shù)據(jù)庫軟件對維吾爾語句子進(jìn)行分析與研究、解決文本中對句子進(jìn)行批處理等一系列問題,要解決這些問題、首先必須得了解維吾爾語和維吾爾語句子的概念以及特點(diǎn)并且對于數(shù)據(jù)庫以及數(shù)據(jù)庫的主要的特點(diǎn)進(jìn)行探討。
【關(guān)鍵詞】維吾爾語句子 數(shù)據(jù)庫 編程
1 引言
維吾爾語句法分析是維吾爾文信息處理領(lǐng)域一個重要的基礎(chǔ)性課題、同時也是一個公認(rèn)的難題、在機(jī)器翻譯、文本摘要、信息過濾、自動問答中都有廣泛的應(yīng)用、該論文通過研究國內(nèi)外相關(guān)句法分析算法與理論、再結(jié)合維吾爾語自身的特點(diǎn)對計算語言學(xué)中的句子分析進(jìn)行了討論、由于維吾爾語作為一種自然語言、具有自然語言所共有的一些規(guī)則、發(fā)現(xiàn)國內(nèi)外的經(jīng)典句法分析方法同樣適合于維吾爾語的句法分析。
2 維吾爾語句子特點(diǎn)
維吾爾文指維吾爾族使用的拼音文字。維吾爾族在歷史上使用過突厥文、回鶻文、察合臺文。中國維吾爾族在二十一世紀(jì)使用的維吾爾文是在晚期察合臺文基礎(chǔ)上形成的以阿拉伯字母為基礎(chǔ)的拼音文字。20世紀(jì)30年代以后維吾爾文經(jīng)過幾次改進(jìn)、最近的一次是在1983年?,F(xiàn)行維吾爾文有32個字母、自右至左橫書。每個字母按出現(xiàn)在詞首、詞中、詞末的位置有不同的形式。
維吾爾語中句子表示說話人一定的思想和思維的語言單位、句子平常由兩個或者兩個以上的短語相連接構(gòu)成的、有時候一個詞語也可以表達(dá)一定的意義組成一個句子、維吾爾語中句子分為簡單句和復(fù)合句兩種。
3 數(shù)據(jù)庫技術(shù)特點(diǎn)
數(shù)據(jù)庫(Database)是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫、它產(chǎn)生于距今50年前、隨著信息技術(shù)和市場的發(fā)展、特別是20世紀(jì)90年代以后、數(shù)據(jù)管理不再僅僅是存儲和管理數(shù)據(jù)、而轉(zhuǎn)變成用戶所需要的各種數(shù)據(jù)管理的方式。數(shù)據(jù)庫有很多種類型、從最簡單的存儲有各種數(shù)據(jù)的表格到能夠進(jìn)行海量數(shù)據(jù)存儲的大型數(shù)據(jù)庫系統(tǒng)都在各個方面得到了廣泛的應(yīng)用。數(shù)據(jù)庫主要特點(diǎn):數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)的共享性高、數(shù)據(jù)獨(dú)立性高、數(shù)據(jù)有DBMS同意管理和控制。
3.1 Access數(shù)據(jù)庫概述
Microsoft Access是一種關(guān)系式數(shù)據(jù)庫、它是單機(jī)版的數(shù)據(jù)庫管理系統(tǒng)。關(guān)系式數(shù)據(jù)庫由一系列表組成、表又由一系列行和列組成、每一行都是一個記錄、每一列是一個字段。Access數(shù)據(jù)庫有很多優(yōu)點(diǎn)比如說存儲方式簡單、易于維護(hù)管理、面向?qū)ο?Access是一個面向?qū)ο蟮拈_發(fā)工具、利用面向?qū)ο蟮姆绞綄?shù)據(jù)庫系統(tǒng)中的各種功能對象化、將數(shù)據(jù)庫管理的各種功能封裝在各類對象中、界面友好、易操作、集成環(huán)境、處理多種數(shù)據(jù)信息、Access支持ODBC(開發(fā)數(shù)據(jù)庫互連、Open Data Base Connectivity)、利用Access強(qiáng)大的DDE(動態(tài)數(shù)據(jù)交換)和OLE(對象的聯(lián)接和嵌入)特性、可以在一個數(shù)據(jù)表中嵌入位圖、聲音、Excel表格、Word文檔、還可以建立動態(tài)的數(shù)據(jù)庫報表和窗體等、支持廣泛、易于擴(kuò)展、彈性較大 能夠?qū)⑼ㄟ^鏈接表的方式來打開EXCEL文件、格式化文本文件等。
3.2實例分析
句法分析本身并不解決使內(nèi)容分析困難的模糊問題、除此以外、還必須考慮上下文的關(guān)系。因此、人們都普遍認(rèn)為要考慮新方法、包括從現(xiàn)存詞表和詞典中抽取的詞定義信息及從反應(yīng)具體學(xué)科語義特性的知識庫中獲取的信息。我們不管是一個一個處理或者是批處理一些文本文件里面的句子、本文中先得把文本文件導(dǎo)入Access數(shù)據(jù)庫中、然后用所使用的計算機(jī)語言平臺下進(jìn)行連接、(就是說正對本文中使用的計算機(jī)語言比如C#等跟數(shù)據(jù)庫進(jìn)行綁定)這樣可以一下子處理多個文件。圖1是處理維吾爾語句子時運(yùn)行的文本的處理過程、比如說本文在處理很多文本、然后從中再進(jìn)一步處理句子整體和構(gòu)成句子的有些結(jié)構(gòu)、這個過程總共建立了4個數(shù)據(jù)庫表、就是在文本中查找所需要的詞匯、查找成功的放在一個數(shù)據(jù)庫表(found word)中、查找未成功的存放在另一個數(shù)據(jù)庫表(no found word)中、然后提供一個規(guī)則數(shù)據(jù)庫表(sheet1)、還有一個word數(shù)據(jù)庫表、其作用是要把處理的文本內(nèi)容以空格為準(zhǔn)分裂成單個的詞匯以便處理。為了更好地描述數(shù)據(jù)庫的作用我還插入了表word。(圖2)
4 總結(jié)
綜上述說、目前應(yīng)用于現(xiàn)代漢語句法分析的語法以短語結(jié)構(gòu)語法、范疇語法和依存語法為代表。所有應(yīng)用于漢語句法分析的語法當(dāng)中、短語結(jié)構(gòu)語法(Phrase Structure Grammar、 PSG) 是可行的方法之一、本文中運(yùn)用Access數(shù)據(jù)庫系統(tǒng)對維吾爾語句子進(jìn)行了研究和分析、因為現(xiàn)代維吾爾語句法分析是時尚未深入研究的一個難點(diǎn)、在多個文本中處理不管是句子邊界定義問題或者是相似度算法應(yīng)用中、首先解決的問題就是怎么樣才從文本中抽取我們需要的句子然后進(jìn)行處理、在這一過程中數(shù)據(jù)庫應(yīng)用的作用是非常大的、就像上述所提講述的一樣、Access數(shù)據(jù)庫的靈活應(yīng)用實現(xiàn)了維吾爾語句子在研究中比較快的、有效地方法、當(dāng)然也可以用傳統(tǒng)語言學(xué)的人工識別來處理這些問題也可以解決的。
句法分析的難點(diǎn)之一是歧義問題、同一個句子因為詞的多義性或者句法結(jié)構(gòu)上的歧義性可能存在不同的句法分析結(jié)果。要完全消除歧義問題到目前還沒有可行的方法、但是可以利用數(shù)據(jù)庫的主鍵、外鍵功能可以減少歧義問題的出現(xiàn)率、維吾爾語的32字母構(gòu)成相同詞匯的可能性比較大、在多個文本中抽取詞匯中為了避免相同的詞匯的再次出現(xiàn)使系統(tǒng)再次運(yùn)行、降低系統(tǒng)的運(yùn)行速度、可以借助數(shù)據(jù)庫主鍵的無重復(fù)性特點(diǎn)來達(dá)到維吾爾語詞匯的重復(fù)性的歧義。通過主外鍵、非空、限制、唯一索引等保證數(shù)據(jù)的健壯、提高數(shù)據(jù)的查詢效率、通過合理表結(jié)構(gòu)、安排物理存儲分區(qū)、增加索引等方式、提高數(shù)據(jù)的讀取速度、提高查詢效率。
參考文獻(xiàn)
[1]謝新洲,陳睿.文本自動分析中句法分析應(yīng)用述評[J].情報理論與實踐 , 1992(3).
[2]張峰嶺. 數(shù)據(jù)庫應(yīng)用的需求分析研究[J]. 計算機(jī)工程與應(yīng)用,2002(18).
[3]張磊,杜小勇,王珊. 文本數(shù)據(jù)庫中的擴(kuò)展短語挖掘[J]. 計算機(jī)科學(xué),2001(8).
[4]張磊,杜小勇,王珊. 文本數(shù)據(jù)庫中的擴(kuò)展短語挖掘[J]. 計算機(jī)科學(xué),2001(8).
[5]馮秋香. 基于數(shù)據(jù)庫語義學(xué)的古漢語句法語義分析研究[J]. 計算機(jī)科學(xué),2011(11).
作者簡介
穆妮熱·穆合塔爾(1989-),女,現(xiàn)為新疆師范大學(xué)碩士研究生。研究方向為計算語言學(xué)。
導(dǎo)師簡介
玉素甫·艾白都拉,男,現(xiàn)為新疆師范大學(xué)教授,主要從事計算語言學(xué)、自然語言處理。
作者單位
新疆師范大學(xué) 新疆維吾爾自治區(qū)烏魯木齊市 830054endprint