摘 要:當前人們在工作和學習中需使用中文信息處理技術獲取自己需要的資源,基于人們需求不斷增加,必須提升人們搜索資源的效率,提升中文信息處理相關技術,讓中文信息處理與時俱進,滿足人們實際需求。中文信息處理包含多種關鍵技術,為提高信息處理能力必須多種技術同時發(fā)揮作用。中文信息處理自動分詞技術是信息處理技術瓶頸,文章就文信息處理自動分詞技術展開研究。
關鍵詞:中文信息處理技術;自動分詞技術;研究
21實際是電子信息時代,計算機在人們生活中占據(jù)重要地位。中文是我國第一語言,中文信息化處理在計算機中應用能夠有效滿足人們對信息的需求。中文信息處理主要對中文進行轉(zhuǎn)換、傳輸、存貯、分析等加工目前我國雖然在中文信息處理方面取得一定進步,但某些關鍵技術仍舊有待完善,自動分詞技術就是其中之一。
1 自動分詞技術的研究現(xiàn)狀及面臨的困難
隨著人們對中文信息處理技術要求不斷提升,中文信息處理自動分詞技術已經(jīng)成為影響信息處理的關鍵技術之一。因此,必須對自動分詞技術深入研究,分析其現(xiàn)狀及存在的問題。
自動分詞技術研究目前已經(jīng)取得一定成效,一些比較實用的自動分詞技術已經(jīng)被應用,這些分詞技術在精確度以及分詞速度上已經(jīng)能夠滿足人們一些基本需求,但在一些特殊需求上仍需要進一步提升精確度和分詞速度,當前自動分詞技術面臨的問題主要有以下三點:
(1)中文一些詞語概念難以界定,很多詞語具有多重意思;(2)未登錄詞的識別;(3)歧義切分字段的處理。
我國上世紀90年代制定的《現(xiàn)代漢語分詞規(guī)范》中明確規(guī)定了一些分詞原則,與分析相關操作可根據(jù)該規(guī)范展開。進行分詞前需制定標準化、實例化的分詞詞表,并在實踐中不斷進行修改完善,該詞表制作存在一定難度。
我國詞典雖然處于不斷完善過程中,但其必然存在最大容量,而中文內(nèi)涵是無限的。因此,必然有一些詞匯沒有被收錄到詞典中,尤其是一些新產(chǎn)生的詞匯在詞典更新前往往無法從詞典中搜索到。因此,必須建立標準化分詞詞表并不斷進行完善,持續(xù)改進。
漢語難以實現(xiàn)自動分詞功能,究其原因是漢語語義多樣性引起的,不同中文從不同角度理解便可得出不同結論,且傳統(tǒng)中文信息傳遞主要以書寫為主。因此,無論如何分詞都難以消除中文分詞歧義。中文信息處理中自動分詞技術已經(jīng)成為自動分詞技術實際運用的最大障礙,相關專家學者必須針對該問題結合當前先進算法提升自動分詞技術,解決歧義切分字段的處理。
2 歧義字段的定義及分類
中文句子經(jīng)常會出現(xiàn)多種切分出現(xiàn)多種語義的狀況。中文處理信息技術匯總將這種狀況稱之為歧義字段,一般可將其分為交集型歧義字段、覆蓋型歧義字段、多義型或組合型。
交集型歧義字段:舉例來說,假設A、B、C分別代表字串,該字串由一個或多個子串組成,即其中A、B、C可自由分割,此時若出現(xiàn)字段中A、B、C均為分詞表中對應的詞,則將其稱之為交集型歧義字段。例如對于“美國會”這一交集型歧義字段,可將其且分為“美/國會”以及“美國/會”兩種結果。調(diào)查表明,中文信息處理中交集型歧義字段在歧義字段中占據(jù)比例約為85%,解決交集型歧義字段問題是中文信息處理重中之重。
覆蓋型歧義字段:若A、B代表一個或多個子串組成的字段,將其分段為A、B、AB等均為分詞表中的詞。此時AB則被稱為覆蓋型歧義字段,例如“把手”可分為“把/手”,均可獨立作為分詞,“十/分”也是覆蓋型歧義字段。一般情況下覆蓋型歧義字段在中文信息處理中遇到幾率不高,一旦出現(xiàn)便會造成中文信息處理故障,因此需慎重對待。
3 中文自動分詞算法分類
3.1 基于機械匹配的中文自動分詞算法
機械匹配算法基本思想是先建立詞庫,將所有可能出現(xiàn)的詞納入其中,如需處理給定漢字串S,則按照某種特定分詞原則將其與詞庫中某些分詞相匹配。如果S中分割的子串本身是詞則繼續(xù)對其進行分割,直至最后剩余部分為空;如果S中分割的子串本身不是詞則取S子串進行匹配。機械匹配算法僅依靠分詞進行匹配,因此在系統(tǒng)實現(xiàn)上以及操作上較為簡單,針對某些基本中文信息處理有一定成效,目前已經(jīng)得到廣泛應用。
根據(jù)每次匹配時優(yōu)先考慮長詞還是短詞可將機械匹配算法分為最大匹配法和最小瓶匹配法;根據(jù)分割匹配漢字串是是正向還是反向又可將其分為正向匹配法和反向匹配法。
3.2 基于統(tǒng)計語言模型的中文自動分詞算法
隨著網(wǎng)絡時代到來,越來越多學者都認識到網(wǎng)絡電子文本是重要自動分詞資源,利用相關手段在電子資源庫中直接獲取需要的知識在未來必將成為自動分詞重要組成部分,基于統(tǒng)計語言模型的中文自動算法在這樣的環(huán)境下誕生了。
基于統(tǒng)計語言模型分詞算法基本思想是對分詞在中文漢字相鄰位置出現(xiàn)概率的可信度進行統(tǒng)計,將相關統(tǒng)計信息作為分析依據(jù)。
4 自動分詞技術展望——人工智能技術的中文自動分詞方法
人工智能技術就是利用智能系統(tǒng)具備的神經(jīng)網(wǎng)路以及專家系統(tǒng)進行中文信息處理自動分詞功能,以實現(xiàn)中文信息處理自動化。該種算法的主要思想是利用智能系統(tǒng)模仿進行語言識別。
神經(jīng)網(wǎng)絡分詞算法是模擬人腦進行分詞處理以及數(shù)值據(jù)算的一種智能算法,該算法主要將知識隱式方法輸入神經(jīng)網(wǎng)絡并存儲,通過系統(tǒng)自學及訓練修改的方式達到有效分詞效果。專家系統(tǒng)分詞算法主要指從模擬人腦出發(fā)將知識分詞看做推理過程,將漢字串按照語法、語義、句法等從結構上分離開來。
5 結束語
中文信息處理技術在過去一段時間獲得長足發(fā)展,已經(jīng)能夠滿足人們對中文信息處理基本需求,從長遠角度來看為更進一步促進中文信息發(fā)展必須度仍舊存在的問題進行深入分析探討,中文信息處理自動分詞技術是其中關鍵一環(huán)。因此,必須對其展開深入研究,使其適應時代發(fā)展需求。
參考文獻
[1]賈惠波.中文信息處理中自動分詞技術的研究與展望[J].計算機工程與應用,2012(5):56-59.
[2]梁南元.書面漢語自動分詞系統(tǒng)[J].語言文字應用.2011(3):98.
作者簡介:郭淑妮(1981,12-),女,山東威海人,碩士研究生,內(nèi)蒙古民族大學計算機科學與技術學院,研究方向:中文信息處理,語音識別。