• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Linux平臺的Sunpinyin輸入法的研究與分析

    2014-04-29 00:00:00王亞君

    摘 要:在Windows操作系統(tǒng)中,谷歌、搜狗等多種拼音輸入法因詞庫大、識別率高等優(yōu)點,幾乎已經(jīng)成為裝機(jī)必不可少的輸入法。與之相比,雖然Linux不缺乏類似scim、fcitx的輸入法平臺,但仍很難找到得心應(yīng)手的輸入法。然而,Sunpinyin輸入法的橫空出世彌補(bǔ)了這個遺憾。本文首先對Sunpinyin輸入法進(jìn)行整體介紹[1];然后對Sunpinyin輸入法引擎進(jìn)行詳細(xì)解讀,并提出Sunpinyin輸入法的優(yōu)化設(shè)想;最后對將蒙古文與Sunpinyin輸入法的融合做出了大膽構(gòu)想。

    關(guān)鍵詞:Sunpinyin輸入法;蒙古文;語言;信息處理

    中圖分類號:TP393.08

    目前,雖然windows操作系統(tǒng)中各種各樣的輸入法爭奇斗艷,但是Windows操作系統(tǒng)作為一種商業(yè)性的產(chǎn)品,它對外界是完全封閉[2]。我們都期盼輸入法能的源代碼能夠允許所有的用戶對其進(jìn)行瀏覽、使用并且加以改進(jìn)。Linux作為一種將源代碼完全開放的Unix類操作系統(tǒng),它的源代碼的開放性以及技術(shù)的先進(jìn)性,為我們提供了一個良好的應(yīng)用平臺。

    1 Sunpinyin輸入法的構(gòu)成

    Sunpinyin輸入法的代碼總共包括了后端(src/slm)、前端(src/ime-core)和語言模型(wrapper)三個部分。其中,src/slm目錄下存放的是統(tǒng)計語言模型代碼,src/ime-core目錄下存放的是和輸入法相關(guān)的一些接口,而各個輸入法平臺的前端則存放在wrapper目錄下。

    SunPinyin 輸入法的后端即是輸入法引擎,它的主要作用是負(fù)責(zé)SunPinyin輸入法的算法并提供最基本的輸入法功能,在GNU/Linux上它是以動態(tài)鏈接庫的形式存在的。SunPinyin 輸入法的前端是輸入法的內(nèi)核和輸入法平臺的交互界面。SunPinyin 輸入法的語言模型由一些數(shù)據(jù)文件構(gòu)成,其中包含了我們所熟悉的詞庫等數(shù)據(jù)。

    2 SunPinyin輸入法引擎

    2.1 ime部分的概念模型

    SunPinyin輸入法ime部分的概念模型包括如圖1所示的幾部分。

    其中,位于ime/src/slm目錄中的Static SLM部分存放的是訪問統(tǒng)計語言模型的代碼,位于ime/src/lexicon目錄中的Lexicon部分存放的是拼音詞表的代碼。在View部分中,由Window-Handler接收用戶的輸入后通過發(fā)送call-back(回調(diào))命令,將pre-edit string和candidates返回給Window-Handler用來顯示。另外,拼音串的切分是在音節(jié)切分器部分使用Lexicon完成的[3]。而歷史輸入緩存部分的功能是使用一個類Bigram的模型來記錄用戶最近提交的句子。

    2.2 SunPinyin輸入法的數(shù)據(jù)結(jié)構(gòu)及核心算法

    早先的SunPinyin組織search lattice的方式是通過使用CBone/Cskeleton進(jìn)行的,每一個Bone對應(yīng)一個syllable。SunPinyin 的最新版本SunPinyin2為了加強(qiáng)對模糊切分的支持,lattice采用以單個的拼音字符為單位用來取代以syllable為單位。SunPinyin2中定義了一個CLattice的類對應(yīng)于原來的CSkeleton,用來表示整個的search lattice。同時,為了對應(yīng)于原來的CBone/CBoneInnerData,將每一個列稱為一個CLatticeFrame。SunPinyin2還在TlexiconState中加入了一些類似m_syls 和m_words等相應(yīng)的字段已達(dá)到支持用戶詞典的效果。

    2.3 用戶詞典

    之前的SunPinyin只是通過用戶歷史緩存記錄用戶最近輸入的bi-gram信息,并沒有應(yīng)用用戶詞典。假如出現(xiàn)一個bi-gram的概率比系統(tǒng)詞典中的某個uni-gram的概率低的情況,它將不會出現(xiàn)在用戶的候選列表中。例如,即使用戶頻繁的輸入即期,但是“機(jī)器”這個unigram的概率更高些,所以它很難出現(xiàn)在候選列表中。假如“即期”這個詞出現(xiàn)在了候選中,那么它就一定會是第一候選,會有這種情況的發(fā)生是因為它是以一個最佳候選句子的形式來呈現(xiàn)給用戶的。一旦用戶選擇了“機(jī)器”,將會很難預(yù)測“即期”這個詞多久出現(xiàn),此缺陷也是廣受用戶詬病的。

    3 Sunpinyin輸入法的優(yōu)化構(gòu)想

    雖然SunPinyin對于廣大用戶來說是一款非常實用的輸入法,但目前SunPinyin2還沒有能夠重新實現(xiàn)微軟拼音的輸入風(fēng)格并且現(xiàn)有的 Sunpinyin輸入法的配置項還比較分散。另外,當(dāng)前的SunPinyin輸入法的拼音切分部分代碼中的start的信息是冗余的?,F(xiàn)有的CIMIContext可以根據(jù)最佳路徑搜索來得到正確的切分路徑已達(dá)到深層優(yōu)化。

    4 基于Linux平臺蒙古文Sunpinyin輸入法的實現(xiàn)構(gòu)想

    隨著現(xiàn)代計算機(jī)技術(shù)的迅猛發(fā)展,蒙古文信息處理工作獲得了不小的突破[4]。蒙古文的書寫是按列從上到下,多列從左到右排列書寫,不與中英文相同[5]。除此之外,蒙古文字庫中的蒙文字符的存放方式也是匠心獨運,都是呈現(xiàn)逆時針旋轉(zhuǎn)90度后存放[6]。目前,Windows操作系統(tǒng)為了迎合廣大蒙古文用戶的書寫習(xí)慣,利用Windows API函數(shù)在顯示豎直排版的蒙文字符時將字符順時針旋轉(zhuǎn)90度后輸出[7],但是Linux操作系統(tǒng)并不支持字符旋轉(zhuǎn)[8]。

    通過上述的分析可知,今后研究的目標(biāo)將是在Linux操作系統(tǒng)上實現(xiàn)蒙古文Sunpinyin輸入法,并且不再讓顯示的蒙文字采用“躺姿”。為了實現(xiàn)輸入法字符編碼的統(tǒng)一,防止之前“萬碼奔騰”局面的重現(xiàn),該Linux平臺上的蒙古文Sunpinyin輸入法需要采用Unicode國際標(biāo)準(zhǔn)編碼處理蒙古文字符,這也將能夠極大地維持蒙古文信息的傳播與交流,對滿足習(xí)慣于使用蒙古文書寫的用戶需求意義深遠(yuǎn)。

    5 結(jié)束語

    本文通過對Sunpinyin輸入法進(jìn)行解讀,首先概括性介紹了Sunpin輸入法的后端、前端、語言模型三部分內(nèi)容,繼而著重描述了Sunpinyin輸入法引擎,同時對Sunpinyin輸入法的優(yōu)化提出了一些設(shè)想,并對蒙古文與Sunpinyin的融合提出了一些構(gòu)想,這些設(shè)想還僅僅是初步的,仍需要在實踐中進(jìn)一步檢索和深化。

    參考文獻(xiàn):

    [1]周克蘭.漢字?jǐn)?shù)碼輸入法評價體系研究[D].蘇州大學(xué),2005.

    [2]田寄遠(yuǎn).基于Linux SCIM的傳統(tǒng)蒙古文Unicode拼音輸入法的設(shè)計與實現(xiàn)[D].內(nèi)蒙古師范大學(xué),2009.

    [3]劉政怡.中文整句智能輸入方法研究[D].安徽大學(xué),2007.

    [4]張瑾.規(guī)則與統(tǒng)計相結(jié)合的蒙古文編碼轉(zhuǎn)換的研究與實現(xiàn)[D].內(nèi)蒙古大學(xué),2009.

    [5]額日和木.基于嵌入式Linux的蒙古文字處理方法的研究與實現(xiàn)[D].內(nèi)蒙古大學(xué),2011.

    [6]李佳妍.嵌入式Linux環(huán)境下蒙文編輯器的設(shè)計與實現(xiàn)[D].內(nèi)蒙古大學(xué),2008.

    [7]吳常福.基于嵌入式Linux的傳統(tǒng)蒙古文垂直風(fēng)格圖形用戶界面設(shè)計與實現(xiàn)[D].內(nèi)蒙古大學(xué),2009.

    [8]王魯瑞.基于生長函數(shù)的植物生長建模研究[D].重慶大學(xué),2011.

    作者簡介:王亞君(1989-),女,河北保定人,2012級學(xué)術(shù)型研究生,研究方向:自然語言處理;指導(dǎo)老師:紅梅。

    作者單位:內(nèi)蒙古師范大學(xué) 計算機(jī)與信息工程學(xué)院,呼和浩特 010022

    荆州市| 广丰县| 民勤县| 黄浦区| 西盟| 银川市| 汨罗市| 繁昌县| 濮阳县| 垫江县| 惠州市| 江北区| 肇源县| 外汇| 蒙阴县| 乳山市| 登封市| 岳西县| 克东县| 自贡市| 鄱阳县| 广丰县| 临夏市| 西乌| 怀集县| 镶黄旗| 沁水县| 巴彦淖尔市| 林周县| 香港 | 辉南县| 钟祥市| 德化县| 苏尼特右旗| 巧家县| 佛教| 金秀| 义马市| 左贡县| 台南市| 定南县|