• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      藏文音節(jié)拼寫檢查的CNN模型

      2019-02-25 05:32:02色差甲貢保才讓才讓加
      中文信息學(xué)報(bào) 2019年1期
      關(guān)鍵詞:拼寫錯(cuò)誤藏文測(cè)試數(shù)據(jù)

      色差甲,貢保才讓,才讓加

      (1. 青海師范大學(xué) 藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧810008;2. 青海師范大學(xué) 藏文信息處理與機(jī)器翻譯省級(jí)重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)

      0 引言

      藏文拼寫檢查是藏文自然語(yǔ)言處理及應(yīng)用中一個(gè)基礎(chǔ)性的工作,在許多領(lǐng)域有著廣泛的使用價(jià)值。例如,應(yīng)用于文字處理、文字識(shí)別、文本生成、文本校對(duì)、語(yǔ)料庫(kù)建設(shè)[1-2]等。自動(dòng)拼寫檢查即可以減輕人為勞力,也可以避免檢查遺漏等現(xiàn)象。目前主流的方法是基于N-gram分析法、查字典法、詞形距離法、相似鍵法以及骨架鍵法等[3]。

      1 藏文音節(jié)的向量表示

      設(shè)藏文音節(jié)的字丁(字符)數(shù)為m(1≤m≤7),則可以用矩陣R7*D(7行D列,R是實(shí)數(shù)域)來(lái)表示藏文音節(jié),稱之為藏文音節(jié)矩陣。藏文音節(jié)矩陣的每行表示該行所對(duì)應(yīng)的藏文字丁向量,D是每個(gè)向量的維度。當(dāng)藏文音節(jié)的字丁個(gè)數(shù)小于7時(shí),在該音節(jié)矩陣中需要用一個(gè)特定的D維向量來(lái)填充,直到滿足7行D列為止,以確保每個(gè)音節(jié)矩陣的結(jié)構(gòu)一致。對(duì)大規(guī)模藏文語(yǔ)料的藏文字形結(jié)構(gòu)分布統(tǒng)計(jì)顯示[8],7個(gè)字丁的音節(jié)數(shù)占0.04%,2至4個(gè)字丁的音節(jié)數(shù)占80.74%。其余音節(jié)占19.22%,顯然字丁個(gè)數(shù)較少的藏文音節(jié)使用率極高,且藏文是以基字為基礎(chǔ)與其它字丁組合的拼音文字。所以,對(duì)藏文音節(jié)進(jìn)行向量化表示時(shí),先按音節(jié)的拼讀順序構(gòu)成一個(gè)矩陣Rm*D,再根據(jù)m的大小在矩陣Rm*D的兩邊填充特殊向量直到滿足7行D列。目的是為了藏文音節(jié)的每個(gè)字丁所對(duì)應(yīng)的向量位于音節(jié)矩陣R7*D的中間部分。由于CNN模型對(duì)藏文音節(jié)矩陣進(jìn)行卷積操作或池化操作時(shí)對(duì)矩陣中間部分的特征學(xué)習(xí)幾率比兩邊更多。同樣RNN和LSTM模型對(duì)藏文音節(jié)矩陣R7*D進(jìn)行特征學(xué)習(xí)時(shí),中間部分更有利于長(zhǎng)期記憶。因此,只對(duì)矩陣Rm*D的兩邊填充特定向量直到滿足藏文音節(jié)矩陣R7*D為止,這樣更有利于模型學(xué)習(xí)字丁之間的搭配信息。圖1~圖3分別是字丁數(shù)為7、3和2的藏文音節(jié)矩陣的實(shí)例。

      從以上的描述得知,音節(jié)矩陣是由每個(gè)字丁所對(duì)應(yīng)的向量組成。字丁向量有兩種獲取方法:一是用服從標(biāo)準(zhǔn)正態(tài)分布或均勻分布等概率分布來(lái)隨機(jī)生成一個(gè)D維向量,再通過(guò)梯度下降法優(yōu)化該向量獲取最優(yōu)模型,該向量具備字丁之間的搭配信息;二是用Google開(kāi)源的Word2Vector模型[9]來(lái)生成。Word2Vector模型原本適用于以詞為單位的任務(wù),且訓(xùn)練得到的結(jié)果可直接計(jì)算兩個(gè)詞之間的語(yǔ)義相關(guān)度。本文將Word2Vector從單詞到單詞,改為藏文字丁到字丁。訓(xùn)練得出的結(jié)果不但具有字丁之間搭配信息,也可以計(jì)算字丁之間的相似度。

      圖1 “”的向量表示

      圖2 “”的向量表示

      圖3 “”的向量表示

      2 CNN模型及其構(gòu)建

      卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN[10])是一種包含多個(gè)卷積層的深度神經(jīng)網(wǎng)絡(luò)模型。通常一個(gè)卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中必須至少包含兩個(gè)可以通過(guò)訓(xùn)練產(chǎn)生的非線性卷積層,以及兩個(gè)固定的子采樣層和一個(gè)全連接層[9]。

      藏文拼寫檢查的CNN模型有三個(gè)重要的網(wǎng)絡(luò)層,分別是卷積層、池化層和全連接層。其中,卷積層具有特征學(xué)習(xí)的能力。需要多層的目的是一層卷積學(xué)習(xí)的特征往往是局部的,而多層卷積特征越多越趨向全局化;池化層具有防止過(guò)擬合作用和對(duì)特征進(jìn)行聚合統(tǒng)計(jì)的作用。卷積層學(xué)到的特征向量維度大時(shí)容易出現(xiàn)過(guò)擬合現(xiàn)象,且特征向量中同一個(gè)特征多次使用時(shí),可以用池化層來(lái)降維和防止過(guò)擬合現(xiàn)象;全連接層將經(jīng)過(guò)深層學(xué)習(xí)后的結(jié)果映射到一個(gè)固定維度向量上,如需要處理任務(wù)時(shí)在二類分類時(shí)會(huì)映射到一個(gè)二維向量上,這是為后續(xù)處理提供方便。針對(duì)藏文音節(jié)拼寫檢查,本文構(gòu)建了具有三層卷積層、三層池化層和一個(gè)全連接層的CNN模型。其中,輸入值是7行D列的藏文音節(jié)矩陣。而輸出值是二維向量,并設(shè)置成第一維的值大于第二維的值時(shí),說(shuō)明拼寫錯(cuò)誤。反之,拼寫正確。該模型如圖4所示。

      圖4 藏文音節(jié)拼寫檢查的CNN模型構(gòu)架

      在第i(i=1,2,3)層的卷積操作過(guò)程中始終使用一個(gè)固定的權(quán)重矩陣Wi來(lái)學(xué)習(xí)藏文字丁的搭配特征;在第j(j=1,2,3)的池化層操作中,使用一個(gè)固定的窗口Mj進(jìn)行特征聚合,使特征向量的維度降低;其中,Wi的維度和Mj的大小可根據(jù)需要設(shè)定。

      (1)

      (2)

      常用的權(quán)重更新方法常有:批量梯度下降法(Batch Gradient Descent,BGD)、隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)和自適應(yīng)梯度[11](Adaptive Gradient,AdaGrad)等多種方法。本文中采用AdaGrad,如式(3)所示。

      (3)

      (4)

      3 數(shù)據(jù)預(yù)處理以及實(shí)驗(yàn)結(jié)果分析

      3.1 數(shù)據(jù)預(yù)處理

      本實(shí)驗(yàn)從青海藏語(yǔ)網(wǎng)絡(luò)廣播電視臺(tái)、中國(guó)藏語(yǔ)網(wǎng)通、中國(guó)西藏之聲網(wǎng)、中國(guó)藏族廣播網(wǎng)、康巴衛(wèi)視網(wǎng)、新編藏文字典等網(wǎng)站和詞典中采集了含有721 544個(gè)藏文音節(jié)(其中梵音藏文音節(jié)133 382個(gè))的語(yǔ)料。使用TSRM算法[7]和人工校對(duì)法對(duì)所有音節(jié)進(jìn)行拼寫檢查并分類,總計(jì)有708 780個(gè)拼寫正確的音節(jié)和12 764個(gè)拼寫錯(cuò)誤的音節(jié)。其中,拼寫錯(cuò)誤和正確的藏文音節(jié)標(biāo)簽分別標(biāo)注為0和1,該標(biāo)簽轉(zhuǎn)換成向量(noe-hot vecter)時(shí)分別表示為(1,0)和(0,1),拼寫正確和錯(cuò)誤音節(jié)占98.23%和1.77%.顯然,正確和錯(cuò)誤比例(98.23∶1.77)差距太大,深度學(xué)習(xí)無(wú)法對(duì)錯(cuò)誤音節(jié)特征進(jìn)行學(xué)習(xí)。因此本實(shí)驗(yàn)隨機(jī)組合生成了656 100個(gè)拼寫錯(cuò)誤音節(jié)以充實(shí)噪聲數(shù)據(jù)。通過(guò)增加噪聲數(shù)據(jù)(即拼寫錯(cuò)誤的音節(jié)),使真實(shí)數(shù)據(jù)與噪聲數(shù)據(jù)的比例更加均勻。拼寫正確和錯(cuò)誤的音節(jié)總共有1 364 880個(gè),95%作為訓(xùn)練數(shù)據(jù)和5%作為測(cè)試數(shù)據(jù),訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的分布信息如表1所示。

      3.2 實(shí)驗(yàn)方法及結(jié)果分析

      本實(shí)驗(yàn)使用了藏文音節(jié)規(guī)則算法(TSRM算法)、循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[12](RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)語(yǔ)言模型(LSTM)和CNN模型對(duì)藏文音節(jié)進(jìn)行拼寫檢查。LSTM是在RNN的基礎(chǔ)上改進(jìn)的一個(gè)模型。本實(shí)驗(yàn)研究的對(duì)象為藏文音節(jié)的拼寫檢查,所以RNN和LSTM中使用的語(yǔ)言單位需要最小化,用藏文字丁來(lái)建立模型。上述的藏文音節(jié)矩陣可視為含有7個(gè)時(shí)刻的序列問(wèn)題,其中第i行表示第i(1≤i≤7)時(shí)刻的信息,RNN和LSTM中使用的損失函數(shù)和梯度下降法與本文中構(gòu)建的藏文音節(jié)拼寫檢查的CNN模型的損失函數(shù)一致。實(shí)驗(yàn)結(jié)果的評(píng)測(cè)指標(biāo)選用了正確率、召回率和F值。訓(xùn)練過(guò)程分兩步進(jìn)行:

      表1 訓(xùn)練和測(cè)試數(shù)據(jù)的分布信息

      第一步,以未加入噪聲數(shù)據(jù)的數(shù)據(jù)集進(jìn)行訓(xùn)練,拼寫正確與錯(cuò)誤的比例為98.23∶1.77;

      第二步,以加入60多萬(wàn)噪聲數(shù)據(jù)的數(shù)據(jù)集進(jìn)行訓(xùn)練,拼寫正確與錯(cuò)誤的比例為70∶65。

      各個(gè)模型對(duì)未加入噪聲數(shù)據(jù)和加入噪聲數(shù)據(jù)的測(cè)試結(jié)果分別如表2和表3所示,同樣各個(gè)深度學(xué)習(xí)模型對(duì)不同訓(xùn)練集訓(xùn)練時(shí),在不同迭代時(shí)刻的目標(biāo)損失值和測(cè)試數(shù)據(jù)的正確率分別為圖5和圖6所示。

      表2 未加入噪聲數(shù)據(jù)的測(cè)試結(jié)果(5%的測(cè)試數(shù)據(jù))

      表3 加入噪聲數(shù)據(jù)的測(cè)試結(jié)果(5%的測(cè)試數(shù)據(jù))

      5%的測(cè)試語(yǔ)料中既包含符合藏文文法的音節(jié)和梵音藏文音節(jié),又包含拼寫錯(cuò)誤的藏文音節(jié)和梵音藏文音節(jié),并且錯(cuò)誤和正確各占一半。表2中訓(xùn)練語(yǔ)料的規(guī)模為70萬(wàn)音節(jié)(即未加入噪聲數(shù)據(jù)的語(yǔ)料),而且拼寫正確的藏文音節(jié)個(gè)數(shù)占大多數(shù)。從表2可知,TSRM的結(jié)果最理想。因?yàn)門SRM不依賴于訓(xùn)練語(yǔ)料,只依賴于藏文文法。所以對(duì)符合藏文文法和拼寫錯(cuò)誤音節(jié)的正確率極高,但對(duì)梵音藏文音節(jié)則無(wú)法正確判斷,都標(biāo)記成0。由于70萬(wàn)音節(jié)的訓(xùn)練數(shù)據(jù)中拼寫錯(cuò)誤的音節(jié)很少,導(dǎo)致CNN模型訓(xùn)練時(shí)對(duì)錯(cuò)誤音節(jié)的特征無(wú)法進(jìn)行學(xué)習(xí)。所以該模型的正確率最低,且測(cè)試數(shù)據(jù)都標(biāo)記成1(即標(biāo)記成拼寫正確),從正確率和召回率可見(jiàn)CNN模型出現(xiàn)了過(guò)擬合的現(xiàn)象。雖訓(xùn)練集中拼寫正確和錯(cuò)誤的比例為98.23∶1.77,但RNN和LSTM模型在測(cè)試數(shù)據(jù)上仍然都可獲得89%左右的正確率,這也反映了該類模型在序列問(wèn)題上有一定的泛化能力。圖5是訓(xùn)練數(shù)據(jù)為70萬(wàn)音節(jié)上獲得各個(gè)深度學(xué)習(xí)模型在不同迭代時(shí)刻記錄的損失值(圖5(a))和測(cè)試數(shù)據(jù)的正確率(圖5(b))。

      (a) 不同迭代時(shí)刻的損失值

      (b) 不同迭代時(shí)刻的正確率圖5 模型(70萬(wàn)訓(xùn)練集)的損失值和測(cè)試數(shù)據(jù)的正確率

      圖5(a)和(b)中Rank2Vector表示構(gòu)建藏文音節(jié)矩陣時(shí),每個(gè)字丁所對(duì)應(yīng)的向量都是隨機(jī)生成。首先,該音節(jié)矩陣在模型中可視為一個(gè)參數(shù)。其次,根據(jù)模型優(yōu)化參數(shù)的同時(shí)進(jìn)行優(yōu)化該音節(jié)矩陣,最后得到該模型的一個(gè)最優(yōu)的參數(shù)。即模型訓(xùn)練的同時(shí)每個(gè)字丁的向量也訓(xùn)練了。其中Word2Vector是預(yù)先在大規(guī)模的藏文語(yǔ)料中訓(xùn)練好的字丁向量可直接應(yīng)用于模型,在訓(xùn)練模型時(shí),該音節(jié)矩陣可視為參數(shù)進(jìn)行訓(xùn)練,也可以視為常數(shù),在本實(shí)驗(yàn)中可視為常數(shù)來(lái)進(jìn)行訓(xùn)練。從圖5(a)中可見(jiàn)每個(gè)深度學(xué)習(xí)模型在迭代次數(shù)到達(dá)50次左右時(shí)都開(kāi)始逐漸收斂,且CNN模型的損失值大于RNN和LSTM模型的損失值。因此,導(dǎo)致測(cè)試數(shù)據(jù)的正確率不理想。從圖5(b)中也可見(jiàn)CNN模型的正確率遠(yuǎn)遠(yuǎn)不如其他模型。針對(duì)這個(gè)問(wèn)題本實(shí)驗(yàn)加入了656 100個(gè)噪聲數(shù)據(jù)(拼寫錯(cuò)誤音節(jié))使拼寫正確和錯(cuò)誤的比例更加平衡。加入噪聲數(shù)據(jù)后的測(cè)試結(jié)果如表3所示。

      表3中TSRM的結(jié)果沒(méi)有變化,但另外三個(gè)深度學(xué)習(xí)的結(jié)果不僅有提升,尤其是CNN模型防止了過(guò)擬合現(xiàn)象并且在測(cè)試數(shù)據(jù)上正確率得到從50.00%提升到99.52%的最好結(jié)果。實(shí)驗(yàn)結(jié)果表明,CNN模型的訓(xùn)練集有了藏文拼寫正確和錯(cuò)誤音節(jié)且?guī)缀醺髡家话?70∶65)。可以從藏文音節(jié)矩陣中學(xué)習(xí)到更多的特征或者是獲取到相鄰向量之間的關(guān)聯(lián),即字丁之間的搭配關(guān)系。圖6是訓(xùn)練數(shù)據(jù)為130萬(wàn)音節(jié)上獲得各個(gè)深度學(xué)習(xí)模型在不同迭代時(shí)刻記錄的損失值(圖6(a))和測(cè)試數(shù)據(jù)的正確率(圖6(b))。

      (a) 不同迭代時(shí)刻的損失值

      (b) 不同迭代時(shí)刻的正確率圖6 模型(130萬(wàn)訓(xùn)練集)的損失值和測(cè)試數(shù)據(jù)的正確率

      4 總結(jié)與展望

      猜你喜歡
      拼寫錯(cuò)誤藏文測(cè)試數(shù)據(jù)
      西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
      布達(dá)拉(2020年3期)2020-04-13 10:00:07
      黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
      西夏學(xué)(2019年1期)2019-02-10 06:22:34
      測(cè)試數(shù)據(jù)管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      初中生英語(yǔ)詞匯學(xué)習(xí)策略探究
      贏未來(lái)(2018年1期)2018-04-20 07:11:36
      從2017年6月四級(jí)翻譯閱卷看段落翻譯中的詞匯錯(cuò)誤類型
      考試周刊(2017年92期)2018-02-03 01:00:32
      藏文音節(jié)字的頻次統(tǒng)計(jì)
      基于自適應(yīng)粒子群優(yōu)化算法的測(cè)試數(shù)據(jù)擴(kuò)增方法
      現(xiàn)代語(yǔ)境下的藏文報(bào)刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      由wrong錯(cuò)拼成worry引發(fā)的行動(dòng)研究
      空間co-location挖掘模式在學(xué)生體能測(cè)試數(shù)據(jù)中的應(yīng)用
      體育科技(2016年2期)2016-02-28 17:06:21
      大安市| 瑞安市| 綦江县| 无极县| 隆化县| 奎屯市| 竹溪县| 弥渡县| 绥德县| 盐城市| 手游| 阿克陶县| 高要市| 沐川县| 错那县| 绍兴县| 景洪市| 普洱| 平罗县| 定远县| 新巴尔虎左旗| 漳浦县| 磴口县| 荔浦县| 桦甸市| 鄄城县| 奈曼旗| 平江县| 常熟市| 历史| 桑日县| 惠水县| 多伦县| 建昌县| 靖州| 澳门| 锦州市| 龙井市| 达尔| 临西县| 灵丘县|