• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于強(qiáng)化學(xué)習(xí)的壯語詞性標(biāo)注

    2020-04-20 05:03:12唐素勤孫亞茹李志欣張燦龍
    計(jì)算機(jī)工程 2020年4期
    關(guān)鍵詞:壯語語料方法

    唐素勤,孫亞茹,李志欣,張燦龍

    (廣西師范大學(xué) a.廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室; b.教育學(xué)部 教育技術(shù)系,廣西 桂林 541004)

    0 概述

    詞性標(biāo)注是自然信息處理的一項(xiàng)基礎(chǔ)性工作。詞性標(biāo)注結(jié)果的性能直接制約著自然語言處理技術(shù)的發(fā)展,對(duì)詞法分析、句法分析、語義分析、信息提取等研究領(lǐng)域有很大的影響。據(jù)維基百科統(tǒng)計(jì),壯語是中國境內(nèi)使用人口數(shù)位居第二和世界使用人口數(shù)排名第65的語言。壯文信息處理開始于19世紀(jì)80年代,時(shí)至今日,壯語的智能信息處理與其他少數(shù)民族語言相比仍發(fā)展緩慢。詞處理技術(shù)的不成熟和語料的嚴(yán)重匱乏是制約壯語信息處理技術(shù)發(fā)展的主要原因。

    壯族文字包含古壯字和現(xiàn)代壯字兩種,因古壯字缺乏規(guī)范,未能成為壯族統(tǒng)一的文字,現(xiàn)代壯字也稱拼音壯文,是中華人民共和國成立后,中央人民政府幫助創(chuàng)制并批準(zhǔn)推行使用的第一種少數(shù)民族新文字。拼音壯文的誕生,為壯族人民的學(xué)習(xí)和交流帶來便利,也為壯族文化的發(fā)展提供了有力的工具[1]。目前,現(xiàn)代壯字在諸多場(chǎng)合得到應(yīng)用。例如,廣西省內(nèi)的招牌、公章、路牌、站牌、公共標(biāo)志,廣西省發(fā)放的身份證,大型會(huì)議(全國黨代會(huì)、人大會(huì)、政協(xié)會(huì)議)文件,人民幣上的第5種文字(其他4種語言分別是漢、蒙、藏、維),《廣西民族報(bào)》《三月三》等文藝雜志,農(nóng)村掃盲、山歌培訓(xùn)、種養(yǎng)科技培訓(xùn),壯族中小學(xué)課本。廣西民族出版社設(shè)有壯文編譯室,中央民族語文翻譯局設(shè)有壯文翻譯室。自1987年起,壯文翻譯室已經(jīng)為每年的“兩會(huì)”、黨的十三大到十七大翻譯文件1 000多萬字,翻譯出版了《毛澤東選集》等諸多著作。

    本文提出一種基于強(qiáng)化學(xué)習(xí)的壯語詞性標(biāo)注方法。根據(jù)壯語的文法特點(diǎn)構(gòu)建標(biāo)注集,利用基于長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的序列標(biāo)注模型,依據(jù)上下文的文本特征信息進(jìn)行詞性選擇,改善模型的訓(xùn)練結(jié)果。在此基礎(chǔ)上,將目標(biāo)詞性作為環(huán)境反饋,通過特征學(xué)習(xí)不斷逼近目標(biāo)真實(shí)值,得到精標(biāo)注文本。

    1 相關(guān)工作

    針對(duì)壯語文字的信息處理,目前已有編輯工具、英漢壯釋義詞典及輔助翻譯軟件等[2-4]。為推動(dòng)壯語的教育、出版、交流與資產(chǎn)保護(hù),中央民族語文翻譯局于2018年11月在南寧召開了壯語智能語音翻譯軟件發(fā)布會(huì),以前沿科技推動(dòng)壯語信息處理技術(shù)的發(fā)展。在自然語言處理領(lǐng)域,詞性標(biāo)注技術(shù)是文本處理的基礎(chǔ),目前英語、中文、藏文的詞性標(biāo)注精確率分別為97.96%[5]、90.95%[6]和87.76%[7],使得上述語言在語義分析、信息提取、機(jī)器翻譯等方面取得了杰出的成果。壯語由于缺乏詞性標(biāo)注領(lǐng)域的工作,目前還沒有標(biāo)注語料庫,因此需從構(gòu)建標(biāo)注語料出發(fā),結(jié)合人工智能技術(shù)實(shí)現(xiàn)壯語自動(dòng)化詞性標(biāo)注。

    隨著人工智能的迅速發(fā)展,神經(jīng)網(wǎng)絡(luò)模型被引入自然語言處理任務(wù)中,在序列標(biāo)注領(lǐng)域取得了一系列的成果。例如,基于卷積神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注模型,其詞性標(biāo)注的準(zhǔn)確率可達(dá)89.59%[8]。歷史經(jīng)驗(yàn)?zāi)軌驅(qū)ξ磥淼墓ぷ饔幸欢ǖ妮o助作用,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[9]的誕生,使得模型能夠有效利用記憶來輔助下一步?jīng)Q策,其在序列標(biāo)注工作上的精確率達(dá)97.96%。但是,隨著句子長度的增加,誤差的遞增或減少會(huì)導(dǎo)致梯度消失或梯度爆炸。LSTM模型[10]能夠不受句子長度的限制,利用細(xì)胞單元控制和保留有效信息,避免了梯度消失或爆炸的產(chǎn)生。監(jiān)督學(xué)習(xí)模型在進(jìn)行訓(xùn)練時(shí),現(xiàn)實(shí)值與估計(jì)值的誤差傳遞由BP算法[11]完成,前向傳播訓(xùn)練值并后向傳播誤差,從而調(diào)整各層參數(shù),以達(dá)到期望效果。監(jiān)督學(xué)習(xí)在很大程度上依賴于手工標(biāo)注的特征和知識(shí),在遇到信息不完善或缺少標(biāo)簽的情況時(shí),這一問題尤為突出,這時(shí)可采用概率的方法進(jìn)行決策,在獎(jiǎng)勵(lì)策略的推動(dòng)下,生成最優(yōu)決策路徑,并引入強(qiáng)化學(xué)習(xí)的機(jī)制[12-14]。本文嘗試將強(qiáng)化學(xué)習(xí)運(yùn)用在詞性標(biāo)注領(lǐng)域中,把RNN作為策略網(wǎng)絡(luò),并將相關(guān)信息放在記憶網(wǎng)絡(luò)中作為決策的依據(jù),提高決策效率。

    2 本文詞性標(biāo)注方法

    本文詞性標(biāo)注過程大致可以分為以下4個(gè)步驟:

    1)對(duì)預(yù)標(biāo)注文本進(jìn)行詞向量表示。

    2)神經(jīng)網(wǎng)絡(luò)隱藏層對(duì)輸入詞向量進(jìn)行特征提取,同時(shí),將句子的語義信息作為語義特征,與特征向量進(jìn)行融合。

    3)輸出層依據(jù)融合后的隱藏特征做出詞性判斷。在判斷的過程中,將目標(biāo)詞性作為環(huán)境反饋,反向傳播調(diào)整參數(shù),優(yōu)化策略模型。

    在上述過程中,標(biāo)注語料庫和標(biāo)注方法是必不可少的。標(biāo)注語料庫是對(duì)詞的詞性進(jìn)行定義,在對(duì)預(yù)標(biāo)注文本進(jìn)行粗標(biāo)注后,利用標(biāo)注方法進(jìn)行精標(biāo)注。

    2.1 標(biāo)注語料庫

    壯語的詞匯按照詞義、結(jié)構(gòu)、組合等特點(diǎn)可劃分為13類,即名詞、量詞、代詞、動(dòng)詞、形容詞、指示詞、數(shù)詞、副詞、感嘆詞、介詞、連詞、助詞和語氣詞。前面5類統(tǒng)稱為實(shí)詞,其特點(diǎn)是能做多種詞組成分,除量詞外都能單獨(dú)用來回答問題。最后4類統(tǒng)稱為虛詞,其特點(diǎn)是不能做詞組成分,且不能單獨(dú)用來回答問題。中間4類為半實(shí)詞,其特點(diǎn)是介于前后兩種詞類之間,一般只能做某一種詞組成分,或只能做獨(dú)詞句,不單獨(dú)用來回答問題。在實(shí)詞中,名詞、量詞、代詞稱為體詞,經(jīng)常做主語和賓語,動(dòng)詞和形容詞稱為謂詞,經(jīng)常做謂語。虛詞中的介詞、連詞、助詞稱為關(guān)系性虛詞,語氣詞則是功能性虛詞。

    詞類是根據(jù)語法上的意義和特征對(duì)詞進(jìn)行分類。壯語的詞類與漢語的詞類基本相同,具有共性[15]。圖1給出一個(gè)簡單的壯漢句法分析示例。

    圖1 壯漢句法分析示例Fig.1 Example of syntactic analysis of Zhuang andChinese language

    目前,壯語無詞性標(biāo)注庫,因此,本文參考中英文詞類劃分的粒度和標(biāo)記符號(hào),以及前人對(duì)壯語詞類的研究,將壯文詞語分為一級(jí)、二級(jí)和三級(jí)3個(gè)不同類別,共包括3個(gè)一級(jí)類別、13個(gè)二級(jí)類別和59個(gè)三級(jí)類別。本文從《壯漢詞匯》[16]《布洛陀》[17]等壯語文本中獲取語料,根據(jù)壯語的文法特點(diǎn)和賓州樹庫符號(hào)構(gòu)建標(biāo)注集,標(biāo)注規(guī)范及各類別詞數(shù)統(tǒng)計(jì)結(jié)果如表1所示。

    表1 詞性標(biāo)注規(guī)范及詞數(shù)統(tǒng)計(jì)Table 1 Tagging specifications of part of speech and statistics of words

    2.2 標(biāo)注模型

    監(jiān)督學(xué)習(xí)的模型需要利用有標(biāo)簽的語料進(jìn)行訓(xùn)練,對(duì)于不完備的信息,監(jiān)督學(xué)習(xí)可能無法使用。在這種情況下,可以采用策略梯度法等概率的方法來學(xué)習(xí)。如果盲目采取策略,可能會(huì)使效率下降,通過記憶網(wǎng)絡(luò)可以把不同時(shí)間點(diǎn)的信息湊成一個(gè)整體,利用循環(huán)記憶來完善部分觀測(cè)信息,推理出完整的狀態(tài)信息。本文采用LSTM作為策略網(wǎng)絡(luò),并將其結(jié)果作為決策的依據(jù)。

    2.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)

    本文以簡單的循環(huán)神經(jīng)網(wǎng)絡(luò)為例進(jìn)行介紹,具體結(jié)構(gòu)如圖2所示,其包含輸入層、隱藏層和輸出層。

    圖2 循環(huán)神經(jīng)網(wǎng)絡(luò)模型Fig.2 Recurrent neural network model

    模型訓(xùn)練之前需要進(jìn)行預(yù)處理,一般使用word2vec[18]將輸入的文本表示成詞向量,以便于相似性計(jì)算。循環(huán)神經(jīng)網(wǎng)絡(luò)模型是關(guān)于時(shí)間序列的模型,其將具有n個(gè)詞的待標(biāo)注序列X={x1,x2,…,xt,…,xn}映射到隱藏層并進(jìn)行特征提取,輸出目標(biāo)詞性序列Y={y1,y2,…,yt,…,yn}。輸入層的維度與輸入文本詞特征表示的維度相同,輸出層與標(biāo)簽的維度相同。在隱藏層中,當(dāng)前的隱藏狀態(tài)與先前的隱藏狀態(tài)連接,以存儲(chǔ)歷史信息。

    當(dāng)前隱藏層是關(guān)于先前隱層特征ht-1與當(dāng)前輸入詞特征xt的函數(shù)。隱藏層狀態(tài)在t時(shí)刻進(jìn)行更新,公式如下:

    ht=f(ht-1,xt)=f(Wht-1+Uxt)

    (1)

    其中,W是隱藏層連接的權(quán)重參數(shù),U是輸入層與隱藏層間的權(quán)重參數(shù),f是一個(gè)sigmoid函數(shù),計(jì)算公式如下:

    (2)

    輸出層狀態(tài)表示在t時(shí)刻標(biāo)簽上的概率分布,是關(guān)于隱藏特征ht的函數(shù),具體公式如下:

    yt=g(Vht)

    (3)

    其中,V是隱藏層與輸出層間的權(quán)重參數(shù),g是一個(gè)softmax函數(shù):

    (4)

    2.2.2 語義特征

    文獻(xiàn)[19]將潛在的詞信息整合到基于字符的模型框架中,實(shí)現(xiàn)了潛在相關(guān)命名實(shí)體的消歧。文獻(xiàn)[6]將字符信息整合到詞表征中,在中文序列標(biāo)注任務(wù)中取到了較優(yōu)性能。本文假設(shè)句子的語義特征對(duì)目標(biāo)詞性的選擇是有幫助的,并依據(jù)賓州樹庫構(gòu)建語義特征向量。以“De dwg bouxcuengh.(我是壯族人)”為例構(gòu)建的依存樹結(jié)構(gòu)如圖3所示。其中,SBV表示主謂關(guān)系,POB表示動(dòng)賓關(guān)系。

    圖3 依存樹結(jié)構(gòu)示例Fig.3 Example of dependency tree structure

    本文采用從下向上遍歷依存樹的方法構(gòu)建語義特征向量c。對(duì)輸入的句子X={x1,x2,…,xt,…,xn}有如下公式:

    cDe=tanh(MrxDe+b)

    (5)

    cBouxcuengh=tanh(MrxBouxcuengh+b)

    (6)

    其中,Mr表示關(guān)系矩陣,b是偏差向量。

    在葉節(jié)點(diǎn)詞向量構(gòu)建完成后,依次構(gòu)建上層節(jié)點(diǎn)向量,具體如下:

    cdwg= tanh(MSBV·cDe+Mrxdwg+MPOB·cBouxcuengh+b)

    (7)

    通過式(7)使c包含整個(gè)句子的語義信息,并將語義特征向量整理成如下形式:

    (8)

    其中,Kn表示節(jié)點(diǎn)n與其他子節(jié)點(diǎn)k之間的關(guān)系矩陣。

    循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層狀態(tài)在t時(shí)刻的公式更新如下:

    ht=f(ht-1,xt-1,c)

    (9)

    輸出層的條件概率公式為:

    yt=softmax(Vht+b,c)

    (10)

    2.2.3 策略模型

    本文將詞性標(biāo)注問題看作由狀態(tài)、行為、獎(jiǎng)勵(lì)和策略4個(gè)要素組成。其中,將詞性看作狀態(tài),對(duì)目標(biāo)詞進(jìn)行詞性標(biāo)注是行為,然后依據(jù)標(biāo)注的詞性在任務(wù)中的正確概率打一個(gè)分?jǐn)?shù),即獎(jiǎng)勵(lì),在給定一個(gè)狀態(tài)s的情況下采取任何可能行為的概率即為策略,它是一個(gè)概率密度函數(shù)。上述操作的目的是調(diào)整參數(shù),優(yōu)化策略函數(shù),從而得到一個(gè)最優(yōu)的策略。詞性標(biāo)注模型如圖4所示。

    圖4 詞性標(biāo)注模型Fig.4 Model of part of speech tagging

    輸入一個(gè)句子序列X1:T={x1,x2,…,xt,…,xT},通過模型訓(xùn)練后,輸出詞性標(biāo)注序列Y1:T={y1,y2,…,yt,…,yT},yt∈Υ,Υ是候選詞性標(biāo)注集合。在t時(shí)刻,狀態(tài)s是目前產(chǎn)生的序列{y1,y2,…,yt-1},行為a就是將要選擇的下一個(gè)yt。因此,策略值Q(s,a|θ)是隨機(jī)地,參數(shù)θ通過環(huán)境中的信息特征進(jìn)行學(xué)習(xí),不斷逼近真實(shí)的Q(s,a)函數(shù)。Q在選擇行為后才得以確定,保證從起始狀態(tài)s0開始,即可生成預(yù)期獎(jiǎng)勵(lì)最大的序列。

    目標(biāo)狀態(tài)確定算法的具體步驟如算法1所示。

    算法1目標(biāo)狀態(tài)確定算法

    輸出目標(biāo)狀態(tài)s

    1.令當(dāng)前狀態(tài)s=s0;

    3.令當(dāng)前狀態(tài)s=s′;

    4.重復(fù)執(zhí)行步驟2和步驟3,直到確定目標(biāo)狀態(tài)。

    強(qiáng)化學(xué)習(xí)的目的是找出能夠獲得最多獎(jiǎng)勵(lì)的最優(yōu)策略,根據(jù)文獻(xiàn)[20],目標(biāo)函數(shù)可寫為如下形式:

    (11)

    目標(biāo)值的迭代更新源自Bellman方程[21],具體如下:

    (12)

    其中,r是獎(jiǎng)勵(lì)值,γ是未來獎(jiǎng)勵(lì)值的懲罰因子(0≤γ≤1),s′和a′表示下一個(gè)狀態(tài)和行為,那么損失函數(shù)可表達(dá)為目標(biāo)值與預(yù)期值的誤差,具體如下:

    (13)

    對(duì)目標(biāo)函數(shù)求參,具體如下:

    (14)

    通過式(15)對(duì)參數(shù)進(jìn)行更新:

    θ←θ+αhθJ(θ)

    (15)

    詞性標(biāo)注算法的具體步驟如算法2所示。

    算法2詞性標(biāo)注算法

    1.用隨機(jī)參數(shù)θ初始化Qθ

    2.預(yù)訓(xùn)練Qθ

    3.更新參數(shù)β←θ

    4.repeat

    5.for each epoch do

    6.for each batch do

    7.LSTM前向傳遞

    8.強(qiáng)化學(xué)習(xí)環(huán)境反饋:

    9.Y1:T={y1,…,yt,…,yT}~Qθ

    10.LSTM后向傳遞:

    11.更新參數(shù)

    12.end for

    13.end for

    14.更新參數(shù) β←θ

    15.模型收斂

    3 實(shí)驗(yàn)結(jié)果與分析

    本文所選取的壯文語料來自壯族人民網(wǎng)2015年、2016年和2017年的新聞文本內(nèi)容。對(duì)其預(yù)處理后進(jìn)行訓(xùn)練和分析,實(shí)驗(yàn)詳細(xì)展示了模型在不同因素影響下的結(jié)果。

    3.1 實(shí)驗(yàn)設(shè)置

    在訓(xùn)練之前首先對(duì)該語料進(jìn)行特殊標(biāo)點(diǎn)符號(hào)處理,并將通過word2vec訓(xùn)練得到的詞向量作為特征。本文以人工標(biāo)注的900句壯文作為測(cè)試語料,采用標(biāo)注庫和模型相結(jié)合進(jìn)行詞性標(biāo)注。使用0.1的學(xué)習(xí)率,將隱藏層的圖層大小設(shè)置為300。在模型迭代過程中給出F1值評(píng)測(cè)指標(biāo),并將標(biāo)注結(jié)果看作一項(xiàng)機(jī)器翻譯的工作,采用BLEU[22]評(píng)測(cè)方法對(duì)訓(xùn)練結(jié)果進(jìn)行評(píng)估。

    3.2 結(jié)果分析

    本文在對(duì)壯語進(jìn)行詞性標(biāo)注的同時(shí),結(jié)合英文詞性標(biāo)注對(duì)模型進(jìn)行橫向分析。英文語料來自CoNLL2000和CoNLL2003的WSJ(華爾街日?qǐng)?bào)語料庫)數(shù)據(jù)集。實(shí)驗(yàn)分為3個(gè)部分進(jìn)行測(cè)評(píng),并對(duì)壯、英在不同迭代次數(shù)、不同句子長度下的詞性標(biāo)注結(jié)果進(jìn)行詳細(xì)分析,同時(shí),將標(biāo)注結(jié)果看成是一項(xiàng)翻譯工作,劃分不同元組,對(duì)BLEU數(shù)值進(jìn)行分析。

    在固定句子長度后,通過調(diào)整迭代次數(shù)完成詞性標(biāo)注。迭代次數(shù)分別設(shè)為5、10、15、20和25,詞性標(biāo)注結(jié)果如圖5所示??梢钥闯?隨著迭代次數(shù)的增加,壯語和英語的F1值均呈現(xiàn)出先增加后減小的趨勢(shì)。在迭代次數(shù)為10時(shí),英語的標(biāo)注結(jié)果達(dá)到最優(yōu);在迭代次數(shù)為15時(shí),壯語的標(biāo)注結(jié)果達(dá)到最優(yōu)。因受標(biāo)注庫的影響,英語的F1值起點(diǎn)比壯語高,并可以迅速達(dá)到最好的效果。壯語的訓(xùn)練相對(duì)緩慢,但最終可以達(dá)到預(yù)期效果。

    圖5 不同迭代次數(shù)下的詞性標(biāo)注結(jié)果Fig.5 Tagging results of parts of speech varying with thenumber of iterations

    將迭代次數(shù)固定為10和15,通過調(diào)整壯語和英語句子的長度(詞數(shù))來完成詞性標(biāo)注,詞數(shù)分別設(shè)為1、5、10和15,詞性標(biāo)注的結(jié)果如圖6所示。從圖6可以看出,隨著句子長度的增加,F1值有下降的趨勢(shì),并且壯語和英語均在詞數(shù)為1時(shí)取得最佳效果。句子長度大于10時(shí),F1值下降趨勢(shì)明顯。

    圖6 不同句子長度下的詞性標(biāo)注結(jié)果Fig.6 Tagging results of parts of speech varying with thelength of sentences

    為測(cè)試本文模型的序列標(biāo)注性能,選取簡單的序列標(biāo)注模型CRF、RNN和LSTM在相同的數(shù)據(jù)集上進(jìn)行對(duì)比訓(xùn)練。由于訓(xùn)練模型采用相同的初始化單詞嵌入方法且數(shù)據(jù)集相同,因此不同的結(jié)果歸因于不同的網(wǎng)絡(luò)模型。4種模型的詞性標(biāo)注性能如表2所示,其中,最優(yōu)結(jié)果加粗標(biāo)示??梢钥闯?LSTM模型相比其他模型較健壯,引入RL后在CoNLL2000和CoNLL2003數(shù)據(jù)集上的性能明顯提升,在語料庫不完善的壯語數(shù)據(jù)集上優(yōu)勢(shì)顯著。

    表2 4種模型的詞性標(biāo)注性能比較Table 2 Comparison of part-of-speech tagging performance of four models %

    本文選取4種不同方法與本文方法進(jìn)行對(duì)比,結(jié)果如表3所示。其中,Florian方法[23]組合了多種機(jī)器學(xué)習(xí)分類器,在CoNLL2003挑戰(zhàn)賽上取得了88.76%的F1值。Chieu方法[24]在外部詞典的幫助下,其F1值達(dá)到88.31%。Passos方法[25]采用一種新的形式學(xué)習(xí)單詞嵌入,使其可以利用相關(guān)詞典的信息來改進(jìn)詞表示,F1值達(dá)到90.90%。Yasunaga方法[26]通過對(duì)抗訓(xùn)練實(shí)現(xiàn)多語言詞性標(biāo)注,其F1值達(dá)到97.59%。從表3可以看出,在英語數(shù)據(jù)集上,Yasunaga方法通過對(duì)抗訓(xùn)練實(shí)現(xiàn)多語言詞性標(biāo)注,該方法的F1值最高,但是,該方法目前未針對(duì)壯語進(jìn)行標(biāo)注。本文方法在英語數(shù)據(jù)集上排名第三,在語料不完善的壯語數(shù)據(jù)集上取得了一定的成果。

    表3 5種方法的F1值對(duì)比Table 3 Comparison of F1 values of five methods %

    本文使用BLEU分?jǐn)?shù)作為評(píng)估度量來衡量生成的文本與人類創(chuàng)建的文本之間的相似度。BLEU是對(duì)待評(píng)價(jià)譯文和參考譯文的n元組進(jìn)行比較,計(jì)算出匹配片段的個(gè)數(shù),匹配片段數(shù)越多,待評(píng)價(jià)譯文質(zhì)量越好。BLEU最初用于自動(dòng)判斷機(jī)器翻譯的質(zhì)量,其關(guān)鍵點(diǎn)是機(jī)器創(chuàng)建的結(jié)果與人類提供的參考文獻(xiàn)之間的相似性。對(duì)狀語和英語數(shù)據(jù)集各選取若干樣本分別進(jìn)行測(cè)試分析,同時(shí)以人工標(biāo)注的結(jié)果作為參考對(duì)比。訓(xùn)練集、驗(yàn)證集和測(cè)試集的句子、標(biāo)記和標(biāo)簽的具體信息如表4所示。

    表4 訓(xùn)練集、驗(yàn)證集和測(cè)試集的句子、標(biāo)記和標(biāo)簽個(gè)數(shù)Table 4 Number of sentences,tags and labels for training sets,validation sets and test sets

    對(duì)于英文的評(píng)價(jià),將n-gram設(shè)定為4,英語數(shù)據(jù)集中句子的平均長度(詞數(shù))為23.462,評(píng)估結(jié)果如表5所示,而壯語數(shù)據(jù)集中的句子長度為6.153,因此使用BLEU-3、BLEU-4來評(píng)估壯語的表現(xiàn),評(píng)估結(jié)果如表6所示。p-value是系統(tǒng)性能值與基線的風(fēng)險(xiǎn)判斷,p-value越小說明系統(tǒng)樣本觀測(cè)值越有價(jià)值。

    表5 英語詞性標(biāo)注結(jié)果評(píng)估Table 5 Evaluation of part of speech tagging results of English

    表6 壯語詞性標(biāo)注結(jié)果評(píng)估Table 6 Evaluation of part of speech tagging results of the Zhuang language

    從機(jī)器翻譯的角度評(píng)測(cè)模型輸出的結(jié)果,可以評(píng)估文本的質(zhì)量和模型的實(shí)用性。從表5結(jié)果可以看出,英語的人工標(biāo)注結(jié)果和系統(tǒng)標(biāo)注結(jié)果的p-value都小于0.01,說明測(cè)試結(jié)果成立,且本文方法的標(biāo)注結(jié)果與真實(shí)人類的數(shù)據(jù)相當(dāng)。從表6可以看出,壯語的p-value介于0.1與0.5之間,表示本文方法的樣本觀測(cè)值具有一定價(jià)值,說明測(cè)試結(jié)果可靠。

    4 結(jié)束語

    本文在研究現(xiàn)有壯語詞性標(biāo)注方法的基礎(chǔ)上,提出一種基于強(qiáng)化學(xué)習(xí)的詞性標(biāo)注方法。該方法構(gòu)建壯語標(biāo)注詞典,以序列標(biāo)注模型LSTM為策略網(wǎng)絡(luò),利用記憶網(wǎng)絡(luò)完善部分觀測(cè)信息,并引入強(qiáng)化學(xué)習(xí)框架,將目標(biāo)值作為環(huán)境的反饋,通過特征學(xué)習(xí)實(shí)現(xiàn)調(diào)參迭代,得到精標(biāo)注文本。實(shí)驗(yàn)結(jié)果表明,該方法不僅可在壯語數(shù)據(jù)集上進(jìn)行詞性標(biāo)注,在英語數(shù)據(jù)集上也取得了較好的效果。下一步將提高詞向量的訓(xùn)練質(zhì)量、測(cè)試語料句質(zhì)量(如句子長度、詞長度、未登錄詞等)和標(biāo)注庫的質(zhì)量,以改善本文方法的詞性標(biāo)注性能。

    猜你喜歡
    壯語語料方法
    壯語電視新聞制作創(chuàng)新探析
    新聞潮(2021年11期)2021-12-21 14:00:11
    壯語故事會(huì)引人入勝
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    可能是方法不對(duì)
    云南河口壯語地名的語言文化解讀
    用對(duì)方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    四大方法 教你不再“坐以待病”!
    Coco薇(2015年1期)2015-08-13 02:47:34
    捕魚
    《苗防備覽》中的湘西語料
    国模一区二区三区四区视频| 内射极品少妇av片p| 亚洲一区高清亚洲精品| 在线观看美女被高潮喷水网站| 深夜a级毛片| .国产精品久久| 啦啦啦观看免费观看视频高清| 日本撒尿小便嘘嘘汇集6| 午夜福利在线观看吧| 欧美精品国产亚洲| av国产免费在线观看| 国产精品久久久久久久电影| 中国美白少妇内射xxxbb| 直男gayav资源| 97超级碰碰碰精品色视频在线观看| 老司机影院成人| 亚洲五月天丁香| 一区二区三区四区激情视频 | 草草在线视频免费看| 18禁黄网站禁片免费观看直播| 国产一区二区在线观看日韩| 中文字幕av成人在线电影| 亚洲欧美成人精品一区二区| 久久久久久久久久久丰满| 午夜激情欧美在线| 麻豆乱淫一区二区| 亚洲人与动物交配视频| 好男人在线观看高清免费视频| 欧美一区二区亚洲| 国产精品日韩av在线免费观看| 国产一区二区三区av在线 | 九九爱精品视频在线观看| 久久国内精品自在自线图片| 色综合站精品国产| 久久久久久伊人网av| 97碰自拍视频| 三级男女做爰猛烈吃奶摸视频| 看片在线看免费视频| 晚上一个人看的免费电影| 欧美成人一区二区免费高清观看| 国产高清视频在线播放一区| 成年免费大片在线观看| 亚洲va在线va天堂va国产| 国产成人影院久久av| 免费人成视频x8x8入口观看| 日韩av在线大香蕉| 嫩草影院新地址| 中国国产av一级| 九色成人免费人妻av| 97在线视频观看| 欧美精品国产亚洲| 丰满的人妻完整版| av在线蜜桃| 老熟妇乱子伦视频在线观看| 亚洲中文日韩欧美视频| 真实男女啪啪啪动态图| 亚洲精品456在线播放app| 国内精品宾馆在线| 成人午夜高清在线视频| 精品久久国产蜜桃| 精品久久久久久久久av| 国产男人的电影天堂91| 最新中文字幕久久久久| 色综合亚洲欧美另类图片| 亚洲精品在线观看二区| 日日啪夜夜撸| 日本黄大片高清| 欧美不卡视频在线免费观看| 啦啦啦观看免费观看视频高清| 免费黄网站久久成人精品| 亚洲欧美精品综合久久99| 色av中文字幕| 中文在线观看免费www的网站| 在线国产一区二区在线| 日本五十路高清| av在线蜜桃| 大香蕉久久网| 美女被艹到高潮喷水动态| 欧美国产日韩亚洲一区| 久久久久性生活片| 午夜爱爱视频在线播放| 国产视频内射| 99久国产av精品| 99热全是精品| 最近手机中文字幕大全| 日日摸夜夜添夜夜爱| 露出奶头的视频| 长腿黑丝高跟| 免费高清视频大片| 一进一出好大好爽视频| 欧美日本亚洲视频在线播放| 一区二区三区高清视频在线| 黄色日韩在线| 亚洲欧美日韩东京热| 啦啦啦观看免费观看视频高清| 国产亚洲精品综合一区在线观看| 小蜜桃在线观看免费完整版高清| 久久亚洲国产成人精品v| 国产精品国产高清国产av| 99视频精品全部免费 在线| 日韩一本色道免费dvd| 成人毛片a级毛片在线播放| 国产精品1区2区在线观看.| 国产成人freesex在线 | 欧美性猛交黑人性爽| 亚洲七黄色美女视频| av视频在线观看入口| 最后的刺客免费高清国语| 桃色一区二区三区在线观看| 亚洲美女搞黄在线观看 | 欧美日韩在线观看h| 亚洲美女黄片视频| 神马国产精品三级电影在线观看| 免费在线观看影片大全网站| 亚洲精品一卡2卡三卡4卡5卡| 国语自产精品视频在线第100页| 亚洲成av人片在线播放无| 伦精品一区二区三区| 国产亚洲精品综合一区在线观看| 在线国产一区二区在线| 免费人成在线观看视频色| 中文字幕久久专区| 中文字幕久久专区| 国产色爽女视频免费观看| 日本在线视频免费播放| 国产精品久久久久久久久免| 久久草成人影院| 啦啦啦啦在线视频资源| 亚洲精品乱码久久久v下载方式| 久久久久性生活片| 国产日本99.免费观看| 久久99热6这里只有精品| 99热6这里只有精品| 成年免费大片在线观看| 免费看日本二区| 干丝袜人妻中文字幕| 久久久色成人| a级毛片a级免费在线| 搡老岳熟女国产| 成人毛片a级毛片在线播放| 天天躁夜夜躁狠狠久久av| 永久网站在线| 蜜臀久久99精品久久宅男| 五月伊人婷婷丁香| 无遮挡黄片免费观看| 男女下面进入的视频免费午夜| 国产国拍精品亚洲av在线观看| 日韩欧美免费精品| 欧美在线一区亚洲| 久久久久九九精品影院| 国产精品久久久久久av不卡| 亚洲性夜色夜夜综合| 听说在线观看完整版免费高清| 亚洲内射少妇av| 国产成人福利小说| 国产私拍福利视频在线观看| 香蕉av资源在线| 九九久久精品国产亚洲av麻豆| 九九久久精品国产亚洲av麻豆| 国产精品爽爽va在线观看网站| 丝袜美腿在线中文| 99riav亚洲国产免费| 国产美女午夜福利| 免费在线观看成人毛片| 免费在线观看成人毛片| 啦啦啦啦在线视频资源| 极品教师在线视频| 欧洲精品卡2卡3卡4卡5卡区| 国产精品一区二区免费欧美| 欧美最黄视频在线播放免费| 看黄色毛片网站| 日韩成人伦理影院| 久久精品91蜜桃| 国产三级中文精品| 亚洲成人精品中文字幕电影| 欧美精品国产亚洲| а√天堂www在线а√下载| 啦啦啦啦在线视频资源| 日韩在线高清观看一区二区三区| 久久精品人妻少妇| 九九久久精品国产亚洲av麻豆| 最近中文字幕高清免费大全6| 人妻少妇偷人精品九色| 极品教师在线视频| 国产乱人偷精品视频| 99热这里只有是精品50| 亚洲av成人精品一区久久| 色5月婷婷丁香| 色综合色国产| 一进一出抽搐gif免费好疼| 波多野结衣高清无吗| 久久精品人妻少妇| 日韩欧美精品v在线| 在线观看一区二区三区| av免费在线看不卡| 国产精品一区二区三区四区久久| 我要看日韩黄色一级片| 日日摸夜夜添夜夜爱| 毛片女人毛片| 国产日本99.免费观看| 色av中文字幕| 免费观看精品视频网站| 97超碰精品成人国产| 亚洲国产精品合色在线| 三级男女做爰猛烈吃奶摸视频| 精品一区二区三区视频在线观看免费| 一区二区三区高清视频在线| 亚洲精品日韩av片在线观看| 国产av不卡久久| 99久久精品国产国产毛片| 乱码一卡2卡4卡精品| 国产黄片美女视频| 精华霜和精华液先用哪个| 床上黄色一级片| а√天堂www在线а√下载| 性插视频无遮挡在线免费观看| 韩国av在线不卡| 国产aⅴ精品一区二区三区波| 免费av观看视频| 欧美日韩综合久久久久久| eeuss影院久久| 综合色丁香网| 最近在线观看免费完整版| 国产在视频线在精品| 老师上课跳d突然被开到最大视频| 看片在线看免费视频| 日本-黄色视频高清免费观看| 12—13女人毛片做爰片一| 久久人人精品亚洲av| 免费高清视频大片| 美女内射精品一级片tv| 一进一出抽搐动态| 内地一区二区视频在线| 亚洲无线观看免费| 欧美日韩在线观看h| 嫩草影院精品99| 少妇熟女欧美另类| 日韩大尺度精品在线看网址| 波多野结衣巨乳人妻| 99热全是精品| 免费观看精品视频网站| 国产精品国产高清国产av| 日韩精品有码人妻一区| 男插女下体视频免费在线播放| 十八禁国产超污无遮挡网站| 老熟妇仑乱视频hdxx| 嫩草影院新地址| 欧美丝袜亚洲另类| 色av中文字幕| 国产探花极品一区二区| 久久婷婷人人爽人人干人人爱| 欧美xxxx黑人xx丫x性爽| 亚洲不卡免费看| 大香蕉久久网| 国产精品久久久久久精品电影| 精品一区二区三区视频在线| 日日摸夜夜添夜夜添小说| 欧美一区二区精品小视频在线| 男女做爰动态图高潮gif福利片| 淫秽高清视频在线观看| 欧美激情久久久久久爽电影| 老熟妇仑乱视频hdxx| 久久久久久久午夜电影| 国产精品久久久久久久久免| 国产视频一区二区在线看| 国产精品三级大全| 日本撒尿小便嘘嘘汇集6| 亚洲av中文字字幕乱码综合| 精品一区二区三区视频在线观看免费| 久久久精品94久久精品| 美女高潮的动态| 成年版毛片免费区| 国产黄a三级三级三级人| 男人狂女人下面高潮的视频| 在线观看66精品国产| 国产高清激情床上av| 亚洲av熟女| videossex国产| 嫩草影院精品99| 99热这里只有是精品在线观看| 高清毛片免费看| 精品人妻偷拍中文字幕| 日本免费a在线| 观看免费一级毛片| 三级国产精品欧美在线观看| 精品乱码久久久久久99久播| 一本久久中文字幕| 人人妻人人看人人澡| 在线观看一区二区三区| 国产真实乱freesex| 国产精品一区二区三区四区免费观看 | 一级毛片aaaaaa免费看小| 亚洲专区国产一区二区| 国产美女午夜福利| 久久九九热精品免费| av专区在线播放| 亚洲欧美精品自产自拍| 国产高清视频在线观看网站| 国模一区二区三区四区视频| 老司机福利观看| 亚洲成av人片在线播放无| 免费在线观看影片大全网站| a级毛片a级免费在线| 成年女人毛片免费观看观看9| 国产精品人妻久久久久久| 久久热精品热| 亚洲av美国av| 久久午夜亚洲精品久久| 日韩欧美在线乱码| 国产一区二区三区av在线 | 精品人妻视频免费看| 最近中文字幕高清免费大全6| 老司机福利观看| 色综合色国产| 村上凉子中文字幕在线| 欧美一区二区国产精品久久精品| 99久国产av精品国产电影| 又爽又黄a免费视频| 日韩,欧美,国产一区二区三区 | 国产人妻一区二区三区在| 又黄又爽又刺激的免费视频.| 在线a可以看的网站| 久久精品国产自在天天线| 91久久精品国产一区二区成人| 午夜精品一区二区三区免费看| 成人av一区二区三区在线看| 亚洲18禁久久av| 毛片女人毛片| 91在线观看av| 2021天堂中文幕一二区在线观| 国产精品精品国产色婷婷| 日韩 亚洲 欧美在线| 男女那种视频在线观看| 中文亚洲av片在线观看爽| 一进一出好大好爽视频| 久久午夜福利片| 天堂网av新在线| 亚洲激情五月婷婷啪啪| 最近视频中文字幕2019在线8| 99久国产av精品| av.在线天堂| 亚洲熟妇中文字幕五十中出| 99热全是精品| 免费av观看视频| 久久久午夜欧美精品| 深爱激情五月婷婷| 国产精品一二三区在线看| 久久久久免费精品人妻一区二区| 麻豆久久精品国产亚洲av| 日本精品一区二区三区蜜桃| 亚洲精品国产av成人精品 | 97人妻精品一区二区三区麻豆| 欧美日韩乱码在线| 日本撒尿小便嘘嘘汇集6| av在线亚洲专区| 成人三级黄色视频| 久久综合国产亚洲精品| 色视频www国产| 免费无遮挡裸体视频| 变态另类丝袜制服| 国产单亲对白刺激| 黄色配什么色好看| 久久久久久久久久黄片| 麻豆乱淫一区二区| 国产精品国产高清国产av| 久久精品夜夜夜夜夜久久蜜豆| 亚洲欧美日韩卡通动漫| 亚洲久久久久久中文字幕| 看十八女毛片水多多多| 免费av毛片视频| 亚洲va在线va天堂va国产| 天堂网av新在线| 亚洲成人精品中文字幕电影| 深爱激情五月婷婷| 亚洲欧美精品综合久久99| 日韩在线高清观看一区二区三区| 国产精品亚洲一级av第二区| 国产一区亚洲一区在线观看| 免费搜索国产男女视频| 精品久久久久久成人av| 国内精品一区二区在线观看| 午夜a级毛片| 日韩欧美精品免费久久| 亚洲无线观看免费| 国产伦精品一区二区三区视频9| 久久午夜福利片| 日本一本二区三区精品| 日产精品乱码卡一卡2卡三| 欧美xxxx黑人xx丫x性爽| 久久久久免费精品人妻一区二区| 免费av毛片视频| 99在线视频只有这里精品首页| 看黄色毛片网站| 99热网站在线观看| 能在线免费观看的黄片| 国产精品国产高清国产av| 免费高清视频大片| 亚洲欧美精品综合久久99| 成人特级黄色片久久久久久久| 国产精品精品国产色婷婷| 国产精品永久免费网站| 国产成人精品久久久久久| or卡值多少钱| 欧美xxxx性猛交bbbb| 久久鲁丝午夜福利片| 日本精品一区二区三区蜜桃| 亚洲欧美日韩高清专用| 日韩成人伦理影院| 91av网一区二区| 97热精品久久久久久| 久久久精品大字幕| 国内少妇人妻偷人精品xxx网站| 激情 狠狠 欧美| 色尼玛亚洲综合影院| 国产午夜福利久久久久久| 久久精品综合一区二区三区| 麻豆乱淫一区二区| h日本视频在线播放| 在线免费观看的www视频| 国产片特级美女逼逼视频| 在线播放无遮挡| 搡女人真爽免费视频火全软件 | 特大巨黑吊av在线直播| 国产爱豆传媒在线观看| 一个人观看的视频www高清免费观看| 国产伦精品一区二区三区四那| 日日撸夜夜添| 久久久久精品国产欧美久久久| 2021天堂中文幕一二区在线观| 久久国内精品自在自线图片| 黄色配什么色好看| 乱人视频在线观看| 欧美最黄视频在线播放免费| av国产免费在线观看| 午夜爱爱视频在线播放| 欧美日本视频| 国产精品av视频在线免费观看| 国产欧美日韩一区二区精品| 日韩欧美在线乱码| 男女做爰动态图高潮gif福利片| 老司机影院成人| 日韩精品中文字幕看吧| 露出奶头的视频| 国产探花在线观看一区二区| 午夜影院日韩av| 一区二区三区免费毛片| 波多野结衣巨乳人妻| 久久精品国产自在天天线| 国产欧美日韩一区二区精品| 国产亚洲精品综合一区在线观看| 欧美日韩精品成人综合77777| 亚洲va在线va天堂va国产| 小蜜桃在线观看免费完整版高清| 99热只有精品国产| 插阴视频在线观看视频| 小蜜桃在线观看免费完整版高清| 日日撸夜夜添| 欧美极品一区二区三区四区| 国产大屁股一区二区在线视频| 国产aⅴ精品一区二区三区波| 久久国产乱子免费精品| 国产黄色视频一区二区在线观看 | 日韩成人av中文字幕在线观看 | 国内揄拍国产精品人妻在线| 国产黄色视频一区二区在线观看 | 老司机影院成人| 日韩,欧美,国产一区二区三区 | 成人高潮视频无遮挡免费网站| 免费高清视频大片| 国内久久婷婷六月综合欲色啪| 国产av在哪里看| av女优亚洲男人天堂| 精品不卡国产一区二区三区| 两个人视频免费观看高清| 日日摸夜夜添夜夜添av毛片| 国产欧美日韩精品亚洲av| 精品久久久久久成人av| 国产精品福利在线免费观看| 午夜福利视频1000在线观看| 欧美绝顶高潮抽搐喷水| 天堂√8在线中文| 色av中文字幕| 男女啪啪激烈高潮av片| 久久久久国内视频| 成人永久免费在线观看视频| 国产国拍精品亚洲av在线观看| 午夜福利成人在线免费观看| 人人妻人人澡欧美一区二区| 俺也久久电影网| 三级男女做爰猛烈吃奶摸视频| а√天堂www在线а√下载| 黄色欧美视频在线观看| 久久中文看片网| 日本在线视频免费播放| 欧美日韩在线观看h| 可以在线观看的亚洲视频| 变态另类成人亚洲欧美熟女| 偷拍熟女少妇极品色| 亚洲三级黄色毛片| 3wmmmm亚洲av在线观看| 美女 人体艺术 gogo| 99视频精品全部免费 在线| 日韩成人av中文字幕在线观看 | 国产精品一及| 欧美极品一区二区三区四区| 亚洲精品日韩在线中文字幕 | 国产亚洲av嫩草精品影院| 亚洲成人av在线免费| 一区二区三区免费毛片| 亚洲精品一卡2卡三卡4卡5卡| 色播亚洲综合网| 国产毛片a区久久久久| 久久综合国产亚洲精品| 啦啦啦观看免费观看视频高清| 国产高清激情床上av| 日本黄色片子视频| 男女啪啪激烈高潮av片| 最近手机中文字幕大全| 亚洲av二区三区四区| 亚洲av一区综合| 波多野结衣巨乳人妻| 亚洲熟妇熟女久久| 国产综合懂色| avwww免费| 欧美另类亚洲清纯唯美| 日韩一本色道免费dvd| 欧美色视频一区免费| 日本黄色视频三级网站网址| 嫩草影院入口| 小说图片视频综合网站| 美女内射精品一级片tv| 国产视频一区二区在线看| 春色校园在线视频观看| h日本视频在线播放| 校园人妻丝袜中文字幕| 国产成人freesex在线 | 亚洲成av人片在线播放无| 色综合站精品国产| 国产精品电影一区二区三区| 亚洲熟妇熟女久久| 日韩一区二区视频免费看| 亚洲熟妇熟女久久| 成人一区二区视频在线观看| 国产av不卡久久| 国产精品电影一区二区三区| 亚洲熟妇熟女久久| 真人做人爱边吃奶动态| 国产一区二区亚洲精品在线观看| 欧美一级a爱片免费观看看| 日日撸夜夜添| 又爽又黄a免费视频| 久久这里只有精品中国| 特大巨黑吊av在线直播| 国产真实伦视频高清在线观看| 99热这里只有是精品在线观看| 中文字幕av成人在线电影| 麻豆成人午夜福利视频| 1000部很黄的大片| 午夜精品在线福利| 亚洲国产高清在线一区二区三| 午夜老司机福利剧场| 波野结衣二区三区在线| 日韩av在线大香蕉| 国产精品乱码一区二三区的特点| 一级毛片久久久久久久久女| 国产精品不卡视频一区二区| 日韩欧美免费精品| 久久精品国产亚洲av涩爱 | 亚洲av美国av| 乱码一卡2卡4卡精品| 亚洲综合色惰| 久久久久精品国产欧美久久久| 搡女人真爽免费视频火全软件 | 久久久久国产网址| 日韩av在线大香蕉| 精品不卡国产一区二区三区| 久久久色成人| ponron亚洲| 欧美色欧美亚洲另类二区| 久久人人精品亚洲av| 亚洲av不卡在线观看| 欧美日韩精品成人综合77777| 晚上一个人看的免费电影| 美女免费视频网站| 色视频www国产| 日本色播在线视频| 亚洲av电影不卡..在线观看| 色噜噜av男人的天堂激情| 蜜桃亚洲精品一区二区三区| 成人三级黄色视频| 久久久久性生活片| 亚洲真实伦在线观看| 美女高潮的动态| eeuss影院久久| 欧美高清性xxxxhd video| 男女做爰动态图高潮gif福利片| 精品人妻一区二区三区麻豆 | 男女之事视频高清在线观看| 免费看光身美女| 91久久精品国产一区二区成人| 一个人看的www免费观看视频| 亚洲精品影视一区二区三区av| 你懂的网址亚洲精品在线观看 | 不卡一级毛片| 人妻少妇偷人精品九色| 男人舔奶头视频| 欧美丝袜亚洲另类| 亚洲成人精品中文字幕电影| 中出人妻视频一区二区| 精品国产三级普通话版| 国产精品一区二区免费欧美| 久久久精品欧美日韩精品| 国产精品乱码一区二三区的特点| 天天躁日日操中文字幕| 国产精品一区二区性色av|