• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Soft-Masked BERT的新聞文本糾錯(cuò)研究

    2022-05-30 04:29:44史健婷吳林皓張英濤
    關(guān)鍵詞:字符語料文本

    史健婷,吳林皓,張英濤,常 亮

    (1.黑龍江科技大學(xué),黑龍江 哈爾濱 150022;2.哈爾濱工業(yè)大學(xué),黑龍江 哈爾濱 150000)

    1 研究背景

    當(dāng)今的時(shí)代是一個(gè)信息爆炸的時(shí)代,在社交網(wǎng)絡(luò)、智能互聯(lián)設(shè)備等的共同推動(dòng)作用下,網(wǎng)絡(luò)數(shù)據(jù)以指數(shù)倍增長。據(jù)不完全統(tǒng)計(jì),2014年,互聯(lián)網(wǎng)用戶達(dá)24億。2016年,用戶量增長到34億,2017年用戶量達(dá)37億。截至2019年6月,已有超過44億互聯(lián)網(wǎng)用戶。在短短五年內(nèi),互聯(lián)網(wǎng)用戶增加了83%,每個(gè)用戶每時(shí)每刻都在產(chǎn)生大量的數(shù)據(jù),互聯(lián)網(wǎng)個(gè)體用戶已然成為獨(dú)立的數(shù)字信息生產(chǎn)者,而在數(shù)據(jù)流通過程中,電子文本信息占據(jù)了相當(dāng)大的比重,社交評論、即時(shí)通訊、電子讀物、網(wǎng)站專欄、電子出版等內(nèi)容共同組成了體量龐大的文本模塊。

    在互聯(lián)網(wǎng)時(shí)代的新聞宣傳領(lǐng)域,每天都會(huì)產(chǎn)生大量的文本稿件,對文本初稿的校對是一項(xiàng)體量巨大的工作,僅僅依靠人工進(jìn)行校正成本極高,效率低下。中文錯(cuò)別字偵測技術(shù)可以應(yīng)用在教育及出版等許多領(lǐng)域。相比于英文糾錯(cuò)過程,中文糾錯(cuò)技術(shù)更具有挑戰(zhàn)性,包含語法錯(cuò)誤、拼寫錯(cuò)誤、搭配錯(cuò)誤、語境錯(cuò)誤等多種情況。雖然近期許多研究提出了一些能提高效能的模型,但這些模型卻存在誤報(bào)率偏高的缺點(diǎn)[1]。因此,尋找一種全新的方法來對新聞初稿進(jìn)行自動(dòng)校正具有十分重要的現(xiàn)實(shí)意義。通過計(jì)算機(jī)對新聞初稿進(jìn)行審閱可以極大地提高校稿效率,大大減少人力成本與時(shí)間成本,如果進(jìn)一步利用特定新聞?lì)I(lǐng)域語料集的深度學(xué)習(xí)模型,完成個(gè)性化定制,那么在該領(lǐng)域的糾錯(cuò)過程中可以取得更好的效果。

    2 研究方法

    早在2003年,駱衛(wèi)華等人就提出中文文本自動(dòng)校對的研究還處在摸索階段。其方法多為字、詞級別上的統(tǒng)計(jì)方法和基于規(guī)則的短語結(jié)構(gòu)文法,其團(tuán)隊(duì)發(fā)現(xiàn)中文文本自動(dòng)校對的研究集中在詞級和句法查錯(cuò)兩方面,其中語義級查錯(cuò)仍是薄弱環(huán)節(jié)[2];Vaswani A等人[3]在研究中提到BERT使用了Transformer作為算法的主要框架,通過雙向Transformer結(jié)構(gòu)使得網(wǎng)絡(luò)能更加徹底地捕捉到語句中的雙向關(guān)系,從而將上下文語境聯(lián)系起來,使模型在質(zhì)量上更優(yōu)越,更具可并行性,同時(shí)需要更少的訓(xùn)練時(shí)間(如圖1所示)。

    Wilson L Taylor[4]研究了Mask Language Model(MLM)和Next Sentence Prediction(NSP)的多任務(wù)訓(xùn)練目標(biāo),隔離實(shí)驗(yàn)表明NSP對于提取句間關(guān)系是有效的;Gu S等人[5]使用Seq2seq模型對中文文本進(jìn)行校正,將文本校正器視為一個(gè)序列學(xué)習(xí)問題,利用偏解碼的方法來提高模型的雙語評估替代研究分?jǐn)?shù);Gehring J等人[6]就基于卷積神經(jīng)網(wǎng)絡(luò)的序列到序列(convolution sequence to sequence,ConvS2S)模型進(jìn)行了討論,通過遞歸神經(jīng)網(wǎng)絡(luò)將輸入序列映射成可變長度的輸出序列,所有元素的計(jì)算可以在訓(xùn)練期間完全并行化,以更好地利用GPU硬件;Wang H等人[7]將語法錯(cuò)誤糾正(GEC)視為一個(gè)序列到序列的任務(wù),使用Bert的Pre-train模型對漢語語法進(jìn)行糾正,證明了基于BERT的預(yù)訓(xùn)練模型在中國GEC任務(wù)中的有效性。Google AI團(tuán)隊(duì)?wèi){借強(qiáng)大的算力訓(xùn)練超大規(guī)模的數(shù)據(jù),使BERT的效果達(dá)到全新高度,用戶通過使用開源的BERT模型,可以將其作為Word2Vec的轉(zhuǎn)換矩陣并應(yīng)用到個(gè)人下游任務(wù)中。BERT的應(yīng)用證明層數(shù)較深的模型可以顯著提高NLP任務(wù)中的準(zhǔn)確率,且該模型可以通過無標(biāo)記數(shù)據(jù)集中預(yù)訓(xùn)練得到。

    圖1 Transformer原理圖

    目前出現(xiàn)了大量使用BERT來在NLP各個(gè)領(lǐng)域進(jìn)行直接應(yīng)用的工作,方法都很簡單直接,效果總體而言比較好,比如問答系統(tǒng)、搜索與信息檢索、對話系統(tǒng)、文本抽取、數(shù)據(jù)增強(qiáng)、文本分類、序列標(biāo)注等等[8]。與RNN不同,BERT計(jì)算當(dāng)前詞匯特征并不需要依賴前文計(jì)算數(shù)據(jù),不需要受時(shí)序問題的制約,而是同時(shí)利用上下文信息運(yùn)算,通過矩陣的模式快速獲取每句話的token特征。Tan M等人為解決正式文件編寫過程中拼寫錯(cuò)誤造成的字符串錯(cuò)誤比例過高的問題,提出了一種基于BERT結(jié)構(gòu)轉(zhuǎn)換的字符語音BERT模型,通過使用BiLSTM網(wǎng)絡(luò)檢測錯(cuò)誤字符的位置,然后將錯(cuò)誤位置的拼音先驗(yàn)知識(shí)加入到BERT網(wǎng)絡(luò)中,從而實(shí)現(xiàn)端到端的拼寫錯(cuò)誤檢測和糾正[9];Cao Y等人基于BERT模型、雙向長期短期記憶(BiLSTM)和條件隨機(jī)字段(CRF)設(shè)計(jì)并實(shí)現(xiàn)了具有得分功能門的錯(cuò)誤診斷器(BSGED)模型,該模型用較少的先驗(yàn)特征獲得了較好的結(jié)果,大大減少了特征工程的工作量,同時(shí)保留了特征項(xiàng)之間的偏序關(guān)系,大大減少了模型訓(xùn)練參數(shù)的數(shù)量[10];Wu S H等人通過使用條件隨機(jī)場(CRF)和BERT模型深度學(xué)習(xí)方法的組合在NLPTEA-2020 CGED共享任務(wù)中的中文語法錯(cuò)誤診斷系統(tǒng)評估中取得了更好的效果[11-12]。

    傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法通過維護(hù)一個(gè)中文語料詞庫和一個(gè)詞語編輯距離庫,利用注音機(jī)制對文本進(jìn)行讀音糾錯(cuò)并根據(jù)詞庫中的詞匯及頻率進(jìn)行替換[13]。然而,傳統(tǒng)統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法需要維護(hù)和更新容量巨大的詞庫,并且要通過不斷對詞庫進(jìn)行人工擴(kuò)充來解決未登錄詞的問題,人力成本高,維護(hù)成本高,同時(shí)僅僅根據(jù)拼音機(jī)制進(jìn)行檢錯(cuò)糾錯(cuò)準(zhǔn)確率較低,會(huì)出現(xiàn)相當(dāng)一部分文本無法識(shí)別和糾正的情況。N-gram模型將文本里面的內(nèi)容以字節(jié)為單位生成大小為N的滑動(dòng)窗口,形成了長度為N的字節(jié)片段序列,通過統(tǒng)計(jì)gram的出現(xiàn)頻度,按設(shè)定的閾值進(jìn)行過濾,生成關(guān)鍵gram的向量特征空間,每種gram代表一個(gè)特征向量維度。其包含當(dāng)前詞以及當(dāng)前詞之前的N-1個(gè)詞所提供的全部信息,從而對一個(gè)句子中的各個(gè)詞進(jìn)行約束,但是無法解決遠(yuǎn)距離詞問題以及數(shù)據(jù)稀疏問題;基于卷積的seq2seq模型通過引入Stacking conv來捕捉長距離的信息,通過編解碼的方法來提高模型的雙語評估替代研究分?jǐn)?shù),采用了更合理的令牌方案,增強(qiáng)了糾錯(cuò)機(jī)制的魯棒性,但是BLEU的指標(biāo)會(huì)隨著句子長度的增長而逐漸降低。

    Google的BERT模型使用大量未標(biāo)記語料集進(jìn)行無監(jiān)督預(yù)訓(xùn)練,之后再使用標(biāo)記數(shù)據(jù)進(jìn)行微調(diào),進(jìn)而從給定句子的各個(gè)位置的候選列表中預(yù)測可能性最大的字符進(jìn)行糾正替換,因此BERT模型自身具有了一定程度的獲取語言、理解知識(shí)的特性[14]。在特征提取器的使用過程中,Transformer僅僅使用了self-attention機(jī)制,并沒有選擇使用RNN與CNN,同時(shí)結(jié)合使用殘差連接來解決梯度消失問題,使其方便構(gòu)建更深層的網(wǎng)絡(luò)結(jié)構(gòu),即BERT通過構(gòu)建更多層深度Transformer來大幅提高模型性能。通過添加前饋網(wǎng)絡(luò)來提高模型的非線性能力,同時(shí)利用多頭注意力機(jī)制從更多角度全面提取信息。利用BERT模型從候選詞列表中選擇字符對句子的各位置錯(cuò)別字進(jìn)行糾正,因此成為了界業(yè)的常用方法之一,但由于BERT初始模型是通過Mask掩碼語言建模對語料進(jìn)行預(yù)訓(xùn)練,使得BERT缺乏足夠的能力去檢測句子的每個(gè)位置是否都有誤差,進(jìn)而使得僅使用BERT模型的中文糾錯(cuò)Baseline過于粗暴,很容易造成高誤判率。

    基于上述情況,文中使用一種全新的中文文本糾錯(cuò)模型理論:Soft-Masked BERT,該模型將中文文本的檢錯(cuò)過程與糾錯(cuò)過程分離,糾正網(wǎng)絡(luò)的輸入來自于檢測網(wǎng)絡(luò)輸出。文中旨在Soft-Masked BERT基礎(chǔ)上進(jìn)行改進(jìn)應(yīng)用,使用“哈爾濱工業(yè)大學(xué)新聞網(wǎng)”新聞稿件中10 000條文本序列(HIT News Site)作為初始語料進(jìn)行訓(xùn)練,以對該新聞網(wǎng)的相關(guān)稿件進(jìn)行中文文本校對。

    3 Soft-Masked Bert算法

    Soft-Masked模型主體分為兩部分:檢錯(cuò)網(wǎng)絡(luò)與糾錯(cuò)網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)之間通過Soft-Masked技術(shù)連接成一個(gè)整體,錯(cuò)誤檢測網(wǎng)絡(luò)(Detection Network)的輸出信息即為BERT校正網(wǎng)絡(luò)(Correction Network)的輸入信息(如圖2所示)。其中Detection Network是一個(gè)雙向的GRU(Gate Recurrent Unit)網(wǎng)絡(luò),即雙向的門控循環(huán)單元,功能是預(yù)測字符在各個(gè)位置上發(fā)生錯(cuò)誤的概率,Correction Network是基于BERT的校正網(wǎng)絡(luò),對檢錯(cuò)成功的位置上的字符進(jìn)行糾正與替換。

    圖2 Soft-Masked網(wǎng)絡(luò)結(jié)構(gòu)

    GRU常用來解決傳統(tǒng)RNN網(wǎng)絡(luò)在反向傳播期間出現(xiàn)的梯度消失問題,從而避免短期記憶現(xiàn)象的出現(xiàn)(如圖3所示)[15]。GRU利用門(Gate)的內(nèi)部機(jī)制來調(diào)節(jié)單元之間傳輸?shù)男畔⒘鳎袛嗪畏N數(shù)據(jù)需要保留,何種數(shù)據(jù)需要舍棄,從而將較早時(shí)間步中的相關(guān)信息傳遞到較晚時(shí)間步的長序列中進(jìn)行預(yù)測。GRU利用隱藏態(tài)傳遞消息,核心結(jié)構(gòu)是重置門(Reset Gate)和更新門(Update Gate),Reset Gate決定對過去信息的遺忘部分,Update Gate決定當(dāng)前時(shí)間步里需要舍棄哪些信息以及需要添加哪些信息。

    圖3 GRU結(jié)構(gòu)

    對于檢測網(wǎng)絡(luò)中的雙向GRU網(wǎng)絡(luò)序列的每個(gè)字符,錯(cuò)誤概率的定義為:

    (1)

    其隱藏狀態(tài)被定義為:

    (2)

    (3)

    (4)

    將前后兩個(gè)部分的embedding進(jìn)行相加形成e-mask機(jī)制,經(jīng)以下公式:

    (5)

    對于糾錯(cuò)網(wǎng)絡(luò)序列的每個(gè)字符,糾錯(cuò)概率定義為:

    (6)

    在錯(cuò)誤檢測和錯(cuò)誤糾正過程中對應(yīng)兩個(gè)目標(biāo)驅(qū)動(dòng)函數(shù):

    (7)

    (8)

    將兩個(gè)目標(biāo)驅(qū)動(dòng)函數(shù)線性結(jié)合即得到總體學(xué)習(xí)目標(biāo):

    (9)

    參數(shù)pi即當(dāng)前位置字符是錯(cuò)別字的概率,利用該概率值pi對該位置的字符嵌入進(jìn)行Soft-Masked處理,pi越接近1,該字被認(rèn)為是錯(cuò)別字的可能性就越大,反之pi的值越接近0,此時(shí)完成了Soft-Masked模型中的檢錯(cuò)部分。

    4 數(shù)據(jù)處理與實(shí)驗(yàn)設(shè)置

    4.1 實(shí)驗(yàn)數(shù)據(jù)介紹

    網(wǎng)絡(luò)輸入的初始語料對于模型的應(yīng)用領(lǐng)域與最終效果極為重要,文中使用的語料來自于“哈爾濱工業(yè)大學(xué)新聞網(wǎng)”公開新聞稿,涉及的內(nèi)容板塊包括 “學(xué)校要聞”、“綜合新聞”、“媒體看工大”、“哈工大報(bào)”四個(gè)部分。

    通過對該網(wǎng)站的四個(gè)板塊原始的文本內(nèi)容進(jìn)行抓取,形成自建的公開小型數(shù)據(jù)集(HIT News Site)作為原始語料,通過使用jieba分詞庫與hit_stopwords停用詞表將原始語料進(jìn)行詞語詞頻的分詞處理,形成可用于深度網(wǎng)絡(luò)訓(xùn)練的詞典。再將原始語料以標(biāo)點(diǎn)符號為間斷分成短句形式,將無關(guān)信息刪除后統(tǒng)一規(guī)整,形成10 000個(gè)文本序列作為深度網(wǎng)絡(luò)訓(xùn)練的真實(shí)輸入語料。

    使用自建數(shù)據(jù)集可以實(shí)現(xiàn)語料集的定制化,與通用公開數(shù)據(jù)集相比有獨(dú)特的優(yōu)勢,可以相對精確地檢測模型在特定領(lǐng)域的性能表現(xiàn),如在Hit News Site數(shù)據(jù)集中的特定詞“哈工大”、“劉永坦院士”、“永瑞基金”等,可以視為檢錯(cuò)和糾錯(cuò)過程中獨(dú)特標(biāo)志詞。

    4.2 數(shù)據(jù)集預(yù)處理

    Soft-Masked Bert的模型需要將初始語料處理為“完全對齊語料”,即通過“錯(cuò)字-正字”的映射陣列來檢測糾錯(cuò)的可靠性,同時(shí),在對文本進(jìn)行糾正測試時(shí)需要聯(lián)系上下文文本信息環(huán)境,因此模型整體對訓(xùn)練語料的預(yù)處理程度依賴很大。

    文中對初始語料進(jìn)行“掩蓋”處理,將總文本集劃分成為訓(xùn)練集與測試集,生成“錯(cuò)字-正字”的映射對,用于實(shí)驗(yàn)結(jié)果的測試。其中錯(cuò)誤序列的生成過程包括對文本語句中的字級進(jìn)行替改、刪除、增添的隨機(jī)造錯(cuò),以模擬現(xiàn)實(shí)文本糾錯(cuò)過程中可能出現(xiàn)的各種情況。在預(yù)訓(xùn)練過程中,通過維護(hù)一個(gè)包括隨機(jī)同音字、生僻字以及隨機(jī)字符的“混淆表”文本文件,配合隨機(jī)數(shù)算法用以生成“錯(cuò)字-正字”映射中的“錯(cuò)字”部分(如圖4所示)。

    圖4 “錯(cuò)字-正字”映射

    由圖4可知,在替改方法中將正字“館”字替改成了錯(cuò)字“蟀”,在刪除方法中將“開放”中的“開”字刪掉,在增添方法中在句尾添加了生僻字“紘”,以此方法來隨機(jī)生成所有測試集(如圖5所示)。

    圖5 測試集

    最終在總文本的預(yù)處理過程中生915個(gè)“錯(cuò)字-正字”文本對作為測試集陣列,用于模型訓(xùn)練完成后的測試使用,充分保證了實(shí)驗(yàn)的隨機(jī)性與可靠性,避免數(shù)據(jù)泄露現(xiàn)象出現(xiàn)干擾實(shí)驗(yàn)結(jié)果。

    4.3 實(shí)驗(yàn)設(shè)置

    實(shí)驗(yàn)中將MLM學(xué)習(xí)率(MLMLearningRate)設(shè)為1e-4,Batchsize設(shè)為16,輸入句長設(shè)為512,掩蓋率(MaskRate)設(shè)為0.15,測試文本句經(jīng)過embedding之后的隱藏層維度為768,自注意力頭尺寸設(shè)為12,中位尺寸為3 072,經(jīng)過Bert的embedding機(jī)制將原始文本轉(zhuǎn)化為“token_embedding+position_embedding+segment_embedding”的詞向量,此時(shí)向量的維度是(16,512,768),將該向量輸入到Detection Network的雙向GRU中,得到新維度(16,512,1 536),在網(wǎng)絡(luò)連接部分接入全接連層(1 536,768)將維度恢復(fù)為初始的(16,512,768),在訓(xùn)練中連續(xù)進(jìn)行16個(gè)Epoch,得到最終的訓(xùn)練模型。

    4.4 實(shí)驗(yàn)結(jié)果與分析

    在訓(xùn)練過程中采用16次迭代訓(xùn)練(EP0—EP15),得到訓(xùn)練過程中的糾錯(cuò)率與損失率Mask Loss,以迭代次數(shù)epoches為橫軸,以訓(xùn)練時(shí)損失率Train_mask loss為縱軸,繪制出訓(xùn)練過程Loss收斂曲線(如圖6所示)。

    圖6 Mask Loss曲線

    由曲線可知,隨著迭代訓(xùn)練的進(jìn)行,數(shù)據(jù)擬合度不斷提高,各參數(shù)變化趨于穩(wěn)定,損失值逐漸走低,最終穩(wěn)定在0.19,模型訓(xùn)練效果較為理想。

    與之前的研究工作相似,文中采用了準(zhǔn)確度(Accuracy)、精確度(Precision)、召回率(Recall)以及F1-Score(F1分?jǐn)?shù))4個(gè)數(shù)值作為評價(jià)指標(biāo),來評估文中模型的糾錯(cuò)性能。

    在使用Bert模型進(jìn)行對比實(shí)驗(yàn)時(shí),微調(diào)過程保留默認(rèn)超參數(shù),保持學(xué)習(xí)率為2e-5,輸出對比結(jié)果(如表1所示)。

    結(jié)合表1的對比數(shù)據(jù)可以看出,完全不進(jìn)行微調(diào)的BERT-Pretrain(BERT預(yù)訓(xùn)練)過于泛化,無法適應(yīng)精確領(lǐng)域中的特定學(xué)習(xí)任務(wù),缺乏足夠的有監(jiān)督數(shù)據(jù),故其糾錯(cuò)性能非常差,在實(shí)際工作中幾乎無法正常使用;BERT進(jìn)行微調(diào)后的BERT-Finetune由于其自身有大規(guī)模無標(biāo)記語料的預(yù)訓(xùn)練作為基礎(chǔ),因此具有一定的語言理解能力,在準(zhǔn)確率上可以達(dá)到70.5%;經(jīng)對比,Soft-Masked模型在HIT News Site數(shù)據(jù)集上的整體性能表現(xiàn)優(yōu)于BERT-Finetune,準(zhǔn)確率提高0.6個(gè)百分點(diǎn),精確率提高1.3個(gè)百分點(diǎn),召回率提高1.5個(gè)百分點(diǎn),F(xiàn)1分?jǐn)?shù)提高1.4個(gè)百分點(diǎn),效果良好。

    表1 模型表現(xiàn)對比 %

    與此同時(shí),在研究中也發(fā)現(xiàn)了一些影響進(jìn)一步提升實(shí)驗(yàn)準(zhǔn)確率的因素。文中模型的糾錯(cuò)部分使用的是一個(gè)基于BERT的序列多分類標(biāo)記模型,相較于RNN與LSTM,BERT可以一次性讀取整體文本序列,提取多個(gè)層次的文本信息,更加全面地詮釋文本語義,通過注意力機(jī)制,并行計(jì)算每個(gè)位置相對另一個(gè)位置的權(quán)重,如果計(jì)算資源充足,訓(xùn)練速度會(huì)比LSTM快許多,同時(shí)由于使用海量無監(jiān)督數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,模型效果更優(yōu),但是由于BERT預(yù)訓(xùn)練模型本身規(guī)模較大,參數(shù)極多,在訓(xùn)練集體量較小的時(shí)候,容易發(fā)生過擬合,影響實(shí)驗(yàn)進(jìn)程與最終準(zhǔn)確率。BERT的部分mask字符,在下游的Finetune任務(wù)可能并不會(huì)再次出現(xiàn),使得前后文本失去平衡,信息不匹配。尤其是針對兩個(gè)及以上連續(xù)單字組成的詞匯,隨機(jī)mask掩蓋會(huì)割裂連續(xù)字之間的相關(guān)性,致使模型難以學(xué)習(xí)到詞的語義信息。對于文本中的詞匯,BERT會(huì)將其分成詞片,在隨機(jī)mask的過程中,如果被mask的詞片處于文本中間位置,會(huì)使該詞匯失去與上下文的語義同步,導(dǎo)致最終的預(yù)測與上下文失去關(guān)聯(lián),偶然性加大。在NLP的糾錯(cuò)領(lǐng)域中,現(xiàn)有技術(shù)已經(jīng)可以解決大部分的文本拼寫錯(cuò)誤,但是對于部分需要常識(shí)背景(world-knowledge)的文本糾錯(cuò)問題,例如同音異義詞問題(如圖7所示)時(shí)效果會(huì)不盡人意,必須利用一定程度的背景知識(shí),模擬真人對該類問題進(jìn)行推理和分析,這也正是當(dāng)前NLP糾錯(cuò)研究中的難點(diǎn)。

    在某些強(qiáng)調(diào)實(shí)時(shí)性的糾錯(cuò)場景中,對模型的硬件以及實(shí)效性都要求較高,需要對糾錯(cuò)的時(shí)延有較為嚴(yán)格的限制,容易導(dǎo)致規(guī)模龐大的字典庫以及結(jié)構(gòu)過于復(fù)雜的精密模型無法廣泛適用。另外,文中模型的語料集局限于完全對齊文本,這給模型的推廣使用帶來了不便。Zheng L等人近來提出了一種可以同時(shí)處理對齊文本和不對齊文本的校正框架[16],可以更好地啟發(fā)下一步研究。使用文中模型得到的糾錯(cuò)結(jié)果如圖8所示。

    圖7 同音異義詞

    圖8 糾錯(cuò)結(jié)果

    5 結(jié)束語

    文中使用了BERT模型的改進(jìn)模型Soft-Masked BERT對中文文本進(jìn)行糾錯(cuò)檢測,將原本的單向糾錯(cuò)過程分成了檢測網(wǎng)絡(luò)和校正網(wǎng)絡(luò)兩部分雙向執(zhí)行,對稿件文本中可能出錯(cuò)的字符進(jìn)行Soft屏蔽,將檢測網(wǎng)絡(luò)的輸出作為基于BERT的校正網(wǎng)絡(luò)的新的輸入,從而對可能存在錯(cuò)誤的字符進(jìn)行定位與校正。文中以“哈爾濱工業(yè)大學(xué)新聞網(wǎng)”(HIT News Site)的文稿作為數(shù)據(jù)集,最終的糾錯(cuò)準(zhǔn)確率達(dá)到71.1%,相比BERT-Finetune模型提高0.6個(gè)百分點(diǎn),效果良好。但是,Soft-Masked BERT模型的語料集必須是完全對齊文本,需要通過使用“錯(cuò)字-正字”序列來檢測性能,在特定閾值下可能會(huì)出現(xiàn)只能定位無法糾正的問題。在未來的研究中,將Soft-Masked BERT與現(xiàn)實(shí)應(yīng)用聯(lián)系起來,仍是一個(gè)值得探索的課題。

    猜你喜歡
    字符語料文本
    尋找更強(qiáng)的字符映射管理器
    字符代表幾
    一種USB接口字符液晶控制器設(shè)計(jì)
    電子制作(2019年19期)2019-11-23 08:41:50
    在808DA上文本顯示的改善
    消失的殖民村莊和神秘字符
    基于doc2vec和TF-IDF的相似文本識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:06
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    《苗防備覽》中的湘西語料
    久久精品熟女亚洲av麻豆精品| 丰满乱子伦码专区| av国产久精品久网站免费入址| 中文乱码字字幕精品一区二区三区| av线在线观看网站| 五月开心婷婷网| 亚洲一区二区三区欧美精品| 多毛熟女@视频| videossex国产| 91精品国产九色| 亚洲人成网站在线观看播放| 成人毛片a级毛片在线播放| 最新中文字幕久久久久| 日日摸夜夜添夜夜爱| 在线免费观看不下载黄p国产| 乱码一卡2卡4卡精品| 国产精品.久久久| 亚洲熟女精品中文字幕| 中文字幕最新亚洲高清| 国产日韩欧美视频二区| 美女中出高潮动态图| 色94色欧美一区二区| 日韩av不卡免费在线播放| 母亲3免费完整高清在线观看 | 美女国产高潮福利片在线看| 亚洲天堂av无毛| 欧美日本中文国产一区发布| 国产成人午夜福利电影在线观看| 国产在线视频一区二区| 久久人妻熟女aⅴ| 在线观看免费视频网站a站| 国产伦理片在线播放av一区| 久久女婷五月综合色啪小说| 日本-黄色视频高清免费观看| 91午夜精品亚洲一区二区三区| 大香蕉久久成人网| 欧美精品人与动牲交sv欧美| 少妇被粗大猛烈的视频| 亚洲av男天堂| 少妇人妻久久综合中文| 亚洲国产欧美在线一区| 国产成人免费无遮挡视频| 99热全是精品| 久久精品国产亚洲av天美| 高清在线视频一区二区三区| 日韩视频在线欧美| 亚洲无线观看免费| 精品国产一区二区三区久久久樱花| 一级毛片黄色毛片免费观看视频| 最近中文字幕2019免费版| 成年美女黄网站色视频大全免费 | 一级毛片电影观看| 成人18禁高潮啪啪吃奶动态图 | 亚洲五月色婷婷综合| 欧美3d第一页| 亚洲少妇的诱惑av| 人妻 亚洲 视频| 国产成人freesex在线| 国产精品国产三级专区第一集| 精品一区二区免费观看| 欧美另类一区| 国产免费视频播放在线视频| 国产精品久久久久久精品电影小说| 麻豆乱淫一区二区| 国产亚洲一区二区精品| 国内精品宾馆在线| 狂野欧美白嫩少妇大欣赏| 日韩免费高清中文字幕av| 国产亚洲精品第一综合不卡 | 精品视频人人做人人爽| 亚洲精品久久久久久婷婷小说| 国产男女内射视频| 韩国高清视频一区二区三区| 女性生殖器流出的白浆| 一本色道久久久久久精品综合| 国产在视频线精品| 成人午夜精彩视频在线观看| 亚洲美女黄色视频免费看| 最近中文字幕高清免费大全6| 欧美亚洲日本最大视频资源| 最近中文字幕2019免费版| 十分钟在线观看高清视频www| 日韩免费高清中文字幕av| 亚洲国产毛片av蜜桃av| 女人精品久久久久毛片| 我要看黄色一级片免费的| 亚洲第一av免费看| av在线观看视频网站免费| 久久人人爽av亚洲精品天堂| 丝瓜视频免费看黄片| 久久久久久久久久人人人人人人| 亚洲美女视频黄频| 婷婷色综合www| 亚洲av成人精品一区久久| 永久网站在线| 国产精品女同一区二区软件| 老熟女久久久| 精品人妻偷拍中文字幕| 久久久久久久精品精品| 老熟女久久久| 22中文网久久字幕| 中文字幕最新亚洲高清| 国产在线一区二区三区精| 色网站视频免费| 97超视频在线观看视频| 少妇熟女欧美另类| 色94色欧美一区二区| av免费在线看不卡| 一级黄片播放器| 亚洲,欧美,日韩| 91国产中文字幕| 亚洲精品av麻豆狂野| 国产在线一区二区三区精| 日本-黄色视频高清免费观看| 精品久久久久久久久av| 91精品国产九色| 亚洲av二区三区四区| 成人国产av品久久久| 美女脱内裤让男人舔精品视频| 国产成人免费观看mmmm| 视频中文字幕在线观看| 如何舔出高潮| 亚洲成色77777| 亚洲精品乱码久久久久久按摩| 99九九线精品视频在线观看视频| 老熟女久久久| 这个男人来自地球电影免费观看 | 狠狠婷婷综合久久久久久88av| 自拍欧美九色日韩亚洲蝌蚪91| 精品人妻熟女av久视频| 成年人免费黄色播放视频| 免费播放大片免费观看视频在线观看| av女优亚洲男人天堂| 欧美变态另类bdsm刘玥| 亚洲欧美成人综合另类久久久| 国语对白做爰xxxⅹ性视频网站| 精品一区二区三卡| 日本色播在线视频| 春色校园在线视频观看| 亚洲无线观看免费| 亚洲精品乱久久久久久| 国产乱来视频区| 成年人免费黄色播放视频| 十分钟在线观看高清视频www| 丝袜脚勾引网站| 久久av网站| 搡女人真爽免费视频火全软件| 亚洲精品国产av成人精品| 人妻 亚洲 视频| 一区在线观看完整版| av国产久精品久网站免费入址| 青春草视频在线免费观看| 视频在线观看一区二区三区| 18禁在线无遮挡免费观看视频| 精品人妻一区二区三区麻豆| 国产精品国产三级专区第一集| 亚洲欧美日韩卡通动漫| 国产精品麻豆人妻色哟哟久久| 日韩av在线免费看完整版不卡| 天美传媒精品一区二区| 亚洲第一av免费看| 亚洲天堂av无毛| 最近手机中文字幕大全| 人人妻人人爽人人添夜夜欢视频| 国产一区亚洲一区在线观看| 91精品国产九色| 高清午夜精品一区二区三区| 国产精品女同一区二区软件| 国产免费又黄又爽又色| 如日韩欧美国产精品一区二区三区 | 国产精品久久久久成人av| 日韩一区二区视频免费看| 亚洲色图 男人天堂 中文字幕 | 一边摸一边做爽爽视频免费| 夜夜看夜夜爽夜夜摸| 精品一区在线观看国产| videos熟女内射| 亚洲精品乱码久久久久久按摩| 国精品久久久久久国模美| 丁香六月天网| 成人黄色视频免费在线看| 最后的刺客免费高清国语| 一区二区日韩欧美中文字幕 | 午夜激情久久久久久久| 高清毛片免费看| 91久久精品电影网| 精品少妇内射三级| 国产精品人妻久久久久久| 日韩不卡一区二区三区视频在线| 韩国av在线不卡| 波野结衣二区三区在线| 9色porny在线观看| 久久国产精品男人的天堂亚洲 | 少妇被粗大猛烈的视频| 精品国产露脸久久av麻豆| .国产精品久久| 亚洲av.av天堂| 中文乱码字字幕精品一区二区三区| 考比视频在线观看| 国产黄色免费在线视频| 成人国语在线视频| 日韩欧美精品免费久久| 女的被弄到高潮叫床怎么办| 成人亚洲欧美一区二区av| 日韩三级伦理在线观看| 九色亚洲精品在线播放| 人人妻人人爽人人添夜夜欢视频| 国产精品成人在线| 色视频在线一区二区三区| 久久久久久久大尺度免费视频| 精品人妻熟女毛片av久久网站| 99热国产这里只有精品6| 精品少妇内射三级| 黑人巨大精品欧美一区二区蜜桃 | 精品人妻在线不人妻| 国产免费福利视频在线观看| videosex国产| 大香蕉久久成人网| 欧美性感艳星| 欧美xxxx性猛交bbbb| 国产av一区二区精品久久| a级毛片在线看网站| 国产片内射在线| 简卡轻食公司| 蜜桃在线观看..| 男人操女人黄网站| 国产高清有码在线观看视频| 99热这里只有精品一区| 人体艺术视频欧美日本| 视频中文字幕在线观看| 午夜免费观看性视频| 又大又黄又爽视频免费| 国产成人aa在线观看| 国产男女超爽视频在线观看| 久久精品久久精品一区二区三区| 亚洲欧美成人精品一区二区| 国产精品国产三级国产av玫瑰| 建设人人有责人人尽责人人享有的| 夜夜看夜夜爽夜夜摸| 日本av手机在线免费观看| 日韩电影二区| 最近最新中文字幕免费大全7| 妹子高潮喷水视频| 天天躁夜夜躁狠狠久久av| 久久韩国三级中文字幕| 一个人看视频在线观看www免费| 五月玫瑰六月丁香| 老熟女久久久| 欧美日韩在线观看h| 日韩亚洲欧美综合| 少妇高潮的动态图| 综合色丁香网| 国产伦理片在线播放av一区| 一本色道久久久久久精品综合| 久热久热在线精品观看| 久久99精品国语久久久| 在线免费观看不下载黄p国产| 全区人妻精品视频| 热re99久久国产66热| kizo精华| 一级毛片电影观看| 精品一区二区三卡| 日韩中文字幕视频在线看片| 十八禁高潮呻吟视频| 黄片无遮挡物在线观看| 午夜激情av网站| 国产成人freesex在线| 国产一区二区在线观看av| av国产精品久久久久影院| 高清av免费在线| 国产日韩欧美视频二区| 精品亚洲成a人片在线观看| 你懂的网址亚洲精品在线观看| 少妇的逼好多水| 成人二区视频| av.在线天堂| 午夜久久久在线观看| 日本黄色片子视频| 99精国产麻豆久久婷婷| 免费观看av网站的网址| 亚洲精品aⅴ在线观看| 亚洲精品av麻豆狂野| 久久婷婷青草| 国产精品偷伦视频观看了| 王馨瑶露胸无遮挡在线观看| 午夜免费观看性视频| 婷婷色麻豆天堂久久| 一二三四中文在线观看免费高清| 伊人久久国产一区二区| 亚洲欧美精品自产自拍| 2018国产大陆天天弄谢| 人妻人人澡人人爽人人| 91精品一卡2卡3卡4卡| 少妇丰满av| 夜夜骑夜夜射夜夜干| 亚洲三级黄色毛片| 久久免费观看电影| 男女高潮啪啪啪动态图| 性色av一级| 精品酒店卫生间| 桃花免费在线播放| 免费日韩欧美在线观看| 成人综合一区亚洲| 国产黄频视频在线观看| 免费观看无遮挡的男女| videos熟女内射| 22中文网久久字幕| 免费大片18禁| 成年av动漫网址| 你懂的网址亚洲精品在线观看| a级毛片免费高清观看在线播放| 亚洲精品456在线播放app| 精品人妻偷拍中文字幕| 国产黄色视频一区二区在线观看| a级毛片在线看网站| 国产老妇伦熟女老妇高清| 夫妻性生交免费视频一级片| 大片免费播放器 马上看| www.av在线官网国产| 久久综合国产亚洲精品| 亚洲久久久国产精品| 成人影院久久| 欧美老熟妇乱子伦牲交| 激情五月婷婷亚洲| 赤兔流量卡办理| 日韩av免费高清视频| 在线观看一区二区三区激情| 成人国产av品久久久| av网站免费在线观看视频| 免费观看的影片在线观看| 99国产综合亚洲精品| 精品少妇内射三级| 色网站视频免费| 男男h啪啪无遮挡| 亚洲精品美女久久av网站| 国产高清国产精品国产三级| a级片在线免费高清观看视频| 多毛熟女@视频| 亚洲丝袜综合中文字幕| 丰满乱子伦码专区| 热99久久久久精品小说推荐| 日本猛色少妇xxxxx猛交久久| 夜夜爽夜夜爽视频| 九色成人免费人妻av| 久久久久久久亚洲中文字幕| 午夜激情久久久久久久| 久久这里有精品视频免费| 高清av免费在线| 亚洲三级黄色毛片| √禁漫天堂资源中文www| 在线观看免费视频网站a站| 久久久国产一区二区| 国产日韩欧美在线精品| 免费久久久久久久精品成人欧美视频 | 少妇熟女欧美另类| 最新的欧美精品一区二区| 熟女人妻精品中文字幕| 91午夜精品亚洲一区二区三区| 精品人妻熟女av久视频| freevideosex欧美| 超碰97精品在线观看| 只有这里有精品99| 国产精品久久久久久精品古装| 久久99蜜桃精品久久| 久久久精品区二区三区| 欧美日韩精品成人综合77777| 国产精品久久久久久久久免| 制服诱惑二区| 狠狠精品人妻久久久久久综合| 日本午夜av视频| 亚洲国产欧美日韩在线播放| 久久久久精品久久久久真实原创| 伊人久久国产一区二区| 国产欧美另类精品又又久久亚洲欧美| 久久狼人影院| 欧美少妇被猛烈插入视频| 免费不卡的大黄色大毛片视频在线观看| 纯流量卡能插随身wifi吗| 日韩中字成人| 老熟女久久久| 97超视频在线观看视频| 久久精品熟女亚洲av麻豆精品| 高清av免费在线| 日韩一区二区视频免费看| 97在线视频观看| 免费看不卡的av| 97在线视频观看| 18+在线观看网站| 18禁在线播放成人免费| 免费看光身美女| 国精品久久久久久国模美| 伦理电影大哥的女人| 久久韩国三级中文字幕| 插逼视频在线观看| 春色校园在线视频观看| 母亲3免费完整高清在线观看 | 久久久久视频综合| 久久国产精品男人的天堂亚洲 | 午夜激情av网站| 亚洲精品乱码久久久久久按摩| 秋霞在线观看毛片| 国产熟女午夜一区二区三区 | 最近最新中文字幕免费大全7| 老熟女久久久| 桃花免费在线播放| 亚洲第一av免费看| √禁漫天堂资源中文www| 久久久精品免费免费高清| 中文精品一卡2卡3卡4更新| tube8黄色片| 爱豆传媒免费全集在线观看| 美女中出高潮动态图| 欧美精品国产亚洲| 国产av一区二区精品久久| 一级毛片电影观看| 国产成人一区二区在线| 亚洲国产精品一区三区| 中国美白少妇内射xxxbb| 免费大片18禁| 亚洲精品美女久久av网站| 亚洲色图综合在线观看| videosex国产| 午夜91福利影院| 色网站视频免费| 免费观看的影片在线观看| 伊人久久精品亚洲午夜| 国产日韩一区二区三区精品不卡 | 母亲3免费完整高清在线观看 | 看十八女毛片水多多多| 97在线视频观看| 欧美国产精品一级二级三级| 麻豆乱淫一区二区| 中文字幕人妻丝袜制服| 国产成人av激情在线播放 | 久久久久久久久久久丰满| 亚洲精品日韩av片在线观看| a级毛片黄视频| 欧美最新免费一区二区三区| 大片电影免费在线观看免费| 熟女人妻精品中文字幕| 国产精品久久久久久久电影| 中国国产av一级| 久久婷婷青草| 午夜av观看不卡| 中文字幕精品免费在线观看视频 | 美女视频免费永久观看网站| 免费观看在线日韩| 亚洲av欧美aⅴ国产| 中国国产av一级| 久久精品熟女亚洲av麻豆精品| 中国三级夫妇交换| 久久精品国产亚洲av天美| 久久99蜜桃精品久久| 欧美丝袜亚洲另类| av福利片在线| tube8黄色片| 一级片'在线观看视频| 夜夜爽夜夜爽视频| 18禁在线播放成人免费| 波野结衣二区三区在线| 亚洲国产色片| 日本av免费视频播放| 自线自在国产av| 女人精品久久久久毛片| 久久精品熟女亚洲av麻豆精品| 色哟哟·www| av视频免费观看在线观看| 国产精品一区二区在线不卡| 精品少妇黑人巨大在线播放| 王馨瑶露胸无遮挡在线观看| 久久人妻熟女aⅴ| 男人爽女人下面视频在线观看| 亚洲精品久久久久久婷婷小说| 久久久久久久大尺度免费视频| 国产成人免费观看mmmm| 国产午夜精品一二区理论片| 91久久精品国产一区二区成人| 免费观看在线日韩| 麻豆精品久久久久久蜜桃| 欧美日韩在线观看h| 亚洲av不卡在线观看| 亚洲国产精品专区欧美| av在线老鸭窝| 精品久久久久久久久av| 久久久久久久久久成人| 亚洲精品国产av成人精品| 22中文网久久字幕| 下体分泌物呈黄色| 欧美精品一区二区免费开放| 国产爽快片一区二区三区| 成人国产av品久久久| av专区在线播放| 观看美女的网站| 国产熟女欧美一区二区| 国产日韩欧美视频二区| 极品人妻少妇av视频| h视频一区二区三区| 日本av手机在线免费观看| 插逼视频在线观看| 日韩一区二区三区影片| 99热网站在线观看| 午夜视频国产福利| av卡一久久| 亚洲av欧美aⅴ国产| 欧美成人精品欧美一级黄| 最近最新中文字幕免费大全7| 国产精品国产av在线观看| 91久久精品国产一区二区成人| 日韩熟女老妇一区二区性免费视频| 国产亚洲精品久久久com| 日韩av在线免费看完整版不卡| 亚洲成人一二三区av| www.色视频.com| 久久精品熟女亚洲av麻豆精品| 久久午夜综合久久蜜桃| 成年人免费黄色播放视频| 婷婷色综合www| 一区二区三区精品91| 涩涩av久久男人的天堂| 一级二级三级毛片免费看| 精品国产一区二区三区久久久樱花| 久久久久国产精品人妻一区二区| 国产国语露脸激情在线看| 久久狼人影院| 免费观看无遮挡的男女| 伊人亚洲综合成人网| 久久久久久久国产电影| √禁漫天堂资源中文www| 五月开心婷婷网| 亚洲国产色片| 日韩精品有码人妻一区| 一区二区日韩欧美中文字幕 | 久久久久精品性色| 亚洲激情五月婷婷啪啪| 丰满饥渴人妻一区二区三| 精品国产乱码久久久久久小说| 好男人视频免费观看在线| 欧美精品高潮呻吟av久久| 久久99一区二区三区| 国产精品国产三级国产专区5o| 国产一区二区三区av在线| 欧美3d第一页| 亚洲色图 男人天堂 中文字幕 | 人人澡人人妻人| 成人免费观看视频高清| 一本一本综合久久| 欧美亚洲 丝袜 人妻 在线| 成人漫画全彩无遮挡| 日韩成人伦理影院| 亚洲av电影在线观看一区二区三区| 午夜免费男女啪啪视频观看| 男女国产视频网站| 欧美人与善性xxx| 91久久精品国产一区二区成人| 精品酒店卫生间| 日韩欧美精品免费久久| 精品熟女少妇av免费看| 91精品伊人久久大香线蕉| 黑丝袜美女国产一区| 能在线免费看毛片的网站| 熟女电影av网| 国产精品久久久久久精品电影小说| 亚洲激情五月婷婷啪啪| 久久精品久久久久久久性| 最黄视频免费看| 国产乱人偷精品视频| 免费不卡的大黄色大毛片视频在线观看| 亚洲第一av免费看| 97在线视频观看| 麻豆成人av视频| 美女福利国产在线| 插逼视频在线观看| 亚洲国产精品成人久久小说| 亚洲第一区二区三区不卡| 最近2019中文字幕mv第一页| 超色免费av| 三上悠亚av全集在线观看| 日韩制服骚丝袜av| 国产日韩欧美在线精品| 丰满乱子伦码专区| 国产探花极品一区二区| 亚洲,一卡二卡三卡| 黑丝袜美女国产一区| 一级黄片播放器| 97超视频在线观看视频| 黄色配什么色好看| 亚洲欧美日韩另类电影网站| 一本色道久久久久久精品综合| 免费看光身美女| 51国产日韩欧美| 99久久中文字幕三级久久日本| 精品少妇黑人巨大在线播放| 国产精品久久久久久精品电影小说| 国产伦精品一区二区三区视频9| 国产不卡av网站在线观看| 中文字幕精品免费在线观看视频 | 一二三四中文在线观看免费高清| 亚洲精品日韩在线中文字幕| 丝袜喷水一区| 久久 成人 亚洲| 欧美日韩成人在线一区二区| 成人综合一区亚洲| 一区二区三区免费毛片| 男人操女人黄网站| av视频免费观看在线观看| 春色校园在线视频观看| 精品国产乱码久久久久久小说| 97超碰精品成人国产| 国产精品嫩草影院av在线观看| 搡女人真爽免费视频火全软件| 亚洲性久久影院| 黄色视频在线播放观看不卡| 搡女人真爽免费视频火全软件| 精品视频人人做人人爽| 国产成人av激情在线播放 |