• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    針對(duì)命名實(shí)體識(shí)別的數(shù)據(jù)增強(qiáng)技術(shù)

    2021-03-14 20:46:32馬曉琴郭小鶴薛峪峰楊琳陳遠(yuǎn)哲
    關(guān)鍵詞:數(shù)據(jù)增強(qiáng)

    馬曉琴 郭小鶴 薛峪峰 楊琳 陳遠(yuǎn)哲

    摘要:近年來(lái),深度學(xué)習(xí)方法被廣泛地應(yīng)用于命名實(shí)體識(shí)別任務(wù)中,并取得了良好的效果.但是主流的命名 實(shí)體識(shí)別都是基于序列標(biāo)注的方法,這類方法依賴于足夠的高質(zhì)量標(biāo)注語(yǔ)料.然而序列數(shù)據(jù)的標(biāo)注成本高昂, 導(dǎo)致命名實(shí)體識(shí)別訓(xùn)練集規(guī)模往往較小,這嚴(yán)重地限制了命名實(shí)體識(shí)別模型的最終性能.為了在不增加人 工成本的前提下擴(kuò)大命名實(shí)體識(shí)別的訓(xùn)練集規(guī)模,本文分別提出了基于EDA(Easy Data Augmentation)、 基于遠(yuǎn)程監(jiān)督、基于Bootstrap(自展法)的命名實(shí)體識(shí)別數(shù)據(jù)增強(qiáng)技術(shù).通過(guò)在本文給出的FIND-2019數(shù) 據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,這幾種數(shù)據(jù)增強(qiáng)技術(shù)及其它們的組合能夠低成本地增加訓(xùn)練集的規(guī)模,從而顯著 地提升命名實(shí)體識(shí)別模型的性能.

    關(guān)鍵詞:命名實(shí)體識(shí)別;數(shù)據(jù)增強(qiáng);EDA;遠(yuǎn)程監(jiān)督;Bootstrap

    中圖分類號(hào):TP311?????? 文獻(xiàn)標(biāo)志碼:A DOI: 10.3969/j.issn.1000-5641.2021.05.002

    Data augmentation technology for named entity recognition

    MA Xiaoqin1, GUO Xiaohe1, XUE Yufeng1, YANG Lin2, CHEN Yuanzhe3

    (1. Information and Communication Company, State Grid Qinghai Electric Power Company,

    Xining 810008, China; 2. Shanghai Development Center of Computer Software Technology,

    Shanghai 201112, China; 3. School of Data Science and Engineering, East China

    Normal University, Shanghai 200062, China)

    Abstract: A named entity recognition task is as a task that involves extracting instances of a named entity from continuous natural language text. Named entity recognition plays an important role in information extraction and is closely related to other information extraction tasks. In recent years, deep learning methods have been widely used in named entity recognition tasks; the methods, in fact, have achieved a good performance level. The most common named entity recognition models use sequence tagging, which relies on the availability of a high quality annotation corpus. However, the annotation cost of sequence data is high; this leads to the use of small training sets and, in turn, seriously limits the final performance of named entity recognition models. To enlarge the size of training sets for named entity recognition without increasing the associated labor cost, this paper proposes a data augmentation method for named entity recognition based on EDA, distant supervision, and bootstrap. Using experiments on the FIND-2019 dataset, this paper illustrates that the proposed data augmentation techniques and combinations thereof can significantly improve the overall performance of named entity recognition models.

    收稿日期:2021-08-24

    基金項(xiàng)目:國(guó)家自然科學(xué)基金(U1911203, U1811264, 61877018, 61672234, 6167238(4);中央高?;究蒲袠I(yè)務(wù)費(fèi) 專項(xiàng);上海市核心數(shù)學(xué)與實(shí)踐重點(diǎn)實(shí)驗(yàn)室資助項(xiàng)目(18dz2271000)

    第一作者:馬曉琴,女,高級(jí)工程師,研究方向?yàn)橛秒娦畔⑾到y(tǒng)檢修維護(hù).E-mail: xqm8651?126.com 通信作者:楊琳,女,高級(jí)工程師,研究方向?yàn)镮T治理、數(shù)據(jù)治理及數(shù)據(jù)資產(chǎn)化.

    E-mail: yangl@sscenter.sh.cn

    Keywords: named entity recognition; data augmentation; EDA; distant supervision; Bootstrap

    0引 言

    命名實(shí)體識(shí)別(Named Entity Recognition, NER)旨在通過(guò)模型自動(dòng)地識(shí)別出一段自然文本中所 包含的實(shí)體,在金融科技領(lǐng)域有著廣泛的應(yīng)用.例如,識(shí)別出時(shí)事新聞中的人名、地名、機(jī)構(gòu)名,能夠 為后續(xù)的金融分析任務(wù)提供特征支持.由于實(shí)體表述十分繁雜多樣,往往無(wú)法窮舉所有可能的實(shí)體 (不存在一個(gè)詞典能夠把所有人名都涵蓋起來(lái)),所以命名實(shí)體識(shí)別是一個(gè)艱難的任務(wù).

    近年來(lái),得益于深度學(xué)習(xí)的發(fā)展與興起,命名實(shí)體識(shí)別任務(wù)在大量訓(xùn)練數(shù)據(jù)的支持下取得了良好 的性能.但是,命名實(shí)體識(shí)別任務(wù)的數(shù)據(jù)標(biāo)注成本很高,一句話需要標(biāo)注多個(gè)實(shí)體,且往往存在歧義和 嵌套的情況,導(dǎo)致標(biāo)注時(shí)需要詳細(xì)斟酌.所以,標(biāo)注一條NER數(shù)據(jù)的時(shí)間往往是文本分類等其他自然 語(yǔ)言處理任務(wù)的數(shù)倍.現(xiàn)在有許多詞嵌入方法能夠在大規(guī)模的無(wú)監(jiān)督文本上進(jìn)行預(yù)訓(xùn)練來(lái)提高小數(shù) 據(jù)量下模型的泛化性能,但是其含有的監(jiān)督信息極其有限,因此模型的性能遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到貝葉斯最優(yōu) 誤差.以隱藏單元數(shù)為100的Bi-LSTM + CRF模型為例,可以根據(jù)“10x規(guī)則”(https://medium.com/ @malay.haldar/how-much-training-data-do-you-need-da8ec091e956)做個(gè)簡(jiǎn)單的數(shù)據(jù)量估計(jì):網(wǎng)絡(luò)中 LSTM的參數(shù)個(gè)數(shù)約為2 x 4 x 1002 = 80000 (2個(gè)方向的LSTM,分別有4個(gè)門控單元,對(duì)應(yīng)8個(gè)權(quán) 重矩陣).因此,這個(gè)網(wǎng)絡(luò)的樣本數(shù)量至少要超過(guò)80000 x 10 = 800000才能夠接近飽和.然而在現(xiàn)實(shí) 業(yè)務(wù)場(chǎng)景中,命名實(shí)體識(shí)別任務(wù)的樣本規(guī)模一般都在幾千至幾萬(wàn)的量級(jí)內(nèi),很難達(dá)到“10x規(guī)則”所要 求的飽和數(shù)據(jù)量.

    為了解決數(shù)據(jù)匱乏的問(wèn)題,統(tǒng)計(jì)機(jī)器學(xué)習(xí)領(lǐng)域最常用手段是數(shù)據(jù)增強(qiáng)(Data Augmentation)技術(shù). 目前,數(shù)據(jù)增強(qiáng)技術(shù)在各個(gè)統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域里都有廣泛應(yīng)用.例如,在計(jì)算機(jī)視覺(jué)的相關(guān)任務(wù)中,常用的 數(shù)據(jù)增強(qiáng)技術(shù)包括對(duì)圖像進(jìn)行縮放、平移、旋轉(zhuǎn)、白化等操作,可以將一張圖片樣本擴(kuò)展成多張圖片 樣本.在語(yǔ)音處理相關(guān)任務(wù)中,常用的數(shù)據(jù)增強(qiáng)技術(shù)則有時(shí)域扭曲、時(shí)域遮罩、頻域遮罩等[1],將聲波 在頻域和時(shí)域上加入噪聲.在自然語(yǔ)言處理中,數(shù)據(jù)增強(qiáng)在文本分類任務(wù)中也有廣泛的應(yīng)用,最具代 表性的就是EDA方法[2],其將自然語(yǔ)言數(shù)據(jù)進(jìn)行隨機(jī)的替換、交換、插入、刪除.但是,目前沒(méi)有專門 針對(duì)命名實(shí)體識(shí)別這一任務(wù)而定制的數(shù)據(jù)增強(qiáng)技術(shù),現(xiàn)有的數(shù)據(jù)增強(qiáng)技術(shù)對(duì)于命名實(shí)體識(shí)別任務(wù)的 數(shù)據(jù)擴(kuò)展性有限.

    本文針對(duì)基于序列標(biāo)注的NER任務(wù),分別提出了基于EDA、基于遠(yuǎn)程監(jiān)督、基于Bootstrap的數(shù) 據(jù)增強(qiáng)方法,來(lái)解決命名實(shí)體識(shí)別任務(wù)中的數(shù)據(jù)匱乏問(wèn)題.第1章首先介紹命名實(shí)體識(shí)別任務(wù)的技術(shù) 背景;第2章詳細(xì)介紹提出的基于命名實(shí)體識(shí)別任務(wù)的數(shù)據(jù)增強(qiáng)方法的完整流程和技術(shù)細(xì)節(jié);第3章 通過(guò)實(shí)驗(yàn)來(lái)證明數(shù)據(jù)增強(qiáng)方法的有效性,并分析模型的優(yōu)化上界;最后,總結(jié)全文.

    1相關(guān)工作

    命名實(shí)體識(shí)別技術(shù)作為自然語(yǔ)言理解技術(shù)中的重要一環(huán),已經(jīng)經(jīng)歷了幾十年的長(zhǎng)足發(fā)展,且在各 行各業(yè)有著廣泛的落地場(chǎng)景.例如,金融新聞中的公司機(jī)構(gòu)識(shí)別,法律文書中的法律名、人名識(shí)別,醫(yī) 療文本中的疾病名、藥物名識(shí)別,等等.隨著數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)開(kāi)始興起,數(shù)據(jù)增強(qiáng) 技術(shù)成為一項(xiàng)必不可少的前處理步驟,顯著提升了各個(gè)任務(wù)模型的泛化性能.

    1.1命名實(shí)體識(shí)別

    早期的命名實(shí)體識(shí)別大多是基于規(guī)則的方法,其中最具代表性的方法有基于詞匯規(guī)則的方法[3]、 基于短語(yǔ)規(guī)則的方法以及基于上下文模板的方法這類方法需要通過(guò)語(yǔ)言學(xué)家對(duì)命名實(shí)體規(guī)則進(jìn) 行總結(jié)歸納,在某些強(qiáng)規(guī)則相關(guān)的特定領(lǐng)域文本能夠取得還不錯(cuò)的性能.但是這類方法的缺點(diǎn)也顯而 易見(jiàn):人工總結(jié)的規(guī)則往往泛化性能有限,無(wú)法涵蓋所有情況.因此,這類方法在大多通用領(lǐng)域文本下 的性能較差.

    近年來(lái),命名實(shí)體識(shí)別開(kāi)始采用序列標(biāo)注的建模方式,即將句子序列輸人NER模型當(dāng)中,模型輸 出等長(zhǎng)的標(biāo)注序列,表示唯一^的一^組實(shí)體識(shí)別結(jié)果.常見(jiàn)的序列標(biāo)注法有“BIO”法和“BIOES”法.本 文中默認(rèn)使用“BIO”法,即“B”代表實(shí)體的開(kāi)頭,“I”代表實(shí)體的內(nèi)部,“O”代表非實(shí)體部分,如圖1 所示.

    基于序列標(biāo)注的建模方式,數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法開(kāi)始被引人命名實(shí)體識(shí)別任務(wù)當(dāng)中,常見(jiàn)的 方法包括基于支持向量機(jī)的方法'基于隱馬爾可夫模型的方法' 以及基于條件隨機(jī)場(chǎng)的方法[8].這類 方法能夠從大量人工標(biāo)注的監(jiān)督數(shù)據(jù)中,根據(jù)指定的目標(biāo)函數(shù)來(lái)自動(dòng)學(xué)習(xí)文本到標(biāo)注的復(fù)雜映射關(guān) 系,從而避免了人工總結(jié)規(guī)則的過(guò)程,且效果顯著好于基于規(guī)則的方法.其中,基于條件隨機(jī)場(chǎng)的方法 能夠?qū)W習(xí)到標(biāo)簽之間的前后約束關(guān)系,例如“BIO”序列中“O”不能直接轉(zhuǎn)移到“I”.

    隨著深度學(xué)習(xí)技術(shù)的興起,采用神經(jīng)網(wǎng)絡(luò)來(lái)提取文本特征的建模方式開(kāi)始逐漸取代傳統(tǒng)的機(jī)器 學(xué)習(xí)方法,成為命名實(shí)體識(shí)別任務(wù)的新范式.常見(jiàn)的方法包括基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法[9]、基 于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的方法[10]以及基于變換器(Transformer)的方法[11-12].其中,卷積神經(jīng)網(wǎng)絡(luò)善 于學(xué)習(xí)文本的n-gram局部特征,循環(huán)神經(jīng)網(wǎng)絡(luò)善于學(xué)習(xí)文本時(shí)序特征,變換器善于學(xué)習(xí)文本的長(zhǎng)距 離依賴.當(dāng)前的主流方法也常常會(huì)將這幾類神經(jīng)網(wǎng)絡(luò)進(jìn)行組合,例如,基于CNN + LSTM的方法能夠 同時(shí)學(xué)習(xí)局部依賴和時(shí)序依賴[13],基于圖卷積網(wǎng)絡(luò)的方法能夠?qū)W習(xí)結(jié)構(gòu)化的語(yǔ)法特征[14],基于Lattice LSTM的方法能夠避免分詞誤差[15].

    針對(duì)小數(shù)據(jù)量的命名實(shí)體識(shí)別場(chǎng)景,引人無(wú)監(jiān)督的詞嵌人表征也是一個(gè)常見(jiàn)的做法,旨在利用一 個(gè)大規(guī)模的無(wú)監(jiān)督語(yǔ)料庫(kù)來(lái)提前學(xué)習(xí)詞間的語(yǔ)義關(guān)系,并將其遷移到小數(shù)據(jù)量的監(jiān)督任務(wù)上來(lái)提高 性能.經(jīng)典的詞嵌人方法有Word2vec[16]、Glove[17]、Fasttext[18],這類方法主要通過(guò)統(tǒng)計(jì)詞的共現(xiàn)信息 來(lái)學(xué)習(xí)到詞之間的相似性先驗(yàn).近年來(lái),基于預(yù)訓(xùn)練語(yǔ)言模型的動(dòng)態(tài)詞嵌人方法也開(kāi)始被廣泛應(yīng)用, 其能夠解決詞語(yǔ)在不同上下文中一詞多義的問(wèn)題,典型的技術(shù)有ELMo[19]、Flair[20]、BERT[21]、GPT- 2[22]、GPT-3[23]等.但是,這類技術(shù)受制于無(wú)監(jiān)督數(shù)據(jù)的儲(chǔ)備和計(jì)算資源的規(guī)模,普通的學(xué)術(shù)機(jī)構(gòu)或個(gè) 人往往無(wú)法負(fù)擔(dān)模型預(yù)訓(xùn)練的成本.

    1.2數(shù)據(jù)增強(qiáng)

    數(shù)據(jù)增強(qiáng)方法的主要目標(biāo)是,在不增加人工標(biāo)注成本的前提下,通過(guò)增加合理的噪聲來(lái)提升模型 的魯棒性.數(shù)據(jù)增強(qiáng)的過(guò)程也等價(jià)于增大了訓(xùn)練數(shù)據(jù)量,因此,在少數(shù)據(jù)量的場(chǎng)景下對(duì)模型性能的提 升有很大幫助.數(shù)據(jù)增強(qiáng)的方式依賴于輸人數(shù)據(jù)本身和目標(biāo)任務(wù)的特性,過(guò)度或者不合適的數(shù)據(jù)增強(qiáng) 反而會(huì)損傷模型的性能.例如,對(duì)于字符識(shí)別任務(wù),對(duì)字符圖片進(jìn)行輕微的隨機(jī)旋轉(zhuǎn)是合適的,但是如 果旋轉(zhuǎn)角度過(guò)大,則會(huì)產(chǎn)生許多錯(cuò)誤標(biāo)簽樣本(如字母“P”旋轉(zhuǎn)180度后會(huì)變成字母“d”),導(dǎo)致訓(xùn)練后 模型的性能下降.

    在文本分類任務(wù)中,EDA[2]是一個(gè)常用的數(shù)據(jù)增強(qiáng)方法,其設(shè)計(jì)了一系列簡(jiǎn)單的操作來(lái)為自然語(yǔ) 言數(shù)據(jù)加入噪聲,從而提高模型的魯棒性.EDA方法中提出了 4種基本操作:①同義詞替換,即將文 本數(shù)據(jù)中的某些詞隨機(jī)替換為其同義詞;②隨機(jī)插入,即在文本數(shù)據(jù)中的隨機(jī)位置插入隨機(jī)的詞; ③隨機(jī)交換,即隨機(jī)挑選文本數(shù)據(jù)的詞對(duì)進(jìn)行位置交換;④隨機(jī)刪除,即隨機(jī)刪除文本數(shù)據(jù)中的詞. EDA方法在文本分類任務(wù)中取得了良好的性能,但是并不適用于命名實(shí)體識(shí)別任務(wù),因?yàn)殡S機(jī)插入、 隨機(jī)交換、隨機(jī)刪除都有可能破壞命名實(shí)體的合法性,使數(shù)據(jù)集出現(xiàn)謬誤.

    此外,也有一些從其他領(lǐng)域遷移到自然語(yǔ)言處理領(lǐng)域的數(shù)據(jù)增強(qiáng)方法,最具代表性的有:從計(jì)算 機(jī)視覺(jué)領(lǐng)域引入的文字混合(Mixup for Text)方法[24],從生物信息學(xué)引入的實(shí)例交叉擴(kuò)展方法[25].這 類方法均利用了跨領(lǐng)域任務(wù)之間的共性,并根據(jù)目標(biāo)任務(wù)的特點(diǎn)對(duì)方法進(jìn)行了適配性修改.

    近年來(lái),一些針對(duì)命名實(shí)體識(shí)別這一特定任務(wù)的數(shù)據(jù)增強(qiáng)技術(shù)也開(kāi)始被提出.例如,Dai等[26]引 入了一些詞替換的隨機(jī)操作來(lái)增加訓(xùn)練語(yǔ)料多樣性;Chen等[27]在半監(jiān)督NER任務(wù)中引入了基于局 部可加性的數(shù)據(jù)增強(qiáng);Keraghel等[28]針對(duì)單一領(lǐng)域提出了針對(duì)性的數(shù)據(jù)增強(qiáng)方法.目前,這類方法存 在以下缺陷:①引入噪聲過(guò)大,主要由于一些隨機(jī)替換規(guī)則的不合理性,以及存在誤差率;②一般只適 用于單一特殊場(chǎng)景,如Keraghel等[28]的方法只適用于汽車工業(yè)領(lǐng)域,不具有較強(qiáng)的通用性.

    2命名實(shí)體識(shí)別數(shù)據(jù)增強(qiáng)技術(shù)

    本章將系統(tǒng)性地提出針對(duì)命名實(shí)體識(shí)別的數(shù)據(jù)增強(qiáng)技術(shù),主要包括基于EDA、基于遠(yuǎn)程監(jiān)督、基 于Bootstrap的數(shù)據(jù)增強(qiáng)的方法.其中,基于EDA的方法主要關(guān)注如何動(dòng)態(tài)地為數(shù)據(jù)加入合理的噪聲; 基于遠(yuǎn)程監(jiān)督的方法主要關(guān)注如何根據(jù)實(shí)體庫(kù)與無(wú)監(jiān)督文本來(lái)自動(dòng)生成監(jiān)督樣本;而基于Bootstrap 的方法則重點(diǎn)關(guān)注模型如何通過(guò)迭代回標(biāo)數(shù)據(jù)來(lái)實(shí)現(xiàn)自我更新.

    2.1基于改進(jìn)EDA的NER數(shù)據(jù)增強(qiáng)

    為了適應(yīng)NER任務(wù),將EDA方法進(jìn)行了改進(jìn),將原有的4種操作進(jìn)行了以下修改,防止原始的 EDA操作破壞NER數(shù)據(jù)的合法性:

    (1)同義詞替換,將標(biāo)注數(shù)據(jù)中的某些詞隨機(jī)替換為其同義詞(該操作無(wú)變化);

    (2)隨機(jī)插入,向標(biāo)注數(shù)據(jù)中的某個(gè)非實(shí)體部分中隨機(jī)插入詞語(yǔ);

    (3)隨機(jī)交換,將標(biāo)注數(shù)據(jù)中非實(shí)體部分的隨機(jī)兩個(gè)詞進(jìn)行交換;

    (4)隨機(jī)刪除,將標(biāo)注數(shù)據(jù)中非實(shí)體部分的隨機(jī)詞刪除.

    在原始的EDA的4個(gè)操作的基礎(chǔ)上,為NER任務(wù)以及中文文本定制了 6種額外的數(shù)據(jù)增強(qiáng)操作.

    (1)實(shí)體替換:隨機(jī)將標(biāo)注數(shù)據(jù)中的若干命名實(shí)體替換為其他同類型的命名實(shí)體,旨在豐富命名 實(shí)體表述的多樣性.

    (2)實(shí)體遮罩:隨機(jī)將標(biāo)注數(shù)據(jù)中的某些命名實(shí)體的每個(gè)詞嵌入替換為隨機(jī)向量,旨在強(qiáng)化對(duì)命 名實(shí)體上下文的模板槽的學(xué)習(xí).

    (3)詞切分:隨機(jī)將標(biāo)注數(shù)據(jù)中的詞語(yǔ)進(jìn)行細(xì)粒度切分,旨在強(qiáng)化對(duì)不同分詞結(jié)果的魯棒性.

    (4)詞拼接:隨機(jī)將標(biāo)注數(shù)據(jù)中相鄰的兩個(gè)詞組合成一個(gè)詞,其中需要防止實(shí)體部分和非實(shí)體部 分的詞發(fā)生組合,旨在強(qiáng)化對(duì)不同分詞結(jié)果的魯棒性.

    (5)句換位:以句號(hào)等分隔符為分句依據(jù),隨機(jī)交換同一個(gè)樣本中或兩個(gè)樣本之間的兩個(gè)句子,旨 在豐富樣本的長(zhǎng)距離上下文內(nèi)容.

    (6)短句生成:隨機(jī)取某個(gè)樣本中包含至少一個(gè)命名實(shí)體的短句子生成新樣本,旨在提高缺乏上 下文信息的短文本NER的性能.

    基于EDA的NER數(shù)據(jù)增強(qiáng)方法主要通過(guò)向數(shù)據(jù)中添加合理的噪聲,來(lái)模擬模型未來(lái)可能遇到 的復(fù)雜多樣的樣本.因此,相比于可能破壞語(yǔ)句通順性的傳統(tǒng)EDA方法,提出的改進(jìn)EDA方法能夠 在基本不損失數(shù)據(jù)標(biāo)注正確率的前提下,顯著提升文本語(yǔ)義空間的覆蓋度,從而提升NER模型的泛 化性能.

    2.2基于遠(yuǎn)程監(jiān)督的NER數(shù)據(jù)增強(qiáng)

    雖然EDA方法能夠顯著地增強(qiáng)NER模型的魯棒性,但是其語(yǔ)義空間有限:僅是對(duì)原始樣本集加 入少量噪聲,大部分樣本的語(yǔ)義空間和句式并沒(méi)有得到擴(kuò)展,即標(biāo)注樣本在全樣本空間中的覆蓋率較 低且基本保持不變.因此,提出了基于遠(yuǎn)程監(jiān)督的NER數(shù)據(jù)增強(qiáng)方法,從另一個(gè)角度對(duì)數(shù)據(jù)集進(jìn)行擴(kuò) 增,通過(guò)引入大量的無(wú)監(jiān)督樣本,然后使用腳本對(duì)其進(jìn)行自動(dòng)NER標(biāo)注.這樣大量的無(wú)監(jiān)督樣本就轉(zhuǎn) 化為了大量的監(jiān)督樣本,從而大大增加了模型的訓(xùn)練量.遠(yuǎn)程監(jiān)督的具體流程見(jiàn)算法1.

    算法1基于遠(yuǎn)程監(jiān)督的NER數(shù)據(jù)增強(qiáng)算法

    輸人:種子數(shù)據(jù)集X;外部實(shí)體庫(kù)戽無(wú)監(jiān)督語(yǔ)料庫(kù)r 輸出:遠(yuǎn)程監(jiān)督數(shù)據(jù)集X'

    1:若X非空,提取X中所有實(shí)體得到額外實(shí)體集合盡 2: E = EU Ex

    3:將E中所有實(shí)體作為模板集合,構(gòu)建AC自動(dòng)機(jī)Ma。

    4:使用Mac在r中進(jìn)行實(shí)體匹配,找出所有完全匹配的實(shí)體區(qū)間列表S= {〈L1,R1〉,〈L2,R2〉,…},其中Li,和Ri尾分別表示T中第i個(gè)匹配成功的起始位置和終止位置

    5:對(duì)S中的每個(gè)區(qū)間在r的相應(yīng)位置標(biāo)注“BI”標(biāo)簽,其余部分標(biāo)注“O”標(biāo)簽,得到遠(yuǎn)程監(jiān)督數(shù)據(jù)集X

    6: Return X

    該過(guò)程中涉及了 AC自動(dòng)機(jī)(Aho-Corasick Automaton),能夠快速地對(duì)文本進(jìn)行多模板匹配,效 率要遠(yuǎn)高于暴力匹配與多次KMP匹配.基于遠(yuǎn)程監(jiān)督的數(shù)據(jù)增強(qiáng)方法實(shí)現(xiàn)簡(jiǎn)單,并且支持NER任務(wù) 的冷啟動(dòng):即使在沒(méi)有任何監(jiān)督樣本的情況下也能夠構(gòu)造出新的監(jiān)督數(shù)據(jù).

    2.3 基于Bootstrap的NER數(shù)據(jù)增強(qiáng)

    在實(shí)際應(yīng)用場(chǎng)景中,遠(yuǎn)程監(jiān)督方法也存在著一個(gè)重要的缺陷:基于遠(yuǎn)程監(jiān)督數(shù)據(jù)集訓(xùn)練出的 NER模型的召回率普遍偏低.原因一方面在于,開(kāi)放域中可能出現(xiàn)的命名實(shí)體數(shù)量巨大,如人名顯然 是窮舉不完的,相比之下,擁有的實(shí)體庫(kù)規(guī)模非常有限;另一方面在于,同一個(gè)實(shí)體的表述方法也復(fù)雜 多變,經(jīng)常存在別名、簡(jiǎn)稱、全稱的不同表述方式.因此,遠(yuǎn)程監(jiān)督方法很難將無(wú)監(jiān)督文本中的實(shí)體標(biāo) 注完整,會(huì)遺漏很多實(shí)體庫(kù)之外的實(shí)體表述.

    針對(duì)遠(yuǎn)程監(jiān)督方法存在的問(wèn)題,提出了基于Bootstrap的NER數(shù)據(jù)增強(qiáng)算法.相較于遠(yuǎn)程監(jiān)督直 接做字符串完全匹配,Bootstrap方法先使用種子數(shù)據(jù)集對(duì)模型進(jìn)行初步訓(xùn)練,然后通過(guò)模型自身的 迭代回測(cè),不斷地?cái)U(kuò)大數(shù)據(jù)集規(guī)模,從而實(shí)現(xiàn)模型的自我更新.Bootstrap的具體過(guò)程見(jiàn)算法2.

    相較于遠(yuǎn)程監(jiān)督方法,Bootstrap方法具有更高的召回率,能夠更好地識(shí)別出自然語(yǔ)言場(chǎng)景下各 種復(fù)雜的實(shí)體表述.需要注意的是,Bootstrap迭代次數(shù)要控制在一定范圍內(nèi),否則可能發(fā)生“語(yǔ)義漂 移”,即種子模型的預(yù)測(cè)結(jié)果會(huì)有一定的錯(cuò)誤率,當(dāng)使用錯(cuò)誤樣本進(jìn)行迭代訓(xùn)練時(shí),將導(dǎo)致模型的錯(cuò)誤 隨著迭代次數(shù)的增加而逐漸放大.因此,在真實(shí)的業(yè)務(wù)場(chǎng)景下,Bootstrap方法必須要保證種子數(shù)據(jù)集 的質(zhì)量,并且需要對(duì)精度變化曲線進(jìn)行監(jiān)控,當(dāng)精度提升逐漸放緩后即可停止迭代,從而避免語(yǔ)義漂 移的發(fā)生.

    算法2基于Bootstrap的NER數(shù)據(jù)增強(qiáng)算法

    輸入:種子數(shù)據(jù)集X;驗(yàn)證集無(wú)監(jiān)督語(yǔ)料結(jié)束閾值s 輸出:Bootstrap數(shù)據(jù)集X

    1:使用X訓(xùn)練NER模型,并在上計(jì)算模型初始得分s 2:將C順序打亂,均分為C1, C2,…,Q 3: For i=1 一n do

    4:????? 使用M預(yù)測(cè)語(yǔ)料Ci,得到帶標(biāo)注語(yǔ)料;

    5:????? X7 = X U X,

    6:????? 使用X'訓(xùn)練NER模型,并在XW1計(jì)算模型得分^

    7:????? If s' - 5 < ? then

    8:????? Break

    9:????? Else

    10:?? X= X, s = S

    11:?? End if

    12: End for 13: Return X

    3實(shí)驗(yàn)效果與分析

    本節(jié)主要對(duì)提出的3種NER數(shù)據(jù)增強(qiáng)技術(shù)的性能進(jìn)行評(píng)測(cè)和對(duì)比.通過(guò)一系列謹(jǐn)慎評(píng)估,嘗試 回答以下研究問(wèn)題.

    研究問(wèn)題1: EDA數(shù)據(jù)增強(qiáng)方法對(duì)NER的性能有多大提升?

    研究問(wèn)題2:遠(yuǎn)程監(jiān)督數(shù)據(jù)增強(qiáng)方法對(duì)NER的性能有多大提升?

    研究問(wèn)題3: Bootstrap數(shù)據(jù)增強(qiáng)方法對(duì)NER的性能有多大提升?

    研究問(wèn)題4:上述3類數(shù)據(jù)增強(qiáng)方法是否能夠組合共用?對(duì)NER的性能有多大提升?

    在接下來(lái)的部分,首先在實(shí)驗(yàn)設(shè)置部分介紹數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置,然后依次回答上述的研究問(wèn)題.

    3.1數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

    為了方便比較,3種方法均在FIND-2019數(shù)據(jù)集上進(jìn)行測(cè)試.FIND-2019數(shù)據(jù)集的文本來(lái)源為 2016—2018年的上市公司新聞,訓(xùn)練集有7235條句子,測(cè)試集有2534條句子,其中的實(shí)體類型只有 機(jī)構(gòu)(ORG),主要包括各個(gè)行業(yè)領(lǐng)域的上市公司與非上市公司.模型的性能評(píng)價(jià)指標(biāo)采用F1指標(biāo),即 準(zhǔn)確率和召回率的調(diào)和平均數(shù).

    選用ID-CNNs-CRF[9]作為實(shí)驗(yàn)的基準(zhǔn)模型,模型詳細(xì)結(jié)構(gòu)如圖2所示.

    其中,嵌入層采用了 Fasttext[18],并在爬取的約100萬(wàn)句金融語(yǔ)料上進(jìn)行預(yù)訓(xùn)練.使用AdamW算 法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化[29], batchsize設(shè)置為32,學(xué)習(xí)率為1e-4.此外,在嵌入層和空洞卷積層的輸出端 加入了 Dropout, dropout rate為0.25;模型整體加入了 L2正則化,正則化系數(shù)為1e-5.從訓(xùn)練集中額 外分離了 10%的數(shù)據(jù)作為驗(yàn)證集,每組結(jié)果均采用訓(xùn)練過(guò)程中驗(yàn)證集的metric(巧)最高的checkpoints 作為最終模型結(jié)果參與測(cè)試集上的實(shí)驗(yàn).

    3.2 EDA數(shù)據(jù)增強(qiáng)性能測(cè)試

    對(duì)傳統(tǒng)EDA方法與改進(jìn)的EDA方法在基準(zhǔn)模型上的巧指標(biāo)進(jìn)行比較.統(tǒng)一控制各種操作中的隨機(jī)比例,例如,對(duì)于同義詞替換操作,隨機(jī)比例為10%,即代表挑選語(yǔ)料中10%的詞語(yǔ)做同義詞替 換.此外,改進(jìn)的EDA操作是在線進(jìn)行的,即在NER模型訓(xùn)練過(guò)程中的每個(gè)batch都會(huì)在線進(jìn)行 EDA的隨機(jī)操作,確保同一個(gè)樣本在每個(gè)epoch被增強(qiáng)后都不相同.EDA性能在FIND-2019數(shù)據(jù)集 上的評(píng)估結(jié)果如表1所示,表格第一行的百分比代表隨機(jī)比例,提出的改進(jìn)EDA分別包含了簡(jiǎn)化版 (包含改良EDA的前4種操作)與完整版(包含改良EDA完整的10種操作).由于EDA方法的性能 提升有限,因此,為了增加實(shí)驗(yàn)結(jié)果的可信度,從0%至50%的數(shù)據(jù)增強(qiáng)過(guò)程將重復(fù)5次,表1中的數(shù) 據(jù)均為5次實(shí)驗(yàn)的均值.

    從表1中可以看出,原始EDA在NER任務(wù)中不但很難提升性能,甚至?xí)?dǎo)致模型性能的大幅下 降.其主要原因在于,原始EDA操作存在與NER任務(wù)規(guī)則相悖的地方,這會(huì)在增廣的數(shù)據(jù)中引人較 大誤差,從而使模型性能發(fā)生偏移.而改進(jìn)的EDA方法則能夠顯著提升NER的性能,其中完整版的 改進(jìn)EDA算法的性能要優(yōu)于簡(jiǎn)化版,因?yàn)槠鋵?duì)數(shù)據(jù)進(jìn)行了更精細(xì)的增廣,使得新生成的數(shù)據(jù)更貼近 現(xiàn)實(shí)分布,從而提升模型的泛化性能.此外,在使用EDA方法時(shí)需要控制隨機(jī)比例,不宜將隨機(jī)比例 設(shè)置得過(guò)高,否則會(huì)導(dǎo)致被增強(qiáng)后的數(shù)據(jù)變化過(guò)大,從而導(dǎo)致訓(xùn)練集與測(cè)試集的語(yǔ)義分布發(fā)生顯著差 異,進(jìn)而影響模型在測(cè)試集上的性能.

    3.3遠(yuǎn)程監(jiān)督數(shù)據(jù)增強(qiáng)性能測(cè)試

    對(duì)遠(yuǎn)程監(jiān)督方法的數(shù)據(jù)增強(qiáng)性能進(jìn)行對(duì)比測(cè)試.無(wú)監(jiān)督語(yǔ)料同樣來(lái)自上市公司新聞,實(shí)體列表的 來(lái)源主要有FIND-2019訓(xùn)練集中出現(xiàn)的所有實(shí)體表述,以及從互聯(lián)網(wǎng)上得到的公司名錄、機(jī)構(gòu)名錄, 并將它們的簡(jiǎn)稱、別名、全稱一并加人實(shí)體列表.基于得到的實(shí)體列表,分別測(cè)試了遠(yuǎn)程監(jiān)督方法在 冷啟動(dòng)場(chǎng)景(訓(xùn)練集只有遠(yuǎn)程監(jiān)督數(shù)據(jù))和數(shù)據(jù)增強(qiáng)場(chǎng)景(訓(xùn)練集包含原始訓(xùn)練集+遠(yuǎn)程監(jiān)督數(shù) 據(jù))下的巧指標(biāo),如表2所示.表2第一行的數(shù)據(jù)代表訓(xùn)練集中加人了多少遠(yuǎn)程監(jiān)督的數(shù)據(jù),每 100%代表額外加人了 7235條數(shù)據(jù),即FIND-2019訓(xùn)練集的原始大小.同樣地,表2中的數(shù)據(jù)為5次 重復(fù)實(shí)驗(yàn)的均值.

    由表2可以看出,遠(yuǎn)程監(jiān)督構(gòu)造的數(shù)據(jù)集在一定程度上能夠模擬真實(shí)場(chǎng)景下的數(shù)據(jù),但是其標(biāo)注 的質(zhì)量還是與人工標(biāo)注有所差距.在冷啟動(dòng)場(chǎng)景下使用了 500%的遠(yuǎn)程監(jiān)督數(shù)據(jù)集訓(xùn)練的模型,其 巧仍然比僅用人工標(biāo)注的數(shù)據(jù)集訓(xùn)練的模型要低約12%.在普通的數(shù)據(jù)增強(qiáng)場(chǎng)景下,加入100%的遠(yuǎn) 程監(jiān)督數(shù)據(jù)集能夠在一定程度上提高模型的泛化性能,但是當(dāng)遠(yuǎn)程監(jiān)督數(shù)據(jù)集的比例過(guò)大時(shí),其低質(zhì) 量的標(biāo)注會(huì)將人工標(biāo)注的數(shù)據(jù)的比例降低,從而對(duì)模型的性能提升起到反作用.造成上述現(xiàn)象的原因 在于,遠(yuǎn)程監(jiān)督方法所依賴的實(shí)體模板匹配方法本身存在較大誤差,且誤差往往大于人工標(biāo)注.因此, 在數(shù)據(jù)增強(qiáng)場(chǎng)景中,少量的遠(yuǎn)程監(jiān)督數(shù)據(jù)作為噪聲能一定程度提升模型性能,但是一旦這部分?jǐn)?shù)據(jù)占 比過(guò)高,會(huì)使模型去擬合一個(gè)錯(cuò)誤的分布,從而弱化模型在真實(shí)分布上的效果.

    3.4 Bootstrap數(shù)據(jù)增強(qiáng)性能測(cè)試

    本小節(jié)對(duì)Bootstrap的數(shù)據(jù)增強(qiáng)性能進(jìn)行測(cè)試.無(wú)監(jiān)督語(yǔ)料同樣來(lái)自上市公司新聞,種子數(shù)據(jù)集 即為FIND-2019的訓(xùn)練集.圖3展示了 NER模型的巧隨著Bootstrap不斷迭代的變化曲線,其中每 次迭代往數(shù)據(jù)集中添加3600條Bootstrap標(biāo)注數(shù)據(jù),大約為FIND-2019訓(xùn)練集的一半大小.

    由圖3可知,隨著Bootstrap不斷迭代,NER模型的巧呈現(xiàn)先增后減的趨勢(shì),與遠(yuǎn)程監(jiān)督方法的 變化趨勢(shì)類似.但是Bootstrap方法的巧峰值要顯著高于遠(yuǎn)程監(jiān)督方法,達(dá)到了約56.5%. Bootstrap 大約迭代4次,即大約增加了兩倍的訓(xùn)練集規(guī)模后,模型的巧達(dá)到峰值,隨后模型開(kāi)始發(fā)生語(yǔ)義漂移, 性能開(kāi)始急劇下降.

    因此,Bootstrap方法存在性能上界的主要原因在于:①Bootstrap方法標(biāo)注了新的文本數(shù)據(jù),從 而增加了訓(xùn)練集輸入端的文本分布的多樣性,且文本多樣性隨著迭代次數(shù)增加而增加,由于文本空間 會(huì)逐漸飽和,因此文本多樣性的提升速度是遞減的;②Bootstrap方法引入了少量錯(cuò)誤的標(biāo)注數(shù)據(jù),這 些錯(cuò)誤的標(biāo)注數(shù)據(jù)會(huì)影響后續(xù)模型效果,從而使得剩下的迭代中引入更多的錯(cuò)誤標(biāo)注,即標(biāo)注錯(cuò)誤隨 著迭代次數(shù)增加而增加,且錯(cuò)誤的增加速度也是遞增的;③文本多樣性的遞增和標(biāo)簽錯(cuò)誤的遞增呈現(xiàn) 動(dòng)態(tài)平衡,即在達(dá)到性能上界前,文本多樣性的提升速度高于標(biāo)簽錯(cuò)誤的提升速度,模型性能總體呈 現(xiàn)提升的趨勢(shì);而在達(dá)到性能上界之后,文本多樣性的提升速度開(kāi)始低于標(biāo)簽錯(cuò)誤的提升速度,模型 性能就開(kāi)始呈現(xiàn)衰減的趨勢(shì).

    3.5數(shù)據(jù)增強(qiáng)方法組合與性能對(duì)比

    事實(shí)上,提出的3種數(shù)據(jù)增強(qiáng)方法之間從邏輯上是可以兼容的.本節(jié)將通過(guò)實(shí)驗(yàn)來(lái)對(duì)3種數(shù)據(jù)增 強(qiáng)方法以及它們的組合之間進(jìn)行性能對(duì)比.通過(guò)以下方式對(duì)數(shù)據(jù)增強(qiáng)方法進(jìn)行兩兩組合或三者組合 (EDA均采用完整改進(jìn)版本).

    (1)EDA +遠(yuǎn)程監(jiān)督:首先使用遠(yuǎn)程監(jiān)督方法生成規(guī)模更大的訓(xùn)練語(yǔ)料,然后在新的語(yǔ)料上進(jìn)行 EDA處理.

    (2)EDA + Bootstrap:首先使用Bootstrap方法生成規(guī)模更大的訓(xùn)練語(yǔ)料,然后在新的語(yǔ)料上進(jìn) 行EDA處理.

    (3)遠(yuǎn)程監(jiān)督+ Bootstrap:使用遠(yuǎn)程監(jiān)督和Bootstrap生成各自的數(shù)據(jù)增強(qiáng)語(yǔ)料,同時(shí)將其加入 原始語(yǔ)料中得到規(guī)模更大的訓(xùn)練語(yǔ)料.

    (4) EDA +遠(yuǎn)程監(jiān)督+ Bootstrap:首先使用遠(yuǎn)程監(jiān)督和Bootstrap生成各自的數(shù)據(jù)增強(qiáng)語(yǔ)料,同 時(shí)將其加入原始語(yǔ)料中得到規(guī)模更大的訓(xùn)練語(yǔ)料,然后在新的語(yǔ)料上進(jìn)行EDA處理.

    將數(shù)據(jù)增強(qiáng)方法進(jìn)行組合后,將EDA的隨機(jī)比例、遠(yuǎn)程監(jiān)督的添加數(shù)據(jù)量、Bootstrap的迭代次 數(shù)都看作超參數(shù),通過(guò)網(wǎng)格搜索枚舉所有可能的超參數(shù)組合,對(duì)每個(gè)超參數(shù)組合重復(fù)5次實(shí)驗(yàn)求其平 均的巧指標(biāo),得到平均朽指標(biāo)最高的超參數(shù)組合.表3展示了 3種數(shù)據(jù)增強(qiáng)方法的各種組合方式的 最優(yōu)性能對(duì)比,其中bestEDA、bestDIS、bestBS*別表示EDA、遠(yuǎn)程監(jiān)督、Bootstrap在各種組合方式下 的最優(yōu)超參數(shù)取值,評(píng)價(jià)指標(biāo)依舊選用巧指標(biāo).

    從表3中可以得到以下結(jié)論:①僅看單個(gè)數(shù)據(jù)增強(qiáng)方法對(duì)巧的提升,Bootstrap方法> EDA方 法 > 遠(yuǎn)程監(jiān)督方法;②考慮數(shù)據(jù)增強(qiáng)方法的組合個(gè)數(shù)對(duì)巧的提升,3個(gè)方法組合 > 兩個(gè)方法組合> 單個(gè)方法;③隨著數(shù)據(jù)增強(qiáng)方法的組合個(gè)數(shù)的增加,各方法的最優(yōu)超參數(shù)值呈現(xiàn)降低趨勢(shì),這是因?yàn)?數(shù)據(jù)中的隨機(jī)噪聲也隨著多個(gè)方法的組合而疊加,從而使得語(yǔ)義漂移在超參數(shù)值較低時(shí)就提前出現(xiàn).

    4 結(jié)論

    本文主要介紹了針對(duì)序列標(biāo)注NER模型的數(shù)據(jù)增強(qiáng)技術(shù),分別介紹了基于EDA的數(shù)據(jù)增強(qiáng)技 術(shù)、基于遠(yuǎn)程監(jiān)督的數(shù)據(jù)增強(qiáng)技術(shù)、基于Bootstrap的數(shù)據(jù)增強(qiáng)技術(shù)的算法流程,并分析這些方法的 優(yōu)缺點(diǎn).最后通過(guò)在FIND-2019數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別證明了 3種方法以及方法組合的有效性,并且 對(duì)其中的重要參數(shù)進(jìn)行了敏感性分析,對(duì)實(shí)際運(yùn)用這些數(shù)據(jù)增強(qiáng)方法起到了指導(dǎo)性作用.

    [參考文獻(xiàn)]

    [1]PARK D S, CHAN W, ZHANG Y, et al. Specaugment: A simple data augmentationmethod for automatic speech recognition [EB/OL]. (2019-12-03)[2021-08-24]. https://arxiv.org/abs/1904.08779. [ 1 ]

    [2]WEI J W, ZOU K. Eda: Easy data augmentation techniques for boosting perfor-mance on text classification tasks [EB/OL]. (2019-08-25)[2021-08-24]. https://arxiv.org/pdf/1901.11196.pdf. ?[3]WEISCHEDEL R. BEN: Description of the PLUM system as used for MUC-6 [C]// Proceedings of the 6th Conference on Message Understanding. 1995: 55-69.

    [4]ABERDEEN J, BURGER J, CONNOLLY D, et al. MITRE-Bedford: Description of the ALEMBIC system as used for MUC-4 [C]//Proceedings of the 4th Conference on Message Understanding. 1992: 215-222.

    [5]HOBBS J R, BEAR J, ISRAEL D, et al. SRI international fastus system MUC-6 test results and analysis [C]// Proceedings of the 6thConference on Message Understanding. 1995.

    [6]MAYFIELD J, MCNAMEE P, PIATKO C. Named entity recognition using hundreds of thousands of features [C]// Proceedings of the Seventh Conference on Natural Language Learning. 2003: 184-187.

    [7]RABINERLR, JUANGB-H. An introduction to hidden Markov models [J]. IEEE Assp Magazine, 1986, 3(1): 4-16.

    [8]LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: Probabilis-tic models for segmenting and labeling sequence data [C]// Proceedings of the Eighteenth International Conference on Machine Learning. 2001: 282-289.

    [9]STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate entity recognitionwith iterated dilated convolutions [EB/OL]. (2017-07-22)[2021-08-24]. https://arxiv.org/pdf/1702.02098.pdf.

    [10]HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging [EB/OL]. (2015-08-09)[2021-08-24]. https://arxiv.org/pdf/1508.01991.pdf.

    [11]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 6000-6010.

    [12]YAN H, DENG B, LI X, et al. TENER: Adapting transformer encoder for named entity recognition [EB/OL]. (2019-12-10)[2021-08-24]. https://arxiv.org/abs/1911.04474v2.

    [13]CHIU J P, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs [J]. Transactions of the Association for Computational Linguistics, 2016(4): 357-370.

    [14]CETOLI A, BRAGAGLIA S, OHARNEY A D, et al. Graph convolutional networks for named entity recognition [EB/OL]. (2018-02-14)[2021-08-24]. https://arxiv.org/pdf/1709.10053.pdf.

    [15]ZHANG Y, YANG J. Chinese NER using lattice LSTM [EB/OL]. (2018-07-05)[2021-08-24]. https://arxiv.org/pdf/1805.02023.pdf.

    [16]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [C]//Preceedings of ACL. 2013: 3111-3119.

    [17]PENNINGTON J, SOCHER R, MANNING C. Glove: Global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014: 1532-1543.

    [18]BOJANOWSKI P, GRAVE E, JOULIN A, et al. Enriching word vectors with sub- word information [J]. Transactions of the Association for Computational Linguistics, 2017(5): 135-146.

    [19]PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations [EB/OL].(2018-03-22)[2021-09-01].https://www.researchgate.net/publication/323217640_Deep_contextualized_word_representations.

    [20]AKBIK A, BLYTHE D, VOLLGRAF R. Contextual string embeddings for sequence labeling [C]// Proceedings of the 27thInternational Conference on Computational Linguistics. 2018: 1638-1649.

    [21]DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding [EB/OL].(2019-05-24)[2021-08-24]. https://arxiv.org/pdf/1810.04805.pdf.

    [22]RADFORD A. Language models are unsupervised multitask learners [EB/OL]. (2019-02-19)[2021-09-01]. https://d4mucfpksywv. cloudfront.net/better-language-models/language-models.pdf.

    [23]BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners [EB/OL]. (2020-07-22)[2021-08-24]. https://arxiv.org/abs/2005.14165v2.

    [24]GUO H, MAO Y, ZHANG R. Augmenting data with mixup for sentence classification: An empirical study [EB/OL]. (2019-05-22)[2021-08-24]. https://arxiv.org/abs/1905.08941.

    [25]LUQUE F M. Atalaya at TASS 2019: Data augmentation and robust embeddings for sentiment analysis [EB/OL]. (2019-09-25)[2021-08-24]. https://arxiv.org/abs/1909.11241.

    [26]DAI X, ADEL H. An analysis of simple data augmentation for named entity recognition [EB/OL]. (2020-10-22)[2021-08-24].https://arxiv.org/abs/2010.11683.

    [27]CHEN J, WANG Z, TIAN R, et al. Local additivity based data augmentation for semi-supervised NER [EB/OL]. (2020-10-04)[2021-08-24]. https://arxiv.org/abs/2010.01677.

    [28]KERAGHEL A, BENABDESLEM K, CANITIA B. Data augmentation process to improve deep learning-based NER task in the automotive industry field [C]//2020 International Joint Conference on Neural Networks (IJCNN). 2020: 1-8.

    [29]LOSHCHILOV I, HUTTER F. Fixing weight decay regularization in adam [EB/OL]. (2019-01-04)[2021-08-24]. https://arxiv.org/abs/

    1711.05101v1.(責(zé)任編輯:張晶)

    猜你喜歡
    數(shù)據(jù)增強(qiáng)
    預(yù)訓(xùn)練模型的跨領(lǐng)域跨任務(wù)遷移學(xué)習(xí)
    科技資訊(2020年2期)2020-04-07 03:37:37
    極端降水時(shí)空分布特征研究—以江蘇省為例
    基于YOLO V3的垃圾自動(dòng)定位及分類方法
    基于特征提取偏好與背景色相關(guān)性的數(shù)據(jù)增強(qiáng)算法
    基于徑向變換和改進(jìn)AlexNet的胃腫瘤細(xì)胞圖像識(shí)別方法
    一種算法對(duì)于深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度的提升
    基于深度學(xué)習(xí)網(wǎng)絡(luò)的乳腺癌圖片分類研究
    基于卷積神經(jīng)網(wǎng)絡(luò)的森林火災(zāi)煙霧探測(cè)算法研究
    基于深度網(wǎng)絡(luò)的車輛前后端圖像識(shí)別方法研究
    基于雙卷積神經(jīng)網(wǎng)絡(luò)的鐵路集裝箱號(hào)OCR
    日韩强制内射视频| 九九爱精品视频在线观看| 欧美一区二区亚洲| 一区福利在线观看| 日韩成人av中文字幕在线观看| 亚洲精品粉嫩美女一区| 亚洲av熟女| 中文字幕精品亚洲无线码一区| 2021天堂中文幕一二区在线观| 亚洲自偷自拍三级| 日日干狠狠操夜夜爽| 久久久久九九精品影院| 男人的好看免费观看在线视频| av免费在线看不卡| av在线老鸭窝| 欧美成人a在线观看| 国内精品美女久久久久久| 麻豆成人av视频| 成人午夜精彩视频在线观看| 26uuu在线亚洲综合色| 99热只有精品国产| 免费观看的影片在线观看| 99久国产av精品| 97热精品久久久久久| 亚洲精品456在线播放app| 男人舔女人下体高潮全视频| 日本免费a在线| 少妇熟女aⅴ在线视频| 亚洲精品影视一区二区三区av| 亚洲国产日韩欧美精品在线观看| 久久久久久伊人网av| 国产亚洲精品久久久久久毛片| 国产精品1区2区在线观看.| 亚洲电影在线观看av| 亚洲一区二区三区色噜噜| 国产av在哪里看| 99在线人妻在线中文字幕| 一个人观看的视频www高清免费观看| 一进一出抽搐动态| 天堂网av新在线| 成人高潮视频无遮挡免费网站| 1000部很黄的大片| 国产精品av视频在线免费观看| 嫩草影院精品99| 亚洲最大成人手机在线| 人妻久久中文字幕网| 在线播放无遮挡| 身体一侧抽搐| 99在线人妻在线中文字幕| 国产成人影院久久av| 国产91av在线免费观看| 婷婷亚洲欧美| 夜夜爽天天搞| 六月丁香七月| 欧美3d第一页| 国产一区二区在线观看日韩| 欧美zozozo另类| 两个人的视频大全免费| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 久久久色成人| 亚洲第一电影网av| 国产高清不卡午夜福利| 国产蜜桃级精品一区二区三区| 日韩成人av中文字幕在线观看| 99在线视频只有这里精品首页| 级片在线观看| 国产极品精品免费视频能看的| 在线观看一区二区三区| 日日摸夜夜添夜夜爱| 亚洲国产色片| 天堂影院成人在线观看| 欧美三级亚洲精品| 亚洲国产欧洲综合997久久,| 国产精品久久久久久精品电影小说 | 亚洲高清免费不卡视频| 别揉我奶头 嗯啊视频| 久久精品国产亚洲av涩爱 | 老司机福利观看| 欧美日本视频| 精品人妻视频免费看| 成人特级av手机在线观看| 久久久色成人| 亚洲人成网站在线观看播放| 久久久午夜欧美精品| 亚洲精品粉嫩美女一区| 日本撒尿小便嘘嘘汇集6| 一级毛片aaaaaa免费看小| 美女脱内裤让男人舔精品视频 | 国产视频内射| 久久久久国产网址| www.色视频.com| 欧美在线一区亚洲| 国产乱人偷精品视频| 一个人看的www免费观看视频| 日韩中字成人| 性色avwww在线观看| 亚洲国产精品久久男人天堂| 99视频精品全部免费 在线| 免费看a级黄色片| 99久久九九国产精品国产免费| 一区二区三区高清视频在线| 最近视频中文字幕2019在线8| 人妻少妇偷人精品九色| 麻豆一二三区av精品| 国产女主播在线喷水免费视频网站 | 不卡视频在线观看欧美| 久久亚洲精品不卡| 最后的刺客免费高清国语| 国产av一区在线观看免费| 在线观看66精品国产| 国产精品av视频在线免费观看| 久久韩国三级中文字幕| 国产 一区 欧美 日韩| av福利片在线观看| 在线免费观看的www视频| 午夜老司机福利剧场| 亚洲美女搞黄在线观看| 国语自产精品视频在线第100页| 精华霜和精华液先用哪个| 亚洲av一区综合| 日日摸夜夜添夜夜爱| 国产v大片淫在线免费观看| 少妇熟女aⅴ在线视频| www日本黄色视频网| a级毛片免费高清观看在线播放| 久久精品夜色国产| 亚洲欧美日韩东京热| 国产不卡一卡二| 欧美xxxx黑人xx丫x性爽| 级片在线观看| 久久久久久九九精品二区国产| 乱人视频在线观看| 亚洲图色成人| 午夜福利在线在线| 亚洲高清免费不卡视频| 国产午夜精品一二区理论片| 精品一区二区免费观看| 亚洲av免费高清在线观看| 欧美变态另类bdsm刘玥| 日韩欧美一区二区三区在线观看| 1024手机看黄色片| 欧美激情国产日韩精品一区| 国产成年人精品一区二区| 99国产极品粉嫩在线观看| 青春草亚洲视频在线观看| 嘟嘟电影网在线观看| .国产精品久久| 亚洲av中文字字幕乱码综合| 久久久久久久久久久免费av| 精品午夜福利在线看| 麻豆乱淫一区二区| 国产亚洲精品久久久久久毛片| 菩萨蛮人人尽说江南好唐韦庄 | 久久久久九九精品影院| 中文资源天堂在线| avwww免费| 亚洲欧美清纯卡通| 国产伦一二天堂av在线观看| 美女黄网站色视频| 国产单亲对白刺激| 成人亚洲欧美一区二区av| 精品久久久久久久久亚洲| 长腿黑丝高跟| av卡一久久| а√天堂www在线а√下载| 99在线视频只有这里精品首页| 嘟嘟电影网在线观看| 黄色欧美视频在线观看| 伊人久久精品亚洲午夜| 国产精品一区二区性色av| 黄片wwwwww| 中文字幕熟女人妻在线| 日日摸夜夜添夜夜爱| 麻豆av噜噜一区二区三区| 老师上课跳d突然被开到最大视频| 国产探花极品一区二区| 亚洲乱码一区二区免费版| 99九九线精品视频在线观看视频| 校园春色视频在线观看| 精品人妻偷拍中文字幕| 国产精品久久久久久av不卡| 久久亚洲国产成人精品v| 欧美bdsm另类| 中文字幕精品亚洲无线码一区| 国产精品.久久久| 深夜精品福利| 欧美极品一区二区三区四区| 日韩欧美 国产精品| 青春草亚洲视频在线观看| 国产精品永久免费网站| 欧美日本亚洲视频在线播放| 久久久色成人| 色综合色国产| 色哟哟·www| 国产91av在线免费观看| 尾随美女入室| 22中文网久久字幕| 青青草视频在线视频观看| 国产91av在线免费观看| 久久99精品国语久久久| 国产亚洲精品久久久com| 国产大屁股一区二区在线视频| 国产午夜精品一二区理论片| 高清日韩中文字幕在线| 一进一出抽搐动态| 免费观看在线日韩| 91久久精品国产一区二区成人| 又爽又黄a免费视频| 国产三级中文精品| 美女内射精品一级片tv| 91狼人影院| 亚州av有码| 亚洲国产色片| 欧美变态另类bdsm刘玥| 久久精品人妻少妇| 永久网站在线| 国语自产精品视频在线第100页| 草草在线视频免费看| av免费在线看不卡| 级片在线观看| 免费av不卡在线播放| 国产高清视频在线观看网站| 少妇熟女欧美另类| 免费看光身美女| 久久中文看片网| 1024手机看黄色片| 国产伦一二天堂av在线观看| 国产精品av视频在线免费观看| 一本一本综合久久| 亚洲av成人精品一区久久| 亚洲经典国产精华液单| 国产精品久久久久久精品电影| 能在线免费看毛片的网站| 老师上课跳d突然被开到最大视频| 婷婷亚洲欧美| 亚洲在久久综合| 岛国毛片在线播放| 婷婷精品国产亚洲av| 村上凉子中文字幕在线| 色噜噜av男人的天堂激情| 一夜夜www| 国产日本99.免费观看| 欧美潮喷喷水| 国产白丝娇喘喷水9色精品| 欧美+亚洲+日韩+国产| 久久久精品94久久精品| 免费搜索国产男女视频| 免费黄网站久久成人精品| 黄色配什么色好看| 蜜臀久久99精品久久宅男| 国产一区二区在线观看日韩| 国产黄片视频在线免费观看| 久久精品久久久久久久性| 亚洲精华国产精华液的使用体验 | 成人毛片60女人毛片免费| av免费观看日本| 日韩欧美精品免费久久| 男人和女人高潮做爰伦理| 精品久久久久久久久久久久久| 成年版毛片免费区| 热99在线观看视频| 禁无遮挡网站| 久久久精品大字幕| 亚洲精品自拍成人| 青青草视频在线视频观看| 校园春色视频在线观看| 麻豆久久精品国产亚洲av| 日韩成人av中文字幕在线观看| 国产片特级美女逼逼视频| 国产欧美日韩精品一区二区| 日本五十路高清| 我要看日韩黄色一级片| 午夜福利成人在线免费观看| 一个人看的www免费观看视频| 日韩三级伦理在线观看| 成人性生交大片免费视频hd| 国产精品野战在线观看| 日韩一本色道免费dvd| 国产av在哪里看| av在线观看视频网站免费| 一级毛片电影观看 | 久久久久久久久久黄片| 国产精品久久久久久精品电影小说 | 国产亚洲91精品色在线| 亚洲精品国产成人久久av| 久久九九热精品免费| 国产在视频线在精品| 国产精品.久久久| 免费观看a级毛片全部| 最近中文字幕高清免费大全6| 99热这里只有精品一区| 亚洲无线观看免费| 国产精品久久久久久亚洲av鲁大| 美女xxoo啪啪120秒动态图| 成人性生交大片免费视频hd| av黄色大香蕉| 在线观看免费视频日本深夜| 国产蜜桃级精品一区二区三区| 午夜免费激情av| 一本精品99久久精品77| 黄片无遮挡物在线观看| a级毛色黄片| 1000部很黄的大片| 男人和女人高潮做爰伦理| av天堂中文字幕网| 一区二区三区免费毛片| 久久久久久久久久久免费av| 久久韩国三级中文字幕| 成年版毛片免费区| 99久久无色码亚洲精品果冻| 一个人看视频在线观看www免费| 国产视频首页在线观看| 免费av观看视频| 少妇的逼好多水| 一本精品99久久精品77| 我的女老师完整版在线观看| 国产大屁股一区二区在线视频| 精品国产三级普通话版| 校园春色视频在线观看| 亚洲欧洲国产日韩| 春色校园在线视频观看| 亚洲天堂国产精品一区在线| 亚洲色图av天堂| 免费观看a级毛片全部| 色播亚洲综合网| 亚洲国产精品国产精品| 欧美三级亚洲精品| 久久精品影院6| 中文字幕精品亚洲无线码一区| 国产在线男女| 日本免费一区二区三区高清不卡| 九九热线精品视视频播放| 免费看av在线观看网站| 中国美白少妇内射xxxbb| 亚洲国产精品sss在线观看| 日日干狠狠操夜夜爽| 在线播放国产精品三级| 夫妻性生交免费视频一级片| 免费不卡的大黄色大毛片视频在线观看 | 亚洲在线观看片| 久久久久久伊人网av| 九九爱精品视频在线观看| 3wmmmm亚洲av在线观看| 免费黄网站久久成人精品| 欧美bdsm另类| 欧洲精品卡2卡3卡4卡5卡区| www.色视频.com| 色尼玛亚洲综合影院| 国产精品无大码| 麻豆av噜噜一区二区三区| 蜜臀久久99精品久久宅男| 99热6这里只有精品| 成人毛片a级毛片在线播放| 亚洲四区av| 午夜福利在线观看免费完整高清在 | 欧美日韩国产亚洲二区| 一个人免费在线观看电影| 亚洲在线自拍视频| 欧美精品国产亚洲| 99久久精品一区二区三区| 国产精品一及| 国产精品一二三区在线看| 欧美最黄视频在线播放免费| 日日啪夜夜撸| 国产精品久久久久久av不卡| av专区在线播放| 国产高清激情床上av| 成人鲁丝片一二三区免费| 人人妻人人澡人人爽人人夜夜 | 国产精品电影一区二区三区| 久久精品夜夜夜夜夜久久蜜豆| 久久久久久大精品| 欧美高清性xxxxhd video| 麻豆久久精品国产亚洲av| 少妇裸体淫交视频免费看高清| 亚洲国产精品成人久久小说 | 日本免费a在线| 男女那种视频在线观看| 久久久久久九九精品二区国产| a级毛片a级免费在线| 久久久色成人| 悠悠久久av| 在线免费十八禁| 在线观看av片永久免费下载| 非洲黑人性xxxx精品又粗又长| 亚洲精品久久久久久婷婷小说 | 国产乱人偷精品视频| 国产蜜桃级精品一区二区三区| 精品久久久久久久久久久久久| 亚洲av.av天堂| 国产大屁股一区二区在线视频| 国产精品国产三级国产av玫瑰| 国产成人a区在线观看| 国产亚洲91精品色在线| 国产成人午夜福利电影在线观看| 观看美女的网站| 一个人看视频在线观看www免费| 国产高清有码在线观看视频| 久久久久久久久久久免费av| 男插女下体视频免费在线播放| 夜夜看夜夜爽夜夜摸| 亚洲最大成人手机在线| 91午夜精品亚洲一区二区三区| 中文字幕精品亚洲无线码一区| 蜜臀久久99精品久久宅男| 一级黄片播放器| 中文欧美无线码| 特大巨黑吊av在线直播| 99国产极品粉嫩在线观看| 麻豆av噜噜一区二区三区| 哪个播放器可以免费观看大片| 成人亚洲精品av一区二区| 久久精品夜夜夜夜夜久久蜜豆| 国产乱人偷精品视频| 亚洲av免费在线观看| 国产色婷婷99| 亚洲精品国产成人久久av| 国产成人一区二区在线| 国产精品女同一区二区软件| 大又大粗又爽又黄少妇毛片口| www.色视频.com| 久久久国产成人精品二区| 成人毛片60女人毛片免费| 天美传媒精品一区二区| 观看免费一级毛片| 又粗又爽又猛毛片免费看| 日本爱情动作片www.在线观看| 国产精品永久免费网站| 国产一区二区三区av在线 | 久久精品91蜜桃| 岛国在线免费视频观看| 亚洲国产日韩欧美精品在线观看| 国产男人的电影天堂91| 日韩欧美精品免费久久| 男的添女的下面高潮视频| 少妇熟女欧美另类| 国产不卡一卡二| 国产乱人偷精品视频| 亚洲国产欧美在线一区| 中文字幕久久专区| 最近视频中文字幕2019在线8| 一个人看视频在线观看www免费| 夜夜爽天天搞| 三级国产精品欧美在线观看| 麻豆精品久久久久久蜜桃| 国产真实伦视频高清在线观看| 国产精品久久电影中文字幕| 国产高清视频在线观看网站| kizo精华| 欧美zozozo另类| www.av在线官网国产| 亚洲精品久久国产高清桃花| ponron亚洲| 成人鲁丝片一二三区免费| 国内揄拍国产精品人妻在线| 精品久久久久久久久久免费视频| 在线播放无遮挡| 中文字幕av成人在线电影| 男人的好看免费观看在线视频| 在线a可以看的网站| 嫩草影院新地址| 国产伦理片在线播放av一区 | 狂野欧美白嫩少妇大欣赏| 国产成人精品久久久久久| 国产精品久久视频播放| 久久鲁丝午夜福利片| 少妇裸体淫交视频免费看高清| 日韩成人伦理影院| 激情 狠狠 欧美| 亚洲国产精品合色在线| 国内精品宾馆在线| 91午夜精品亚洲一区二区三区| 亚洲精品456在线播放app| 国产精品久久久久久精品电影| 啦啦啦韩国在线观看视频| 美女xxoo啪啪120秒动态图| 一个人看的www免费观看视频| 精品欧美国产一区二区三| 人人妻人人澡欧美一区二区| 精品久久久久久久久久久久久| 精品久久久久久久久av| 少妇熟女aⅴ在线视频| 男人的好看免费观看在线视频| 亚洲精品亚洲一区二区| 亚洲av不卡在线观看| 亚洲av免费在线观看| 国产亚洲精品av在线| 天天躁日日操中文字幕| 我的老师免费观看完整版| 国产视频内射| 日日撸夜夜添| 欧美高清成人免费视频www| 久久6这里有精品| 亚洲电影在线观看av| 人妻系列 视频| 九九久久精品国产亚洲av麻豆| 国产精品电影一区二区三区| 两个人视频免费观看高清| 插逼视频在线观看| 国产日本99.免费观看| 久久婷婷人人爽人人干人人爱| 啦啦啦观看免费观看视频高清| 免费观看人在逋| 在线观看免费视频日本深夜| 久久人人爽人人片av| 久久精品国产亚洲av香蕉五月| 国产欧美日韩精品一区二区| 两个人视频免费观看高清| 不卡一级毛片| 91精品国产九色| 国产一区亚洲一区在线观看| 搞女人的毛片| 久久久色成人| www日本黄色视频网| 天堂网av新在线| 日韩成人av中文字幕在线观看| 亚洲中文字幕日韩| 麻豆av噜噜一区二区三区| av免费在线看不卡| 久久久久免费精品人妻一区二区| 国模一区二区三区四区视频| 国产三级中文精品| 高清在线视频一区二区三区 | 欧美成人a在线观看| 国产爱豆传媒在线观看| 校园春色视频在线观看| 国产精品三级大全| 99久久九九国产精品国产免费| 国产精品久久久久久精品电影小说 | 色综合亚洲欧美另类图片| 成人综合一区亚洲| 狠狠狠狠99中文字幕| 国产女主播在线喷水免费视频网站 | 九九热线精品视视频播放| 国产精品一区二区三区四区免费观看| 国产人妻一区二区三区在| 免费观看a级毛片全部| 日韩视频在线欧美| 欧美在线一区亚洲| 国内少妇人妻偷人精品xxx网站| 晚上一个人看的免费电影| 波多野结衣高清作品| 日韩国内少妇激情av| 亚洲欧美日韩高清专用| 国产黄片美女视频| 一区二区三区免费毛片| 在线天堂最新版资源| 久久午夜亚洲精品久久| 日本黄色视频三级网站网址| 日韩亚洲欧美综合| 夜夜看夜夜爽夜夜摸| 1024手机看黄色片| 日韩一本色道免费dvd| 最近的中文字幕免费完整| 悠悠久久av| 亚洲人与动物交配视频| 久久99蜜桃精品久久| 欧美成人精品欧美一级黄| 五月伊人婷婷丁香| 免费黄网站久久成人精品| 国产精品久久久久久精品电影| 国产在视频线在精品| 国产精品一区二区三区四区久久| 精品国内亚洲2022精品成人| 我要看日韩黄色一级片| 亚洲最大成人中文| 在线观看午夜福利视频| 日本黄大片高清| 三级毛片av免费| 亚洲国产精品sss在线观看| 青春草国产在线视频 | 亚洲精品456在线播放app| 波多野结衣高清作品| 黄色一级大片看看| 精品人妻熟女av久视频| 久久99热这里只有精品18| 国产精品人妻久久久久久| 亚洲婷婷狠狠爱综合网| 日本一二三区视频观看| 中文欧美无线码| 99热精品在线国产| 69av精品久久久久久| ponron亚洲| 99久久人妻综合| 久久久精品欧美日韩精品| 天堂中文最新版在线下载 | 欧美日本亚洲视频在线播放| 久久人妻av系列| 青青草视频在线视频观看| 国产女主播在线喷水免费视频网站 | 搡老妇女老女人老熟妇| 国产女主播在线喷水免费视频网站 | 一区二区三区四区激情视频 | 中文字幕制服av| 色哟哟·www| 看十八女毛片水多多多| 99热这里只有是精品在线观看| 菩萨蛮人人尽说江南好唐韦庄 | 国产高清不卡午夜福利| 国产精品一二三区在线看| 亚洲欧美成人综合另类久久久 | 十八禁国产超污无遮挡网站| 我的女老师完整版在线观看| 亚洲av成人精品一区久久| 欧美一区二区国产精品久久精品| 亚洲在久久综合| 狠狠狠狠99中文字幕| 三级男女做爰猛烈吃奶摸视频| av卡一久久| 夜夜看夜夜爽夜夜摸| 久久精品夜色国产| 91av网一区二区| 久久人妻av系列| 色哟哟·www| 久久久久国产网址|