• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于BERT的開放領(lǐng)域中文新詞發(fā)現(xiàn)研究

    2023-07-07 03:10:18劉凡平沈振雷吳業(yè)儉
    計算機應(yīng)用與軟件 2023年6期
    關(guān)鍵詞:文本模型

    劉凡平 陳 慧 沈振雷 吳業(yè)儉

    (上海二三四五網(wǎng)絡(luò)科技有限公司 上海 201203)

    0 引 言

    新詞是指隨著時代和網(wǎng)絡(luò)新媒體的發(fā)展,在某一時間段內(nèi)或者某一時間點以來[1]首次通過各種途徑產(chǎn)生的、具有新形勢、新意義和新用法[2-3]的詞語,他們從未被任何詞典收錄,屬于未登錄詞,比如“隨申碼”“奧利給”和“佛系”等。根據(jù)中國語言文字工作委員會統(tǒng)計,自改革開放以來,中國平均每年產(chǎn)生800多個新詞語[4-5]。新詞的出現(xiàn)給輸入法的詞庫收錄和中文分詞等工作帶來了巨大的挑戰(zhàn)。輸入法詞庫的覆蓋率是輸入法強弱的關(guān)鍵指標之一[6],因此對最新出現(xiàn)的新詞,更快、更精準地收錄對輸入法來說至關(guān)重要。此外,對于中文分詞來說,新詞的出現(xiàn)使得自動分詞準確率嚴重下降,研究顯示,60%的分詞錯誤是由新詞導(dǎo)致的[7]。因此對于新詞的有效識別,對自然語言領(lǐng)域的研究具有重要的意義[8]。

    1 相關(guān)工作

    目前新詞發(fā)現(xiàn)的方法主要分為三類:(1) 基于規(guī)則的新詞發(fā)現(xiàn)方法。例如通過詞語出現(xiàn)的規(guī)律建立規(guī)則,判斷是否為新詞,鄭家恒等[9]在2002年使用構(gòu)詞法識別網(wǎng)絡(luò)新詞,取得了較高的準確率;姜如霞等[10]在2019年使用基于規(guī)則和N-Gram算法生成新詞候選詞,并用左右熵的方式進行擴展和過濾來識別新詞。(2) 基于統(tǒng)計的新詞發(fā)現(xiàn)方法,例如通過條件隨機場(CRF)、信息熵等統(tǒng)計分析算法挖掘潛在的新詞。陳飛等[11]使用CRF對文本輸入序列進行標注,將新詞發(fā)現(xiàn)問題轉(zhuǎn)化為預(yù)測已分詞詞語邊界是否為新詞邊界的問題,取得了較好的效果。(3) 基于規(guī)則和統(tǒng)計結(jié)合的新詞發(fā)現(xiàn)方法,通過規(guī)則和統(tǒng)計方法的相互彌補,提升新詞發(fā)現(xiàn)的效果。周霜霜等[12]提出了一種融合人工啟發(fā)式規(guī)則、C/NC-value改進算法和條件隨機場(CRF)模型的微博新詞抽取方法,有效提高了微博新詞的F1值。顯然,以上方法都存在明顯缺陷?;谝?guī)則的方式,雖然針對特定領(lǐng)域可以達到很高的準確率,但在新詞發(fā)現(xiàn)的可擴展性、靈活性上存在很大弊端,甚至需要大量的人工參與總結(jié)規(guī)則,領(lǐng)域適應(yīng)能力弱;基于統(tǒng)計的方式通過獲得的語料,分析詞頻、左右鄰接熵等統(tǒng)計特征判定新詞成詞的概率,雖然具有較強的領(lǐng)域適應(yīng)能力和可移植性,但是面臨需要大規(guī)模語料庫和數(shù)據(jù)稀疏[13]等問題。

    另外,受當(dāng)前新詞發(fā)現(xiàn)研究方法可移植性差、需要大量人工規(guī)則或語料的限制,目前新詞發(fā)現(xiàn)的研究主要集中在解決某特定問題的新詞識別任務(wù)(人名、地名、翻譯縮寫等命名體的識別)以及某幾個特定領(lǐng)域術(shù)語(如軍事、財經(jīng)等領(lǐng)域)的自動提取[11]。例如,韓春燕等[14]使用條件隨機場對微博語料進行命名體的識別,由于缺乏大量語料,采用半監(jiān)督學(xué)習(xí)框架訓(xùn)練模型提高了微博語料中命名體識別的效果;段宇鋒等[17]在2015年對植物專業(yè)領(lǐng)域的新詞自動化識別進行了探索等。然而有很多新詞,比如“逗鵝冤”“奧利給”“藍瘦香菇”等詞語,不屬于任何明確的特定領(lǐng)域且只在特定語境和情境下有效。對于這類屬于開放領(lǐng)域的詞語,目前大部分的新詞發(fā)現(xiàn)方法顯然不太適用。然而不僅僅局限于某個或某幾個領(lǐng)域的、面對開放領(lǐng)域的新詞發(fā)現(xiàn)算法和當(dāng)前有領(lǐng)域限制的新詞發(fā)現(xiàn)算法相比還比較缺乏。

    綜上所述,目前新詞識別算法仍然面臨不同領(lǐng)域可移植性能弱、需要大量人工參與和建設(shè)大規(guī)模語料庫、開放性領(lǐng)域新詞識別算法匱乏等問題。針對這些問題,本文在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上進行微調(diào),將詞語和上下文輸入模型進行訓(xùn)練,使得模型具有識別該詞語在上下文中是否成詞的能力。BERT預(yù)訓(xùn)練模型的訓(xùn)練語料由維基百科等大規(guī)模語料構(gòu)成,因此對于開放性領(lǐng)域的文本,預(yù)訓(xùn)練模型也擁有很好的表示能力,這使得該模型對于不同領(lǐng)域的新詞具有很好的識別能力,解決了傳統(tǒng)新詞識別方法需要大規(guī)模語料和不同領(lǐng)域移植能力弱的缺點;同時,訓(xùn)練獲得的分類器自動判定字符串是否成詞,解決了規(guī)則法需要人工制定大量規(guī)則的缺陷。

    2 本文研究方法

    2.1 BERT預(yù)訓(xùn)練語言模型

    BERT模型是Google公司AI團隊[16]在2018年發(fā)布的一款新型語言模型。該模型性能卓越,在包括閱讀理解任務(wù)在內(nèi)的11種不同的NLP任務(wù)中創(chuàng)造出最佳成績,其中在機器閱讀理解頂級水平測試中的表現(xiàn)全面超越人類,為NLP帶來了里程碑式的改變。如圖1所示,相比于其他語言模型如ELMO、GPT等使用淺層雙向或單向的網(wǎng)絡(luò)結(jié)構(gòu),BERT模型采用表義能力更強的深度雙向Transformer網(wǎng)絡(luò)結(jié)構(gòu)來預(yù)訓(xùn)練語言模型。深度雙向的編碼器更有利于融合字左右兩側(cè)的上下文,對于句意的理解更強。

    圖1 BERT預(yù)訓(xùn)練模型結(jié)構(gòu)圖

    BERT模型的主要創(chuàng)新點在于語言模型的預(yù)訓(xùn)練方式上,它使用了Masked LM和Next Sentence Prediction兩個任務(wù)來訓(xùn)練模型,以分別捕捉詞語和句子級別的表征。在Masked LM任務(wù)中,訓(xùn)練方式為按照一定百分比隨機屏蔽句子中的token,然后預(yù)測被屏蔽的token來使得模型具有很好的詞語級別的表征和理解能力;而在Next Sentence Prediction任務(wù)中,將兩個句子A和B分別輸入模型,通過有監(jiān)督的方式來訓(xùn)練模型,讓模型判斷B句是否是A句的下一個句子,即A句和B句的關(guān)系,這讓模型具有了理解句子之間關(guān)系的能力。在本文新詞識別的任務(wù)中,模仿BERT預(yù)訓(xùn)練模型Next Sentence Prediction任務(wù)的訓(xùn)練方式,將詞語和詞語所在的上下文分別輸入模型,讓模型學(xué)習(xí)到該詞語與其上下文之間的關(guān)系。通過有監(jiān)督的學(xué)習(xí)讓模型充分理解到該字串在下一句中是否成詞,從而來幫助實現(xiàn)新詞發(fā)現(xiàn)任務(wù)。

    2.2 模型的輸入和句向量的表示

    本文在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上進行了fine-tune,將正例及上下文和負例及上下文輸入模型進行訓(xùn)練,使得模型具有識別該詞語在上下文中是否成詞的能力。實驗中,樣本分為兩部分:正例和負例。正例是一個正常詞語及其上下文組成的文本的特征向量,例如“秘書室[SEP]音樂會由東吳秘書室主辦”;負例為一個非正常詞語及其上下文的特征向量,例如“以發(fā)揮[SEP]以發(fā)揮樂曲的細微變化”。然后對正例標記為[0,1],負例標記為[1,0]。

    對于中文語料,BERT模型使用單個字符作為輸入的原子字符。本文加載谷歌2018年公開的BERT預(yù)訓(xùn)練模型作為字向量表,該模型采用了12層的雙向Transformer,隱藏層神經(jīng)元節(jié)點數(shù)為768即隱向量大小為768維,每層的muliti-head為12。通過查詢該字向量表將輸入文本中的每個字轉(zhuǎn)化為768維向量作為模型的輸入,完成將高維語義空間的自然語言轉(zhuǎn)化成低維空間的embedding。同時,將BERT預(yù)訓(xùn)練模型的參數(shù)作為模型的初始化參數(shù),經(jīng)過模型學(xué)習(xí)得到輸入文本融合上下文語義信息后的表征。此外,模型輸入除了字向量(token embeddings)外還包括位置向量(position embeddings)和區(qū)分上下句的分段向量(segment embeddings)。在BERT預(yù)測下一句的任務(wù)中,句子對中的兩個句子擁有不同的segment embedding,將它們進行簡單的相加后一起后送入到模型中。如圖2所示,本文模仿這種做法將詞語及其上下文分配不同的segment embedding,拼接后送入模型進行訓(xùn)練。

    圖2 句表征結(jié)構(gòu)圖

    2.3 模型的訓(xùn)練

    本文將新詞識別任務(wù)轉(zhuǎn)化成NLP的常見任務(wù):分類任務(wù)。首先,對數(shù)據(jù)進行預(yù)處理,構(gòu)造正負樣本輸入模型進行訓(xùn)練,獲得可以識別該字串在其上下文中是否是詞語的二分類器;然后,將測試文本輸入模型進行預(yù)測,并將模型預(yù)測為正的詞語保存為詞語的初始版本;最后,對模型預(yù)測為正的詞語進行標準詞庫和篇頻過濾,得到新詞。其中鑒定詞語的過程采用有監(jiān)督的學(xué)習(xí)方式,模仿BERT預(yù)訓(xùn)練模型Next Sentence Prediction的訓(xùn)練方式,將預(yù)測字串在上下文中是否成詞轉(zhuǎn)化為二分類問題來解決。本實驗加載Google在2018年公開的中文預(yù)訓(xùn)練模型(BERT-base,Chinese)進行微調(diào)訓(xùn)練分類器,采用交叉熵式(1)作為損失函數(shù)。通過反向傳播算法調(diào)節(jié)模型參數(shù),最終使得模型具備詞語判別的能力。

    (1)

    式中:y為真實值;y′為模型的估計值;N為樣本數(shù)。

    如圖3所示,本文將字串和對應(yīng)的上下文編碼輸入BERT模型。

    圖3 模型的訓(xùn)練

    圖3中,w1,w2,…,wn表示需要被判別是否成詞的token字串,s1,s2,…,sn表示該字串所在的上下文句子,[SEP]表示分割字串和上下文句子的分隔符。經(jīng)過BERT的編碼之后,采用第一個token(即[CLS])的最后一個隱藏狀態(tài)的輸出作為整個句子的表示。拿到句子的輸出后做一個簡單的線性變換,最后通過一個Softmax層,經(jīng)過式(2)的變換,將線性層的隱向量轉(zhuǎn)化成0到1之間的表示,即該字串在上下文中是否是一個真實的詞語的概率,j為1到k的自然數(shù)。

    (2)

    3 實驗與結(jié)果分析

    本文的實驗由主實驗和對比實驗構(gòu)成。主實驗方法為本文提出的基于BERT的新詞識別方法,對比實驗為基于互信息和左右熵的新詞發(fā)現(xiàn)算法和基于條件隨機場的新詞發(fā)現(xiàn)方法?;诨バ畔⒑妥笥异氐男略~發(fā)現(xiàn)算法主要將分過詞的文字使用N-Gram算法將文字分割為一個個字符片段,即候選詞。然后,根據(jù)成詞規(guī)律計算候選詞的凝固程度(互信息)和自由程度(左右熵)來判斷該候選詞是否是一個詞語?;跅l件隨機場的方法則利用條件隨機場(Condition Random Field,CRF)可對輸入進行標注的特點,首先對輸入的句子進行分詞,將新詞發(fā)現(xiàn)轉(zhuǎn)化為序列標注問題,再將分好詞的句子進行新詞的抽取。

    由于缺乏公開權(quán)威的分詞和新詞發(fā)現(xiàn)數(shù)據(jù)集,本文采用《人民日報》提供的人工標注的分詞和詞性標注語料,總計52 454條。將語料按照9∶1劃分為訓(xùn)練集和驗證集用于模型的訓(xùn)練和驗證。為了驗證三個模型在不同領(lǐng)域的文本上的泛化性能,即模型的可遷移能力,本文的測試集持續(xù)搜集每日由包括百度、新浪微博、知乎、搜狐新聞和Bilibili在內(nèi)的多個網(wǎng)站熱搜榜文章,并對當(dāng)日搜集到的語料進行一次新詞識別和搜集。該行為是持續(xù)行為,并非一次性行為。這些文章來源于娛樂、財經(jīng)、社會和文化等不同領(lǐng)域,擁有不同的文本風(fēng)格。另外,測試集采用最新熱搜榜的語料,擁有較高的時效性,對于模型是否真的可以發(fā)現(xiàn)優(yōu)質(zhì)的新詞可以更好判別。

    3.1 評價方法

    本文采用的算法指標有精準率P(precision)、召回率R(recall)和F1值(F1-measure)。由于沒有權(quán)威公開的數(shù)據(jù)集,且中文分詞方法也并不唯一,例如,“云南省科協(xié)”可以看作是一個詞,也可以分為“云南省”和“科協(xié)”兩個詞。不同的算法給出的分詞方案雖然可能不統(tǒng)一,但是可能都是正確的。因此將三個算法識別出的正確結(jié)果的合集看作是要召回的結(jié)果,如圖4所示。

    圖4 模型評價方法圖

    圖4中A、B和C分別表示三個算法識別為新詞的集合,其中A′、B′和C′則表示各自對應(yīng)的正確結(jié)果,f(X)表示集合X的元素個數(shù)。那么以A算法為例,其精準率、召回率和F1值的計算公式為:

    (3)

    (4)

    (5)

    3.2 主實驗

    3.2.1 主實驗訓(xùn)練數(shù)據(jù)集的構(gòu)造

    本文的數(shù)據(jù)使用《人民日報》提供的中文分詞語料庫進行構(gòu)造。正樣本由分詞數(shù)據(jù)庫內(nèi)長度大于等于兩個中文字符的詞語及其上下文組成,格式如:“秘書室[SEP]音樂會由東吳秘書室主辦”,負樣本的詞語由不定個數(shù)的不成詞的字串組成,負樣本則由負樣本詞語及其上下文組成,格式如:“以發(fā)揮[SEP]以發(fā)揮樂曲的細微變化”。其中“[SEP]”為BERT字典中的分隔符,將詞語和上下文分割開來。詞語的最大長度為8個字符。構(gòu)造的訓(xùn)練集和驗證集的樣本數(shù)如表1所示。其中訓(xùn)練集的正負樣本比約為1∶20,驗證集的正負樣本比約為1∶38。

    表1 正負樣本數(shù)目表

    3.2.2 主實驗流程

    圖5為本文的實驗流程。首先對數(shù)據(jù)進行預(yù)處理并構(gòu)造正負樣本,將詞語和上下文同時輸入模型進行訓(xùn)練,得到在驗證集上精度很高的詞語分類器并保存。

    圖5 實驗流程圖

    然后如表2所示,使用滑動窗口的模式對爬取的熱搜榜語料進行子串分割等預(yù)處理,生成若干長度小于等于5的候選詞,構(gòu)造測試集。

    表2 測試樣例表

    表3 詞語成詞概率表

    (6)

    3.2.3 主實驗結(jié)果及分析

    表4為分類模型在驗證集上的精準率、召回率、F1值和準確率情況。由表可知,模型對于負樣本的識別能力很強,各項指標都基本接近1。模型對于正樣本的識別能力也非常好,精準率達到了0.93,召回率達到了0.88,效果符合預(yù)期。最后將測試集數(shù)據(jù)輸入模型進行預(yù)測,經(jīng)過標準舊詞庫過濾之后,模型發(fā)現(xiàn)新詞1 184個。經(jīng)校驗,其中1 142個詞語識別正確,模型精準率為0.962。

    表4 驗證集上各實驗指標表

    3.2.4 模型在開放領(lǐng)域真實最新語料中的表現(xiàn)

    為了驗證該模型在最新真實數(shù)據(jù)上的泛化能力,本文收集了各門戶網(wǎng)站近7日的新聞和熱搜榜數(shù)據(jù)文本數(shù)據(jù),其中文本類型包括娛樂、財經(jīng)和社會等領(lǐng)域。將該文本數(shù)據(jù)集模型輸入模型。表5為每日文本數(shù)目、發(fā)現(xiàn)新詞數(shù)目和人工校驗準確率表。由表5可知,模型在近一周的新詞發(fā)現(xiàn)均值為79個(包含未登錄詞),人工校驗準確率為0.95,因此模型在不同領(lǐng)域上具有較強的泛化能力,克服了基于規(guī)則的新詞發(fā)現(xiàn)算法的領(lǐng)域針對性強、難移植的缺憾。

    表5 模型的泛化表現(xiàn)

    其中輸出的新詞樣例如表6所示,對于不同領(lǐng)域的文本,模型對新詞的識別比較準確,確實發(fā)現(xiàn)了一系列最近比較火,且目前詞庫尚未收錄的詞語,如“三不三報”“封控”等具有明顯疫情背景的詞語以及最近在媒體中經(jīng)常提及的人名如“喬治弗洛伊德”等,由此可見,該模型在實際生產(chǎn)生活中具有很強的現(xiàn)實意義。

    表6 新詞發(fā)現(xiàn)結(jié)果樣例表

    3.3 對比實驗

    本文中的對比實驗主要采用基于互信息和左右熵的新詞發(fā)現(xiàn)方法和基于條件隨機場的新詞發(fā)現(xiàn)方法。在相同的數(shù)據(jù)集上,使用這兩個方法來實現(xiàn)新詞發(fā)現(xiàn)任務(wù)。最后通過計算各算法的精準率、召回率和F1值來比較各算法性能。

    3.3.1 基于互信息和左右熵的新詞發(fā)現(xiàn)

    基于互信息和左右熵的新詞發(fā)現(xiàn)方法主要是通過計算候選詞的內(nèi)部凝固度和邊界自由度來確定該字串是否為一個詞語[17-18]。內(nèi)部凝固度用來衡量該詞語搭配是否合理,詞內(nèi)部凝固度越大,表明漢字結(jié)合越緊密,它們構(gòu)成詞語的可能性越大。比如在一句話“蜘蛛坐在網(wǎng)上等獵物”中,“蜘蛛”“獵物”等的凝固度就很大,“蛛坐”“在網(wǎng)”等詞的凝固度就很小,因此“蜘蛛”比“蛛坐”更有可能是一個詞語?;バ畔⑼ǔS脕肀硎緝蓚€信號之間的依賴程度,在這里用互信息來表示詞語內(nèi)部的凝固程度?;バ畔⒌亩x為式(7)所示,其中p(x)表示x在語料里單獨出現(xiàn)的概率,p(y)表示y在語料里單獨出現(xiàn)的概率,p(x,y)表示x、y在語料里一起出現(xiàn)的概率。

    (7)

    邊界自由度則用來衡量一個候選詞左右相鄰字的豐富程度,邊界自由度越大,該候選詞越有可能是一個詞語。比如對于“杯子”和“輩子”這兩個字串。“杯子”左右可以加的相鄰字就比“輩子”要豐富得多,即“杯子”擁有更大的邊界自由度。因此,“杯子”就比“輩子”更有可能是一個詞語。使用候選詞的左右信息熵來衡量邊界自由度的大小。左信息熵指候選詞與它左相鄰集合的信息熵之和,左信息熵越大表明候選詞的左鄰接詞越豐富,那么該候選詞是一個詞語左邊界的可能性就越大,右信息熵同理。左右信息熵的公式如式(8)、式(9)所示。其中,式(8)中sl是候選詞w的左鄰接字的集合,p(wl|w)是候選詞w出現(xiàn)的情況下其左鄰接字是wl的條件概率。式(9)同理。

    (8)

    (9)

    如圖6所示,本實驗中基于互信息的新詞發(fā)現(xiàn)方法采用文獻[18]中的方法,算法流程主要包括語料的預(yù)處理散串的分析、根據(jù)互信息對候選詞進行過濾、根據(jù)候選詞的左右熵確定詞語邊界等步驟。首先將語料進行分詞后,將散串進行Bi-Gram的組合,計算字串組合的互信息,若互信息大于閾值則將該字串視為候選詞,然后計算候選詞的左右信息熵,根據(jù)計算結(jié)果進行過濾或擴展,最后得到新詞。本文將測試數(shù)據(jù)按圖6的步驟進行新詞抽取,其中字符長度閾值為5,互信息閾值為5,交叉熵閾值為0.07,經(jīng)過標準舊詞庫過濾后,共輸出詞語909個,正確的有629個,精準率為0.692,低于本文主實驗的精確率。

    圖6 基于互信息和左右熵的算法

    3.3.2 基于條件隨機場的新詞發(fā)現(xiàn)

    基于條件隨機場的新詞發(fā)現(xiàn)算法是利用CRF對輸入文本進行序列標注,從而達到分詞的效果,Xue[19]最早在2003年時將序列標注方法應(yīng)用于中文分詞,并且對于未登錄詞取得了較好的召回率。本文借鑒文獻[20]用于命名體識別的網(wǎng)絡(luò)結(jié)構(gòu)用于分詞任務(wù)。將《人民日報》(2014)的人工標注語料進行分詞標記后輸入網(wǎng)絡(luò)進行訓(xùn)練得到分詞器。目前主流的分詞標記方法有三種,如表7所示。本文采用4-Tag的標記方式。其中“S”表示單獨的一個字,“B”表示詞語的開頭,“M”表示詞語的中間,“E”表示詞語的結(jié)尾,例如對于分好詞的句子“昆明|的|氣候|四季如春|”,那么對應(yīng)的4-Tag標記為“BESBEBMME”。

    表7 3種常用標記方法

    模型結(jié)構(gòu)如圖7所示,首先將文本使用word2vec預(yù)訓(xùn)練模型對字進行嵌入,每個字的特征為300維;得到字嵌入之后,將字嵌入輸入到雙向LSTM中;輸出層接CRF使模型能夠同時考慮過去和未來的特征,并學(xué)習(xí)到狀態(tài)轉(zhuǎn)移矩陣使輸出標簽(tag)時的選擇前后相互關(guān)聯(lián)[21]。將測試文本輸入模型,得到被分詞的句子后的詞語序列,提取長度大于1的詞語,經(jīng)過標準舊詞庫的過濾后,共輸出詞語1 742個,經(jīng)過校驗,正確的個數(shù)為1 300個,精準率為0.746,遠低于本文的BERT模型的精準率。

    3.4 對比實驗結(jié)果及分析

    整合三個算法在開放領(lǐng)域測試集上的結(jié)果,統(tǒng)計結(jié)果如表8所示。由表8可知,三個算法共找出的正確詞語的個數(shù)為3 071個。由于基于CRF的新詞識別方法是基于分詞模式的,因此貢獻了最多的詞語數(shù)量,而基于互信息和左右熵的方法過濾依賴于詞頻的統(tǒng)計,因此貢獻了最少的新詞量。三個算法共同發(fā)現(xiàn)的詞語共123個,人工校驗準確率為100%,其中命名體為84個。

    表8 實驗結(jié)果統(tǒng)計

    將三個算法的并集看作需要召回的結(jié)果,計算召回率和F1值,結(jié)果如圖8所示。BERT算法的精準率遠高于其他兩個算法,同時擁有最高的F1值。這表明,對于開放領(lǐng)域的語料,本文提出的算法擁有更好的新詞識別能力。

    圖8 各算法指標比較

    命名體識別(Named Entity Recognition,NER)是指識別文本中具有特定意義的實體,主要包括人名、地名、機構(gòu)名、專有名詞等,在本文中還包括電視劇名、電影名、熱點事件名和游戲裝備名等[22]。命名體的識別不僅是分詞和新詞識別的一個重要環(huán)節(jié),同時也在句法分析、機器翻譯、信息檢索和自動問答等領(lǐng)域有直接的應(yīng)用[23]。為了驗證三個算法對于命名體的識別能力,本文還對新詞集中各算法對命名體的召回情況做了統(tǒng)計,結(jié)果如圖9所示。由圖9可知,在CRF擁有最大新詞貢獻量的情況下,BERT對命名體的識別依然保持最高的召回率。

    圖9 命名實體識別的召回率比較

    4 結(jié) 語

    針對目前新詞識別領(lǐng)域算法存在的移植性能弱、需要大量人工參與規(guī)則定制、需要大量語料以及數(shù)據(jù)稀疏等問題,本文提出了基于預(yù)訓(xùn)練語言模型(BERT)的開放性領(lǐng)域新詞識別方法。該方法利用BERT模型對于句內(nèi)上下文和句間聯(lián)系的超強理解能力,將詞語和上下文輸入模型,將新詞識別任務(wù)轉(zhuǎn)化為分類任務(wù)來完成新詞的識別。經(jīng)實驗證明,與基于互信息和左右熵的新詞發(fā)現(xiàn)方法和基于CFR的新詞發(fā)現(xiàn)方法相比,本文提出的基于BERT的新詞識別方法在開放性領(lǐng)域的數(shù)據(jù)集上擁有更高的精準率和F1值。與此同時,BERT對于命名體的識別也擁有最高的召回率,實驗驗證了本文算法的有效性。但是,由于用戶在書寫文檔時存在輸入法誤操作、錯別字等各種情況的發(fā)生,這類風(fēng)險詞并不屬于新詞,但目前算法只是通過篇頻過濾的手段對其進行初步過濾,并沒有做更精細的工作,日后對于這類風(fēng)險詞的標注應(yīng)該成為工作的重點。

    猜你喜歡
    文本模型
    一半模型
    重要模型『一線三等角』
    初中群文閱讀的文本選擇及組織
    甘肅教育(2020年8期)2020-06-11 06:10:02
    重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
    在808DA上文本顯示的改善
    基于doc2vec和TF-IDF的相似文本識別
    電子制作(2018年18期)2018-11-14 01:48:06
    3D打印中的模型分割與打包
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
    人間(2015年20期)2016-01-04 12:47:10
    FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
    久久人人精品亚洲av| 给我免费播放毛片高清在线观看| 日本在线视频免费播放| 国产伦一二天堂av在线观看| 人人妻,人人澡人人爽秒播| 99久久中文字幕三级久久日本| 亚洲熟妇中文字幕五十中出| 国内毛片毛片毛片毛片毛片| 日韩av在线大香蕉| 日韩 亚洲 欧美在线| 亚洲在线观看片| 免费av不卡在线播放| 深夜a级毛片| 狂野欧美激情性xxxx在线观看| 久久午夜亚洲精品久久| 亚洲人成网站高清观看| 亚洲专区国产一区二区| 国产一区二区在线观看日韩| 日韩av在线大香蕉| 中文字幕人妻熟人妻熟丝袜美| 黄色一级大片看看| 国产 一区精品| 中文字幕熟女人妻在线| 97超级碰碰碰精品色视频在线观看| 国产av麻豆久久久久久久| 欧美日韩黄片免| 亚洲一级一片aⅴ在线观看| 欧美黑人巨大hd| 婷婷丁香在线五月| 亚洲va日本ⅴa欧美va伊人久久| 免费看a级黄色片| 91久久精品国产一区二区三区| 午夜精品久久久久久毛片777| 日本一本二区三区精品| 国产女主播在线喷水免费视频网站 | 又粗又爽又猛毛片免费看| 国产av不卡久久| 久久九九热精品免费| 中文字幕人妻熟人妻熟丝袜美| 黄色日韩在线| 草草在线视频免费看| 欧美zozozo另类| 久久草成人影院| 国产成人一区二区在线| www日本黄色视频网| 在线免费观看的www视频| 欧美成人一区二区免费高清观看| 色尼玛亚洲综合影院| 看十八女毛片水多多多| 婷婷六月久久综合丁香| 色精品久久人妻99蜜桃| 久久久精品大字幕| 老熟妇仑乱视频hdxx| 床上黄色一级片| 午夜精品在线福利| 少妇裸体淫交视频免费看高清| 午夜精品久久久久久毛片777| 日韩大尺度精品在线看网址| 国产三级中文精品| 天美传媒精品一区二区| 欧美高清性xxxxhd video| 伦理电影大哥的女人| 一a级毛片在线观看| 丝袜美腿在线中文| 久久精品国产鲁丝片午夜精品 | 亚洲国产色片| 日韩一区二区视频免费看| 在线天堂最新版资源| 欧美日韩精品成人综合77777| 日韩欧美免费精品| 男人狂女人下面高潮的视频| 特级一级黄色大片| 精品国产三级普通话版| 午夜免费激情av| 人人妻人人澡欧美一区二区| 免费大片18禁| 老司机午夜福利在线观看视频| 熟妇人妻久久中文字幕3abv| 国产真实伦视频高清在线观看 | 国产精品98久久久久久宅男小说| 美女高潮喷水抽搐中文字幕| 热99re8久久精品国产| 波多野结衣巨乳人妻| 此物有八面人人有两片| 国产伦人伦偷精品视频| 亚洲一区高清亚洲精品| 真实男女啪啪啪动态图| 免费看av在线观看网站| 听说在线观看完整版免费高清| 69av精品久久久久久| 简卡轻食公司| 又爽又黄无遮挡网站| 免费观看精品视频网站| 欧美区成人在线视频| 草草在线视频免费看| 狠狠狠狠99中文字幕| 国产真实乱freesex| 成人亚洲精品av一区二区| 国产 一区 欧美 日韩| 国产日本99.免费观看| 亚洲精品456在线播放app | 日韩欧美国产一区二区入口| 美女免费视频网站| 天堂√8在线中文| 国产精品女同一区二区软件 | 国产精品亚洲一级av第二区| 成人三级黄色视频| 女生性感内裤真人,穿戴方法视频| 精品人妻熟女av久视频| 黄色一级大片看看| 我的女老师完整版在线观看| 亚洲性久久影院| 国产精品98久久久久久宅男小说| 国产蜜桃级精品一区二区三区| 高清毛片免费观看视频网站| 小蜜桃在线观看免费完整版高清| 午夜福利高清视频| av在线观看视频网站免费| 亚洲成a人片在线一区二区| 国产麻豆成人av免费视频| 男人狂女人下面高潮的视频| 国产精品久久电影中文字幕| 国产欧美日韩精品一区二区| 成人永久免费在线观看视频| 久久精品91蜜桃| 亚洲成人中文字幕在线播放| 露出奶头的视频| 成人av在线播放网站| xxxwww97欧美| 久久久久精品国产欧美久久久| 联通29元200g的流量卡| 亚洲无线观看免费| 国产精品久久久久久久电影| 此物有八面人人有两片| 国产精品国产三级国产av玫瑰| 久久久久久久精品吃奶| 久久精品国产亚洲网站| 少妇的逼水好多| 午夜福利高清视频| 久久久成人免费电影| 超碰av人人做人人爽久久| 最近在线观看免费完整版| 免费黄网站久久成人精品| 国产精品野战在线观看| 亚洲第一区二区三区不卡| 国产蜜桃级精品一区二区三区| 一夜夜www| 三级毛片av免费| 又爽又黄a免费视频| 尾随美女入室| 国产一区二区三区视频了| eeuss影院久久| 国产高清有码在线观看视频| 亚洲欧美激情综合另类| 国产在线精品亚洲第一网站| 亚洲国产精品sss在线观看| 欧美+亚洲+日韩+国产| 欧美黑人欧美精品刺激| 少妇裸体淫交视频免费看高清| 久久6这里有精品| 天天躁日日操中文字幕| 欧美xxxx性猛交bbbb| 极品教师在线视频| 日日摸夜夜添夜夜添av毛片 | 亚洲av.av天堂| 女人十人毛片免费观看3o分钟| 精品一区二区三区视频在线| 中文字幕人妻熟人妻熟丝袜美| 国产探花极品一区二区| 大型黄色视频在线免费观看| 国产av不卡久久| 日本 欧美在线| 欧美色欧美亚洲另类二区| 啦啦啦观看免费观看视频高清| 亚洲va日本ⅴa欧美va伊人久久| 国产高潮美女av| 色综合亚洲欧美另类图片| 99九九线精品视频在线观看视频| 男人和女人高潮做爰伦理| 亚洲美女搞黄在线观看 | 亚洲av中文字字幕乱码综合| 亚洲成人免费电影在线观看| 婷婷精品国产亚洲av在线| 国产成年人精品一区二区| 午夜亚洲福利在线播放| 非洲黑人性xxxx精品又粗又长| 亚洲欧美清纯卡通| x7x7x7水蜜桃| 精品无人区乱码1区二区| 亚洲在线观看片| 亚洲国产精品合色在线| 成人毛片a级毛片在线播放| 亚洲 国产 在线| 国产私拍福利视频在线观看| 91在线精品国自产拍蜜月| 欧美色视频一区免费| 真实男女啪啪啪动态图| 亚洲最大成人中文| 无遮挡黄片免费观看| 国国产精品蜜臀av免费| 国产成人影院久久av| 人妻丰满熟妇av一区二区三区| 日本-黄色视频高清免费观看| 亚洲成人中文字幕在线播放| 色精品久久人妻99蜜桃| 欧美最黄视频在线播放免费| 久久人人精品亚洲av| 嫩草影院入口| 亚洲欧美日韩高清在线视频| av在线观看视频网站免费| 嫩草影院入口| 日日摸夜夜添夜夜添小说| 国产午夜精品久久久久久一区二区三区 | 日韩人妻高清精品专区| 狠狠狠狠99中文字幕| 最近最新中文字幕大全电影3| 欧美+亚洲+日韩+国产| av视频在线观看入口| 国产aⅴ精品一区二区三区波| 国产高潮美女av| 国产黄色小视频在线观看| 九色成人免费人妻av| 精品久久国产蜜桃| 国产精品嫩草影院av在线观看 | 麻豆成人av在线观看| 一级a爱片免费观看的视频| 淫秽高清视频在线观看| 熟女人妻精品中文字幕| 国产精品一区二区免费欧美| 亚洲欧美日韩东京热| 国产精品无大码| 国产高清有码在线观看视频| 亚洲av成人精品一区久久| 亚洲成人久久性| 露出奶头的视频| 三级毛片av免费| 在线国产一区二区在线| 热99在线观看视频| 午夜免费激情av| 成人一区二区视频在线观看| 日韩精品青青久久久久久| 99九九线精品视频在线观看视频| 特大巨黑吊av在线直播| 国产黄片美女视频| 97超视频在线观看视频| 国产美女午夜福利| 国产在线男女| av中文乱码字幕在线| 91久久精品国产一区二区三区| 女人被狂操c到高潮| 尾随美女入室| 国产高清激情床上av| 69人妻影院| 特大巨黑吊av在线直播| 国产探花极品一区二区| 黄片wwwwww| 中亚洲国语对白在线视频| 又爽又黄a免费视频| 免费看光身美女| 美女大奶头视频| 亚洲aⅴ乱码一区二区在线播放| 99riav亚洲国产免费| 久久国产精品人妻蜜桃| 国产精品一区二区性色av| 91麻豆精品激情在线观看国产| 国产精品一区www在线观看 | 国产高清激情床上av| 18禁在线播放成人免费| 国产单亲对白刺激| h日本视频在线播放| 色综合亚洲欧美另类图片| 国模一区二区三区四区视频| 欧洲精品卡2卡3卡4卡5卡区| av福利片在线观看| 国产男人的电影天堂91| 我的女老师完整版在线观看| 亚洲精华国产精华精| 国产在视频线在精品| 欧美区成人在线视频| 日本精品一区二区三区蜜桃| 免费观看的影片在线观看| 人妻丰满熟妇av一区二区三区| ponron亚洲| 嫩草影院精品99| 国产精品久久久久久久久免| 久久久久免费精品人妻一区二区| 午夜免费成人在线视频| 少妇裸体淫交视频免费看高清| 欧美中文日本在线观看视频| 黄色配什么色好看| 国产精品av视频在线免费观看| 一边摸一边抽搐一进一小说| 欧美一级a爱片免费观看看| 男人舔奶头视频| 国产伦人伦偷精品视频| 一本精品99久久精品77| 欧美日韩精品成人综合77777| 99热6这里只有精品| 国产午夜福利久久久久久| 日本 欧美在线| 国产精品乱码一区二三区的特点| 日本免费a在线| 午夜视频国产福利| 国产精品日韩av在线免费观看| 国产综合懂色| 丰满人妻一区二区三区视频av| 男人狂女人下面高潮的视频| 亚洲成人精品中文字幕电影| 夜夜夜夜夜久久久久| 久久热精品热| 狂野欧美白嫩少妇大欣赏| 亚洲第一区二区三区不卡| videossex国产| 欧美精品啪啪一区二区三区| 两个人视频免费观看高清| 久久久久免费精品人妻一区二区| 俄罗斯特黄特色一大片| 在线观看舔阴道视频| 琪琪午夜伦伦电影理论片6080| 欧美一级a爱片免费观看看| 久久久久久伊人网av| 日韩欧美在线二视频| 久久国产乱子免费精品| 免费看日本二区| av中文乱码字幕在线| 狂野欧美白嫩少妇大欣赏| 亚洲成人久久性| 亚洲四区av| 国产熟女欧美一区二区| 99久久精品国产国产毛片| 欧美日韩综合久久久久久 | 淫妇啪啪啪对白视频| 久久中文看片网| 亚洲精品乱码久久久v下载方式| 婷婷色综合大香蕉| 欧美另类亚洲清纯唯美| 草草在线视频免费看| 一卡2卡三卡四卡精品乱码亚洲| 国产午夜精品久久久久久一区二区三区 | 嫩草影院入口| 麻豆成人av在线观看| 欧美成人a在线观看| 又黄又爽又免费观看的视频| 免费人成视频x8x8入口观看| 白带黄色成豆腐渣| 欧美xxxx黑人xx丫x性爽| 少妇高潮的动态图| 亚洲精华国产精华精| 亚洲色图av天堂| 日日干狠狠操夜夜爽| 搞女人的毛片| 嫩草影院新地址| 亚洲无线观看免费| 最近中文字幕高清免费大全6 | 男女边吃奶边做爰视频| 天堂av国产一区二区熟女人妻| 国产黄a三级三级三级人| 啦啦啦观看免费观看视频高清| 国产蜜桃级精品一区二区三区| 国产视频内射| 欧美日韩黄片免| 五月玫瑰六月丁香| .国产精品久久| 亚洲狠狠婷婷综合久久图片| 久久久国产成人免费| 国语自产精品视频在线第100页| 久久精品综合一区二区三区| 国产在线精品亚洲第一网站| 又粗又爽又猛毛片免费看| 一本久久中文字幕| 亚洲经典国产精华液单| 日韩强制内射视频| 中文字幕久久专区| 国产免费av片在线观看野外av| 两人在一起打扑克的视频| 人妻夜夜爽99麻豆av| 欧美成人a在线观看| 亚洲国产日韩欧美精品在线观看| 亚洲av.av天堂| 国产亚洲欧美98| 国产午夜福利久久久久久| 国产精品精品国产色婷婷| 日韩大尺度精品在线看网址| 国产精品三级大全| 欧美精品国产亚洲| 男人和女人高潮做爰伦理| 我的老师免费观看完整版| 日韩亚洲欧美综合| 又粗又爽又猛毛片免费看| 国内精品久久久久久久电影| 国产 一区精品| 亚洲av不卡在线观看| 久久精品夜夜夜夜夜久久蜜豆| 日韩欧美在线二视频| www.色视频.com| 久久久久精品国产欧美久久久| 99久久中文字幕三级久久日本| 国产精品一区二区免费欧美| 女生性感内裤真人,穿戴方法视频| 国产激情偷乱视频一区二区| 最近视频中文字幕2019在线8| 国产精品亚洲美女久久久| 亚洲七黄色美女视频| 老熟妇乱子伦视频在线观看| 亚洲欧美清纯卡通| 悠悠久久av| 能在线免费观看的黄片| 91久久精品电影网| www.www免费av| 日韩,欧美,国产一区二区三区 | 我的女老师完整版在线观看| 亚洲人成网站在线播| 精品人妻视频免费看| 久久国内精品自在自线图片| 国产精品1区2区在线观看.| 极品教师在线免费播放| 国产伦精品一区二区三区四那| 精品一区二区免费观看| 高清在线国产一区| 国产高清视频在线观看网站| 久久久久久久久中文| 日韩欧美免费精品| 国产黄片美女视频| 男人和女人高潮做爰伦理| 亚洲专区中文字幕在线| 亚洲精品456在线播放app | 国产精品电影一区二区三区| 舔av片在线| 亚洲性久久影院| 欧美zozozo另类| .国产精品久久| 亚洲四区av| 日韩一本色道免费dvd| 美女高潮的动态| 午夜a级毛片| 亚洲天堂国产精品一区在线| 久久精品影院6| 亚洲午夜理论影院| 久久6这里有精品| 欧美区成人在线视频| 麻豆国产av国片精品| 国产av不卡久久| x7x7x7水蜜桃| 成人三级黄色视频| 午夜久久久久精精品| 亚洲av美国av| 在线国产一区二区在线| 丝袜美腿在线中文| 国产一级毛片七仙女欲春2| 国产麻豆成人av免费视频| 亚洲欧美日韩无卡精品| 别揉我奶头 嗯啊视频| 国产精品人妻久久久影院| 小蜜桃在线观看免费完整版高清| 一个人免费在线观看电影| 成年版毛片免费区| 亚洲av免费高清在线观看| 此物有八面人人有两片| 精品99又大又爽又粗少妇毛片 | 99久久精品一区二区三区| 舔av片在线| 少妇高潮的动态图| 真人一进一出gif抽搐免费| 午夜福利在线在线| 国产精品久久电影中文字幕| 国产高清视频在线观看网站| 欧美日韩国产亚洲二区| 一区二区三区免费毛片| 一区二区三区高清视频在线| 亚洲一区高清亚洲精品| 亚洲av.av天堂| 看片在线看免费视频| 国产黄色小视频在线观看| 国产高清不卡午夜福利| 中文字幕人妻熟人妻熟丝袜美| 国产免费av片在线观看野外av| 免费在线观看日本一区| 在线观看美女被高潮喷水网站| 亚洲色图av天堂| 国产欧美日韩一区二区精品| 村上凉子中文字幕在线| 国产av一区在线观看免费| 哪里可以看免费的av片| 亚洲va日本ⅴa欧美va伊人久久| 午夜老司机福利剧场| 亚洲 国产 在线| 成人亚洲精品av一区二区| 国产私拍福利视频在线观看| 免费av观看视频| 男女视频在线观看网站免费| 老熟妇仑乱视频hdxx| 国产精品伦人一区二区| 国产精品国产三级国产av玫瑰| 久久久久久久久中文| 亚洲国产精品成人综合色| 精品一区二区三区人妻视频| 国产精品嫩草影院av在线观看 | 亚洲精品乱码久久久v下载方式| 一进一出抽搐gif免费好疼| 亚洲精华国产精华精| 网址你懂的国产日韩在线| 在线观看午夜福利视频| 永久网站在线| 最后的刺客免费高清国语| 亚洲电影在线观看av| 久久久久九九精品影院| 成年女人看的毛片在线观看| 国产真实乱freesex| 99久久久亚洲精品蜜臀av| 国产欧美日韩一区二区精品| 悠悠久久av| bbb黄色大片| 嫩草影视91久久| 久久精品国产亚洲网站| 午夜免费成人在线视频| 久久草成人影院| 日韩精品有码人妻一区| 美女高潮的动态| 国产真实伦视频高清在线观看 | 深夜a级毛片| 99热这里只有精品一区| 99久久精品热视频| 在线播放国产精品三级| 99热网站在线观看| 日本在线视频免费播放| 婷婷色综合大香蕉| 精品午夜福利视频在线观看一区| 亚洲精品在线观看二区| 久久久久性生活片| 亚洲自拍偷在线| 99热这里只有精品一区| 色综合站精品国产| 又黄又爽又免费观看的视频| 在线免费十八禁| 色噜噜av男人的天堂激情| 精品国内亚洲2022精品成人| 亚洲aⅴ乱码一区二区在线播放| 国产高潮美女av| 校园春色视频在线观看| 久久久久久国产a免费观看| 国产毛片a区久久久久| 亚洲最大成人手机在线| 亚洲成人精品中文字幕电影| 久久久精品大字幕| 精品免费久久久久久久清纯| 我的老师免费观看完整版| 成熟少妇高潮喷水视频| 久久久久久国产a免费观看| 亚洲经典国产精华液单| 午夜激情欧美在线| 国产精品一及| 老司机深夜福利视频在线观看| 日韩亚洲欧美综合| 最新中文字幕久久久久| 看黄色毛片网站| www.www免费av| 村上凉子中文字幕在线| 黄色欧美视频在线观看| 69av精品久久久久久| 男女啪啪激烈高潮av片| 久久久久精品国产欧美久久久| 国产精品精品国产色婷婷| 动漫黄色视频在线观看| 女的被弄到高潮叫床怎么办 | 久久久久久久久久成人| 久久久国产成人免费| 久久精品夜夜夜夜夜久久蜜豆| 赤兔流量卡办理| 午夜老司机福利剧场| 国产精品无大码| 99精品在免费线老司机午夜| 亚洲精品影视一区二区三区av| 国产av在哪里看| 亚洲在线自拍视频| 欧美zozozo另类| 日韩欧美国产一区二区入口| 国产色爽女视频免费观看| 日本a在线网址| 日韩人妻高清精品专区| 中文字幕人妻熟人妻熟丝袜美| 制服丝袜大香蕉在线| 一进一出抽搐gif免费好疼| 直男gayav资源| 免费大片18禁| 12—13女人毛片做爰片一| 欧美国产日韩亚洲一区| 黄色视频,在线免费观看| 精品一区二区三区人妻视频| 九九爱精品视频在线观看| 欧美性猛交╳xxx乱大交人| 不卡一级毛片| 国产久久久一区二区三区| 深爱激情五月婷婷| 国产一级毛片七仙女欲春2| 亚洲久久久久久中文字幕| 欧美性猛交╳xxx乱大交人| 国内精品美女久久久久久| 亚洲精品乱码久久久v下载方式| 俄罗斯特黄特色一大片| 国产一区二区三区视频了| 国产久久久一区二区三区| 超碰av人人做人人爽久久| 午夜福利高清视频| 国产aⅴ精品一区二区三区波| 校园人妻丝袜中文字幕| 亚洲 国产 在线| 精品久久久久久久久久免费视频| 免费搜索国产男女视频| 午夜免费成人在线视频| 亚洲三级黄色毛片| 久久久久国内视频| 91av网一区二区| 午夜免费男女啪啪视频观看 | 日日夜夜操网爽| 午夜老司机福利剧场|