• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    深度生成式模型在臨床術(shù)語標準化中的應用

    2021-06-10 07:20:28閆璟輝
    中文信息學報 2021年5期
    關(guān)鍵詞:原詞詞庫類別

    閆璟輝,向 露,周 玉,孫 建,陳 思,薛 晨

    (1. 北京交通大學 計算機與信息技術(shù)學院 交通數(shù)據(jù)分析與挖掘北京市重點實驗室,北京 100044;2. 中國科學院 自動化研究所 模式識別國家重點實驗室,北京 100190;3. 北京中科凡語科技有限公司,北京 100080;4. 凡語AI研究院,北京100080;5. 中國科學院大學 人工智能學院,北京 100049)

    0 引言

    命名實體規(guī)范化(named entity normalization),也稱為實體鏈接,是自然語言處理的基本任務(wù)之一。臨床術(shù)語標準化任務(wù)是典型的醫(yī)學領(lǐng)域命名實體規(guī)范化問題,其目的是將已識別的醫(yī)學術(shù)語無歧義地正確指向醫(yī)學知識庫目標實體的過程。臨床術(shù)語標準化任務(wù)是醫(yī)學統(tǒng)計中不可或缺的一項任務(wù)。臨床上,關(guān)于同一種診斷、手術(shù)、藥品、檢查、化驗、癥狀等往往會有成百上千種不同的寫法。標準化(歸一)要解決的問題就是為臨床上各種不同說法找到對應的標準說法。有了術(shù)語標準化的基礎(chǔ),研究人員才可對電子病歷進行后續(xù)的統(tǒng)計分析。本質(zhì)上,臨床術(shù)語標準化任務(wù)也是語義相似度匹配任務(wù)的一種。

    CHIP2019評測由臨床術(shù)語標準化任務(wù)、平安醫(yī)療科技疾病問答遷移學習任務(wù)、臨床實驗篩選標準短文本分類任務(wù)三個任務(wù)組成。北京中科凡語科技有限公司下屬凡醫(yī)團隊參加了臨床術(shù)語標準化任務(wù)。本次評測任務(wù)的主要目標是針對中文電子病歷中挖掘出的真實手術(shù)實體進行語義標準化。 給定一個手術(shù)原詞,要求給出其對應的手術(shù)標準詞。所有手術(shù)原詞均來自于真實醫(yī)療數(shù)據(jù),并以《ICD9-2017協(xié)和臨床版》 手術(shù)詞表為標準進行了標注。由于原詞表述方式過于多樣,使用縮略語和習語的情況多有發(fā)生,本文分析了CHIP2019的術(shù)語標準化訓練語料,總結(jié)出對其進行標準化所要解決的四類主要問題,如表1所示,分別為①“信息冗余”問題: 原詞對一些部位、手術(shù)細節(jié)等進行了細致描述,而這些信息在其對應標準詞上并沒有體現(xiàn); ②“信息簡略”問題: 原詞省略了一些已經(jīng)約定成俗的信息,但這些信息在其對應的標準詞上需要被完整敘述出來; ③“一對多”問題: 原詞作為一個整體有可能包含多個標準詞的信息,因此應該被標準化為多個標準詞; ④“多對一”問題: 包含多種術(shù)式信息的原詞不一定對應相同數(shù)量的標準詞。針對上述四類問題,醫(yī)療領(lǐng)域傳統(tǒng)的做法是依賴人工制定的詞法變換規(guī)則[1-2]或淺層的機器學習方法[3-5],例如,利用Tf-IDF(詞頻-逆文檔頻率)將實體表征為稀疏向量,然后再去進行相似度計算[4]。這種基于規(guī)則或特征工程的淺層機器學習方法在應用于一些結(jié)構(gòu)較簡單的名詞類的實體標準化(藥品、疾病等)有不錯的效果,然而對于臨床術(shù)語這種書寫自由化高、結(jié)構(gòu)復雜的類型,人工制定規(guī)則模板費時費力且很難覆蓋所有情況,例如,表1中的“信息冗余”和“多對一”問題,淺層的特征學習很難將原詞的語義正確表征。 此外,《ICD9-2017協(xié)和臨床版》 手術(shù)詞表共有標準詞9 867個,將給定的原詞直接與標準詞庫中的每一個詞進行語義相似度計算的方式勢必會帶來噪聲詞多、計算量大等問題。通常的做法是“篩選—比較”法[6],即首先通過一些規(guī)則模板和文本相似度的算法對標準詞庫進行一次初步的篩選,將標準詞庫中和原詞的詞形相似度高的詞納入語義相似度計算候選集。這樣的預篩選方式可以有效縮減候選集的范圍,然而這種僅靠文本相似度的篩選方式對于“信息簡略”和“一對多”的情況則很難正確進行候選集篩選。

    表1 臨床術(shù)語標準化面臨問題

    經(jīng)觀察,《ICD9-2017協(xié)和臨床版》 手術(shù)詞表對每一個標準詞都進行了三級類別劃分,如圖1所示,同類別下標準詞具有共同語義場景特征,例如,圖中“胃切開取石術(shù)”和“胃切開異物取出術(shù)”同隸屬二級類別“43.0”,則它們具有共同的場景語義“胃切開術(shù)”,我們稱之為二級核心語義;同時“胃切開異物取出術(shù)”和“幽門肌切開術(shù)”同隸屬于一級類別“43”,則它們具有共同的場景語義“胃切開術(shù)和切除術(shù)”,我們稱之為一級核心語義。每一個待標準化原詞都可能包含標準詞庫中的一個或多個核心語義的信息,而找到原詞中這些核心語義的信息,就可以根據(jù)其在標準詞庫中所對應的標簽大幅縮小候選集的選擇范圍。

    圖1 《ICD9-2017協(xié)和臨床版》手術(shù)詞表

    此外,由于臨床術(shù)語的書寫方式自由且很難通過文本特征判斷出待標準化原詞應該對應的標準詞數(shù)量。如表1中的待標準化原詞“親體腎移植術(shù)”,其同時包含了標準詞庫中“00”類的“操作和介入NEC”場景語義和“55”類的“腎手術(shù)”場景語義,因此其正確對應的標準詞應該為兩類標準詞的合并形式: “腎異體移植術(shù)##與供者有血緣關(guān)系的活體移植”,分隔符“##”兩端的標準詞類別分別對應上述的“00”和“55”。而對于表1中的待標準化原詞“(輸尿管(或尿道)鏡右側(cè))輸尿管鏡下取石術(shù)+輸尿管鏡下鈥激光碎石術(shù)”,雖然原詞中包含有強文本特征 “+”,但由于“+”左右兩邊所描述的內(nèi)容對應的是同一個操作的兩個子部分,此原詞中并不承擔分割符的作用,因而原詞對應的標準詞只有“經(jīng)尿道輸尿管/腎盂激光碎石取石術(shù)”。

    綜上所述,我們對原詞中所包含的核心語義信息進行建模,運用深度生成式模型來獲取原詞中所包含的核心語義信息,并且通過對原詞和標準詞庫中的詞來學習文本和語義的雙重相似性。本文首先采用一個端到端的生成網(wǎng)絡(luò)Transformer[7]訓練一個從待標準化原詞到偽標準詞以及其所屬的一級類別標簽的類翻譯模型,從而同時生成原詞中所包含的核心語義的類別標簽以及一個偽標準詞,然后通過類別標簽和偽標準詞與標準詞之間的文本相似度對標準詞庫進行候選集的篩選,最后通過基于BERT(bidirectional encoder representations from transformers)[8]的預訓練模型對原詞和候選集的語義相似度重排序,獲得最終標準詞。

    本文的貢獻是: ①提出了一個新的基于Transformer的針對臨床術(shù)語的核心語義提取方法,可以在保持較高的召回率的同時有效縮小候選集的大小。②在CHIP2019數(shù)據(jù)集上取得了優(yōu)秀的性能,驗證了該方法的有效性。

    本文的組織結(jié)構(gòu)安排如下,第1節(jié)介紹相關(guān)工作,第2節(jié)對我們所采用的臨床術(shù)語標準化系統(tǒng)框架中各個模塊進行介紹,第3節(jié)介紹我們所使用的數(shù)據(jù)以及對數(shù)據(jù)的處理方式,并對各部分的性能做了比較和分析。

    1 相關(guān)工作

    1.1 醫(yī)學術(shù)語標準化

    在醫(yī)學領(lǐng)域,大多數(shù)實體規(guī)范化研究都使用了領(lǐng)域內(nèi)的知識庫和詞典,將它們列入標準實體的范圍。傳統(tǒng)的方式是將醫(yī)學領(lǐng)域的實體規(guī)范化作為句子對分類任務(wù)進行處理[6,9-11]。Leaman等人[9]首次提出了一種成對學習排序技術(shù),該技術(shù)采用矢量空間模型來計算非標準化醫(yī)學實體和標準化醫(yī)學實體兩者的文本相似度。其他研究者還提出使用深度神經(jīng)網(wǎng)絡(luò)對醫(yī)學實體進行規(guī)范化。Limsopatham[10]以及Li的團隊[6]采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來計算待標準化實體與知識庫中的候選實體之間的深度語義匹配度。Luo等人[12]提出一個多任務(wù)框架,可以對疾病和手術(shù)操作類實體進行規(guī)范化,多任務(wù)共享結(jié)構(gòu)使模型能夠利用疾病和手術(shù)操作之間的醫(yī)學相關(guān)性,更好地執(zhí)行消岐任務(wù)。Ji等人[11]通過微調(diào)的預訓練BERT模型來實現(xiàn)實體規(guī)范化。

    1.2 Transformer

    Transformer 是一種基于端到端(sequence-to-sequence)結(jié)構(gòu)的生成式模型。該模型由Vaswani提出[7],在多個翻譯任務(wù)上達到當前最優(yōu)效果。模型采用的是編碼器—解碼器的模型框架,和以往基于RNN的生成式模型不同之處在于,該模型完全基于注意力機制實現(xiàn)。其中,編碼器的每個層塊包含兩個子模塊,分別是多頭自注意力模塊(multi-head attention)和一個全連接前饋神經(jīng)網(wǎng)絡(luò)。解碼器的每個層塊由三個子模塊構(gòu)成,除了編碼器中的兩個模塊外,在這兩個模塊之間另外加入了一個與編碼器輸出層相連的多頭注意力模塊,用于關(guān)注源端的信息,使模型能夠更大程度地關(guān)注到不同位置不同表示子空間的特征信息。

    1.3 BERT

    BERT是一種預訓練語言模型,其利用雙向注意力機制和大規(guī)模的無監(jiān)督語料庫來獲得句子中每個單詞的上下文表示信息。BERT在多種自然語言處理(NLP)任務(wù)上取得了最優(yōu)的研究成果。BERT的基本結(jié)構(gòu)包括自注意編碼器和下游任務(wù)層。

    2 系統(tǒng)介紹

    不同于傳統(tǒng)的“篩選—比較”方法中直接利用原詞對標準詞庫中所有詞進行遍歷篩選的方式,本文提出“生成—篩選—比較”的方式,如圖2所示,我們的系統(tǒng)總共分為三個步驟: ①核心語義生成,即利用生成式模型Transformer生成原詞所對應的標準詞的一級類別標簽以及偽標準詞文本; ②候選集生成,我們分兩步生成候選集,首先通過類別標簽選取類別下所有標準詞作為候選集1,再通過文本相似度算法LCS[13]對候選集1中的候選詞做進一步的篩選,生成候選集2; ③基于語義相似度的重排序,通過預訓練的BERT對候選集2進行基于語義相似度的排序,生成最終的標準詞。下面我們將對系統(tǒng)的各個模塊進行介紹。

    圖2 臨床術(shù)語標準化系統(tǒng)流程圖

    2.1 核心語義生成

    我們將原詞核心語義信息的生成類比成源端語言到目標端語言的翻譯任務(wù)。和標準的源語言到目標語言的翻譯任務(wù)不同的是,術(shù)語標準化任務(wù)要求生成的目標端結(jié)果必須能夠和標準詞庫中的一個或多個候選詞嚴格對應。而通過端到端翻譯模型生成的目標端結(jié)果雖然在一定程度上和標準詞近似,但不能確保完全匹配,我們稱之為“偽標準詞”。這些生成的偽標準詞需要和候選詞進行進一步的相似度計算才能最終確定其在標準詞庫中所對應的標準詞。同時,為了生成后續(xù)的相似度計算候選集,需要確定所生成的每一個偽標準詞所對應的核心語義(這里取一級核心語義,即所對應標準詞庫中的類別標簽)。因此,在采用Transformer生成“偽標準詞”的同時,我們還利用Transformer生成其類別標簽,如圖3所示,采用先生成類別標簽再生成偽標準詞的順序,讓翻譯模型的解碼端依次生成原詞所包含的所有核心語義信息。

    圖3 模型的decoder端示例

    同時生成語義標簽和偽標準詞的方式有三點優(yōu)勢: 第一,生成結(jié)果中的偽標準詞雖然和原詞對應的標準詞存在一定的翻譯誤差,但是其文本結(jié)構(gòu)相較于原詞而言會更符合標準詞的文法結(jié)構(gòu)(如縮寫詞的對應關(guān)系),可以用來對候選集進行字詞層面的篩選;第二,生成結(jié)果中的類別標簽可以直接唯一確定標準詞在標準詞庫中所在的范圍,從而縮小候選集的大??;第三,以類別標簽為分割符的偽標準詞個數(shù)可以間接確定原詞所需要對應的標準詞數(shù)目。

    2.2 候選集合生成

    根據(jù)模型生成的類別標簽可以將標準詞的選擇范圍限制在其類別之內(nèi),但是考慮到訓練數(shù)據(jù)對《ICD9-2017協(xié)和臨床版》 手術(shù)詞表中所有類別的覆蓋情況,這里模型只對標準詞的一級標簽進行輸出,而經(jīng)統(tǒng)計,平均每個一級標簽下有98個候選標準詞。對于后續(xù)的語義相似度排序算法來說,若待排序的候選詞過多,則會帶來噪聲多、時間成本高等問題。因此,本文采用基于字詞結(jié)構(gòu)的相似度算法對通過類別標簽所篩選的候選集進行進一步的篩選。

    對于本系統(tǒng)而言,由2.1節(jié)可知,由于模型所生成的偽標準詞需要和候選詞進行進一步的相似度計算才能最終確定其在標準詞庫中所對應的標準詞,如圖4所示。這里首先利用結(jié)果中生成的類別標簽來篩選出標準詞庫中對應的同種類別下的候選詞,構(gòu)成相似度計算的候選集1。然后通過翻譯結(jié)果中的偽標準詞來和候選集1中的每個候選詞進行相似度計算,保留相似度最高得分的N個(由于可能存在同分情況,這里的N≥1)形成候選集2。

    圖4 基于翻譯模型的候選集篩選

    本文采用最長公共子串(longest common subsequence,LCS)算法來對候選集進行篩選。

    圖5 算法1

    2.3 基于語義相似度的候選集排序

    由于通過類別標簽挑選出的同類別下的標準詞詞形大體相似,而LCS算法只考慮了詞形上的相似關(guān)系,因此即便只取最高相似度得分也會篩選出具有相同得分的候選詞。本節(jié)介紹如何對原詞和候選詞進行語義層面的相似度計算。

    本文采用中文預訓練的BERT模型對原詞和候選詞進行語義表示。如圖6所示,輸入為“[SEP]”分隔的字符串,取第一位隱層原詞和候選詞以字符為單位并按標識符單元“[CLS]”的輸出,經(jīng)過非線性變化映射到一個固定維度的向量v作為“原詞—候選詞”的語義表示,并和可訓練權(quán)重矩陣W∈Rn×k進行相乘,如式(1)所示。

    圖6 基于BERT的語義相似度計算模型

    (1)

    其中,n是輸出的固定維度,k是標簽的數(shù)量,這里令k=2,標簽label分為兩種,即“語義相關(guān)”和“語義無關(guān)” 。

    我們采用交叉熵損失對模型進行優(yōu)化學習。

    如圖7所示,使用BERT語義相似度模型對候

    圖7 語義相似度排序部分流程圖

    選集中所有詞進行語義相似度打分后,按得分從高到低依次排序。同時,按照翻譯模型生成的偽標準詞數(shù)量作為原詞應該對應的最終標準詞的數(shù)量,將排序結(jié)果由高至低進行截取,將截取后的候選詞進行合并得到最終標準詞。

    3 實驗與結(jié)果

    3.1 數(shù)據(jù)處理

    考慮到訓練數(shù)據(jù)所包含的4 000條“原詞—標準詞”數(shù)據(jù)并不能將標準詞庫中所有類別覆蓋,并且存在部分原詞和標準詞的詞形十分近似或完全一致的問題,我們將標準詞庫《ICD9-2017協(xié)和臨床版》手術(shù)詞表中共9 867個標準詞按照2.1節(jié)中的翻譯模型訓練數(shù)據(jù)進行格式轉(zhuǎn)換,示例如圖8所示。

    圖8 模型訓練數(shù)據(jù)格式轉(zhuǎn)換示例

    之后將所有轉(zhuǎn)換格式后的數(shù)據(jù)作為額外的訓練數(shù)據(jù)和原訓練文件的4 000條數(shù)據(jù)進行合并,共構(gòu)成13 867條訓練數(shù)據(jù)。

    3.1.2 基于分詞數(shù)據(jù)模型構(gòu)建

    為了集成不同文本粒度的翻譯模型,如字到字、詞到詞、字到詞,我們在現(xiàn)有分詞系統(tǒng)的基礎(chǔ)上,通過人工總結(jié)出相關(guān)構(gòu)詞元素,如“部位”“操作手段”“術(shù)式”等,將這些元素分別構(gòu)成詞庫并對原詞進行分詞操作。基于構(gòu)造的分詞系統(tǒng),可以分別構(gòu)造出如圖9所示的三種訓練數(shù)據(jù)。

    圖9 不同粒度訓練數(shù)據(jù)示例

    基于構(gòu)建的三種不同文本粒度訓練數(shù)據(jù),我們分別訓練了三個Transformer的翻譯模型。如圖10所示,使用字到字模型生成的類別標簽對標準詞庫進行篩選,取同類別下所有標準詞構(gòu)成候選集1,然后將三個模型生成的偽標準詞分別應用2.2節(jié)中的算法1,得到各自的候選集,最后將生成的候選集取并集。

    圖10 不同文本粒度翻譯模型篩選候選集

    3.1.3 語義相似度訓練數(shù)據(jù)構(gòu)建

    取原訓練集的4 000條數(shù)據(jù)的原詞,對于每一個原詞,通過其對應的標準詞找到其在標準詞庫所對應的一級類別,采用相似度算法LCS對同類別下的每一個標準詞進行相似度計算,取相似度前10作為訓練數(shù)據(jù),并使正負例比例為1∶10。

    3.2 模型設(shè)置

    本次評測系統(tǒng)所使用的翻譯模型和語義相似度計算模型分別在開源項目Transformer(1)https://github.com/Kyubyong/Transformer和BERT(2)https://github.com/google-research/bert上進行修改,實驗設(shè)置情況如下:

    展望2019年上半年,游戲板塊仍將大概率受到行業(yè)發(fā)展環(huán)境中的消極因素影響。一方面,經(jīng)濟增速與消費活力的恢復情況仍需觀望;另一方面,文娛內(nèi)容監(jiān)管政策趨緊已不可逆,行業(yè)需要時間進行調(diào)整和適應。但游戲板塊最艱難的時刻正在過去,板塊估值已基本消化了大部分利空因素,行業(yè)變革中脫穎而出的佼佼者能夠為板塊帶來新的活力,而中小游戲廠商也有可能依靠單一創(chuàng)新產(chǎn)品呈現(xiàn)驚人的爆發(fā)力。

    (1)Transformer: 每個模型使用1塊GPU進行訓練,batch大小設(shè)為128,輪數(shù)epochs設(shè)為150,詞向量的維度為512,隱層狀態(tài)維度為2 048,編碼器與解碼器均為6層,多頭自注意力機制使用8個頭。dropout設(shè)為0.3,我們使用Adam梯度優(yōu)化算法,初始學習率為0.000 3,warmup設(shè)為4 000。訓練語料采用2.2節(jié)所述方式進行構(gòu)建,選取的字到字、詞到詞和字到詞的詞表大小分別為1 550、4 215和4 326,源端和目標端共享詞表。

    (2)BERT: 在Google發(fā)布的中文預訓練模型BERT-Base(3)https://github.com/google-research/bert/blob/master/multilingual.md基礎(chǔ)上進行微調(diào),數(shù)據(jù)采用2.3節(jié)所述方式進行構(gòu)建,batch大小設(shè)為32,訓練輪數(shù)epoch設(shè)為30,輸入序列最大值為100,初始學習率為0.000 05,其余保持默認參數(shù)。

    3.3 實驗結(jié)果

    本次評測所使用的指標,如式(2)所示。

    (2)

    其中,res為模型對當前原詞所給出的標準詞集合,ref為正確的標準詞集合。|res|和|ref|分別為上述兩個集合的大小。

    表2是本次評測所提交模型的最終結(jié)果,該結(jié)果使用的測試集為評測方提供的2 000條數(shù)據(jù)。在測試集中測得準確率為91.3417%。

    表2 基本模塊評測結(jié)果

    3.4 實驗分析

    本小節(jié)我們將針對上文提及的方法和策略對于標準化質(zhì)量的影響分別加以分析。和3.3節(jié)中評測指標不同,實驗分析部分采用的評測指標采用嚴格相似度計算,即要求模型輸出結(jié)果和標準答案完全一致則記1分,否則記0分。這里的實驗結(jié)果為開發(fā)集上的結(jié)果,開發(fā)集由評測方發(fā)布,共1 000條標注數(shù)據(jù)。

    3.4.1 基本模塊分析

    在開發(fā)集上的實驗結(jié)果如表2所示,baseline使用LCS相似度算法,令每個待標準化原詞都和標準詞庫中所有詞進行相似度比對,取相似度最高者作為標準化結(jié)果?!?Transformer”為單獨使用Transformer(字到字)對原詞到標準調(diào)進行直接翻譯,翻譯結(jié)果作為標準化結(jié)果?!?code”為3.1節(jié)中將標準詞庫數(shù)據(jù)添加至訓練集共同訓練的Transformer結(jié)果。“+LCS”為2.3節(jié)中基于LCS打分的候選集生成后直接選取最高得分候選詞作為標準化結(jié)果輸出?!?BERT”為對2.3節(jié)所構(gòu)建的候選集再進行基于BERT的語義打分結(jié)果。

    從上述實驗結(jié)果可以看出,翻譯模型的使用、訓練數(shù)據(jù)擴充、語義相似度比較對標準詞準確率的提升均有一定的幫助。其中加入翻譯模型的方法對效果有顯著提升,證明了該方法的有效性。

    3.4.2 基于不同粒度的翻譯模型效果分析

    我們發(fā)現(xiàn),基于字到字的翻譯模型對偽標準詞的直接翻譯準確率要高于基于詞到詞的翻譯模型,結(jié)果如表3所示。

    表3 不同文本粒度的翻譯模型效果

    對于生成的類別標簽和偽標準詞數(shù)目的準確度來說,字到字和字到詞模型的效果相差不大,詞到詞模型在類別標簽生成準確度上比前兩個模型低下約兩個百分點左右。而對于偽標準詞的直接翻譯準確度而言,字到字模型的準確度則完全高過后兩個模型,比詞到詞模型的準確率高接近4個百分點。我們分析主要有兩點原因: 首先由于訓練數(shù)據(jù)不夠充分,分詞之后的一些低頻詞在訓練過程中沒有被模型很好地學習到特征;其次,由于數(shù)據(jù)領(lǐng)域?qū)I(yè)性強,分詞系統(tǒng)并不能很好地對專業(yè)術(shù)語進行切分。盡管三個模型的生成效果差別大,但是經(jīng)測試,三個模型所生成的偽標準詞的并集對正確標準詞的召回率可以達到90.9%,即說明不同模型之間生成的結(jié)果存在一定的互補性。

    3.4.3 不同候選集生成的策略分析

    除了2.2節(jié)中所使用的LCS相似度計算方式,我們還測試了多種不同的方法來生成候選集,其各自對標準詞的召回率如表4所示。

    表4 不同相似度算法對候選集的標準詞召回率結(jié)果

    續(xù)表

    其中embeddingcos方式為利用Glove(4)https://github.com/stanfordnlp/GloVe模型將候選詞和生成的偽標準詞轉(zhuǎn)換為向量表示,然后通過向量之間的余弦相似度進行比對。committeeVote方式將上述所有方式構(gòu)成一個委員會,通過投票的機制決定候選集。可以看出,縱向?qū)Ρ壬鲜龅膸追N相似度篩選方式,在召回率上差別不明顯,橫向?qū)Ρ?,當取相似度?0的候選詞加入候選集后,標準詞的召回率明顯提升,改為取前20的候選詞之后召回率并未明顯提升。

    針對候選詞數(shù)目選擇問題,我們以LCS相似度算法為基準,生成不同的候選集后交由BERT模型進行語義相似度排序,最終的準確率結(jié)果如表5所示。

    表5 基于LCS算法的不同候選集選擇策略下的標準化的準確率

    可以看出,雖然取top10和top20的候選詞數(shù)目可以明顯提升標準詞的召回率,但是通過BERT語義相似度重排序后得到的結(jié)果卻出現(xiàn)了明顯下降,我們分析這是由于過大的候選集會不可避免地帶來更多的噪聲,從而對語義相似度模型的排序造成干擾。而只取最高相似度得分的策略雖然在最終結(jié)果上達到89%的準確率,但是由于其標準詞的召回率只有91.6%(表4),其準確率的上限并不高。因此,如何在提高標準詞的召回率的基礎(chǔ)上提升語義相似度排序的準確率是一個值得研究的問題。

    猜你喜歡
    原詞詞庫類別
    三姐妹
    當成語中的“心”變成“薪”
    詞庫音系學的幾個理論問題芻議
    英語知識(2016年1期)2016-11-11 07:07:54
    服務(wù)類別
    新校長(2016年8期)2016-01-10 06:43:59
    說“長”道“短”
    論類別股東會
    商事法論集(2014年1期)2014-06-27 01:20:42
    環(huán)境變了,詞庫別變
    電腦迷(2014年14期)2014-04-29 00:44:03
    完形填空微技能導練
    中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
    聚合酶鏈式反應快速鑒別5種常見肉類別
    食品科學(2013年8期)2013-03-11 18:21:31
    午夜日韩欧美国产| 国产老妇伦熟女老妇高清| 精品久久久久久电影网| 91午夜精品亚洲一区二区三区| 日韩,欧美,国产一区二区三区| 国产在线一区二区三区精| 又黄又粗又硬又大视频| 黄片播放在线免费| 久久热在线av| 国产精品欧美亚洲77777| 国产97色在线日韩免费| 美女大奶头黄色视频| 国产毛片在线视频| 国产无遮挡羞羞视频在线观看| 在线免费观看不下载黄p国产| 永久网站在线| 少妇的逼水好多| 飞空精品影院首页| 老司机影院成人| 伦理电影免费视频| 边亲边吃奶的免费视频| 亚洲精品美女久久av网站| 久热这里只有精品99| 中文字幕制服av| 美女视频免费永久观看网站| 天美传媒精品一区二区| av免费观看日本| 国产午夜精品一二区理论片| 国产日韩欧美亚洲二区| 在线亚洲精品国产二区图片欧美| av在线播放精品| 亚洲国产av影院在线观看| 欧美日韩成人在线一区二区| 国产精品.久久久| 天天躁狠狠躁夜夜躁狠狠躁| 黄色怎么调成土黄色| 搡女人真爽免费视频火全软件| 久久久久久久久久久久大奶| 看十八女毛片水多多多| 18禁国产床啪视频网站| 自线自在国产av| 亚洲精品中文字幕在线视频| 国产精品久久久久成人av| 久久综合国产亚洲精品| 亚洲国产av影院在线观看| 亚洲一区二区三区欧美精品| 两个人看的免费小视频| av.在线天堂| 大香蕉久久网| 精品少妇黑人巨大在线播放| 国产精品香港三级国产av潘金莲 | 桃花免费在线播放| 久久久国产欧美日韩av| 亚洲精品成人av观看孕妇| 熟女少妇亚洲综合色aaa.| 91午夜精品亚洲一区二区三区| 久久久久精品人妻al黑| 久久久精品区二区三区| 在现免费观看毛片| 国产成人免费无遮挡视频| 91精品国产国语对白视频| 亚洲精品国产一区二区精华液| 国产精品无大码| 欧美+日韩+精品| 国产精品麻豆人妻色哟哟久久| 女的被弄到高潮叫床怎么办| 欧美人与性动交α欧美软件| www.熟女人妻精品国产| 国产成人免费观看mmmm| 色婷婷av一区二区三区视频| 性少妇av在线| 一区二区av电影网| 男女边摸边吃奶| 夫妻性生交免费视频一级片| 免费高清在线观看日韩| 飞空精品影院首页| 黑人巨大精品欧美一区二区蜜桃| 日韩一区二区三区影片| 国产成人免费观看mmmm| 中文字幕人妻熟女乱码| 日韩,欧美,国产一区二区三区| 国产无遮挡羞羞视频在线观看| 亚洲色图综合在线观看| 精品一区二区三区四区五区乱码 | 免费在线观看黄色视频的| 欧美bdsm另类| 天天操日日干夜夜撸| 国产男女超爽视频在线观看| 国产av码专区亚洲av| 欧美在线黄色| 欧美成人精品欧美一级黄| 啦啦啦中文免费视频观看日本| 两个人看的免费小视频| 中文字幕最新亚洲高清| 亚洲精品乱久久久久久| 天天躁夜夜躁狠狠久久av| 亚洲av在线观看美女高潮| 热99国产精品久久久久久7| 日韩欧美精品免费久久| videossex国产| 在线观看免费高清a一片| 亚洲精品国产一区二区精华液| 观看av在线不卡| 天堂中文最新版在线下载| 国产精品国产av在线观看| 日日啪夜夜爽| 久久精品国产亚洲av天美| 欧美成人精品欧美一级黄| 999久久久国产精品视频| 久久国产精品男人的天堂亚洲| 高清视频免费观看一区二区| 永久网站在线| 国产一区二区三区av在线| 99久久中文字幕三级久久日本| 69精品国产乱码久久久| 国产成人精品久久二区二区91 | 国产精品偷伦视频观看了| 国产xxxxx性猛交| 亚洲av国产av综合av卡| 国产av码专区亚洲av| 国产成人精品在线电影| 亚洲国产精品999| 亚洲,欧美,日韩| 99re6热这里在线精品视频| 免费看不卡的av| 精品一品国产午夜福利视频| 热99久久久久精品小说推荐| 午夜影院在线不卡| 国产熟女欧美一区二区| 欧美人与善性xxx| 国产精品免费视频内射| 最近2019中文字幕mv第一页| 国产综合精华液| 丰满迷人的少妇在线观看| 国产精品免费大片| 精品午夜福利在线看| 欧美少妇被猛烈插入视频| 91aial.com中文字幕在线观看| 欧美日本中文国产一区发布| 亚洲人成网站在线观看播放| 国产日韩欧美在线精品| 一区二区日韩欧美中文字幕| 久久久久久久亚洲中文字幕| 精品亚洲成a人片在线观看| 久久久久网色| 日韩欧美精品免费久久| av不卡在线播放| 久久青草综合色| 精品一区二区免费观看| 香蕉丝袜av| 日韩av不卡免费在线播放| 久久99精品国语久久久| av网站免费在线观看视频| 女人久久www免费人成看片| 欧美日本中文国产一区发布| 国产成人精品久久久久久| 成人手机av| 亚洲国产av影院在线观看| 国产精品免费大片| 美女xxoo啪啪120秒动态图| 青春草亚洲视频在线观看| 国产av国产精品国产| 日本欧美国产在线视频| 三级国产精品片| 九九爱精品视频在线观看| 亚洲三级黄色毛片| 亚洲精品美女久久久久99蜜臀 | 高清黄色对白视频在线免费看| 午夜福利网站1000一区二区三区| 一级毛片黄色毛片免费观看视频| 久久久久精品人妻al黑| 久久久国产精品麻豆| 免费观看av网站的网址| 日韩一本色道免费dvd| 久久99精品国语久久久| 日本wwww免费看| 天天躁夜夜躁狠狠久久av| 亚洲精品aⅴ在线观看| 午夜福利网站1000一区二区三区| 欧美精品人与动牲交sv欧美| 伦理电影大哥的女人| 亚洲成色77777| 母亲3免费完整高清在线观看 | 一二三四中文在线观看免费高清| 最近的中文字幕免费完整| 午夜福利一区二区在线看| 电影成人av| 男女高潮啪啪啪动态图| 9热在线视频观看99| 亚洲三级黄色毛片| 18在线观看网站| 亚洲av电影在线观看一区二区三区| 最近2019中文字幕mv第一页| 少妇的逼水好多| freevideosex欧美| 18在线观看网站| 日韩av在线免费看完整版不卡| 少妇人妻 视频| 啦啦啦视频在线资源免费观看| videossex国产| 欧美日韩亚洲高清精品| 欧美激情极品国产一区二区三区| 26uuu在线亚洲综合色| 两个人看的免费小视频| 久久久久久人人人人人| 女人久久www免费人成看片| av在线观看视频网站免费| 色哟哟·www| 国产精品99久久99久久久不卡 | 女人被躁到高潮嗷嗷叫费观| 美女高潮到喷水免费观看| 免费高清在线观看视频在线观看| 黄色怎么调成土黄色| 在线亚洲精品国产二区图片欧美| 五月开心婷婷网| 桃花免费在线播放| 国产精品99久久99久久久不卡 | 亚洲人成77777在线视频| 亚洲欧美成人综合另类久久久| 久久韩国三级中文字幕| 波多野结衣av一区二区av| av网站免费在线观看视频| 国产视频首页在线观看| 久热久热在线精品观看| 久久久国产精品麻豆| 99热网站在线观看| 国语对白做爰xxxⅹ性视频网站| 少妇精品久久久久久久| 成人毛片a级毛片在线播放| www.精华液| 大香蕉久久网| 亚洲一级一片aⅴ在线观看| 亚洲五月色婷婷综合| 五月开心婷婷网| 色哟哟·www| 人妻少妇偷人精品九色| 人人妻人人爽人人添夜夜欢视频| 一级片'在线观看视频| 欧美 日韩 精品 国产| 纵有疾风起免费观看全集完整版| 99九九在线精品视频| 久久久欧美国产精品| 日韩制服骚丝袜av| 亚洲成人一二三区av| 亚洲国产精品一区二区三区在线| 精品卡一卡二卡四卡免费| 久久久精品免费免费高清| 五月伊人婷婷丁香| 久久国内精品自在自线图片| 国产在线免费精品| 人人澡人人妻人| 免费少妇av软件| 免费观看a级毛片全部| 亚洲精品日本国产第一区| 国产成人精品福利久久| 黄片播放在线免费| kizo精华| www.熟女人妻精品国产| 国产精品香港三级国产av潘金莲 | 高清在线视频一区二区三区| 午夜免费男女啪啪视频观看| 街头女战士在线观看网站| 自拍欧美九色日韩亚洲蝌蚪91| 久久 成人 亚洲| 伊人久久国产一区二区| 黄频高清免费视频| 桃花免费在线播放| 亚洲精品日本国产第一区| 看十八女毛片水多多多| 亚洲av.av天堂| 曰老女人黄片| 久久av网站| 如日韩欧美国产精品一区二区三区| 美女主播在线视频| av不卡在线播放| 亚洲精华国产精华液的使用体验| 一区在线观看完整版| 精品卡一卡二卡四卡免费| 国产精品久久久av美女十八| 亚洲精品日韩在线中文字幕| 两个人看的免费小视频| 国产精品蜜桃在线观看| 天天操日日干夜夜撸| www.精华液| 久久国产亚洲av麻豆专区| 午夜影院在线不卡| 亚洲熟女精品中文字幕| 欧美 亚洲 国产 日韩一| 午夜免费男女啪啪视频观看| 日韩伦理黄色片| 欧美日韩亚洲国产一区二区在线观看 | 国产在线视频一区二区| 日韩不卡一区二区三区视频在线| 啦啦啦视频在线资源免费观看| 国产又色又爽无遮挡免| 色婷婷av一区二区三区视频| 少妇人妻精品综合一区二区| 亚洲在久久综合| 精品国产一区二区久久| 久久 成人 亚洲| tube8黄色片| 久久久久久久久久久免费av| av片东京热男人的天堂| 国产老妇伦熟女老妇高清| 国产xxxxx性猛交| 国产一区二区三区综合在线观看| 亚洲伊人久久精品综合| 亚洲欧美中文字幕日韩二区| 欧美变态另类bdsm刘玥| 亚洲精品,欧美精品| 国产精品女同一区二区软件| 99久久人妻综合| 伊人亚洲综合成人网| 亚洲精品久久午夜乱码| 午夜福利,免费看| 国产在视频线精品| 自线自在国产av| 久久av网站| av片东京热男人的天堂| 精品第一国产精品| 亚洲精品一区蜜桃| 满18在线观看网站| 男女边吃奶边做爰视频| 国产精品久久久久久久久免| av.在线天堂| 青春草亚洲视频在线观看| av线在线观看网站| 久久久亚洲精品成人影院| 两个人看的免费小视频| 在线观看人妻少妇| 天天操日日干夜夜撸| 天堂8中文在线网| 黑人巨大精品欧美一区二区蜜桃| 久久久久国产网址| 亚洲精品视频女| 亚洲精品自拍成人| 国产精品三级大全| 午夜日韩欧美国产| 欧美国产精品一级二级三级| 最近中文字幕2019免费版| 免费不卡的大黄色大毛片视频在线观看| 免费久久久久久久精品成人欧美视频| 嫩草影院入口| 国产亚洲av片在线观看秒播厂| 日本欧美视频一区| 成人毛片60女人毛片免费| av网站免费在线观看视频| 亚洲国产欧美在线一区| 午夜91福利影院| 精品亚洲乱码少妇综合久久| 久久久国产精品麻豆| 成人国产av品久久久| 人人妻人人澡人人看| 精品一区二区三区四区五区乱码 | 91久久精品国产一区二区三区| 国产在线视频一区二区| 国产免费视频播放在线视频| 欧美日韩视频高清一区二区三区二| 午夜91福利影院| 两个人看的免费小视频| 韩国高清视频一区二区三区| 国产xxxxx性猛交| 国产黄色免费在线视频| 久久国产亚洲av麻豆专区| 久久毛片免费看一区二区三区| 搡女人真爽免费视频火全软件| 人妻人人澡人人爽人人| 亚洲国产毛片av蜜桃av| 国产有黄有色有爽视频| 午夜激情久久久久久久| 国产一级毛片在线| 久久久国产精品麻豆| 国产精品偷伦视频观看了| 国产免费一区二区三区四区乱码| 成人午夜精彩视频在线观看| 超色免费av| 国产精品久久久久久av不卡| 国产免费又黄又爽又色| 久久这里只有精品19| 麻豆乱淫一区二区| 亚洲成人av在线免费| 国产高清国产精品国产三级| 欧美成人午夜免费资源| 欧美日韩综合久久久久久| 国产人伦9x9x在线观看 | 男人舔女人的私密视频| 人人妻人人澡人人爽人人夜夜| 国产极品粉嫩免费观看在线| 人妻少妇偷人精品九色| 赤兔流量卡办理| 国产成人精品婷婷| 九九爱精品视频在线观看| 亚洲av国产av综合av卡| 91精品国产国语对白视频| 国产又色又爽无遮挡免| a级毛片在线看网站| 一区二区三区乱码不卡18| 欧美激情 高清一区二区三区| 可以免费在线观看a视频的电影网站 | av片东京热男人的天堂| 成人二区视频| 欧美精品人与动牲交sv欧美| 亚洲综合精品二区| 国产精品.久久久| 日本av手机在线免费观看| 亚洲第一青青草原| 国产精品免费大片| tube8黄色片| 午夜av观看不卡| 人妻系列 视频| 一级毛片黄色毛片免费观看视频| 啦啦啦中文免费视频观看日本| 美女中出高潮动态图| 欧美日韩一级在线毛片| 少妇熟女欧美另类| 成年人免费黄色播放视频| 啦啦啦在线观看免费高清www| 精品亚洲成国产av| 丝袜人妻中文字幕| 久久精品久久精品一区二区三区| 国产色婷婷99| 色吧在线观看| 久久久久久免费高清国产稀缺| 亚洲激情五月婷婷啪啪| 亚洲欧美中文字幕日韩二区| 最近中文字幕2019免费版| 日日摸夜夜添夜夜爱| 亚洲国产看品久久| 电影成人av| 国产精品嫩草影院av在线观看| 日韩精品免费视频一区二区三区| 日韩大片免费观看网站| 自线自在国产av| 久久精品亚洲av国产电影网| 女性被躁到高潮视频| 叶爱在线成人免费视频播放| 97在线视频观看| 亚洲伊人色综图| 亚洲欧美成人综合另类久久久| 成人二区视频| 青草久久国产| 在线免费观看不下载黄p国产| 成人毛片60女人毛片免费| 亚洲,一卡二卡三卡| 久久狼人影院| 久久久久视频综合| 精品亚洲成国产av| 中文字幕制服av| 免费观看av网站的网址| av在线播放精品| 国产xxxxx性猛交| 一本色道久久久久久精品综合| 国产亚洲一区二区精品| 男女啪啪激烈高潮av片| 春色校园在线视频观看| 精品人妻熟女毛片av久久网站| 在线观看三级黄色| 亚洲精品一区蜜桃| 国产精品成人在线| 水蜜桃什么品种好| av网站免费在线观看视频| 夜夜骑夜夜射夜夜干| 久久久久精品人妻al黑| 日本爱情动作片www.在线观看| 少妇的逼水好多| 国产一区亚洲一区在线观看| 久久久a久久爽久久v久久| 搡女人真爽免费视频火全软件| 九九爱精品视频在线观看| 国产欧美日韩综合在线一区二区| 晚上一个人看的免费电影| 亚洲一码二码三码区别大吗| 日本爱情动作片www.在线观看| 国产在线视频一区二区| 久久精品久久精品一区二区三区| 欧美日本中文国产一区发布| 国精品久久久久久国模美| 午夜福利视频在线观看免费| av福利片在线| 飞空精品影院首页| 交换朋友夫妻互换小说| 下体分泌物呈黄色| 母亲3免费完整高清在线观看 | 精品人妻在线不人妻| 日韩大片免费观看网站| 国产色婷婷99| 久久久精品国产亚洲av高清涩受| 国产在线一区二区三区精| 日本vs欧美在线观看视频| 伊人久久大香线蕉亚洲五| 亚洲av成人精品一二三区| 亚洲国产欧美日韩在线播放| 国产熟女午夜一区二区三区| 欧美日韩av久久| 午夜日本视频在线| 国产 精品1| 99精国产麻豆久久婷婷| 中文字幕精品免费在线观看视频| 午夜福利在线免费观看网站| av网站在线播放免费| 久久精品熟女亚洲av麻豆精品| 久久久国产一区二区| 久久狼人影院| 制服人妻中文乱码| 80岁老熟妇乱子伦牲交| av天堂久久9| 热re99久久国产66热| 国产高清不卡午夜福利| 美女xxoo啪啪120秒动态图| 十八禁网站网址无遮挡| 91在线精品国自产拍蜜月| 女人高潮潮喷娇喘18禁视频| 波多野结衣一区麻豆| 午夜精品国产一区二区电影| 国产黄色免费在线视频| 久久精品久久久久久久性| 最新的欧美精品一区二区| 国产 精品1| 两性夫妻黄色片| 国产乱来视频区| 满18在线观看网站| 欧美日韩av久久| 免费人妻精品一区二区三区视频| 最近手机中文字幕大全| 久久久久久久久久久免费av| 精品久久久精品久久久| 免费观看在线日韩| 美女国产高潮福利片在线看| 国产精品.久久久| 王馨瑶露胸无遮挡在线观看| 日本免费在线观看一区| 欧美国产精品va在线观看不卡| 五月开心婷婷网| 久久精品国产综合久久久| 亚洲欧美精品自产自拍| 中文乱码字字幕精品一区二区三区| 久久99一区二区三区| av国产精品久久久久影院| 91精品三级在线观看| 美女xxoo啪啪120秒动态图| 伦精品一区二区三区| 亚洲成人手机| 日韩,欧美,国产一区二区三区| 午夜激情久久久久久久| 午夜影院在线不卡| 亚洲国产欧美在线一区| av在线老鸭窝| 高清av免费在线| 日韩欧美一区视频在线观看| 久久精品国产自在天天线| 啦啦啦啦在线视频资源| 中文欧美无线码| 女的被弄到高潮叫床怎么办| 国产精品国产三级专区第一集| 麻豆乱淫一区二区| 一级片免费观看大全| 一级黄片播放器| 伊人亚洲综合成人网| 亚洲五月色婷婷综合| 一区在线观看完整版| 亚洲图色成人| 一级毛片 在线播放| 国产一区有黄有色的免费视频| 色哟哟·www| 国产一区二区三区综合在线观看| 毛片一级片免费看久久久久| 高清黄色对白视频在线免费看| 天堂俺去俺来也www色官网| 成人国产麻豆网| 欧美av亚洲av综合av国产av | 春色校园在线视频观看| 满18在线观看网站| 免费看av在线观看网站| 久久久久久伊人网av| 精品一区二区三卡| 亚洲国产精品一区三区| 91成人精品电影| 一级毛片电影观看| 在线天堂中文资源库| 咕卡用的链子| 亚洲一码二码三码区别大吗| 另类精品久久| 又大又黄又爽视频免费| 国产亚洲av片在线观看秒播厂| www.精华液| kizo精华| 国产免费一区二区三区四区乱码| 精品国产露脸久久av麻豆| 欧美精品亚洲一区二区| 欧美日韩成人在线一区二区| 亚洲欧美一区二区三区国产| 五月伊人婷婷丁香| 国产亚洲av片在线观看秒播厂| 在线观看三级黄色| 尾随美女入室| 精品一区在线观看国产| 欧美激情极品国产一区二区三区| 91精品国产国语对白视频| 亚洲av欧美aⅴ国产| 一级a爱视频在线免费观看| 日韩av不卡免费在线播放| 下体分泌物呈黄色| 大香蕉久久成人网| 九九爱精品视频在线观看| 国产精品免费大片| 日本黄色日本黄色录像| 不卡av一区二区三区| 中文欧美无线码| 午夜影院在线不卡| 欧美中文综合在线视频| 国产欧美亚洲国产| 国产精品成人在线| 少妇精品久久久久久久| 欧美日韩视频高清一区二区三区二| 免费女性裸体啪啪无遮挡网站|