閆璟輝,向 露,周 玉,孫 建,陳 思,薛 晨
(1. 北京交通大學 計算機與信息技術(shù)學院 交通數(shù)據(jù)分析與挖掘北京市重點實驗室,北京 100044;2. 中國科學院 自動化研究所 模式識別國家重點實驗室,北京 100190;3. 北京中科凡語科技有限公司,北京 100080;4. 凡語AI研究院,北京100080;5. 中國科學院大學 人工智能學院,北京 100049)
命名實體規(guī)范化(named entity normalization),也稱為實體鏈接,是自然語言處理的基本任務(wù)之一。臨床術(shù)語標準化任務(wù)是典型的醫(yī)學領(lǐng)域命名實體規(guī)范化問題,其目的是將已識別的醫(yī)學術(shù)語無歧義地正確指向醫(yī)學知識庫目標實體的過程。臨床術(shù)語標準化任務(wù)是醫(yī)學統(tǒng)計中不可或缺的一項任務(wù)。臨床上,關(guān)于同一種診斷、手術(shù)、藥品、檢查、化驗、癥狀等往往會有成百上千種不同的寫法。標準化(歸一)要解決的問題就是為臨床上各種不同說法找到對應的標準說法。有了術(shù)語標準化的基礎(chǔ),研究人員才可對電子病歷進行后續(xù)的統(tǒng)計分析。本質(zhì)上,臨床術(shù)語標準化任務(wù)也是語義相似度匹配任務(wù)的一種。
CHIP2019評測由臨床術(shù)語標準化任務(wù)、平安醫(yī)療科技疾病問答遷移學習任務(wù)、臨床實驗篩選標準短文本分類任務(wù)三個任務(wù)組成。北京中科凡語科技有限公司下屬凡醫(yī)團隊參加了臨床術(shù)語標準化任務(wù)。本次評測任務(wù)的主要目標是針對中文電子病歷中挖掘出的真實手術(shù)實體進行語義標準化。 給定一個手術(shù)原詞,要求給出其對應的手術(shù)標準詞。所有手術(shù)原詞均來自于真實醫(yī)療數(shù)據(jù),并以《ICD9-2017協(xié)和臨床版》 手術(shù)詞表為標準進行了標注。由于原詞表述方式過于多樣,使用縮略語和習語的情況多有發(fā)生,本文分析了CHIP2019的術(shù)語標準化訓練語料,總結(jié)出對其進行標準化所要解決的四類主要問題,如表1所示,分別為①“信息冗余”問題: 原詞對一些部位、手術(shù)細節(jié)等進行了細致描述,而這些信息在其對應標準詞上并沒有體現(xiàn); ②“信息簡略”問題: 原詞省略了一些已經(jīng)約定成俗的信息,但這些信息在其對應的標準詞上需要被完整敘述出來; ③“一對多”問題: 原詞作為一個整體有可能包含多個標準詞的信息,因此應該被標準化為多個標準詞; ④“多對一”問題: 包含多種術(shù)式信息的原詞不一定對應相同數(shù)量的標準詞。針對上述四類問題,醫(yī)療領(lǐng)域傳統(tǒng)的做法是依賴人工制定的詞法變換規(guī)則[1-2]或淺層的機器學習方法[3-5],例如,利用Tf-IDF(詞頻-逆文檔頻率)將實體表征為稀疏向量,然后再去進行相似度計算[4]。這種基于規(guī)則或特征工程的淺層機器學習方法在應用于一些結(jié)構(gòu)較簡單的名詞類的實體標準化(藥品、疾病等)有不錯的效果,然而對于臨床術(shù)語這種書寫自由化高、結(jié)構(gòu)復雜的類型,人工制定規(guī)則模板費時費力且很難覆蓋所有情況,例如,表1中的“信息冗余”和“多對一”問題,淺層的特征學習很難將原詞的語義正確表征。 此外,《ICD9-2017協(xié)和臨床版》 手術(shù)詞表共有標準詞9 867個,將給定的原詞直接與標準詞庫中的每一個詞進行語義相似度計算的方式勢必會帶來噪聲詞多、計算量大等問題。通常的做法是“篩選—比較”法[6],即首先通過一些規(guī)則模板和文本相似度的算法對標準詞庫進行一次初步的篩選,將標準詞庫中和原詞的詞形相似度高的詞納入語義相似度計算候選集。這樣的預篩選方式可以有效縮減候選集的范圍,然而這種僅靠文本相似度的篩選方式對于“信息簡略”和“一對多”的情況則很難正確進行候選集篩選。
表1 臨床術(shù)語標準化面臨問題
經(jīng)觀察,《ICD9-2017協(xié)和臨床版》 手術(shù)詞表對每一個標準詞都進行了三級類別劃分,如圖1所示,同類別下標準詞具有共同語義場景特征,例如,圖中“胃切開取石術(shù)”和“胃切開異物取出術(shù)”同隸屬二級類別“43.0”,則它們具有共同的場景語義“胃切開術(shù)”,我們稱之為二級核心語義;同時“胃切開異物取出術(shù)”和“幽門肌切開術(shù)”同隸屬于一級類別“43”,則它們具有共同的場景語義“胃切開術(shù)和切除術(shù)”,我們稱之為一級核心語義。每一個待標準化原詞都可能包含標準詞庫中的一個或多個核心語義的信息,而找到原詞中這些核心語義的信息,就可以根據(jù)其在標準詞庫中所對應的標簽大幅縮小候選集的選擇范圍。
圖1 《ICD9-2017協(xié)和臨床版》手術(shù)詞表
此外,由于臨床術(shù)語的書寫方式自由且很難通過文本特征判斷出待標準化原詞應該對應的標準詞數(shù)量。如表1中的待標準化原詞“親體腎移植術(shù)”,其同時包含了標準詞庫中“00”類的“操作和介入NEC”場景語義和“55”類的“腎手術(shù)”場景語義,因此其正確對應的標準詞應該為兩類標準詞的合并形式: “腎異體移植術(shù)##與供者有血緣關(guān)系的活體移植”,分隔符“##”兩端的標準詞類別分別對應上述的“00”和“55”。而對于表1中的待標準化原詞“(輸尿管(或尿道)鏡右側(cè))輸尿管鏡下取石術(shù)+輸尿管鏡下鈥激光碎石術(shù)”,雖然原詞中包含有強文本特征 “+”,但由于“+”左右兩邊所描述的內(nèi)容對應的是同一個操作的兩個子部分,此原詞中并不承擔分割符的作用,因而原詞對應的標準詞只有“經(jīng)尿道輸尿管/腎盂激光碎石取石術(shù)”。
綜上所述,我們對原詞中所包含的核心語義信息進行建模,運用深度生成式模型來獲取原詞中所包含的核心語義信息,并且通過對原詞和標準詞庫中的詞來學習文本和語義的雙重相似性。本文首先采用一個端到端的生成網(wǎng)絡(luò)Transformer[7]訓練一個從待標準化原詞到偽標準詞以及其所屬的一級類別標簽的類翻譯模型,從而同時生成原詞中所包含的核心語義的類別標簽以及一個偽標準詞,然后通過類別標簽和偽標準詞與標準詞之間的文本相似度對標準詞庫進行候選集的篩選,最后通過基于BERT(bidirectional encoder representations from transformers)[8]的預訓練模型對原詞和候選集的語義相似度重排序,獲得最終標準詞。
本文的貢獻是: ①提出了一個新的基于Transformer的針對臨床術(shù)語的核心語義提取方法,可以在保持較高的召回率的同時有效縮小候選集的大小。②在CHIP2019數(shù)據(jù)集上取得了優(yōu)秀的性能,驗證了該方法的有效性。
本文的組織結(jié)構(gòu)安排如下,第1節(jié)介紹相關(guān)工作,第2節(jié)對我們所采用的臨床術(shù)語標準化系統(tǒng)框架中各個模塊進行介紹,第3節(jié)介紹我們所使用的數(shù)據(jù)以及對數(shù)據(jù)的處理方式,并對各部分的性能做了比較和分析。
在醫(yī)學領(lǐng)域,大多數(shù)實體規(guī)范化研究都使用了領(lǐng)域內(nèi)的知識庫和詞典,將它們列入標準實體的范圍。傳統(tǒng)的方式是將醫(yī)學領(lǐng)域的實體規(guī)范化作為句子對分類任務(wù)進行處理[6,9-11]。Leaman等人[9]首次提出了一種成對學習排序技術(shù),該技術(shù)采用矢量空間模型來計算非標準化醫(yī)學實體和標準化醫(yī)學實體兩者的文本相似度。其他研究者還提出使用深度神經(jīng)網(wǎng)絡(luò)對醫(yī)學實體進行規(guī)范化。Limsopatham[10]以及Li的團隊[6]采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來計算待標準化實體與知識庫中的候選實體之間的深度語義匹配度。Luo等人[12]提出一個多任務(wù)框架,可以對疾病和手術(shù)操作類實體進行規(guī)范化,多任務(wù)共享結(jié)構(gòu)使模型能夠利用疾病和手術(shù)操作之間的醫(yī)學相關(guān)性,更好地執(zhí)行消岐任務(wù)。Ji等人[11]通過微調(diào)的預訓練BERT模型來實現(xiàn)實體規(guī)范化。
Transformer 是一種基于端到端(sequence-to-sequence)結(jié)構(gòu)的生成式模型。該模型由Vaswani提出[7],在多個翻譯任務(wù)上達到當前最優(yōu)效果。模型采用的是編碼器—解碼器的模型框架,和以往基于RNN的生成式模型不同之處在于,該模型完全基于注意力機制實現(xiàn)。其中,編碼器的每個層塊包含兩個子模塊,分別是多頭自注意力模塊(multi-head attention)和一個全連接前饋神經(jīng)網(wǎng)絡(luò)。解碼器的每個層塊由三個子模塊構(gòu)成,除了編碼器中的兩個模塊外,在這兩個模塊之間另外加入了一個與編碼器輸出層相連的多頭注意力模塊,用于關(guān)注源端的信息,使模型能夠更大程度地關(guān)注到不同位置不同表示子空間的特征信息。
BERT是一種預訓練語言模型,其利用雙向注意力機制和大規(guī)模的無監(jiān)督語料庫來獲得句子中每個單詞的上下文表示信息。BERT在多種自然語言處理(NLP)任務(wù)上取得了最優(yōu)的研究成果。BERT的基本結(jié)構(gòu)包括自注意編碼器和下游任務(wù)層。
不同于傳統(tǒng)的“篩選—比較”方法中直接利用原詞對標準詞庫中所有詞進行遍歷篩選的方式,本文提出“生成—篩選—比較”的方式,如圖2所示,我們的系統(tǒng)總共分為三個步驟: ①核心語義生成,即利用生成式模型Transformer生成原詞所對應的標準詞的一級類別標簽以及偽標準詞文本; ②候選集生成,我們分兩步生成候選集,首先通過類別標簽選取類別下所有標準詞作為候選集1,再通過文本相似度算法LCS[13]對候選集1中的候選詞做進一步的篩選,生成候選集2; ③基于語義相似度的重排序,通過預訓練的BERT對候選集2進行基于語義相似度的排序,生成最終的標準詞。下面我們將對系統(tǒng)的各個模塊進行介紹。
圖2 臨床術(shù)語標準化系統(tǒng)流程圖
我們將原詞核心語義信息的生成類比成源端語言到目標端語言的翻譯任務(wù)。和標準的源語言到目標語言的翻譯任務(wù)不同的是,術(shù)語標準化任務(wù)要求生成的目標端結(jié)果必須能夠和標準詞庫中的一個或多個候選詞嚴格對應。而通過端到端翻譯模型生成的目標端結(jié)果雖然在一定程度上和標準詞近似,但不能確保完全匹配,我們稱之為“偽標準詞”。這些生成的偽標準詞需要和候選詞進行進一步的相似度計算才能最終確定其在標準詞庫中所對應的標準詞。同時,為了生成后續(xù)的相似度計算候選集,需要確定所生成的每一個偽標準詞所對應的核心語義(這里取一級核心語義,即所對應標準詞庫中的類別標簽)。因此,在采用Transformer生成“偽標準詞”的同時,我們還利用Transformer生成其類別標簽,如圖3所示,采用先生成類別標簽再生成偽標準詞的順序,讓翻譯模型的解碼端依次生成原詞所包含的所有核心語義信息。
圖3 模型的decoder端示例
同時生成語義標簽和偽標準詞的方式有三點優(yōu)勢: 第一,生成結(jié)果中的偽標準詞雖然和原詞對應的標準詞存在一定的翻譯誤差,但是其文本結(jié)構(gòu)相較于原詞而言會更符合標準詞的文法結(jié)構(gòu)(如縮寫詞的對應關(guān)系),可以用來對候選集進行字詞層面的篩選;第二,生成結(jié)果中的類別標簽可以直接唯一確定標準詞在標準詞庫中所在的范圍,從而縮小候選集的大??;第三,以類別標簽為分割符的偽標準詞個數(shù)可以間接確定原詞所需要對應的標準詞數(shù)目。
根據(jù)模型生成的類別標簽可以將標準詞的選擇范圍限制在其類別之內(nèi),但是考慮到訓練數(shù)據(jù)對《ICD9-2017協(xié)和臨床版》 手術(shù)詞表中所有類別的覆蓋情況,這里模型只對標準詞的一級標簽進行輸出,而經(jīng)統(tǒng)計,平均每個一級標簽下有98個候選標準詞。對于后續(xù)的語義相似度排序算法來說,若待排序的候選詞過多,則會帶來噪聲多、時間成本高等問題。因此,本文采用基于字詞結(jié)構(gòu)的相似度算法對通過類別標簽所篩選的候選集進行進一步的篩選。
對于本系統(tǒng)而言,由2.1節(jié)可知,由于模型所生成的偽標準詞需要和候選詞進行進一步的相似度計算才能最終確定其在標準詞庫中所對應的標準詞,如圖4所示。這里首先利用結(jié)果中生成的類別標簽來篩選出標準詞庫中對應的同種類別下的候選詞,構(gòu)成相似度計算的候選集1。然后通過翻譯結(jié)果中的偽標準詞來和候選集1中的每個候選詞進行相似度計算,保留相似度最高得分的N個(由于可能存在同分情況,這里的N≥1)形成候選集2。
圖4 基于翻譯模型的候選集篩選
本文采用最長公共子串(longest common subsequence,LCS)算法來對候選集進行篩選。
圖5 算法1
由于通過類別標簽挑選出的同類別下的標準詞詞形大體相似,而LCS算法只考慮了詞形上的相似關(guān)系,因此即便只取最高相似度得分也會篩選出具有相同得分的候選詞。本節(jié)介紹如何對原詞和候選詞進行語義層面的相似度計算。
本文采用中文預訓練的BERT模型對原詞和候選詞進行語義表示。如圖6所示,輸入為“[SEP]”分隔的字符串,取第一位隱層原詞和候選詞以字符為單位并按標識符單元“[CLS]”的輸出,經(jīng)過非線性變化映射到一個固定維度的向量v作為“原詞—候選詞”的語義表示,并和可訓練權(quán)重矩陣W∈Rn×k進行相乘,如式(1)所示。
圖6 基于BERT的語義相似度計算模型
(1)
其中,n是輸出的固定維度,k是標簽的數(shù)量,這里令k=2,標簽label分為兩種,即“語義相關(guān)”和“語義無關(guān)” 。
我們采用交叉熵損失對模型進行優(yōu)化學習。
如圖7所示,使用BERT語義相似度模型對候
圖7 語義相似度排序部分流程圖
選集中所有詞進行語義相似度打分后,按得分從高到低依次排序。同時,按照翻譯模型生成的偽標準詞數(shù)量作為原詞應該對應的最終標準詞的數(shù)量,將排序結(jié)果由高至低進行截取,將截取后的候選詞進行合并得到最終標準詞。
考慮到訓練數(shù)據(jù)所包含的4 000條“原詞—標準詞”數(shù)據(jù)并不能將標準詞庫中所有類別覆蓋,并且存在部分原詞和標準詞的詞形十分近似或完全一致的問題,我們將標準詞庫《ICD9-2017協(xié)和臨床版》手術(shù)詞表中共9 867個標準詞按照2.1節(jié)中的翻譯模型訓練數(shù)據(jù)進行格式轉(zhuǎn)換,示例如圖8所示。
圖8 模型訓練數(shù)據(jù)格式轉(zhuǎn)換示例
之后將所有轉(zhuǎn)換格式后的數(shù)據(jù)作為額外的訓練數(shù)據(jù)和原訓練文件的4 000條數(shù)據(jù)進行合并,共構(gòu)成13 867條訓練數(shù)據(jù)。
3.1.2 基于分詞數(shù)據(jù)模型構(gòu)建
為了集成不同文本粒度的翻譯模型,如字到字、詞到詞、字到詞,我們在現(xiàn)有分詞系統(tǒng)的基礎(chǔ)上,通過人工總結(jié)出相關(guān)構(gòu)詞元素,如“部位”“操作手段”“術(shù)式”等,將這些元素分別構(gòu)成詞庫并對原詞進行分詞操作。基于構(gòu)造的分詞系統(tǒng),可以分別構(gòu)造出如圖9所示的三種訓練數(shù)據(jù)。
圖9 不同粒度訓練數(shù)據(jù)示例
基于構(gòu)建的三種不同文本粒度訓練數(shù)據(jù),我們分別訓練了三個Transformer的翻譯模型。如圖10所示,使用字到字模型生成的類別標簽對標準詞庫進行篩選,取同類別下所有標準詞構(gòu)成候選集1,然后將三個模型生成的偽標準詞分別應用2.2節(jié)中的算法1,得到各自的候選集,最后將生成的候選集取并集。
圖10 不同文本粒度翻譯模型篩選候選集
3.1.3 語義相似度訓練數(shù)據(jù)構(gòu)建
取原訓練集的4 000條數(shù)據(jù)的原詞,對于每一個原詞,通過其對應的標準詞找到其在標準詞庫所對應的一級類別,采用相似度算法LCS對同類別下的每一個標準詞進行相似度計算,取相似度前10作為訓練數(shù)據(jù),并使正負例比例為1∶10。
本次評測系統(tǒng)所使用的翻譯模型和語義相似度計算模型分別在開源項目Transformer(1)https://github.com/Kyubyong/Transformer和BERT(2)https://github.com/google-research/bert上進行修改,實驗設(shè)置情況如下:
展望2019年上半年,游戲板塊仍將大概率受到行業(yè)發(fā)展環(huán)境中的消極因素影響。一方面,經(jīng)濟增速與消費活力的恢復情況仍需觀望;另一方面,文娛內(nèi)容監(jiān)管政策趨緊已不可逆,行業(yè)需要時間進行調(diào)整和適應。但游戲板塊最艱難的時刻正在過去,板塊估值已基本消化了大部分利空因素,行業(yè)變革中脫穎而出的佼佼者能夠為板塊帶來新的活力,而中小游戲廠商也有可能依靠單一創(chuàng)新產(chǎn)品呈現(xiàn)驚人的爆發(fā)力。
(1)Transformer: 每個模型使用1塊GPU進行訓練,batch大小設(shè)為128,輪數(shù)epochs設(shè)為150,詞向量的維度為512,隱層狀態(tài)維度為2 048,編碼器與解碼器均為6層,多頭自注意力機制使用8個頭。dropout設(shè)為0.3,我們使用Adam梯度優(yōu)化算法,初始學習率為0.000 3,warmup設(shè)為4 000。訓練語料采用2.2節(jié)所述方式進行構(gòu)建,選取的字到字、詞到詞和字到詞的詞表大小分別為1 550、4 215和4 326,源端和目標端共享詞表。
(2)BERT: 在Google發(fā)布的中文預訓練模型BERT-Base(3)https://github.com/google-research/bert/blob/master/multilingual.md基礎(chǔ)上進行微調(diào),數(shù)據(jù)采用2.3節(jié)所述方式進行構(gòu)建,batch大小設(shè)為32,訓練輪數(shù)epoch設(shè)為30,輸入序列最大值為100,初始學習率為0.000 05,其余保持默認參數(shù)。
本次評測所使用的指標,如式(2)所示。
(2)
其中,res為模型對當前原詞所給出的標準詞集合,ref為正確的標準詞集合。|res|和|ref|分別為上述兩個集合的大小。
表2是本次評測所提交模型的最終結(jié)果,該結(jié)果使用的測試集為評測方提供的2 000條數(shù)據(jù)。在測試集中測得準確率為91.3417%。
表2 基本模塊評測結(jié)果
本小節(jié)我們將針對上文提及的方法和策略對于標準化質(zhì)量的影響分別加以分析。和3.3節(jié)中評測指標不同,實驗分析部分采用的評測指標采用嚴格相似度計算,即要求模型輸出結(jié)果和標準答案完全一致則記1分,否則記0分。這里的實驗結(jié)果為開發(fā)集上的結(jié)果,開發(fā)集由評測方發(fā)布,共1 000條標注數(shù)據(jù)。
3.4.1 基本模塊分析
在開發(fā)集上的實驗結(jié)果如表2所示,baseline使用LCS相似度算法,令每個待標準化原詞都和標準詞庫中所有詞進行相似度比對,取相似度最高者作為標準化結(jié)果?!?Transformer”為單獨使用Transformer(字到字)對原詞到標準調(diào)進行直接翻譯,翻譯結(jié)果作為標準化結(jié)果?!?code”為3.1節(jié)中將標準詞庫數(shù)據(jù)添加至訓練集共同訓練的Transformer結(jié)果。“+LCS”為2.3節(jié)中基于LCS打分的候選集生成后直接選取最高得分候選詞作為標準化結(jié)果輸出?!?BERT”為對2.3節(jié)所構(gòu)建的候選集再進行基于BERT的語義打分結(jié)果。
從上述實驗結(jié)果可以看出,翻譯模型的使用、訓練數(shù)據(jù)擴充、語義相似度比較對標準詞準確率的提升均有一定的幫助。其中加入翻譯模型的方法對效果有顯著提升,證明了該方法的有效性。
3.4.2 基于不同粒度的翻譯模型效果分析
我們發(fā)現(xiàn),基于字到字的翻譯模型對偽標準詞的直接翻譯準確率要高于基于詞到詞的翻譯模型,結(jié)果如表3所示。
表3 不同文本粒度的翻譯模型效果
對于生成的類別標簽和偽標準詞數(shù)目的準確度來說,字到字和字到詞模型的效果相差不大,詞到詞模型在類別標簽生成準確度上比前兩個模型低下約兩個百分點左右。而對于偽標準詞的直接翻譯準確度而言,字到字模型的準確度則完全高過后兩個模型,比詞到詞模型的準確率高接近4個百分點。我們分析主要有兩點原因: 首先由于訓練數(shù)據(jù)不夠充分,分詞之后的一些低頻詞在訓練過程中沒有被模型很好地學習到特征;其次,由于數(shù)據(jù)領(lǐng)域?qū)I(yè)性強,分詞系統(tǒng)并不能很好地對專業(yè)術(shù)語進行切分。盡管三個模型的生成效果差別大,但是經(jīng)測試,三個模型所生成的偽標準詞的并集對正確標準詞的召回率可以達到90.9%,即說明不同模型之間生成的結(jié)果存在一定的互補性。
3.4.3 不同候選集生成的策略分析
除了2.2節(jié)中所使用的LCS相似度計算方式,我們還測試了多種不同的方法來生成候選集,其各自對標準詞的召回率如表4所示。
表4 不同相似度算法對候選集的標準詞召回率結(jié)果
續(xù)表
其中embeddingcos方式為利用Glove(4)https://github.com/stanfordnlp/GloVe模型將候選詞和生成的偽標準詞轉(zhuǎn)換為向量表示,然后通過向量之間的余弦相似度進行比對。committeeVote方式將上述所有方式構(gòu)成一個委員會,通過投票的機制決定候選集。可以看出,縱向?qū)Ρ壬鲜龅膸追N相似度篩選方式,在召回率上差別不明顯,橫向?qū)Ρ?,當取相似度?0的候選詞加入候選集后,標準詞的召回率明顯提升,改為取前20的候選詞之后召回率并未明顯提升。
針對候選詞數(shù)目選擇問題,我們以LCS相似度算法為基準,生成不同的候選集后交由BERT模型進行語義相似度排序,最終的準確率結(jié)果如表5所示。
表5 基于LCS算法的不同候選集選擇策略下的標準化的準確率
可以看出,雖然取top10和top20的候選詞數(shù)目可以明顯提升標準詞的召回率,但是通過BERT語義相似度重排序后得到的結(jié)果卻出現(xiàn)了明顯下降,我們分析這是由于過大的候選集會不可避免地帶來更多的噪聲,從而對語義相似度模型的排序造成干擾。而只取最高相似度得分的策略雖然在最終結(jié)果上達到89%的準確率,但是由于其標準詞的召回率只有91.6%(表4),其準確率的上限并不高。因此,如何在提高標準詞的召回率的基礎(chǔ)上提升語義相似度排序的準確率是一個值得研究的問題。