• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)實(shí)體標(biāo)準(zhǔn)化研究

      2022-05-31 02:28:28趙蘭枝史欣沅
      科技創(chuàng)新與應(yīng)用 2022年15期
      關(guān)鍵詞:實(shí)體準(zhǔn)確率卷積

      趙蘭枝,史欣沅

      (1.河套學(xué)院 數(shù)學(xué)與計(jì)算機(jī)系,內(nèi)蒙古 巴彥淖爾015000;2.中國(guó)科學(xué)院大學(xué),北京101408)

      在科學(xué)報(bào)告和公共出版物中,同一概念往往具有不同的表達(dá)方式。實(shí)體標(biāo)準(zhǔn)化,或者稱(chēng)為實(shí)體鏈接,就是要將不同的表達(dá)形式對(duì)應(yīng)到相同的標(biāo)準(zhǔn)實(shí)體上。在生物醫(yī)學(xué)領(lǐng)域,每年要出版數(shù)十萬(wàn)的文章。所以,自動(dòng)的高效率信息檢索和知識(shí)處理是非常重要的。自然語(yǔ)言處理領(lǐng)域的幾大基本問(wèn)題之一就是實(shí)體標(biāo)準(zhǔn)化。實(shí)體標(biāo)準(zhǔn)化要完成從模糊表達(dá)或者多樣化表達(dá)到標(biāo)準(zhǔn)表達(dá)的任務(wù)。

      人們?yōu)榱送瓿蓪?shí)體標(biāo)準(zhǔn)化的任務(wù)做了許多的嘗試。由于生物醫(yī)學(xué)領(lǐng)域概念的多樣性,生物醫(yī)學(xué)的實(shí)體標(biāo)準(zhǔn)化始終是研究中的前沿領(lǐng)域,許多致力于完成實(shí)體標(biāo)準(zhǔn)化的文章紛紛發(fā)表。然而僅僅依靠形式上的相似來(lái)判定鏈接關(guān)系是不恰當(dāng)?shù)?。要想?zhǔn)確地完成實(shí)體標(biāo)準(zhǔn)化,必須要從實(shí)體所蘊(yùn)含的內(nèi)在含義出發(fā)來(lái)思考問(wèn)題。由于深度學(xué)習(xí)的崛起,人們期望機(jī)器能夠自己學(xué)習(xí)到不同實(shí)體之間的鏈接關(guān)系,即使用機(jī)器學(xué)習(xí)的方法來(lái)完成實(shí)體標(biāo)準(zhǔn)化。

      近些年來(lái),以機(jī)器學(xué)習(xí)為代表的人工智能領(lǐng)域迅速崛起并且成為當(dāng)代學(xué)術(shù)界和工業(yè)界的熱點(diǎn)話(huà)題?,F(xiàn)在,人工智能技術(shù)遍布我們的生活。從手機(jī)語(yǔ)音助手、商品推薦系統(tǒng)、人臉識(shí)別系統(tǒng)到自動(dòng)駕駛技術(shù),這些都或多或少地使用了人工智能技術(shù)。特別是近些年,隨著數(shù)據(jù)的爆炸式增長(zhǎng)、機(jī)器計(jì)算能力的增強(qiáng)、機(jī)器學(xué)習(xí)算法的成熟以及其廣闊的應(yīng)用前景,越來(lái)越多的人開(kāi)始關(guān)注“深度學(xué)習(xí)”這個(gè)全新的研究領(lǐng)域,深度學(xué)習(xí)也以其強(qiáng)大的能力被運(yùn)用于各個(gè)研究領(lǐng)域。詞嵌入技術(shù)的出現(xiàn)使得自然語(yǔ)言轉(zhuǎn)變?yōu)樘卣飨蛄慨a(chǎn)生可能,也使得深度學(xué)習(xí)開(kāi)始被運(yùn)用于自然語(yǔ)言處理領(lǐng)域。然而深度學(xué)習(xí)需要大量的標(biāo)注數(shù)據(jù)作為訓(xùn)練集。當(dāng)可供訓(xùn)練的語(yǔ)料庫(kù)較小時(shí),通過(guò)深度學(xué)習(xí)完成實(shí)體標(biāo)準(zhǔn)化就成為了挑戰(zhàn)。

      本文從研究實(shí)體的語(yǔ)義含義出發(fā),通過(guò)使用預(yù)先訓(xùn)練好的詞向量所包含的語(yǔ)義信息來(lái)完成從通俗文本表達(dá)到標(biāo)準(zhǔn)實(shí)體的任務(wù)。通過(guò)整合完美匹配和淺層卷積神經(jīng)網(wǎng)絡(luò)的方法,本文模型能夠在可訓(xùn)練樣本較少的情況下達(dá)到非常好的性能表現(xiàn)。

      1 基于廣域表的縮寫(xiě)檢測(cè)模型處理實(shí)體類(lèi)型產(chǎn)生數(shù)據(jù)集的原理

      通過(guò)將預(yù)先標(biāo)注好的文件整合并處理后生成廣域表,借由廣域表完成縮寫(xiě)檢測(cè)和找到本文處理的實(shí)體類(lèi)型產(chǎn)生數(shù)據(jù)集。首先將數(shù)據(jù)集經(jīng)過(guò)完美匹配模塊進(jìn)行部分匹配和剪枝,然后將目前還未被匹配的實(shí)體送入卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行實(shí)體標(biāo)準(zhǔn)化產(chǎn)生特征向量并與標(biāo)準(zhǔn)向量進(jìn)行對(duì)比,通過(guò)投票器獲得最終結(jié)果。

      本文采用的輸入數(shù)據(jù)是經(jīng)過(guò)預(yù)先標(biāo)注好的文本數(shù)據(jù)。預(yù)標(biāo)注文本是由人工標(biāo)注的文本,并為每個(gè)實(shí)體標(biāo)記了類(lèi)型。預(yù)標(biāo)注文件分為兩類(lèi),一類(lèi)標(biāo)注文件標(biāo)記了每篇文章中出現(xiàn)的實(shí)體并為其編號(hào),同時(shí)指明了該實(shí)體的其他具體信息;另一類(lèi)標(biāo)注文件標(biāo)記了每篇文章中出現(xiàn)的標(biāo)準(zhǔn)實(shí)體并為其編號(hào)以及對(duì)應(yīng)的字典ID等具體信息。例如對(duì)于一篇如圖1所示的語(yǔ)段,其對(duì)應(yīng)標(biāo)注文件如圖2和圖3所示。

      圖1 原始文本數(shù)據(jù)

      圖2 預(yù)標(biāo)注文件一(截圖)

      圖3 預(yù)標(biāo)注文件二(截圖)

      由《Abbreviation definition identification based on automatic precision estimates》一文提出的縮寫(xiě)檢測(cè)模型(以下簡(jiǎn)稱(chēng)Ab3P模型)是一種準(zhǔn)確率極高的,能將生物醫(yī)學(xué)領(lǐng)域的縮寫(xiě)詞轉(zhuǎn)變成完整形式的模型。在各種各樣的出版物中,縮寫(xiě)形式在通俗文本中是普遍存在的。例如CNS表示中樞神經(jīng)系統(tǒng)(central nervous system,CNS),這樣的用法經(jīng)常出現(xiàn)在有關(guān)神經(jīng)學(xué)科的研究文獻(xiàn)中。顯然,這樣的縮寫(xiě)形式也應(yīng)該鏈接到相應(yīng)的實(shí)體上去。由于縮寫(xiě)詞大部分來(lái)源于詞組,縮寫(xiě)詞通常沒(méi)有預(yù)先訓(xùn)練好的詞向量,并且會(huì)對(duì)模型的訓(xùn)練產(chǎn)生干擾。本文通過(guò)Ab3P模型[1]來(lái)將通俗文本中的縮寫(xiě)形式轉(zhuǎn)換其對(duì)應(yīng)的標(biāo)準(zhǔn)詞組。Ab3P是一個(gè)專(zhuān)門(mén)為生物醫(yī)學(xué)概念開(kāi)發(fā)的縮寫(xiě)檢測(cè)工具,其準(zhǔn)確率高達(dá)96.5%。Ab3P縮寫(xiě)檢測(cè)模塊如圖4所示。

      圖4 Ab3P縮寫(xiě)檢測(cè)模塊

      通過(guò)應(yīng)用Ab3P縮寫(xiě)檢測(cè)模型可以生成每篇文章對(duì)應(yīng)的縮寫(xiě)詞對(duì)照表??s寫(xiě)詞對(duì)照文件包含實(shí)體的縮寫(xiě)形式和其對(duì)應(yīng)的完整形式等信息。一個(gè)縮寫(xiě)詞對(duì)照文件如圖5所示。

      圖5 縮寫(xiě)詞對(duì)照(文件截圖)

      對(duì)于神經(jīng)網(wǎng)絡(luò)所需要使用的輸入數(shù)據(jù),需要將通俗文本中的實(shí)體對(duì)應(yīng)到相應(yīng)的標(biāo)準(zhǔn)實(shí)體上。首先需要通過(guò)由Ab3P模型生成的縮寫(xiě)詞對(duì)照表將縮寫(xiě)形式用完整形式替換,再將所有數(shù)據(jù)合并到一張廣域表中以供模型之后使用。廣域表的部分?jǐn)?shù)據(jù)如圖6所示。

      圖6 廣域表部分?jǐn)?shù)據(jù)(截圖)

      輸入文件給出了標(biāo)準(zhǔn)詞典,標(biāo)準(zhǔn)詞典包含實(shí)體ID和標(biāo)準(zhǔn)實(shí)體名稱(chēng)2部分?jǐn)?shù)據(jù)。部分標(biāo)準(zhǔn)詞典數(shù)據(jù)如圖7所示。

      圖7 標(biāo)準(zhǔn)詞典部分?jǐn)?shù)據(jù)(截圖)

      對(duì)于帶有連字符的實(shí)體,需要用空白字符取代連字符來(lái)保證模型的正確運(yùn)行。同時(shí),大小寫(xiě)的不同也可能會(huì)對(duì)詞向量的生成產(chǎn)生影響。如果某個(gè)詞無(wú)法在詞向量模型中找到匹配項(xiàng),則需要將其全部轉(zhuǎn)為小寫(xiě)形式再進(jìn)行匹配。對(duì)于一個(gè)標(biāo)準(zhǔn)實(shí)體來(lái)說(shuō),使用預(yù)先訓(xùn)練好的Word2Vec模型,將實(shí)體中的每個(gè)詞轉(zhuǎn)變成相對(duì)應(yīng)的大小為(1,200)詞向量。每個(gè)詞對(duì)應(yīng)的詞向量為xi=[x1,x2,...,xk],其中k=200。然后對(duì)這n個(gè)詞向量做簡(jiǎn)單平均處理得到該實(shí)體對(duì)應(yīng)的詞向量y=[y1,y2,...yk],其中k=200。

      其中,xji表示第i個(gè)詞向量的第j個(gè)分量,ni表示詞向量的個(gè)數(shù)。

      由于大小為(1,200)的詞向量處理起來(lái)開(kāi)銷(xiāo)很大,并且包含許多次要信息,所以需要對(duì)詞向量進(jìn)行降維處理。本文使用主成分分析法對(duì)詞向量進(jìn)行降維,主要成分占比例不小于95%。經(jīng)過(guò)主成分分析法降維的向量大小為(1,139),大大提升了模型的效率。假設(shè)實(shí)體E的標(biāo)準(zhǔn)向量為z,則z=PCA(y,ncomponent=0.95)$,其中y表示實(shí)體E的大小為(1,200)的詞向量。最后將所有標(biāo)準(zhǔn)向量與標(biāo)準(zhǔn)詞典表合并得到標(biāo)準(zhǔn)向量表。生成標(biāo)準(zhǔn)向量如圖8所示。

      圖8 生成標(biāo)準(zhǔn)向量

      首先要將訓(xùn)練數(shù)據(jù)分割為訓(xùn)練集和驗(yàn)證集,本文選擇從訓(xùn)練數(shù)據(jù)中隨機(jī)選擇17%作為驗(yàn)證集數(shù)據(jù)。由于訓(xùn)練數(shù)據(jù)中包含許多未對(duì)齊實(shí)體(這些都是與本文所研究目標(biāo)無(wú)關(guān)的實(shí)體),第一步要從廣域表中去掉這些實(shí)體項(xiàng)。

      同時(shí)本文的研究對(duì)象為phenotype和habitat,所以需要剔除其他類(lèi)型的實(shí)體。然后將剩余的通俗實(shí)體通過(guò)詞向量模型轉(zhuǎn)化成大小為(8,200)的嵌入矩陣。由于98.8%的實(shí)體都是由不超過(guò)8個(gè)詞組成的,所以設(shè)置嵌入矩陣的行數(shù)為8。如果實(shí)體的詞向量個(gè)數(shù)不足8個(gè),則需要用零向量填充至8個(gè)。若實(shí)體的詞向量個(gè)數(shù)超過(guò)8個(gè),則需要進(jìn)行分組。每8個(gè)一組,組內(nèi)進(jìn)行簡(jiǎn)單平均處理。若最終結(jié)果不足8個(gè),則進(jìn)行0填充。經(jīng)過(guò)這樣的處理,每個(gè)通俗實(shí)體都是有大小為(8,200)的嵌入矩陣描述。令Xi表示第i個(gè)輸入的實(shí)體,xij表示第i個(gè)實(shí)體Xi第j個(gè)單詞的k維詞向量,本文中k=200。定義詞嵌入矩陣xi如下:

      2 利用完美匹配模塊提升模型的精度和提高卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率

      值得注意的是,自由文本中的某些實(shí)體能夠通過(guò)基于規(guī)則的處理與標(biāo)準(zhǔn)實(shí)體完成形態(tài)上的匹配。這些實(shí)體經(jīng)過(guò)形態(tài)上的比較即可快速地找到對(duì)應(yīng)標(biāo)準(zhǔn)實(shí)體,而不需要被送入神經(jīng)網(wǎng)絡(luò)模型來(lái)完成鏈接。并且根據(jù)我們的詞向量生成方式,形態(tài)上完全相同的實(shí)體之間,其特征向量一般也應(yīng)該是相同的。由于完美匹配模塊的貢獻(xiàn),本文的神經(jīng)網(wǎng)絡(luò)模型能夠更高效地利用數(shù)據(jù),收斂速度也會(huì)加快。完美匹配的規(guī)則如下:

      (1)用空白符替代連字符;

      (2)移除除去字母和空白符之外的所有字符;

      (3)采用大小寫(xiě)不敏感匹配模式。

      完美匹配模塊如圖9所示。

      圖9 完美匹配模塊

      采用卷積神經(jīng)網(wǎng)絡(luò)的靈感來(lái)源于KIM[2]和LIMIMSOPATHAM與COLLIER[3]等人。由于卷積核相當(dāng)于特征提取器,使用卷積神經(jīng)網(wǎng)絡(luò)可以提取詞向量中內(nèi)在的本質(zhì)特征。不同的卷積核可以提取的不同的特征,通過(guò)增加卷積核的個(gè)數(shù)可以增加提取的特征數(shù)目。一般來(lái)說(shuō)直接提取的特征過(guò)于細(xì)致,所以需要使用池化來(lái)提升來(lái)進(jìn)一步捕捉泛化特征和降低維度來(lái)提高收斂速度。使用全連接層可以學(xué)習(xí)到不同特征之間的相互聯(lián)系。所以卷積神經(jīng)網(wǎng)絡(luò)往往會(huì)在網(wǎng)絡(luò)尾端加入全連接層。

      本文的卷積神經(jīng)網(wǎng)絡(luò)模塊由1個(gè)一維卷積層、1個(gè)池化層和2個(gè)全連接層構(gòu)成。神經(jīng)網(wǎng)絡(luò)的輸入為大小為(8,200)的嵌入矩陣,輸出為一個(gè)大小為(1,139)的特征向量。輸出的特征向量將與所有標(biāo)準(zhǔn)向量進(jìn)行比較,選擇在特征空間中余弦距離最小的向量作為該實(shí)體對(duì)應(yīng)的標(biāo)準(zhǔn)向量的得分。選擇得分最高的標(biāo)準(zhǔn)向量最為該實(shí)體對(duì)應(yīng)的標(biāo)準(zhǔn)向量。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖10所示。

      圖10 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      為了減少過(guò)擬合,本文采用3個(gè)CNN模型同時(shí)訓(xùn)練的集成方法。3個(gè)CNN模型具有相同的結(jié)構(gòu),但是他們的初始權(quán)重卻是各自隨機(jī)初始化,并且具有不同的卷積核大小,不同大小的卷積核和可以抽取不同細(xì)粒度的特征。為了增強(qiáng)本文模型的泛化能力,CNN模型所使用的數(shù)據(jù)是經(jīng)過(guò)隨機(jī)bootstrap取樣的[4]。并且本文采用5-折交叉驗(yàn)證的方法使用袋外數(shù)據(jù)來(lái)驗(yàn)證。3個(gè)CNN模型產(chǎn)生的特征向量將被送入一個(gè)多數(shù)投票器中。如果沒(méi)有結(jié)果以多數(shù)優(yōu)勢(shì)勝出,則投票器會(huì)選取一個(gè)驗(yàn)證過(guò)程中準(zhǔn)確率最高的模型產(chǎn)生的結(jié)果。結(jié)合集成機(jī)制的網(wǎng)絡(luò)模型如圖11所示。

      圖11 結(jié)合集成機(jī)制的網(wǎng)絡(luò)模型

      整個(gè)模型的輸入數(shù)據(jù)分為2種:預(yù)注釋通俗文本實(shí)體和標(biāo)注實(shí)體。

      標(biāo)準(zhǔn)實(shí)體通過(guò)詞向量模型轉(zhuǎn)變成(n,200)的向量模型,再經(jīng)過(guò)簡(jiǎn)單平均和PCA降維處理后變成大?。?,139)的標(biāo)準(zhǔn)向量。

      預(yù)注釋文本中的實(shí)體首先經(jīng)過(guò)Ab3P模塊將縮寫(xiě)詞還原到完整形式,然后通過(guò)詞向量模型成為(8,200)的嵌入矩陣。嵌入矩陣被送入3個(gè)結(jié)構(gòu)相同的CNN模型中,得到大小為(1,139)的特征向量。將特征向量與標(biāo)準(zhǔn)向量做比對(duì),選取余弦相似度最高的標(biāo)準(zhǔn)向量送入投票器。投票器選擇得分最高的標(biāo)準(zhǔn)向量作為結(jié)果。數(shù)據(jù)流動(dòng)方向如圖12所示。

      圖12 數(shù)據(jù)流動(dòng)方向

      3 實(shí)驗(yàn)結(jié)果及分析

      本文所使用的生物醫(yī)學(xué)語(yǔ)料庫(kù)和預(yù)先注釋的實(shí)體集由BioNLP-OS2019 task Bacteria Biotope提供。該任務(wù)中包含了2種實(shí)體類(lèi)型:phenotype和habitat。實(shí)體phenotype描述了微生物的特性;實(shí)體habitat描述了可以觀察到微生物的物理環(huán)境。同時(shí)該任務(wù)還提供了包含了3 602個(gè)相關(guān)標(biāo)準(zhǔn)概念的標(biāo)準(zhǔn)詞典。在提供的原始詞典中,每個(gè)實(shí)體被分配了一個(gè)唯一的ID,同時(shí)提供了該實(shí)體的層級(jí)信息。在本文中,每個(gè)標(biāo)準(zhǔn)實(shí)體的層級(jí)信息被省略。Ab3P縮寫(xiě)詞探測(cè)器由任務(wù)組織者們另外提供。預(yù)先編譯好的詞向量模型也需要單獨(dú)下載。本文所使用的實(shí)驗(yàn)環(huán)境為windows 10專(zhuān)業(yè)版20H2。本文使用基于Tensorflow和Keras的深度學(xué)習(xí)框架設(shè)計(jì)模型和算法,使用python語(yǔ)言進(jìn)行編程。

      本文的神經(jīng)網(wǎng)絡(luò)模型使用隨機(jī)梯度下降算法作為優(yōu)化方法,使用余弦相似度作為損失函數(shù)。在整個(gè)訓(xùn)練數(shù)據(jù)中,隨機(jī)選擇20%作為驗(yàn)證集數(shù)據(jù)。同時(shí)使用提前停止法來(lái)決定訓(xùn)練輪數(shù)。設(shè)置學(xué)習(xí)率為0.01,batch size為2,三個(gè)模型的卷積核大小分別為4、5和6,卷積核數(shù)目為5 000,超參數(shù)的設(shè)置由網(wǎng)格搜索法決定。

      本文所介紹的模型具有良好的性能。表1展示了本文模型各個(gè)組件的準(zhǔn)確率。通過(guò)分析表1可以看出,我們的完美匹配模塊起到了相當(dāng)?shù)淖饔?。在測(cè)試集中,CNN模塊的準(zhǔn)確率只有0.66,而整體的模型準(zhǔn)確度卻達(dá)到了0.71,這說(shuō)明完美匹配模塊對(duì)整體模型準(zhǔn)確度的貢獻(xiàn)相當(dāng)可觀。

      表1 模型各部分性能

      由表2可知,通過(guò)與其他模型的比較,ABCNN[5]只有0.22的準(zhǔn)確率,而本文模型卻具有0.71的準(zhǔn)確率,顯示了本文模型的巨大優(yōu)勢(shì)。由于ABCNN模型比較復(fù)雜,在數(shù)據(jù)集比較充分時(shí)發(fā)揮出非常高的性能。但是在數(shù)據(jù)集較少時(shí),ABCNN模型的訓(xùn)練不足,無(wú)法發(fā)揮很好的性能。得益于淺層卷積網(wǎng)絡(luò)的簡(jiǎn)單結(jié)構(gòu),本文模型在數(shù)據(jù)集較少時(shí)能夠較快收斂并且達(dá)到非常高的精度?;鶞?zhǔn)模型[6]的準(zhǔn)確率為0.69,由于基準(zhǔn)模型只有一個(gè)全連接層,無(wú)法從數(shù)量眾多的特征中學(xué)習(xí)到各個(gè)特征和標(biāo)準(zhǔn)向量之間的關(guān)系。本文使用2個(gè)全連接層來(lái)捕捉特征和標(biāo)準(zhǔn)向量之間的對(duì)應(yīng)關(guān)系,使得模型準(zhǔn)確率上升到0.71。

      表2 各模型性能比較

      本文采用3個(gè)CNN模型同時(shí)訓(xùn)練的方法來(lái)提升模型準(zhǔn)確率。整合模型的準(zhǔn)確率略?xún)?yōu)于單個(gè)模型,所以整合模型確實(shí)起到了提升模型準(zhǔn)確度的作用,但是整合模型訓(xùn)練比較費(fèi)時(shí)。本文所使用的卷積核數(shù)目為5 000,改變卷積核的數(shù)目會(huì)導(dǎo)致CNN模型準(zhǔn)確度的變化。圖13給出了使用不同卷積核時(shí)CNN模塊的準(zhǔn)確度。

      圖13 卷積核數(shù)目對(duì)準(zhǔn)確率的影響

      當(dāng)卷積核過(guò)少時(shí),CNN模型對(duì)特征的提取不足,導(dǎo)致模型在訓(xùn)練集和測(cè)試集的精確度都比較低;當(dāng)卷積核過(guò)多時(shí),模型提取的特征太多太強(qiáng),導(dǎo)致模型泛化能力變差,即使在訓(xùn)練集上精確度較高,但在測(cè)試集上的精確度卻下降。同時(shí),卷積核增多,訓(xùn)練時(shí)間也會(huì)呈現(xiàn)增加趨勢(shì)。

      雖然本文模型的性能表現(xiàn)比較不錯(cuò),但是仍然存在許多不足。首先,在使用詞向量模型構(gòu)建標(biāo)準(zhǔn)實(shí)體的詞向量時(shí),標(biāo)準(zhǔn)實(shí)體中的每個(gè)詞只是進(jìn)行簡(jiǎn)單的加權(quán)平均。事實(shí)上,一個(gè)實(shí)體的詞語(yǔ)中有的包含更多的語(yǔ)義信息,有的攜帶較少的語(yǔ)義信息。一種合理的方式是考慮為實(shí)體中的每個(gè)單詞分配不同的權(quán)重,以使得生成的標(biāo)準(zhǔn)詞向量更能表示其語(yǔ)義特征。或者使用其他的詞嵌入模型,直接將實(shí)體轉(zhuǎn)化成對(duì)應(yīng)的詞向量。

      其次,CNN模塊存在問(wèn)題。通過(guò)分析CNN模塊的準(zhǔn)確率,CNN模塊在訓(xùn)練集的準(zhǔn)確率較高,但在測(cè)試集的準(zhǔn)確率卻相對(duì)較低。這說(shuō)明CNN模塊的泛化能力有待提升。

      4 結(jié)束語(yǔ)

      本文介紹了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的整合模型用來(lái)將自由文本中的生物醫(yī)學(xué)實(shí)體標(biāo)準(zhǔn)化到其對(duì)應(yīng)的標(biāo)準(zhǔn)實(shí)體上。使用Ab3P縮寫(xiě)詞檢測(cè)模塊完成對(duì)輸入文本中縮寫(xiě)詞的處理。通過(guò)利用預(yù)先訓(xùn)練好的詞嵌入模型將自然語(yǔ)言轉(zhuǎn)變成機(jī)器可以處理的詞向量。利用完美匹配模塊來(lái)提升模型的精度和提高卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率。3個(gè)具有不同大小卷積核的CNN模型同時(shí)訓(xùn)練提高了模型對(duì)詞向量的特征抽取能力。淺層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與完美匹配模塊的結(jié)合使模型在訓(xùn)練數(shù)據(jù)較少時(shí)達(dá)到了相當(dāng)?shù)臏?zhǔn)確率。與相關(guān)模型的對(duì)比也展示出本文模型的效率。但本文模型依然存在一些問(wèn)題,想要達(dá)到更高的準(zhǔn)確率需要更加深入的研究。

      模型性能的進(jìn)一步提升有可能通過(guò)將更多的語(yǔ)義信息納入模型而實(shí)現(xiàn),例如上下文環(huán)境信息,實(shí)體的層次信息等。由于缺乏語(yǔ)境信息而導(dǎo)致標(biāo)準(zhǔn)化過(guò)程中產(chǎn)生偏差,這種偏差不僅影響卷積神經(jīng)網(wǎng)絡(luò)模塊的性能,而且會(huì)影響完美匹配的性能。對(duì)于同一個(gè)文本中實(shí)體,標(biāo)準(zhǔn)詞典可能具有多個(gè)候選實(shí)體可以與之對(duì)應(yīng)。但是由于缺乏語(yǔ)境信息,本文模型只能將其對(duì)應(yīng)到一個(gè)固定的標(biāo)準(zhǔn)實(shí)體上。盡管已經(jīng)有人在研究如何在實(shí)體標(biāo)準(zhǔn)化時(shí)保留更多的語(yǔ)義信息,但是想要完成完美的實(shí)體標(biāo)準(zhǔn)化還有很長(zhǎng)的路要走。

      猜你喜歡
      實(shí)體準(zhǔn)確率卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      扎囊县| 肥西县| 海兴县| 昭通市| 平度市| 宁晋县| 巴东县| 金乡县| 海原县| 蒙山县| 兰溪市| 隆德县| 浦北县| 南涧| 兴业县| 宾川县| 喀什市| 景德镇市| 那曲县| 宁波市| 大同市| 澳门| 宁武县| 宜春市| 永济市| 泗水县| 新乡市| 四川省| 襄汾县| 惠来县| 宝山区| 襄垣县| 六枝特区| 南康市| 大安市| 巧家县| 和田县| 阿坝| 沂水县| 开封县| 湄潭县|