李青青,楊志豪,羅 凌,林鴻飛,王 健
(大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
近年來(lái),隨著生物醫(yī)學(xué)領(lǐng)域的快速發(fā)展,生物醫(yī)學(xué)文獻(xiàn)的數(shù)量呈指數(shù)級(jí)增長(zhǎng)[1]。海量的生物醫(yī)學(xué)文獻(xiàn)中蘊(yùn)含著豐富的知識(shí),是生物醫(yī)學(xué)研究者的重要信息資源。生物醫(yī)學(xué)實(shí)體關(guān)系抽取技術(shù),將在生物醫(yī)學(xué)命名實(shí)體識(shí)別的基礎(chǔ)上,利用文本挖掘技術(shù),從海量的非結(jié)構(gòu)化的生物醫(yī)學(xué)文本中,自動(dòng)抽取出生物醫(yī)學(xué)實(shí)體,如蛋白質(zhì)、藥物、疾病等之間的關(guān)系。生物醫(yī)學(xué)實(shí)體關(guān)系抽取技術(shù)有效緩解了人工抽取信息耗時(shí)、耗力的問(wèn)題,對(duì)于生物醫(yī)學(xué)領(lǐng)域的研究具有重要意義。
近年來(lái),深度學(xué)習(xí)方法被廣泛應(yīng)用于實(shí)體關(guān)系抽取任務(wù)中。例如,在通用領(lǐng)域中,Zeng[2]等結(jié)合詞向量和相對(duì)位置向量特征,使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進(jìn)行關(guān)系抽取。Zhang[3]等在Zeng等使用的特征之外,還引入了詞性特征、命名實(shí)體特征以及基于斯坦福句法解析器的句法特征,使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional Long-Short Term Memory,BiLSTM)來(lái)解決關(guān)系抽取問(wèn)題。Vu[4]等分別使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)提取基于句子序列的關(guān)系,然后使用決策后處理來(lái)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)果。在生物醫(yī)學(xué)領(lǐng)域的關(guān)系抽取任務(wù)中,李麗雙[5]等利用詞表示和深層神經(jīng)網(wǎng)絡(luò)抽取蛋白質(zhì)之間的交互關(guān)系(Protein-Protein Interaction,PPI);Zhang[6]等結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行藥物交互關(guān)系(Drug-Drug Interaction,DDI)抽取。雖然這些方法在生物醫(yī)學(xué)關(guān)系抽取任務(wù)上已經(jīng)取得了較好的效果,但是在訓(xùn)練模型時(shí)往往只關(guān)注某一特定任務(wù)。然而在生物醫(yī)學(xué)關(guān)系抽取任務(wù)之間,常常存在著一定的相關(guān)性。表1給出了一些DDI和PPI示例(淺色字體表示候選實(shí)體對(duì),深色字體表示關(guān)系觸發(fā)詞),可以看到DDI和PPI示例的句1和句2都使用了“interaction”和“effect”觸發(fā)詞來(lái)表述兩個(gè)實(shí)體之間的交互關(guān)系。而目前基于單任務(wù)的關(guān)系抽取方法忽略了這些任務(wù)之間的關(guān)聯(lián)性,使得模型的泛化能力有限。因此本文對(duì)基于多任務(wù)學(xué)習(xí)[7]的實(shí)體關(guān)系抽取方法進(jìn)行了探索。
多任務(wù)學(xué)習(xí)的基本思想是同時(shí)對(duì)多個(gè)任務(wù)進(jìn)行學(xué)習(xí),利用任務(wù)間的相關(guān)信息來(lái)提升模型性能?;谏窠?jīng)網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)方法主要采用參數(shù)共享的學(xué)習(xí)模式,為多個(gè)任務(wù)學(xué)習(xí)一個(gè)共享的表示[8]。當(dāng)多個(gè)任務(wù)具有共性時(shí),特別是當(dāng)訓(xùn)練數(shù)據(jù)有限時(shí),與僅訓(xùn)練單個(gè)數(shù)據(jù)集的模型相比,多任務(wù)學(xué)習(xí)可以取得更好的性能[9-11]。如Marasovi[12]等使用多任務(wù)學(xué)習(xí)方法,利用語(yǔ)義角色標(biāo)注任務(wù)提升輿論角色標(biāo)注任務(wù)的性能;Liu[13]等搭建多任務(wù)學(xué)習(xí)模型,使得多個(gè)文本分類任務(wù)的性能顯著提升。
由于目前生物醫(yī)學(xué)關(guān)系抽取方法主要采用單任務(wù)學(xué)習(xí)方法,學(xué)習(xí)過(guò)程相互獨(dú)立,從而忽略了任務(wù)之間的關(guān)聯(lián)性。針對(duì)此問(wèn)題,本文構(gòu)建了全共享多任務(wù)模型(Fully-Shared Model,F(xiàn)SM)、私有共享多任務(wù)模型(Shared-Private Model,SPM),并在此基礎(chǔ)上提出了一種基于Attention機(jī)制的主輔多任務(wù)模型(Attention-based Main-Auxiliary Model,Att-MAM),來(lái)進(jìn)行生物醫(yī)學(xué)實(shí)體關(guān)系抽取多任務(wù)學(xué)習(xí)。在生物醫(yī)學(xué)領(lǐng)域5個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,多任務(wù)學(xué)習(xí)模型可以有效地利用任務(wù)之間的相關(guān)性,學(xué)習(xí)共享的表示,補(bǔ)充各個(gè)單任務(wù)的信息,提升任務(wù)性能(FSM,SPM,Att-MAM多任務(wù)模型相比單任務(wù)模型在5個(gè)語(yǔ)料上F值分別平均提升了1.30%,1.97%和2.66%)。尤其是針對(duì)單任務(wù)標(biāo)注訓(xùn)練集規(guī)模小的情況,多任務(wù)學(xué)習(xí)可以彌補(bǔ)先驗(yàn)知識(shí)的不足,抽取性能提升更為明顯。
表1 DDI和PPI數(shù)據(jù)實(shí)例展示
對(duì)于單任務(wù)模型,我們使用了目前關(guān)系抽取常用的BiLSTM模型,并用詞向量和實(shí)體相對(duì)位置向量拼接作為模型輸入,模型結(jié)構(gòu)如圖1(a)所示。具體地,給定一個(gè)包含實(shí)體對(duì)的句子S,令{w1,…,wt,…wn}表示句子詞序列,n表示句子長(zhǎng)度。對(duì)于序列中的每個(gè)單詞wt,首先通過(guò)使用Word2Vec[14]工具訓(xùn)練得到的詞向量表得到對(duì)應(yīng)的詞向量et,令每個(gè)詞和實(shí)體對(duì)的相對(duì)位置向量為dis1t和dis2t(位置向量使用正態(tài)分布進(jìn)行隨機(jī)初始化),然后將這些向量拼接起來(lái),得到每個(gè)單詞的表示xt= [(et)T,(dis1t)T,(dis2t)T]作為模型的輸入。
長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)[15]可以有效地緩解梯度消失問(wèn)題,在深度學(xué)習(xí)方法中被廣泛應(yīng)用。在LSTM模型中,根據(jù)當(dāng)前的輸入xt,上一個(gè)隱層狀態(tài)ht-1,以及上一個(gè)存儲(chǔ)單元ct-1,可以由式(1)~式(6)計(jì)算輸入門i,遺忘門f,輸出門ot,抽取的特征向量gt,當(dāng)前的隱層狀態(tài)ht以及當(dāng)前的記憶細(xì)胞ct。
圖1 模型架構(gòu)Main表示主任務(wù),Auxi表示第i個(gè)輔助任務(wù)
其中,{W(.),U(.)}表示LSTM的參數(shù)矩陣集合,{b(.)}是LSTM的偏置向量集合。
本節(jié)中,依次闡述本文構(gòu)建的三個(gè)多任務(wù)學(xué)習(xí)模型: 全共享模型、私有共享模型以及基于Attention機(jī)制的主輔多任務(wù)模型。在多任務(wù)模型中,總是將多個(gè)任務(wù)的數(shù)據(jù)集同時(shí)作為輸入進(jìn)行訓(xùn)練。在多個(gè)任務(wù)中,定義其中一個(gè)任務(wù)為主任務(wù),其他任務(wù)作為輔助任務(wù)。輔助任務(wù)與主任務(wù)共同訓(xùn)練以達(dá)到提升主任務(wù)性能的目的。每個(gè)任務(wù)的輸入特征都和上述單任務(wù)使用的特征一樣。
全共享多任務(wù)模型(Fully-Shared Model,F(xiàn)SM)的具體架構(gòu)如圖1(b)所示,除了輸出層以外,模型的所有參數(shù)在多個(gè)任務(wù)之間都是共享的。每個(gè)任務(wù)都有一個(gè)任務(wù)特定的輸出層,它根據(jù)全共享BiLSTM網(wǎng)絡(luò)產(chǎn)生的表示進(jìn)行預(yù)測(cè)。在對(duì)某個(gè)特定任務(wù)的小批量數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),其他任務(wù)的輸出層參數(shù)不會(huì)更新。例如,給定一個(gè)主任務(wù)m和一個(gè)輔助任務(wù)n,全共享BiLSTM網(wǎng)絡(luò)可以為兩個(gè)任務(wù)學(xué)習(xí)一個(gè)共享的表示hs,該共享表示被傳遞到兩個(gè)任務(wù)各自的輸出層進(jìn)行分類。
本實(shí)驗(yàn)使用生物醫(yī)學(xué)領(lǐng)域的5個(gè)公開(kāi)數(shù)據(jù)集: AImed[20]、BioInfer[21]、ChemProt[22]、DDIExtraction 2011[23]以及I2b2/VA2010[24]。5個(gè)語(yǔ)料都是句子級(jí)別標(biāo)注的關(guān)系抽取語(yǔ)料,即在每個(gè)句子中標(biāo)注出了所有關(guān)注的實(shí)體,以及存在關(guān)系的實(shí)體對(duì)。其中AImed和BioInfer是蛋白質(zhì)關(guān)系抽取任務(wù)中被廣泛使用的語(yǔ)料,用來(lái)判別兩個(gè)候選蛋白質(zhì)是否存在交互關(guān)系。ChemProt是藥物—蛋白質(zhì)關(guān)系數(shù)據(jù)集,語(yǔ)料中的正例被細(xì)分為10個(gè)具體類別。DDIExtraction 2011是藥物—藥物交互關(guān)系數(shù)據(jù)集,用來(lái)判別兩個(gè)候選藥物之間是否存在關(guān)系。I2b2/VA2010數(shù)據(jù)集關(guān)注的是醫(yī)學(xué)電子病歷中醫(yī)療問(wèn)題(Problem)、臨床試驗(yàn)(Test)和治療方法(Treatment)3類實(shí)體中的實(shí)體對(duì)Treatment-Problem、Test-Problem以及Problem-Problem間的關(guān)系,這3大類關(guān)系又被細(xì)分為8類具體關(guān)系。本文實(shí)驗(yàn)只關(guān)注實(shí)體間是否存在關(guān)系的二元分類,所以對(duì)于非二分類的語(yǔ)料,我們將其所有的正例都合并為一類“存在關(guān)系”,其余的實(shí)體對(duì)為負(fù)例“沒(méi)有關(guān)系”。
由于AImed和BioInfer原始數(shù)據(jù)集沒(méi)有劃分測(cè)試集,因此我們隨機(jī)抽出20%作為測(cè)試集,剩余的80%作為訓(xùn)練集。此外,我們將ChemProt原始的訓(xùn)練集和驗(yàn)證集進(jìn)行合并作為新的訓(xùn)練集。上述5個(gè)語(yǔ)料的候選實(shí)體對(duì)實(shí)例數(shù)據(jù)統(tǒng)計(jì)在表2中給出。
實(shí)驗(yàn)中,我們從PubMed中下載MedLine摘要,然后加入了本文中使用的5個(gè)語(yǔ)料數(shù)據(jù),使用Word2Vec工具中的skip-gram模型來(lái)進(jìn)行詞向量預(yù)訓(xùn)練。本實(shí)驗(yàn)使用交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù),使用RMSprop算法[25]進(jìn)行參數(shù)優(yōu)化,并從訓(xùn)練集中隨機(jī)劃分20%作為驗(yàn)證集,用于選擇模型超參數(shù),實(shí)驗(yàn)中的模型主要超參數(shù)如表3所示。此外,本實(shí)驗(yàn)采用生物醫(yī)學(xué)實(shí)體關(guān)系抽取任務(wù)中常用的綜合分類率F值評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。
表2 實(shí)驗(yàn)語(yǔ)料的數(shù)據(jù)統(tǒng)計(jì)
表3 超參數(shù)設(shè)置
為了與多任務(wù)模型進(jìn)行對(duì)比,我們用單個(gè)任務(wù)的數(shù)據(jù)集訓(xùn)練各自的單任務(wù)模型(Single-Task Model,STM)作為基線系統(tǒng)。此外,我們還將所有語(yǔ)料的訓(xùn)練集合并,使用合并后的訓(xùn)練集訓(xùn)練了一個(gè)通用泛化的模型(General Model,GEM)作為對(duì)比系統(tǒng)。在訓(xùn)練單任務(wù)模型和通用泛化的模型時(shí),我們根據(jù)單個(gè)任務(wù)驗(yàn)證集上的模型性能,使用早停機(jī)制選擇訓(xùn)練迭代次數(shù)。在訓(xùn)練多任務(wù)模型時(shí),根據(jù)當(dāng)前的主任務(wù)驗(yàn)證集上的模型性能,使用早停機(jī)制選擇訓(xùn)練迭代次數(shù)。
在多任務(wù)模型中,為了探究每?jī)蓚€(gè)任務(wù)間的相互作用,我們對(duì)5個(gè)數(shù)據(jù)集進(jìn)行了兩兩全共享和兩兩私有共享多任務(wù)實(shí)驗(yàn)。具體來(lái)說(shuō),對(duì)于給定的五個(gè)任務(wù),選出一個(gè)為主任務(wù),在剩余的四個(gè)任務(wù)中,每次僅選取一個(gè)任務(wù)作為輔任務(wù),然后使用主任務(wù)與選定的該輔任務(wù)的數(shù)據(jù)集訓(xùn)練一個(gè)全共享和私有共享模型,實(shí)驗(yàn)結(jié)果在表4中給出。其中,“STM”“FSM”“SPM”分別表示單任務(wù)模型、兩兩全共享模型和兩兩私有共享模型。相比單任務(wù)模型,多任務(wù)模型在主任務(wù)上預(yù)測(cè)性能有提升的結(jié)果用加粗字體表示。
表4 兩兩多任務(wù)模型實(shí)驗(yàn)結(jié)果(%)
實(shí)驗(yàn)結(jié)果表明: 在多任務(wù)模型中,不同的輔任務(wù)對(duì)主任務(wù)具有不同影響,輔任務(wù)與主任務(wù)越相關(guān),越容易促進(jìn)主任務(wù)的預(yù)測(cè)性能。其中,AImed和BioInfer都是PPI數(shù)據(jù)集,這兩個(gè)數(shù)據(jù)集中對(duì)于蛋白質(zhì)對(duì)之間的關(guān)系描述方式是相似的,例如,都會(huì)使用“interact”或者“binding”等觸發(fā)詞來(lái)表征蛋白質(zhì)對(duì)之間存在關(guān)系,因此多任務(wù)學(xué)習(xí)可以更好地學(xué)習(xí)兩個(gè)任務(wù)之間的相關(guān)性,使得任務(wù)間彼此促進(jìn)。ChemProt數(shù)據(jù)集和DDI2011數(shù)據(jù)集中都涉及藥物實(shí)體,聯(lián)合訓(xùn)練時(shí),模型會(huì)學(xué)習(xí)到兩個(gè)任務(wù)之間的共享信息,對(duì)單個(gè)數(shù)據(jù)集中的信息進(jìn)行補(bǔ)充,提高模型的預(yù)測(cè)性能。另一方面,在FSM中,I2b2/VA2010會(huì)降低其他四個(gè)任務(wù)的預(yù)測(cè)性能。這可能是因?yàn)镮2b2/VA2010是電子病歷中的數(shù)據(jù)集,包含的實(shí)體是醫(yī)學(xué)電子病歷中的臨床試驗(yàn)、臨床問(wèn)題和治療手段,與其他四個(gè)數(shù)據(jù)集中的實(shí)體類型以及交互表示具有較大差異,因此僅使用I2b2/VA2010作為輔助任務(wù)時(shí)會(huì)降低其他主任務(wù)的預(yù)測(cè)性能。
為了驗(yàn)證多任務(wù)模型在所有數(shù)據(jù)集上的有效性,我們?cè)诒?中列出多任務(wù)模型與單任務(wù)模型的實(shí)驗(yàn)對(duì)比結(jié)果。其中,“STM”“GEM”“FSM”“SPM”“Att-MAM”分別代表單任務(wù)模型、通用泛化模型、全共享模型、私有共享模型和基于Attention機(jī)制的主輔多任務(wù)模型。相比單任務(wù)模型,多任務(wù)模型在主任務(wù)上預(yù)測(cè)性能最好的結(jié)果用加粗字體表示。
表5 單任務(wù)模型與多任務(wù)模型性能比較(%)
*σF表示各個(gè)模型相對(duì)于單任務(wù)模型的F值變化。
表5中的實(shí)驗(yàn)結(jié)果顯示: 與五個(gè)任務(wù)的STM的平均F值69.75%相比,GEM在五個(gè)數(shù)據(jù)集上的平均F值(68.92%)下降0.83%。一方面,GEM在ChemProt、DDI2011與I2b2/VA2010數(shù)據(jù)集上的預(yù)測(cè)性能下降。GEM將五個(gè)任務(wù)的訓(xùn)練集簡(jiǎn)單混合在一起進(jìn)行訓(xùn)練,忽略用實(shí)體類型來(lái)判斷實(shí)體對(duì)之間的關(guān)系。當(dāng)一個(gè)數(shù)據(jù)集中對(duì)正例的描述方式與另一個(gè)數(shù)據(jù)集中對(duì)負(fù)例的描述方式相似時(shí),會(huì)影響模型的判斷能力。并且,每個(gè)任務(wù)的數(shù)據(jù)集中都存在任務(wù)特定的噪聲,例如,模型的錯(cuò)誤預(yù)測(cè)通常是由于實(shí)體對(duì)之間的否定表述和并列結(jié)構(gòu)。GEM將數(shù)據(jù)集混合會(huì)造成噪聲累積,從而降低模型的預(yù)測(cè)能力。另一方面,GEM在AImed和BioInfer數(shù)據(jù)集上的預(yù)測(cè)性能有所提高。這是因?yàn)楹?jiǎn)單地混合數(shù)據(jù)進(jìn)行訓(xùn)練,相當(dāng)于為特定任務(wù)增加了訓(xùn)練樣本,當(dāng)增加的樣本中的信息與原有的數(shù)據(jù)具有相似且一致的特征時(shí)(例如PPI與DDI都用“effect”或者“interact”表征交互關(guān)系),就有可能提高模型對(duì)于原樣本的預(yù)測(cè)性能。
FSM、SPM和Att-MAM分別取得了71.05%、71.72%和72.41%的平均F值,比STM分別平均提高1.30%、1.97%、2.66%,比GEM分別提高2.13%、2.80%、3.49%。與STM相比,在多任務(wù)模型中,對(duì)主任務(wù)來(lái)說(shuō),引入輔任務(wù)進(jìn)行訓(xùn)練,可以更加明顯地區(qū)分某個(gè)類別的特征。例如,AImed為蛋白質(zhì)-蛋白質(zhì)交互關(guān)系(PPI)數(shù)據(jù)集,DDI2011為藥物-藥物交互關(guān)系(DDI)數(shù)據(jù)集,PPI和DDI中都是用“interaction”來(lái)表征兩個(gè)實(shí)體間存在關(guān)系的,因此當(dāng)DDI2011作為輔任務(wù)數(shù)據(jù)集和主任務(wù)數(shù)據(jù)集AImed進(jìn)行聯(lián)合訓(xùn)練時(shí),可以使模型更易學(xué)習(xí)某個(gè)類別的特征,從而提高預(yù)測(cè)性能。尤其是本文中的三個(gè)多任務(wù)模型在AImed數(shù)據(jù)集上的性能較單任務(wù)分別顯著提升2.51%、4.39%、7.98%。由表2可知,相比其他4個(gè)數(shù)據(jù)集,AImed訓(xùn)練集規(guī)模相對(duì)較小。多任務(wù)學(xué)習(xí)可以彌補(bǔ)小數(shù)據(jù)集先驗(yàn)知識(shí)的不足,使得抽取性能提升更為明顯。另一方面,相比于五個(gè)任務(wù)的單任務(wù)模型,F(xiàn)SM在4個(gè)數(shù)據(jù)集上的性能都有所提高,其中,在AImed和I2b2/VA2010數(shù)據(jù)集上性能有顯著提升,而在BioInfer數(shù)據(jù)集上的性能略微有所下降。這是因?yàn)樵贔SM中,引入輔任務(wù)和主任務(wù)聯(lián)合訓(xùn)練共享空間時(shí),會(huì)保留某些輔任務(wù)特定的特征,輔任務(wù)特定的特征會(huì)對(duì)主任務(wù)的預(yù)測(cè)性能帶來(lái)消極影響。
對(duì)比3個(gè)多任務(wù)模型,其中Att-MAM的效果最好,SPM效果優(yōu)于FSM。FSM利用所有任務(wù)的知識(shí)聯(lián)合學(xué)習(xí)多個(gè)任務(wù),并在任務(wù)間共享輸出層外的所有參數(shù),為所有任務(wù)學(xué)習(xí)一個(gè)共享的表示。FSM中的共享表示最大可能地捕獲了所有任務(wù)的共享表示,有效避免了訓(xùn)練過(guò)程中的過(guò)擬合,使得模型在主任務(wù)的測(cè)試集上取得更好的效果。但是,在FSM中,所有任務(wù)僅通過(guò)一個(gè)共享層無(wú)法區(qū)分共享信息與任務(wù)特定信息。SPM也為主任務(wù)和所有輔任務(wù)學(xué)習(xí)一個(gè)共享的表示,捕捉所有任務(wù)的共享特征;除此之外,每個(gè)任務(wù)還有一個(gè)私有的BiLSTM網(wǎng)絡(luò),學(xué)習(xí)任務(wù)特定的特征。共享特征作為任務(wù)特定特征的補(bǔ)充,可提高模型的預(yù)測(cè)能力;私有BiLSTM網(wǎng)絡(luò)最大程度地保留了任務(wù)特定特征,有效防止了共享表示中的噪聲對(duì)任務(wù)特定特征影響,因此SPM的性能優(yōu)于FSM。相比SPM,在Att-MAM中,不僅每個(gè)任務(wù)有一個(gè)私有BiLSTM網(wǎng)絡(luò),而且每個(gè)輔任務(wù)都與主任務(wù)有一個(gè)共享的BiLSTM網(wǎng)絡(luò),然后通過(guò)Attention層來(lái)學(xué)習(xí)每個(gè)輔任務(wù)對(duì)主任務(wù)的不同影響。由表4的分析可知,每個(gè)輔任務(wù)對(duì)主任務(wù)的影響不同,因此所有的共享表示和任務(wù)特定的表示經(jīng)過(guò)Attention層時(shí),會(huì)根據(jù)對(duì)主任務(wù)的不同影響被分配不同的權(quán)重。私有的BiLSTM網(wǎng)絡(luò)可以最大程度地保留任務(wù)特定的特征,主任務(wù)通過(guò)與不同輔任務(wù)訓(xùn)練共享表示可以捕獲更多的共享特征,引入Attention機(jī)制為不同特征分配權(quán)重,有效避免了輔任務(wù)對(duì)主任務(wù)的消極影響,因此Att-MAM的性能優(yōu)于SPM和FSM。
為了驗(yàn)證Attention機(jī)制在主輔多任務(wù)模型中的有效性,我們做了如下實(shí)驗(yàn): 構(gòu)建不使用Attention層的主輔多任務(wù)模型,即主任務(wù)與每個(gè)輔任務(wù)的共享表示直接和主任務(wù)的私有表示拼接起來(lái),送入主任務(wù)輸出層進(jìn)行分類。實(shí)驗(yàn)結(jié)果如表6所示,其中“STM”“MAM”“Att-MAM”分別表示單任務(wù)模型、不使用Attention和使用Attention機(jī)制的主輔多任務(wù)模型。
表6 Attention機(jī)制對(duì)主輔多任務(wù)模型性能的影響(%)
從表6結(jié)果可以看到,MAM取得了70.81%的平均F值,比STM平均提高1.06%,但比Att-MAM平均降低1.60%,該結(jié)果說(shuō)明了Attention機(jī)制的有效性。主任務(wù)與輔任務(wù)學(xué)習(xí)的共享表示可以為私有表示提供補(bǔ)充信息,從而提升單任務(wù)的預(yù)測(cè)性能;但是由于輔任務(wù)對(duì)主任務(wù)的影響不總是積極的,使用Attention機(jī)制為消極作用的輔任務(wù)分配較低權(quán)重,可以有效避免輔任務(wù)的噪聲對(duì)模型的性能影響;同時(shí),為具有積極影響的共享特征分配更高的權(quán)重,可以使模型學(xué)習(xí)到更易區(qū)分類別的特征,從而提升模型的預(yù)測(cè)性能。
由于在本文工作中,我們對(duì)于蛋白質(zhì)關(guān)系抽取語(yǔ)料AImed和BioInfer按照8∶2的比例隨機(jī)劃分了訓(xùn)練集和測(cè)試集,并且將多分類語(yǔ)料處理為二分類語(yǔ)料,所以我們重現(xiàn)了生物醫(yī)學(xué)領(lǐng)域關(guān)系分類任務(wù)上性能較好的三個(gè)方法,與我們的方法進(jìn)行對(duì)比。三個(gè)方法為,CNN: Sahu等[26]提出的具有最大池化層的多濾波器CNN;CRNN-Max和CRNN-Att: 由Raj等[27]提出的基于CNN和雙向LSTM組合的雙層模型。后兩者在輸出層之前分別采用Max-pooling操作和Attention機(jī)制來(lái)抽取最顯著的特征。實(shí)驗(yàn)中,我們?nèi)コ嗽~性等額外特征,均保留詞向量特征和相對(duì)位置向量特征作為輸入特征。實(shí)驗(yàn)結(jié)果如表7所示。其中,“Ours”表示我們的方法中具有最好性能的基于Attention機(jī)制的主輔多任務(wù)模型。預(yù)測(cè)性能最好的結(jié)果用加粗字體顯示。
表7 與他人工作方法的對(duì)比(%)
表7的實(shí)驗(yàn)結(jié)果顯示: 我們的方法的平均F值比多濾波器CNN提高2.80%,與結(jié)合CNN與RNN的CRNN-Max和CRNN-Att模型相比,分別提升了0.89%和1.12%。實(shí)驗(yàn)結(jié)果驗(yàn)證了多任務(wù)模型的有效性。Sahu等[26]和Raj等[27]搭建的單任務(wù)模型,利用多濾波器CNN或者組合CNN與RNN的方法,有效地抽取出單一任務(wù)的特定特征。多任務(wù)模型僅使用單層RNN網(wǎng)絡(luò),在抽取任務(wù)特定特征的同時(shí),通過(guò)共享空間有效學(xué)習(xí)到多個(gè)任務(wù)之間的共享特征,使得具有關(guān)聯(lián)性的各個(gè)單任務(wù)之間互相促進(jìn),從何取得了更好的性能。
針對(duì)目前生物醫(yī)學(xué)關(guān)系抽取現(xiàn)存方法僅考慮單任務(wù)而沒(méi)有利用多任務(wù)間相關(guān)性的問(wèn)題,本文對(duì)基于多任務(wù)學(xué)習(xí)的生物醫(yī)學(xué)關(guān)系抽取進(jìn)行了探索。基于BiLSTM模型,我們構(gòu)建了全共享模型(FSM)、私有共享模型(SPM),并在此基礎(chǔ)上提出了基于Attention機(jī)制的主輔多任務(wù)學(xué)習(xí)模型(Att-MAM)。Att-MAM利用Attention機(jī)制充分考慮了每個(gè)輔任務(wù)對(duì)主任務(wù)的不同程度的影響。實(shí)驗(yàn)結(jié)果表明,本文的三個(gè)多任務(wù)模型性能優(yōu)于每個(gè)任務(wù)的單任務(wù)模型,其中Att-MAM取得了最好的結(jié)果,并且性能優(yōu)于Sahu和Raj等提出的關(guān)系分類方法。多任務(wù)學(xué)習(xí)方法可以利用多個(gè)任務(wù)之間的共性,為多個(gè)任務(wù)學(xué)習(xí)共享的表示,增加訓(xùn)練樣本數(shù)量的同時(shí),平衡了不同數(shù)據(jù)集中的噪聲,提升模型的性能。
目前我們只使用了最基礎(chǔ)的特征在關(guān)系抽取二分類問(wèn)題上進(jìn)行了研究,在未來(lái)的工作中,我們將探究關(guān)系抽取中其他額外特征(例如,詞性、依存句法特征等)對(duì)多任務(wù)學(xué)習(xí)的影響,也將進(jìn)一步從簡(jiǎn)單的二分類問(wèn)題擴(kuò)展到多分類問(wèn)題。此外,我們也將嘗試引入對(duì)抗學(xué)習(xí)方法來(lái)降低共享空間中的噪聲,使得模型學(xué)習(xí)到的共享表示更加精確,從而進(jìn)一步提升模型的預(yù)測(cè)性能。