王勇
(山東搜搜中醫(yī)信息科技有限公司, 山東,濟(jì)南 250014)
引文的檢索對(duì)于尋找特定信息的生物醫(yī)學(xué)研究人員而言是極其重要的,通過(guò)精準(zhǔn)的檢索能夠很大程度上提升研究效率。目前,在生物醫(yī)學(xué)引文的語(yǔ)義索引領(lǐng)域應(yīng)用較廣泛的是醫(yī)學(xué)主題詞表(Medical Subject Headings, MeSH)。MeSH詞庫(kù)由大量相互關(guān)聯(lián)主題詞組成,包括主題描述符、主題限定詞(也稱為子標(biāo)題)和補(bǔ)充概念記錄。每個(gè)MeSH描述符都包含一組術(shù)語(yǔ)[1],這些術(shù)語(yǔ)在語(yǔ)義索引和搜索中被認(rèn)為是等效的,但不一定是嚴(yán)格意義上的同義詞。這些術(shù)語(yǔ)被組織為MeSH概念,這些概念是一組同義詞。
盡管MeSH具有近29 000個(gè)描述符,但它經(jīng)常將一些緊密相關(guān)但截然不同的概念歸為同一描述符,而無(wú)法實(shí)現(xiàn)對(duì)生物醫(yī)學(xué)領(lǐng)域相關(guān)文獻(xiàn)的精準(zhǔn)檢索。研究特定生物醫(yī)學(xué)領(lǐng)域?qū)<覚z索的文獻(xiàn)通常需要深入到MeSH描述符不支持的粒度級(jí)別,將相關(guān)文獻(xiàn)分為細(xì)粒度的子集可以揭示特定患者亞型的差異,并為精準(zhǔn)醫(yī)學(xué)應(yīng)用提供信息,這在MeSH的疾病類別中尤其重要。
由于目前沒(méi)有這種細(xì)粒度索引的相關(guān)研究,因此本文的工作旨在實(shí)現(xiàn)生物醫(yī)學(xué)文獻(xiàn)的細(xì)粒度索引,將文章摘要中概念術(shù)語(yǔ)用作弱監(jiān)督(weakly supervised, WS)。本文以阿爾茨海默病(AD)相關(guān)文章為例,利用現(xiàn)有的MeSH注釋參考已經(jīng)用MeSH描述符注釋的引用文獻(xiàn),而不是考慮所有摘要。此外,本文還利用每個(gè)描述符的概念結(jié)構(gòu),重點(diǎn)關(guān)注較狹窄的概念。
生物醫(yī)學(xué)文獻(xiàn)的語(yǔ)義索引研究主要集中在為每個(gè)生物醫(yī)學(xué)文章匹配合適的MeSH條目方面。在這類研究中索引者使用適當(dāng)?shù)腗eSH條目對(duì)PubMed / MEDLINE引用進(jìn)行手動(dòng)注釋。這類資源已用于開發(fā)機(jī)器學(xué)習(xí)系統(tǒng),該系統(tǒng)能夠自動(dòng)將MeSH條目(尤其是描述符)分配給生物醫(yī)學(xué)文章,從而開發(fā)出高度精確的解決方案。有些研究者強(qiáng)調(diào)了細(xì)粒度語(yǔ)義索引對(duì)于精確信息檢索的重要性[2],對(duì)于稀有和慢性疾病的實(shí)驗(yàn),這些研究者認(rèn)為在摘要或標(biāo)題中確實(shí)包含MeSH概念某些術(shù)語(yǔ)的文章是唯一應(yīng)使用該概念進(jìn)行索引的文章。這些研究者得出的結(jié)論是在MeSH概念級(jí)別進(jìn)行索引對(duì)于更精確地檢索信息而言效果很好。
由于缺少用于細(xì)粒度語(yǔ)義索引的數(shù)據(jù)集,研究者研究了多種弱監(jiān)督方法,即不準(zhǔn)確、不完全和不確切的監(jiān)督[3]。在不準(zhǔn)確的監(jiān)督下,訓(xùn)練集中的某些可用標(biāo)簽是錯(cuò)誤的,應(yīng)將其視為噪音[4],本文研究的問(wèn)題就屬于此類。在不完全監(jiān)督下,通常僅標(biāo)記數(shù)據(jù)集的一小部分。在這種情況下,通過(guò)半監(jiān)督學(xué)習(xí)方法來(lái)利用未標(biāo)記數(shù)據(jù),以彌補(bǔ)訓(xùn)練數(shù)據(jù)的不足[5]。半監(jiān)督學(xué)習(xí)(Semi-Supervised Learning,SSL)是模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域研究的重點(diǎn)問(wèn)題,是監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法。半監(jiān)督學(xué)習(xí)使用大量的未標(biāo)記數(shù)據(jù),同時(shí)使用標(biāo)記數(shù)據(jù)進(jìn)行模式識(shí)別工作。在不確切的監(jiān)督下,每個(gè)帶有標(biāo)簽的示例(也稱為包)均由多個(gè)實(shí)例組成。
目前,研究者已經(jīng)提出了不同的方法來(lái)處理標(biāo)簽噪聲在分類中的影響。部分研究者在訓(xùn)練數(shù)據(jù)集之前依靠過(guò)濾器來(lái)識(shí)別數(shù)據(jù)集中潛在的錯(cuò)誤標(biāo)記示例。在這種情況下,過(guò)濾器可以基于相似實(shí)例的標(biāo)簽[6]對(duì)數(shù)據(jù)的不同部分進(jìn)行訓(xùn)練。一些機(jī)器學(xué)習(xí)算法已被明確設(shè)計(jì)為對(duì)特定類型的噪聲進(jìn)行建模,從而降低了噪聲對(duì)其性能的影響[7-8]。然而,即使實(shí)際上沒(méi)有針對(duì)某種噪聲的學(xué)習(xí)算法也可以在實(shí)踐中對(duì)某些級(jí)別的噪聲具有魯棒性,特別是在針對(duì)低方差的配置中可以避免過(guò)度擬合。
由于缺乏基本的真實(shí)數(shù)據(jù),本文提出了一種弱監(jiān)督方法用于開發(fā)模型,以利用現(xiàn)有的MeSH注釋以及MeSH描述符和MeSH概念之間的已知關(guān)系來(lái)預(yù)測(cè)文獻(xiàn)中的細(xì)粒度主題注釋。需要強(qiáng)調(diào)的是,本文將細(xì)粒度的語(yǔ)義索引問(wèn)題公式化為單實(shí)例多標(biāo)簽分類問(wèn)題,在學(xué)習(xí)階段和預(yù)測(cè)過(guò)程中都帶有噪聲標(biāo)簽。從描述符的概念結(jié)構(gòu)來(lái)看,每個(gè)模型的可用標(biāo)簽集是預(yù)先已知的。基于文獻(xiàn)中的概念出現(xiàn),本文通過(guò)WS方法為詞匯分配標(biāo)簽以進(jìn)行模型訓(xùn)練。
圖1對(duì)本文所提出的方法進(jìn)行了簡(jiǎn)要描述。首先,所有與MeSH描述符t相關(guān)的文章從PubMed / MEDLINE中被檢索出來(lái)。在這項(xiàng)工作中,本文僅考慮描述符,其中首選概念cpref是MeSH描述符t對(duì)應(yīng)的概念集里較為寬泛的描述符。其次,根據(jù)相關(guān)概念的出現(xiàn)情況,將噪聲細(xì)粒度標(biāo)簽分配給選定的文獻(xiàn),以開發(fā)弱監(jiān)督訓(xùn)練數(shù)據(jù)集。需要強(qiáng)調(diào)的是,每篇文獻(xiàn)都標(biāo)有來(lái)自集合Ct且在文獻(xiàn)中出現(xiàn)的概念ci。概念ci在文獻(xiàn)中出現(xiàn)不能保證文獻(xiàn)實(shí)際內(nèi)容與該概念相關(guān),即使該文章與描述符t相關(guān)。但是,可以明確的是概念ci在文獻(xiàn)中的出現(xiàn)與概念ci高度相關(guān),這可用于文獻(xiàn)噪聲的細(xì)粒度標(biāo)簽。
圖1 基于弱監(jiān)督的生物醫(yī)學(xué)文章細(xì)粒度語(yǔ)義索引的方案
文獻(xiàn)中生物醫(yī)學(xué)概念出現(xiàn)的標(biāo)識(shí)是一項(xiàng)信息提取任務(wù),涉及生物醫(yī)學(xué)命名實(shí)體的識(shí)別及其在規(guī)范化語(yǔ)義系統(tǒng)中對(duì)特定概念的映射。這項(xiàng)任務(wù)的特殊挑戰(zhàn)包括識(shí)別具有多個(gè)單詞的術(shù)語(yǔ)或出現(xiàn)在文獻(xiàn)中的術(shù)語(yǔ)的概念以及消除屬于多個(gè)同構(gòu)概念術(shù)語(yǔ)的歧義。本文使用的MetaMap[9]是當(dāng)下最流行和最全面的方法之一,可用于識(shí)別包含了MeSH概念的統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(Unified Medical Language System,UMLS)中的概念。MetaMap是一個(gè)把生物醫(yī)學(xué)文本與UMLS超級(jí)詞表中的概念匹配起來(lái)的程序,該程序可以設(shè)置很多參數(shù),這些參數(shù)用于控制MetaMap的輸出以及內(nèi)部運(yùn)行(如單詞變形的程度、是否忽略超級(jí)詞表中含有常見詞的字串,是否考慮字母的順序等等)。
由于本文中用于細(xì)粒度索引的每篇文章均已使用t進(jìn)行索引,所以本文假設(shè)集合Ct中至少存在一個(gè)ci與相應(yīng)文章有關(guān)。如果沒(méi)有一個(gè)較窄的概念可以識(shí)別,則該文章至少與較寬泛的概念cpref有關(guān)。但是,這種“默認(rèn)”類別cpref的識(shí)別標(biāo)記無(wú)效,因此不被視為要預(yù)測(cè)的標(biāo)簽之一。出現(xiàn)cpref的文章包含在數(shù)據(jù)集中,但相應(yīng)模型的開發(fā)和驗(yàn)證將忽略cpref注釋。
弱標(biāo)簽數(shù)據(jù)集中每篇文章的摘要和標(biāo)題都用來(lái)為文章生成2種類型的特征。盡管在PubMed Central中也可以找到某些文章的全文,但本文目前將分析重點(diǎn)放在標(biāo)題和摘要上,這些結(jié)論可用于更多文章。此外,由于摘要中的概念預(yù)計(jì)與文章的主題相關(guān),可以與文獻(xiàn)主體中的概念形成鮮明對(duì)比。此外,使用MetaMap提取的文本中的概念為文獻(xiàn)提供了附加的語(yǔ)義特征。不論其提取的資源詞匯表或語(yǔ)義類型如何,所有提取的UMLS概念都被視為特征,而不僅僅是與MeSH描述符相對(duì)應(yīng)的概念。與詞匯特征不同,概念特征是二進(jìn)制的。在詞匯和語(yǔ)義特征方面,基于數(shù)據(jù)集的稀缺性,使用TF-IDF轉(zhuǎn)換對(duì)特征進(jìn)行加權(quán)。TF-IDF是術(shù)語(yǔ)頻率-逆文檔頻率的縮寫,是一種數(shù)字統(tǒng)計(jì),旨在反映單詞對(duì)集合或語(yǔ)料庫(kù)中的文檔的重要程度。MA是Manually Assigned的縮寫,即手動(dòng)分配。
此外,對(duì)于語(yǔ)義特征使用布爾術(shù)語(yǔ)頻率。
由于某些特征的信息量較少或可能引入噪聲,因此本文根據(jù)特征在訓(xùn)練數(shù)據(jù)中區(qū)分目標(biāo)類別的能力,使用特征來(lái)選擇其中最有用的信息。每篇文章的最終矢量表示僅基于這些選定的特征而產(chǎn)生,并用于分類模型的開發(fā)。
由于細(xì)粒度語(yǔ)義索引的任務(wù)是多標(biāo)簽的,因此本文采用一對(duì)多法,對(duì)與集合Ct中除cpref外每個(gè)概念對(duì)應(yīng)的每個(gè)標(biāo)簽訓(xùn)練不同的二進(jìn)制分類器。弱標(biāo)簽數(shù)據(jù)集中帶有cpref注釋的文章數(shù)據(jù)保留在數(shù)據(jù)集中,但它們的cpref注釋將被忽略。在預(yù)測(cè)階段,每個(gè)特定類別的模型對(duì)文獻(xiàn)與相應(yīng)的細(xì)粒度標(biāo)簽的相關(guān)性進(jìn)行預(yù)測(cè),并且對(duì)預(yù)測(cè)進(jìn)行集成以生成每篇文獻(xiàn)預(yù)測(cè)的所有細(xì)粒度主題標(biāo)簽的最終集合。
本文提出的方法使用SciKitLearn庫(kù)在Python中實(shí)現(xiàn),并應(yīng)用于AD的MeSH描述符。ScikitLearn提供了一系列監(jiān)督與非監(jiān)督學(xué)習(xí)算法的Python接口,它使用了簡(jiǎn)單又友好的BSD license,鼓勵(lì)學(xué)術(shù)使用或商用。在這種情況下,集合Ct由同義概念cpref以及6個(gè)較窄的概念,分別是早發(fā)性AD(Early-onset AD, EOAD)、晚發(fā)性AD(Late-onset AD, LOAD)、局灶性AD(Focal-onset AD, FOAD)、家族性AD(Familial AD, FAD)、早期癡呆(Presenile Dementia, PD)和急性混淆性老年性癡呆(Acute Confusional Senile Dementia, ACSD)組成。需要強(qiáng)調(diào)的是,本文從PubMed中為AD描述符檢索了68 542篇文章,其標(biāo)題和摘要作為初始數(shù)據(jù)集。弱標(biāo)簽已分配給其中的51 450個(gè),余下17 092個(gè)未進(jìn)行標(biāo)注的文獻(xiàn)。
表1中總結(jié)了WS標(biāo)簽在初始數(shù)據(jù)集中的分布。需要強(qiáng)調(diào)的是,F(xiàn)OAD和ACSD在任何文章中都未被明確,因此這兩個(gè)極其少見的概念被排除在模型訓(xùn)練和驗(yàn)證之外。實(shí)驗(yàn)的最初目標(biāo)是將帶有AD描述符的文章歸類為與任何較窄的疾病類型相關(guān)的文章,而忽略cpref的標(biāo)簽。這些較窄的類別是4種疾病類型:PD、FAD、EOAD和LOAD。
表1 AD數(shù)據(jù)集中每個(gè)標(biāo)簽的文章數(shù)
為了衡量分類性能,需要一些基本實(shí)況注釋。為此,本文從初始數(shù)據(jù)集中保留了100個(gè)文章(MA1)的隨機(jī)子集進(jìn)行手動(dòng)注釋。但是,初始數(shù)據(jù)集是弱標(biāo)簽數(shù)據(jù)集,這表明類別的分布嚴(yán)重偏斜,大部分文章都標(biāo)有cpref。為了提高隨機(jī)子集中低流行類別的預(yù)期實(shí)驗(yàn)效果,本文基于弱標(biāo)簽選擇了100個(gè)文章(MA2)的平衡子集。MA2數(shù)據(jù)集是使用基于標(biāo)簽組合的迭代過(guò)程構(gòu)建的,標(biāo)簽組合是所有可用標(biāo)簽集的子集。在此過(guò)程中,在MA2中添加1篇用每個(gè)標(biāo)簽組合注釋的文獻(xiàn),直到選擇了100篇文獻(xiàn)或選擇了用該標(biāo)簽組合注釋的文獻(xiàn)的一半。
隨后,本文2次手動(dòng)對(duì)MA1和MA2中200篇文章的摘要和標(biāo)題進(jìn)行了審查,并分別對(duì)MA細(xì)粒度標(biāo)簽,使用了4種類別的宏觀平均Kappa統(tǒng)計(jì)量。通過(guò)對(duì)2次注釋結(jié)果的綜合考量,共識(shí)注釋被用作MA1和MA2中的最終依據(jù)。表1還展示了WS和共識(shí)MA標(biāo)簽在MA1和MA2測(cè)試數(shù)據(jù)集上的分布。
初始數(shù)據(jù)集中剩余的51 282篇文章用作WS訓(xùn)練數(shù)據(jù)集,開發(fā)多標(biāo)簽分類模型,以預(yù)測(cè)與t相關(guān)的文章的概念級(jí)標(biāo)簽。需要強(qiáng)調(diào)的是,考慮到具有和不具有特征選擇的替代配置,本文在訓(xùn)練數(shù)據(jù)集上對(duì)不同的分類模型進(jìn)行了訓(xùn)練。關(guān)于特征選擇,根據(jù)卡方(Chi2)或ANOVA F統(tǒng)計(jì)量選擇前k個(gè)特征,k范圍為5至1 000。表2中列出了基于ANOVA F的前20個(gè)特征。對(duì)于特征類型,僅考慮詞法特征或同時(shí)考慮詞法和語(yǔ)義特征都是適用的。對(duì)于每個(gè)替代配置,本文訓(xùn)練了邏輯回歸分類器(Logistic regression classifier, LRC)、線性支持向量分類器(Linear Support Vector Classifier, LSVC)、決策樹分類器(Decision Tree Classifier, DTC)和隨機(jī)森林分類器(Random Forest Classifier, RFC)。
表2 F ANOVA的TOP 20詞匯(L)和語(yǔ)義(S)特征
本文框架的重點(diǎn)是針對(duì)所有考慮的類別進(jìn)行細(xì)分類,而無(wú)論其流行程度如何。因此,為了對(duì)方案進(jìn)行整體評(píng)估,本文采用了基于標(biāo)簽的宏平均F1度量,該度量平均加權(quán)所有類別。除了訓(xùn)練性能較好的模型,本文還通過(guò)簡(jiǎn)單的基線方案進(jìn)行比較。一個(gè)簡(jiǎn)單的對(duì)比方案就是使用所有可用標(biāo)簽(all available labels, AIIAII)標(biāo)記所有文章;另一種更有效的方法是信任初始的弱標(biāo)簽(weak supervision labels, WSLabels);第三種方法,本文通過(guò)將所有可用標(biāo)簽(weak supervision all rest available labels, WSRestAll)分配給未貼標(biāo)簽的文獻(xiàn)來(lái)擴(kuò)展后者。
圖2、圖3分別給出了上述每個(gè)分類器最佳模型在MA1和MA2數(shù)據(jù)集中的F1分?jǐn)?shù)。對(duì)這些結(jié)果的第一個(gè)結(jié)論是,WSLabels基線方案在MA2中表現(xiàn)良好,MA2包含4個(gè)較小類別的許多文章,而在MA1中則表現(xiàn)較差。在MA1中,針對(duì)4個(gè)關(guān)注標(biāo)簽的WS注釋較少。這表明,對(duì)于可用的細(xì)粒度語(yǔ)義索引,概念的出現(xiàn)確實(shí)是一種很好的WS方法,但對(duì)于較窄的概念或很少見的情況而言,這可能是不夠的。
圖2 不同方案最佳模型在MA1數(shù)據(jù)集中的F1分?jǐn)?shù)
圖3 不同方案最佳模型在MA2數(shù)據(jù)集中的F1分?jǐn)?shù)
不論學(xué)習(xí)算法如何設(shè)置,所有僅通過(guò)詞匯特征訓(xùn)練的性能最好的模型都優(yōu)于超過(guò)MA1數(shù)據(jù)集中的基線方案,其中一些僅具有5個(gè)詞匯特征。這個(gè)事實(shí)表明,在WS訓(xùn)練數(shù)據(jù)集上訓(xùn)練的模型可以改善用于弱標(biāo)記的WS方法。在MA2數(shù)據(jù)集中,只有基于LSVC和LRC的最佳模型才能接近基線方案WSLabels的性能。該觀察結(jié)果表明,概念出現(xiàn)在某些情況下可能是有用的,為基線方案提供了優(yōu)勢(shì)。
通過(guò)添加語(yǔ)義功能,基于DTC和RFC的最佳模型的性能幾乎與基線方案WSLabel性能相同。這表明這些模型學(xué)會(huì)了信任語(yǔ)義特征ci,這與他們必須學(xué)習(xí)的WS標(biāo)簽完全相關(guān)。另一方面,2個(gè)數(shù)據(jù)集上表現(xiàn)最佳的模型都是基于LRC的模型。該模型使用語(yǔ)義和詞匯功能,尤其是在MA1數(shù)據(jù)集上性能更佳。
本文的貢獻(xiàn)集中,將細(xì)粒度語(yǔ)義索引問(wèn)題表述為多標(biāo)簽分類任務(wù),提出了一種自動(dòng)為該任務(wù)生成弱監(jiān)督分類器的方法,并證明了在實(shí)際用例中應(yīng)用此方法的可行性。此外,本文還提出了能夠勝過(guò)性能優(yōu)異對(duì)比方案的模型,這表明基于概念出現(xiàn)的弱標(biāo)簽訓(xùn)練可以產(chǎn)生預(yù)測(cè)模型,該模型確實(shí)可以比概念出現(xiàn)本身更好地泛化并產(chǎn)生注釋。