張 慶 呂少妮 軒 揚
(濟(jì)寧醫(yī)學(xué)院醫(yī)學(xué)信息工程學(xué)院 日照 276826) (濟(jì)寧醫(yī)學(xué)院管理學(xué)院 日照276826)
本體最初是哲學(xué)領(lǐng)域概念,是對現(xiàn)實世界真實存在所做出的客觀描述,20世紀(jì)90年代本體概念被引入人工智能、圖書情報和知識工程等領(lǐng)域[1]。本體是共享概念模型明確形式化規(guī)范說明[2]。由于生物醫(yī)學(xué)領(lǐng)域龐大的概念和復(fù)雜的概念關(guān)系,應(yīng)用本體表示知識概念進(jìn)行知識組織顯得尤為重要。本文對Medline數(shù)據(jù)庫收錄的有關(guān)本體在生物醫(yī)學(xué)領(lǐng)域應(yīng)用的論文中的高頻主題詞進(jìn)行共現(xiàn)聚類分析,總結(jié)研究熱點并對其進(jìn)行分析。
數(shù)據(jù)來源于Medline數(shù)據(jù)庫。檢索策略為(ontology[Title] OR ontologies[Title]) AND medline[sb] AND ("2000/01/01"[PDAT]: "2017/12/31"[PDAT]),共得到相關(guān)文獻(xiàn)1 810篇。
以XML格式套錄檢索結(jié)果,利用書目共現(xiàn)分析系統(tǒng)BICOMB[3]統(tǒng)計并抽取文獻(xiàn)記錄中的主要主題詞與副主題詞,按照出現(xiàn)頻次由高到低進(jìn)行排序,選取頻次≥22的47個主題詞/副主題詞作為高頻詞。其中出現(xiàn)頻次最高的前3位主題詞/副主題詞分別為:受控詞表、計算生物學(xué)/方法、軟件。47個高頻詞占所有與生物醫(yī)學(xué)本體相關(guān)主題詞的累計比例為49.46%。對高頻詞在每篇文獻(xiàn)記錄中出現(xiàn)情況進(jìn)行統(tǒng)計,形成高頻詞詞篇矩陣。將詞篇矩陣輸入gCLUTO軟件,采用系統(tǒng)聚類法對所得詞篇矩陣進(jìn)行聚類分析,結(jié)果可以反映出高頻詞之間的親疏關(guān)系,根據(jù)高頻主題詞聚類結(jié)果以及主題詞之間的語義關(guān)系總結(jié)出本體在生物醫(yī)學(xué)領(lǐng)域中應(yīng)用的研究熱點。
本體研究高頻主題詞共現(xiàn)聚類結(jié)果,見圖1。其中橫軸代表文獻(xiàn),縱軸代表聚類的主題詞/副主題詞。兩詞聚集到一起的距離越短,關(guān)系越密切。
圖1 生物醫(yī)學(xué)領(lǐng)域本體研究高頻主題詞共現(xiàn)聚類
首先,根據(jù)每類高頻詞的含義及其之間的語義關(guān)系總結(jié)出每類主題詞所代表的研究熱點,即生物醫(yī)學(xué)領(lǐng)域本體的研究熱點,如主題詞蛋白質(zhì)數(shù)據(jù)庫(Protein Databases)和蛋白質(zhì)/分類(Proteins/classification)距離較近,關(guān)系密切,先聚成一類;蛋白質(zhì)/代謝(Proteins/metabolism)再與前面兩個詞合成一類,依此類推。通過分析這些主題詞的語義關(guān)系能得出其所代表的類團(tuán)含義標(biāo)簽,綜合各個類別的類標(biāo)簽可以得出該主題的研究熱點。其次,利用gCLUTO軟件計算各類成員對聚類貢獻(xiàn)率的指標(biāo)(描述度和區(qū)分度),選擇對每類形成貢獻(xiàn)最大的來源文獻(xiàn)作為表示該類內(nèi)容的類標(biāo)簽文獻(xiàn)[4]。通常選取描述度分值最高者作為該類的類標(biāo)簽文獻(xiàn),然后再對文獻(xiàn)內(nèi)容進(jìn)一步分析,進(jìn)而闡釋該類研究方向的具體內(nèi)容。類成員聚類貢獻(xiàn)率指標(biāo),見圖2。
圖2 類成員對聚類貢獻(xiàn)率指標(biāo)
通過對Medline收錄的8年生物醫(yī)學(xué)領(lǐng)域本體研究文獻(xiàn)的高頻主題詞和副主題詞進(jìn)行共現(xiàn)聚類分析,可將該領(lǐng)域的研究熱點分為4大方面、8個主題。
4.2.1 生物醫(yī)學(xué)本體在蛋白質(zhì)組學(xué)研究中的應(yīng)用 包括主題詞Sequence Analysis,Protein/methods,Proteins/chemistry,Proteins/metabolism,Proteins/classification,Protein Databases。對蛋白質(zhì)數(shù)據(jù)集進(jìn)行功能注釋分析對于解釋高通量蛋白質(zhì)組學(xué)的結(jié)果至關(guān)重要。生物醫(yī)學(xué)本體正在成為蛋白質(zhì)組學(xué)研究中的關(guān)鍵工具,用于蛋白質(zhì)序列注釋,預(yù)測蛋白質(zhì)功能等。研究內(nèi)容包括引入遺傳相似性算法來尋找一組語義相似的基因本體術(shù)語,開發(fā)基于基因本體的蛋白質(zhì)序列注釋工具[5];利用間接蛋白質(zhì)相互作用來預(yù)測基因本體中蛋白質(zhì)的功能[6];利用基因本體和肽片段的幾何聚類解析蛋白質(zhì)中的功能重要區(qū)段[7]等。
4.2.2 生物醫(yī)學(xué)本體在基因組學(xué)中的研究 該類涉及的主題詞包括Oligonucleotide Array Sequence Analysis/methods,Gene Expression Profiling/methods,Software,User-computer Interface。在生物醫(yī)學(xué)本體中,基因本體(Gene Ontology,GO)已成為其中一種強有力的生物信息組織和加工工具。由于其被設(shè)計為物種中性,GO非常適合跨物種使用,這意味著來自模式生物的功能注釋可以轉(zhuǎn)移到新測序物種中的推斷的直向同源物中。即GO可以為具有未注釋基因組的物種提供基因注釋信息。研究內(nèi)容包括與基因本體相關(guān)聯(lián)的軟件或應(yīng)用程序的開發(fā)與應(yīng)用,諸如GO:TermFinder、JProGO、ChipInfo,用于提取基因注釋和基因本體信息以進(jìn)行微陣列分析[8-12]等。
4.2.3 本體在計算生物學(xué)中的研究 包括主題詞Molecular Sequence Annotation/methods,Gene Ontology,Genetic Databases,Computational Biology/methods,Algorithms,Molecular Sequence Annotation,Gene Expression Profiling,Proteins/genetics。利用本體來描述生物實體時可以通過對實體注釋的含義相似性來評估兩個實體之間的相關(guān)程度。語義相似性已成為驗證生物醫(yī)學(xué)研究結(jié)果的有用工具,如基因聚類、基因表達(dá)數(shù)據(jù)分析,分子相互作用的預(yù)測和驗證以及疾病基因優(yōu)先級。研究內(nèi)容主要基于基因本體應(yīng)用信息的語義相似度計算方法,獲取不同基因產(chǎn)物生物特征的相似度。如基于本體語義相似性的功能分析工具A-DaGO-Fun[13];基于基因本體評估蛋白質(zhì)功能相似度[14];利用基因本體注釋評估基因表達(dá)數(shù)據(jù)的聚類算法,用于解釋基因表達(dá)數(shù)據(jù)以揭示共享共同功能屬性的基因組[15];基于基因本體注釋的相似性預(yù)測蛋白質(zhì)-蛋白質(zhì)的相互作用[16]。
4.3.1 本體在臨床決策支持系統(tǒng)中的應(yīng)用 涉及的主題詞包括Practice Guidelines as Topic,Clinical Decision Support Systems,Biological Models,Genomics/methods。研究內(nèi)容為開發(fā)本體用于臨床實踐指南及藥物基因組學(xué)知識表示。如通過開發(fā)乳腺癌本體、基于指南要素模型以及患者本體在初級保健機構(gòu)進(jìn)行乳腺癌后續(xù)干預(yù)的臨床決策支持系統(tǒng)[17];開發(fā)網(wǎng)絡(luò)本體語言(Web Ontology Language,OWL)和利用自動推理方法表示、分析和使用藥物基因組學(xué)數(shù)據(jù),使患者與臨床上適當(dāng)?shù)乃幬锘蚪M學(xué)指南和臨床決策支持信息相匹配[18];本體及其解決問題的方法在開發(fā)可共享臨床指南中的應(yīng)用,通過促進(jìn)指南獲取和執(zhí)行,提高日常護(hù)理中可共享指南和決策支持系統(tǒng)的接受度[19]。
4.3.2 本體在分子生物學(xué)領(lǐng)域的應(yīng)用 包括主題詞Phenotype,Biological Ontologies,Data Mining/methods,Theoretical Models。研究內(nèi)容為通過生物醫(yī)學(xué)本體查詢和推斷表型以用于臨床基因診斷[20-21]。如根據(jù)患者表型對給定的一組基因進(jìn)行排序。該算法通過在與每個基因相關(guān)的表型描述符和描述患者的表型描述符之間計算語義相似性來對基因進(jìn)行排序。表型描述符術(shù)語取自人類表型本體(Human Phentypic Ontology,HPO),語義相似性源自每個術(shù)語的信息內(nèi)容,可以相對于患者表型特征在基因列表內(nèi)高度排列致病基因,以減少臨床基因診斷的工作量[22]。又如結(jié)合開放生物醫(yī)學(xué)本體(Open Biomedical Ontology,OBO)、自閉癥本體與美國國立自閉癥研究數(shù)據(jù)庫(National Database for Autison Research,NDAR),采用描述邏輯和基于規(guī)則的推理方法,從特定主題數(shù)據(jù)推斷出高級表型抽象,有助于研究人員進(jìn)行數(shù)據(jù)分析[23]。
4.4.1 與本體相關(guān)的術(shù)語詞表研究 涉及的主題詞包括Internet,Terminology as Topic,Genes,Controlled Vocabulary。本體是受控程度最為嚴(yán)格、結(jié)構(gòu)化程序最高的一種詞表,是知識表示的強大工具。領(lǐng)域本體描述的是特定領(lǐng)域中的概念與概念之間的關(guān)系,提供專業(yè)學(xué)科領(lǐng)域中概念的詞表以及概念間的關(guān)系,能夠合理有效地進(jìn)行領(lǐng)域知識的表示。該類研究內(nèi)容為構(gòu)建詞匯表供研究人員在研究過程中訪問、瀏覽和利用。如開發(fā)健康術(shù)語/本體門戶(HeTOP)提供對健康術(shù)語和本體的輕松訪問并可進(jìn)行醫(yī)學(xué)教學(xué)[24];通過編譯Gene Ontologies生成描述分子生物學(xué)領(lǐng)域的結(jié)構(gòu)化詞匯表并將其應(yīng)用于基因組表達(dá)分析中[25]。
4.4.2 本體在異構(gòu)數(shù)據(jù)整合方面的應(yīng)用 包含主題詞Systematized Nomenclature of Medicine、Semantics、Medical Informatics / methods。獨立開發(fā)、結(jié)構(gòu)各異的生物學(xué)數(shù)據(jù)庫散落分布限制研究人員的具體研究。通過本體中的標(biāo)準(zhǔn)化術(shù)語不同數(shù)據(jù)集合的元數(shù)據(jù)可以被注釋并進(jìn)行術(shù)語統(tǒng)一,進(jìn)而消除異質(zhì)性,實現(xiàn)數(shù)據(jù)整合。該類研究內(nèi)容主要體現(xiàn)在通過本體概念之間的簡單術(shù)語匹配來解決整合異構(gòu)知識源的問題[26-27]。如在“Ontology Patterns-based Transformation of Clinical Information”一文中作者提出一種靈活的轉(zhuǎn)換方法,使用語義內(nèi)容模式來指導(dǎo)源數(shù)據(jù)和目標(biāo)域本體之間的映射。作為用例,該文展示如何使用SemanticHealthNet中提出的語義內(nèi)容模式來轉(zhuǎn)換有關(guān)藥物管理的異構(gòu)數(shù)據(jù)[28]。
包括主題詞Factual Databases,Database Management Systems,Information Storage and Retrieval/methods,Documentation/methods,Natural Language Processing,Pattern Recognition,Automated/methods,Artificial Intelligence。生物醫(yī)學(xué)文獻(xiàn)數(shù)量迅猛增長,僅依靠人工檢索閱讀會消耗大量時間,利用人工智能的方法能夠有效地從生物醫(yī)學(xué)數(shù)據(jù)庫中提取相關(guān)知識進(jìn)行研究進(jìn)而提出新的實驗假設(shè),得到新的科學(xué)結(jié)論。本體在人工智能中的應(yīng)用主要體現(xiàn)在利用本體中的概念以及概念與概念之間的關(guān)系,根據(jù)現(xiàn)用概念自動預(yù)測新概念,結(jié)合算法自動實現(xiàn)多級注釋、自動文本分類及聚類[29-31]。
近年來本體廣泛應(yīng)用于生物醫(yī)學(xué)研究中,為學(xué)科領(lǐng)域中的類和關(guān)系提供標(biāo)準(zhǔn)標(biāo)識符以及主題領(lǐng)域詞匯表,描述本體中類間關(guān)系含義的元數(shù)據(jù),機器可讀的公理和定義,便于計算機訪問理解,使其能夠?qū)崿F(xiàn)便于數(shù)據(jù)集成、數(shù)據(jù)訪問和分析的應(yīng)用程序。通過對高頻主題詞進(jìn)行聚類分析,可以總結(jié)出本體在生物醫(yī)學(xué)領(lǐng)域中的應(yīng)用主要集中在生物信息學(xué)、臨床醫(yī)學(xué)、醫(yī)學(xué)信息學(xué)、人工智能4個方面。生物醫(yī)學(xué)領(lǐng)域具有龐大的概念體系和復(fù)雜的概念關(guān)系,使得本體對于該領(lǐng)域的重要性遠(yuǎn)遠(yuǎn)大于其他信息學(xué)領(lǐng)域。隨著生物醫(yī)學(xué)領(lǐng)域的發(fā)展,本體將會被大量地用于知識和數(shù)據(jù)的表達(dá)與分析中,向更高的覆蓋范圍、形式和整合方向發(fā)展。