劉建妮,馮 筠,李忠虎,韓 健,顏建強(qiáng),王惠亞,黃 康,黃康俊,姜 博,溫 超,張 敏,章勇勤,張衛(wèi)國(guó),沈 妍
(1.西北大學(xué) 地質(zhì)學(xué)系/大陸動(dòng)力學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,陜西省早期生命與環(huán)境重點(diǎn)實(shí)驗(yàn)室,西安市古生物信息學(xué)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710069;2.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院/西安市古生物信息學(xué)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710069;3.西北大學(xué) 生命科學(xué)學(xué)院/西安市古生物信息學(xué)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710069;4.西北大學(xué) 數(shù)學(xué)學(xué)院/西安市古生物信息學(xué)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710069;5.西北大學(xué) 藝術(shù)學(xué)院/西安市古生物信息學(xué)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710069)
古生物學(xué)作為一門傳統(tǒng)基礎(chǔ)學(xué)科,研究對(duì)象主要為古生物化石,目標(biāo)是揭示地球生命發(fā)展歷程并提供地球環(huán)境變化的證據(jù)。在以往的古生物學(xué)研究中,絕大多數(shù)研究是依靠化石形態(tài)學(xué)分析得到的數(shù)據(jù)繼而展開(kāi)推理研究。隨著地球科學(xué)新方法和新技術(shù)的應(yīng)用,以及生命科學(xué)和信息技術(shù)的迅速發(fā)展,古生物學(xué)這門古老學(xué)科逐漸進(jìn)入了縱深發(fā)展的新時(shí)代。當(dāng)下學(xué)科間界限越來(lái)越模糊,不同學(xué)科間的跨界融合不斷加深,針對(duì)古生物化石的信息化和可視化的研究成果日益增多?;娜S復(fù)原、譜系演化分析、化石圖像檢索等教學(xué)、科普等相關(guān)研究在國(guó)內(nèi)外發(fā)展迅猛。
2012年,本交叉學(xué)科創(chuàng)始人兼負(fù)責(zé)人劉建妮教授意識(shí)到必須將古生物學(xué)、信息技術(shù)、生物學(xué)、數(shù)學(xué)及藝術(shù)相融合,以人工智能、大數(shù)據(jù)及圖像圖形處理技術(shù)為工具挖掘化石中蘊(yùn)含的規(guī)律,最終將古生物化石面貌及化石賦存的環(huán)境以鮮活的形式展示給大眾,由此她率先提出了古生物信息學(xué)的概念。
古生物信息學(xué)(paleo-bioinformatics)是指在古生物學(xué)的研究中,以信息技術(shù)、大數(shù)據(jù)技術(shù)、人工智能技術(shù)為工具對(duì)古生物化石及其環(huán)境信息進(jìn)行收集、檢索、分析以及表達(dá)的學(xué)科。具體而言,古生物信息學(xué)作為一門新的學(xué)科領(lǐng)域,是以古生物數(shù)據(jù)庫(kù)的建立為基礎(chǔ),綜合地質(zhì)、地理、生物科學(xué),研究適用于古生物譜系分析、古生物化石圖像分析、地球生物演化規(guī)律推理分析的算法和軟件工具,最終以藝術(shù)的手段復(fù)原并展示古生物及其生活環(huán)境。
開(kāi)展古生物信息學(xué)交叉研究,目的是希望利用現(xiàn)代信息等技術(shù),更快、更準(zhǔn)、更好地挖掘化石中塵封的生物演化奧秘。要實(shí)現(xiàn)這一目標(biāo),首先,需要建立古生物信息平臺(tái),為后期的推演和復(fù)原提供數(shù)據(jù)基礎(chǔ);其次,探索適合于古生物學(xué)的譜系分析和化石檢索的算法,準(zhǔn)確推演地球生物之間的演化關(guān)系;再次,研究基于古生物化石三維重建、化石復(fù)原和可視化的新方法和新技術(shù),讓化石“活”起來(lái)。
總體而言,古生物信息學(xué)是集古生物學(xué)、信息學(xué)、數(shù)學(xué)、生物學(xué)及藝術(shù)等多學(xué)科于一身的新興交叉學(xué)科,是古生物研究發(fā)展的必經(jīng)之路。
經(jīng)過(guò)多年的學(xué)科發(fā)展,傳統(tǒng)古生物學(xué)的研究?jī)?nèi)容在各方面已經(jīng)形成了豐富完整的體系,對(duì)各種化石的分類研究也趨于精細(xì)。同時(shí),新技術(shù)的發(fā)展應(yīng)用也為古生物的研究提供了便利。目前的研究從原來(lái)的定性分析逐漸發(fā)展成定量分析,研究范圍也由有限范圍擴(kuò)展至更宏觀和更微觀的領(lǐng)域,研究方法和手段也都得到了相應(yīng)的提高。古生物化石資源平臺(tái)也因此應(yīng)運(yùn)而生。
西北大學(xué)地質(zhì)學(xué)系聯(lián)合信息科學(xué)與技術(shù)學(xué)院,從2013年開(kāi)始建設(shè)以寒武紀(jì)澄江生物群及關(guān)山生物群為核心、綜合全球其他寒武紀(jì)開(kāi)放化石庫(kù)的古生物化石信息平臺(tái)。該平臺(tái)融合化石形態(tài)學(xué)、生態(tài)學(xué)、生物地理分布、沉積學(xué)、埋藏學(xué)等多種參數(shù),數(shù)據(jù)描述規(guī)范、管理邏輯清晰、系統(tǒng)安全性高、查閱數(shù)據(jù)迅速、操作邏輯簡(jiǎn)單,為古生物信息學(xué)的進(jìn)一步研究奠定了基礎(chǔ)。
首先,本團(tuán)隊(duì)依托西北大學(xué)博物館及陜西省早期生命與環(huán)境重點(diǎn)實(shí)驗(yàn)室,經(jīng)過(guò)多年的發(fā)掘,形成澄江生物群、關(guān)山生物群近20萬(wàn)枚精美的標(biāo)本實(shí)體庫(kù)。其次,通過(guò)對(duì)化石庫(kù)中的各類化石進(jìn)行高清拍攝,對(duì)種類、形態(tài)、保存環(huán)境等進(jìn)行特征數(shù)據(jù)記錄和保存,形成化石標(biāo)本數(shù)據(jù)庫(kù)。再次,利用現(xiàn)代信息學(xué)技術(shù),對(duì)化石圖像進(jìn)行圖像增強(qiáng)、圖像分類、三維重建、古生物復(fù)原等,形成化石復(fù)原圖、古生物三維模型庫(kù)。最后,對(duì)多模態(tài)化石數(shù)據(jù)進(jìn)行系統(tǒng)整合,形成大規(guī)模古生物化石資源平臺(tái)。
西北大學(xué)古生物化石資源平臺(tái)目前已部署在西北大學(xué)域名下,是一個(gè)電子化、系統(tǒng)化的古生物信息學(xué)數(shù)據(jù)平臺(tái)(見(jiàn)圖1)。平臺(tái)采用了先進(jìn)、高效的信息技術(shù),保證了系統(tǒng)穩(wěn)健性和易用性。平臺(tái)具有化石標(biāo)本查詢、化石標(biāo)本打印、化石標(biāo)本編輯等多個(gè)功能,基本實(shí)現(xiàn)了化石標(biāo)本資源的高質(zhì)量共享。
圖1 西北大學(xué)古生物化石資源平臺(tái)Fig.1 Northwest University paleontological fossil resource platform
系統(tǒng)發(fā)育學(xué)是對(duì)種群或物種的起源(形成)和演化(進(jìn)化)關(guān)系進(jìn)行科學(xué)研究的學(xué)科[1]。其核心是運(yùn)用共近衍征特征矩陣重建共有祖先關(guān)系,并在共同祖先的基礎(chǔ)上將分類單元?dú)w類,最終得到符合生物進(jìn)化規(guī)律的系統(tǒng)發(fā)育樹(shù),反映物種的進(jìn)化歷程和物種間的親緣關(guān)系[2]。
當(dāng)前已有面向現(xiàn)生生物的系統(tǒng)發(fā)育樹(shù)構(gòu)建方法和軟件工具,例如:PAUP[3]、TNT[4]、Mrbayes[5]等,然而古生物的譜系分析和現(xiàn)生生物有所不同,主要原因如下。
1)現(xiàn)生生物主要使用分子數(shù)據(jù),如DNA 堿基序列為共近衍征特征矩陣,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)與鳥(niǎo)嘌呤(G)的排列方式。如果該堿基序列存在,在計(jì)算機(jī)命令中以“1”來(lái)表示,如果該堿基序列不存在,在計(jì)算機(jī)命令中以“0”來(lái)表示。因?yàn)榛驕y(cè)序的精準(zhǔn)性,堿基序列是否存在必然精準(zhǔn)。然而,在億年前的古生物化石中無(wú)法提取到分子數(shù)據(jù),只能使用化石形態(tài)學(xué)(形狀、大小、數(shù)目、比例、紋理及裝飾物等)特征,如,牙齒形狀、復(fù)眼數(shù)目、體表環(huán)紋等人為觀察特征。這些特征存在諸多不確定性,和DNA序列確定的表達(dá)形式大為不同。
2)化石因?yàn)槁癫丨h(huán)境和人為挖掘等因素易造成形態(tài)模糊、結(jié)構(gòu)缺損及數(shù)目不定等多種數(shù)據(jù)缺失的情況,此時(shí)可將化石的形態(tài)特征值記錄為“不確定”,也就是計(jì)算機(jī)命令中的“?”。
3)化石形態(tài)特征存在遞進(jìn)層次關(guān)系,因而存在由于某些特征缺失繼而造成相關(guān)特征不可適用的情況。例如,某生物化石顯示沒(méi)有觸角,觸角特征標(biāo)定為“0”,那么相關(guān)的觸角個(gè)數(shù)、觸角長(zhǎng)度等形態(tài)特征等由于觸角的缺失則均不可適用,在計(jì)算機(jī)命令中我們通常記錄為“-”。
利用形態(tài)學(xué)特征矩陣可形成寒武紀(jì)動(dòng)物系統(tǒng)發(fā)育樹(shù)[6](見(jiàn)圖2)。其中特征矩陣的行代表物種,列代表屬性,特征值為“0”代表未發(fā)現(xiàn)該物種有此特征,“1”代表該特征存在??梢钥闯鲂螒B(tài)學(xué)特征矩陣中存在大量標(biāo)記“?”和“-”的數(shù)據(jù),這使得古生物的譜系分析結(jié)果不穩(wěn)定,難以獲得最優(yōu)解,現(xiàn)生生物的系統(tǒng)發(fā)育樹(shù)構(gòu)建方法失效。
圖2 運(yùn)用現(xiàn)生生物學(xué)譜系分析方法所得出的寒武紀(jì)動(dòng)物系統(tǒng)發(fā)育樹(shù)Fig.2 The phylogenetic tree of Cambrian animals obtained by using the method of modern biological pedigree analysis
目前現(xiàn)生生物的系統(tǒng)發(fā)育樹(shù)構(gòu)建方法有鄰接法[7]、最大簡(jiǎn)約法[8]、貝葉斯推斷法[9-10]等,古生物的譜系分析尚無(wú)公認(rèn)的方法和工具。團(tuán)隊(duì)從對(duì)形態(tài)學(xué)數(shù)據(jù)中缺失信息的插補(bǔ)和對(duì)含不可適用信息的系統(tǒng)發(fā)育樹(shù)構(gòu)建方法等方面進(jìn)行了深入研究。
已有研究證明缺失數(shù)據(jù)會(huì)對(duì)系統(tǒng)發(fā)育建樹(shù)結(jié)果的準(zhǔn)確性和有效性產(chǎn)生負(fù)面影響[11-12],因此不少研究對(duì)缺失數(shù)據(jù)進(jìn)行處理,以方便形態(tài)學(xué)數(shù)據(jù)集的使用。目前主要的處理方法有缺失數(shù)據(jù)直接刪除法、缺失數(shù)據(jù)插補(bǔ)法和缺失數(shù)據(jù)忽略法[13-19]等。但在大多數(shù)情況下,具有大量缺失值的分類單元或特征仍然可以提高進(jìn)化樹(shù)構(gòu)建的準(zhǔn)確性,并且剔除分類單元通常會(huì)影響其他分類單元之間的演化關(guān)系[20-21]。所以對(duì)于缺失數(shù)據(jù)處理方法來(lái)說(shuō),直接刪除或忽略并非良選,因?yàn)闊o(wú)法有效利用數(shù)據(jù)包含的全部信息。有研究表明,相較于直接刪除或忽略缺失數(shù)據(jù),對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)是更為有效的方法[22-23]。針對(duì)形態(tài)學(xué)數(shù)據(jù)中存在的缺失信息導(dǎo)致古生物系統(tǒng)發(fā)育分析結(jié)果不穩(wěn)定的問(wèn)題,團(tuán)隊(duì)成員對(duì)特征矩陣中缺失數(shù)據(jù)插補(bǔ)提出了幾種方案(見(jiàn)圖3),使得形態(tài)學(xué)數(shù)據(jù)更加完整,系統(tǒng)發(fā)育分析更為有效。
圖3 形態(tài)學(xué)數(shù)據(jù)中缺失信息的插補(bǔ)Fig.3 Interpolation of missing information in morphological data
團(tuán)隊(duì)將機(jī)器學(xué)習(xí)領(lǐng)域中的缺失值填補(bǔ)方法引入形態(tài)學(xué)數(shù)據(jù)特征矩陣中缺失值的處理任務(wù),并融入更多演化分析的先驗(yàn)知識(shí),提出一種基于層次推斷的形態(tài)學(xué)數(shù)據(jù)缺失值的填補(bǔ)方法[24]。該方法先根據(jù)特征矩陣中特征間存在的單向邏輯依賴的特點(diǎn),建立特征層次結(jié)構(gòu)模型,然后以此特征層次結(jié)構(gòu)模型為基礎(chǔ)提出了一種層次推斷框架,用以處理含層次化特征的形態(tài)學(xué)數(shù)據(jù)中缺失數(shù)據(jù)的插補(bǔ)問(wèn)題。最后將距離加權(quán)的K近鄰法引入到層次推斷框架中以完成特征矩陣中缺失數(shù)據(jù)的插補(bǔ),提高缺失數(shù)據(jù)插補(bǔ)的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,相較于目前建樹(shù)方法中基于模糊優(yōu)化的缺失數(shù)據(jù)處理方法,層次推斷方法可以降低數(shù)據(jù)的模糊性,挖掘更多的有效信息,從而能夠充分利用形態(tài)學(xué)數(shù)據(jù)中的信息。
此外,本研究還提出了一種基于自編碼器的形態(tài)學(xué)數(shù)據(jù)缺失插補(bǔ)方法[19]。受深度學(xué)習(xí)不斷發(fā)展的影響以及基于深度網(wǎng)絡(luò)的缺失插補(bǔ)方法的啟發(fā),本團(tuán)隊(duì)提出一種全新的結(jié)合多重插補(bǔ)與自編碼器的兩段式缺失插補(bǔ)方法。該方法首先使用基于鏈?zhǔn)椒匠痰亩嘀仡A(yù)插補(bǔ)模型,結(jié)合鏈?zhǔn)椒匠膛c最近鄰原則對(duì)缺失數(shù)據(jù)進(jìn)行多重預(yù)插補(bǔ),得到初始的插補(bǔ)值。隨后使用基于自編碼器的插補(bǔ)矯正模型,利用全部已知的數(shù)據(jù)集訓(xùn)練一個(gè)自編碼,再運(yùn)用訓(xùn)練好的自編碼器對(duì)缺失插補(bǔ)值進(jìn)行矯正,從而得到最終的缺失插補(bǔ)值。實(shí)驗(yàn)證明,相對(duì)于常見(jiàn)的缺失數(shù)據(jù)插補(bǔ)方法,該方法有極高的插補(bǔ)準(zhǔn)確率,且插補(bǔ)后的數(shù)據(jù)也有較好的系統(tǒng)發(fā)育分析結(jié)果,可有效解決形態(tài)學(xué)數(shù)據(jù)中缺失信息造成系統(tǒng)發(fā)育分析結(jié)果不穩(wěn)定的問(wèn)題。
化石中特征之間的遞進(jìn)層次關(guān)系使得形態(tài)學(xué)數(shù)據(jù)中存在不可適用信息, 而不可適用信息往往會(huì)導(dǎo)致系統(tǒng)發(fā)育樹(shù)難以有效構(gòu)建。 對(duì)不可適用數(shù)據(jù)的常見(jiàn)處理方法包括: ①對(duì)不可適用數(shù)據(jù)使用缺失數(shù)據(jù)進(jìn)行表示,以缺失信息來(lái)處理不可適用信息; ②將多個(gè)特征轉(zhuǎn)變?yōu)橐粋€(gè)多狀態(tài)的特征進(jìn)行表示,從而避免出現(xiàn)不可適用信息; ③用全新的特征狀態(tài)來(lái)表示不可適用特征狀態(tài), 換言之是將不可適用信息作為普通信息處理。 上述方法都不能準(zhǔn)確地利用不可適用數(shù)據(jù)的信息。 針對(duì)不可適用信息導(dǎo)致系統(tǒng)發(fā)育分析不穩(wěn)定的問(wèn)題, 本研究提出了一系列的優(yōu)化方法以充分利用形態(tài)學(xué)數(shù)據(jù)中的不可適用信息, 并有效構(gòu)建系統(tǒng)發(fā)育樹(shù)(見(jiàn)圖4)。
圖4 含不可適用信息的系統(tǒng)發(fā)育樹(shù)構(gòu)建方法Fig.4 Phylogenetic tree construction methods with inapplicable information
從形態(tài)學(xué)數(shù)據(jù)的特征層次關(guān)系出發(fā),首先提出了一種基于簡(jiǎn)約聚類的含不可適用信息的形態(tài)學(xué)數(shù)據(jù)系統(tǒng)發(fā)育樹(shù)構(gòu)建與優(yōu)化方法[24]。該方法包括進(jìn)化樹(shù)的構(gòu)建和最優(yōu)樹(shù)的搜索兩個(gè)階段。①在進(jìn)化樹(shù)的構(gòu)建過(guò)程中,將特征層次結(jié)構(gòu)模型和特征極向等先驗(yàn)知識(shí)融入聚類算法,提出一種簡(jiǎn)約聚類方法,用以構(gòu)建含不可適用信息的系統(tǒng)發(fā)育樹(shù);②在最優(yōu)樹(shù)的搜索階段,在簡(jiǎn)約原則的基礎(chǔ)上采用模擬退火算法進(jìn)行啟發(fā)式搜索,構(gòu)建更為有效的系統(tǒng)發(fā)育樹(shù)。實(shí)驗(yàn)表明,基于上述方法構(gòu)建的古生物系統(tǒng)發(fā)育樹(shù),與目前普遍認(rèn)可的系統(tǒng)發(fā)育樹(shù)拓?fù)浣Y(jié)構(gòu)基本一致,驗(yàn)證了該方法在含不可適用信息的古生物系統(tǒng)發(fā)育樹(shù)構(gòu)建方面的有效性。
此外,團(tuán)隊(duì)還提出了一種基于不可適用 Fitch 算法與蒙特卡洛樹(shù)搜索算法的系統(tǒng)發(fā)育樹(shù)構(gòu)建方法[19]。形態(tài)學(xué)數(shù)據(jù)的不可適用Fitch算法[25]基于最大同源性假設(shè),能對(duì)不可適用數(shù)據(jù)進(jìn)行更合理的處理,對(duì)含有不可適用信息的系統(tǒng)發(fā)育樹(shù)進(jìn)行更為有效的評(píng)估。本研究基于不可適用Fitch算法提出了一種蒙特卡洛樹(shù)搜索算法,經(jīng)過(guò)多次搜索、模擬建樹(shù)、評(píng)估反饋等步驟,解決了優(yōu)化搜索中容易陷入局部最優(yōu)解的問(wèn)題,使用蒙特卡洛樹(shù)來(lái)平衡搜索的寬度和廣度,從而更為有效地進(jìn)行系統(tǒng)發(fā)育樹(shù)的搜索,構(gòu)建更加優(yōu)化的系統(tǒng)發(fā)育樹(shù)?;诓豢蛇m用 Fitch 算法與蒙特卡洛樹(shù)搜索算法的系統(tǒng)發(fā)育樹(shù)構(gòu)建方法對(duì)于不可適用信息的處理更加合理,也使得系統(tǒng)發(fā)育樹(shù)的搜索更為有效。實(shí)驗(yàn)結(jié)果表明,相較于目前流行的方法,該方法在多個(gè)形態(tài)學(xué)數(shù)據(jù)上構(gòu)建的系統(tǒng)發(fā)育樹(shù)有著更短的樹(shù)長(zhǎng)、更優(yōu)的樹(shù)得分以及與模型樹(shù)更高的相似度。
古生物學(xué)家或者古生物化石愛(ài)好者們發(fā)現(xiàn)未知化石之時(shí),需要對(duì)其內(nèi)容進(jìn)行鑒別,通過(guò)將這些未知化石的特征與已知化石的相似特征進(jìn)行對(duì)比,進(jìn)而初步推測(cè)未知化石的形態(tài)特征及其所代表的地質(zhì)時(shí)代的生物多樣性和生物間相互關(guān)系等相關(guān)信息。
古生物領(lǐng)域的研究者對(duì)化石圖像早期的檢索工作通常依賴于人工查找的方式,這不僅消耗大量人力和物力資源,檢索速度較慢,且有可能存在主觀性因素,因而無(wú)法滿足用戶對(duì)實(shí)時(shí)性和準(zhǔn)確性的要求[26]。通過(guò)計(jì)算機(jī)視覺(jué)領(lǐng)域的圖像識(shí)別方法對(duì)化石圖像的內(nèi)容進(jìn)行自動(dòng)識(shí)別和檢索,可以有效降低化石圖像檢索過(guò)程中的錯(cuò)誤率和主觀性,同時(shí)提高檢索速度。圖像檢索是指從圖像庫(kù)中找出包含查詢圖像中某一物體的相關(guān)圖像。圖像檢索流程中(見(jiàn)圖5),圖像數(shù)據(jù)庫(kù)的圖像經(jīng)過(guò)特征提取方法后存儲(chǔ)為向量,當(dāng)查詢未知化石圖像時(shí),查詢圖像會(huì)經(jīng)過(guò)同樣的特征提取方法轉(zhuǎn)化為向量后,與特征數(shù)據(jù)庫(kù)中的特征向量進(jìn)行比對(duì),繼而找出距離最近的K個(gè)向量所對(duì)應(yīng)的圖像。在特征提取過(guò)程中,所有的圖像會(huì)映射到一個(gè)向量空間中,使得原本相似的圖像在向量空間中是彼此相近的,原本不相似的圖像在向量空間中是彼此遠(yuǎn)離的。而基于內(nèi)容的圖像檢索(content-based image retrieval, CBIR)是圖像檢索中的一種類型,CBIR查詢出的相似圖像與查詢圖像在語(yǔ)義上具有相似性。在CBIR中,圖像經(jīng)過(guò)特征提取模型所提取到的特征向量通常都包含著圖像的語(yǔ)義信息。借助CBIR技術(shù),可以協(xié)助古生物學(xué)家和古生物化石愛(ài)好者們快速、準(zhǔn)確地檢索到與未知化石圖像相關(guān)的化石圖像,并提供更詳盡的信息描述,以便更為迅速地推斷未知化石的形態(tài)特征和生物學(xué)信息。
圖5 圖像檢索流程圖Fig.5 Flowchart of image retrieval
基于化石語(yǔ)義的圖像檢索系統(tǒng)的一個(gè)關(guān)鍵步驟涉及到特征提取。這一步驟的主要目標(biāo)是從給定的化石圖像中提取出包含有主體語(yǔ)義的特征,并將這些特征映射為一個(gè)具有固定維度的向量表示,這是化石圖像檢索的核心挑戰(zhàn)。
在早期的化石特征提取的方法中通常使用傳統(tǒng)的手工特征方法,如尺度不變特征變換匹配算法(scale-invariant feature transform, SIFT)算法[27]。2018年,團(tuán)隊(duì)成員劉曦陽(yáng)[28]使用改進(jìn)的SIFT算法對(duì)化石圖像進(jìn)行特征提取,改進(jìn)的SIFT算法在極值檢測(cè)過(guò)程中抑制局部多極值點(diǎn)的產(chǎn)生,并利用Harris角點(diǎn)檢測(cè)算子對(duì)特征點(diǎn)進(jìn)行篩選。然而,SIFT算法是一種局部特征提取的方法,并不能表達(dá)出圖像的語(yǔ)義信息。
基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)能夠提取出表達(dá)圖像語(yǔ)義的特征,使用分類模型的CNN特征提取網(wǎng)絡(luò)如AlexNet[29]、ResNet[30]等來(lái)提取圖像的語(yǔ)義特征是基于內(nèi)容的圖像檢索系統(tǒng)中常用的特征提取方法,這些網(wǎng)絡(luò)所提取到的特征通常稱為全局特征。2020年,Marchant等[31]設(shè)計(jì)了基于循環(huán)CNN的網(wǎng)絡(luò)在大型有孔蟲(chóng)化石圖像集訓(xùn)練,利用CNN網(wǎng)絡(luò)所提取的特征相比SIFT包含更多的語(yǔ)義信息。然而其所使用的化石圖像數(shù)據(jù)都只包含化石主體的純色背景圖像,很難適用于現(xiàn)場(chǎng)拍攝的具有復(fù)雜背景的化石圖像。
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),將CNN網(wǎng)絡(luò)應(yīng)用到復(fù)雜背景的化石圖像提取特征時(shí)無(wú)法有效地表達(dá)復(fù)雜背景的化石圖像。通過(guò)分析ResNet網(wǎng)絡(luò)中特征權(quán)值的分布,研究發(fā)現(xiàn)ResNet網(wǎng)絡(luò)未能捕捉到化石圖像的關(guān)鍵特征,特別是主體部分的特征。為了使特征提取網(wǎng)絡(luò)所提取的特征中包含主體信息,2021年團(tuán)隊(duì)提出一種基于顯著特征和全局特征融合的化石圖像檢索方法[26],其特征提取方法如圖6所示,使用ResNet提取全局語(yǔ)義特征,顯著性檢測(cè)網(wǎng)絡(luò)提取顯著特征。因此,引入的顯著性檢測(cè)的方法可用于定位并提取化石圖像中的顯著特征(見(jiàn)圖6)。然而,在某些復(fù)雜的化石圖像上,顯著性檢測(cè)網(wǎng)絡(luò)無(wú)法得到準(zhǔn)確或完整的顯著特征。
圖6 基于全局特征和顯著特征融合的化石圖像特征提取Fig.6 Fossil image feature extraction based on fusion of global and salient features
為了解決這一問(wèn)題,團(tuán)隊(duì)采用了一種聯(lián)合描述的方法,將顯著特征和全局特征相結(jié)合,形成互補(bǔ)的特征表示。分類模型的特征提取網(wǎng)絡(luò)不易捕捉到的特征,可使用顯著性檢測(cè)進(jìn)行捕捉。顯著性檢測(cè)效果不佳的化石圖像,可使用全局特征進(jìn)行補(bǔ)充,以提高特征的表達(dá)能力,從而改善化石圖像的檢索效果。在包含三葉蟲(chóng)、鰓曳動(dòng)物、葉足動(dòng)物、奇蝦類及真節(jié)肢動(dòng)物(三葉蟲(chóng)外)等5個(gè)類別的936張化石圖像數(shù)據(jù)集中,該檢索系統(tǒng)實(shí)現(xiàn)了94.4%的mAP(mean average precision)。雖然以上方法能夠有效提高檢索性能,但是顯著特征和全局特征融合的方式是一種通道拼接方式,使用一般的分類模型的特征提取網(wǎng)絡(luò)所提取的全局特征中仍然包含著大量的背景噪音。
全局特征包含大量背景噪音,主要原因在于化石圖像的巖石背景對(duì)于化石主體有較大的視覺(jué)干擾,化石主體與巖石背景在顏色和紋理上有著極大的相似性,化石主體邊緣與圍巖背景難以區(qū)分,這直接導(dǎo)致了特征提取模型在提取語(yǔ)義特征時(shí)沒(méi)有關(guān)注到化石主體區(qū)域。為了使網(wǎng)絡(luò)關(guān)注于化石主體而降低背景噪音的干擾,團(tuán)隊(duì)提出一種基于顯著采樣的兩階段注意力金字塔特征的古生物化石圖像檢索方法,其特征提取階段由初篩階段和細(xì)化階段構(gòu)成(見(jiàn)圖7)。
圖7 基于注意力金字塔特征和顯著采樣的化石圖像特征提取Fig.7 Fossil image feature extraction based on attention pyramid feature and saliency-based sampling
初篩階段以原始圖像作為輸入,而細(xì)化階段以經(jīng)過(guò)顯著采樣的細(xì)化圖像作為輸入,每個(gè)階段都包括由多尺度特征金字塔和多層次注意金字塔構(gòu)成的注意力金字塔特征。注意力金字塔特征通過(guò)在不同尺度上使用注意力機(jī)制,使網(wǎng)絡(luò)能夠注意到化石的主體區(qū)域。顯著采樣通過(guò)注意力機(jī)制所生成的注意力圖放大局部細(xì)節(jié),從而使第二階段的特征提取關(guān)注到圖像的細(xì)節(jié)語(yǔ)義信息。除了存在巖石背景對(duì)于化石主體有較大的視覺(jué)干擾的問(wèn)題,化石圖像還存在著圖像之間高相似性的問(wèn)題。同一綱的古生物化石圖像背景和主體具有高相似性,一些不同綱的古生物化石圖像背景和主體在視覺(jué)上也具有高相似性,這可能會(huì)造成特征提取模型將原本不屬于同一綱的化石圖像映射為特征向量時(shí)是彼此相似的。雖然添加注意力機(jī)制能使網(wǎng)絡(luò)在特征提取階關(guān)注到化石的主體區(qū)域,但僅使用一般的分類損失訓(xùn)練網(wǎng)絡(luò)會(huì)導(dǎo)致網(wǎng)絡(luò)無(wú)法捕捉圖像之間的相似性。因此團(tuán)隊(duì)在訓(xùn)練特征提取網(wǎng)絡(luò)時(shí),為了使網(wǎng)絡(luò)關(guān)注到不同類別化石圖像的差異性,使用度量學(xué)習(xí)框架ProtoNet[32]來(lái)學(xué)習(xí)一個(gè)距離函數(shù),使不同類別的化石圖像彼此遠(yuǎn)離,相同類別的化石圖像彼此相近。通過(guò)使用注意力機(jī)制和顯著采樣,特征提取網(wǎng)絡(luò)能夠有效捕捉化石主體的語(yǔ)義信息。在包含三葉蟲(chóng)、奇蝦、廣衛(wèi)蝦、始蟲(chóng)、怪誕蟲(chóng)、爪網(wǎng)蟲(chóng)、微網(wǎng)蟲(chóng)、心網(wǎng)蟲(chóng)、神奇啰哩山蟲(chóng)和蠕蟲(chóng)等10個(gè)類別的6 059張化石圖像數(shù)據(jù)集中,檢索系統(tǒng)實(shí)現(xiàn)了96.11%的mAP。圖8(a)顯示了使用注意力金字塔特征和顯著采樣作為檢索系統(tǒng)的特征提取方法的結(jié)果,圖8(a)表示查詢圖像,圖8(b)~(f)表示系統(tǒng)返回的前5名結(jié)果。
圖8 基于注意力金字塔特征和顯著采樣的化石圖像檢索結(jié)果Fig.8 Fossil image retrieval results based on attention pyramid feature and saliency-based sampling
隨著計(jì)算機(jī)視覺(jué)三維重建技術(shù)的快速發(fā)展,從化石圖像中自動(dòng)化重建古生物的三維模型成為可能?;跈C(jī)器學(xué)習(xí)的古生物三維重建方法具有廣泛的應(yīng)用前景。重建出的古生物三維模型不僅可以為古生物學(xué)研究提供重要參考,而且能夠促進(jìn)古生物科學(xué)知識(shí)的傳播和普及,推動(dòng)古生物學(xué)科的發(fā)展。
由于化石數(shù)據(jù)的特殊性,在其形成過(guò)程中會(huì)造成缺損以及三維空間信息的丟失,古生物學(xué)家恢復(fù)古生物三維形狀有以下兩種方法。①利用電子計(jì)算機(jī)斷層掃描(Computed Tomography, CT)[33-35]。這種方法對(duì)化石本身的要求較高,需要化石本身完整性好且保存質(zhì)量高,而且適用性較窄,重建不同化石中的生物要進(jìn)行多次掃描。另外CT掃描設(shè)備成本較高,掃描成形后,還需要人工利用軟件修飾細(xì)節(jié),耗時(shí)費(fèi)力。②使用三維建模軟件來(lái)手工繪制出古生物三維模型,這種方法也存在各種限制,要求古生物學(xué)家根據(jù)化石形態(tài)(多是二維特征)推斷出化石生物的三維形態(tài),在重建過(guò)程中也需要古生物學(xué)家和專業(yè)建模人員不斷交流以實(shí)現(xiàn)模型的重建,人力成本消耗極大。為突破傳統(tǒng)恢復(fù)古生物三維模型方法的諸多限制,減少人力和物力成本,迫切需要新的自動(dòng)化技術(shù)思路和方案,以便從化石圖像中重建出古生物的三維模型。
多視圖、電子計(jì)算機(jī)斷層掃描圖三維重建相對(duì)容易,但是從化石圖像中恢復(fù)古生物的三維形狀則屬于單視圖三維重建的范疇。單視圖三維重建是指僅利用對(duì)象物體一個(gè)視角的圖像,在挖掘圖像中的特征后重建其三維形狀。單視圖三維重建一直以來(lái)都是一項(xiàng)極具挑戰(zhàn)的任務(wù),而化石圖像的特殊性又增加了古生物三維重建的難度。在化石圖像中,古生物主體與背景巖石相混合,使得古生物主體難以辨別。此外,化石在形成和挖掘過(guò)程中不可避免地會(huì)受到損壞,導(dǎo)致完整古生物的化石圖像數(shù)量有限。由于這些限制,化石圖像僅能呈現(xiàn)古生物的一個(gè)輪廓面,缺乏空間細(xì)節(jié)信息,這為古生物的三維重建帶來(lái)了巨大挑戰(zhàn)。
在單視圖三維重建中, 將二維圖像與模板模型結(jié)合作為輸入的這種方法更貼近人類大腦對(duì)物體的三維表達(dá)方式。 當(dāng)人們看到圖片時(shí), 通??梢耘袛喑銎渲形矬w相似的三維表示, 這種三維表示多是基于個(gè)人的先驗(yàn)知識(shí)。 近年來(lái), 使用形變模型作為二維圖像獲取三維信息的先驗(yàn)?zāi)P鸵殉蔀槿S重建領(lǐng)域的一個(gè)重要方向[36-57]。 這些研究通過(guò)引入形變算法或損失函數(shù)約束形變, 使模板模型向目標(biāo)模型不斷形變, 最終達(dá)到重建的目的。
為了解決上述問(wèn)題,本團(tuán)隊(duì)提出一種基于模板網(wǎng)格模型形變的方法。該方法利用模板模型作為先驗(yàn)知識(shí),通過(guò)提取圖像中物體輪廓、關(guān)鍵點(diǎn)等特征信息,指導(dǎo)模板網(wǎng)格模型形變并生成符合圖像中物體的三維模型。
基于對(duì)圖像顯著性目標(biāo)檢測(cè)、圖像關(guān)鍵點(diǎn)檢測(cè)和單視圖三維重建技術(shù)研究現(xiàn)狀的分析,提出基于化石圖像顯著性特征和關(guān)鍵點(diǎn)檢測(cè)的古生物三維重建框架(見(jiàn)圖9)。我們對(duì)化石圖像分別進(jìn)行顯著性目標(biāo)檢測(cè)和關(guān)鍵點(diǎn)檢測(cè),得到化石圖像的顯著性分割圖像和關(guān)鍵點(diǎn)坐標(biāo)信息,然后以兩者為約束和方向,指導(dǎo)模板三維模型形變以生成符合化石圖像中古生物姿態(tài)的三維模型。通過(guò)分析化石圖像,發(fā)現(xiàn)使用該框架對(duì)古生物進(jìn)行三維重建需要解決以下問(wèn)題。① 由于化石圖像中古生物主體部分與巖石背景融合嚴(yán)重,難以從化石圖像中識(shí)別出古生物主體;② 不同化石圖像中古生物的位姿差異較大,難以檢測(cè)局部關(guān)鍵點(diǎn)以捕捉古生物局部細(xì)節(jié)的變化;③ 對(duì)大多數(shù)化石而言,在形成過(guò)程中,古生物由原來(lái)的三維形狀被“壓扁”成二維,因此不同于一般自然圖像,化石圖像中不包含任何三維空間信息。
針對(duì)難以從化石圖像中識(shí)別出古生物主體問(wèn)題,本團(tuán)隊(duì)提出了一種基于多尺度特征的化石圖像顯著性目標(biāo)檢測(cè)算法;針對(duì)難以檢測(cè)化石圖像局部關(guān)鍵點(diǎn)以捕捉古生物局部細(xì)節(jié)變化的問(wèn)題,提出了一種基于可分離卷積與空洞卷積池化金字塔的化石圖像關(guān)鍵點(diǎn)檢測(cè)算法;針對(duì)化石圖像中不包含任何三維空間信息,難以恢復(fù)三維形狀的問(wèn)題,結(jié)合三維重建技術(shù)實(shí)例,提出了基于模板模型形變的古生物三維重建算法。采用 Kanazawa 提出的剛度變形優(yōu)化框架[52],考慮到化石圖像不含有任何空間三維信息的特殊性,在優(yōu)化目標(biāo)中引入輪廓損失,為后續(xù)的變形增加新的約束,綜合變種的迭代最近點(diǎn)算法誤差函數(shù),盡可能剛性(as-rigid-as-possible, ARAP)能量和局部剛度能量,對(duì)模板三維模型的變形進(jìn)行優(yōu)化,生成符合化石圖像的古生物三維模型(見(jiàn)圖10和參考文獻(xiàn)[58]中的圖21)。
圖10 古生物化石三葉蟲(chóng)模板三維模型示意圖Fig.10 Schematic diagram of the three-dimensional model of the trilobite template
目前通過(guò)已有技術(shù)對(duì)古生物進(jìn)行可視化的結(jié)果(見(jiàn)圖11),根據(jù)可視化結(jié)果還衍生出許多科普文創(chuàng)及周邊。針對(duì)傳統(tǒng)化石圖像識(shí)別與檢索領(lǐng)域人工依賴性強(qiáng)、主觀偏差性大、耗時(shí)耗力、學(xué)習(xí)門檻高等問(wèn)題,團(tuán)隊(duì)開(kāi)發(fā)了一套化石圖像實(shí)時(shí)檢索系統(tǒng),其中包含數(shù)據(jù)庫(kù)管理系統(tǒng)、微信小程序等,實(shí)現(xiàn)了數(shù)據(jù)庫(kù)管理、化石圖像識(shí)別檢索及三維模型匹配等功能, 具備準(zhǔn)確、 高效、 便攜、 實(shí)時(shí)、 交互性好、易于交流共享等優(yōu)勢(shì),實(shí)現(xiàn)了化石圖像檢索領(lǐng)域從人工到AI自動(dòng)化檢索的突破。捕石者微信小程序?qū)崿F(xiàn)了對(duì)用戶拍攝或上傳的化石本地圖片進(jìn)行后臺(tái)檢索分析,檢索后將匹配到的圖片和相關(guān)信息反饋至前端,還可實(shí)現(xiàn)將二維化石圖像匹配為對(duì)應(yīng)的三維立體模型,以幫助用戶更好地了解化石標(biāo)本形態(tài)等重要信息(見(jiàn)圖12a)。同時(shí),為了推動(dòng)古生物化石信息的傳播和發(fā)展,還建立了化石科普區(qū)和分享交流區(qū)“石在有料”,以供用戶分享各自擁有的化石樣本或圖片,并可與其他用戶展開(kāi)交流;“石在有料”版塊針對(duì)化石愛(ài)好者開(kāi)發(fā),主要側(cè)重古生物及化石知識(shí)的科普,同時(shí)也支持用戶自行瀏覽搜索,并可對(duì)感興趣的資料進(jìn)行收藏?!笆谟辛稀薄笆谟腥ぁ辈糠纸缑嫒鐖D12(b)所示。
圖11 “寒武紀(jì)恐龍”小奇蝦3D復(fù)原圖Fig.11 3D reconstruction of the "Cambrian Dinosaur" Anomalocaris
圖12 捕石者微信小程序界面圖Fig.12 Fossil hunter wechat mini program interface diagram
作為古生物學(xué)的研究對(duì)象,如何讓化石‘活’起來(lái)一直是古生物學(xué)研究的難點(diǎn)與熱點(diǎn)之一。本研究將古生物學(xué)與信息技術(shù)相融合,以智能分析技術(shù)、大數(shù)據(jù)技術(shù)及圖像圖形處理技術(shù)為載體和工具挖掘化石信息,從而將化石以鮮活的形式展示給大眾,古生物信息學(xué)(paleo-bioinformatics)也由此應(yīng)運(yùn)而生。
古生物信息學(xué)是在古生物學(xué)的研究中,以信息技術(shù)、大數(shù)據(jù)技術(shù)、人工智能技術(shù)為工具對(duì)古生物信息進(jìn)行收集、檢索、分析以及表達(dá)的學(xué)科。歷經(jīng)10多年的潛心研究,古生物信息學(xué)團(tuán)隊(duì)分別在古生物化石三維重建和古生物譜系分析方法研究等方面做出了重要貢獻(xiàn)。目前已逐步形成了一支穩(wěn)定的、團(tuán)結(jié)合作的、具有國(guó)內(nèi)先進(jìn)水平的研究團(tuán)隊(duì),發(fā)表相關(guān)科研論文84篇(SCI收錄74篇,包含Nature封面論文、Science、PNAS、NSR封面論文等多篇高質(zhì)量論文[59-62]),主持包括國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目在內(nèi)的相關(guān)科研項(xiàng)目14項(xiàng)等,獲批陜西省“三秦學(xué)者”創(chuàng)新團(tuán)隊(duì)、陜西省科技創(chuàng)新團(tuán)隊(duì),建立西安市重點(diǎn)實(shí)驗(yàn)室并考核優(yōu)秀掛牌并搭建西安市國(guó)際科技合作基地等多個(gè)平臺(tái)。
未來(lái),古生物信息學(xué)的發(fā)展將融入更多人工智能新技術(shù)。作為地質(zhì)學(xué)、信息學(xué)、數(shù)學(xué)、生物學(xué)及藝術(shù)等多學(xué)科的交叉融合的新興學(xué)科,古生物信息學(xué)必將是21世紀(jì)自然科學(xué)的核心領(lǐng)域之一。