蔣璟鑫,李 超,胡修棉
內生金屬礦床成礦機制研究國家重點實驗室,南京大學地球科學與工程學院,南京210023
隨著數(shù)據(jù)存儲、運算、分析技術的進步,人類具備了處理海量數(shù)據(jù)、并從中提取信息的能力,新的科研范式——數(shù)據(jù)密集型科學研究應運而生。它正在潛移默化地影響著人類生活,改變人類認識和科學研究世界的思維方式(姜浩端,2013;張維明和唐九陽,2015;翟明國等,2018)。地質學的研究突破依賴于對區(qū)域或全球各類地質數(shù)據(jù)的綜合分析,是典型的數(shù)據(jù)密集型科學。在大數(shù)據(jù)時代,地質學正面臨著前所未有的機遇與挑戰(zhàn),地球科學家亟需改變傳統(tǒng)的思維方式,從因果關系為核心的邏輯思維方式轉變?yōu)橐躁P聯(lián)關系為核心的大數(shù)據(jù)思維方式(周永章等,2016;陳建平等,2017)。
沉積巖(物)占據(jù)了地球表面約70%的面積,是地球表層的重要組成部分。沉積物質作為巖石圈的一部分,其演化受多種地球系統(tǒng)過程控制(生物、氣候、構造等),從而忠實地記錄了地球表層圈層的演化過程。地球表層沉積物質的總量、類型、通量、時空分布等直接反映了巖石圈、生物圈、水圈、大氣圈動態(tài)演化的過程,是探討大尺度時空模式下構造、氣候和生物演化的重要參數(shù)和基本條件。在20世紀80年代,由全球沉積學家共同發(fā)起全球沉積地質計劃(Global Sedimentary Geology Program,GSGP①The global sedimentary geology program:report of an international workshop,Fisher Island,Florida,August,1986.),以響應板塊學說、古海洋學、古氣候學以及沉積地質學等的快速發(fā)展,旨在為開展全球尺度的沉積地質研究提供新的方向、機會和動力?;贕SGP,沉積學家提出了三大關鍵性的研究主題:(1)全球性韻律和事件;(2)全球性演化的沉積學記錄;(3)全球性的沉積巖相分析,并將“白堊紀地質記錄與全球地質作用、資源、韻律和事件”作為第一個試點項目(陳友明,1987;劉寶珺,1988;葉德燎,1988;Ginsburg,1986)。這些重大科學問題的提出成為推動沉積學發(fā)展的主動力。隨著近幾十年沉積學、地層學、古生物學、沉積地球化學、地質年代學、地球觀測等學科的進一步發(fā)展,地質學家積累了海量的沉積學相關的數(shù)據(jù)。如何高效地整合各類數(shù)據(jù),并從中挖掘這些數(shù)據(jù)中的價值,已經成為沉積學家急需解決的新時代課題。
目前,國際上已涌現(xiàn)出一大批優(yōu)秀的沉積學相關數(shù)據(jù)庫,如Macrostrat、GeoChron、SedDB、Ava Clastics,以及各種以文獻形式發(fā)表的數(shù)據(jù)集,如世界古水流數(shù)據(jù)集(Brand et al.,2015)、世界洋底沉積物數(shù)據(jù)集(Dutkiewicz et al.,2015)、世界氣候敏感性沉積物數(shù)據(jù)集(Boucot et al.,2013;Cao et al.,2018)、陸相沖積相泥質巖數(shù)據(jù)集(McMahon et al.,2018)。這些數(shù)據(jù)庫(集)嘗試應用大數(shù)據(jù)思維,從全球視野理解深時沉積物質的演化和循環(huán)過程。下面進行詳細介紹。
在20世紀50年代,俄羅斯Alexander Ronov團隊開始對地殼巖石的年齡、巖性和體積進行時空綜合數(shù)據(jù)的人工編譯工作。他們主要借助于小比例尺(1:2500萬)的地質圖及鉆井資料,通過相關參數(shù)提取和換算,得到巖石總體積、海洋覆蓋面積、平均沉降速率、主要巖性組合豐度等數(shù)據(jù)并編制了顯生宙整個過程中這些參數(shù)的變化圖(Ronov et al.,1969,1980)。該數(shù)據(jù)庫的數(shù)據(jù)收集過程長達十余年,建設目的是用定量化的方式來探討巖石、古地理和構造之間的關系和規(guī)律,在其建設初期取得了較多的重要研究成果。由于數(shù)據(jù)獲取的局限性,以及嚴重依賴科學家或團隊的個體貢獻,Alexander Ronov數(shù)據(jù)庫早已停止發(fā)展。
GeoChron和SedDB是隸屬于EarthChem(GeochemicalDatabases for the Earth, www.earthchem.org)的與沉積學相關的數(shù)據(jù)庫。EarthChem是一個社區(qū)驅動、旨在保存、發(fā)現(xiàn)、訪問和可視化最廣泛和最豐富的地球化學數(shù)據(jù)的信息網(wǎng)絡平臺和數(shù)據(jù)庫門戶,由美國科學基金委(National science foundation,NSF)資助。
GeoChron(http://www.geochron.org)收集全球沉積巖碎屑礦物年代學數(shù)據(jù),以碎屑鋯石年齡數(shù)據(jù)為主;同時捕獲其元數(shù)據(jù),以允許將來重新計算,并與其它類型的數(shù)據(jù)集成。該數(shù)據(jù)庫基于網(wǎng)頁端口,由哥倫比亞大學進行管理。主要的數(shù)據(jù)來源有:從已發(fā)表文獻人工錄入、全球科學家的合作貢獻以及定年實驗儀器的聯(lián)網(wǎng)自動上傳。目前該數(shù)據(jù)庫共收錄全球范圍內1630個年代學樣品,并進行不定時更新(數(shù)據(jù)來自:http://www.geochron.org)。整體上數(shù)據(jù)覆蓋極不均勻,中國地區(qū)僅有約50個樣品(數(shù)據(jù)由本文作者在GeoChron官網(wǎng)統(tǒng)計得到)。用戶可以在網(wǎng)頁界面根據(jù)巖石類型、礦物類型、定年實驗方法、地區(qū)等參數(shù)進行數(shù)據(jù)篩選,并以HTML、XLS和XML等格式獲取數(shù)據(jù)集。
SedDB (http://www.earthchem.org/seddb) 是一個可檢索的、以海洋和陸地沉積物地球化學數(shù)據(jù)為主的關系型數(shù)據(jù)庫,主要根據(jù)已發(fā)表的文獻數(shù)據(jù)匯編而成。該數(shù)據(jù)庫由美國Lamont-Doherty地球天文臺、俄勒岡州立大學、波士頓大學和博伊西州立大學聯(lián)合開發(fā),由Lamont-Doherty地球天文臺負責運營和維護。SedDB匯編了大量地球表層沉積物質的地球化學數(shù)據(jù),用于沉積學、地球化學、巖石學、海洋學和古氣候研究,同時用于學科教育領域。與GeoChron類似,SedDB也歸檔了大量的元數(shù)據(jù),以便于后期的數(shù)據(jù)整合、重新計算和分析。截至2013年,該數(shù)據(jù)庫收錄了近10400個沉積巖樣品的近75萬個獨立分析數(shù)據(jù)(數(shù)據(jù)統(tǒng)計來自:https://en.wikipedia.org/wiki/SedDB),用戶可以在web端口根據(jù)經緯度、地理位置、樣品類型等參數(shù)進行數(shù)據(jù)檢索。該數(shù)據(jù)庫2014年以來已停止更新。
Ava Clastics(https://www.pds.group/ava-clastics)是一個世界級的沉積學模擬商用數(shù)據(jù)庫,由英國PDS(Petrotechnical Data Systems)集團和利茲大學地球與環(huán)境學院合作創(chuàng)立,主要由利茲大學管理。主要收錄古代和現(xiàn)代河流、淺海和深海序列的研究實例,作為儲層的類似物,并將其數(shù)字化(轉化為石油行業(yè)軟件的巖相代碼),為能源行業(yè)提供服務。根據(jù)所收錄的數(shù)據(jù)和應用目的,分為三個子數(shù)據(jù)庫:
(1) FAKTS (Fluvial Architecture Knowledge Transfer System),是利茲大學河流研究小組(FRG,F(xiàn)luvial Research Group)為主導的、主要存儲河流沉積露頭數(shù)據(jù)的關系型數(shù)據(jù)庫,目的是詳細描述河流相儲層特征并對其中儲藏的烴源巖進行預測。目前收錄270個河流研究實例,共50544個河流相單元數(shù)據(jù)(數(shù)據(jù)來自:https://www.pds.group/ava-clastics/Databases#FAKTS);
(2) SMAKS (Shallow MarineArchitecture Knowledge System),是利茲大學淺海研究小組(SMRG,Shallow Marine Research Group) 為主導的、主要存儲淺海沉積露頭數(shù)據(jù)的關系型數(shù)據(jù)庫,目的是數(shù)字化淺海沉積體系的所有基本特征并對淺海油氣開發(fā)和勘探提供模型。目前收錄130個研究實例,共14633個淺海相單元數(shù)據(jù)(數(shù)據(jù)來自:https://www.pds.group/ava-clastics/Databases#SMAKS);
(3)DMAKS(Deep Marine Architecture Knowledge System),主要存儲來自古代露頭數(shù)據(jù)和現(xiàn)代深水碎屑巖系統(tǒng)觀測數(shù)據(jù)的關系型數(shù)據(jù)庫,目的是為深水碎屑巖儲層的特征識別提供新的定量模型。目前收錄66個深海盆地體系研究實例,共9688個深海相單元數(shù)據(jù)(數(shù)據(jù)來自:https://www.pds.group/ava-clastics/Databases#DMAKS)。
除上述數(shù)據(jù)庫外,世界范圍內還有很多與沉積學相關的數(shù)據(jù)庫(集)(表1),如以沉積地化數(shù)據(jù)為主的GSSID(Theglobalsedimentarysulfurisotope database),以露頭數(shù)據(jù)和模擬為主的SAND(Sedimentary ANalogs Database),以及隸屬于各個國家的地質調查相關機構的數(shù)據(jù)庫,如英國地質調查局(British Geological Survey,BGS),擁有400多個數(shù)據(jù)集,如物理數(shù)據(jù)集(鉆孔巖心、巖石、礦物)、文字記錄、檔案;中國地質調查局(China Geological Survey)自主開發(fā)的地質云(Geocloud)涵蓋了大量地質圖,包括大量地層、沉積相關的數(shù)據(jù)。
綜上,在大數(shù)據(jù)潮流到來之際,沉積學領域已經涌現(xiàn)了大量優(yōu)秀的數(shù)據(jù)庫,這些數(shù)據(jù)庫主要關注某一類或某幾類數(shù)據(jù),依靠人工數(shù)字化團隊對文獻中的數(shù)據(jù)進行結構化,是利用大數(shù)據(jù)思維模式擬解決區(qū)域、小規(guī)模和短時間尺度特定沉積學問題的有效嘗試,但是在面臨全球、大規(guī)模和長時間尺度綜合性的科學問題時,這些數(shù)據(jù)庫仍然有很多的局限和不足之處:(1)規(guī)模小,數(shù)據(jù)形式單一,建設和運營多依賴于個人科學家或單個科研團隊;(2)發(fā)展前景有限,運行狀態(tài)完全依賴于資助項目的情況,一旦資助結束,數(shù)據(jù)庫即更新停滯;(3)數(shù)據(jù)覆蓋不均勻,數(shù)據(jù)收集過程受到科學家自身的研究興趣和主動性的影響;(4)時空分辨率低,無法反映真實的信息;(5)很多文獻和數(shù)據(jù)庫資源不開源,難以二次引用和進一步整合。因此,在當前數(shù)據(jù)更充足、技術更先進的條件下,有必要建立更高精度、更全面的地學數(shù)據(jù)庫,更高效地收集和挖掘沉積地質領域的“暗數(shù)據(jù)”和長尾數(shù)據(jù),進一步探索和理解深時地質歷史的演化過程和機制。
表1 國際主要沉積學相關數(shù)據(jù)庫(集)Table 1 Table of major sedimentological database or dataset
Macrostrat是一個綜合多學科、多尺度、多層次方法的數(shù)據(jù)共享平臺,側重于定量總結巖石記錄時空分布格局,為科學家研究全球沉積巖記錄形成和破壞、大規(guī)模古生物演化等問題提供了可能(Peters and Husson,2018),是現(xiàn)階段沉積大數(shù)據(jù)庫建設的一個范例。這里詳細介紹其數(shù)據(jù)庫的結構、創(chuàng)新的工作模式以及相關的研究實例。
Macrostrat是以沉積學為主的地質數(shù)據(jù)庫,由美國威斯康辛大學Shanan E.Peters團隊創(chuàng)立,于2005年正式啟動,由NSF資助。是基于MariaDB①MariaDB:一種數(shù)據(jù)庫管理系統(tǒng),由社區(qū)開發(fā),與MySQL(目前最常見的開源關系型數(shù)據(jù)庫系統(tǒng))高度兼容.和PostGIS-enabled PostgreSQL②PostgreSQL:一種開源的對象—關系數(shù)據(jù)庫管理系統(tǒng);PostGIS是PostgreSQL的一個擴展,提供空間對象、空間索引、空間操作函數(shù)和空間操作符等空間信息服務功能(https://zh.wikipedia.org/).環(huán)境開發(fā)的關系型地理空間數(shù)據(jù)庫和輔助性的網(wǎng)絡基礎設施,可以通過網(wǎng)頁進行訪問(https://macrostrat.org)。
Macrostrat目前主要涵蓋北美、加勒比、新西蘭地區(qū)及IODP部分研究區(qū)的地層數(shù)據(jù)、PBDB(Paleobiology Database)的化石數(shù)據(jù)、USGS(United States Geological Survey)的地球化學數(shù)據(jù)、Mindat的礦物數(shù)據(jù)以及涵蓋全球范圍的地質圖數(shù)據(jù)。Macrostrat致力于應用這些新的數(shù)據(jù)來開展研究。
(1)地層柱(Column),是Macrostrat的主要空間數(shù)據(jù)對象,是代表某個區(qū)域整體地質概況的地層綜合體,最早由美國科學家在編制北美地層對比表(Correlation of Stratigraphic Units of North America,COSUNA)時提出。在COSUNA提供的地層對比表中,每個Column本質上是一個復合地層柱,代表了整個盆地的綜合地質信息。由于不同區(qū)域的構造格架不同,因此人為地決定地層柱的分布密度,在構造程度復雜的區(qū)域(如大陸邊緣)進行加密,以保證獲取最有代表性的地質信息(圖1d)。
(2)多邊形(Polygon),是地層柱映射的地理分區(qū)。多邊形提出的目的是定量分析整個北美區(qū)域的巖石地層信息。Macrostrat以地層柱為區(qū)域巖石地層信息的控制點,按照Delaunary三角劃分原理(圖1 a-c)為每個控制點分配控制范圍,該方法保證了每個多邊形內的任意一點與其控制點的距離,都小于與其他控制點的距離,并默認該范圍內的地層信息與地層柱一致。該過程是在R語言①R語言:一種自由軟件編程語言與操作環(huán)境,主要用于統(tǒng)計分析、繪圖、數(shù)據(jù)挖掘(https://zh.wikipedia.org/).環(huán)境下完成的,同時允許對多邊形進行人為編輯,以保證多邊形的邊界與有地質意義的特征邊界保持一致,如大的不整合面、斷層面等。由于多邊形的大小取決于地層柱的密度,因此其大小并不一致(圖1e)。
(3)單元(Units),是組成地層柱的基本元素,也是Macrostrat數(shù)據(jù)庫的核心要素,在數(shù)據(jù)錄入時被識別為與其他相鄰單元在古生物、巖性和/或年代上不同的巖體或沉積物。在Macrostrat中,每個單元具備地層名稱、測量數(shù)據(jù)(如厚度)、沉積環(huán)境、礦物、化石、組成單元的巖性(一種或多種)等信息。所有單元屬性信息均以表格形式進行存儲(圖2)。
2.3.1 地質年代信息
Macrostrat儲存了多種相互關聯(lián)、在相對和絕對意義上與數(shù)值年齡相關的地層劃分方案(如年代地層、生物地層、巖石地層等)。其中年代地層單元具有數(shù)值年齡,主要參考由國際地層學委員會發(fā)布的最新數(shù)據(jù)(www.stratigraphy.org);對于沒有數(shù)值年齡限制的地層單元,Macrostrat以相鄰地層單元的數(shù)值年齡為標尺,按照間隔進行內插標定,系統(tǒng)不直接賦予數(shù)值年齡,但其在時間序列上的位置是確定的。這種管理地層劃分方案和地質年代信息的方法更加簡潔、透明,并具有數(shù)據(jù)管理優(yōu)勢。
圖1 多邊形面積劃分原理Fig.1 Schematic of polygon areas’division
圖2 Macrostrat數(shù)據(jù)庫核心元素及其關系示意圖(據(jù)Peters et al.,2018)Fig.2 Simplified schematic of core database elements and their relationships in Macrostrat(from Peters et al.,2018)
2.3.2 連續(xù)年齡模型
圖3 “箱式”年齡模型(a)與連續(xù)年齡模型(b)(據(jù)Peters et al.,2018)Fig.3 (a)“binned”versus(b)continuous age model(from Peters et al.,2018)
傳統(tǒng)的地層劃分普遍采取“箱式”年齡模型(圖3a),即地層單元沒有精確數(shù)值年齡的限制,而是默認遍歷整個地質年代間隔,如圖3a中的A單元被限定在整個泥盆系艾菲爾階,F(xiàn)單元被限定在吉維特階—弗拉階。而真實情況是,地層單元的持續(xù)時間往往比它們可以相互關聯(lián)的地質年代間隔要短,因此利用箱式年齡模型進行定量化必定產生較大的誤差。
為了進行精確的地層量化,Macrostrat提出了地層的連續(xù)年齡模型(圖3b),(1)在時間軸上,根據(jù)古生物譜系、接觸關系等時代判斷指標,疊加地層單元A-F;(2)選擇頂、底具有數(shù)值年齡的地層段,對其內部的巖石分布時間進行調整。如已知單元A的底部為389 Ma,并非遍歷艾菲爾階,單元F的頂部為380 Ma,也并非遍歷整個弗拉階,則將A-F限定在389~380 Ma之間;對于無精確年齡限定的BCDE單元,將進行內插標定數(shù)值年齡。Macrostrat建立這一模型的目的是進行時間軸上的巖石量化,因此不強調各單元之間的物理接觸關系,而強調單元之間的時間連續(xù)性。這種沿時間軸以一定時間間隔獲取單元數(shù)量的量化方式,極大的推動了巖石通量隨時間演化的研究。
Macrostrat通過三種方式來管理巖石地層名稱:(1)標識相同地質實體的地層名稱,如“Dakata砂巖”、“Dakata組”和“Dakata礫巖”,會被分別儲存,但指示相同的巖石單元,同時這些名稱會與附加信息建立關聯(lián),包括地質年齡、地理區(qū)域、參考文獻等;(2)對巖石地層名稱建立基于從屬關系的層級體系,如“Dakata組”是三個“段”級別的更高一級名稱,這樣便于訪問者以任何名稱作為關鍵詞訪問數(shù)據(jù)庫時,可以獲得所有相關的地層數(shù)據(jù);(3)通過url來鏈接相關巖石地層名稱術語的原始數(shù)據(jù)頁。
Macrostrat術語管理方式,不僅可以滿足巖石地層名稱的高效存儲,同時由于其巖石地層名稱體系的動態(tài)性和關聯(lián)性,數(shù)據(jù)庫能夠及時發(fā)現(xiàn)潛在的歧義和錯誤術語并進行改善和補充。
Macrostrat嵌入和鏈接了4種比例尺的全球地質圖,目前已涵蓋超過200張地質圖,超過15000個Macrostrat單元。Macrostrat的地質圖數(shù)據(jù)庫存儲三種信息:(1)基于矢量的原始地圖對象(多邊形、直線、點)及其屬性,并將其轉換為PostGIS環(huán)境;(2)所有進行標準化的地圖,包括所有地質圖對象共有的元素;(3)存儲地質圖對象和Macrostrat實體的表格。Macrostrat地質圖數(shù)據(jù)的核心是建立地質圖多邊形與單元之間的聯(lián)系,同時任何其他與Macrostrat單元相關聯(lián)的數(shù)據(jù),如PBDB化石數(shù)據(jù)、古水流測量數(shù)據(jù)等都可以作為地圖多邊形的屬性進行繼承,其最終目的是將地質圖所包含的資料和信息用于現(xiàn)場地質考察、數(shù)據(jù)綜合分析等。
Macrostrat提供美國國家海洋和大氣局(National Oceanic and Atmospheric Administration,NOAA)和美國國家航空和宇宙航行局(National Aeronautics and Space Administration,NASA)開發(fā)的ETOPO1①ETOPO1:一種地形高程數(shù)據(jù),包括陸地高程數(shù)據(jù)和海洋海底地形數(shù)據(jù).和SRTM②SRTM(Shuttle Radar Topography Mission),即航天飛機雷達地形測繪任務,主要任務為獲取地表雷達影像,繪制數(shù)字地形高程模型(百度百科).數(shù)字高程模型,將這些基于柵格的地形數(shù)據(jù)與Macrostrat基于GIS環(huán)境的地理數(shù)據(jù)相匹配,用戶可以通過移動應用程序或者網(wǎng)頁界面進行訪問。
古地理環(huán)境對地球系統(tǒng)科學的眾多問題具有重要意義,如重建氣候敏感性沉積巖的時空分布(Cao et al.,2018)、研究大陸漂移對碳酸鹽沉積的影響(Walker et al.,2002)、探索板塊構造與生物多樣性之間的聯(lián)系(Zaffos et al.,2017)。因此Macrostrat為數(shù)據(jù)提供了基于GPlates平臺的板塊構造框架,可實現(xiàn)板塊構造重建的交互式操作及各類數(shù)據(jù)在地質時間尺度上的可視化,并能夠通過地球動力學計算將Macrostrat的各類數(shù)據(jù)與板塊構造模型有效結合。Macrostrat數(shù)據(jù)與Gplates模型的結合是基于Python語言來實現(xiàn)的,其中,Macrostrat提供巖石地層單元的地質年齡和現(xiàn)代地理位置,Gplates提供相應古地理位置,目前只針對560 Ma以來的古地理重建。
為了充分挖掘Macrostrat的現(xiàn)有數(shù)據(jù),其團隊開發(fā)了一系列快捷方便的網(wǎng)頁端口或者移動端的軟件工具,滿足于各類用戶需求。
(1)Macrostrat Beta
是Macrostrat專門用于數(shù)據(jù)訪問的網(wǎng)頁端口,目前已經更新至0.3版本。通過該端口,用戶可以了解數(shù)據(jù)庫當前的建設情況以及進行相關數(shù)據(jù)和文獻下載;同時新開發(fā)的功能也將在該平臺進行展示。
(2)Sift
是Macrostrat的搜索網(wǎng)絡界面,是一款面向大眾的可視化信息篩選器,目前可以根據(jù)時代、地層單元、巖性、地層柱、地層柱組、沉積環(huán)境、礦產類型對數(shù)據(jù)進行篩選。但Sift目前無法進行篩選條件的組合,如同時限定巖性和時代,另外也無法做到CSV源文件的導出。
對于有更精確的數(shù)據(jù)分析需求的用戶,Macrostrat提供 API(Application Program Interface應用程序界面)接口,通過API接口可以實現(xiàn)更自由的篩選數(shù)據(jù),并獲得CSV等格式的源數(shù)據(jù)。用戶可以通過網(wǎng)頁瀏覽器按照Macrostrat的預設規(guī)則,直接以API命令行形式訪問數(shù)據(jù)庫核心,篩選并導出數(shù)據(jù)。
(3)Map
是基于Macrostrat所收錄的地質圖開發(fā)的網(wǎng)絡搜索界面,用于檢索全球不同比例尺的地質圖。
(4)Rockd
是Macrostrat團隊開發(fā)的移動端APP,利用Macrostrat的API進行數(shù)據(jù)勘探和可視化,內部包括全球范圍的地質圖以及指向Macrostrat和Geodeepdive的鏈接。Rockd用戶可以輕松地記錄實時地質現(xiàn)象,掌握實時考察的構造位置、地層概況,并使用實地的位置為附近的地質單元、化石提供空間信息建議。
解析地質記錄的時空分布結構,需要獲取以下量化數(shù)據(jù):巖石數(shù)量、巖石類型、巖石地理、巖石沉積環(huán)境以及巖石記錄的時間連續(xù)性。時間連續(xù)性指的是地質記錄以一定的時空分辨率不間斷地保存地質歷史的程度。
Macrostrat地層巖石量化的核心思想是:在地球表面的某特定位置的穩(wěn)定沉積環(huán)境下,沉積物隨時間流逝不斷就位、沉積,直到穩(wěn)定環(huán)境發(fā)生改變。Macrostrat將形成于穩(wěn)定沉積階段的三維沉積體定義為一個沉積包(Packages)。沉積包之間發(fā)生沉積環(huán)境的變化,表現(xiàn)為兩個方面,一是沉積停止甚至開始侵蝕,二是沉積物的性質發(fā)生變化,將這兩種環(huán)境變化對應的階段稱為“間斷”(gap)。
沉積包類似于由層序邊界所限定的沉積體系域,不同之處在于層序地層界面是穿時的,而沉積包在時間軸上具有時間連續(xù)性。為了對地層柱進行量化,Macrostrat類比古生物學描述物種時間跨度的方式,將一個被“間斷”所約束的沉積包設想為一個生物分類單元(圖4),則給定任意的時間間隔,所有沉積包將歸屬于以下四種之一:沉積包僅跨越時間間隔底界(bL)、沉積包限定在時間間隔內(FL)、沉積包同時跨越時間間隔頂、底界(bt)、沉積包僅跨越了時間間隔頂界(Ft)。從而,地質記錄可以借鑒古生物學的算法,計算時間軸上沉積包的“多樣性”、“起源率”和“滅絕率”。
圖4 給定時間間隔內的沉積包類型Fig.4 Types of gap-bounded sediment packages present within a stratigraphic interval
地層柱代表了盆地的綜合地質信息,模擬盆地尺度的量化是大陸尺度量化的基礎。模擬的假設前提是在相鄰時間間隔內的沉積包的持續(xù)分布概率遵循Poisson過程,即每個時間間隔內不同沉積包的發(fā)生是隨機事件。通過統(tǒng)計時間軸上沉積包的類型和數(shù)量,即可對盆地的地層演化進行量化分析(圖5)。
(1)以單個地層柱為對象,確定縱向每一時間間隔內沉積包的類型。如圖5,紅色陰影代表一地層柱(Column 5),由沉積間斷劃分為兩個沉積包Package1、Package2。在t1-t6的所有時間間隔內,Package1均為bt類型沉積包;t6-t7內,Package1僅跨越了t6,為bL類型沉積包;t7-t18對應沉積間斷;t18-t19的頂部出現(xiàn)沉積,Package2為Ft類型沉積包;t19-t20內,Package2為bt類型沉積包。
圖5 理想化盆地尺度地層量化模型Fig.5 Schematic of stratigraphic quantification model at basin scale
(2)統(tǒng)計每一時間間隔內所有地層柱各類型沉積包的數(shù)量。如在t1-t2時間間隔內,僅C3-C8地層柱有沉積作用,C3、C8表現(xiàn)為僅跨越頂界t2的bL類型沉積包,C4-C7表現(xiàn)為同時跨越頂(t2)、底(t1)界的bt類型沉積包,即Xbl=2,Xbt=4,XFt=0,XFL=0(X代表沉積包的數(shù)量)。
(3)根據(jù)經驗公式計算各項量化指標:
N=Xbt+XFt+Xbl+XFL,N代表地層多樣性,用于衡量盆地在某時間段內巖石沉積包多樣性;
p=-In[Xbt/(Xbt+XFt)],p代表地層起源率,用于衡量盆地在某時間段內巖石沉積包新生的速率;
q=-In[Xbt/(Xbt+Xbl)],q代表地層滅絕率,用于衡量盆地在某時間段內巖石沉積包滅絕的速率。
(4)繪制演化曲線,解釋定量化數(shù)據(jù)產生的曲線的地質學意義。如對圖5的模擬可以得到以下結論:1)沉積地區(qū)收縮并快速向盆地移動時,形成不整合,對應地層多樣性的大幅度脈沖(A);2)當向盆地的沉積轉變停止并且保存的沉積記錄向空間擴張時,地層滅絕率下降為0(B);3)隨著沉積區(qū)的擴張,地層多樣性必然增加(C);4)海侵使得沉積向陸轉變,地層滅絕率和起源率都開始增加,即向陸的沉積作用提高了地層起源率,但是由于盆地內缺乏沉積物,地層滅絕率也相應提高(D);5)最大洪泛面時對應最高的地層多樣性(E)。
整個北美大陸由多個沉積盆地組成,沉積盆地的地質信息由地層柱來表示,因此大陸尺度的量化將按照單個盆地依次處理,不同盆地的貢獻將根據(jù)其面積進行加權。
地層綜合柱狀圖反映了區(qū)域的地質信息,其具備了巖石種類、時代范圍、厚度以及巖石地層單元、接觸關系等屬性,以國際地層委員會給出的地質年代為時間間隔,很容易提取每個時間間隔對應的沉積包類型及數(shù)量。Macrostrat按照該方法人工編錄統(tǒng)計了COSUNA和加拿大地質調查局(Geological Survey of Canada,GSC)顯生宙所有地層柱的沉積包,并按照沉積環(huán)境或巖性對沉積包進行分類。
Macrostrat通過以上大陸尺度的量化過程,獲得初步量化數(shù)據(jù):以“階”(1~3 Ma)為時間間隔的不同類型、不同巖性、不同沉積環(huán)境的沉積包數(shù)量及其總量。以該數(shù)據(jù)為基礎,Shanan E.Peters團隊對北美大陸顯生宙沉積物的演化模式及相關科學問題進行了深入研究,將在第五部分進行詳細論述。
(1)Macrostrat借助計算機技術為地層柱分配了地理多邊形,每個多邊形具有確定的面積(圖1)。根據(jù)地層柱給出的厚度,可以計算沉積物質的體積(Meyers and Peters,2011)。
(2)借助于對地質圖的解析來計算地層分布面積。由計算機地質制圖得到的電子地質圖,其巖石單元包括了一系列數(shù)字屬性數(shù)據(jù):面積、時代、巖石類型和名稱信息等,因此可以通過直觀的統(tǒng)計學手段得到各時間間隔內的不同種類巖石的面積分布。非電子版地質圖,首先要對其進行數(shù)字掃描,利用圖像分析軟件將地質圖轉化為地理信息系統(tǒng)(GIS)格式,對圖上每種巖石類型或每個巖石單元占據(jù)的像素計數(shù),通過在每張地質圖上的若干個1°×1°的區(qū)域中,將累計像素縮放到真實區(qū)域,從而將其轉化為大陸面積(Wilkinson et al.,2009)。
綜合分析已發(fā)表的海量的文獻數(shù)據(jù),人工操作非常耗時,并且會生成一個與主要數(shù)據(jù)源斷開連接的非擴展數(shù)據(jù)庫。因此亟需建設一個可動態(tài)擴展的、可靠的網(wǎng)絡基礎設施,以促進發(fā)現(xiàn)、獲取、利用和引用已發(fā)表文獻中的數(shù)據(jù)和知識。
Macrostrat除了提供開源的沉積學數(shù)據(jù)外,還提供了針對文獻的機器閱讀技術平臺:Geodeepdive,即自動從已發(fā)表文獻的文本、表格和圖片中鎖定并提取有用信息的技術。Geodeepdive機器閱讀主要涉及的計算機技術包括光學字符辨識、文檔布局識別、自然語言處理和結構化查詢語言。Geodeepdive的目的是:(1)降低數(shù)據(jù)集成的時間和成本,將科學家的工作重心從緩慢且昂貴的數(shù)據(jù)整合工作轉移到創(chuàng)造性的假設測試;(2)測試關鍵結論的重現(xiàn)性,加深對重大科學問題的理解;(3)促進機器閱讀技術發(fā)展,尤其是在科研領域中得到部署和驗證;(4)基于現(xiàn)有文獻中的字段和樣本,更集中、高效、智能地生成衍生數(shù)據(jù)。為了實現(xiàn)以上目的,Geodeepdive與8大出版商(圖6)達成協(xié)議,獲取巨大的文獻數(shù)據(jù)庫用于機器閱讀,且保證文獻庫中的原文保密,但數(shù)據(jù)公開。
Geodeepdive的工作模式分為3個步驟。第1步,科學家提出科學問題,確定需要挖掘的數(shù)據(jù),然后使用Python、JavaScript、PostgreSQL等計算機語言寫出算法,描述數(shù)據(jù)挖掘思路,即如何提取特征信息;第2步,使用超級計算機高速處理文獻庫的海量文獻,按照預設算法進行挖掘,并生成因子圖(用于表征各實體之間的關系);第3步,輸出機器挖掘的結構化數(shù)據(jù)和學習結果(圖6)。通過機器閱讀的工作模式我們可以發(fā)現(xiàn),機器閱讀或者文本挖掘過程是一個邊工作邊學習的過程,隨著前提的改變或者新的數(shù)據(jù)的加入,產生的結果可能發(fā)生變化。同時,機器閱讀系統(tǒng)能夠利用非結構化的多源科學文獻構建一個結構化的數(shù)據(jù)庫。其中的數(shù)據(jù)都是具有概率的事實,整體上是一個與主要數(shù)據(jù)源緊密耦合的概率數(shù)據(jù)庫,其數(shù)據(jù)質量可以與人工閱讀和編譯數(shù)據(jù)生成的數(shù)據(jù)庫相媲美(Zhang et al.,2013;Peters et al.,2014a)。
例如,基于Geodeepdive的衍生工具,Paleodeepdive(PDD),主要服務于對化石數(shù)據(jù)的挖掘,用于加深對大規(guī)模生命演化史的理解,包括長期的分類多樣性和基因組級滅絕和起源速率等問題的研究。通過PDD自動提取生物分類單元、地質巖層、地理位置和地質時間間隔等數(shù)據(jù)所建立的綜合古生物數(shù)據(jù)庫,在生物宏演化模式研究上獲得了與人工匯編的PBDB相似的結果,因此有理由相信由機器閱讀產生的結果是真實可信的。除此之外機器閱讀更大優(yōu)勢在于,它生成的數(shù)據(jù)庫類型與手動填充的數(shù)據(jù)庫有本質的不同。在PDD生成的概率數(shù)據(jù)庫中,每條數(shù)據(jù)都具有相應的準確性概率,且與其源文件中的上下文緊密耦合,甚至提供url鏈接。因此,只要對任何一個組件給出反饋,或者向系統(tǒng)添加額外的規(guī)則或數(shù)據(jù),就可以系統(tǒng)地提高整個數(shù)據(jù)庫的質量。更重要的是,PDD的數(shù)據(jù)采集過程是基于對整個文檔的可視化和文本分析的,并且系統(tǒng)可以很容易地容納更復雜的數(shù)據(jù)類型,例如生物插圖中的形態(tài)學數(shù)據(jù)和相關的文本描述。因此,利用Paleodeepdive的系統(tǒng)能夠識別和提取當前不屬于數(shù)據(jù)庫但與上下文相關的復雜數(shù)據(jù)(Peters et al.,2014b)。
Geodeepdive數(shù)字圖書館和機器閱讀體系與Macrostrat平臺相連,隨時添加、編輯和發(fā)布新的地層、巖性、環(huán)境等數(shù)據(jù),致力于用新的數(shù)據(jù)不斷產出新的結果。
Macrostrat收錄了以北美地區(qū)為主的大量的地層和沉積學相關數(shù)據(jù),但其核心價值不是體現(xiàn)在數(shù)據(jù)量的規(guī)模效應,而是基于數(shù)據(jù)相關性分析提供科學預測和假設(張旗和周永章,2017)。Macrostrat的首要目的就是幫助沉積學家解決全球尺度的大科學問題,如驗證巖石保存和再旋回的地質假說、探索生物及生物化學演化的驅動力。
前人對地質歷史時期沉積物質總量的循環(huán)規(guī)律主要有兩種認識。
圖6 Geodeepdive工作模式圖Fig.6 Geodeepdive work pattern diagram
傳統(tǒng)觀點認為:由于侵蝕作用的累積,沉積巖總量必然隨年齡增長而減少,并且具有指數(shù)衰減的趨勢(Gregor,1968)。該觀點得到不同學者的進一步驗證。Wilkinson等(2009)通過地質圖面積提取發(fā)現(xiàn)沉積巖和火山巖的量具有隨年齡增長呈指數(shù)衰減的趨勢,但是侵入巖和變質巖則無此趨勢,其解釋為不同的巖體形成于不同深度,接受到不同強度的侵蝕和埋藏作用。近來,Husson和Peters(2018)通過對埋藏速率和侵蝕速率進行模擬來觀察保存巖石記錄的演化趨勢。其結果表明:無論埋藏和侵蝕速率是否是周期性或者在某一范圍波動,只要侵蝕作用存在,巖石記錄均隨年齡增長而減小且趨于指數(shù)衰減。
第二種觀點認為:大陸尺度下的沉積物總量是由總凈沉積物累積速率決定的,并且具有周期性波動的規(guī)律(Ronov et al.,1980)。近年來,通過對地表不同年齡沉積物分布圖像開展譜分析和回歸分析發(fā)現(xiàn):沉積物總量的演化周期接近56 Myr,與造山作用的周期相一致;顯生宙沉積物的總量變化整體具有“M”形的演化趨勢,與超大陸的旋回相關(Peters,2008;Meyers and Peters,2011)。
圖7 顯生宙北美地區(qū)沉積包隨時間序列的變化圖(據(jù)Peters,2006)Fig.7 Time series of the total number of sedimentary packages in North America at Phanerozoic(from Peters,2006)
近年來,Shanan E.Peters團隊采用大數(shù)據(jù)和地層定量化的方法對沉積物質循環(huán)問題開展了深入研究。該團隊對顯生宙不同巖性的沉積物進行量化處理之后發(fā)現(xiàn):(1)在巖相組成方面,古生代沉積巖以碳酸鹽為主,至新生代則幾乎完全轉變?yōu)殛懺此樾紟r(圖7),研究者將這種轉變與勞倫大陸從低緯向高緯的移動聯(lián)系起來;(2)沉積物總量在二疊紀—三疊紀之交表現(xiàn)出明顯的脈沖(圖7),將其解釋為超大陸的旋回(Peters,2006)。另外,Peters和Husson(2017)還基于不同的沉積環(huán)境對沉積物總量的演化曲線進行指數(shù)擬合(圖8),結果表明:不同沉積環(huán)境的巖石具有不同的指數(shù)擬合程度,非海相和深海相沉積物的總量隨著年齡增長呈指數(shù)降低,而淺海相沉積物具有多峰分布的特征。這是因為深海相沉積物只有在洋殼的某些部分形成,其破壞主要由俯沖控制,因此隨著時間變老沉積物總量呈指數(shù)下降;非海相沉積環(huán)境下,侵蝕和巖石破壞作用是其主要控制因素,但沉積物所處的構造和環(huán)境極不均勻,導致非海相沉積物的指數(shù)匹配程度相對較差;對于淺海相環(huán)境,其沉積物分布面積廣,數(shù)量大,成因多樣,幾乎可以在所有盆地的任何發(fā)育階段進行大范圍沉積,因此沉積物不隨年齡變老呈指數(shù)降低(Husson and Peters,2017;Peters and Husson,2017)。
綜上,沉積物質總量的演化主要受控于超大陸的旋回(Ronov et al.,1980;Peters,2008;Meyers and Peters,2011),侵蝕作用驅使沉積物總量隨年齡增長而呈指數(shù)衰減(Wilkinsonetal.,2009;Husson and Peters,2018);不同巖性的沉積物具有不同的沉積、侵蝕和埋藏條件;不同的沉積環(huán)境下,沉積物的沉積、保存以及演化模式也各不相同(Peters,2006;Husson and Peters,2017,2018;Peters and Husson,2017)。因此在研究沉積物質循環(huán)問題時,應對不同巖性、不同沉積環(huán)境的沉積物進行分別審視。
宏演化(Macroevolution)指在物種層面或更高層次的進化,包括遺傳學、形態(tài)學、分類學、生態(tài)學等上的變化(Mayr,1982),與以基因演化、分子演化相關的微觀演化相對應(Reznick and Ricklefs,2009)。前人研究發(fā)現(xiàn),現(xiàn)有的沉積巖記錄與化石多樣性之間存在相關性,這種相關性在海洋環(huán)境中尤為明顯(Hannisdal and Peters,2011)。因此,深刻理解沉積記錄和化石記錄之間的協(xié)變機制,對于理解生物多樣性、物種起源、物種滅絕是至關重要的。
圖8 Macrostrat數(shù)據(jù)庫沉積巖數(shù)量的時間序列演化圖(據(jù)Peters and Husson,2017)Fig.8 Macrostrat database sedimentary rock quantity(Based on Peters and Husson,2017)
目前對于巖石—化石協(xié)變機制,學術界仍然存在爭議。一方面,通過現(xiàn)有化石記錄總結得到的多樣性、起源和滅絕模式很可能是顯生宙沉積巖記錄中不完整的化石記錄所導致的產物,即取樣偏差導致(Peters and Foote,2002;Mcgowan and Smith,2008),一個明顯的例子是地層不整合的出現(xiàn)嚴重影響古生物學家對生物多樣性的評估(Peters and Foote,2001,2002),導致生物分類單元的人為聚類(Holland,1995);另一方面,盡管地質歷史的生物多樣性只能從不完整的巖石和化石記錄中取樣,但巖石記錄的變化可能與生命的宏演化具有相同的控制因素,即一種共同的地質原因既決定了真實的滅絕速率,也決定了保存下來的沉積巖的數(shù)量(Heim and Peters,2011;Peters and Heim,2011)。
Macrostrat數(shù)據(jù)庫的沉積巖石記錄和PBDB全球范圍的化石記錄(Peters and Mcclennen,2016),為研究沉積物演化、生物宏演化及其協(xié)變機制提供了數(shù)據(jù)基礎。PBDB的化石記錄可以與Macrostrat中的地層單元及其沉積環(huán)境相互匹配(Peters et al.,2018)。因此,以間斷為邊界、由沉積包組成的Macrostrat定量化數(shù)據(jù)可以用來檢驗取樣偏差假說(Peters and Heim,2010)。近年來,Peters和Heim(2010,2011)將北美沉積物和古生物演化數(shù)據(jù)進行對比發(fā)現(xiàn):地層間斷與物種起源或滅絕沒有直接相關性;“地層起源率”和生物起源率之間亦沒有強烈相關性;而“地層滅絕率”和生物滅絕率呈明顯正相關,最突出的表現(xiàn)為沉積物質演化過程中大的沉積物間斷與地質歷史古生物大滅絕事件是相對應的(圖9),這種沉積物演化與生物起源和滅絕的不對稱相關性表明巖石—化石協(xié)變機制不是由取樣偏差決定的(Heim and Peters,2011;Peters and Heim,2010,2011)。Peters和Heim(2011)進一步研究發(fā)現(xiàn),海洋生物的滅絕與海洋沉積區(qū)收縮期間發(fā)生的環(huán)境變化有因果關系,而海洋生物的起源與沉積區(qū)的擴張卻沒有呈現(xiàn)類似的關系,進一步驗證了上述結論。
圖9 總物種豐度(黑線)與沉積物總量(陰影)的時間序列演化圖(據(jù)Peters,2005;Barnosky et al.,2011改)Fig.9 Global genus richness(black line)and rock quantity(shaded area)plotted at age of interval base(Revised after Peters,2005;Barnosky et al.,2011)
綜上,前人對沉積和古生物大數(shù)據(jù)的對比研究表明:從生物滅絕的角度來看,沉積記錄和化石記錄的協(xié)變關系是地球系統(tǒng)之間直接或間接聯(lián)系的綜合記錄;控制二者的共同機制可能涉及氣候、構造、沉積和生物進化之間的眾多直接和間接聯(lián)系和反饋(Heim and Peters,2011;Peters and Heim,2010,2011)。
沉積記錄的時空分布格局受多種地球過程(生物過程、構造過程、氣候過程)控制,反過來沉積過程也在不同程度上改變和影響著地球過程(Hannisdal and Peters,2010;Peters,2008)。因此,在地質歷史中得以保存的沉積巖是了解構造、氣候和生命過程的重要檔案。
(1)構造過程
沉積盆地的演化與大地構造演化密切相關,這是因為板塊構造或者板塊的相對位置控制著沉積盆地的類型(Dickinson,1974;Ingersoll 1988;Busby and Ingersoll,1995),區(qū)域的構造運動則通過控制對沉積物源區(qū)或沉積空間的形成和破壞來影響著區(qū)域的沉積記錄(Peters,2005;MeyersandPeters,2011),因此,地質歷史的沉積物與構造旋回往往同步演化,同時驅動生物演化(圖10)(Ronov et al.,1980;Zaffos et al.,2017;Peters and Heim,2011)。
圖10 沉積物演化、海相生物演化(據(jù)Hannisdal and Peters,2011)與板塊演化,板塊的碎片化指數(shù)來源于以百萬年為單位計算的EarthByte古地理重建模型(據(jù)Zaffos et al.,2017改)Fig.10 Sedimentary,marine biological and plate tectonic evolution,an index of continental block fragmentation derived from the EarthByte paleogeographic reconstruction models calculated in million-year increments(Revised after Hannisdal and Peters,2011;Zaffos et al.,2017)
(2)氣候過程
氣候過程主要通過驅動海平面變化影響區(qū)域和全球的盆地沉積過程(Miller et al.,2011;Meyers and Peters,2011);同時,冰期-間冰期的旋回也可作為沉積物類型的控制因素(Houten,2000)。反過來,沉積過程可以通過掩埋和釋放與氣候變化相關的元素(主要是碳和硫)來調節(jié)全球氣候,例如當前以碳酸鹽或有機碳形式儲存在沉積物中的碳遠遠超過了其它碳庫,因此在某些時間尺度上,海洋-大氣和地球表層之間的碳交換必然是推動氣候變化的重要因素之一(Peters,2005)。
(3)生物過程
生物過程通過多種方式(如生物擾動)直接影響沉積過程(Peters,2005),如泥盆紀陸生植物的出現(xiàn)直接改變了沖積相泥質巖的比例(McMahon and Davies,2018)。反過來,沉積過程通過影響環(huán)境來對生物過程的變化進行反饋,例如:生命和大氣氧氣歷史上的主要特征就是通過定量描述保存沉積物總量隨時間變化的幅度反映出來的(Peters et al.,2018)。近年來,Husson和 Peters(2017,2018)通過大數(shù)據(jù)對比研究發(fā)現(xiàn):沉積巖的數(shù)量與地質歷史氧氣的變化以及生命的演化之間存在著強烈的過程聯(lián)系,表明沉積巖的不穩(wěn)定演化(有機碳相關的氧化還原、硅酸鹽風化、洋殼沉積物的蝕變)驅動了氧氣變化,進而驅動生命的演化(Husson and Peters,2017,2018)。
綜上,前人的研究表明:復雜的構造過程、氣候過程及生物過程共同決定了沉積物的時空分布特征;反過來,沉積物的形成過程也在積極地塑造地球系統(tǒng)(Hannisdal and Peters,2010;Peters;2005;Peters,2008)。
地球上的沉積物直接蓋在變質巖或巖漿巖等結晶基底之上,據(jù)全球各地觀察,蓋層和基底是截然接觸的,二者中間存在一個侵蝕界面,代表時間間斷,稱為大不整合面(Great Unconformity)(Powell et al.,1875;Walcott,1914;Yochelson,2006;Karlstrom and Timmons,2012)。導致大不整合面形成的成因爭議很大,或與侵蝕基準面降低或者超大陸的聚合等因素有關(Sloss,1963;Ronov et al.,1980)。近年來,Macrostrat沉積物定量化工作和地球化學數(shù)據(jù)庫的建立為驗證大不整合面成因提供了數(shù)據(jù)基礎。
Macrostrat定量化沉積物體積的結果顯示:在新元古代與古生代之交,沉積物體積增加了5倍之多,表明寒武紀之前大量的沉積物被侵蝕(Husson and Peters,2018;圖11)。這一時期對應北美大不整合面的形成時期(Peters,2006;Husson and Peters,2017;Karlstrom and Timmons,2012)。前人研究發(fā)現(xiàn)該時期陸地記錄的地幔溫度梯度和構造樣式都沒有明顯變化(Keller and Schoene,2012,2018;Condie et al.,2016;Ganne and Feng,2017),因此這種沉積響應與構造運動沒有關系。最近,Keller等(2019)通過統(tǒng)計全球巖漿弧成因的鋯石年齡、Hf和O同位素發(fā)現(xiàn):εHf(t)在大不整合后降低、δ18O在大不整合后升高,這表明新元古代沉積物從陸殼消失而沉積在深海洋盆,進一步通過俯沖作用消減并改變了巖漿弧成分(Clift et al.,2009;Jagoutz et al.,2015)。Keller等(2019)進一步通過模擬方法對新元古代冰川侵蝕的沉積響應進行了定量化處理,發(fā)現(xiàn)3.4~4.5 km的冰川侵蝕量可以再現(xiàn)顯生宙之前的侵蝕基準面。這一結果表明,新元古代“雪球地球”期間的冰川快速侵蝕是北美大不整合面形成的潛在驅動機制,同時也可能與不整合后寒武紀多細胞生命大爆發(fā)有直接或間接聯(lián)系(Peters and Gaines,2012)。
圖11 全球沉積物質體積演化(據(jù)Keller et al.,2019改)Fig.11 The evolution of global sedimentary rock volume(Revised after Keller et al.,2019)
大數(shù)據(jù)科學的特點之一是沒有提前預設目標和前提,而是讓數(shù)據(jù)“說話”,復雜多元的大數(shù)據(jù)所顯示的內在關聯(lián),能夠提高人類對經驗世界的認知,這些認知往往出人意料(蘇玉娟,2019)。
例1:傳統(tǒng)上認為疊層石的繁盛一般出現(xiàn)在生物大滅絕或生物多樣性大幅降低之后,而其衰落則與生態(tài)穩(wěn)定時期生物的持續(xù)演化和多樣性增加相關(Schubert and Bottjer,1992)。然而,近年來,Peters等(2017)在利用機器閱讀技術研究北美地區(qū)疊層石的時空分布的過程中,卻得到了不一樣的結論。為了從文獻中智能提取疊層石數(shù)據(jù),Peters團隊設計如下算法:在文獻中搜索Stromatolite(疊層石)及其衍生詞匯,對包含這些詞匯的句子及其相鄰的句子進行自然語言處理,提取并記錄疊層石詞匯和巖石地層名稱(視為潛在的產出疊層石的地層單元),在通過可靠性檢驗后,將文獻、短語、地層屬性等結構化信息反饋至用戶。通過快速分析8000余篇相關文獻,將其中出現(xiàn)疊層石的地層統(tǒng)計并投射至Macrostrat地層庫中成圖,結果表明:疊層石的出現(xiàn)與大滅絕并沒有明顯的相關性,而與白云巖總量的增長有很強的相關性(Peters et al.,2017)。
例2:煤炭沉積是典型的氣候敏感型沉積物,因此長期以來都被作為重建古緯度的有效工具(Diessel,1992;Ziegler et al.,2003)。然而,近年來,Peters等(2018)基于Macrostrat定量化的地層數(shù)據(jù)來驗證上述問題時,得到不一樣的結果。Peters團隊利用Macrostrat中全部包含煤炭沉積物豐度的相關數(shù)據(jù),并使用Matlab內置函數(shù)將豐度量投射到時間序列之上;同時利用Gplates模擬煤炭沉積物的緯度分布,由此獲得北美地區(qū)煤炭沉積物豐度隨時間變化序列和煤炭沉積物的古緯度分布序列。結果表明:煤炭沉積物的古緯度分布在二疊紀初期明顯向高緯度移動;二疊紀之后,煤的分布也并非恒定不變,其豐度和緯度都存在一定范圍的波動。因此,Peters等(2018)認為用煤炭沉積物重建古緯度時,其可靠程度有待進一步的驗證。
例3:通常認為沉積物通量對海平面的變化具有重要影響,反過來,海平面變化決定了進入沉積盆地的沉積物通量,進而控制了海相沉積物的總量(Ginsburg,1982;Phillips and Slattery,2006;Ferrier et al.,2015,2019)。然而,近年來,Peters團隊通過大數(shù)據(jù)的整合分析發(fā)現(xiàn):海平面對海相沉積物總量的控制不是通過沉積物通量的變化,而是與海平面變化導致的大陸洪泛面積的變化更為密切(圖12;Peters,2008;Peters and Husson,2017)。令人更難以置信的是,大數(shù)據(jù)分析表明大陸洪泛可以預測海洋生物的宏演化史(圖12;Peters,2008),它們之間的相互關系表明:大陸洪泛面積可以作為一共同機制同時驅動海相沉積物演化和生物宏演化(Hannisdal and Peters,2011)。
圖12 沉積物—生物種屬—海平面顯生宙變化圖(據(jù)Hannisdal and Peters,2011改)Fig.12 Sediments,genera and sea level co-variation during the Phanerozoic(Revised after Hannisda and Peters,2011)
隨著地球科學的發(fā)展、沉積學及相關數(shù)據(jù)快速增長,世界范圍內涌現(xiàn)出一大批優(yōu)秀的沉積數(shù)據(jù)庫。早期的數(shù)據(jù)庫以若干具體的科學問題為核心驅動,其建設、運營多依賴于少數(shù)科學家團隊,盡管特點鮮明、專業(yè)性強,但是缺乏能動性和可持續(xù)性,并且在數(shù)據(jù)共享方面存在不足。Macrostrat數(shù)據(jù)庫是一個以巖石時空分布定量化為核心任務的跨學科數(shù)據(jù)平臺,實現(xiàn)了在統(tǒng)一時空框架下對海量巖石、地層、生物資料的系統(tǒng)整合和定量分析,為深刻理解深時生命演化、地球物質循環(huán)、地質事件、古地理變遷、氣候變化等提供了關鍵信息。然而,Macrostrat數(shù)據(jù)庫所產生的結論都源于其數(shù)據(jù)所覆蓋的地理區(qū)域,這些結論放在全球尺度是否成立還需檢驗。另外,Macrostrat數(shù)據(jù)庫的核心數(shù)據(jù)基礎是北美地層柱(Column)及其地層對比表。在高密度地層柱缺乏的世界其他地區(qū)如何開展此項工作是一個極大的挑戰(zhàn)。
深時數(shù)字地球(DDE)計劃建設開放、共享、統(tǒng)一的大數(shù)據(jù)平臺,將提供從全球尺度解決重大科學問題的契機。通過對沉積學領域內大數(shù)據(jù)整合和應用的深度調研,建議DDE大數(shù)據(jù)平臺的沉積板塊應當圍繞沉積學的重大科學問題,有的放矢地進行數(shù)據(jù)的整合、分析、挖掘并進行預測;建立統(tǒng)一的時空框架和數(shù)據(jù)管理規(guī)則,高效整合復雜多元的沉積學數(shù)據(jù);積極開發(fā)文本、圖表信息挖掘技術,實現(xiàn)更加高效的機器閱讀技術體系。
致謝:感謝評審人提出的細致而富有建設性的意見。