許義江,李成龍,談昊林,盛雪芬
表生地球化學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,南京大學(xué) 地球科學(xué)與工程學(xué)院,南京210023
隨著科學(xué)技術(shù)的發(fā)展,科研數(shù)據(jù)量飛速增長(zhǎng),傳統(tǒng)的計(jì)算分析手段和依賴經(jīng)驗(yàn)的研究范式已經(jīng)越來(lái)越顯示出其局限性。大數(shù)據(jù)可以全方位地、動(dòng)態(tài)地呈現(xiàn)事物的發(fā)展過(guò)程,探明各種因素間的相關(guān)關(guān)系,從碎片化的海量數(shù)據(jù)中恢復(fù)事物的全貌,這將促成并推動(dòng)科學(xué)家思維方式從邏輯思維向由數(shù)據(jù)驅(qū)動(dòng)的關(guān)聯(lián)思維轉(zhuǎn)變(Lynch, 2008; 周永章等,2016; 翟明國(guó)等,2018)。大數(shù)據(jù)正在掀起一場(chǎng)科研革命。
地學(xué)大數(shù)據(jù)是一種時(shí)空信息大數(shù)據(jù)。時(shí)空信息是地學(xué)數(shù)據(jù)的一個(gè)基本屬性,廣泛產(chǎn)生于地球物理、地球化學(xué)、遙感傳感以及原始數(shù)據(jù)的解析、模擬等地學(xué)相關(guān)的研究活動(dòng)中。世界各國(guó)的地質(zhì)調(diào)查數(shù)據(jù)庫(kù)和專題性的地學(xué)數(shù)據(jù)庫(kù)以及相應(yīng)科研工作均提供了海量數(shù)據(jù),并且這一數(shù)據(jù)量仍在與日俱增,但其共享性整體上相對(duì)較為薄弱(張穎慧等,2020; 李秋立等,2020; 齊浩等,2020),該現(xiàn)狀為開(kāi)展相應(yīng)的大數(shù)據(jù)研究提供了機(jī)遇與挑戰(zhàn)。
大數(shù)據(jù)分析技術(shù)及其觀念在地球科學(xué)領(lǐng)域的深入應(yīng)用越來(lái)越得到重視,地學(xué)研究與大數(shù)據(jù)技術(shù)的結(jié)合已取得了重要的成果。例如Slessarev等(2016)對(duì)60291份土壤pH數(shù)據(jù)進(jìn)行隨機(jī)抽樣,證實(shí)土壤pH存在從酸性向堿性突變的閾值,且該閾值與年降水量和年潛在蒸發(fā)量的差值有關(guān),降水和蒸發(fā)通過(guò)影響成巖礦物(以碳酸鈣和三水鋁石為主)的溶解、搬運(yùn)過(guò)程進(jìn)而影響土壤pH; McKenzie等(2016)以碎屑鋯石作為島弧火山活動(dòng)的指標(biāo),發(fā)現(xiàn)百萬(wàn)年時(shí)間尺度上島弧火山作用活躍性與冰室—溫室氣候變化有直接相關(guān)性,揭示了地球內(nèi)部作用與氣候的關(guān)聯(lián)性。除了數(shù)據(jù)量的增加,大數(shù)據(jù)分析技術(shù)、可視化手段也逐漸引入地學(xué)研究中,例如和弦圖、熱圖、網(wǎng)狀分析等技術(shù)應(yīng)用于礦物共生、共同演化關(guān)系的分析(Hazen et al.,2019);Fan等(2020)采用約束優(yōu)化算法(constrained optimization,CONOP)重建了古生代海洋無(wú)脊椎動(dòng)物物種演化史,將時(shí)間精度提高至26±14.9 ka,進(jìn)一步的相關(guān)性分析顯示海洋無(wú)脊椎動(dòng)物物種多樣性演化與大氣CO2分壓變化具有一致的長(zhǎng)期趨勢(shì)。
表生地球化學(xué)是研究地球表層系統(tǒng)物質(zhì)的化學(xué)組成、化學(xué)作用和化學(xué)演化的地球化學(xué)分支學(xué)科。狹義的表生地球化學(xué)(Supergene Geochemistry)指表生成礦地球化學(xué),主要研究常溫富水環(huán)境下巖石的改造和次生礦物的形成、富集;廣義的表生地球化學(xué)的研究范疇十分廣泛,包括從表生地球化學(xué)動(dòng)力學(xué)、大陸風(fēng)化、微生物作用、有機(jī)質(zhì)的演化和早期成巖到氣候演變、農(nóng)業(yè)生產(chǎn)、礦床表生演化模式等,涉及自然地理學(xué)、土壤學(xué)、微生物學(xué)、植物學(xué)、地質(zhì)學(xué)、環(huán)境科學(xué)和氣象科學(xué)等多學(xué)科的深度交叉融合(馬民濤等,1994; 王瑞廷等,2002)。本文所提的表生地球化學(xué)為后者,即將地球作為一個(gè)完整的系統(tǒng),集各個(gè)學(xué)科之所長(zhǎng),是進(jìn)一步深入理解地球物質(zhì)演化、全球氣候變化等前沿問(wèn)題的必要研究領(lǐng)域。表生地球化學(xué)所研究的對(duì)象及內(nèi)容可為深時(shí)地球科學(xué)研究提供“將今論古”的地球化學(xué)領(lǐng)域的各類指標(biāo)以及其理論模型的現(xiàn)代檢驗(yàn),因此也與地層學(xué)、古生物學(xué)、沉積學(xué)等學(xué)科有著密切關(guān)系,是聯(lián)結(jié)過(guò)去—現(xiàn)在—未來(lái)的紐帶。因此,表生地質(zhì)作用是地球系統(tǒng)中最復(fù)雜、活躍的地質(zhì)作用過(guò)程。其研究范圍遠(yuǎn)超內(nèi)生地質(zhì)作用所局限的巖石圈,涉及水圈、大氣圈、生物圈和巖石圈之間的相互作用。區(qū)別于內(nèi)生地質(zhì)作用體系,表生環(huán)境具有低壓和低而速變的溫度、富氧和充足的二氧化碳、開(kāi)放的過(guò)量水、生物和有機(jī)質(zhì)參與、膠體體系發(fā)育五大特征(王瑞廷等,2002)。不同因素作用的相互耦合、拮抗構(gòu)成了表生作用過(guò)程復(fù)雜的“暗箱”,而地球化學(xué)指標(biāo)則是開(kāi)啟這一“暗箱”的“鑰匙”。因此,近年來(lái)越來(lái)越多的學(xué)者開(kāi)始關(guān)注碳循環(huán)、氮循環(huán)等的深地過(guò)程與表生環(huán)境變化的關(guān)聯(lián)(Hartmann et al., 2017; Liu et al., 2019; Cannaòa et al., 2020)。
表生地球化學(xué)數(shù)據(jù)大體可劃分為兩大類,一是對(duì)各種地質(zhì)樣品進(jìn)行直接測(cè)量得到的原始數(shù)據(jù),主要包括巖石、土壤、水體、生物體和化石等地質(zhì)載體中的元素、同位素、化合物含量及其它地球化學(xué)指標(biāo)的分布特征;二是與原始數(shù)據(jù)相對(duì)應(yīng)的解釋數(shù)據(jù),例如地質(zhì)體的產(chǎn)狀、環(huán)境溫度、濕度、壓力、大氣CO2分壓、pH值、Eh值及水動(dòng)力學(xué)條件等,以及其相應(yīng)擬合關(guān)系、模擬結(jié)果等。地質(zhì)樣品的地球化學(xué)特征往往是多要素綜合作用的結(jié)果,而諸如大氣CO2分壓、水體氧化—還原條件、溫度等環(huán)境因素也具有多種基于不同理論假設(shè)的地球化學(xué)指標(biāo)體系,這種雙向的一對(duì)多的映射關(guān)系使得地球化學(xué)數(shù)據(jù)呈冗余的結(jié)構(gòu)。此外數(shù)據(jù)格式上有文本、圖像、視頻、表格等多種表現(xiàn)形式,而且絕大多數(shù)數(shù)據(jù)目前并不具有統(tǒng)一的質(zhì)量控制標(biāo)準(zhǔn),如何組織數(shù)據(jù)結(jié)構(gòu)、確立怎樣的標(biāo)準(zhǔn)將成為表生地化數(shù)據(jù)庫(kù)建設(shè)的一大難點(diǎn)。
表生地球化學(xué)由其研究問(wèn)題的多樣性決定了數(shù)據(jù)的多元性。豐富的數(shù)據(jù)來(lái)源和龐大的數(shù)據(jù)量十分適于使用大數(shù)據(jù)技術(shù)進(jìn)行分析,而其多學(xué)科融合的特征在某種意義上也決定了相應(yīng)學(xué)科的大數(shù)據(jù)研究現(xiàn)狀(數(shù)據(jù)量、質(zhì)量等)將成為應(yīng)用大數(shù)據(jù)解決具體科學(xué)問(wèn)題時(shí)的短板。此外,隨著新的地球化學(xué)技術(shù)手段不斷發(fā)展成熟,例如非傳統(tǒng)穩(wěn)定同位素的測(cè)試技術(shù)、校正方法的更迭,也給表生地球化學(xué)數(shù)據(jù)的整合研究提出了如何評(píng)估數(shù)據(jù)質(zhì)量、統(tǒng)一新舊數(shù)據(jù)等問(wèn)題。
根據(jù)數(shù)據(jù)結(jié)構(gòu)性特征,表生地球化學(xué)數(shù)據(jù)可分為兩大類。一是結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)大多來(lái)自國(guó)際性或國(guó)家地區(qū)研究機(jī)構(gòu)(如各國(guó)地調(diào)局)的相應(yīng)科研計(jì)劃成果,具有高度統(tǒng)一的結(jié)構(gòu)化特征,往往以圖層或表格形式呈現(xiàn),并遵循便于使用、追索、引用的開(kāi)放策略,數(shù)據(jù)質(zhì)量高而被多數(shù)研究者引用,是相對(duì)成熟的、具有權(quán)威性的數(shù)據(jù)來(lái)源;另一部分為長(zhǎng)尾數(shù)據(jù),主要指分散在海量文獻(xiàn)中的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)獨(dú)立性高。雖然部分?jǐn)?shù)據(jù)庫(kù)對(duì)已發(fā)表文獻(xiàn)數(shù)據(jù)進(jìn)行收錄、匯總,但不同文獻(xiàn)的數(shù)據(jù)格式不一致,需要進(jìn)一步的整合、標(biāo)準(zhǔn)化才可應(yīng)用于大數(shù)據(jù)分析與信息挖掘中。同時(shí)表生地化數(shù)據(jù)庫(kù)呈多元化特征,按研究對(duì)象可進(jìn)一步分為海洋地化、環(huán)境地化、考古學(xué)、全球變化科學(xué)等專題(表1),不同的數(shù)據(jù)庫(kù)存在不同的研究目的,基于這些目的數(shù)據(jù)的元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)等也存在很大差異,需要進(jìn)一步識(shí)別。
GeoReM 數(shù)據(jù)庫(kù)(Max Planck Institute for Chemistry Mainz, Germany, 2020-11)是由馬克斯·普朗克研究所(Max Planck Institute)開(kāi)發(fā)和維護(hù),用于存儲(chǔ)具有一定地質(zhì)和環(huán)境意義的標(biāo)準(zhǔn)物質(zhì)的測(cè)試值,例如USGS和NIST等機(jī)構(gòu)的巖石粉末、礦物、同位素標(biāo)準(zhǔn)溶液、生物樣品、河水和海水等標(biāo)準(zhǔn)樣品測(cè)試數(shù)據(jù),是EarthChem數(shù)據(jù)庫(kù)的有機(jī)組 成(Jochum et al., 2005;Jochum et al., 2009)。 GeoReM包含來(lái)自約11340篇論文3500種標(biāo)準(zhǔn)物質(zhì)的50410種分析(截至2020年11月;包括主量元素和痕量元素濃度和質(zhì)量分?jǐn)?shù),放射性同位素和穩(wěn)定同位素比等地球化學(xué)組成數(shù)據(jù)),以及有關(guān)分析值的重要元數(shù)據(jù),例如不確定性、分析方法和測(cè)試實(shí)驗(yàn)室等,同時(shí)還提供標(biāo)準(zhǔn)物質(zhì)的信息和優(yōu)選整合的參考值(如圖1),是地球化學(xué)指標(biāo)測(cè)試和分析的重要參考源。
GeoReM的數(shù)據(jù)主要來(lái)源于已發(fā)表文獻(xiàn),由作者錄入相關(guān)信息并經(jīng)過(guò)審查后收錄于數(shù)據(jù)庫(kù)中。雖然其數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單,但卻抓住了地球化學(xué)數(shù)據(jù)的核心—數(shù)據(jù)可靠性,圍繞這一點(diǎn)設(shè)計(jì)出簡(jiǎn)明扼要的數(shù)據(jù)登錄表(http://georem.mpch-mainz.gwdg.de/GeoReM-Example.xls),對(duì)測(cè)試項(xiàng)目、測(cè)試儀器、測(cè)試值及不確定性等信息進(jìn)行收集歸納。除了標(biāo)準(zhǔn)物質(zhì)測(cè)試數(shù)據(jù)的實(shí)際整合需求外,數(shù)據(jù)庫(kù)使用、錄入的便捷性也是該數(shù)據(jù)庫(kù)數(shù)據(jù)量不斷增加的保證。GeoReM的數(shù)據(jù)結(jié)構(gòu)在地球化學(xué)測(cè)試的數(shù)據(jù)庫(kù)建設(shè)中具有一定的實(shí)用性。
以PANGAEA為代表的綜合性地學(xué)數(shù)據(jù)庫(kù)的發(fā)展,多經(jīng)歷從單一專題數(shù)據(jù)庫(kù)逐漸壯大的歷程,其一般起步早,發(fā)展力量較為雄厚,涵蓋的數(shù)據(jù)量豐富,數(shù)據(jù)庫(kù)擴(kuò)展功能完善,在數(shù)據(jù)標(biāo)準(zhǔn)、運(yùn)行模式等方面有著豐富的建設(shè)經(jīng)驗(yàn)。
表1 部分表生地化數(shù)據(jù)庫(kù)簡(jiǎn)要信息表(#指代結(jié)構(gòu)化)Table 1 Brief information of several Surficial Geochemistry database (# represents owing structured identity here)
續(xù)表1
PANGAEA(Alfred Wagener Institute and Centre for Marine Environmental Sciences,University of Bremen,2020-11)信息系統(tǒng)是一個(gè)對(duì)任何組織和個(gè)人開(kāi)放并保證長(zhǎng)期運(yùn)行的地球科學(xué)數(shù)據(jù)庫(kù),旨在歸檔、發(fā)布和分發(fā)地球系統(tǒng)研究的相關(guān)數(shù)據(jù)(Grobe et al, 2006)。只要遵守?cái)?shù)據(jù)集中的許可條款,就可以在登錄后免費(fèi)下載并使用數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的描述始終可見(jiàn),并支持以數(shù)字對(duì)象標(biāo)識(shí)符(DOI)來(lái)標(biāo)識(shí)、共享、發(fā)布和引用所需數(shù)據(jù)。PANGAEA還允許將數(shù)據(jù)作為科學(xué)文章的附件(示例),或者與ESSD、Geoscience Data Journal、Scientific Data等數(shù)據(jù)期刊相結(jié)合,作為可引用的數(shù)據(jù)集進(jìn)行發(fā)布。
圖1 GeoReM數(shù)據(jù)庫(kù)中BHVO-2標(biāo)樣數(shù)據(jù)展示(以Fe為例)示例圖(Klaus,2006)Fig. 1 Search result for analytical data (specifically Fe) in the USGS reference sample BHVO-2
目前PANGAEA收錄有來(lái)自477個(gè)研究計(jì)劃、399283個(gè)數(shù)據(jù)集、超過(guò)170億條測(cè)試數(shù)據(jù)(https://www.pangaea.de/about/, 截至2020年11月),涵蓋化學(xué)、海洋、巖石圈、生物分類、大氣、古生物、生態(tài)學(xué)、生物圈、地表環(huán)境、地球物理、冰凍圈、湖泊與河水、人類活動(dòng)等專題,并支持根據(jù)作者、發(fā)布時(shí)間、具體項(xiàng)目、測(cè)試方法、地理位置等參數(shù)對(duì)數(shù)據(jù)進(jìn)行篩選。為了對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,PANGAEA設(shè)計(jì)了一個(gè)基于采樣流程的關(guān)系型數(shù)據(jù)結(jié)構(gòu),通過(guò)將原始數(shù)據(jù)劃分為項(xiàng)目信息、采樣行動(dòng)信息、實(shí)地測(cè)量數(shù)據(jù)以及樣品分析數(shù)據(jù)四個(gè)層次分別錄入相關(guān)信息,以便于數(shù)據(jù)的管理、更新和使用(Grobe et al., 2006)。但由于該數(shù)據(jù)庫(kù)注重于數(shù)據(jù)共享,并沒(méi)有進(jìn)一步整合,數(shù)據(jù)內(nèi)容相對(duì)較為分散和多樣。
PANGAEA數(shù)據(jù)庫(kù)可確保數(shù)據(jù)的完整性和真實(shí)性以及高可用性。歸檔的數(shù)據(jù)可供機(jī)器讀取,并鏡像到其數(shù)據(jù)倉(cāng)庫(kù)(data warehouse)中,從而提高數(shù)據(jù)編譯速度。PANGAEA提供了多種數(shù)據(jù)處理工具,其中數(shù)據(jù)倉(cāng)庫(kù)可用于高級(jí)檢索,實(shí)現(xiàn)對(duì)整個(gè)數(shù)據(jù)連續(xù)體中任何測(cè)量參數(shù)上的時(shí)間片或表面數(shù)據(jù)矩陣進(jìn)行高效的檢索和編譯,并開(kāi)放相應(yīng)API;提供了基于Python 3和R語(yǔ)言的數(shù)據(jù)、元數(shù)據(jù)檢索和分析工具pangaeapy(https://github.com/pangaea-data-publisher/pangaeapy) 和pangaear(https://github.com/ropensci/pangaear)作為開(kāi)源庫(kù)和插件,以實(shí)現(xiàn)PANGAEA無(wú)法直接滿足的數(shù)據(jù)處理需求;以及與PANGAEA信息系統(tǒng)相結(jié)合的數(shù)據(jù)可視化工 具BSRN toolbox(Baseline Surface Radiation Project;Holger et al., 2019)。
海洋科學(xué)研究領(lǐng)域是科研全球化的一個(gè)典型代表,圍繞國(guó)際聯(lián)合科學(xué)考察計(jì)劃產(chǎn)生了一系列優(yōu)質(zhì)的海洋地球化學(xué)數(shù)據(jù)及其數(shù)據(jù)庫(kù),如國(guó)際大洋鉆探(魯錚博等,2020)、GEOTRACES、Biochemical Argo等,這些數(shù)據(jù)庫(kù)通過(guò)長(zhǎng)期的觀測(cè)以及樣品資料,不斷推進(jìn)對(duì)海洋物質(zhì)循環(huán)的認(rèn)識(shí)。
GEOTRACES(Scientific Committee on Ocean Research, The International GEOTRACES Programme, 2020-12)是一個(gè)專攻海洋生物地球化學(xué)的國(guó)際性研究計(jì)劃,旨在揭示關(guān)鍵痕量元素及其同位素在海洋的分布、循環(huán)過(guò)程,主要指標(biāo)參數(shù)包括Fe、Zn、Cd、Cu等營(yíng)養(yǎng)元素,Al、Mn、δ15N等指示現(xiàn)代過(guò)程的指標(biāo),易受人類活動(dòng)影響的污染物元素如Pb,以及231Pa、230Th、Nd同位素等古環(huán)境重建指標(biāo),極大地填補(bǔ)了海洋生物地球化學(xué)循環(huán)領(lǐng)域的數(shù)據(jù)空白。約有來(lái)自35個(gè)國(guó)家的科學(xué)家加入了這一計(jì)劃,他們計(jì)劃將在未來(lái)十年初步探明全球所有大洋盆地,并在大洋水氣及水巖界面反應(yīng)及通量、大洋內(nèi)循環(huán)、全球變化指標(biāo)三大領(lǐng)域研究中取得突破。除了相應(yīng)科研成果的展示,GEOTRACES團(tuán)隊(duì)在社交平臺(tái)twitter上也保持著頻繁的更新,利于科學(xué)影響力傳播。
圖2 GEOTRACES數(shù)據(jù)截面分布: 紅色代表計(jì)劃中,黃色代表已完成,黑色代表GEOTRACES對(duì)IPY(International Polar Year)的貢獻(xiàn)(https://www.geotraces.org/about-geotraces/)Fig. 2 GEOTRACES sections: red-planned sections, yellow-completed sections, black-completed as GEOTRACES contribution to the IPY (International Polar Year)
GEOTRACES數(shù)據(jù)主要來(lái)自遍布全球的航測(cè)(圖2)以及對(duì)水樣的多種指標(biāo)測(cè)試,最終以四年更新一次的intermediate data product(IDP)形式產(chǎn)出。IDP主要包含兩大部分,一是原始電子數(shù)據(jù)(https://webodv.awi.de/geotraces),包含來(lái)自超過(guò)39次航測(cè)、1800個(gè)站臺(tái)的測(cè)試結(jié)果,基本覆蓋全球大洋,其中大西洋數(shù)據(jù)點(diǎn)密度最高,并提 供ASCII、Excel、NetCDF和ODV(Ocean Data View software)4種格式進(jìn)行下載,同時(shí)提供數(shù)據(jù)來(lái)源、測(cè)試方法、發(fā)布文獻(xiàn)等相關(guān)信息的查詢;二是數(shù)據(jù)可視化工具eGEOTRACES Electronic Atlas(http://www.egeotraces.org/)可提供基于相關(guān)數(shù)據(jù)制作的各項(xiàng)化學(xué)指標(biāo)分布圖、3D動(dòng)畫。目前GEOTRACES已公布IDP2014(Mawji et al., 2015)、 IDP2017(Schlitzer et al.,2018)兩款數(shù)據(jù)產(chǎn)品,并計(jì)劃于2020年12月15日發(fā)布IDP2021。其中第二版數(shù)據(jù)產(chǎn)品IDP2017內(nèi)容上囊括了2014版原有數(shù)據(jù),并添加了太平洋和南大洋的相關(guān)元素、同位素?cái)?shù)據(jù),并首次提供相應(yīng)的生物數(shù)據(jù)。此外GEOTRACES還鼓勵(lì)上傳共享數(shù)據(jù)(DOoR Portal),并規(guī)范了相應(yīng)的數(shù)據(jù)標(biāo)準(zhǔn)、測(cè)試方法等內(nèi)容(https://geotracesold.sedoo.fr/Cookbook.pdf)。
全球變化是研究地球系統(tǒng)整體行為的一門科學(xué),通過(guò)探索地球系統(tǒng)的過(guò)去、現(xiàn)在和將來(lái)的變化規(guī)律及其控制因素,從而建立全球變化預(yù)測(cè)的科學(xué)基礎(chǔ),并為地球系統(tǒng)的管理提供科學(xué)依據(jù),與人類文明發(fā)展息息相關(guān)。近年來(lái)全球變化科學(xué)數(shù)據(jù)量與日俱增,僅“全球變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)”2019年出版數(shù)據(jù)文件就達(dá)71.72 GB,下載量達(dá)553.43 GB(石瑞香等,2020),但同時(shí)這種大規(guī)模數(shù)據(jù)錄入也帶來(lái)了數(shù)據(jù)質(zhì)量控制、知識(shí)產(chǎn)權(quán)、數(shù)據(jù)共享積極性等問(wèn)題。
而PAGES(University of Bern, Switzerland, 2020-11)數(shù)據(jù)庫(kù)在解決這些數(shù)據(jù)問(wèn)題、推進(jìn)全球變化研究上,邁出了關(guān)鍵一步。PAGES是由瑞士科學(xué)院和中國(guó)科學(xué)院聯(lián)合資助的國(guó)際合作項(xiàng)目,旨在協(xié)調(diào)和促進(jìn)全球變化研究,深入了解地球過(guò)去環(huán)境變化,以更好地對(duì)未來(lái)氣候和環(huán)境進(jìn)行預(yù)測(cè),為可持續(xù)性發(fā)展提供戰(zhàn)略科學(xué)依據(jù),其研究范圍包括從上新世到近千年的不同時(shí)間尺度上的氣候系統(tǒng)、生物地球化學(xué)循環(huán)、生態(tài)系統(tǒng)過(guò)程、生物多樣性和人類活動(dòng)影響等諸多方面。PAGES的科學(xué)結(jié)構(gòu)將地球系統(tǒng)的關(guān)鍵帶中的科學(xué)問(wèn)題劃分為氣候,環(huán)境和人類活動(dòng)三大主題,而三者之間又存在4個(gè)主要聯(lián)合內(nèi)容:數(shù)據(jù)管理、全球變暖、閾值與極端事件(http://pastglobalchanges.org/science/intro)。這一科學(xué)結(jié)構(gòu)主要依賴工作組機(jī)制維持。工作組為具有共同研究方向的科學(xué)家提供了跨領(lǐng)域交流合作的平臺(tái),并以解決單一力量難以解決的具體科學(xué)問(wèn)題為目標(biāo),制定和執(zhí)行以3年為周期的研究方案。PAGES歡迎并鼓勵(lì)更多專家學(xué)者加入,并組建相應(yīng)工作組(圖3)。
圖3 PAGES的科學(xué)結(jié)構(gòu):由氣候—環(huán)境—人類三大主題組成,及各主題交叉融合背景下的各個(gè)工作組(表2)(http://pastglobalchanges.org/science/intro)Fig. 3 Science structure of PAGES, which is composed of climate-environment-human, and the interactive working groups (Table 2)
作為一個(gè)活躍的科研團(tuán)體,PAGES成果卓著,在全球變化科學(xué)領(lǐng)域積累了大量數(shù)據(jù),數(shù)據(jù)主要來(lái)自所屬工作組發(fā)表的文獻(xiàn)、會(huì)議報(bào)告和宣傳材料等成果,更新頻率很高(University of Bern, Switzerland, 2020-11)。其中還有一些專題工作組致力于整合構(gòu)建大型數(shù)據(jù)庫(kù),其中包括不同時(shí)期全球及地區(qū)氣候參數(shù)如溫度、降水,不同地質(zhì)載體的元素、同位素組成等(表2)。其中SISAL工作組實(shí)現(xiàn)了洞穴次生碳酸鹽碳氧同位素?cái)?shù)據(jù)從非結(jié)構(gòu)化向結(jié)構(gòu)化的轉(zhuǎn)變,具體將在后文介紹。
表2 PAGES所屬工作組大型數(shù)據(jù)庫(kù)成果(http://www.pages.unibe.ch/data/databases)Table 2 List of larger data-compilation of PAGES working groups(http://www.pages.unibe.ch/data/databases)
表生地化結(jié)構(gòu)化數(shù)據(jù)庫(kù)以GEOTRACES為代表,所涵蓋的數(shù)據(jù)一般是大型科研項(xiàng)目的成果,來(lái)源集中,數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一,元數(shù)據(jù)完整,并有較為豐富的擴(kuò)展功能,但一般更新較慢。而更新迅速的、相對(duì)小型、獨(dú)立的科研成果占有很大比重。即使有一些數(shù)據(jù)庫(kù)如PANGAEA、USGS、東亞古環(huán)境科學(xué)數(shù)據(jù)庫(kù)等進(jìn)行了收錄,但由于不同數(shù)據(jù)來(lái)自不同儀器分析、不同模型擬合,缺乏統(tǒng)一的比對(duì)標(biāo)準(zhǔn)或者缺少相應(yīng)標(biāo)準(zhǔn)所需的元數(shù)據(jù),數(shù)據(jù)之間的不相容性、獨(dú)立性,阻礙了數(shù)據(jù)資源的再利用。因此將這些長(zhǎng)尾數(shù)據(jù)統(tǒng)一整合為結(jié)構(gòu)化專題數(shù)據(jù)庫(kù)將是表生地球化學(xué)大數(shù)據(jù)建設(shè)的重點(diǎn)。以下重點(diǎn)介紹全球變化領(lǐng)域數(shù)據(jù)庫(kù)建設(shè)比較完善的洞穴次生碳酸鹽結(jié)構(gòu)化數(shù)據(jù)庫(kù)的建設(shè)經(jīng)驗(yàn)。
洞穴次生碳酸鹽主要包括石筍和鐘乳石等,是由自然界水體中的碳酸鹽在地下洞穴系統(tǒng)遷移過(guò)程中飽和而不斷沉積堆積形成的碳酸鈣沉積物,常見(jiàn)于喀斯特地貌區(qū)。由于其形成往往具有成層性并且適宜U系定年,是研究古氣候變化、重建古降水、古大氣循環(huán)尤其是高精度、短周期氣候事件的天然優(yōu)質(zhì)地質(zhì)載體。在洞穴次生碳酸鹽各項(xiàng)地球化學(xué)指標(biāo)中,碳氧穩(wěn)定同位素的應(yīng)用最為常見(jiàn),其中石筍氧同位素組成往往與降水量、降水氧同位素或者溫度相關(guān)(McDermott, 2004; 汪永進(jìn)等, 2016; 程海等, 2019)。
洞穴次生碳酸鹽分布廣泛,研究工作開(kāi)展較早,尤其是近年來(lái)高精度U-Th定年技術(shù)以及高分辨率采樣手段的發(fā)展,研究工作日益細(xì)致,積累了超過(guò)700多篇文獻(xiàn)的相關(guān)數(shù)據(jù),使得在不同地域、不同時(shí)間尺度上探究洞穴次生碳酸鹽的形成機(jī)制及其反演的氣候變化信息成為可能(Wong et al., 2015)。但由于已發(fā)表的文獻(xiàn)數(shù)據(jù)并不具有相同的、標(biāo)準(zhǔn)化的表述形式以及完整準(zhǔn)確的元數(shù)據(jù),即不具有結(jié)構(gòu)化特征,因而無(wú)法直接從更大時(shí)空尺度上進(jìn)一步發(fā)掘這些數(shù)據(jù)中的信息。NOAA(National Oceanic and Atmospheric Administration)世界數(shù)據(jù)中心的古氣候計(jì)劃曾對(duì)196份洞穴同位素?cái)?shù)據(jù)進(jìn)行整合統(tǒng)計(jì),并在較長(zhǎng)一段時(shí)間內(nèi)作為相關(guān)研究的數(shù)據(jù)源,但由于缺少判斷數(shù)據(jù)不確定度的元數(shù)據(jù)或關(guān)鍵數(shù)據(jù),難以保證數(shù)據(jù)質(zhì)量,阻礙了進(jìn)一步的數(shù)據(jù)篩選、分析研究(Comas-Bru et al.,2019)。
SISAL(Speleothem Isotope Systhesis and Analysis)成立于2017年,是PAGES所資助的國(guó)際性工作組(University of Reading, University College Dublin, 2020-11),負(fù)責(zé)整合已發(fā)表的洞穴次生碳酸鹽的碳氧穩(wěn)定同位素組成記錄、年代學(xué)記錄等相關(guān)數(shù)據(jù),為氣候重建和模型評(píng)估提供準(zhǔn)確可靠的數(shù)據(jù)。在經(jīng)過(guò)版權(quán)所有者授權(quán)或者加盟后,SISAL工作組對(duì)已發(fā)表數(shù)據(jù)進(jìn)行整合標(biāo)準(zhǔn)化,補(bǔ)足了缺失的關(guān)鍵數(shù)據(jù)以及元數(shù)據(jù),并分別于2018年和2020年發(fā)布了兩版數(shù)據(jù)庫(kù)(Atsawawaranunt et al., 2018;Comas-Bru et al., 2020)。2020版(SISALv2)數(shù)據(jù)庫(kù)相比于2018版(SISALv1),除了增加數(shù)據(jù)實(shí)體的量,糾正之前存在的一些數(shù)據(jù)錯(cuò)誤,還為現(xiàn)有數(shù)據(jù)實(shí)體補(bǔ)充了如洞穴海拔等有助于深入研究的信息,并且新增、補(bǔ)充了503個(gè)記錄中原先缺失的年齡—深度模型,使得不同的洞穴次生碳酸鹽可在同一年代學(xué)體系下進(jìn)行對(duì)比。SISALv2包含了來(lái)自673份獨(dú)立的洞穴次生碳酸鹽記錄以及18份來(lái)自293個(gè)洞穴拼合的樣品數(shù)據(jù),具有不同時(shí)間分辨率,共計(jì)35396條氧同位素?cái)?shù)據(jù)、200613條碳同位素?cái)?shù)據(jù),基本覆蓋了除南極洲外各大洲,但地區(qū)分布差異較大,具體表現(xiàn)為亞洲、中東地區(qū)的數(shù)據(jù)分別僅涵蓋64.8%和42.3%的已發(fā)表數(shù)據(jù);而時(shí)間跨度上包含了末次冰期、冰消期、全新世、近2000年等不同時(shí)間段,且普遍定年精度在100至1000年之間。
SISAL對(duì)數(shù)據(jù)質(zhì)量控制由構(gòu)建嚴(yán)格完善的數(shù)據(jù)錄入流程以及全面完整、可追溯的數(shù)據(jù)庫(kù)結(jié)構(gòu)雙重機(jī)制共同保證。數(shù)據(jù)由原作者或相關(guān)方面的專家經(jīng)原作者確認(rèn)后整合錄入,錄入人會(huì)登記在實(shí)體表中以便日后追索更正;每條數(shù)據(jù)都有專人審查是否符合統(tǒng)一規(guī)范,并在入庫(kù)前由Python小程序檢查每一項(xiàng)是否符合錄入格式要求;SISAL通過(guò)預(yù)先設(shè)定錄入格式和相關(guān)名詞列表以消除數(shù)據(jù)的歧義性;審查階段同時(shí)會(huì)核實(shí)空值數(shù)據(jù)是否為原數(shù)據(jù)缺失導(dǎo)致。錄入流程保證了數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一以及內(nèi)容的可溯源性。
SISAL數(shù)據(jù)庫(kù)按不同的洞穴系統(tǒng)進(jìn)行劃分(Atsawawaranunt et al., 2018; Comas-Bru et al., 2020),以15張數(shù)據(jù)表為基本組成單位,不同數(shù)據(jù)表通過(guò)相應(yīng)的ID進(jìn)行鏈接,并以主體表為核心分別對(duì)地點(diǎn)、樣品信息、定年信息、紋層定年信息、沉積間斷、不同石筍的拼合信息、原始年代學(xué)數(shù)據(jù)、標(biāo)準(zhǔn)化年代學(xué)數(shù)據(jù)、δ13C、δ18O、數(shù)據(jù)來(lái)源、聯(lián)結(jié)關(guān)系、附注等進(jìn)行準(zhǔn)確地描述(數(shù)據(jù)結(jié)構(gòu)如圖4所示),表格的每一項(xiàng)內(nèi)容都有嚴(yán)格的描述、格式要求。諸如洞穴形狀、樣品距入口距離等反應(yīng)周圍環(huán)境信息也得到歸類記錄,這些信息在衡量洞穴溫度是受空氣對(duì)流還是基巖熱擴(kuò)散控制有著重要參考價(jià)值;同樣洞穴次生碳酸鹽樣品的地球化學(xué)、礦物相等指標(biāo)也是判斷U-Th數(shù)據(jù)可靠性的重要參數(shù),因而得到準(zhǔn)確核實(shí)記錄。正是這些數(shù)據(jù)的追加使得相應(yīng)數(shù)據(jù)的篩選和分析更加精確可靠,避免在應(yīng)用過(guò)程中由于數(shù)據(jù)選擇的偏差而得出錯(cuò)誤結(jié)論。數(shù)據(jù)格式有兩種,分別為關(guān)系型MySQL數(shù)據(jù)庫(kù)格式文件以及包含15個(gè)CSV數(shù)據(jù)表格的壓縮包文件,兩者都可以實(shí)現(xiàn)基于R或Python語(yǔ)言的程序?qū)?shù)據(jù)進(jìn)行進(jìn)一步刷選、加工、分析,保障數(shù)據(jù)關(guān)系及其可擴(kuò)展性。由于定年手段、年齡模型的差異以及原始文獻(xiàn)年代學(xué)數(shù)據(jù)不確定度的數(shù)據(jù)缺失,大大減小了SISAL數(shù)據(jù)庫(kù)的可靠性和應(yīng)用價(jià)值。為了解決這一問(wèn)題,SISAL工作組在補(bǔ)充原始數(shù)據(jù)元數(shù)據(jù)的基礎(chǔ)上開(kāi)發(fā)和評(píng)估了linear interpolation、linear regression、Bchron、Bacon、OxCal、COPRA、StalAge這7種基于不同假設(shè)前提的時(shí)間—深度模型(Comas-Bru et al., 2020),為數(shù)據(jù)整合提供了統(tǒng)一的年代學(xué)標(biāo)尺。
圖4 SISALv2數(shù)據(jù)庫(kù)結(jié)構(gòu)(Comas-Bru et al, 2020)Fig. 4 The structure of the SISAL database version 2
SISAL數(shù)據(jù)庫(kù)的建成和完善離不開(kāi)工作組有關(guān)專家的研究熱情和努力。SISAL工作組由負(fù)責(zé)統(tǒng)籌規(guī)劃的核心領(lǐng)導(dǎo)小組和負(fù)責(zé)不同地區(qū)工作的區(qū)域聯(lián)系人兩部分組成,并向任何對(duì)相關(guān)研究感興趣的學(xué)者開(kāi)放。來(lái)自20多個(gè)國(guó)家的超過(guò)100名成員通過(guò)定期(線上和線下)會(huì)議參與數(shù)據(jù)庫(kù)建設(shè),交流并推進(jìn)洞穴次生碳酸鹽同位素研究藍(lán)圖式發(fā)展。在階段I(2017~2019年)完成了對(duì)洞穴次生碳酸鹽同位素?cái)?shù)據(jù)的初步整合及年代學(xué)數(shù)據(jù)的標(biāo)準(zhǔn)化,并利用相關(guān)數(shù)據(jù)取得了豐碩的研究成果(http://www.pages.unibe.ch/science/wg/sisal/products)。而在階段II(2020~2023年)除了對(duì)數(shù)據(jù)庫(kù)的補(bǔ)充完善,SISAL工作組還將針對(duì)洞穴環(huán)境監(jiān)控長(zhǎng)期數(shù)據(jù)(cavemonitoring.org)、痕量元素等指標(biāo)的潛在應(yīng)用以及基于洞穴次生碳酸鹽數(shù)據(jù)的氣候重建模型三個(gè)方面開(kāi)展下一步工作,深入了解洞穴小環(huán)境與地球系統(tǒng)的耦合關(guān)系。以此來(lái)看,正是研究需求推動(dòng)著SISAL數(shù)據(jù)庫(kù)的發(fā)展完善。
圖5 SISALv2包含數(shù)據(jù)點(diǎn)(五邊形)、已識(shí)別數(shù)據(jù)點(diǎn)(正方形)及cavemonitoring.org數(shù)據(jù)庫(kù)洞穴監(jiān)測(cè)點(diǎn)(圓形)分布圖(http://www.pages.unibe.ch/science/wg/sisal/intro)Fig. 5 Speleothem records available (pentagon) and which are identified (square) by SISAL working group and cave monitoring sites (circle) from cavemonitoring.org database
SISAL直接展示了洞穴次生碳酸鹽記錄的時(shí)空分布,這種時(shí)空分布差異能夠揭示洞穴次生碳酸鹽的形成背景及環(huán)境信息,可用于古氣候變化歷史的重建以及氣候模型的驗(yàn)證(圖5)。數(shù)據(jù)點(diǎn)的存在與否還可用于評(píng)估樣本量、樣本分布對(duì)結(jié)論的影響,推測(cè)潛在的研究區(qū)域。例如歐洲西部是洞穴次生碳酸鹽同位素?cái)?shù)據(jù)分布最為密集的區(qū)域,基于SISALv1(2018)數(shù)據(jù)庫(kù)的統(tǒng)計(jì)分析顯示,該地區(qū)洞穴次生碳酸鹽氧同位素隨地區(qū)分布的變化與當(dāng)?shù)亟邓跬凰亟M成(Global Network of Isotopes in Precipitation, GNIP站點(diǎn)數(shù)據(jù))有很好的映射關(guān)系(Lechleitner et al.,2018),并且在末次冰期中呈現(xiàn)一致的小冰期—小間冰期旋回信號(hào),這種信號(hào)在高緯山地地區(qū)尤為顯著;而全新世的數(shù)據(jù)由于較低的信噪比,這種趨勢(shì)并不那么明顯,研究認(rèn)為這種差異受控于溫度的變化。而在中東地區(qū),更新世以來(lái)的洞穴次生碳酸鹽氧同位素組成據(jù)則顯示百年尺度變化指示降水量的變化(Burstyn et al.,2019),但受限于數(shù)據(jù)點(diǎn)有限,并不能分離水汽源區(qū)的影響。南美洲的相關(guān)數(shù)據(jù)的分布呈杠鈴形,巴西中部地區(qū)氧同位素值偏負(fù),這種特征被解釋為熱帶輻合帶上升流加強(qiáng)導(dǎo)致輸送過(guò)來(lái)的水汽偏負(fù),而非降水量效應(yīng)的影響(Deininger et al., 2019)。Comas-Bru等(2019)結(jié)合ECHAM5-wiso大氣循環(huán)模型模擬降水氧同位素比值和現(xiàn)代觀測(cè)值,與SISAL數(shù)據(jù)相比較,結(jié)果均呈良好的一致性,進(jìn)一步證實(shí)SISAL數(shù)據(jù)可用于檢驗(yàn)氣候模型的模擬數(shù)據(jù),作者同時(shí)也指出洞穴次生碳酸鹽數(shù)據(jù)的篩選,如礦物相、時(shí)間尺度、年代學(xué)特征、沉積連續(xù)性等差異,都可能影響模型檢驗(yàn)的結(jié)果。
SISAL的實(shí)踐建立了一套合理的、國(guó)際公認(rèn)的洞穴次生碳酸鹽碳氧同位素?cái)?shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)(http://www.mdpi.com/2571-550X/2/1/7/s1), 符合大數(shù)據(jù)可查詢、可獲取、可交互、可重復(fù)使用(FAIR)準(zhǔn)則,使得新老數(shù)據(jù)得以在統(tǒng)一平臺(tái)共享共通,數(shù)據(jù)更具有生命力。進(jìn)一步結(jié)合GNIP數(shù)據(jù)庫(kù)、洞穴監(jiān)測(cè)數(shù)據(jù)庫(kù)以及大數(shù)據(jù)分析技術(shù),SISAL數(shù)據(jù)庫(kù)將在揭示洞穴次生碳酸鹽氧同位素組成變化機(jī)制、重建區(qū)域氣候變化歷史上有很大發(fā)揮空間。
以上調(diào)研結(jié)果表明,盡管表生地球化學(xué)領(lǐng)域并不缺相關(guān)數(shù)據(jù)庫(kù),但由于研究對(duì)象復(fù)雜,研究范圍廣,而數(shù)據(jù)整體呈現(xiàn)多元化、跨學(xué)科的特征,不同專題數(shù)據(jù)內(nèi)容差異大,數(shù)據(jù)庫(kù)發(fā)展不平衡,數(shù)據(jù)標(biāo)準(zhǔn)不完善,同時(shí)還缺乏部分具有針對(duì)性和專業(yè)性的數(shù)據(jù)庫(kù)。深時(shí)數(shù)字地球(DDE)國(guó)際大科學(xué)計(jì)劃將建設(shè)開(kāi)放共享的大數(shù)據(jù)平臺(tái),從大數(shù)據(jù)的角度、用大數(shù)據(jù)方法解決地學(xué)問(wèn)題,推動(dòng)地球科學(xué)研究向數(shù)據(jù)密集型科學(xué)轉(zhuǎn)變(Cheng et al., 2020)。已有數(shù)據(jù)庫(kù)基本滿足其建立的原始目的,并遵循數(shù)據(jù)FAIR原則,但可能仍需進(jìn)一步整合、標(biāo)準(zhǔn)化,這些數(shù)據(jù)庫(kù)的成功實(shí)踐也可以為DDE未來(lái)工作提供具體經(jīng)驗(yàn)和參考(表3)。在DDE的推進(jìn)和發(fā)展引領(lǐng)下,表生地球化學(xué)領(lǐng)域的數(shù)據(jù)庫(kù)建設(shè)應(yīng)從傳統(tǒng)學(xué)科導(dǎo)向調(diào)整為重大問(wèn)題導(dǎo)向,強(qiáng)化學(xué)科融合與領(lǐng)域整合。
表3 本文介紹的主要數(shù)據(jù)庫(kù)的優(yōu)缺點(diǎn)及數(shù)據(jù)庫(kù)建設(shè)啟示Table 3 Advantages, disadvantages and related inspiration of 5 databases mentioned here
表生地球化學(xué)領(lǐng)域現(xiàn)階段數(shù)據(jù)庫(kù)建設(shè)主要存在兩大難題—已有數(shù)據(jù)、數(shù)據(jù)庫(kù)的數(shù)據(jù)標(biāo)準(zhǔn)化以及大量非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化。為解決這些問(wèn)題,表生地球化學(xué)工作組需要借鑒和學(xué)習(xí)已經(jīng)成熟的中大型數(shù)據(jù)庫(kù),如USGS、GEOTRACSES、PAGES等的建設(shè)和管理經(jīng)驗(yàn),并以此為基石,組建針對(duì)性的專題科研團(tuán)體,以科研問(wèn)題和實(shí)際需求為導(dǎo)向,制定元數(shù)據(jù)標(biāo)準(zhǔn),有效整合已有數(shù)據(jù)庫(kù)和長(zhǎng)尾數(shù)據(jù),建成互聯(lián)互通的表生地球化學(xué)數(shù)據(jù)共享平臺(tái)。
數(shù)據(jù)結(jié)構(gòu)上可以借鑒SISAL數(shù)據(jù)庫(kù)和GeoReM數(shù)據(jù)庫(kù),將數(shù)據(jù)內(nèi)容按不同測(cè)試項(xiàng)目、樣品描述、解釋數(shù)據(jù)等劃分為若干個(gè)相關(guān)聯(lián)的數(shù)據(jù)集,以減少數(shù)據(jù)冗余度,后期對(duì)數(shù)據(jù)的修正、更新則可以通過(guò)對(duì)相應(yīng)數(shù)據(jù)集的增刪實(shí)現(xiàn),保證了數(shù)據(jù)的可溯源性和新老數(shù)據(jù)可對(duì)比性。對(duì)于數(shù)據(jù)量足以支撐大數(shù)據(jù)分析研究的研究專題,如黃土第四季研究及其大量非結(jié)構(gòu)化數(shù)據(jù),則理應(yīng)建立對(duì)應(yīng)的專題數(shù)據(jù)庫(kù),以期進(jìn)一步擴(kuò)展開(kāi)發(fā)對(duì)應(yīng)的分析工具,深入發(fā)掘數(shù)據(jù)背后的知識(shí);而對(duì)于數(shù)據(jù)量稍小的研究專題或者說(shuō)數(shù)據(jù)庫(kù)建設(shè)處于早期階段,表生地球化學(xué)大數(shù)據(jù)平臺(tái)應(yīng)該履行綜合性數(shù)據(jù)庫(kù)的職能,在收集、整合數(shù)據(jù)的基礎(chǔ)上,確立數(shù)據(jù)的標(biāo)準(zhǔn)和共享原則以及便于操作的錄入和引用流程,繼而隨著數(shù)據(jù)量增大,從中蛻變出更具有指向性的專題數(shù)據(jù)庫(kù)。
一枝獨(dú)秀不是春,百花齊放春滿園,表生地球化學(xué)作為地質(zhì)學(xué)與其它科學(xué)的高度交叉與交融的綜合性研究學(xué)科,必能在百花齊放的大數(shù)據(jù)時(shí)代迎來(lái)又一輪春天!
致謝:本文系“深時(shí)數(shù)字地球”(Deep-time Diyital Earth)大科學(xué)計(jì)劃系列成果之一。