徐洲鋒 劉恩德 陳家輝
摘 要:? Biotracks 是一款自然觀察類的公眾科學(xué)應(yīng)用,目前已經(jīng)被各類科學(xué)調(diào)查和自然觀察項(xiàng)目廣泛使用。該文利用Biotracks 的標(biāo)本采集項(xiàng)目將野外采集的數(shù)據(jù)與標(biāo)本館的數(shù)字館藏系統(tǒng)連接起來,使用戶在手機(jī)上記錄的信息可以被應(yīng)用到標(biāo)本館的標(biāo)本數(shù)字化中。這種方式不僅提升了數(shù)字標(biāo)本的轉(zhuǎn)錄效率,而且從根本上改變了整個(gè)標(biāo)本收集流程中的數(shù)據(jù)整合方式,使得標(biāo)本從采集到收藏的各個(gè)環(huán)節(jié)都能獲得高質(zhì)量的效率提升。同時(shí),新的標(biāo)本收集模式還能自然地將標(biāo)本的野外照片與數(shù)字標(biāo)本融為一體,從而使得傳統(tǒng)標(biāo)本原本很難呈現(xiàn)的顏色、行為、立體結(jié)構(gòu)、環(huán)境等信息最終可以通過數(shù)字標(biāo)本再次展現(xiàn)給研究者。這在信息維度上不僅拓展了傳統(tǒng)標(biāo)本的內(nèi)涵,結(jié)合公眾科學(xué),未來還有望進(jìn)一步延伸館藏標(biāo)本鑒定和討論的時(shí)空范圍。此外,公眾科學(xué)在解決標(biāo)本館問題中所展現(xiàn)出來的潛質(zhì),為重新審視標(biāo)本館的領(lǐng)域價(jià)值提供了新的視角。
關(guān)鍵詞: Biotracks, 標(biāo)本館, 植物標(biāo)本, 標(biāo)本數(shù)字化, 公眾科學(xué)
中圖分類號(hào):? Q94-34
文獻(xiàn)標(biāo)識(shí)碼:? A
文章編號(hào):? 1000-3142(2022)增刊1-0164-16
收稿日期:? 2021-10-08
基金項(xiàng)目:? 云南省重大科技專項(xiàng)計(jì)劃——電子信息與新一代信息技術(shù)重大專項(xiàng)(2018ZI001-3); 中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)(A類)地球大數(shù)據(jù)科學(xué)工程(XDA19050202); 中國(guó)科學(xué)院戰(zhàn)略生物資源計(jì)劃(KFJ-BRP-017-13); 云南省基礎(chǔ)研究專項(xiàng)(202101AS070032)。
第一作者: 徐洲鋒(1989-),碩士,助理工程師,研究方向?yàn)樯锒鄻有孕畔W(xué)和生物地理學(xué),(E-mail)xuzhoufeng@mail.kib.ac.cn。
通信作者:? 陳家輝,博士,研究員,研究方向?yàn)橹参锵到y(tǒng)演化及生物多樣性信息學(xué),(E-mail)chenjh@mail.kib.ac.cn。
Using the Biotracks platform to collect plant specimens
XU Zhoufeng1,2, LIU Ende2, CHEN Jiahui2*
( 1. College of Forestry, Southwest Forestry University, Kunming 650224, China; 2. Key Laboratory for Plant Diversity and
Biogeography of East Asia, Kunming Institute of Botany, Chinese Academy of Sciences, Kunming 650201, China )
Abstract:? Biotracks is a citizen science application of nature observation, which has been widely used in the scientific field survey and nature observation in China. We use the collection object of Biotracks to link the data collected in the field to the digital collection system of the herbarium. Users in the wild can quickly record the information on mobile phone and then apply these data to specimen digitization. This new method improves the transcription efficiency and accuracy of all steps: from the collecting event to specimen curation. More importantly, this method can link field photos with specimen data naturally, which means those the color, behavior, three-dimensional structure, environment and other information that the traditional specimens are difficult to display, and now can be presented to the researchers. This not only expands the value of traditional specimens, but also hopes to extend the time and space of specimen identification and discussion in the future. In addition, the potential of citizen science in solving the problem of herbarium also provides a new perspective for us to re-examine the scientific value of herbarium.
Key words: Biotracks, herbarium, specimens, specimen digitization, citizen science
標(biāo)本數(shù)字化支持了諸如 GBIF(http://www.gbif.org/)、NSII(http://www.nsii.org.cn/)、 iDigBio(https://www.idigbio.org/)等全球和國(guó)家尺度的生物多樣性信息平臺(tái)以及各類標(biāo)本館和區(qū)域尺度的標(biāo)本數(shù)據(jù)庫(kù)建設(shè)。這些富集的數(shù)據(jù)結(jié)合涌現(xiàn)的新技術(shù)(尤其是信息技術(shù)和測(cè)序技術(shù))進(jìn)一步促進(jìn)了各類新應(yīng)用、新研究的快速發(fā)展(Soltis, 2017; Morrison et al., 2017; Willis et al., 2017a; James et al., 2018),并為我們?cè)跁r(shí)空尺度上探究生物之間的宏觀聯(lián)系及其微觀機(jī)理帶來了全新的視角和模式。同時(shí),標(biāo)本的數(shù)字化也促進(jìn)和支持了生物多樣性信息學(xué)這門新興學(xué)科的誕生和發(fā)展(王利松等,2010)并使其在全球、地區(qū)和國(guó)家尺度的標(biāo)本數(shù)據(jù)整合、共享與利用等方面發(fā)揮了重要作用。
然而,相比迅速發(fā)展的標(biāo)本數(shù)據(jù)整合與分享,標(biāo)本館收集標(biāo)本的方式和流程卻鮮有變化(Schindel & Cook, 2018)。雖然目前也有一些現(xiàn)代的技術(shù)和方法被采用,比如使用GPS 記錄地理坐標(biāo)與海拔、使用條形碼標(biāo)識(shí)標(biāo)本、采用數(shù)據(jù)庫(kù)管理標(biāo)本,將分子材料納入采集保藏職能等,但是標(biāo)本收集流程中固有的缺陷仍然未能得到有效解決(Daru et al., 2017; 徐洲鋒,2018),這包括:(1)許多標(biāo)本的信息不完整,導(dǎo)致標(biāo)本價(jià)值受限(如采集人、采集時(shí)間、采集地點(diǎn)等關(guān)鍵信息的缺失);(2)不同來源的標(biāo)本,數(shù)據(jù)差異較大,致使數(shù)據(jù)整合困難;(3)一些宏觀信息難以在標(biāo)本中得到準(zhǔn)確保存(如花的顏色、分枝的角度等);(4)各種原因造成的數(shù)據(jù)偏差(如錯(cuò)誤的日期、坐標(biāo)值和拉丁名拼寫);(5)重復(fù)且低效的標(biāo)本數(shù)據(jù)轉(zhuǎn)錄;(6)緩慢的標(biāo)本鑒定與討論。針對(duì)這些缺陷,也有一些解決方案,如盡可能地標(biāo)準(zhǔn)化傳統(tǒng)標(biāo)本收集流程的各個(gè)環(huán)節(jié);開發(fā)定制化的標(biāo)本數(shù)字化系統(tǒng)(Gries et al., 2014);采用新設(shè)備和新技術(shù)生產(chǎn)數(shù)字標(biāo)本(Drinkwater et al., 2014)。這些工作確實(shí)可以從各個(gè)環(huán)節(jié)提升標(biāo)本收集的效率和品質(zhì),但其本質(zhì)上仍然屬于對(duì)傳統(tǒng)標(biāo)本收集流程的優(yōu)化,因此很難從體系上徹底解決上述問題。
當(dāng)然,這并不意味著原有的標(biāo)本收集流程是錯(cuò)誤的。事實(shí)上它至今仍然能夠很好地滿足傳統(tǒng)分類學(xué)的需要。只是由于學(xué)科的發(fā)展,新的研究方法和研究?jī)?nèi)容對(duì)標(biāo)本資源,特別是對(duì)標(biāo)本的數(shù)字化資源提出了新的要求,比如需要更精準(zhǔn)的位置信息、能夠很好地執(zhí)行數(shù)據(jù)聚合、需要穩(wěn)定持久的標(biāo)識(shí)、便于分享與利用等(Vissers et al., 2017; Hobern et al., 2019),而原有的模式卻很難適應(yīng)這些新的需求。通過公眾科學(xué)解決這些問題是目前領(lǐng)域研究的發(fā)展趨勢(shì),比如讓博物館(標(biāo)本館)支持業(yè)余科學(xué)家的成長(zhǎng)和發(fā)展,招募志愿者參與博物館(標(biāo)本館)的野外調(diào)查,通過眾包轉(zhuǎn)錄和審核數(shù)字標(biāo)本(Sforzi et al., 2018)。這些嘗試很大程度上展示出了公眾科學(xué)在博物館生物多樣性研究中的巨大潛質(zhì)。然而這些工作之間尚未相互構(gòu)成體系,因此還不能從整體上重塑標(biāo)本的收集流程。對(duì)此,本文基于 Biotracks公眾科學(xué)平臺(tái)構(gòu)建并實(shí)踐了一種新型的標(biāo)本收集模式,該模式可以提高植物標(biāo)本收集的效率和品質(zhì),并有望系統(tǒng)地解決傳統(tǒng)標(biāo)本館收集流程中的諸多缺陷。同時(shí)結(jié)合 Biotracks,本研究還簡(jiǎn)要闡述了根植于公眾發(fā)展標(biāo)本館的必要性,以及標(biāo)本館應(yīng)用公眾科學(xué)的一些思路,以期為國(guó)內(nèi)同行拋磚引玉。
1 材料與方法
1.1 數(shù)據(jù)標(biāo)準(zhǔn)
Biotracks 是由中國(guó)科學(xué)院昆明植物研究所開發(fā)的一款開放免費(fèi)的自然觀察類公眾科學(xué)應(yīng)用,該應(yīng)用可以幫助用戶組織自然觀察項(xiàng)目,記錄戶外生物物種信息。它可以根據(jù)不同的任務(wù)需求定制相應(yīng)的數(shù)據(jù)模板。對(duì)于標(biāo)本采集,我們遵循DarwinCore(http://rs.tdwg.org/dwc/)定義了14個(gè)核心字段(表1)。顯然這 14 個(gè)字段并不能覆蓋完整的標(biāo)本記錄信息(比如缺少行政區(qū)劃、鑒定人、鑒定時(shí)間、科、屬等等),但其他必要的信息一般都可以根據(jù)這些字段的值以及用戶的ID由 Biotracks 自動(dòng)推斷生成和補(bǔ)充。這樣的設(shè)計(jì)可以讓用戶錄入最少的內(nèi)容,實(shí)現(xiàn)最大的信息完整性。同時(shí),基于這些核心字段,我們還為不同分類群分別定義了一套性狀描述屬性,這些屬性,會(huì)被定義為一種形似字段的數(shù)據(jù)庫(kù)虛擬列(https://dev.mysql.com/doc/refman/5.7/en/json.html),并以 JSON 對(duì)象的形式存儲(chǔ)在dynamicProperties 核心字段下。對(duì)于用戶而言這些屬性與其他字段無異,但卻能極大地簡(jiǎn)化和統(tǒng)一不同類群的數(shù)據(jù)模板設(shè)計(jì),并提高應(yīng)用適配的靈活性。
1.2 Biotracks客戶端簡(jiǎn)介
Biotracks 目前擁有 WEB 端(http://www.biotracks.cn)、Android 版和 IOS 版(下載地址:http://www.biotracks.cn/app/biotracks)和微信小程序版(圖1)。本研究中,我們使用 Biotracks 手機(jī)客戶端記錄標(biāo)本的采集信息,使用 Biotracks WEB 端進(jìn)行數(shù)據(jù)的管理和下載。為了保證 APP 能夠徹底地替代紙媒或電子表格記錄,Biotracks 手機(jī)客戶端專門為植物標(biāo)本的采集記錄做了以下一些適配和優(yōu)化。
1.2.1 定制專用記錄模版 我們根據(jù)擬定的數(shù)據(jù)標(biāo)準(zhǔn)制定了 Biotracks 的標(biāo)本采集記錄模版。
1.2.2 自動(dòng)記錄關(guān)鍵信息 APP 能夠自動(dòng)記錄觀察對(duì)象的地理坐標(biāo)、海拔、發(fā)現(xiàn)時(shí)間、記錄編號(hào)等信息,且這一過程并不需要網(wǎng)絡(luò)的支持。同時(shí),APP 在有網(wǎng)絡(luò)狀態(tài)下還可以利用地理坐標(biāo)解析獲得結(jié)構(gòu)化的地址信息。
1.2.3 快速錄入物種學(xué)名 APP 用戶通過網(wǎng)絡(luò)可以使用中文俗名、俗名拼音、拉丁名等字符檢索到逾百萬(wàn)條的全球植物、菌物、鳥類、魚類以及中國(guó)兩棲、爬行和哺乳動(dòng)物的拉丁名以供使用;而在無網(wǎng)絡(luò)環(huán)境下,用戶也可以通過 APP 內(nèi)置的十萬(wàn)多條中國(guó)生物物種名稱庫(kù)檢索所需要的拉丁名,以滿足國(guó)內(nèi)大多數(shù)離線場(chǎng)景下的學(xué)名錄入需求。
1.2.4 支持AI 輔助鑒定 APP 的人工智能圖像識(shí)別引擎會(huì)嘗試識(shí)別所拍攝的物種照片,并推薦可能的拉丁名以供用戶參考使用。
1.2.5 高效的人機(jī)交互 為了保證手機(jī)操作的便捷性,Biotracks APP 的記錄界面做了大量的人機(jī)交互優(yōu)化,這包括:(1)界面中每個(gè)字段所處的位置都會(huì)被仔細(xì)考量,以盡可能降低信息錄入時(shí)手指劃動(dòng)的范圍(比如通常情況下APP 會(huì)自動(dòng)寫入海拔、地理坐標(biāo)等信息,這些無需人工錄入的字段就會(huì)被放置在錄入界面的后部,以減少干擾);(2)不同的字段會(huì)選擇不同的錄入方式,不同字段的內(nèi)容錄入還會(huì)輔以不同的快捷鍵,以盡可能簡(jiǎn)化錄入操作(比如有些字段會(huì)采用下拉選項(xiàng)寫入文本,有些字段會(huì)直接調(diào)用數(shù)字鍵盤鍵入數(shù)字,而有些字段則可以直接通過“復(fù)制”快捷鍵復(fù)制上一條記錄的內(nèi)容);(3)對(duì)于一些內(nèi)容比較穩(wěn)定的字段,APP 會(huì)自動(dòng)復(fù)用上一條記錄的內(nèi)容,以減少人工操作(比如同一次采集活動(dòng)中,采集人員的姓名大部分情況下是不會(huì)改變的,記錄模版會(huì)自動(dòng)將上一條記錄的采集人員信息寫入下一條記錄)。
1.2.6 數(shù)據(jù)安全的保障 為了防止因用戶手機(jī)丟失、損壞、更換導(dǎo)致的數(shù)據(jù)遺失。手機(jī) APP 記錄的所有數(shù)據(jù)都可以在有網(wǎng)絡(luò)的情況下上傳至 Biotracks 云端。用戶可以通過個(gè)人賬戶登錄 Biotracks 訪問、編輯、下載這些數(shù)據(jù)。如果用戶更換了手機(jī),云端的數(shù)據(jù)也會(huì)加載到新手機(jī)的 APP 之中。
借助以上方案,Biotracks 不僅大幅減少了人工記錄的內(nèi)容、降低了用戶界面 (user interface, UI) 的復(fù)雜度,還統(tǒng)一了各個(gè)類群的數(shù)據(jù)記錄標(biāo)準(zhǔn),從而為標(biāo)本數(shù)據(jù)的跨類群、跨平臺(tái)整合提供了良好的基礎(chǔ)。本研究主要針對(duì)植物標(biāo)本的采集,因此使用植物相關(guān)的模板進(jìn)行數(shù)據(jù)的記錄。
1.3 數(shù)據(jù)采集
使用 Biotracks 執(zhí)行標(biāo)本采集信息的記錄,需要首先在手機(jī) APP 上建立一個(gè)標(biāo)本采集項(xiàng)目,這個(gè)項(xiàng)目可以是公開的(公共項(xiàng)目,所有用戶可見可加入)、部分可見的(團(tuán)隊(duì)項(xiàng)目,只有創(chuàng)建者才能邀請(qǐng)人員加入)或者私密的(私人項(xiàng)目, 只有創(chuàng)建者可以使用)。加入項(xiàng)目的成員會(huì)使用一致的數(shù)據(jù)模板記錄標(biāo)本采集信息。采集標(biāo)本時(shí),記錄者需要先預(yù)設(shè)第一條記錄的采集人、采集號(hào)樣式及其起始序號(hào)等通用信息。后續(xù)記錄會(huì)自動(dòng)寫入上一條記錄中需要復(fù)用的信息,并能依據(jù)預(yù)設(shè)的編號(hào)按序編排采集號(hào)。當(dāng)用戶在標(biāo)本采集的現(xiàn)場(chǎng)記錄信息時(shí),APP 會(huì)默認(rèn)寫入當(dāng)前的海拔、經(jīng)緯度和時(shí)間信息,用戶也可以手動(dòng)編輯這些信息,或者通過所拍攝的現(xiàn)場(chǎng)照片重置這些信息(若照片有GPS坐標(biāo),用戶可以使用照片的GPS坐標(biāo)覆寫當(dāng)前坐標(biāo)數(shù)值,這對(duì)于基于照片后補(bǔ)采集記錄非常有用)。記錄時(shí),手機(jī)拍攝的照片會(huì)與采集信息直接綁定,同時(shí) AI 引擎還會(huì)識(shí)別所拍攝的照片,并給出物種的鑒定參考,用戶可以直接使用或修改機(jī)器推薦的鑒定 (使用 Biotracks APP 記錄標(biāo)本采集信息的詳細(xì)說明請(qǐng)見https://mp.weixin.qq.com/s/daQRSbAA9sRX1T5FNfIOkQ)。
1.4 數(shù)據(jù)的編輯與整合
標(biāo)本采集活動(dòng)通常會(huì)由多人或多個(gè)隊(duì)伍組成,其中每個(gè)成員的工作必然會(huì)各有側(cè)重。比如一些成員擅長(zhǎng)鑒定,另外一些負(fù)責(zé)攝影,還有一些需要負(fù)責(zé)材料的處理與標(biāo)記。在傳統(tǒng)模式下,這種零散而又各自相關(guān)的工作很難實(shí)現(xiàn)跨時(shí)空的作業(yè)配合,整合這些工作產(chǎn)生的數(shù)據(jù)更是相當(dāng)困難。通過 Biotracks 的項(xiàng)目協(xié)同功能則能有效地解決這一問題。比如實(shí)際的標(biāo)本采集活動(dòng)中,采集信息的整理通常會(huì)是一個(gè)相對(duì)滯后的工作,而 Biotracks 則可以將項(xiàng)目?jī)?nèi)每個(gè)成員記錄的采集信息通過網(wǎng)絡(luò)匯總到云端,以供所有成員在電腦和手機(jī)端瀏覽和編輯。同時(shí),一些成員作出的鑒定,也可以通過云端傳遞給其他成員參考或使用,而每個(gè)成員對(duì)于數(shù)據(jù)的編輯和補(bǔ)充,同樣也會(huì)及時(shí)反饋到云端。這種通過信息共享連接線下與線上作業(yè)的協(xié)同模式,能夠?qū)㈨?xiàng)目數(shù)據(jù)的最新狀態(tài)充分整合到云端并同步到手機(jī) APP 內(nèi),從而讓原本獨(dú)立、分散的個(gè)體工作,聯(lián)結(jié)成可以協(xié)作互助的動(dòng)態(tài)網(wǎng)絡(luò)(圖2)。
1.5 連接館藏?cái)?shù)字標(biāo)本
Biotracks記錄的采集信息可以被導(dǎo)出為符合 Darwin Core(http://rs.tdwg.org/dwc/)規(guī)范的 Excel 數(shù)據(jù)表。這些 Excel 數(shù)據(jù)表既可以被用于紙質(zhì)標(biāo)簽的打印,也可以被導(dǎo)入到標(biāo)本館的數(shù)據(jù)庫(kù)中作為標(biāo)本數(shù)字化的基礎(chǔ)資料,以避免標(biāo)簽信息被二次轉(zhuǎn)錄。此外,數(shù)據(jù)表中的 associateMedia 字段還記錄了標(biāo)本的野外照片地址,標(biāo)本數(shù)字化系統(tǒng)可以借此實(shí)現(xiàn)數(shù)字標(biāo)本和標(biāo)本原生照片的自然整合。
標(biāo)本館的數(shù)字化系統(tǒng)需要依據(jù) Biotracks 采集信息的數(shù)據(jù)規(guī)范做一些技術(shù)適配,才可以導(dǎo)入 Biotracks 的數(shù)據(jù)表。我們專門為此開發(fā)了一套專業(yè)的數(shù)字標(biāo)本館內(nèi)容管理系統(tǒng)(Content Management System, CMS):Kingdonia 數(shù)字標(biāo)本館系統(tǒng)(徐洲鋒,2018)。該系統(tǒng)高度適配了 Biotracks 的數(shù)據(jù)標(biāo)準(zhǔn)和接口協(xié)議,可以直接通過互聯(lián)網(wǎng)調(diào)用存儲(chǔ)在 Biotracks 中的采集信息以提升標(biāo)本數(shù)字化的效率(圖3)。此外,Kingdonia 系統(tǒng)還支持獨(dú)立部署和管理,系統(tǒng)能夠在線獲得升級(jí),并可以根據(jù)不同標(biāo)本館的館藏類群和作業(yè)模式進(jìn)行定制開發(fā),因此可以被用于對(duì)數(shù)據(jù)的權(quán)屬以及管理都有較高要求的標(biāo)本館(博物館)。
1.6 效率評(píng)估
Kingdonia 系統(tǒng)支持多種標(biāo)本數(shù)字化模式,工人既可以按照傳統(tǒng)方式對(duì)照標(biāo)本標(biāo)簽轉(zhuǎn)錄數(shù)字標(biāo)本,也可以從 Biotracks 調(diào)取數(shù)據(jù)以用于數(shù)字標(biāo)本的轉(zhuǎn)錄。為了評(píng)估這兩種模式的轉(zhuǎn)錄效率差異,我們從 Kingdonia 系統(tǒng)中導(dǎo)出了昆明植物研究所標(biāo)本館(KUN)兩位工人的標(biāo)本轉(zhuǎn)錄日志,該日志記錄了每一份標(biāo)本開始轉(zhuǎn)錄和結(jié)束轉(zhuǎn)錄的時(shí)間,因此可以被用于標(biāo)本轉(zhuǎn)錄效率的量化分析。
不同標(biāo)本的轉(zhuǎn)錄效率是不一致的,為了減少標(biāo)本因素的影響,我們盡可能提取兩位工人相鄰時(shí)間的轉(zhuǎn)錄日志,以確保不同工人轉(zhuǎn)錄的標(biāo)本,其性質(zhì)盡可能接近。每位工人的日志又會(huì)被分為人工轉(zhuǎn)錄的標(biāo)本(I 類樣本)和調(diào)用 Biotracks 數(shù)據(jù)轉(zhuǎn)錄的標(biāo)本(Ⅱ類樣本),最終根據(jù)人員不同總共可獲得 A-I、A-Ⅱ、B-Ⅱ、B-Ⅱ 4組樣本(A、B指代不同的工人)。每組樣本都可以根據(jù)標(biāo)本的開始轉(zhuǎn)錄時(shí)間和結(jié)束轉(zhuǎn)錄時(shí)間計(jì)算出每份標(biāo)本的轉(zhuǎn)錄時(shí)長(zhǎng),由于這些標(biāo)本都是在日常工作中被自然轉(zhuǎn)錄,因此會(huì)存在一些轉(zhuǎn)錄時(shí)長(zhǎng)明顯脫離實(shí)際的標(biāo)本(比如工人在轉(zhuǎn)錄的中途開始休息,或者臨時(shí)有事打斷了原有的轉(zhuǎn)錄工作都可以造成標(biāo)本轉(zhuǎn)錄時(shí)間被延長(zhǎng))。根據(jù)經(jīng)驗(yàn),我們將各組中轉(zhuǎn)錄耗時(shí)最長(zhǎng)的前 10% 的標(biāo)本作為無效值排除,剩下的標(biāo)本作為可評(píng)估樣本參與量化分析。
對(duì)于可評(píng)估樣本,需要計(jì)算出每組樣本中標(biāo)本轉(zhuǎn)錄時(shí)長(zhǎng)的中位數(shù)、上下四分位數(shù)、上限、下限、平均值,其中上限采用上四分位數(shù)加 1.5 倍四分位距獲得,下限采用下四分位數(shù)減 1.5 倍四分位距獲得。然后對(duì)每組樣本做箱體圖進(jìn)行比較分析。
2 結(jié)果與分析
2.1 Biotracks在植物標(biāo)本采集活動(dòng)中的推廣效果
Biotracks的構(gòu)想始于2013 年,并于2014年底與 Kingdonia 系統(tǒng)同步開始實(shí)施。整個(gè)平臺(tái)于 2016 年 9 月對(duì)外正式上線了首個(gè) WEB 端(http://www.kib.cas.cn/xwzx/zhxw/201609/t20160907_4659604.html),于2017年 9 月發(fā)布了首個(gè)手機(jī)版本(http://www.kib.cas.cn/xwzx/zhxw/201709/t20170901_4854058.html)。后經(jīng)若干年的發(fā)展,目前 Biotracks 共有注冊(cè)用戶 16 987 名,這些用戶總共記錄了200 多萬(wàn)張的物種照片、60萬(wàn)條的物種觀察記錄,其中近 23萬(wàn)條為植物標(biāo)本的采集記錄,有關(guān) Biotracks 的用戶、物種觀察記錄、圖片、植物標(biāo)本采集記錄的增長(zhǎng)趨勢(shì)如圖4所示。
對(duì) Biotracks 的用戶群體進(jìn)行分析,可以發(fā)現(xiàn)在與標(biāo)本館直接相關(guān)的用戶中,比較有代表性的群體主要來自中國(guó)科學(xué)院。其中,表2列出了目前用戶最多的前 15 個(gè)中國(guó)科學(xué)院下屬機(jī)構(gòu),可以看出主要是一些與動(dòng)植物相關(guān)的研究所和植物園。這些機(jī)構(gòu)內(nèi)的植物標(biāo)本館不僅各具區(qū)域特色,而且其館藏標(biāo)本的總量甚至占據(jù)了中國(guó)過半的植物標(biāo)本儲(chǔ)量(賀鵬等,2021)。目前Biotracks已被昆明植物研究所標(biāo)本館(KUN)、華南植物園標(biāo)本館(IBSC)、西雙版納熱帶植物園標(biāo)本館(HITBC)、成都生物研究所標(biāo)本館(CDBI)、新疆生態(tài)與地理研究所標(biāo)本館(XJBI)、南京中山植物園標(biāo)本館(NAS)等單位所采用,這些機(jī)構(gòu)不僅將 Biotracks 應(yīng)用到了日常的標(biāo)本采集活動(dòng)中,還將 Kingdonia 數(shù)字標(biāo)本館系統(tǒng)引入到館藏標(biāo)本的管理之中,從而形成了完整的應(yīng)用體系 (http://www.kib.ac.cn/xwzx/zhxw/201912/t20191231_5479319.html)。
此外,高校則是 Biotracks 目前用戶群體中最大的單一來源。Biotracks 有超過 100 多所高校的用戶(表2列出了用戶最多的 15 所高等院校),這些用戶既使用 Biotracks 進(jìn)行野外科考,也會(huì)使用 Biotracks 引導(dǎo)學(xué)生進(jìn)行標(biāo)本的采集和物種的觀察記錄,Biotracks 的項(xiàng)目統(tǒng)計(jì)則可以將每個(gè)學(xué)生的實(shí)際貢獻(xiàn)反饋給老師作為評(píng)估實(shí)習(xí)效果的參考。
在實(shí)際應(yīng)用中,Biotracks 的標(biāo)本采集項(xiàng)目可涉及生物多樣性調(diào)查的各個(gè)方面,表 3 列出了一些具有代表性的標(biāo)本采集項(xiàng)目,這些項(xiàng)目涉及自然保護(hù)區(qū)的本底資源調(diào)查、各種區(qū)域尺度的生物多樣性編目、特定生物類群的調(diào)查、植物志編纂、植物種質(zhì)資源的采集、中藥普查等等。此外,第二次青藏高原科學(xué)考察·植物多樣性的調(diào)查還將 Biotracks 作為植物標(biāo)本采集的推薦應(yīng)用進(jìn)行了推廣。應(yīng)該說,Biotracks 在國(guó)內(nèi)植物標(biāo)本的采集活動(dòng)中,目前已經(jīng)被領(lǐng)域廣泛接納和使用。
2.2 植物標(biāo)本的數(shù)字化
我們通過對(duì) Kingdonia 系統(tǒng)的日志文件進(jìn)行分析,獲得了圖 5 所示的昆明植物研究所標(biāo)本館(KUN)兩位工人的標(biāo)本轉(zhuǎn)錄效率箱體圖。通過箱體圖,可以發(fā)現(xiàn)相對(duì)于人工轉(zhuǎn)錄,調(diào)用 Biotracks 數(shù)據(jù)轉(zhuǎn)錄標(biāo)本顯示出了以下3個(gè)優(yōu)勢(shì)。
2.2.1 標(biāo)本轉(zhuǎn)錄的效率明顯更高 A、B 工人轉(zhuǎn)錄 I 類樣本的平均時(shí)長(zhǎng)分別為336、389 s,A、B 工人轉(zhuǎn)錄Ⅱ類樣本的平均時(shí)長(zhǎng)分別為 117、124 s。A、B 工人在Ⅱ類樣本中,標(biāo)本的平均轉(zhuǎn)錄時(shí)長(zhǎng)都明顯低于 I 類標(biāo)本,兩位工人都有近3倍的轉(zhuǎn)錄效率提升。
2.2.2 工人的表現(xiàn)更加穩(wěn)定 A、B 工人轉(zhuǎn)錄 I 類樣本的上下限分布范圍明顯更大,四分位距也更長(zhǎng),中位數(shù)與平均值的偏差相對(duì)更大,說明工人在轉(zhuǎn)錄 I 類樣本時(shí),表現(xiàn)并不穩(wěn)定,有些標(biāo)本需要耗費(fèi)較長(zhǎng)的時(shí)間才能完成轉(zhuǎn)錄,有些則可以很快地完成轉(zhuǎn)錄;而A、B工人在轉(zhuǎn)錄Ⅱ類樣本時(shí),其轉(zhuǎn)錄時(shí)長(zhǎng)的波動(dòng)范圍要顯著小于I類樣本。這個(gè)結(jié)果其實(shí)可以預(yù)見。人工轉(zhuǎn)錄標(biāo)本所需要的時(shí)長(zhǎng),往往是和標(biāo)本標(biāo)簽上的內(nèi)容多少、字跡辨識(shí)的難易程度直接相關(guān),因此單份標(biāo)本的轉(zhuǎn)錄時(shí)長(zhǎng)會(huì)有很大的差異,而調(diào)用 Biotracks 數(shù)據(jù)轉(zhuǎn)錄標(biāo)本,絕大部分的標(biāo)簽內(nèi)容并不需要人工轉(zhuǎn)錄, 因此受標(biāo)簽內(nèi)容性質(zhì)的影響較小,個(gè)人轉(zhuǎn)錄效率的波動(dòng)自然更小。
2.2.3 不同工人之間的轉(zhuǎn)錄效率差異更小 A、B 工人轉(zhuǎn)錄 I 類樣本的平均時(shí)長(zhǎng)為 336、389 s,時(shí)差為 53 s;A、B 工人轉(zhuǎn)錄Ⅱ類樣本的平均時(shí)長(zhǎng)分別為 117、124 s,時(shí)差為 7 s。顯然在處理Ⅱ類樣本時(shí),A、B 兩位工人之間的耗時(shí)差異不如 I 類樣本顯著。究其原因,可能是因?yàn)閷?duì)于Ⅱ類樣本,工人大多數(shù)時(shí)間只是在核對(duì)所調(diào)用的數(shù)據(jù)與標(biāo)簽內(nèi)容是否一致,而不用對(duì)照標(biāo)本標(biāo)簽親自轉(zhuǎn)錄文本,對(duì)于不同的標(biāo)簽內(nèi)容,單純地核對(duì)文本內(nèi)容可能要比手工轉(zhuǎn)錄相應(yīng)的內(nèi)容更為簡(jiǎn)單,由此使得不同工人之間的轉(zhuǎn)錄效率差異會(huì)更小。
2.3 標(biāo)本信息維度的擴(kuò)展
Biotracks 可以拍攝標(biāo)本的原生照片并將其與采集信息直接綁定,數(shù)據(jù)同步至云端之后,照片的網(wǎng)絡(luò)地址會(huì)被寫入采集信息的 associatedMedia 字段內(nèi),類似 Kingdonia 這樣的數(shù)字標(biāo)本館系統(tǒng)在調(diào)取 Biotracks 的采集記錄時(shí),就可以將這些照片一并提取并與相應(yīng)的數(shù)字標(biāo)本形成關(guān)聯(lián),從而使得傳統(tǒng)標(biāo)本原本很難呈現(xiàn)的顏色、行為、立體結(jié)構(gòu)、環(huán)境等原生信息,現(xiàn)在都可以通過數(shù)字標(biāo)本被展現(xiàn)在研究者面前(圖 6)。
實(shí)現(xiàn)上述過程,采集者和標(biāo)本館并不需要為此增加額外的工作量。但在傳統(tǒng)的標(biāo)本采集流程中,野外照片通常會(huì)被每個(gè)采集隊(duì)員保存在各自的電腦或移動(dòng)硬盤內(nèi),如果需要將這些照片和最終的數(shù)字標(biāo)本形成關(guān)聯(lián),就需要耗費(fèi)大量的人力和時(shí)間用于照片的梳理、編號(hào)、匯總和匹配。顯然這些工作并不是每個(gè)采集者都可以做到,更多的時(shí)候這些照片也不會(huì)被提交至標(biāo)本館,由此可見在原有的工作流程下,希望依靠人力去完成數(shù)據(jù)的關(guān)聯(lián)本身就是非常困難的。而 Biotracks 確實(shí)為此提供了一種實(shí)用自然的方案,可以有效解決這一問題。
3 討論與結(jié)論
3.1 Biotracks為何可以獲得廣泛應(yīng)用?
針對(duì)標(biāo)本的采集,在 Biotracks 正式發(fā)布前后其實(shí)也有一些類似的開放應(yīng)用出現(xiàn),比如collNotes、ColectoR等(Maya-Lastra, 2016; Powell et al., 2019)。然而,這些應(yīng)用卻沒有像 Biotracks 這樣被廣泛使用。究其原因,手機(jī)作為一種新的記錄載體,其實(shí)是有一些先天劣勢(shì)。例如:(1)屏幕狹小使得交互空間過于局促,進(jìn)而會(huì)對(duì)瀏覽和編輯信息的體驗(yàn)和效率造成不良影響;(2)手機(jī)體型更小,雖然方便攜帶,但也更容易損壞或丟失,從而影響數(shù)據(jù)安全;(3)智能手機(jī)續(xù)航有限,自身電量通常難以維持長(zhǎng)時(shí)間的戶外使用;(4)相較于紙和筆,智能手機(jī)的操作仍然有一定的門檻,因此并不是所有人都會(huì)接受或適應(yīng)這一記錄方式。
這些缺點(diǎn)中的(3)和(4)可以通過攜帶移動(dòng)電源和加強(qiáng)用戶培訓(xùn)予以改善,因此最終真正影響用戶是否選擇手機(jī)記錄的主要因素還是在于(1)和(2)所述的便捷性和安全性。而這兩點(diǎn)恰好是軟件優(yōu)化能夠予以充分解決的。通過自動(dòng)寫入、信息復(fù)用、交互設(shè)計(jì)、AI 輔助、字段集最小化等多種措施,Biotracks 有效保障了手機(jī) APP 記錄的便捷性。而借助網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行及時(shí)同步則可以最大限度地保障數(shù)據(jù)的安全性。
在此基礎(chǔ)上,Biotracks 還有紙質(zhì)記錄或電子表格難以彌補(bǔ)的優(yōu)勢(shì),這包括:(1)使用 Biotracks 不僅可以直接生成電子數(shù)據(jù),還可以不依賴于網(wǎng)絡(luò)和其他外置設(shè)備,寫入準(zhǔn)確的拉丁名以及非常精確的地理坐標(biāo)、海拔高度、觀測(cè)時(shí)間等信息;(2)智能手機(jī)能夠直接使用移動(dòng)運(yùn)營(yíng)商提供的3G、4G、5G等網(wǎng)絡(luò)服務(wù),因此可以最大限度地利用互聯(lián)網(wǎng)增強(qiáng)用戶在戶外環(huán)境中的信息獲取能力,比如 Biotracks 的地址解析、AI 鑒定、在線地圖、項(xiàng)目熱力圖都屬于網(wǎng)絡(luò)服務(wù),這些服務(wù)不僅提高了記錄的完整性,還增強(qiáng)了用戶對(duì)外界信息的實(shí)時(shí)感知能力,進(jìn)而能夠提升野外采集工作的品質(zhì)和效率;(3)手機(jī)非常便攜,用戶幾乎隨身攜帶,這使得互聯(lián)網(wǎng)能夠?qū)⒚總€(gè)用戶更緊密地連接起來,實(shí)現(xiàn)更加精細(xì)的分工協(xié)作;(4)最小化的輸入和標(biāo)準(zhǔn)化的輸出,可以最大限度地保證數(shù)據(jù)的規(guī)范性和一致性,由 Biotracks 生成的數(shù)據(jù)表,字段歧義性更小,值和結(jié)構(gòu)更加規(guī)范,可以一次生成,多處重用,因此能夠大幅降低數(shù)據(jù)整合和利用的難度。
綜上所述,Biotracks 不僅克服了手機(jī)記錄的缺點(diǎn),而且進(jìn)一步發(fā)揮了手機(jī)這一載體的優(yōu)勢(shì)。使用 Biotracks 進(jìn)行植物標(biāo)本的采集,既能夠便捷、準(zhǔn)確、完整地記錄信息,也可以保證數(shù)據(jù)規(guī)范、一致和安全,同時(shí)還實(shí)現(xiàn)了更加精細(xì)、動(dòng)態(tài)、系統(tǒng)的分工協(xié)作,最終使得標(biāo)本的采集工作更為省時(shí)、省力、省心。
3.2 Biotracks 為植物標(biāo)本的收集建立了一種新的工作流程
除了滿足一線工作者信息記錄的需求,Biotracks 還能夠深度參與從采集任務(wù)規(guī)劃、標(biāo)本采集到數(shù)據(jù)的整合、感知、協(xié)作、管理,乃至最終標(biāo)本的數(shù)字化,這一整條標(biāo)本收集流程中各個(gè)環(huán)節(jié)的優(yōu)化和重塑(圖7)。在規(guī)劃采集時(shí),用戶可以根據(jù)實(shí)際需要,建立 Biotracks 虛擬項(xiàng)目,不同采集可以被創(chuàng)建為不同的項(xiàng)目,同一個(gè)成員也可以加入多個(gè)不同的項(xiàng)目。在采集標(biāo)本時(shí),Biotracks 可以記錄采集信息,并把相應(yīng)的數(shù)據(jù)和文件同步至云端。之后,每個(gè)成員記錄的數(shù)據(jù)會(huì)被自動(dòng)整合到相應(yīng)的項(xiàng)目?jī)?nèi),成員可以在項(xiàng)目?jī)?nèi)分工合作,項(xiàng)目統(tǒng)計(jì)功能會(huì)實(shí)時(shí)統(tǒng)計(jì)每個(gè)成員的貢獻(xiàn),項(xiàng)目地圖則可以將整合的數(shù)據(jù)繪制為熱力圖,這些功能能夠?qū)⑷蝿?wù)的最新進(jìn)展傳達(dá)給成員,成員則可以借助它更好地規(guī)劃下一步的工作。而在數(shù)據(jù)管理方面,Biotracks 支持為不同成員設(shè)置不同的數(shù)據(jù)管理權(quán)限,整合的數(shù)據(jù)可以被批量下載后提交給標(biāo)本館,標(biāo)本館也可以直接通過 Biotracks 的授權(quán)接口主動(dòng)調(diào)取采集信息,然后應(yīng)用于相應(yīng)的標(biāo)本數(shù)字化。
通過信息化的手段和體系化的設(shè)計(jì),Biotracks 不僅可以自然地融入標(biāo)本收集流程中的各個(gè)環(huán)節(jié),還很好地解決了一些傳統(tǒng)標(biāo)本收集流程中固有的問題,這包括:(1)數(shù)據(jù)規(guī)范難以被徹底地貫徹(Biotracks 采用了統(tǒng)一的數(shù)據(jù)模板記錄數(shù)據(jù),字段名、值類型、值樣式都得到了很好的約束);(2)數(shù)據(jù)提交和匯總費(fèi)時(shí)費(fèi)力(Biotracks 會(huì)自動(dòng)整合項(xiàng)目成員的數(shù)據(jù),有權(quán)限的成員可以批量下載);(3)野外工作的成果和進(jìn)展不能被及時(shí)共享和感知(Biotracks 能夠?qū)㈨?xiàng)目數(shù)據(jù)共享給所有成員,同時(shí)會(huì)實(shí)時(shí)統(tǒng)計(jì)各個(gè)成員的貢獻(xiàn),還會(huì)將采集記錄繪制成熱力地圖展現(xiàn)給成員);(4)數(shù)據(jù)無法被長(zhǎng)期追蹤(Biotracks 將數(shù)據(jù)存于云端,數(shù)據(jù)的編輯和修改都可以同步更新至各個(gè)成員的最新設(shè)備之中);(5)植物標(biāo)本采集信息的數(shù)字化主要依靠人工轉(zhuǎn)錄(標(biāo)本館可以導(dǎo)入或調(diào)取 Biotracks 記錄的采集信息,避免人工二次轉(zhuǎn)錄)。
相較于傳統(tǒng)的標(biāo)本收集流程通常會(huì)按照時(shí)序依次組織各個(gè)工作環(huán)節(jié),Biotracks 所塑造的流程,則可以讓各類人員形成跨越時(shí)空的分工合作,它不僅能夠提升標(biāo)本收集過程中各個(gè)環(huán)節(jié)以及整個(gè)流程的工作效率,還能夠從根本上改變傳統(tǒng)數(shù)據(jù)的整合方式,因此應(yīng)該被視為一種新的標(biāo)本收集流程,作用于新進(jìn)標(biāo)本的收集。對(duì)于最終的標(biāo)本,該模式能夠?qū)⒃恼掌c數(shù)字標(biāo)本自然地形成關(guān)聯(lián),從而將收藏于標(biāo)本館的標(biāo)本與現(xiàn)實(shí)場(chǎng)景聯(lián)系在一起,這種影響目前我們還無法準(zhǔn)確地評(píng)估,但對(duì)科學(xué)研究而言,標(biāo)本數(shù)據(jù)一直都是生物多樣性數(shù)據(jù)的金標(biāo)準(zhǔn)(Culley, 2013),新的標(biāo)本若能以這種形式進(jìn)行大量的富集,其潛質(zhì)必將是令人期待的。
3.3 Biotracks 為國(guó)內(nèi)植物標(biāo)本館的發(fā)展帶來了公眾科學(xué)
采集者利用 Biotracks 記錄標(biāo)本采集信息,標(biāo)本館調(diào)用這些信息轉(zhuǎn)錄標(biāo)本,其中的效率提升實(shí)際上是因?yàn)闃?biāo)簽轉(zhuǎn)錄工作被分包給了各個(gè)標(biāo)本采集者。這種借助眾人力量解決科學(xué)數(shù)據(jù)甚至科學(xué)研究問題的模式,被統(tǒng)稱為公眾科學(xué)(張健等,2013;金瑛等,2019)。利用公眾科學(xué)解決標(biāo)本館的問題,其實(shí)并不罕見。比如標(biāo)本標(biāo)簽的轉(zhuǎn)錄,國(guó)外就有一些公共平臺(tái)專門幫助各類標(biāo)本館和博物館轉(zhuǎn)錄標(biāo)本標(biāo)簽 [如 Note From Nature(Hill et al., 2012)],一些博物館還會(huì)建立自己的轉(zhuǎn)錄平臺(tái)以支持公眾參與博物館藏品的標(biāo)簽轉(zhuǎn)錄(如史密森數(shù)字志愿者轉(zhuǎn)錄中心,https://transcription.si.edu),有些組織甚至?xí)榇伺e辦國(guó)際性的標(biāo)簽轉(zhuǎn)錄競(jìng)賽 [如 WeDigBio(Ellwood et al., 2018)]。然而在國(guó)內(nèi),標(biāo)本館對(duì)于公眾科學(xué)的關(guān)注、應(yīng)用和研究卻很不理想。這其實(shí)和國(guó)內(nèi)植物標(biāo)本館的發(fā)展模式有很大的關(guān)系:一方面我國(guó)的現(xiàn)代植物學(xué)如同其他科學(xué)門類一樣,屬于舶來品,因此與西方社會(huì)相比,自然博物的社會(huì)基礎(chǔ)并不好。另一方面,植物標(biāo)本館最初的價(jià)值就是收納標(biāo)本以支持標(biāo)本的研究,因此相比面向公眾的各類博物館,它與公眾的關(guān)系更為疏遠(yuǎn)。這些因素造成了國(guó)內(nèi)植物標(biāo)本館的發(fā)展一直以來都很難扎根于公眾,導(dǎo)致最終只能依附于植物分類學(xué)的發(fā)展。然而,由于《中國(guó)植物志》、Flora of China 等全國(guó)性志書已經(jīng)完成,更由于政策導(dǎo)向等諸多因素的影響,當(dāng)前中國(guó)植物分類學(xué)的境遇不太好,而與之緊密相關(guān)的植物標(biāo)本館自然也面臨著嚴(yán)峻的生存和發(fā)展問題(馬金雙,2010)。
雖然國(guó)內(nèi)植物標(biāo)本館面臨嚴(yán)峻的問題,但是它的發(fā)展機(jī)遇仍然存在。這與科學(xué)研究的總體發(fā)展趨勢(shì)有很大的關(guān)系。比如近年來標(biāo)本館的標(biāo)本數(shù)字化就受到了前所未有的重視。數(shù)字標(biāo)本作為實(shí)體標(biāo)本的延伸,起初只是方便了標(biāo)本的檢索和查閱,然而隨著數(shù)據(jù)的富集,數(shù)字標(biāo)本的價(jià)值已經(jīng)不再局限于植物分類學(xué)的研究,而是延伸至環(huán)境變化、保護(hù)生物學(xué)、群體遺傳學(xué)與基因組學(xué),甚至公共健康與安全等領(lǐng)域(Ellwood et al., 2018)。對(duì)于嚴(yán)重依賴分類學(xué)研究的傳統(tǒng)標(biāo)本館而言,這不僅擴(kuò)展了標(biāo)本館的生存基礎(chǔ),還為標(biāo)本館帶來了實(shí)實(shí)在在的經(jīng)費(fèi)支持。比如中國(guó)數(shù)字植物標(biāo)本館(CVH)每年都會(huì)支持?jǐn)?shù)十家標(biāo)本館的標(biāo)本數(shù)字化工作(劉慧圓等,2017),相應(yīng)的經(jīng)費(fèi)可能不算多,但對(duì)于極度缺乏經(jīng)費(fèi)支持的標(biāo)本館,也是雪中送炭。而數(shù)字標(biāo)本之所以有如此廣泛的科學(xué)價(jià)值,其實(shí)并非偶然。2009 年,微軟針對(duì)數(shù)據(jù)密集型科學(xué)提出了第四研究范式(Hey et al., 2009),之后的十多年,隨著智能手機(jī),3G、4G、5G 蜂窩網(wǎng)絡(luò),計(jì)算機(jī)硬件,物聯(lián)網(wǎng),云存儲(chǔ),云計(jì)算,人工智能等技術(shù)的發(fā)展,大規(guī)模數(shù)據(jù)的獲取、管理與利用能力已經(jīng)獲得了質(zhì)的飛躍(Madden, 2012; McAfee et al., 2012; Ge et al., 2018; Oussous et al., 2018)。這使得基于數(shù)據(jù)密集型的科研第四范式開始真正從理論發(fā)展轉(zhuǎn)向?qū)嵺`應(yīng)用,數(shù)據(jù)的價(jià)值因此被充分地釋放和展現(xiàn)。而標(biāo)本數(shù)據(jù)的富集和利用,正是這一趨勢(shì)下的一個(gè)實(shí)例。
因此,現(xiàn)代標(biāo)本館的科學(xué)價(jià)值不僅在于所收藏的標(biāo)本,還在于它能帶來的數(shù)據(jù)價(jià)值。與標(biāo)本館緊密相關(guān)的地面生物多樣性數(shù)據(jù)的收集、整理和利用,屬于典型的人力密集型活動(dòng),而這正是公眾科學(xué)所擅長(zhǎng)的領(lǐng)域。同時(shí),伴隨著我國(guó)公眾科學(xué)素養(yǎng)的不斷提高(何薇等,2018),以及國(guó)家層面對(duì)于生態(tài)安全與生物多樣性保護(hù)的進(jìn)一步重視(陸軍,2019),國(guó)內(nèi)開展類似公眾科學(xué)活動(dòng)的條件已經(jīng)成熟。而 Biotracks 的核心目標(biāo)之一,就是希望將各類公眾的力量,通過信息技術(shù)手段與標(biāo)本館形成對(duì)接,從而解決標(biāo)本館在大規(guī)模物種數(shù)據(jù)的收集、鑒定、提取、利用等方面所遭遇的人力和智力資源匱乏等問題。比如對(duì)于野外調(diào)查活動(dòng),標(biāo)本館可以通過 Biotracks 發(fā)布科考志愿者招募,從而解決野外調(diào)查中人力資源不足的現(xiàn)狀(http://www.biotracks.cn/activity)。對(duì)于標(biāo)本的轉(zhuǎn)錄,調(diào)用 Biotracks 數(shù)據(jù)轉(zhuǎn)錄標(biāo)本,既能提高效率,還可以降低轉(zhuǎn)錄的難度,同樣也有益于招募公眾參與標(biāo)本的數(shù)字化。而作為未來 Biotracks 的工作重心之一,類似 iNaturelist 和 Biotracks 這樣的自然觀察平臺(tái),聚集了大量的專業(yè)人員和分類學(xué)愛好者,他們對(duì)于物種的鑒定和討論也完全可以推送給與之相關(guān)的數(shù)字標(biāo)本。從而使得傳統(tǒng)標(biāo)本低效、低頻率的鑒定和討論得以改善,并最終推動(dòng)物種的鑒定和發(fā)現(xiàn)向著社區(qū)驅(qū)動(dòng)的方向發(fā)展(Heberling & Isaac, 2018)。
諸如此類的工作,其實(shí)還有很大的擴(kuò)展空間,通過 Biotracks 我們看到了公眾科學(xué)對(duì)于現(xiàn)代標(biāo)本館的價(jià)值,而在公眾科學(xué)活動(dòng)中,標(biāo)本館其實(shí)也有自己獨(dú)特的價(jià)值:(1)作為一個(gè)專業(yè)機(jī)構(gòu),它有普通個(gè)體難以比擬的號(hào)召力,這對(duì)于公眾科學(xué)的發(fā)起和組織是至關(guān)重要的;(2)標(biāo)本館可以接觸到大量的專業(yè)人員,容易和他們產(chǎn)生合作,共同開展公眾科學(xué)活動(dòng);(3)標(biāo)本館有大量的植物標(biāo)本,這些標(biāo)本的潛在價(jià)值是驚人的,借助公眾科學(xué)的手段可以深度挖掘標(biāo)本的價(jià)值,創(chuàng)作具有更高科學(xué)價(jià)值的數(shù)據(jù)產(chǎn)品,比如聯(lián)合公眾從標(biāo)本圖片上提取花期、果期等物候數(shù)據(jù)集(Willis et al., 2017b);(4)除了深挖標(biāo)本的價(jià)值,標(biāo)本館自身的專業(yè)能力和區(qū)位優(yōu)勢(shì)也應(yīng)該是構(gòu)建數(shù)據(jù)價(jià)值的重要力量,比如我們是否可以考慮將主導(dǎo)和維護(hù)特定區(qū)域和特定內(nèi)容的自然觀察數(shù)據(jù)集作為標(biāo)本館未來的核心價(jià)值之一呢?
3.4 與類似方案的比較
借助類似 Biotracks 這樣的公眾科學(xué)平臺(tái)所提供的開放應(yīng)用采集植物標(biāo)本,再將其與標(biāo)本館(博物館)的標(biāo)本收藏工作相結(jié)合,在國(guó)外也有案例可循。iNaturalist (https://www.inaturalist.org)是目前國(guó)外發(fā)展非常迅速的自然觀察平臺(tái),用戶使用 iNaturalist 的 APP 或網(wǎng)站提交物種的發(fā)現(xiàn)記錄,iNaturalist 會(huì)將這些記錄分享給用戶社區(qū)進(jìn)行交流和鑒定。2018年 11 月的一篇公開文獻(xiàn)(Heberling & Isaac, 2018)分享了 iNaturalist 針對(duì)植物標(biāo)本收集的一些拓展,總體而言與筆者之前對(duì) Biotracks 的簡(jiǎn)要說明(徐洲鋒,2018)以及在本文中進(jìn)一步描述的模式基本一致。但兩者在具體實(shí)現(xiàn)上,也有一些差異,這些差異包括以下幾個(gè)方面。
3.4.1 項(xiàng)目創(chuàng)建 iNaturalist 的標(biāo)本采集項(xiàng)目必須在網(wǎng)頁(yè)端創(chuàng)建,Biotracks的項(xiàng)目則必須在手機(jī)端創(chuàng)建;iNaturalist 對(duì)創(chuàng)建者會(huì)有一定的要求(至少有50條被驗(yàn)證的物種觀察記錄才可以創(chuàng)建項(xiàng)目),Biotracks 暫時(shí)沒有這方面的限制。
3.4.2 項(xiàng)目公開 iNaturalist 的標(biāo)本采集項(xiàng)目是對(duì)外公開的,任何用戶都可以看到和參與這個(gè)項(xiàng)目,Biotracks 則將項(xiàng)目分成了公開、團(tuán)隊(duì)、私有3種類型,不同類型有不同的開放度:iNaturalist 會(huì)將項(xiàng)目記錄開放給所有用戶瀏覽和鑒定,Biotracks 的項(xiàng)目記錄只會(huì)分享給項(xiàng)目成員。
3.4.3 數(shù)據(jù)標(biāo)準(zhǔn) iNaturalist 的標(biāo)本采集項(xiàng)目,數(shù)據(jù)模板除了核心字段之外,其他字段可由用戶自行定義;Biotracks 也支持定制,但并沒有把定制的權(quán)限交給用戶,針對(duì)不同類群,Biotracks 采取了平臺(tái)定制,用戶使用的模式,以確保數(shù)據(jù)的強(qiáng)一致性。
3.4.4 應(yīng)用重心 iNaturalist APP 更加輕量,一些關(guān)鍵信息的記錄,比如地理坐標(biāo)有賴于網(wǎng)絡(luò)或關(guān)聯(lián)圖片的支持,且 APP 目前尚不支持海拔高度的獲取,項(xiàng)目數(shù)據(jù)的統(tǒng)計(jì)分析和可視化展示也更多地集成在網(wǎng)頁(yè)端;Biotracks 手機(jī)端功能更加豐富,能夠不依賴網(wǎng)絡(luò)記錄坐標(biāo)和海拔信息,同時(shí)傾向于將更多的功能集成到移動(dòng)端,而網(wǎng)頁(yè)端的功能則相對(duì)較弱。
3.4.5 資源標(biāo)識(shí) iNaturalist 希望在自己的平臺(tái)上為每條記錄生成一個(gè)永久的 URL 鏈接,以固定標(biāo)本的引證;Biotracks 更希望將采集記錄注冊(cè)到一個(gè)開放的第三方資源標(biāo)識(shí)符平臺(tái)(如https://noi.link),以統(tǒng)一不同來源物種記錄的數(shù)字標(biāo)識(shí)符。
這些差異,有些是環(huán)境因素造成的(如iNaturalist 相比 Biotracks 更加開放,特別是與此有關(guān)的數(shù)據(jù)共享實(shí)踐要比國(guó)內(nèi)更加成熟,Biotracks 也在積極探索新的方式,以期在符合國(guó)情的情況下,盡可能促進(jìn)數(shù)據(jù)分享)。有些是由于發(fā)展理念不同造成的差異(如資源的標(biāo)識(shí),Biotracks 認(rèn)為領(lǐng)域需要有統(tǒng)一的數(shù)字標(biāo)識(shí)符,因此并不贊成平臺(tái)將自身的固定地址應(yīng)用在標(biāo)本資源上)。有些則是由各自所處的發(fā)展階段造成的(Biotracks 前期更加側(cè)重移動(dòng)端的發(fā)展,但未來也需要加強(qiáng)WEB端的能力)。但整體而言,這兩個(gè)平臺(tái)針對(duì)標(biāo)本的收集所構(gòu)建的方案可謂不謀而合。相比 iNaturalist,雖然Biotracks 的體量還非常小,但是我們也希望 Biotracks 能夠在未來中國(guó)植物標(biāo)本館的發(fā)展歷程上留下自己的身影。
參考文獻(xiàn):
CULLEY TM, 2013. Why vouchers matter in botanical research [J]. Appl Plant Sci, 1(11): 1300076.
DARU BH, PARK DS, PRIMACK RB, et al., 2017. Widespread sampling biases in herbaria revealed from large-scale digitization [J]. New Phytol, 217(2): 939-955.
DRINKWATER RE, CUBEY RWN, HASTON EM, 2014. The use of optical character recognition (OCR) in the digitisation of herbarium specimen labels [J]. PhytoKeys, 38(38): 15-30.
ELLWOOD ER, KIMBERLY P, GURALNICK R, et al., 2018. Worldwide engagement for digitizing biocollections (WeDigBio): the biocollections communitys citizen-science space on the calendar [J]. Bioscience, 68: 112-124.
GE M, BANGUI H, BUHNOVA B, 2018. Big data for internet of things: a survey [J]. Future Gener Comput Syst, 87: 601-614.
GRIES C, GILBERT E, FRANZ N, 2014. Symbiota—A virtual platform for creating voucher-based biodiversity information communities [J]. Biodivers Data J, 2: e1114.
HE W, ZHANG C, REN L, et al., 2018. Public attitudes towards and understanding of science and technology in China: Based on the results of vivic scientific literacy survey 2018 [J]. Stud Sci Popul, 13(77): 51-60. [何薇, 張超, 任磊, 等, 2018. 中國(guó)公民的科學(xué)素質(zhì)及對(duì)科學(xué)技術(shù)的態(tài)度——2018 年中國(guó)公民科學(xué)素質(zhì)抽樣調(diào)查結(jié)果 [J]. 科普研究, 13(77): 51-60.]
HE P, CHEN J, CAI L, et al., 2021. Import supporting role of biological specimen in biodiversity conservation and research [J]. Bull Chin Acad Sci, 30(4): 425-435. [賀鵬, 陳軍, 蔡磊, 等, 2021. 生物樣本: 生物多樣性研究與保護(hù)的重要支撐 [J]. 中國(guó)科學(xué)院院刊, 30(4): 425-435.]
HEBERLING JM, ISAAC BL, 2018. iNaturalist as a tool to expand the research value of museum specimens [J]. Appl Plant Sci, 6(11): e01193.
HEY AJG, TANSLEY S, TOLLE KM, et al., 2009. The fourth paradigm: data-intensive scientific discovery [M]. Redmond, WA: Microsoft Res.
HILL A, GURALNICK R, SMITH A, et al., 2012. The notes from nature tool for unlocking biodiversity records from museum records through citizen science [J]. ZooKeys, 209(209): 219-233.
HOBERN D, BAPTISTE B, COPAS K, et al., 2019. Connecting data and expertise: A new alliance for biodiversity knowledge [J]. Biodivers Data J, 7: e33679.
JAMES SA, SOLTIS PS, BELBIN L, et al., 2018. Herbarium data: Global biodiversity and societal botanical needs for novel research [J]. Appl Plant Sci, 6(2): e1024.
JIN Y, ZHANG XL, HU ZH, 2019. Development and challenge of citizen science [J]. Libr Inform Serv, 63(13): 28-33. [金瑛, 張曉林, 胡智慧, 2019. 公眾科學(xué)的發(fā)展與挑戰(zhàn) [J]. 圖書情報(bào)工, 63(13): 28-33.]
LIU HY, QIN HN, LI M, 2017. Plant specimen resource sharing platform and plant specimen digital capability construction [J]. e-Sci Technol Appl, 8(4): 13-23. [劉慧圓, 覃海寧, 李敏, 2017. 植物標(biāo)本資源共享平臺(tái)與標(biāo)本數(shù)字化能力建設(shè) [J]. 科研信息化技術(shù)與應(yīng)用, 8(4): 13-23.]
LU J, 2019. Strengthening national ecological security is the need of realizing sustainable development in China [J]. Environ Prot, 47(8): 8-12. [陸軍, 2019. 強(qiáng)化國(guó)家生態(tài)安全是我國(guó)實(shí)現(xiàn)可持續(xù)發(fā)展的需要 [J]. 環(huán)境保護(hù), 47(8): 8-12.]
MA JS, 2010. Current status and challenges of Chinese plant taxonomy [J]. Chin Sci Bull, 59(6): 510-521. [馬金雙, 2010. 中國(guó)植物分類學(xué)的現(xiàn)狀與挑戰(zhàn) [J]. 科學(xué)通報(bào), 59(6): 510-521.]
MADDEN S, 2012. From databases to big data [J]. IEEE Internet Comput, 16(3): 4-6.
MAYA-LASTRA CA, 2016. ColectoR, a digital field notebook for voucher specimen collection for smartphones [J]. Appl Plant Sci, 4(7): 1600035.
MCAFEE A, BRYNJOLFSSON E, DAVENPORT TH, et al., 2012. Big data: The management revolution [J]. Harvard Bus Rev, 90(10): 60-68.
MORRISON SA, SILLETT TS, FUNK WC, et al., 2017. Equipping the 22nd-century historical ecologist [J]. Trend Ecol Evol, 32(8): 578-588.
OUSSOUS A, BENJELLOUN FZ, LAHCEN AA, et al., 2018. Big data technologies: a survey [J]. J King Saud Univ Comput Inform Sci, 30(4): 431-448.
POWELL C, MOTLEY J, QIN H, et al., 2019. A born-digital field-to-database solution for collections-based research using collNotes and collBook [J]. Appl Plant Sci, 7(8): e11284.
SCHINDEL DE, COOK JA, 2018. The next generation of natural history collections [J]. PLoS Biol, 16(7): e2006125.
SFORZI A, TWEDDLE J, VOGEL J, et al., 2018. Citizen science and the role of natural history museums [M]// HECKER S, HAKLAY M, BOWSER A, et al. Citizen science: Innovation in open science, society and policy. London:? UCL Press: 429-444.
SOLTIS PS, 2017. Digitization of herbaria enables novel research [J]. Am J Bot, 104(9): 1281-1284.
VISSERS J, BOSCH, DEN FV, et al., 2017. Scientific user requirements for a herbarium data portal [J]. PhytoKeys, 78(78): 37-57.
WANG LS, CHEN B, JI LQ, et al., 2010. Progress in biodiversity informatics [J]. Biodivers Sci, 18(5): 429-443. [王利松, 陳彬, 紀(jì)力強(qiáng), 等, 2010. 生物多樣性信息學(xué)研究進(jìn)展 [J]. 生物多樣性, 18(5): 429-443.]
WILLIS CG, ELLWOOD ER, PRIMACK RB, et al., 2017a. Old plants, new tricks: Phenological research using herbarium specimens [J]. Trend Ecol Evol, 32(7): 531-546.
WILLIS CG, LAW E, WILLIAMS AC, et al., 2017b. CrowdCurio: an online crowdsourcing platform to facilitate climate change studies using herbarium specimens [J]. New Phytol, 215(1): 479-488.
XU ZF, 2018.Kingdonia project: A herbarium based citizen science practice [J]. e-Sci Technol Appl, 8(4): 97-105.? [徐洲鋒, 2018. 結(jié)合公民科學(xué)的Kingdonia系統(tǒng)工作平臺(tái)的構(gòu)建與應(yīng)用 [J]. 科研信息化技術(shù)與應(yīng)用, 8(4): 97-105.]
ZHANG J, CHEN SB, CHEN B, et al., 2013. Citizen science: integrating scientific research, ecological conservation and public participation [J]. Biodivers Sci, 21(6): 738-749. [張健, 陳圣賓, 陳彬, 等, 2013. 公眾科學(xué):整合科學(xué)研究、生態(tài)保護(hù)和公眾參與 [J]. 生物多樣性, 21(6): 738-749.]
(責(zé)任編輯 周翠鳴)