徐洲鋒 劉恩德 陳家輝
摘 要:? Biotracks 是一款自然觀察類的公眾科學應用,目前已經被各類科學調查和自然觀察項目廣泛使用。該文利用Biotracks 的標本采集項目將野外采集的數據與標本館的數字館藏系統(tǒng)連接起來,使用戶在手機上記錄的信息可以被應用到標本館的標本數字化中。這種方式不僅提升了數字標本的轉錄效率,而且從根本上改變了整個標本收集流程中的數據整合方式,使得標本從采集到收藏的各個環(huán)節(jié)都能獲得高質量的效率提升。同時,新的標本收集模式還能自然地將標本的野外照片與數字標本融為一體,從而使得傳統(tǒng)標本原本很難呈現的顏色、行為、立體結構、環(huán)境等信息最終可以通過數字標本再次展現給研究者。這在信息維度上不僅拓展了傳統(tǒng)標本的內涵,結合公眾科學,未來還有望進一步延伸館藏標本鑒定和討論的時空范圍。此外,公眾科學在解決標本館問題中所展現出來的潛質,為重新審視標本館的領域價值提供了新的視角。
關鍵詞: Biotracks, 標本館, 植物標本, 標本數字化, 公眾科學
中圖分類號:? Q94-34
文獻標識碼:? A
文章編號:? 1000-3142(2022)增刊1-0164-16
收稿日期:? 2021-10-08
基金項目:? 云南省重大科技專項計劃——電子信息與新一代信息技術重大專項(2018ZI001-3); 中國科學院戰(zhàn)略性先導科技專項(A類)地球大數據科學工程(XDA19050202); 中國科學院戰(zhàn)略生物資源計劃(KFJ-BRP-017-13); 云南省基礎研究專項(202101AS070032)。
第一作者: 徐洲鋒(1989-),碩士,助理工程師,研究方向為生物多樣性信息學和生物地理學,(E-mail)xuzhoufeng@mail.kib.ac.cn。
通信作者:? 陳家輝,博士,研究員,研究方向為植物系統(tǒng)演化及生物多樣性信息學,(E-mail)chenjh@mail.kib.ac.cn。
Using the Biotracks platform to collect plant specimens
XU Zhoufeng1,2, LIU Ende2, CHEN Jiahui2*
( 1. College of Forestry, Southwest Forestry University, Kunming 650224, China; 2. Key Laboratory for Plant Diversity and
Biogeography of East Asia, Kunming Institute of Botany, Chinese Academy of Sciences, Kunming 650201, China )
Abstract:? Biotracks is a citizen science application of nature observation, which has been widely used in the scientific field survey and nature observation in China. We use the collection object of Biotracks to link the data collected in the field to the digital collection system of the herbarium. Users in the wild can quickly record the information on mobile phone and then apply these data to specimen digitization. This new method improves the transcription efficiency and accuracy of all steps: from the collecting event to specimen curation. More importantly, this method can link field photos with specimen data naturally, which means those the color, behavior, three-dimensional structure, environment and other information that the traditional specimens are difficult to display, and now can be presented to the researchers. This not only expands the value of traditional specimens, but also hopes to extend the time and space of specimen identification and discussion in the future. In addition, the potential of citizen science in solving the problem of herbarium also provides a new perspective for us to re-examine the scientific value of herbarium.
Key words: Biotracks, herbarium, specimens, specimen digitization, citizen science
標本數字化支持了諸如 GBIF(http://www.gbif.org/)、NSII(http://www.nsii.org.cn/)、 iDigBio(https://www.idigbio.org/)等全球和國家尺度的生物多樣性信息平臺以及各類標本館和區(qū)域尺度的標本數據庫建設。這些富集的數據結合涌現的新技術(尤其是信息技術和測序技術)進一步促進了各類新應用、新研究的快速發(fā)展(Soltis, 2017; Morrison et al., 2017; Willis et al., 2017a; James et al., 2018),并為我們在時空尺度上探究生物之間的宏觀聯系及其微觀機理帶來了全新的視角和模式。同時,標本的數字化也促進和支持了生物多樣性信息學這門新興學科的誕生和發(fā)展(王利松等,2010)并使其在全球、地區(qū)和國家尺度的標本數據整合、共享與利用等方面發(fā)揮了重要作用。
然而,相比迅速發(fā)展的標本數據整合與分享,標本館收集標本的方式和流程卻鮮有變化(Schindel & Cook, 2018)。雖然目前也有一些現代的技術和方法被采用,比如使用GPS 記錄地理坐標與海拔、使用條形碼標識標本、采用數據庫管理標本,將分子材料納入采集保藏職能等,但是標本收集流程中固有的缺陷仍然未能得到有效解決(Daru et al., 2017; 徐洲鋒,2018),這包括:(1)許多標本的信息不完整,導致標本價值受限(如采集人、采集時間、采集地點等關鍵信息的缺失);(2)不同來源的標本,數據差異較大,致使數據整合困難;(3)一些宏觀信息難以在標本中得到準確保存(如花的顏色、分枝的角度等);(4)各種原因造成的數據偏差(如錯誤的日期、坐標值和拉丁名拼寫);(5)重復且低效的標本數據轉錄;(6)緩慢的標本鑒定與討論。針對這些缺陷,也有一些解決方案,如盡可能地標準化傳統(tǒng)標本收集流程的各個環(huán)節(jié);開發(fā)定制化的標本數字化系統(tǒng)(Gries et al., 2014);采用新設備和新技術生產數字標本(Drinkwater et al., 2014)。這些工作確實可以從各個環(huán)節(jié)提升標本收集的效率和品質,但其本質上仍然屬于對傳統(tǒng)標本收集流程的優(yōu)化,因此很難從體系上徹底解決上述問題。
當然,這并不意味著原有的標本收集流程是錯誤的。事實上它至今仍然能夠很好地滿足傳統(tǒng)分類學的需要。只是由于學科的發(fā)展,新的研究方法和研究內容對標本資源,特別是對標本的數字化資源提出了新的要求,比如需要更精準的位置信息、能夠很好地執(zhí)行數據聚合、需要穩(wěn)定持久的標識、便于分享與利用等(Vissers et al., 2017; Hobern et al., 2019),而原有的模式卻很難適應這些新的需求。通過公眾科學解決這些問題是目前領域研究的發(fā)展趨勢,比如讓博物館(標本館)支持業(yè)余科學家的成長和發(fā)展,招募志愿者參與博物館(標本館)的野外調查,通過眾包轉錄和審核數字標本(Sforzi et al., 2018)。這些嘗試很大程度上展示出了公眾科學在博物館生物多樣性研究中的巨大潛質。然而這些工作之間尚未相互構成體系,因此還不能從整體上重塑標本的收集流程。對此,本文基于 Biotracks公眾科學平臺構建并實踐了一種新型的標本收集模式,該模式可以提高植物標本收集的效率和品質,并有望系統(tǒng)地解決傳統(tǒng)標本館收集流程中的諸多缺陷。同時結合 Biotracks,本研究還簡要闡述了根植于公眾發(fā)展標本館的必要性,以及標本館應用公眾科學的一些思路,以期為國內同行拋磚引玉。
1 材料與方法
1.1 數據標準
Biotracks 是由中國科學院昆明植物研究所開發(fā)的一款開放免費的自然觀察類公眾科學應用,該應用可以幫助用戶組織自然觀察項目,記錄戶外生物物種信息。它可以根據不同的任務需求定制相應的數據模板。對于標本采集,我們遵循DarwinCore(http://rs.tdwg.org/dwc/)定義了14個核心字段(表1)。顯然這 14 個字段并不能覆蓋完整的標本記錄信息(比如缺少行政區(qū)劃、鑒定人、鑒定時間、科、屬等等),但其他必要的信息一般都可以根據這些字段的值以及用戶的ID由 Biotracks 自動推斷生成和補充。這樣的設計可以讓用戶錄入最少的內容,實現最大的信息完整性。同時,基于這些核心字段,我們還為不同分類群分別定義了一套性狀描述屬性,這些屬性,會被定義為一種形似字段的數據庫虛擬列(https://dev.mysql.com/doc/refman/5.7/en/json.html),并以 JSON 對象的形式存儲在dynamicProperties 核心字段下。對于用戶而言這些屬性與其他字段無異,但卻能極大地簡化和統(tǒng)一不同類群的數據模板設計,并提高應用適配的靈活性。
1.2 Biotracks客戶端簡介
Biotracks 目前擁有 WEB 端(http://www.biotracks.cn)、Android 版和 IOS 版(下載地址:http://www.biotracks.cn/app/biotracks)和微信小程序版(圖1)。本研究中,我們使用 Biotracks 手機客戶端記錄標本的采集信息,使用 Biotracks WEB 端進行數據的管理和下載。為了保證 APP 能夠徹底地替代紙媒或電子表格記錄,Biotracks 手機客戶端專門為植物標本的采集記錄做了以下一些適配和優(yōu)化。
1.2.1 定制專用記錄模版 我們根據擬定的數據標準制定了 Biotracks 的標本采集記錄模版。
1.2.2 自動記錄關鍵信息 APP 能夠自動記錄觀察對象的地理坐標、海拔、發(fā)現時間、記錄編號等信息,且這一過程并不需要網絡的支持。同時,APP 在有網絡狀態(tài)下還可以利用地理坐標解析獲得結構化的地址信息。
1.2.3 快速錄入物種學名 APP 用戶通過網絡可以使用中文俗名、俗名拼音、拉丁名等字符檢索到逾百萬條的全球植物、菌物、鳥類、魚類以及中國兩棲、爬行和哺乳動物的拉丁名以供使用;而在無網絡環(huán)境下,用戶也可以通過 APP 內置的十萬多條中國生物物種名稱庫檢索所需要的拉丁名,以滿足國內大多數離線場景下的學名錄入需求。
1.2.4 支持AI 輔助鑒定 APP 的人工智能圖像識別引擎會嘗試識別所拍攝的物種照片,并推薦可能的拉丁名以供用戶參考使用。
1.2.5 高效的人機交互 為了保證手機操作的便捷性,Biotracks APP 的記錄界面做了大量的人機交互優(yōu)化,這包括:(1)界面中每個字段所處的位置都會被仔細考量,以盡可能降低信息錄入時手指劃動的范圍(比如通常情況下APP 會自動寫入海拔、地理坐標等信息,這些無需人工錄入的字段就會被放置在錄入界面的后部,以減少干擾);(2)不同的字段會選擇不同的錄入方式,不同字段的內容錄入還會輔以不同的快捷鍵,以盡可能簡化錄入操作(比如有些字段會采用下拉選項寫入文本,有些字段會直接調用數字鍵盤鍵入數字,而有些字段則可以直接通過“復制”快捷鍵復制上一條記錄的內容);(3)對于一些內容比較穩(wěn)定的字段,APP 會自動復用上一條記錄的內容,以減少人工操作(比如同一次采集活動中,采集人員的姓名大部分情況下是不會改變的,記錄模版會自動將上一條記錄的采集人員信息寫入下一條記錄)。
1.2.6 數據安全的保障 為了防止因用戶手機丟失、損壞、更換導致的數據遺失。手機 APP 記錄的所有數據都可以在有網絡的情況下上傳至 Biotracks 云端。用戶可以通過個人賬戶登錄 Biotracks 訪問、編輯、下載這些數據。如果用戶更換了手機,云端的數據也會加載到新手機的 APP 之中。
借助以上方案,Biotracks 不僅大幅減少了人工記錄的內容、降低了用戶界面 (user interface, UI) 的復雜度,還統(tǒng)一了各個類群的數據記錄標準,從而為標本數據的跨類群、跨平臺整合提供了良好的基礎。本研究主要針對植物標本的采集,因此使用植物相關的模板進行數據的記錄。
1.3 數據采集
使用 Biotracks 執(zhí)行標本采集信息的記錄,需要首先在手機 APP 上建立一個標本采集項目,這個項目可以是公開的(公共項目,所有用戶可見可加入)、部分可見的(團隊項目,只有創(chuàng)建者才能邀請人員加入)或者私密的(私人項目, 只有創(chuàng)建者可以使用)。加入項目的成員會使用一致的數據模板記錄標本采集信息。采集標本時,記錄者需要先預設第一條記錄的采集人、采集號樣式及其起始序號等通用信息。后續(xù)記錄會自動寫入上一條記錄中需要復用的信息,并能依據預設的編號按序編排采集號。當用戶在標本采集的現場記錄信息時,APP 會默認寫入當前的海拔、經緯度和時間信息,用戶也可以手動編輯這些信息,或者通過所拍攝的現場照片重置這些信息(若照片有GPS坐標,用戶可以使用照片的GPS坐標覆寫當前坐標數值,這對于基于照片后補采集記錄非常有用)。記錄時,手機拍攝的照片會與采集信息直接綁定,同時 AI 引擎還會識別所拍攝的照片,并給出物種的鑒定參考,用戶可以直接使用或修改機器推薦的鑒定 (使用 Biotracks APP 記錄標本采集信息的詳細說明請見https://mp.weixin.qq.com/s/daQRSbAA9sRX1T5FNfIOkQ)。
1.4 數據的編輯與整合
標本采集活動通常會由多人或多個隊伍組成,其中每個成員的工作必然會各有側重。比如一些成員擅長鑒定,另外一些負責攝影,還有一些需要負責材料的處理與標記。在傳統(tǒng)模式下,這種零散而又各自相關的工作很難實現跨時空的作業(yè)配合,整合這些工作產生的數據更是相當困難。通過 Biotracks 的項目協(xié)同功能則能有效地解決這一問題。比如實際的標本采集活動中,采集信息的整理通常會是一個相對滯后的工作,而 Biotracks 則可以將項目內每個成員記錄的采集信息通過網絡匯總到云端,以供所有成員在電腦和手機端瀏覽和編輯。同時,一些成員作出的鑒定,也可以通過云端傳遞給其他成員參考或使用,而每個成員對于數據的編輯和補充,同樣也會及時反饋到云端。這種通過信息共享連接線下與線上作業(yè)的協(xié)同模式,能夠將項目數據的最新狀態(tài)充分整合到云端并同步到手機 APP 內,從而讓原本獨立、分散的個體工作,聯結成可以協(xié)作互助的動態(tài)網絡(圖2)。
1.5 連接館藏數字標本
Biotracks記錄的采集信息可以被導出為符合 Darwin Core(http://rs.tdwg.org/dwc/)規(guī)范的 Excel 數據表。這些 Excel 數據表既可以被用于紙質標簽的打印,也可以被導入到標本館的數據庫中作為標本數字化的基礎資料,以避免標簽信息被二次轉錄。此外,數據表中的 associateMedia 字段還記錄了標本的野外照片地址,標本數字化系統(tǒng)可以借此實現數字標本和標本原生照片的自然整合。
標本館的數字化系統(tǒng)需要依據 Biotracks 采集信息的數據規(guī)范做一些技術適配,才可以導入 Biotracks 的數據表。我們專門為此開發(fā)了一套專業(yè)的數字標本館內容管理系統(tǒng)(Content Management System, CMS):Kingdonia 數字標本館系統(tǒng)(徐洲鋒,2018)。該系統(tǒng)高度適配了 Biotracks 的數據標準和接口協(xié)議,可以直接通過互聯網調用存儲在 Biotracks 中的采集信息以提升標本數字化的效率(圖3)。此外,Kingdonia 系統(tǒng)還支持獨立部署和管理,系統(tǒng)能夠在線獲得升級,并可以根據不同標本館的館藏類群和作業(yè)模式進行定制開發(fā),因此可以被用于對數據的權屬以及管理都有較高要求的標本館(博物館)。
1.6 效率評估
Kingdonia 系統(tǒng)支持多種標本數字化模式,工人既可以按照傳統(tǒng)方式對照標本標簽轉錄數字標本,也可以從 Biotracks 調取數據以用于數字標本的轉錄。為了評估這兩種模式的轉錄效率差異,我們從 Kingdonia 系統(tǒng)中導出了昆明植物研究所標本館(KUN)兩位工人的標本轉錄日志,該日志記錄了每一份標本開始轉錄和結束轉錄的時間,因此可以被用于標本轉錄效率的量化分析。
不同標本的轉錄效率是不一致的,為了減少標本因素的影響,我們盡可能提取兩位工人相鄰時間的轉錄日志,以確保不同工人轉錄的標本,其性質盡可能接近。每位工人的日志又會被分為人工轉錄的標本(I 類樣本)和調用 Biotracks 數據轉錄的標本(Ⅱ類樣本),最終根據人員不同總共可獲得 A-I、A-Ⅱ、B-Ⅱ、B-Ⅱ 4組樣本(A、B指代不同的工人)。每組樣本都可以根據標本的開始轉錄時間和結束轉錄時間計算出每份標本的轉錄時長,由于這些標本都是在日常工作中被自然轉錄,因此會存在一些轉錄時長明顯脫離實際的標本(比如工人在轉錄的中途開始休息,或者臨時有事打斷了原有的轉錄工作都可以造成標本轉錄時間被延長)。根據經驗,我們將各組中轉錄耗時最長的前 10% 的標本作為無效值排除,剩下的標本作為可評估樣本參與量化分析。
對于可評估樣本,需要計算出每組樣本中標本轉錄時長的中位數、上下四分位數、上限、下限、平均值,其中上限采用上四分位數加 1.5 倍四分位距獲得,下限采用下四分位數減 1.5 倍四分位距獲得。然后對每組樣本做箱體圖進行比較分析。
2 結果與分析
2.1 Biotracks在植物標本采集活動中的推廣效果
Biotracks的構想始于2013 年,并于2014年底與 Kingdonia 系統(tǒng)同步開始實施。整個平臺于 2016 年 9 月對外正式上線了首個 WEB 端(http://www.kib.cas.cn/xwzx/zhxw/201609/t20160907_4659604.html),于2017年 9 月發(fā)布了首個手機版本(http://www.kib.cas.cn/xwzx/zhxw/201709/t20170901_4854058.html)。后經若干年的發(fā)展,目前 Biotracks 共有注冊用戶 16 987 名,這些用戶總共記錄了200 多萬張的物種照片、60萬條的物種觀察記錄,其中近 23萬條為植物標本的采集記錄,有關 Biotracks 的用戶、物種觀察記錄、圖片、植物標本采集記錄的增長趨勢如圖4所示。
對 Biotracks 的用戶群體進行分析,可以發(fā)現在與標本館直接相關的用戶中,比較有代表性的群體主要來自中國科學院。其中,表2列出了目前用戶最多的前 15 個中國科學院下屬機構,可以看出主要是一些與動植物相關的研究所和植物園。這些機構內的植物標本館不僅各具區(qū)域特色,而且其館藏標本的總量甚至占據了中國過半的植物標本儲量(賀鵬等,2021)。目前Biotracks已被昆明植物研究所標本館(KUN)、華南植物園標本館(IBSC)、西雙版納熱帶植物園標本館(HITBC)、成都生物研究所標本館(CDBI)、新疆生態(tài)與地理研究所標本館(XJBI)、南京中山植物園標本館(NAS)等單位所采用,這些機構不僅將 Biotracks 應用到了日常的標本采集活動中,還將 Kingdonia 數字標本館系統(tǒng)引入到館藏標本的管理之中,從而形成了完整的應用體系 (http://www.kib.ac.cn/xwzx/zhxw/201912/t20191231_5479319.html)。
此外,高校則是 Biotracks 目前用戶群體中最大的單一來源。Biotracks 有超過 100 多所高校的用戶(表2列出了用戶最多的 15 所高等院校),這些用戶既使用 Biotracks 進行野外科考,也會使用 Biotracks 引導學生進行標本的采集和物種的觀察記錄,Biotracks 的項目統(tǒng)計則可以將每個學生的實際貢獻反饋給老師作為評估實習效果的參考。
在實際應用中,Biotracks 的標本采集項目可涉及生物多樣性調查的各個方面,表 3 列出了一些具有代表性的標本采集項目,這些項目涉及自然保護區(qū)的本底資源調查、各種區(qū)域尺度的生物多樣性編目、特定生物類群的調查、植物志編纂、植物種質資源的采集、中藥普查等等。此外,第二次青藏高原科學考察·植物多樣性的調查還將 Biotracks 作為植物標本采集的推薦應用進行了推廣。應該說,Biotracks 在國內植物標本的采集活動中,目前已經被領域廣泛接納和使用。
2.2 植物標本的數字化
我們通過對 Kingdonia 系統(tǒng)的日志文件進行分析,獲得了圖 5 所示的昆明植物研究所標本館(KUN)兩位工人的標本轉錄效率箱體圖。通過箱體圖,可以發(fā)現相對于人工轉錄,調用 Biotracks 數據轉錄標本顯示出了以下3個優(yōu)勢。
2.2.1 標本轉錄的效率明顯更高 A、B 工人轉錄 I 類樣本的平均時長分別為336、389 s,A、B 工人轉錄Ⅱ類樣本的平均時長分別為 117、124 s。A、B 工人在Ⅱ類樣本中,標本的平均轉錄時長都明顯低于 I 類標本,兩位工人都有近3倍的轉錄效率提升。
2.2.2 工人的表現更加穩(wěn)定 A、B 工人轉錄 I 類樣本的上下限分布范圍明顯更大,四分位距也更長,中位數與平均值的偏差相對更大,說明工人在轉錄 I 類樣本時,表現并不穩(wěn)定,有些標本需要耗費較長的時間才能完成轉錄,有些則可以很快地完成轉錄;而A、B工人在轉錄Ⅱ類樣本時,其轉錄時長的波動范圍要顯著小于I類樣本。這個結果其實可以預見。人工轉錄標本所需要的時長,往往是和標本標簽上的內容多少、字跡辨識的難易程度直接相關,因此單份標本的轉錄時長會有很大的差異,而調用 Biotracks 數據轉錄標本,絕大部分的標簽內容并不需要人工轉錄, 因此受標簽內容性質的影響較小,個人轉錄效率的波動自然更小。
2.2.3 不同工人之間的轉錄效率差異更小 A、B 工人轉錄 I 類樣本的平均時長為 336、389 s,時差為 53 s;A、B 工人轉錄Ⅱ類樣本的平均時長分別為 117、124 s,時差為 7 s。顯然在處理Ⅱ類樣本時,A、B 兩位工人之間的耗時差異不如 I 類樣本顯著。究其原因,可能是因為對于Ⅱ類樣本,工人大多數時間只是在核對所調用的數據與標簽內容是否一致,而不用對照標本標簽親自轉錄文本,對于不同的標簽內容,單純地核對文本內容可能要比手工轉錄相應的內容更為簡單,由此使得不同工人之間的轉錄效率差異會更小。
2.3 標本信息維度的擴展
Biotracks 可以拍攝標本的原生照片并將其與采集信息直接綁定,數據同步至云端之后,照片的網絡地址會被寫入采集信息的 associatedMedia 字段內,類似 Kingdonia 這樣的數字標本館系統(tǒng)在調取 Biotracks 的采集記錄時,就可以將這些照片一并提取并與相應的數字標本形成關聯,從而使得傳統(tǒng)標本原本很難呈現的顏色、行為、立體結構、環(huán)境等原生信息,現在都可以通過數字標本被展現在研究者面前(圖 6)。
實現上述過程,采集者和標本館并不需要為此增加額外的工作量。但在傳統(tǒng)的標本采集流程中,野外照片通常會被每個采集隊員保存在各自的電腦或移動硬盤內,如果需要將這些照片和最終的數字標本形成關聯,就需要耗費大量的人力和時間用于照片的梳理、編號、匯總和匹配。顯然這些工作并不是每個采集者都可以做到,更多的時候這些照片也不會被提交至標本館,由此可見在原有的工作流程下,希望依靠人力去完成數據的關聯本身就是非常困難的。而 Biotracks 確實為此提供了一種實用自然的方案,可以有效解決這一問題。
3 討論與結論
3.1 Biotracks為何可以獲得廣泛應用?
針對標本的采集,在 Biotracks 正式發(fā)布前后其實也有一些類似的開放應用出現,比如collNotes、ColectoR等(Maya-Lastra, 2016; Powell et al., 2019)。然而,這些應用卻沒有像 Biotracks 這樣被廣泛使用。究其原因,手機作為一種新的記錄載體,其實是有一些先天劣勢。例如:(1)屏幕狹小使得交互空間過于局促,進而會對瀏覽和編輯信息的體驗和效率造成不良影響;(2)手機體型更小,雖然方便攜帶,但也更容易損壞或丟失,從而影響數據安全;(3)智能手機續(xù)航有限,自身電量通常難以維持長時間的戶外使用;(4)相較于紙和筆,智能手機的操作仍然有一定的門檻,因此并不是所有人都會接受或適應這一記錄方式。
這些缺點中的(3)和(4)可以通過攜帶移動電源和加強用戶培訓予以改善,因此最終真正影響用戶是否選擇手機記錄的主要因素還是在于(1)和(2)所述的便捷性和安全性。而這兩點恰好是軟件優(yōu)化能夠予以充分解決的。通過自動寫入、信息復用、交互設計、AI 輔助、字段集最小化等多種措施,Biotracks 有效保障了手機 APP 記錄的便捷性。而借助網絡對數據進行及時同步則可以最大限度地保障數據的安全性。
在此基礎上,Biotracks 還有紙質記錄或電子表格難以彌補的優(yōu)勢,這包括:(1)使用 Biotracks 不僅可以直接生成電子數據,還可以不依賴于網絡和其他外置設備,寫入準確的拉丁名以及非常精確的地理坐標、海拔高度、觀測時間等信息;(2)智能手機能夠直接使用移動運營商提供的3G、4G、5G等網絡服務,因此可以最大限度地利用互聯網增強用戶在戶外環(huán)境中的信息獲取能力,比如 Biotracks 的地址解析、AI 鑒定、在線地圖、項目熱力圖都屬于網絡服務,這些服務不僅提高了記錄的完整性,還增強了用戶對外界信息的實時感知能力,進而能夠提升野外采集工作的品質和效率;(3)手機非常便攜,用戶幾乎隨身攜帶,這使得互聯網能夠將每個用戶更緊密地連接起來,實現更加精細的分工協(xié)作;(4)最小化的輸入和標準化的輸出,可以最大限度地保證數據的規(guī)范性和一致性,由 Biotracks 生成的數據表,字段歧義性更小,值和結構更加規(guī)范,可以一次生成,多處重用,因此能夠大幅降低數據整合和利用的難度。
綜上所述,Biotracks 不僅克服了手機記錄的缺點,而且進一步發(fā)揮了手機這一載體的優(yōu)勢。使用 Biotracks 進行植物標本的采集,既能夠便捷、準確、完整地記錄信息,也可以保證數據規(guī)范、一致和安全,同時還實現了更加精細、動態(tài)、系統(tǒng)的分工協(xié)作,最終使得標本的采集工作更為省時、省力、省心。
3.2 Biotracks 為植物標本的收集建立了一種新的工作流程
除了滿足一線工作者信息記錄的需求,Biotracks 還能夠深度參與從采集任務規(guī)劃、標本采集到數據的整合、感知、協(xié)作、管理,乃至最終標本的數字化,這一整條標本收集流程中各個環(huán)節(jié)的優(yōu)化和重塑(圖7)。在規(guī)劃采集時,用戶可以根據實際需要,建立 Biotracks 虛擬項目,不同采集可以被創(chuàng)建為不同的項目,同一個成員也可以加入多個不同的項目。在采集標本時,Biotracks 可以記錄采集信息,并把相應的數據和文件同步至云端。之后,每個成員記錄的數據會被自動整合到相應的項目內,成員可以在項目內分工合作,項目統(tǒng)計功能會實時統(tǒng)計每個成員的貢獻,項目地圖則可以將整合的數據繪制為熱力圖,這些功能能夠將任務的最新進展傳達給成員,成員則可以借助它更好地規(guī)劃下一步的工作。而在數據管理方面,Biotracks 支持為不同成員設置不同的數據管理權限,整合的數據可以被批量下載后提交給標本館,標本館也可以直接通過 Biotracks 的授權接口主動調取采集信息,然后應用于相應的標本數字化。
通過信息化的手段和體系化的設計,Biotracks 不僅可以自然地融入標本收集流程中的各個環(huán)節(jié),還很好地解決了一些傳統(tǒng)標本收集流程中固有的問題,這包括:(1)數據規(guī)范難以被徹底地貫徹(Biotracks 采用了統(tǒng)一的數據模板記錄數據,字段名、值類型、值樣式都得到了很好的約束);(2)數據提交和匯總費時費力(Biotracks 會自動整合項目成員的數據,有權限的成員可以批量下載);(3)野外工作的成果和進展不能被及時共享和感知(Biotracks 能夠將項目數據共享給所有成員,同時會實時統(tǒng)計各個成員的貢獻,還會將采集記錄繪制成熱力地圖展現給成員);(4)數據無法被長期追蹤(Biotracks 將數據存于云端,數據的編輯和修改都可以同步更新至各個成員的最新設備之中);(5)植物標本采集信息的數字化主要依靠人工轉錄(標本館可以導入或調取 Biotracks 記錄的采集信息,避免人工二次轉錄)。
相較于傳統(tǒng)的標本收集流程通常會按照時序依次組織各個工作環(huán)節(jié),Biotracks 所塑造的流程,則可以讓各類人員形成跨越時空的分工合作,它不僅能夠提升標本收集過程中各個環(huán)節(jié)以及整個流程的工作效率,還能夠從根本上改變傳統(tǒng)數據的整合方式,因此應該被視為一種新的標本收集流程,作用于新進標本的收集。對于最終的標本,該模式能夠將原生的照片與數字標本自然地形成關聯,從而將收藏于標本館的標本與現實場景聯系在一起,這種影響目前我們還無法準確地評估,但對科學研究而言,標本數據一直都是生物多樣性數據的金標準(Culley, 2013),新的標本若能以這種形式進行大量的富集,其潛質必將是令人期待的。
3.3 Biotracks 為國內植物標本館的發(fā)展帶來了公眾科學
采集者利用 Biotracks 記錄標本采集信息,標本館調用這些信息轉錄標本,其中的效率提升實際上是因為標簽轉錄工作被分包給了各個標本采集者。這種借助眾人力量解決科學數據甚至科學研究問題的模式,被統(tǒng)稱為公眾科學(張健等,2013;金瑛等,2019)。利用公眾科學解決標本館的問題,其實并不罕見。比如標本標簽的轉錄,國外就有一些公共平臺專門幫助各類標本館和博物館轉錄標本標簽 [如 Note From Nature(Hill et al., 2012)],一些博物館還會建立自己的轉錄平臺以支持公眾參與博物館藏品的標簽轉錄(如史密森數字志愿者轉錄中心,https://transcription.si.edu),有些組織甚至會為此舉辦國際性的標簽轉錄競賽 [如 WeDigBio(Ellwood et al., 2018)]。然而在國內,標本館對于公眾科學的關注、應用和研究卻很不理想。這其實和國內植物標本館的發(fā)展模式有很大的關系:一方面我國的現代植物學如同其他科學門類一樣,屬于舶來品,因此與西方社會相比,自然博物的社會基礎并不好。另一方面,植物標本館最初的價值就是收納標本以支持標本的研究,因此相比面向公眾的各類博物館,它與公眾的關系更為疏遠。這些因素造成了國內植物標本館的發(fā)展一直以來都很難扎根于公眾,導致最終只能依附于植物分類學的發(fā)展。然而,由于《中國植物志》、Flora of China 等全國性志書已經完成,更由于政策導向等諸多因素的影響,當前中國植物分類學的境遇不太好,而與之緊密相關的植物標本館自然也面臨著嚴峻的生存和發(fā)展問題(馬金雙,2010)。
雖然國內植物標本館面臨嚴峻的問題,但是它的發(fā)展機遇仍然存在。這與科學研究的總體發(fā)展趨勢有很大的關系。比如近年來標本館的標本數字化就受到了前所未有的重視。數字標本作為實體標本的延伸,起初只是方便了標本的檢索和查閱,然而隨著數據的富集,數字標本的價值已經不再局限于植物分類學的研究,而是延伸至環(huán)境變化、保護生物學、群體遺傳學與基因組學,甚至公共健康與安全等領域(Ellwood et al., 2018)。對于嚴重依賴分類學研究的傳統(tǒng)標本館而言,這不僅擴展了標本館的生存基礎,還為標本館帶來了實實在在的經費支持。比如中國數字植物標本館(CVH)每年都會支持數十家標本館的標本數字化工作(劉慧圓等,2017),相應的經費可能不算多,但對于極度缺乏經費支持的標本館,也是雪中送炭。而數字標本之所以有如此廣泛的科學價值,其實并非偶然。2009 年,微軟針對數據密集型科學提出了第四研究范式(Hey et al., 2009),之后的十多年,隨著智能手機,3G、4G、5G 蜂窩網絡,計算機硬件,物聯網,云存儲,云計算,人工智能等技術的發(fā)展,大規(guī)模數據的獲取、管理與利用能力已經獲得了質的飛躍(Madden, 2012; McAfee et al., 2012; Ge et al., 2018; Oussous et al., 2018)。這使得基于數據密集型的科研第四范式開始真正從理論發(fā)展轉向實踐應用,數據的價值因此被充分地釋放和展現。而標本數據的富集和利用,正是這一趨勢下的一個實例。
因此,現代標本館的科學價值不僅在于所收藏的標本,還在于它能帶來的數據價值。與標本館緊密相關的地面生物多樣性數據的收集、整理和利用,屬于典型的人力密集型活動,而這正是公眾科學所擅長的領域。同時,伴隨著我國公眾科學素養(yǎng)的不斷提高(何薇等,2018),以及國家層面對于生態(tài)安全與生物多樣性保護的進一步重視(陸軍,2019),國內開展類似公眾科學活動的條件已經成熟。而 Biotracks 的核心目標之一,就是希望將各類公眾的力量,通過信息技術手段與標本館形成對接,從而解決標本館在大規(guī)模物種數據的收集、鑒定、提取、利用等方面所遭遇的人力和智力資源匱乏等問題。比如對于野外調查活動,標本館可以通過 Biotracks 發(fā)布科考志愿者招募,從而解決野外調查中人力資源不足的現狀(http://www.biotracks.cn/activity)。對于標本的轉錄,調用 Biotracks 數據轉錄標本,既能提高效率,還可以降低轉錄的難度,同樣也有益于招募公眾參與標本的數字化。而作為未來 Biotracks 的工作重心之一,類似 iNaturelist 和 Biotracks 這樣的自然觀察平臺,聚集了大量的專業(yè)人員和分類學愛好者,他們對于物種的鑒定和討論也完全可以推送給與之相關的數字標本。從而使得傳統(tǒng)標本低效、低頻率的鑒定和討論得以改善,并最終推動物種的鑒定和發(fā)現向著社區(qū)驅動的方向發(fā)展(Heberling & Isaac, 2018)。
諸如此類的工作,其實還有很大的擴展空間,通過 Biotracks 我們看到了公眾科學對于現代標本館的價值,而在公眾科學活動中,標本館其實也有自己獨特的價值:(1)作為一個專業(yè)機構,它有普通個體難以比擬的號召力,這對于公眾科學的發(fā)起和組織是至關重要的;(2)標本館可以接觸到大量的專業(yè)人員,容易和他們產生合作,共同開展公眾科學活動;(3)標本館有大量的植物標本,這些標本的潛在價值是驚人的,借助公眾科學的手段可以深度挖掘標本的價值,創(chuàng)作具有更高科學價值的數據產品,比如聯合公眾從標本圖片上提取花期、果期等物候數據集(Willis et al., 2017b);(4)除了深挖標本的價值,標本館自身的專業(yè)能力和區(qū)位優(yōu)勢也應該是構建數據價值的重要力量,比如我們是否可以考慮將主導和維護特定區(qū)域和特定內容的自然觀察數據集作為標本館未來的核心價值之一呢?
3.4 與類似方案的比較
借助類似 Biotracks 這樣的公眾科學平臺所提供的開放應用采集植物標本,再將其與標本館(博物館)的標本收藏工作相結合,在國外也有案例可循。iNaturalist (https://www.inaturalist.org)是目前國外發(fā)展非常迅速的自然觀察平臺,用戶使用 iNaturalist 的 APP 或網站提交物種的發(fā)現記錄,iNaturalist 會將這些記錄分享給用戶社區(qū)進行交流和鑒定。2018年 11 月的一篇公開文獻(Heberling & Isaac, 2018)分享了 iNaturalist 針對植物標本收集的一些拓展,總體而言與筆者之前對 Biotracks 的簡要說明(徐洲鋒,2018)以及在本文中進一步描述的模式基本一致。但兩者在具體實現上,也有一些差異,這些差異包括以下幾個方面。
3.4.1 項目創(chuàng)建 iNaturalist 的標本采集項目必須在網頁端創(chuàng)建,Biotracks的項目則必須在手機端創(chuàng)建;iNaturalist 對創(chuàng)建者會有一定的要求(至少有50條被驗證的物種觀察記錄才可以創(chuàng)建項目),Biotracks 暫時沒有這方面的限制。
3.4.2 項目公開 iNaturalist 的標本采集項目是對外公開的,任何用戶都可以看到和參與這個項目,Biotracks 則將項目分成了公開、團隊、私有3種類型,不同類型有不同的開放度:iNaturalist 會將項目記錄開放給所有用戶瀏覽和鑒定,Biotracks 的項目記錄只會分享給項目成員。
3.4.3 數據標準 iNaturalist 的標本采集項目,數據模板除了核心字段之外,其他字段可由用戶自行定義;Biotracks 也支持定制,但并沒有把定制的權限交給用戶,針對不同類群,Biotracks 采取了平臺定制,用戶使用的模式,以確保數據的強一致性。
3.4.4 應用重心 iNaturalist APP 更加輕量,一些關鍵信息的記錄,比如地理坐標有賴于網絡或關聯圖片的支持,且 APP 目前尚不支持海拔高度的獲取,項目數據的統(tǒng)計分析和可視化展示也更多地集成在網頁端;Biotracks 手機端功能更加豐富,能夠不依賴網絡記錄坐標和海拔信息,同時傾向于將更多的功能集成到移動端,而網頁端的功能則相對較弱。
3.4.5 資源標識 iNaturalist 希望在自己的平臺上為每條記錄生成一個永久的 URL 鏈接,以固定標本的引證;Biotracks 更希望將采集記錄注冊到一個開放的第三方資源標識符平臺(如https://noi.link),以統(tǒng)一不同來源物種記錄的數字標識符。
這些差異,有些是環(huán)境因素造成的(如iNaturalist 相比 Biotracks 更加開放,特別是與此有關的數據共享實踐要比國內更加成熟,Biotracks 也在積極探索新的方式,以期在符合國情的情況下,盡可能促進數據分享)。有些是由于發(fā)展理念不同造成的差異(如資源的標識,Biotracks 認為領域需要有統(tǒng)一的數字標識符,因此并不贊成平臺將自身的固定地址應用在標本資源上)。有些則是由各自所處的發(fā)展階段造成的(Biotracks 前期更加側重移動端的發(fā)展,但未來也需要加強WEB端的能力)。但整體而言,這兩個平臺針對標本的收集所構建的方案可謂不謀而合。相比 iNaturalist,雖然Biotracks 的體量還非常小,但是我們也希望 Biotracks 能夠在未來中國植物標本館的發(fā)展歷程上留下自己的身影。
參考文獻:
CULLEY TM, 2013. Why vouchers matter in botanical research [J]. Appl Plant Sci, 1(11): 1300076.
DARU BH, PARK DS, PRIMACK RB, et al., 2017. Widespread sampling biases in herbaria revealed from large-scale digitization [J]. New Phytol, 217(2): 939-955.
DRINKWATER RE, CUBEY RWN, HASTON EM, 2014. The use of optical character recognition (OCR) in the digitisation of herbarium specimen labels [J]. PhytoKeys, 38(38): 15-30.
ELLWOOD ER, KIMBERLY P, GURALNICK R, et al., 2018. Worldwide engagement for digitizing biocollections (WeDigBio): the biocollections communitys citizen-science space on the calendar [J]. Bioscience, 68: 112-124.
GE M, BANGUI H, BUHNOVA B, 2018. Big data for internet of things: a survey [J]. Future Gener Comput Syst, 87: 601-614.
GRIES C, GILBERT E, FRANZ N, 2014. Symbiota—A virtual platform for creating voucher-based biodiversity information communities [J]. Biodivers Data J, 2: e1114.
HE W, ZHANG C, REN L, et al., 2018. Public attitudes towards and understanding of science and technology in China: Based on the results of vivic scientific literacy survey 2018 [J]. Stud Sci Popul, 13(77): 51-60. [何薇, 張超, 任磊, 等, 2018. 中國公民的科學素質及對科學技術的態(tài)度——2018 年中國公民科學素質抽樣調查結果 [J]. 科普研究, 13(77): 51-60.]
HE P, CHEN J, CAI L, et al., 2021. Import supporting role of biological specimen in biodiversity conservation and research [J]. Bull Chin Acad Sci, 30(4): 425-435. [賀鵬, 陳軍, 蔡磊, 等, 2021. 生物樣本: 生物多樣性研究與保護的重要支撐 [J]. 中國科學院院刊, 30(4): 425-435.]
HEBERLING JM, ISAAC BL, 2018. iNaturalist as a tool to expand the research value of museum specimens [J]. Appl Plant Sci, 6(11): e01193.
HEY AJG, TANSLEY S, TOLLE KM, et al., 2009. The fourth paradigm: data-intensive scientific discovery [M]. Redmond, WA: Microsoft Res.
HILL A, GURALNICK R, SMITH A, et al., 2012. The notes from nature tool for unlocking biodiversity records from museum records through citizen science [J]. ZooKeys, 209(209): 219-233.
HOBERN D, BAPTISTE B, COPAS K, et al., 2019. Connecting data and expertise: A new alliance for biodiversity knowledge [J]. Biodivers Data J, 7: e33679.
JAMES SA, SOLTIS PS, BELBIN L, et al., 2018. Herbarium data: Global biodiversity and societal botanical needs for novel research [J]. Appl Plant Sci, 6(2): e1024.
JIN Y, ZHANG XL, HU ZH, 2019. Development and challenge of citizen science [J]. Libr Inform Serv, 63(13): 28-33. [金瑛, 張曉林, 胡智慧, 2019. 公眾科學的發(fā)展與挑戰(zhàn) [J]. 圖書情報工, 63(13): 28-33.]
LIU HY, QIN HN, LI M, 2017. Plant specimen resource sharing platform and plant specimen digital capability construction [J]. e-Sci Technol Appl, 8(4): 13-23. [劉慧圓, 覃海寧, 李敏, 2017. 植物標本資源共享平臺與標本數字化能力建設 [J]. 科研信息化技術與應用, 8(4): 13-23.]
LU J, 2019. Strengthening national ecological security is the need of realizing sustainable development in China [J]. Environ Prot, 47(8): 8-12. [陸軍, 2019. 強化國家生態(tài)安全是我國實現可持續(xù)發(fā)展的需要 [J]. 環(huán)境保護, 47(8): 8-12.]
MA JS, 2010. Current status and challenges of Chinese plant taxonomy [J]. Chin Sci Bull, 59(6): 510-521. [馬金雙, 2010. 中國植物分類學的現狀與挑戰(zhàn) [J]. 科學通報, 59(6): 510-521.]
MADDEN S, 2012. From databases to big data [J]. IEEE Internet Comput, 16(3): 4-6.
MAYA-LASTRA CA, 2016. ColectoR, a digital field notebook for voucher specimen collection for smartphones [J]. Appl Plant Sci, 4(7): 1600035.
MCAFEE A, BRYNJOLFSSON E, DAVENPORT TH, et al., 2012. Big data: The management revolution [J]. Harvard Bus Rev, 90(10): 60-68.
MORRISON SA, SILLETT TS, FUNK WC, et al., 2017. Equipping the 22nd-century historical ecologist [J]. Trend Ecol Evol, 32(8): 578-588.
OUSSOUS A, BENJELLOUN FZ, LAHCEN AA, et al., 2018. Big data technologies: a survey [J]. J King Saud Univ Comput Inform Sci, 30(4): 431-448.
POWELL C, MOTLEY J, QIN H, et al., 2019. A born-digital field-to-database solution for collections-based research using collNotes and collBook [J]. Appl Plant Sci, 7(8): e11284.
SCHINDEL DE, COOK JA, 2018. The next generation of natural history collections [J]. PLoS Biol, 16(7): e2006125.
SFORZI A, TWEDDLE J, VOGEL J, et al., 2018. Citizen science and the role of natural history museums [M]// HECKER S, HAKLAY M, BOWSER A, et al. Citizen science: Innovation in open science, society and policy. London:? UCL Press: 429-444.
SOLTIS PS, 2017. Digitization of herbaria enables novel research [J]. Am J Bot, 104(9): 1281-1284.
VISSERS J, BOSCH, DEN FV, et al., 2017. Scientific user requirements for a herbarium data portal [J]. PhytoKeys, 78(78): 37-57.
WANG LS, CHEN B, JI LQ, et al., 2010. Progress in biodiversity informatics [J]. Biodivers Sci, 18(5): 429-443. [王利松, 陳彬, 紀力強, 等, 2010. 生物多樣性信息學研究進展 [J]. 生物多樣性, 18(5): 429-443.]
WILLIS CG, ELLWOOD ER, PRIMACK RB, et al., 2017a. Old plants, new tricks: Phenological research using herbarium specimens [J]. Trend Ecol Evol, 32(7): 531-546.
WILLIS CG, LAW E, WILLIAMS AC, et al., 2017b. CrowdCurio: an online crowdsourcing platform to facilitate climate change studies using herbarium specimens [J]. New Phytol, 215(1): 479-488.
XU ZF, 2018.Kingdonia project: A herbarium based citizen science practice [J]. e-Sci Technol Appl, 8(4): 97-105.? [徐洲鋒, 2018. 結合公民科學的Kingdonia系統(tǒng)工作平臺的構建與應用 [J]. 科研信息化技術與應用, 8(4): 97-105.]
ZHANG J, CHEN SB, CHEN B, et al., 2013. Citizen science: integrating scientific research, ecological conservation and public participation [J]. Biodivers Sci, 21(6): 738-749. [張健, 陳圣賓, 陳彬, 等, 2013. 公眾科學:整合科學研究、生態(tài)保護和公眾參與 [J]. 生物多樣性, 21(6): 738-749.]
(責任編輯 周翠鳴)