肖翠,李明媛,葉芳,范明雪,楊靈,范雪,馬克平*
1.中國科學(xué)院植物研究所,北京 100093
2.安徽農(nóng)業(yè)大學(xué)資源與環(huán)境學(xué)院,安徽 合肥,230031
在信息化如此發(fā)達的今天,原始數(shù)據(jù)是推動各行各業(yè)智能化發(fā)展的基石。植物標本對于分類學(xué)、生態(tài)學(xué)、博物學(xué)等學(xué)科發(fā)展有著舉足輕重的作用。而標本數(shù)字化打破了實體標本的諸多不便,使植物標本更好的服務(wù)科研。標本數(shù)字化、數(shù)字照片 (即彩色照片)、文獻志書數(shù)字化等都是信息化的產(chǎn)品[1]。
國家標本資源共享平臺 (NSII,http://www.nsii.org.cn/) 是國家科技部科技基礎(chǔ)條件平臺之一,立足于我國生物標本數(shù)字化及其衍生數(shù)據(jù)建設(shè)工作,是我國最大的生物標本數(shù)據(jù)共享平臺。2003年NSII 以專題的形式開始建設(shè),2012年作為大平臺步入正軌,經(jīng)過原始數(shù)據(jù)積累 (2003年-2008年)、標本數(shù)字化數(shù)據(jù)快速增長與專題服務(wù)并存 (2008年-2015年)、數(shù)據(jù)建設(shè)基礎(chǔ)上突出數(shù)據(jù)共享與服務(wù) (2016年-今) 三個階段歷時 15年的發(fā)展,截止 2018年年底,NSII 已經(jīng)成為擁有超過 1400 條標本記錄,580 多萬標本照片,近 200 個不同類型的專題的數(shù)字化標本數(shù)據(jù)共享平臺[2]。
國家標本資源共享平臺下設(shè)植物標本、動物標本、教學(xué)標本、保護區(qū)標本、巖礦化石標本和極地標本等 6 個子平臺。2018年8月,國家科技部科技基礎(chǔ)條件平臺對原有的數(shù)據(jù)平臺結(jié)構(gòu)做調(diào)整,經(jīng)過多輪調(diào)研和專家論證后,動物子平臺、巖礦化石子平臺從國家標本資源共享平臺分離出去,分別成長為國家動物標本館和國家?guī)r礦化石標本館,其余 4 個子平臺仍然留在原平臺改名為國家植物標本館,重心轉(zhuǎn)移至實體標本館。平臺重新調(diào)整后,原國家標本資源共享平臺 15年積攢的數(shù)據(jù)狀況如何,基于多年積攢的數(shù)據(jù)還需要做哪些工作,國家標本資源共享平臺將何去何從?這些問題都亟需梳理。
截止 2018年8月15日,NSII數(shù)字化并上線共享標本數(shù)據(jù) 1427.3 萬條。標本類型包括植物、動物、化石、真菌、冰雪樣品、礦物、巖石、沉積物、隕石等,詳細數(shù)量見圖 1。目前,我國數(shù)字化量最多的標本類型為植物 (數(shù)字化量超過 1000 萬份)、動物 (完成數(shù)字化 368 萬份)、化石 (完成數(shù)字化量 7.9 萬份)。平臺調(diào)整后,數(shù)據(jù)在NSII平臺可以繼續(xù)增量的類型為植物標本,其余標本的共享將不在NSII有所體現(xiàn)。
2013-2019年,標本數(shù)字化的量在逐年增加,特別是近兩年,增加標本數(shù)字化量是 NSII 的重中之重。2018年正在承擔的數(shù)字化量為 82.8 萬,2019年計劃量已經(jīng)超過 110 萬 (圖 2)。NSII鼓勵有標本存量的單位,積極推進 NSII 體系,擴大平臺數(shù)據(jù)積累,完成“大數(shù)據(jù)”的原始集成。重點支持館藏量大、具有優(yōu)質(zhì)或特色標本資源但數(shù)字化較少的標本館[3]。
截止 2018年10月1日,NSII 的數(shù)字化標本量已經(jīng)超過 1400 萬,其中植物數(shù)字化標本量超過 1000 萬。根據(jù)紐約植物園對中國標本館館藏量的統(tǒng)計顯示,中國 329 家標本館館藏量為 1868 萬,目前 NSII 已經(jīng)完成數(shù)字化的標本量為 740 萬,占所有館藏量的 39.6% (圖 3),仍有 1128 萬沒有數(shù)字化 (附錄 1)。
標本數(shù)字化包括兩方面內(nèi)容:標本標簽信息的數(shù)字化與標本拍照。標簽信息數(shù)字化是為了記錄采集信息,建立數(shù)據(jù)庫;標本拍照是方便不同人在不同地點遠距離查閱標本。標本拍照是標本數(shù)字化的核心工作。但由于設(shè)備、技術(shù)等種種原因,在起初的數(shù)字化過程中并沒有對所有標本進行拍照。用最新出版的《中國生物物種名錄》 (物種總數(shù)為 42958 種) 與 NSII 現(xiàn)有的數(shù)據(jù)進行匹配后,發(fā)現(xiàn) 12698 種物種仍然沒有數(shù)字化的標本照片 (圖 4)。有標本照片的物種,照片數(shù)量和質(zhì)量懸殊較大。
圖1 國家標本資源共享平臺 (NSII) 數(shù)字化標本分類統(tǒng)計 (截止 2018年8月15日)Fig.1 Classified statistics of digital specimen in NSII (As of August, 15th, 2018)
圖2 標本數(shù)字化數(shù)量的年際增量 (截止 2018.5.7)Fig.2 Interannual dynamics of Digital quantity of specimen (As of May, 7th, 2018)
1.4.1 植物標本照片數(shù)量統(tǒng)計
植物標本照片 100 張以下的數(shù)量最多,高達 23291 種;其次是沒有標本照片的植物有 12698 種;照片數(shù)量在 500-1000、1000-2000、2000-3000 的物種數(shù)量分別為 1071 種、578 種、138 種;標本照片多于 3000 張的物種有 6 種,分別是:油茶 Camellia oleifera (3180 張)、珠芽蓼 Polygonum viviparum (3157 張)、藜 Chenopodium album (3123 張)、魚腥草Houttuynia cordata (3100 張)、龍牙草 Agrimonia pilosa (3046 張)、萹蓄 Polygonum aviculare (3003 張)。 (圖 5)
圖3 NSII 已數(shù)字化標本量占館藏量的比例的標本館的數(shù)量統(tǒng)計Fig.3 The number of Herbariums about the proportion of digitized specimens number to the collection amount in NSII
圖4 國家標本資源共享平臺數(shù)字化植物標本照片數(shù)量統(tǒng)計Fig.4 The number of photos of digital plant specimens in NSII
1.4.2 無標本照片植物的科屬統(tǒng)計
無標本照片的植物物種涉及 328 科,1291 屬。(http://www.nsii.org.cn/2017/wikilet.php?w= NSIIEvents_2018034)
1.4.3 無標本照片植物的省份統(tǒng)計
全國各個省份均有數(shù)字化不到位的物種 (圖 6),每個省份標本數(shù)字化了但沒有標本照片的物種數(shù)不同。其中云南、貴州、四川、新疆和西藏數(shù)字化了標本記錄,但沒有標本照片的物種數(shù)分別是 8016 種、6684 種、5280 種、2405 種和 1921 種。這與各個省份標本數(shù)字化量、各省的植物種類的結(jié)果一致。植物種類越多、數(shù)字化的越多,信息的不完整性也相對較多。
由 NSII 資助的中國自然標本館 (CFH,http://www.cfh.ac.cn/) 是我國植物彩色照片數(shù)量最多的網(wǎng)站,截止 2018年8月15日,CFH 照片數(shù)量已經(jīng)超過 1000 萬張,并且照片量每天以上千張的速度增長。用《中國生物物種名錄》 (物種總數(shù)為 42958 種) 與 CFH 物種的彩色照片名錄匹配后,發(fā)現(xiàn)沒有照片記錄的物種有 21136 種,約占物種總數(shù)的 50.7%;有彩色照片記錄的物種占 49.3%,其中照片數(shù)量在2000張以下的物種有 21601 種,照片數(shù)超過 2000 張的物種有 224 種 (圖 7)。
圖5 國家標本資源共享平臺數(shù)字化植物標本照片數(shù)量范圍統(tǒng)計Fig.5 The range of photos of digital plant specimens in NSII
圖6 國家標本資源共享平臺無標本照片的數(shù)字化標本省際數(shù)量分布Fig.6 Inter provincial quantitative distribution of digital specimens without photos in NSII
圖7 國家標本資源共享平臺植物彩色照片數(shù)量統(tǒng)計Fig.7 The number of chromo photographs of plant specimens in NSII
1.5.1 植物標本照片數(shù)量統(tǒng)計
在 CFH 網(wǎng)站上,仍有 35% 的植物物種沒有彩色照片。照片數(shù)量在 0-100 的物種有 14809 種;照片數(shù)量在 100-500 的物種有 4759 種;照片數(shù)量在 500-1000 的物種有 1291 種;照片數(shù)量在 1000-2000、2000-3000、3000-8000 的物種數(shù)分別是 742 種、167 種、55 種。蓮 Nelumbo nucifera (8476 種) 和菊 Chrysanthemum morifolium (8222 種) 的照片數(shù)量都超過 8000 張 (圖 8)。
1.5.2 無標本照片植物的科屬統(tǒng)計
無標本照片的植物物種涉及 394 科 (圖 9)。其中缺少彩色照片最多的科依次是禾本科 (1333 種)、豆科 (1298 種)、菊科 (1149 種)、薔薇科 (884 種)、毛茛科 (751) 種。在智能化如此普及的現(xiàn)代,仍然有 2 萬多種植物彩色照片需要拍攝與整合。只有將分散的資源集合在一個平臺上,才能更好地服務(wù)科研和科普。
杜鵑花屬 (362 種)、馬先蒿屬 (321 種)、樓梯草屬 (294 種) 是缺失照片最多的 5 個屬。在后期的建設(shè)中,應(yīng)該加大拍攝力度。
1.5.3 植物彩色照片省份統(tǒng)計
植物彩色照片種類和數(shù)量在各個省份表現(xiàn)出較大的差異。彩色照片數(shù)量最多的三個省份依次是云南 (5970),四川 (4234),福建 (3397)(圖 11)。彩色照片收集量在地理上處于不均衡狀態(tài)。西南地區(qū)的云南、四川因為山脈較多,物種相對比較豐富,科研人員的訪問量大,進而帶動積攢的照片較多。同時與當?shù)厝藢τ诒镜刭Y源的電子采集能力與宣傳力度有關(guān)。
圖8 國家標本資源共享平臺數(shù)字化植物彩色照片數(shù)量范圍統(tǒng)計Fig.8 The range of color photographs of digital plant specimens in NSII
圖9 CFH 網(wǎng)站無彩色照片的物種科的統(tǒng)計 (由多到少,排名前 20 個科)Fig.9 Statistics of species families without color photographs from CFH (from top to bottom, top 20 families)
圖10 CFH 網(wǎng)站無彩色照片的物種屬的統(tǒng)計 (由多到少,排名前 20 個科)Fig.10 Statistics of species without color photographs from CFH (from top to bottom, top 20 families)
圖11 國家標本資源共享平臺數(shù)字化的植物彩色照片省際數(shù)量分布Fig.11 Inter provincial quantitative distribution of the color photographs of digital specimens in NSII
植物志書數(shù)字化為科研人員提供諸多便利。志書數(shù)字化也是 NSII 過去十幾年一項重要的工作。NSII 數(shù)字化的志書都是正式出版物,有900多本志書,包括植物志、物種名錄、科考報告、植物圖譜等 (圖 12)。在已出版的志書中,植物志和植物圖譜的數(shù)量較多,并且近幾年植物圖譜的數(shù)量呈現(xiàn)不斷上升的趨勢。植物圖譜數(shù)量的增多與社會發(fā)展緊密相關(guān)。隨著科學(xué)技術(shù)的發(fā)展,相機的普及及像素的提高,植物圖片質(zhì)量越來越高,植物學(xué)家和愛好者更加傾向用圖片的形式記錄植物的形態(tài)和特征。同時人們在學(xué)習了解的過程中已經(jīng)不滿足于單純的文字描述,更愿意以直觀的圖片感受,配以適當簡潔的文字去認識一種植物,這樣的效果更加有效、有趣。所以需求的改變推動了志書類型的轉(zhuǎn)變,讓植物圖譜得到了更大的發(fā)展動力。
圖12 國家標本資源共享平臺已出版植物志書類型統(tǒng)計Fig.12 The types of the published f loras in NSII
NSII 堅持以數(shù)據(jù)建設(shè)為核心,以多方式、多角度、多單位聯(lián)合完善和建設(shè)數(shù)據(jù)。包括數(shù)據(jù)清理計劃、數(shù)據(jù)的查缺補漏、校園網(wǎng)、省級植物數(shù)字標本館等,從不同的角度完善 NSII 數(shù)據(jù)網(wǎng)。
2.1.1 數(shù)據(jù)清理計劃 (http://www.nsii.org.cn/2017/wikilet.php?w=@DBReview)
鼓勵具有專業(yè)能力的單位或?qū)<曳e極參與已有數(shù)字化標本的審核清理,可以審核類群標本數(shù)據(jù)集、區(qū)域標本數(shù)據(jù)集,重點審核標本名稱、采集信息和標本圖片等信息,形成新的數(shù)據(jù)集,供用戶使用。
2.1.2 數(shù)據(jù)的查缺補漏
數(shù)據(jù)是 NSII 的血液,在加強數(shù)字化增量建設(shè)的同時,NSII 注重采用多手段、多角度、多渠道完善已有數(shù)據(jù)。以植物數(shù)據(jù)為例,NSII 以已經(jīng)出版的《中國生物物種名錄》為標準,建立《NSII 植物名錄標準庫》,逐一審查每個物種的描述信息,標本記錄,標本照片,彩色照片等信息。確保 42957 種植物的數(shù)據(jù)完整性。
表1 碩博論文中提取的詞表數(shù)據(jù)Table 1 Vocabulary data extracted from professional papers
表2 1000 篇碩博論文組成的基礎(chǔ)數(shù)據(jù)庫Table 2 Basic databases composed of 1000 professional papers
物種描述字段采用 NSII 數(shù)據(jù)與《中國植物志》、FOC 進行匹配,配完后仍然沒有描述的字段,再從地方植物志、物種發(fā)表的原始文獻等渠道搜索描述;NSII 的標本照片、彩色照片等以公開認領(lǐng)的方式,大量宣傳,鼓勵更多有資源的用戶在 NSII 平臺共享數(shù)據(jù)。
NSII 的數(shù)據(jù)類型包括植物、動物、化石、巖石、礦石、礦物、隕石、沉積物、冰雪樣品和真菌等標本記錄,標本照片,彩色照片等。動植物模式標本、保護區(qū)物種名錄、保護區(qū)數(shù)字標本 (彩色照片)、保護區(qū)邊界、植物的精細解剖等數(shù)據(jù)類型也逐漸納入 NSII 數(shù)據(jù)建設(shè)行列。
NSII 由中國科學(xué)院植物研究所牽頭,下設(shè)植物標本、動物標本、教學(xué)標本、保護區(qū)標本、巖礦化石標本和極地標本 6 個子平臺,共有 196 家參建單位。目前 NSII 的體系是參建單位-子平臺-總平臺的模式運行。為了建設(shè) NSII 大網(wǎng)絡(luò),多渠道聚焦 NSII。NSII 以明星專題的形式推動NSII大網(wǎng)絡(luò)建設(shè)。
2.3.1 省級數(shù)字標本館 (PVH)
省級數(shù)字標本館 Province Virtual Herbarium (簡稱PVH) 是 NSII 創(chuàng)建,基于 NSII 已有的標本數(shù)據(jù),以各省植物分類學(xué)專家團隊維護的省級最新植物名錄為基礎(chǔ),集成 NSII 歷史標本,省內(nèi)各項目的新增標本、野外考察圖片、文獻與專著、在線植物志、植物科普知識等信息為一體的在線標本館。
PVH 的建設(shè)方案如下:以省份為節(jié)點,在 NSII 已有數(shù)據(jù)基礎(chǔ)上,以各省植物志為基礎(chǔ),通過照片、文獻、志書等資料,形成各省植物名錄[3]。以比較完善的名錄為標準,完成名錄中每個物種的標本照片、憑證標本號與保存的標本館、彩色照片、縣級分布點、形態(tài)描述、文獻記載記錄 (研究歷史評述)、模式標本標注、保護利用分析等信息,進而完成對應(yīng)的《省維管植物名錄》、《省維管植物縣級分布數(shù)據(jù)庫》,最終匯集成省級數(shù)字植物標本館 (包括整合后的名錄信息、省級標本分布憑證信息、縣級分布信息、彩色照片信息、文獻信息、新物種、物種記錄信息) 。PVH 是各省紙質(zhì)植物志的一個補充,是推動我國市縣級植物志產(chǎn)生的數(shù)據(jù)基礎(chǔ),為生物多樣性保護和利用提供了豐富可靠的信息。上海、天津、福建、江西、江蘇已經(jīng)加入 PVH。NSII 網(wǎng)站已經(jīng)初步搭建了 PVH 的示范平臺 (上海數(shù)字植物標本館) 。
2.3.2 校園網(wǎng)
大學(xué)校園作為城市生態(tài)系統(tǒng)的重要組成部分,校園網(wǎng)旨在通過補充和完善全國不同地區(qū)大學(xué)校園的植物物種信息和分布點,豐富 NSII 的數(shù)據(jù)內(nèi)容,形成規(guī)范化、可持續(xù)地匯聚以校園植物物種多樣性數(shù)據(jù)為起點的全國性標本資源校園網(wǎng)體系[4-5]。校園網(wǎng)從校園植物名錄、物種彩色照片、物種標本照片、物種在校園中分布可視化定位展示、物種科普和科研推文等方面入手,緊緊圍繞物種數(shù)據(jù)這條主線,在數(shù)據(jù)建設(shè)方面開展工作。2017年有 10 個高校參與校園網(wǎng)建設(shè),2018-2019年有 21 個高校進入校園網(wǎng)網(wǎng)絡(luò)。
2.3.3 NSII 保護地網(wǎng)絡(luò)
此網(wǎng)絡(luò)旨在以單個保護地為節(jié)點,建立保護地的建設(shè)規(guī)范,重點實現(xiàn)單個保護地天-空-地一體化監(jiān)測多源數(shù)據(jù)集的整合和展示發(fā)布,形成單個保護地節(jié)點的建設(shè)示范,逐步推進形成 NSII 保護地數(shù)據(jù)網(wǎng)絡(luò)。
天-空-地一體化監(jiān)測多源數(shù)據(jù)集包括:衛(wèi)星遙感數(shù)據(jù)、土地利用數(shù)據(jù)、高精度無人機低空遙感正射影像、地面調(diào)查監(jiān)測數(shù)據(jù) (植被類型、環(huán)境監(jiān)測數(shù)據(jù)、樣方調(diào)查數(shù)據(jù)、動植物名錄、物種彩色照片、紅外相機數(shù)據(jù)、標本數(shù)據(jù)) 等,多數(shù)據(jù)源在 NSII 實現(xiàn)集成整合并展示。保護地網(wǎng)絡(luò)現(xiàn)在處于示范的建設(shè)階段 (貴州赤水桫欏保護區(qū)示范)。
2.3.4 數(shù)據(jù)建設(shè)示范探索:從碩博論文中挖掘數(shù)據(jù)
當今主流生物多樣性數(shù)據(jù)庫中,無論是 GBIF (the Global Biodiversity Information Facility) 的數(shù)據(jù)庫,還是在 MOL (Map of Life) 項目,文獻數(shù)據(jù)一直是一個重要的數(shù)據(jù)源。文獻因為經(jīng)過專業(yè)出版,認可度很高。但在中國,文獻的作用還遠遠沒有發(fā)揮出來,主要原因在于文獻中的數(shù)據(jù)沒有很好的數(shù)字化和結(jié)構(gòu)化,無法直接調(diào)用[3]。NSII 為了從文獻中挖掘數(shù)據(jù),以 1000 篇碩博論文為材料,探索文獻資源對 NSII 數(shù)據(jù)的貢獻。經(jīng)過初步探索,從 1000 篇生物多樣性相關(guān)的碩博論文中提取 352645 條名錄-頁碼數(shù)據(jù)記錄。此探索為 NSII 從文獻志書中提取物種分布數(shù)據(jù)奠定基礎(chǔ)[1]。
為了更好的發(fā)展標本對科學(xué)的作用,國家的政策傾向于實體標本館,而標本數(shù)字化和數(shù)據(jù)積攢了 15年的 NSII 仍然需要堅定目標,繼續(xù)標本數(shù)字化事業(yè),只有高度融合和精準無誤的數(shù)據(jù)才能更好服務(wù)科研。
在已有 1400 萬份標本資源數(shù)字化信息的基礎(chǔ)上,進一步整合信息資源。主要通過:1) 與國家動物標本館、國家植物標本館等實體庫館實現(xiàn)信息及時共享,擴大數(shù)字化標本資源;2) 通過整合在線的國內(nèi)外數(shù)字化標本資源,如全球生物多樣性信息學(xué)網(wǎng)絡(luò) (GBIF)、法國自然理事博物館等可以在線共享的資源,目標是逐步建立亞洲數(shù)字植物標本館 (Asia Virtual Herbarium)[5]。
在過去的 15年中,NSII 聯(lián)合 200 多家單位數(shù)字化標本 1400 多萬份,急需深入清理。特別是對于歷史年代,數(shù)據(jù)不全,或存在錯誤的數(shù)據(jù),通過專家審核,專人負責,逐條核對,批量審查等多種方式進行清理和校對,保證數(shù)據(jù)庫的準確度,進而使數(shù)據(jù)庫能夠更有效地服務(wù)科研,科普教育和國家決策。首先清理的重點是物種名和分布信息。
優(yōu)先建設(shè):1) 植物物種信息庫,以物種名為關(guān)鍵字段,整合已有的描述信息、標本信息、彩色照片、文獻資料,形成物種信息庫;2) 建設(shè)省級數(shù)字植物標本館網(wǎng)絡(luò),首先整理完善省級植物名錄,然后從 NSII 平臺提取標本、彩色照片、志書和分布信息,建立省級植物標本館。2018年有江西等 5 省在試點,逐年拓展,最后形成覆蓋全國的省級植物標本館網(wǎng)絡(luò);3) 全國大學(xué)校園植物信息網(wǎng),以高校的生物學(xué)教師和學(xué)生為主,梳理和建設(shè)各個高校及所在地區(qū)的校園和實習基地植物信息庫。2018年有 10 所高校參加試點,以后逐年拓展,形成覆蓋全國的網(wǎng)絡(luò)體系;4) 生物多樣性文獻數(shù)據(jù)庫[7-8],數(shù)字化植物志、動物志等文獻信息,從文獻資料中挖掘植物物種信息。目前已經(jīng)數(shù)字化2萬冊圖書,正在逐年拓展[6]。
優(yōu)化網(wǎng)絡(luò)展示,提高用戶體驗。開發(fā)一批面向科研和公眾的工具和應(yīng)用軟件包,實現(xiàn)數(shù)字化標本數(shù)據(jù)的在線挖掘與分析共享[4]:通過地理信息系統(tǒng)等空間環(huán)境圖層的整合和展示,為生物資源的保護與利用提供科學(xué)支持,為科普教育提供平臺和工具,不斷提高用戶體驗和服務(wù)水平。
附錄 我國主要的標本館館藏量及數(shù)字化標本量統(tǒng)計Appendix China's main library collection and digital specimer volume statistics
續(xù)表
續(xù)表
續(xù)表
續(xù)表
續(xù)表
續(xù)表
續(xù)表
續(xù)表
續(xù)表