• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    緬甸植物多樣性數(shù)據(jù)集

    2018-11-17 07:18:20何延彪莊會富王雨華
    關(guān)鍵詞:數(shù)據(jù)量數(shù)據(jù)源名錄

    何延彪,莊會富,王雨華*

    1.中國科學(xué)院昆明植物研究所,科技信息中心,昆明 650201

    數(shù)據(jù)庫(集)基本信息簡介

    數(shù)據(jù)庫(集)名稱 緬甸植物多樣性數(shù)據(jù)集數(shù)據(jù)作者 何延彪、莊會富、王雨華數(shù)據(jù)通信作者 王雨華(wangyuhua@mail.kib.ac.cn)數(shù)據(jù)時間范圍 1800~2017年地理區(qū)域 緬甸及周邊區(qū)域數(shù)據(jù)量 2 GB,合計總數(shù)據(jù)量45.73萬條數(shù)據(jù)格式 結(jié)構(gòu)化文本數(shù)據(jù)數(shù)據(jù)服務(wù)系統(tǒng)網(wǎng)址 http://210.72.88.243 http://www.sciencedb.cn/dataSet/handle/499基金項目 國家科技基礎(chǔ)性工作專項(2013FY112600)數(shù)據(jù)庫(集)組成緬甸生物多樣性數(shù)據(jù)集由 8部分整合而成,參考的數(shù)據(jù)源分別是(1)BHL:Biodiversity Heritage Library—緬甸植物,數(shù)據(jù)量2 921 736條;(2)中國植物物種信息—緬甸植物,數(shù)據(jù)量2 013 806條;(3)中國種子植物—緬甸植物,數(shù)據(jù)量15 842條;(4)Smithsonian Institution—緬甸植物,數(shù)據(jù)量 14 473條;(5)GBIF:Global Biodiversity Information Facility—緬甸植物,數(shù)據(jù)量141 764條;(6)云南植物志—緬甸植物,數(shù)據(jù)量153 396條;(7)eFloras中的FOC,英文版《中國植物志》的緬甸植物,數(shù)據(jù)量5 254條;(8)Tropicos—緬甸植物,數(shù)據(jù)量14 589條。以記載緬甸有分布為原則對上述數(shù)據(jù)源進行清洗和整合,完成緬甸植物多樣性數(shù)據(jù)集,共有45.73萬條數(shù)據(jù)。

    引 言

    緬甸聯(lián)邦共和國(簡稱緬甸)地處東南亞,是全球重要的生物多樣性熱點地區(qū),也是全球生物多樣性保護和研究的熱點地區(qū)之一[1]。關(guān)于緬甸生物多樣性的研究由來已久,形成了大量文獻資料、科學(xué)數(shù)據(jù)記載[2],但因平臺多、信息分散,迄今為止,緬甸還沒有一部科學(xué)完整的植物名錄和相關(guān)科學(xué)數(shù)據(jù)集,這給生物多樣性保護和資源的可持續(xù)利用帶來了巨大障礙。隨著國家“一帶一路”發(fā)展倡議和中國科學(xué)院“走出去”戰(zhàn)略的持續(xù)推進,中緬雙方在植物科學(xué)領(lǐng)域開展了廣泛的合作。近年來成立的中國科學(xué)院東南亞生物多樣性研究中心,為實現(xiàn)緬甸在環(huán)境保護、植物資源可持續(xù)利用等方面提供科技支持。為支撐該研究中心開展植物學(xué)相關(guān)工作,中國科學(xué)院昆明植物研究所信息化團隊通過數(shù)據(jù)集成和分析,將分散在世界各信息平臺關(guān)于緬甸生物多樣的數(shù)據(jù)進行了系統(tǒng)的信息整合。收集了全球各大信息服務(wù)平臺中關(guān)于緬甸植物多樣性的數(shù)據(jù),主要包括標(biāo)本記錄、歷史文獻記載、周邊區(qū)域已完成的植物志等多源信息,通過數(shù)據(jù)清洗、集成,結(jié)合物種區(qū)系分布,深度整合形成了緬甸植物多樣性數(shù)據(jù)集,將為后續(xù)的緬甸植物多樣性保護、研究和資源可持續(xù)利用提供數(shù)據(jù)支撐。

    1 數(shù)據(jù)采集和處理方法

    1.1 數(shù)據(jù)源的篩選

    作為植物多樣性最為豐富的地區(qū)之一,緬甸向來是國際上植物學(xué)的研究熱點區(qū)域。基于植物區(qū)系與植物分布的地域分布連續(xù)性原則,項目組廣泛收集了緬甸及其臨近國家和地區(qū)的植物志、標(biāo)本記錄和相關(guān)記載,如《中國植物志》[3]《Flora of China》[4]《云南植物志》[5]等,以已發(fā)表資料中記錄的“緬甸有分布”,為緬甸植物基礎(chǔ)名錄的確認依據(jù)。整合的資料有中國植物物種信息數(shù)據(jù)庫、iFlora信息平臺和中國種子植物數(shù)據(jù)庫(光盤版);Smithsonian Institution發(fā)布的緬甸植物名錄;eFloras中緬甸相關(guān)記載;GBIF(Global Biodiversity Information Facility)、BHL(biodiversity heritage library)等平臺上緬甸相關(guān)的植物多樣性數(shù)據(jù)[6-12]。

    1.2 基礎(chǔ)數(shù)據(jù)清洗與整合

    中國植物物種信息數(shù)據(jù)庫內(nèi)容涵蓋了中英文版本的中國植物志和云南植物志,通過數(shù)據(jù)庫后臺項目組整合得到了1.1萬條物種記錄。

    Smithsonian Institution—緬甸植物名錄等信息平臺的科技資料具有很高的參考價值,利用網(wǎng)絡(luò)蜘蛛技術(shù)來抓取該目標(biāo)站點數(shù)據(jù),通過提取數(shù)據(jù)索引URL列表、下載網(wǎng)頁數(shù)據(jù)、解析網(wǎng)頁數(shù)據(jù)等流程獲取了1.1萬條緬甸植物名稱信息。

    GBIF:全球生物多樣性信息基礎(chǔ)設(shè)施,是由世界各國政府資助的開放數(shù)據(jù)研究基礎(chǔ)設(shè)施,旨在為任何人提供任何有關(guān)地球上所有類型生命的數(shù)據(jù)。從GBIF站點下載的緬甸植物數(shù)據(jù),是帶格式的文本數(shù)據(jù),通過專用的導(dǎo)入工具直接導(dǎo)入數(shù)據(jù)庫。在導(dǎo)入緬甸數(shù)據(jù)集時,使用的是PLSQL Developer數(shù)據(jù)庫客戶端附帶的文本導(dǎo)入器,完成了12余萬條信息的整合。詳細的數(shù)據(jù)源信息參見表1。

    表1 數(shù)據(jù)集參考的主要信息源

    1.3 提取拉丁學(xué)名索引,構(gòu)建緬甸植物參考名錄

    從結(jié)構(gòu)化文本、半結(jié)構(gòu)化的HTML格式等解析出來的相關(guān)緬甸數(shù)據(jù),會存在一些異常值、特殊標(biāo)記等,需要進一步對數(shù)據(jù)進行清洗處理。對于不確定的異常數(shù)據(jù),挑出來由人工核對。從中國植物物種信息數(shù)據(jù)庫、Smithsonian Institution–緬甸植物名錄、GBIF中提取有關(guān)于緬甸的物種數(shù)據(jù),形成 3個子集。對子集的數(shù)據(jù)進行合并,合并的依據(jù)是拉丁名字段(包括屬名、種加詞、種下等級加詞)。如果是同一個拉丁名,則合并,合并之后標(biāo)記來源。如果在原子集沒有對應(yīng)的拉丁名,則作為新的拉丁名,并標(biāo)識從而完成了GBIF、中國植物志、云南植物志、Smithsonian Institution—緬甸植物名錄等多源資料的聚合,形成相對全面的緬甸植物參考名錄。

    1.4 集成關(guān)聯(lián)數(shù)據(jù),構(gòu)建緬甸植物多樣性數(shù)據(jù)集

    數(shù)據(jù)集成關(guān)聯(lián)數(shù)據(jù)主要包括:

    (1)以拉丁名為數(shù)據(jù)集主鍵

    以上述緬甸植物參考名錄為索引,以簡化的物種Latin名稱為主鍵,關(guān)聯(lián)BHL歷史文獻數(shù)據(jù)、GBIF地理數(shù)據(jù)、植物志物種描述數(shù)據(jù)、物種經(jīng)濟利用等數(shù)據(jù),從而構(gòu)建信息全面的生物多樣性數(shù)據(jù)集。

    (2)對不同分類系統(tǒng),拉丁名為異名數(shù)據(jù)的集成

    針對數(shù)據(jù)源中存在不同分類系統(tǒng),拉丁名為異名的數(shù)據(jù)情況,本數(shù)據(jù)集做了如下處理:

    建立正名與異名對應(yīng)關(guān)系數(shù)據(jù)庫,主要來自于中國植物物種信息、eFloras.org中正名與異名對應(yīng)關(guān)系數(shù)據(jù),這樣可以解決數(shù)據(jù)集中使用異名的問題。

    在數(shù)據(jù)關(guān)聯(lián)處理過程中,一個物種使用拉丁異名來實現(xiàn)連接時,與拉丁正名的對應(yīng)關(guān)系,轉(zhuǎn)換為通過拉丁正名來實現(xiàn)連接。

    本數(shù)據(jù)集是從物種層次集成,通過拉丁正名—異名對應(yīng)關(guān)系來處理不同的數(shù)據(jù)集集成問題,所以對于使用不同分類系統(tǒng)的數(shù)據(jù)集在物種層次影響不大。

    本次收集到的拉丁正名—異名關(guān)系數(shù)據(jù)只涵蓋了部分數(shù)據(jù),今后還將收集全面正名—異名關(guān)系數(shù)據(jù),如集成來源于species2000、EOL、UBIO的正名異名關(guān)系數(shù)據(jù),可以大幅提高物種數(shù)據(jù)的集成度(通過拉丁正名或者異名來關(guān)聯(lián)集成不同數(shù)據(jù)源的數(shù)據(jù))。

    (3)拉丁名規(guī)范化處理(包括拉丁正名和拉丁異名)

    數(shù)據(jù)集集成的關(guān)鍵點在于各子數(shù)據(jù)集的拉丁名遵守同一規(guī)范。因不同的子集會有不同的拉丁名格式,有的子集里面的拉丁名屬名與種加詞之間可能有2個空格,有的是一個;有的帶有作者名,有的不帶作者名,并且作者名還完全有可能不同,可能是簡寫的,也可能是全拼的。此次集成采取的是簡化Latin名稱的辦法,只保留拉丁屬名、種加詞和種下等級加詞,最大可能保障關(guān)聯(lián)與匹配的準(zhǔn)確性。

    整合完成的緬甸生物多樣性數(shù)據(jù)集包含物種名錄信息1.5萬條,物種描述信息1.7萬條,生物多樣性GBIF基礎(chǔ)數(shù)據(jù)14.17萬條,其他BHL文獻信息近30萬條,數(shù)據(jù)量約2 GB。數(shù)據(jù)集成框架如圖1。

    圖1 緬甸植物多樣性科學(xué)數(shù)據(jù)集成框架圖

    1.5 信息服務(wù)平臺的開發(fā)

    為方便科研人員查詢和下載基礎(chǔ)科學(xué)數(shù)據(jù),項目組完成了“緬甸植物多樣性信息平臺”站點的開發(fā),站點以一種簡單、易用、快速的方式,提供智能搜索服務(wù)(圖 2)。解決了多個數(shù)據(jù)合并后存在的數(shù)據(jù)字段及類型眾多、用戶難以選擇搜索類型的問題,增加了數(shù)據(jù)使用的易用性。同時,隨著數(shù)據(jù)用戶的反饋,以及新知識的不斷出現(xiàn),也有利于本數(shù)據(jù)集的及時更新。信息平臺提供了統(tǒng)一的搜索窗口,程序根據(jù)用戶輸入智能判斷可能的類型,并給出提示列表和搜索結(jié)果。平臺支持數(shù)據(jù)檢索、瀏覽和數(shù)據(jù)下載導(dǎo)出服務(wù)(需注冊)。對于 BHL、GBIF和eFloras等外部數(shù)據(jù),平臺僅提供數(shù)據(jù)鏈接,詳細數(shù)據(jù)用戶需到各平臺自行查詢。

    圖2 緬甸植物多樣性信息平臺主頁

    2 數(shù)據(jù)樣本描述

    以檢索“大百合Cardiocrinum giganteum”為例,結(jié)果頁面給出聚合的數(shù)據(jù)源列表,包括中國植物志、Flora of China、中國種子植物光盤,以及BHL、GBIF的相關(guān)數(shù)據(jù)鏈接。點擊可直接跳轉(zhuǎn)至詳細數(shù)據(jù)頁面。典型的數(shù)據(jù)其整合情況為:物種分類等級信息,包括物種的科屬種等分類登記的中文名和拉丁學(xué)名,以及信息的來源出處;物種的英文描述主要來源于Flora of China;物種的中文描述,包括生境、海拔、國內(nèi)外分布、是否引種栽培、標(biāo)本情況等,詳細數(shù)據(jù)樣例參見圖3。

    3 數(shù)據(jù)質(zhì)量控制和評估

    本數(shù)據(jù)集是一個基于已發(fā)布數(shù)據(jù)源集成的應(yīng)用,所以數(shù)據(jù)質(zhì)量控制,主要基于探查數(shù)據(jù)內(nèi)容、結(jié)構(gòu)和異常[2]方面著手。重點探查的過程如下:

    (1)數(shù)據(jù)異常,探查解析后的數(shù)據(jù)是否存在特殊標(biāo)記,如HTML標(biāo)記;

    (2)字段解析,探查解析后的字段是否與原數(shù)據(jù)源相一致,最大程度上避免在解析后數(shù)據(jù)字段丟失的情況。

    (3)隨機抽查,發(fā)現(xiàn)可能的數(shù)據(jù)問題。

    對于異常數(shù)據(jù),字段解析錯誤的數(shù)據(jù)進行了全面排查(通過排查程序和人工查驗方式),在最終集成的數(shù)據(jù)集中刪除了異常和解析錯誤數(shù)據(jù)。集成后的數(shù)據(jù)集,與原始數(shù)據(jù)源的數(shù)據(jù)保持較高的一致。同時為保護數(shù)據(jù)版權(quán),所有外部數(shù)據(jù),在平臺上僅提供索引和鏈接,均采用鏈接的方式提供給用戶。

    通過隨機抽樣統(tǒng)計,數(shù)據(jù)質(zhì)量水平被評估為較高。通過清洗、標(biāo)準(zhǔn)化、集成整合后的數(shù)據(jù)能夠?qū)崿F(xiàn)較高的關(guān)聯(lián)度,各個數(shù)據(jù)與源數(shù)據(jù)源一致性均在95%以上。

    圖3 物種信息詳細頁面展示

    4 數(shù)據(jù)價值

    近年來,生物多樣性科學(xué)數(shù)據(jù)迅速積累,科研工作者面臨的最大問題在于如何快速、精準(zhǔn)地獲取整合數(shù)據(jù)。海量數(shù)據(jù)分散在類型單一、離散、數(shù)據(jù)存儲異構(gòu)、標(biāo)準(zhǔn)規(guī)范不統(tǒng)一的信息平臺中。與人們需要的多類型、多維度高度集成的數(shù)據(jù)需求不相符,所以如何聚合多源科學(xué)數(shù)據(jù),并以此為基礎(chǔ)構(gòu)建滿足科研需求的信息服務(wù),將是以后科學(xué)數(shù)據(jù)庫研究人員的工作重點。通過開展專業(yè)數(shù)據(jù)庫和互聯(lián)網(wǎng)信息數(shù)據(jù)的聚合,集成整合形成了緬甸植物多樣性基礎(chǔ)數(shù)據(jù),如歷史文獻數(shù)據(jù)(BHL數(shù)據(jù)),地理分布數(shù)據(jù)(GBIF數(shù)據(jù)、中國種子植物數(shù)據(jù)),多種類型的物種描述數(shù)據(jù)(eFloras.org物種信息、中國植物物種信息數(shù)據(jù)庫中的中國植物志、云南植物志數(shù)據(jù)),經(jīng)濟利用和保護等級名錄數(shù)據(jù)(中國植物物種信息數(shù)據(jù)庫中收錄的相關(guān)數(shù)據(jù))等,從而形成緬甸植物多樣性大數(shù)據(jù),可以初步展現(xiàn)緬甸植物物種多樣性信息,可以有效支撐科研人員在緬甸開展植物學(xué)采集、考查、研究、資源開發(fā)利用等研究工作。

    目前,國內(nèi)還很少有針對熱點地區(qū)的生物多樣性綜合科學(xué)數(shù)據(jù)集和信息服務(wù)平臺。本數(shù)據(jù)集的構(gòu)建、多數(shù)據(jù)源的集成等方法,可以為構(gòu)建其他區(qū)域性或大尺度的生物多樣性數(shù)據(jù)集提供參考。

    5 數(shù)據(jù)使用方法和建議

    本數(shù)據(jù)集和信息平臺服務(wù)網(wǎng)址為http://210.72.88.243,在Science Data Bank中的相關(guān)鏈接地址為http://www.sciencedb.cn/dataSet/handle/499。相關(guān)頁面與功能參考圖3。整合數(shù)據(jù)的下載見“資源下載”欄目,網(wǎng)址為 http://210.72.88.243/Data/DataBaseList。信息平臺后續(xù)將完善數(shù)據(jù)分析功能,旨在構(gòu)建功能完善的緬甸植物多樣性信息服務(wù)平臺。

    猜你喜歡
    數(shù)據(jù)量數(shù)據(jù)源名錄
    2022.3上榜派出所名錄
    派出所工作(2022年3期)2022-04-14 07:37:18
    基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
    計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
    高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
    寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
    電子制作(2019年13期)2020-01-14 03:15:18
    同賀名錄
    作者名錄
    Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
    生產(chǎn)商名錄
    基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
    绥宁县| 石城县| 巴彦淖尔市| 阳谷县| 神池县| 启东市| 南京市| 辉县市| 沿河| 霍州市| 西吉县| 申扎县| 靖宇县| 镇雄县| 岳池县| 子长县| 博湖县| 平顶山市| 栖霞市| 三亚市| 永靖县| 富顺县| 凤阳县| 紫阳县| 玛沁县| 达拉特旗| 兰州市| 宿州市| 呼和浩特市| 二连浩特市| 措勤县| 将乐县| 资中县| 遂平县| 乌拉特后旗| SHOW| 灯塔市| 出国| 福清市| 长治县| 青铜峡市|