王正興刁慧娟,2
(1.中國科學(xué)院地理科學(xué)與資源研究所,資源與環(huán)境信息系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.中國科學(xué)院大學(xué),北京 100049)
數(shù)據(jù)質(zhì)量管理對數(shù)據(jù)共享的影響
王正興1刁慧娟1,2
(1.中國科學(xué)院地理科學(xué)與資源研究所,資源與環(huán)境信息系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.中國科學(xué)院大學(xué),北京 100049)
數(shù)據(jù)質(zhì)量對數(shù)據(jù)共享是個(gè)“雙刃劍”:對數(shù)據(jù)質(zhì)量要求太低,謬誤散布可能誤導(dǎo)用戶;對數(shù)據(jù)質(zhì)量要求太高,數(shù)據(jù)生產(chǎn)者會因不堪重負(fù)對數(shù)據(jù)共享敬而遠(yuǎn)之。因此,探索一個(gè)數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)用戶都能接受的數(shù)據(jù)質(zhì)量管理機(jī)制對可持續(xù)的數(shù)據(jù)共享極為重要。文章用兩個(gè)案例討論了科研數(shù)據(jù)和政府業(yè)務(wù)數(shù)據(jù)質(zhì)量管理方式對數(shù)據(jù)共享的影響,并用第三個(gè)案例討論了把科研數(shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)數(shù)據(jù)需要注意的原則:生產(chǎn)者和用戶應(yīng)該在關(guān)鍵問題上事先達(dá)成一致意見,特別是,對數(shù)據(jù)質(zhì)量驗(yàn)證需要遵循客觀標(biāo)準(zhǔn)而非主觀感覺。
數(shù)據(jù)質(zhì)量;數(shù)據(jù)質(zhì)量管理;數(shù)據(jù)共享;雙刃劍效應(yīng);科研數(shù)據(jù);業(yè)務(wù)數(shù)據(jù);對接
過去10余年,我國政府部門參與共享的不僅有管理使用的“業(yè)務(wù)數(shù)據(jù)”,還包括政府資助的科研項(xiàng)目開發(fā)的部分“科研數(shù)據(jù)(科學(xué)數(shù)據(jù))”。一些有明顯商業(yè)價(jià)值的遙感影像數(shù)據(jù),例如中巴資源衛(wèi)星(CBERS)和環(huán)境減災(zāi)小衛(wèi)星(HJ-1A/B CCD)二級數(shù)據(jù),已經(jīng)實(shí)現(xiàn)了免費(fèi)的網(wǎng)絡(luò)開放[1-3]。2013年5月28日,科技部國家遙感中心首次向全球發(fā)布了《全球生態(tài)環(huán)境遙感監(jiān)測2012年度報(bào)告》,并開放了全部數(shù)據(jù)庫。
但是,反對政府?dāng)?shù)據(jù)開放的活動(dòng)從未停止。2000年12月,美國國會少數(shù)人把總共只有十幾行的《數(shù)據(jù)質(zhì)量法》,加入712頁的《2001年年度撥款法案》,迫使當(dāng)時(shí)的美國總統(tǒng)克林頓簽字。《數(shù)據(jù)質(zhì)量法》規(guī)定:“在2001年9月30日前,美國白宮預(yù)算局(OMB)主任必須為聯(lián)邦政府各個(gè)部門的數(shù)據(jù)發(fā)布工作制定細(xì)則,各部門都必須建立相應(yīng)的數(shù)據(jù)審查復(fù)核機(jī)制,盡最大可能保證聯(lián)邦政府所發(fā)布數(shù)據(jù)的‘質(zhì)量、客觀性、適用性和完整性’”[4]。2002年《美國聯(lián)邦政府關(guān)于數(shù)據(jù)和信息質(zhì)量管理的規(guī)定》進(jìn)一步明確:“實(shí)用性”指信息對有關(guān)用戶的有用性;“客觀性”指傳播的信息要精確、可靠、無偏見;“完整性”指信息在傳播過程中始終如一,不會遭受中途非法修訂,即用戶獲取的應(yīng)該是發(fā)布者最初的數(shù)據(jù)。在評估數(shù)據(jù)質(zhì)量時(shí),要求采用“同行評議優(yōu)先”原則,大部分?jǐn)?shù)據(jù)還要滿足“數(shù)據(jù)再現(xiàn)性(可重復(fù)性)”要求[5]。這里有個(gè)內(nèi)嵌的邏輯:政府只能發(fā)布“高質(zhì)量”數(shù)據(jù),但是何謂“高質(zhì)量”,卻沒有明確的、可操作的標(biāo)準(zhǔn),因此導(dǎo)致有些利益團(tuán)體以“數(shù)據(jù)質(zhì)量不達(dá)標(biāo)”為由,阻撓對自己不利的政府信息開放[4]。
強(qiáng)調(diào)開放數(shù)據(jù)的“質(zhì)量”,對廣大數(shù)據(jù)用戶來講“是福還是禍”?表面上看,在“政府?dāng)?shù)據(jù)開放大勢已定”的基礎(chǔ)上,提高數(shù)據(jù)質(zhì)量是普通用戶的福音。但過分強(qiáng)調(diào)數(shù)據(jù)質(zhì)量后,政府?dāng)?shù)據(jù)開放依然服從基本的“供求關(guān)系”:在用戶一方,更高質(zhì)量的政府信息開放后,雖然大部分用戶受益,但是還有少數(shù)用戶既得利益受損,他們一定全力阻撓;在數(shù)據(jù)生產(chǎn)者一方,更高的數(shù)據(jù)質(zhì)量需要更多經(jīng)費(fèi)、智力、時(shí)間的投入,如果這些條件難以滿足,就很難獲得可達(dá)到開放水平的高質(zhì)量數(shù)據(jù)。在“完美無缺”和“一無所有”之間,真正有需求的用戶可能連分享稍低質(zhì)量數(shù)據(jù)的機(jī)會也將喪失。
2012年10月22日,意大利拉奎拉地方法院傳來令全世界科學(xué)界驚詫的消息:對6名意大利地震專家和1名意大利民防局官員做出判決,判處這7人6年監(jiān)禁。檢方指控他們在2009年拉奎拉地震中未能向公眾提供“準(zhǔn)確和及時(shí)”的預(yù)警信息,從而導(dǎo)致309人喪生。事情原委是,地震學(xué)家研究發(fā)現(xiàn),像阿奎拉這種地區(qū)群發(fā)地震之后發(fā)生中等程度地震的可能性是2%,如果政府對民眾發(fā)布警告,那么就有98%的可能性會使人們空緊張一場;如果政府不發(fā)出警告,一旦出現(xiàn)大規(guī)模地震,就會導(dǎo)致巨大的人員損傷和財(cái)產(chǎn)損失??茖W(xué)家和民防局官員選擇了前者,結(jié)果獲刑6年[6]。這一判決如同一個(gè)放大鏡,把科學(xué)數(shù)據(jù)應(yīng)用到政府決策中的風(fēng)險(xiǎn)暴露在全世界面前。如果這一判決所依據(jù)的邏輯成立,它所帶來的“寒蟬效應(yīng)”將不僅使意大利地震學(xué)家失聲,還將影響很多領(lǐng)域信息的開放。但對科學(xué)數(shù)據(jù)共享這又是一個(gè)很好的反面教材。它警示我們:數(shù)據(jù)質(zhì)量是把“雙刃劍”,對數(shù)據(jù)質(zhì)量的過低和過高要求,最終都會影響用戶。
本文通過3個(gè)案例的介紹,即案例一介紹“科研數(shù)據(jù)”漸進(jìn)式質(zhì)量管理,案例二介紹政府“業(yè)務(wù)數(shù)據(jù)”一站式質(zhì)量管理,案例三介紹從“科研數(shù)據(jù)”轉(zhuǎn)換為“業(yè)務(wù)數(shù)據(jù)”過程中質(zhì)量管理面臨的挑戰(zhàn),討論數(shù)據(jù)質(zhì)量管理對數(shù)據(jù)開放的影響。。
科學(xué)探索面對許多未知因素,因此不能期望預(yù)先解決所有問題。MODIS植被指數(shù)是對不確定因素實(shí)行開放的、循序漸進(jìn)的管理模式[7]。本節(jié)將以MODIS植被指數(shù)產(chǎn)品為例,探討科學(xué)數(shù)據(jù)共享中的質(zhì)量管理。
2.1 MODIS植被指數(shù)生產(chǎn)算法
MODIS植被指數(shù)的基本產(chǎn)品采用16-day 合成算法:如果16天內(nèi)高質(zhì)量象元在2個(gè)以上,采用“限定視角最大值合成(CV-MVC)”;如果16天內(nèi)至少有一個(gè)有效象元,采用“最大值合成(MVC)”;否則采用歷史平均值填充(圖1)。
圖1 MODIS 16-day植被指數(shù)合成流程
2.2 數(shù)據(jù)生產(chǎn)者對MODIS植被指數(shù)質(zhì)量的管理
圖1顯示,在一個(gè)16-day 合成期內(nèi)得到的數(shù)據(jù)質(zhì)量高低不一。為了使用戶能夠合理地使用這些數(shù)據(jù),植被指數(shù)質(zhì)量管理采用了兩個(gè)層次:象元層次和文件層次。前者就是逐個(gè)象元地描述影響質(zhì)量的各個(gè)因素,并進(jìn)行定量評估;后者就是在產(chǎn)品算法有重大改進(jìn)時(shí),重新處理全部數(shù)據(jù),開放新一版數(shù)據(jù)。象元尺度質(zhì)量評估,首先描述象元的可用性,然后對有問題象元進(jìn)行定性和定量評價(jià)。
(1)象元尺度數(shù)據(jù)可靠性
表1中,質(zhì)量分級“-1”表示“無數(shù)據(jù)”或者“前期多年平均數(shù)據(jù)”;“0”級表示可放心使用;“邊際數(shù)據(jù)”表示“有一定使用價(jià)值但需檢查質(zhì)量評估信息(QA)”;“2”、“3”級表示被冰雪和云霧覆蓋。
表1 MODIS植被指數(shù)象元可靠性
(2)問題象元質(zhì)量等級定量評估
影響MODIS植被指數(shù)質(zhì)量的主要有7種因素,其可靠性等級如表2所示。
表2 MODIS植被指數(shù)象元可靠性的定量評估
①大氣氣溶膠含量:如果因?yàn)槟承┫拗撇荒懿捎脴?biāo)準(zhǔn)氣溶膠反演算法,而采用氣溶膠氣候?qū)W背景數(shù)據(jù),則可靠性等級為“2”;如果氣溶膠含量為“高”,則可靠性等級為“3”。
②大氣臨邊效應(yīng)校正:如果沒有校正,則可靠性等級為“1”。
③大氣雙向反射分布函數(shù)校正:未能對大氣雙向反射分布耦合效應(yīng)進(jìn)行校正,則可靠性等級為“2”。
④混合云:如果可能存在混合云霧,則可靠性等級為“3”。
⑤云影:如果可能存在云影,則可靠性等級為“1”。
⑥傳感器視角:如果傳感器視角大于400(遠(yuǎn)離星下點(diǎn)),則可靠性等級為“1”。
⑦太陽天頂角:如果太陽天頂角大于600(太陽位置偏低),則可靠性等級為“1”。
對任一象元,以上各可靠性等級的累計(jì)值越大,不可靠性越大。“0”值說明沒有任何限制,質(zhì)量最高;最大值“13”說明質(zhì)量最低。這些象元尺度的質(zhì)量評估信息,對后期用戶使用這些數(shù)據(jù)有關(guān)鍵指導(dǎo)作用。
2.3 數(shù)據(jù)用戶對數(shù)據(jù)質(zhì)量的管理
用戶在獲取MODIS植被指數(shù)數(shù)據(jù)時(shí),同時(shí)獲取了象元尺度質(zhì)量信息、處理工具等。因此可對不同質(zhì)量數(shù)據(jù)分別處理。例如,曹云鋒發(fā)現(xiàn),簡單最大值合成(MVC)可能導(dǎo)致MODIS-NDVI“尖峰型噪音(spike)”替代正常數(shù)據(jù),而用質(zhì)量評估信息預(yù)先過濾即可避免這一錯(cuò)誤[8]??蚂`紅對2008年青海省MODIS地表溫度(LST)QA統(tǒng)計(jì)發(fā)現(xiàn),全年平均的白天和夜晚高質(zhì)量像元僅為51%和71.5%[9]。利用49×49移動(dòng)窗口,在各8-day合成期建立高質(zhì)量LST與DEM的回歸關(guān)系,用DEM恢復(fù)低質(zhì)量LST,得到時(shí)空完整的LST時(shí)間序列。這些例子顯示,由于有象元尺度質(zhì)量評估信息的支持,高質(zhì)量的象元可以保留,低質(zhì)量的象元也可以不同程度地得到改進(jìn)。
2.4 科研數(shù)據(jù)質(zhì)量管理模式對數(shù)據(jù)共享影響
案例一的質(zhì)量管理,在“完美無缺”和“一無所有”之外,找到了第三種質(zhì)量管理模式,即象元尺度質(zhì)量描述。作為整體,MODIS植被指數(shù)很難做到完美無缺,如果僅因部分?jǐn)?shù)據(jù)質(zhì)量有缺陷而封閉全部數(shù)據(jù),這對數(shù)據(jù)用戶代價(jià)太高。目前采用的這種“逐象元質(zhì)量描述-版本升級”質(zhì)量管理模式,不僅使數(shù)據(jù)生產(chǎn)者能夠及時(shí)開放數(shù)據(jù),而且使用戶在充分知情的前提下謹(jǐn)慎地使用這些數(shù)據(jù)。這是一種健康的共享模式。
《國務(wù)院關(guān)于開展第二次全國土地調(diào)查的通知》要求,2007年7月至2010年上半年,完成第二次全國土地調(diào)查。從2010年開始每年對第二次全國土地調(diào)查數(shù)據(jù)年度更新。第二次全國土地調(diào)查及其更新項(xiàng)目,按照國土資源部《第二次全國土地調(diào)查技術(shù)規(guī)程》及其相關(guān)實(shí)施方案執(zhí)行[10-11]。本節(jié)將以國土資源部“第二次全國土地調(diào)查”為例,探討“業(yè)務(wù)數(shù)據(jù)”共享中的數(shù)據(jù)質(zhì)量管理。從質(zhì)量控制角度,第二次全國土地調(diào)查數(shù)據(jù)質(zhì)量管理有三大特點(diǎn)。一是統(tǒng)一嚴(yán)格的時(shí)間節(jié)點(diǎn)。第二次全國土地調(diào)查數(shù)據(jù)的統(tǒng)一時(shí)點(diǎn)為2009年10月31日。2010年年度更新,基礎(chǔ)遙感數(shù)據(jù)時(shí)間為2010年8月至2011年1月,屬性時(shí)間統(tǒng)一時(shí)點(diǎn)為2010年12月31日。二是采用高空間分辨率遙感數(shù)據(jù)。第二次全國土地調(diào)查開展4項(xiàng)調(diào)查:農(nóng)村土地調(diào)查、城鎮(zhèn)土地調(diào)查、基本農(nóng)田調(diào)查和專項(xiàng)用地統(tǒng)計(jì)調(diào)查。其中,農(nóng)村土地調(diào)查以1:10000比例尺(圖像空間分辨率不低于2.5m)為主,荒漠、沙漠、高寒等地區(qū)可采用1:50000比例尺(圖像空間分辨率不低于10m),經(jīng)濟(jì)發(fā)達(dá)地區(qū)和大中城市城鄉(xiāng)結(jié)合部,可根據(jù)需要采用1:2000或1:5000比例尺(圖像空間分辨率不低于1m)。城鎮(zhèn)土地調(diào)查宜采用1:500比例尺。在第二次全國土地調(diào)查之后年度更新中[12],將全國劃分為4類工作區(qū),其中面積最大的“三類區(qū)”優(yōu)先采用2m數(shù)據(jù),2m難以保障時(shí)采用5m數(shù)據(jù)(表3)。三是遙感解譯內(nèi)容包括土地權(quán)屬信息。農(nóng)村土地調(diào)查,以縣級行政區(qū)為單位,采用鄉(xiāng)(鎮(zhèn))、行政村、宗地三級編號,逐地塊落實(shí)土地利用的類型、面積、和權(quán)屬。城鎮(zhèn)土地調(diào)查,地籍編號以縣級行政區(qū)為單位,按街道、街坊、宗三級編號,每宗土地落實(shí)類型、面積、和權(quán)屬。由于涉及所有權(quán)、使用權(quán)、權(quán)屬爭議等法律與政策問題,需要規(guī)劃部門、耕地保護(hù)部門、執(zhí)法監(jiān)察部門和地籍部門統(tǒng)一行動(dòng)。
第二次全國土地調(diào)查數(shù)據(jù)可能是目前國內(nèi)質(zhì)量最高的數(shù)據(jù)庫之一,但是由于涉及“地塊”和“宗”尺度的城鄉(xiāng)土地的權(quán)屬等敏感信息,目前開放這些信息面臨一定風(fēng)險(xiǎn)。但是如果僅僅忌憚“地塊和宗尺度權(quán)屬信息”而封閉全部信息必將是因噎廢食,因?yàn)樵摂?shù)據(jù)內(nèi)容豐富,除了“權(quán)屬”,還有“土地利用”信息。至少可以通過“分類-分級”方式,開放一些經(jīng)過匯總的信息,例如省一級、經(jīng)過屬性綜合的空間數(shù)據(jù)庫信息。
前面兩個(gè)案例說明,以探索未知為目的科研數(shù)據(jù)和以管理為目的的業(yè)務(wù)數(shù)據(jù),在許多方面是不同的。但有時(shí)為了充分利用科研數(shù)據(jù)成果,希望把科研數(shù)據(jù)應(yīng)用到政府部門管理中。本節(jié)將以中國科學(xué)院“陸地生態(tài)系統(tǒng)固碳參量遙感監(jiān)測及估算技術(shù)研究”課題的科研數(shù)據(jù)為例,探討把科研數(shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)數(shù)據(jù)過程中的數(shù)據(jù)質(zhì)量管理問題。該課題主要任務(wù)是利用30m分辨率遙感數(shù)據(jù)開發(fā)4個(gè)代表年(1990年, 2000年, 2005年, 2010年)全國土地覆蓋數(shù)據(jù)庫(ChinaCover)。其主要質(zhì)量標(biāo)準(zhǔn)是以省為單位,一級分類精度優(yōu)于90%;二級分類精度優(yōu)于85%。轉(zhuǎn)化后的“業(yè)務(wù)數(shù)據(jù)”,供各省環(huán)保廳評估2000-2005-2010年間生態(tài)環(huán)境變化。修改數(shù)據(jù)庫以滿足各省環(huán)保廳要求的過程稱之為“對接”。
理論上,這種質(zhì)量控制體系結(jié)合了數(shù)據(jù)生產(chǎn)方對遙感分析的優(yōu)勢和用戶方對本地土地覆蓋知識的優(yōu)勢,可以提高數(shù)據(jù)庫質(zhì)量。但把“科研數(shù)據(jù)”轉(zhuǎn)變?yōu)椤皹I(yè)務(wù)數(shù)據(jù)”需要處理一系列分歧。省環(huán)保廳與ChinaCover不一致的情況主要表現(xiàn)在3個(gè)方面:數(shù)據(jù)定義(分類系統(tǒng))、數(shù)據(jù)粒度(尺度,分辨率)和客觀性。
4.1 土地利用/覆蓋分類系統(tǒng)定義的一致性問題
“數(shù)據(jù)打架”是這一問題的通俗說法,即土地覆蓋類型定義差異及分類系統(tǒng)交叉重疊,這不僅出現(xiàn)在科研數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)之間,而且常常出現(xiàn)在各業(yè)務(wù)部分之間。常見幾類定義分歧如表4。了解其中定義的差異,有助于理解、解譯結(jié)果及其分類匯總后的比較。
(1)耕地:國土系統(tǒng)使用的是連續(xù)耕種3年以上“常用耕地”的“凈面積”,而30m遙感提取的耕地包括所有耕地、公路、其他細(xì)小地物、稀疏經(jīng)濟(jì)林等。因此遙感耕地面積往往大于政府統(tǒng)計(jì)面積。
表3 第二次全國土地調(diào)查數(shù)據(jù)年度更新所使用的遙感數(shù)據(jù)
(2)森林:國家林業(yè)局定義的森林包括耕地上的經(jīng)濟(jì)林,但是30m遙感數(shù)據(jù)不能提取低覆蓋的經(jīng)濟(jì)林,而需要足夠多時(shí)相才可能提取高覆蓋經(jīng)濟(jì)林。有些符合國家林業(yè)局森林條件的四旁樹,與居民地在空間上重疊,在ChinaCover中屬于居民地。遙感解譯的森林面積往往低于政府統(tǒng)計(jì)。
(3)濕地:在ChinaCover分類系統(tǒng),亞高山草甸和水稻有單獨(dú)分類,濕地受水體季節(jié)性和年際變化很大,因此對遙感數(shù)據(jù)獲取時(shí)間的一致性要求很高。
4.2 遙感數(shù)據(jù)粒度(尺度)差異問題
遙感數(shù)據(jù)粒度指數(shù)據(jù)的光譜分辨率、空間分辨率、時(shí)間分辨率、時(shí)間序列長度等。高空間分辨率遙感數(shù)據(jù)可識別更多細(xì)節(jié),因此對細(xì)小類型、線狀類型的提取比例較高;低空間分辨率遙感因?yàn)榛旌舷笤獰o法提取這些細(xì)小類型。有些參加過省“第二次土地調(diào)查”的專家,習(xí)慣于對比不同分辨率解譯結(jié)果,質(zhì)疑ChinaCover結(jié)果。數(shù)據(jù)粒度隱含著數(shù)據(jù)庫的建設(shè)成本。第二次土地調(diào)查最常用的5m分辨率,與生態(tài)十年所選擇的30m分辨率相比,前者數(shù)據(jù)量是后者的62=36倍,更不要說以縣為基礎(chǔ)在地塊、宗地尺度上進(jìn)行解譯的工作量差異了。省里提供的部分樣點(diǎn)忽略了遙感數(shù)據(jù)的尺度,只適合高分辨率遙感,無法代表30m空間分辨率數(shù)據(jù)。
4.3 遙感數(shù)據(jù)解譯的客觀性問題
這是對接過程遇到的最棘手的問題。一方面,“專項(xiàng)”的目的顯然是要評估2000-2010年間中國生態(tài)的變化。更具體地說,就是在各地投入“巨資”進(jìn)行生態(tài)建設(shè)以后,生態(tài)條件是否有所改善。但在解讀30m遙感數(shù)據(jù)結(jié)果時(shí),用戶往往忽略了兩個(gè)問題。(1)生態(tài)工程效益滯后性:有些生態(tài)工程即使有效,也需時(shí)日。有些領(lǐng)導(dǎo)期望的數(shù)據(jù),在遙感影像上難以發(fā)現(xiàn)。(2)年際波動(dòng)問題:許多植被覆蓋、濕地等,受降水等自然條件年際波動(dòng)影響很大,有些地區(qū)遠(yuǎn)大于人類活動(dòng)影響,這導(dǎo)致某些年份有些類型也會出現(xiàn)“年際波動(dòng)”,而非期望的“趨勢性”。在與各省環(huán)境保護(hù)等業(yè)務(wù)部門用戶對接時(shí),他們特別不能接受“變來變?nèi)ァ?,即?期中“先增后減”或者“先減后增”。實(shí)際上,對某些嚴(yán)重依賴降水的土地覆蓋類型,“變來變?nèi)ァ笔亲匀粭l件年際變化的結(jié)果,是客觀過程。由于遙感看到的是綜合了自然過程和人類活動(dòng)綜合作用的結(jié)果,而管理部分更關(guān)注生態(tài)建設(shè)成果的趨勢性,因此極易出現(xiàn)認(rèn)知上的分歧。
4.4 數(shù)據(jù)質(zhì)量管理對開放的影響
(1)數(shù)據(jù)質(zhì)量:“由科研數(shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)數(shù)據(jù)”的質(zhì)量控制事實(shí)上有兩個(gè)步驟。
第一步,由數(shù)據(jù)用戶按照每縣20個(gè)左右樣點(diǎn)的密度對數(shù)據(jù)庫實(shí)地驗(yàn)證,這種驗(yàn)證除了少數(shù)樣點(diǎn)在空間尺度上的代表性問題外,基本是客觀的,生產(chǎn)者和用戶也容易解釋分歧。
第二步,由用戶對數(shù)據(jù)的結(jié)果及其變化趨勢進(jìn)行認(rèn)定。這種質(zhì)量控制方式的效果好壞取決于用戶的客觀性和判斷水平。用戶憑借經(jīng)驗(yàn)和感覺對數(shù)據(jù)修改提供建議,生產(chǎn)者與用戶反復(fù)交流,客觀上有利于提高數(shù)據(jù)質(zhì)量,但是,在已經(jīng)通過樣點(diǎn)驗(yàn)證的情況下又質(zhì)疑分類結(jié)果是不合邏輯的。
(2)用戶:由于數(shù)據(jù)庫需要用戶認(rèn)可才能結(jié)題,因此用戶對“高質(zhì)量數(shù)據(jù)”有最終解釋權(quán)。同時(shí),用戶把科研數(shù)據(jù)認(rèn)定為業(yè)務(wù)數(shù)據(jù),涉及有些業(yè)務(wù)部門切身利益,因此對最終數(shù)據(jù)庫驗(yàn)收簽字有很大心理壓力。按不同部門對數(shù)據(jù)庫意見多次提出修改數(shù)據(jù)庫建議,可能使數(shù)據(jù)庫生產(chǎn)者無所適從。如果用戶對某些類型特別感興趣,可在事先對分類系統(tǒng)和樣點(diǎn)布設(shè)重點(diǎn)處理,這樣也使生產(chǎn)者有所側(cè)重。
(3)生產(chǎn)者:在通過驗(yàn)證點(diǎn)檢查之后,“按照用戶感覺修改”這樣的質(zhì)量控制缺少客觀標(biāo)準(zhǔn),實(shí)際是通過10多次會商與專家組和用戶反復(fù)討論與修改,過程長達(dá)數(shù)月,限制了生產(chǎn)者的其他科研活動(dòng)。
表4 不同土地覆蓋數(shù)據(jù)庫常見的定義差異
(4)數(shù)據(jù)共享可持續(xù)性:用戶反饋的某些問題與數(shù)據(jù)粒度有關(guān),而數(shù)據(jù)粒度的基礎(chǔ)是經(jīng)費(fèi)和時(shí)間。實(shí)際上,某些省份一個(gè)代表年的數(shù)據(jù)庫建設(shè)費(fèi)用不足10萬元。這樣低水平的經(jīng)費(fèi)投入與數(shù)據(jù)庫建設(shè)繁重的任務(wù)不相稱,而且數(shù)據(jù)庫建設(shè)工作并沒有納入目前的科研績效評價(jià)體系。綜合這些因素,把“科研數(shù)據(jù)”轉(zhuǎn)變?yōu)椤皹I(yè)務(wù)數(shù)據(jù)”面臨許多不利因素。
本文討論了數(shù)據(jù)質(zhì)量對數(shù)據(jù)共享的“雙刃劍”效應(yīng),重點(diǎn)討論過分要求高質(zhì)量數(shù)據(jù)對數(shù)據(jù)開放的抑制作用。本文通過3個(gè)案例分析了數(shù)據(jù)質(zhì)量管理對數(shù)據(jù)開放的影響。案例一介紹的科研數(shù)據(jù),客觀評估并全部開放質(zhì)量信息,對改進(jìn)數(shù)據(jù)質(zhì)量和數(shù)據(jù)開放都是有益的;案例二介紹的政府業(yè)務(wù)數(shù)據(jù),雖然質(zhì)量很高,但是開放有限,因此全社會不得不進(jìn)行很多重復(fù)性工作;在案例三中,綜合了科研數(shù)據(jù)轉(zhuǎn)換為業(yè)務(wù)數(shù)據(jù)面臨的主要問題。本文主要結(jié)論與建議如下。
(1)對政府部門已有的高質(zhì)量、多用途、高風(fēng)險(xiǎn)的數(shù)據(jù)庫,可以參考案例一的模式,抽取一些具有公共價(jià)值,但是不涉及權(quán)屬風(fēng)險(xiǎn)的信息。這可以極大地實(shí)現(xiàn)政府業(yè)務(wù)數(shù)據(jù)的潛在價(jià)值,并減少國家尺度上重復(fù)性的數(shù)據(jù)采集工作。
(2)對科學(xué)研究中產(chǎn)生的科研數(shù)據(jù)庫,如果要轉(zhuǎn)換為政府管理的業(yè)務(wù)數(shù)據(jù)庫,生產(chǎn)者和用戶雙方需要遵循以下原則:數(shù)據(jù)庫分類系統(tǒng)定義應(yīng)該事先約定;數(shù)據(jù)粒度(尺度,分辨率)事先認(rèn)可;數(shù)據(jù)精度驗(yàn)證需要客觀性標(biāo)準(zhǔn)而非領(lǐng)導(dǎo)的主觀感覺。
(3)數(shù)據(jù)質(zhì)量(或數(shù)據(jù)不確定性)對數(shù)據(jù)共享有“雙刃劍”效應(yīng)。對數(shù)據(jù)質(zhì)量的要求需要把握生產(chǎn)者和用戶的利益平衡:對數(shù)據(jù)質(zhì)量要求過低,用戶利益受損;對質(zhì)量要求過高,生產(chǎn)者壓力過大,會對數(shù)據(jù)共享敬而遠(yuǎn)之。所有潛在的“可共享數(shù)據(jù)”來自數(shù)據(jù)生產(chǎn)者。過去10年,中國的遙感初級產(chǎn)品共享已得到長足發(fā)展,但是需要大量智力投入的遙感高級產(chǎn)品的共享卻仍然困難重重。直接原因是,開發(fā)共享數(shù)據(jù)太難,給共享數(shù)據(jù)挑錯(cuò)太容易。間接原因是,在中國的科研環(huán)境中支持研究性論文,卻不承認(rèn)共享數(shù)據(jù)對科學(xué)研究的貢獻(xiàn),具體表現(xiàn)在研究所科研評價(jià)計(jì)分權(quán)重上。如果用戶不能正確對待數(shù)據(jù)質(zhì)量問題的普遍性、質(zhì)量對尺度甚至科研經(jīng)費(fèi)投入的依賴性,數(shù)據(jù)用戶將會喪失更多分享數(shù)據(jù)的機(jī)會。
[1] 馮春,郭偉,龍小祥,等.我國遙感數(shù)據(jù)共享探討[J].中國科技資源導(dǎo)刊,2010,42(3):66-72.
[2] 郭建寧.促進(jìn)衛(wèi)星遙感數(shù)據(jù)資源共享的思考[J].中國科技資源導(dǎo)刊,2008,40(2):24-29.
[3] 孫中平,魏斌,申文明,等.環(huán)境一號衛(wèi)星數(shù)據(jù)產(chǎn)品共享機(jī)制研究[J].中國工程科學(xué),2011,13(3):38-44.
[4] 徐子沛.大數(shù)據(jù)[M].桂林:廣西師范大學(xué)出版社, 2012, 7: 146-148;152-154.
[5] 劉闖,王正興.國外科學(xué)數(shù)據(jù)管理政策法規(guī)和標(biāo)準(zhǔn)規(guī)范選編[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社, 2004.
[6] 易明燈.意大利6專家預(yù)測地震失誤獲刑6年[EB/OL]. [2013-06-01]. http://news.163.com/12/1024/03/8EI57 HFR00014AED.htm l.
[7] Solano R, Didan k, Jacobson A, et al. MODIS VI User’s Guide [EB/OL].[2013-06-01]. http://tbrs.arizona.edu/ project/MODIS/UserGuideC5/index.htm l.
[8] 曹云峰,王正興,鄧芳萍.基于Timesat的不同濾波算法對NDVI原始高質(zhì)量數(shù)據(jù)的保真性能研究[J].遙感技術(shù)與應(yīng)用, 2010, 25(1): 118-125.
[9] 柯靈紅,王正興,宋春橋,等.青藏高原東北部MODIS LST時(shí)間序列重建及與臺站地溫比較[J].地理科學(xué)進(jìn)展,2011,30(7):819-826.
[10] 國土資源部.第二次全國土地調(diào)查基本農(nóng)田調(diào)查技術(shù)規(guī)程(2008)[EB/OL].[2013-06-01]. http://www.doc88. com/p-983614011427.htm l.
[11] 國土資源部.第二次全國土地調(diào)查實(shí)施方案(2007) [EB/OL].[2013-06-01].http://wenku.baidu.com/view/ 0cadc00f76c66137ee06195b.htm l.
[12] 國土資源部.2010年度全國土地變更調(diào)查與遙感監(jiān)測實(shí)施方案[EB/OL].[2013-06-01].http://www.m lr.gov. cn/zwgk/zytz/201010/t20101026_788670.htm.
Im pact about Data Quality M anagement to Data Sharing
Wang Zhengxing1, Diao Huijuan1,2
(1. Institute of Geographical Sciences and Natural Resources Research, State Key Lab of Resources and Environmental Information System, Beijing 100101; 2. University of Chinese Academy of Sciences, Beijing 100049)
Data quality have a “double-edged sword efect” on data sharing: inferior data may lead user to a w rong study, but over-high quality standard may keep data producer far away from sharing its data. This paper showcased the im pact of data quality management on data sharing in three cases: scientif c data (SD), operation data (OD), and transition from SD to OD. The conclusion: due to its big diference between SD and OD, turning SD to OD needs to reach a agreement on major issues beforehand, especially, a objective system for data quality validation.
data quality, data quality management, data sharing, double-edged sword efect, scientif c data, operation data, docking
G250.74
ADOI:10.3772/j.issn.1674-1544.2013.04.002
王正興(1963- ),男,博士,副研究員,主要研究方向:資源環(huán)境遙感應(yīng)用。
中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)子課題“華北地區(qū)固碳參量遙感監(jiān)測”(XDA05050102)。
2013年7月22日。