王 博,溫繼文
(北京林業(yè)大學(xué)經(jīng)濟(jì)管理學(xué)院,北京 100083)
林業(yè)“開放政府?dāng)?shù)據(jù)”(Open Government Data,OGD)能夠釋放林業(yè)數(shù)據(jù)價(jià)值,提升林業(yè)治理精準(zhǔn)化,改善林業(yè)部門的社會(huì)服務(wù)能力。我國(guó)已建成“國(guó)家林業(yè)數(shù)據(jù)共享服務(wù)平臺(tái)”“中國(guó)林業(yè)數(shù)據(jù)庫(kù)”等開放數(shù)據(jù)平臺(tái),但存在規(guī)范性差、可讀性低、格式單一、難以下載與難以重用等質(zhì)量問題[1],數(shù)據(jù)開放僅流于形式,林業(yè)開放政府?dāng)?shù)據(jù)的質(zhì)量問題逐漸得到關(guān)注。
提高開放政府?dāng)?shù)據(jù)質(zhì)量的前提是實(shí)現(xiàn)數(shù)據(jù)管理的標(biāo)準(zhǔn)化和規(guī)范化,即運(yùn)用元數(shù)據(jù)規(guī)范對(duì)政府?dāng)?shù)據(jù)進(jìn)行科學(xué)描述,以提高政府?dāng)?shù)據(jù)資源的公眾發(fā)現(xiàn)和重用[2],元數(shù)據(jù)質(zhì)量的優(yōu)劣直接影響到開放政府?dāng)?shù)據(jù)的質(zhì)量和效果[3]。目前,國(guó)內(nèi)外學(xué)者主要基于元數(shù)據(jù)元素及元數(shù)據(jù)記錄評(píng)估開放政府?dāng)?shù)據(jù)的質(zhì)量,缺乏系統(tǒng)的開放政府?dāng)?shù)據(jù)質(zhì)量評(píng)估框架和量化方法研究,主要體現(xiàn)在兩個(gè)方面:一方面,沒有分析開放政府?dāng)?shù)據(jù)的“生成-開放-使用”生命周期對(duì)數(shù)據(jù)質(zhì)量的要求;另一方面,主要從數(shù)據(jù)的“內(nèi)容”和“形式”兩個(gè)角度,選取存在性、完整性和可追溯性等指標(biāo)進(jìn)行分析[4],缺乏數(shù)據(jù)“使用質(zhì)量”的研究,無法衡量政府?dāng)?shù)據(jù)開放后的效果和價(jià)值。
本文分析了林業(yè)開放政府?dāng)?shù)據(jù)資源特征,基于開放政府?dāng)?shù)據(jù)生命周期“生成-開放-使用”三個(gè)階段,從開放政府元數(shù)據(jù)元素及元數(shù)據(jù)記錄,構(gòu)建全面衡量林業(yè)開放政府?dāng)?shù)據(jù)的“數(shù)據(jù)形式”“數(shù)據(jù)內(nèi)容”和“數(shù)據(jù)使用”質(zhì)量評(píng)估框架、評(píng)估指標(biāo)及其量化方法,為我國(guó)開放政府?dāng)?shù)據(jù)質(zhì)量評(píng)估提供理論與方法指導(dǎo)。
隨著開放政府?dāng)?shù)據(jù)平臺(tái)資源數(shù)量的高速增長(zhǎng),開放政府?dāng)?shù)據(jù)及相應(yīng)元數(shù)據(jù)的質(zhì)量問題也逐步浮現(xiàn)[5]。近年來,國(guó)內(nèi)外學(xué)者提出了各種元數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)(表1),并逐漸應(yīng)用于開放政府?dāng)?shù)據(jù)的質(zhì)量評(píng)估的研究中。Moen 等[6]確定了21 個(gè)元數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)用于美國(guó)政府信息定位服務(wù)GILS 的評(píng)估;Bruce 等[7]提出了一套與元數(shù)據(jù)的創(chuàng)建和應(yīng)用環(huán)境無關(guān)的評(píng)估體系,研究了7 個(gè)最常見的質(zhì)量元數(shù)據(jù)特征;還有學(xué)者研究了數(shù)據(jù)量、數(shù)據(jù)獲取、完整性、可追溯性、時(shí)效性、精確性等開放政府?dāng)?shù)據(jù)質(zhì)量維度[5,8];也有學(xué)者基于不同元數(shù)據(jù)模式(如DCAT、CKAN、Socrata、OpenDataSoft)評(píng)估開放政府?dāng)?shù)據(jù)的元數(shù)據(jù)質(zhì)量:存在性、合規(guī)性、開放性、完整性、及時(shí)性、許可證、關(guān)聯(lián)性、可訪問性等[9-10]。然而,大多研究?jī)?yōu)先評(píng)估“數(shù)據(jù)形式”與“數(shù)據(jù)內(nèi)容”質(zhì)量,對(duì)“數(shù)據(jù)使用效用”的評(píng)估內(nèi)容不夠充分,而且這些評(píng)估指標(biāo)的研究不夠系統(tǒng)。
國(guó)外學(xué)者較早開展了元數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)量化的研究,并在開放政府?dāng)?shù)據(jù)領(lǐng)域進(jìn)行實(shí)踐和應(yīng)用。Ochoa 等[12]研究了Bruce 等[7]提出的七個(gè)質(zhì)量評(píng)估指標(biāo)的量化方法:①計(jì)算非空記錄數(shù)的占比衡量完整性,提出賦予動(dòng)態(tài)權(quán)重的加權(quán)完整性;②計(jì)算用戶從元數(shù)據(jù)實(shí)例提取的信息與同一用戶可以從資源本身及其上下文獲得的信息之間的語義距離衡量準(zhǔn)確性;③計(jì)算元數(shù)據(jù)記錄內(nèi)容的信息熵衡量元數(shù)據(jù)的期望符合度;④將Flesch 指數(shù)應(yīng)用于衡量用戶理解元數(shù)據(jù)實(shí)例中包含的信息的容易程度;⑤統(tǒng)計(jì)不同時(shí)段的前述質(zhì)量指標(biāo),可得及時(shí)性和溯源性。張曉娟等[3]將該方法應(yīng)用于我國(guó)省級(jí)政府?dāng)?shù)據(jù)開放平臺(tái)的質(zhì)量評(píng)估中;還提出了開放政府?dāng)?shù)據(jù)的更新性定量指標(biāo)[14]。Neumaier 等[9]提出利用數(shù)據(jù)門戶模型的度量函數(shù),通過計(jì)算相應(yīng)DCAT 屬性集合的平均值來評(píng)估元數(shù)據(jù)的質(zhì)量度量,于夢(mèng)月[13]將該方法應(yīng)用于國(guó)內(nèi)數(shù)據(jù)開放門戶的數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。目前,這些指標(biāo)及其量化方法,一部分基于元數(shù)據(jù)結(jié)構(gòu);另一部分基于元數(shù)據(jù)實(shí)例,沒有進(jìn)行系統(tǒng)全面的總結(jié),而且這些指標(biāo)的量化方法應(yīng)用在一般性開放政府?dāng)?shù)據(jù)平臺(tái),缺少對(duì)行業(yè)性開放政府?dāng)?shù)據(jù)平臺(tái)的研究??傮w而言,開放政府?dāng)?shù)據(jù)的元數(shù)據(jù)質(zhì)量評(píng)估,朝著基于元數(shù)據(jù)構(gòu)建定量可測(cè)的質(zhì)量指標(biāo),進(jìn)行自動(dòng)化評(píng)估的方向發(fā)展。
表1 元數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)
目前,國(guó)內(nèi)已經(jīng)建設(shè)了中國(guó)林業(yè)數(shù)據(jù)庫(kù)開放共享平臺(tái)、林業(yè)科學(xué)數(shù)據(jù)中心等平臺(tái),開放了生態(tài)、經(jīng)濟(jì)與社會(huì)三大類具有不同時(shí)態(tài)、格式多樣的林業(yè)政府?dāng)?shù)據(jù)。然而,不同形態(tài)、時(shí)態(tài)的數(shù)據(jù)具有不同的質(zhì)量要求(表2),沒有專有的林業(yè)開放政府?dāng)?shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn),當(dāng)前已經(jīng)有開放政府?dāng)?shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)或規(guī)范實(shí)行,如DCAT 詞匯表、開源數(shù)據(jù)門戶CK‐AN 元數(shù)據(jù)、美國(guó)開放政府?dāng)?shù)據(jù)元數(shù)據(jù)項(xiàng)目POD(Project Open Data),國(guó)內(nèi)針對(duì)林業(yè)科學(xué)數(shù)據(jù)與林業(yè)資源數(shù)據(jù)分別設(shè)有林業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)和森林資源數(shù)據(jù)核心元數(shù)據(jù)兩個(gè)標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)描述了數(shù)據(jù)集的標(biāo)識(shí)、質(zhì)量、空間表示、空間參照、內(nèi)容、數(shù)據(jù)分發(fā)、元數(shù)據(jù)參考以及引用、時(shí)間和聯(lián)系信息與共享信息等內(nèi)容。其中,林業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)以美國(guó)聯(lián)邦地理數(shù)據(jù)委員會(huì)的“地理空間元數(shù)據(jù)的內(nèi)容標(biāo)準(zhǔn)(CSDGM)”和國(guó)際標(biāo)準(zhǔn)ISO TC211 為參考。因此,本文結(jié)合國(guó)際采用的開放政府?dāng)?shù)據(jù)標(biāo)準(zhǔn)(如DC、DCAT、CKAN 等)與林業(yè)專業(yè)數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn),作為本研究依據(jù)的林業(yè)開放政府?dāng)?shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)。
表2 林業(yè)開放政府?dāng)?shù)據(jù)的內(nèi)容、格式及質(zhì)量要求
基于元數(shù)據(jù)的林業(yè)開放政府?dāng)?shù)據(jù)質(zhì)量評(píng)估,是針對(duì)開放政府?dāng)?shù)據(jù)平臺(tái)中的元數(shù)據(jù)結(jié)構(gòu)和元數(shù)據(jù)實(shí)例開展的數(shù)據(jù)質(zhì)量評(píng)估。
開放政府?dāng)?shù)據(jù)質(zhì)量評(píng)估可以借鑒一般的數(shù)據(jù)質(zhì)量評(píng)估,從數(shù)據(jù)的形式、內(nèi)容與效用三個(gè)方面開展研究[15]:①形式質(zhì)量是基于數(shù)據(jù)的基本結(jié)構(gòu)來考察數(shù)據(jù)的質(zhì)量特征;②內(nèi)容質(zhì)量是基于數(shù)據(jù)內(nèi)容來考察數(shù)據(jù)對(duì)事物狀態(tài)的表述程度;③效用質(zhì)量主要考察數(shù)據(jù)產(chǎn)品對(duì)數(shù)據(jù)用戶的效用和價(jià)值以及數(shù)據(jù)滿足數(shù)據(jù)用戶需求的程度。
開放政府?dāng)?shù)據(jù)質(zhì)量評(píng)估又不同于一般的數(shù)據(jù)質(zhì)量評(píng)估,由于開放政府?dāng)?shù)據(jù)存在“生成-開放-使用”的生命周期,每個(gè)階段對(duì)數(shù)據(jù)質(zhì)量具有不同的要求,因此,開放政府?dāng)?shù)據(jù)的質(zhì)量評(píng)估在不同階段具有不同的指標(biāo)。目前,開放政府?dāng)?shù)據(jù)的質(zhì)量評(píng)估大多從“形式質(zhì)量”“內(nèi)容質(zhì)量”層面進(jìn)行分析,缺乏對(duì)“效用質(zhì)量”評(píng)估指標(biāo)的研究,而且沒有結(jié)合開放政府?dāng)?shù)據(jù)生命周期的動(dòng)態(tài)性開展研究。
因此,本文提出從林業(yè)開放政府?dāng)?shù)據(jù)“生成-開放-使用”三個(gè)生命周期階段與“形式-內(nèi)容-效用”三個(gè)質(zhì)量層面的兩個(gè)維度,構(gòu)建林業(yè)開放政府?dāng)?shù)據(jù)的質(zhì)量評(píng)估框架(圖1)。
圖1 林業(yè)開放政府?dāng)?shù)據(jù)的質(zhì)量評(píng)估框架
林業(yè)開放政府?dāng)?shù)據(jù)質(zhì)量的評(píng)估需要考慮多個(gè)維度,本文選擇Bruce 等[7]提出的7 個(gè)最常見的質(zhì)量元數(shù)據(jù)特征作為基礎(chǔ),因其是獨(dú)立于元數(shù)據(jù)的創(chuàng)建和應(yīng)用環(huán)境的評(píng)估體系,具有更廣的應(yīng)用范圍。本著“科學(xué)、全面、針對(duì)性強(qiáng)、易操作”的原則,從元數(shù)據(jù)元素的存在性、元數(shù)據(jù)記錄的完整性、合規(guī)性評(píng)估元數(shù)據(jù)的形式質(zhì)量,基于元數(shù)據(jù)實(shí)例評(píng)估數(shù)據(jù)的內(nèi)容與效用質(zhì)量:開放性、完整性、可理解性、期望符合度、更新性和可訪問性,達(dá)到從“數(shù)據(jù)形式-數(shù)據(jù)內(nèi)容-數(shù)據(jù)使用效用”對(duì)林業(yè)開放政府?dāng)?shù)據(jù)進(jìn)行質(zhì)量評(píng)估。林業(yè)開放政府?dāng)?shù)據(jù)的質(zhì)量評(píng)估內(nèi)容如表3 所示。
表3 林業(yè)開放政府?dāng)?shù)據(jù)的質(zhì)量評(píng)估內(nèi)容
林業(yè)開放政府?dāng)?shù)據(jù)平臺(tái)(以下簡(jiǎn)稱“平臺(tái)P”)提供數(shù)據(jù)集的元數(shù)據(jù)描述,m表示平臺(tái)P上每一個(gè)可用元數(shù)據(jù)描述,一個(gè)元數(shù)據(jù)描述m只對(duì)應(yīng)一個(gè)數(shù)據(jù)集的URL。本文參考文獻(xiàn)[9]定義了平臺(tái)P上一個(gè)元數(shù)據(jù)實(shí)例m的基本質(zhì)量指標(biāo)的度量模型,即
其中,K表示質(zhì)量評(píng)估指標(biāo)涉及的元數(shù)據(jù)元素;f(K)指對(duì)符合K條件的元數(shù)據(jù)實(shí)例進(jìn)行的函數(shù)操作;agg 為聚合函數(shù),用來指定如何聚合所有元數(shù)據(jù)實(shí)例的f值,還可通過聚合多個(gè)基本質(zhì)量指標(biāo)形成綜合質(zhì)量指標(biāo)。
元數(shù)據(jù)元素層的質(zhì)量評(píng)估可從三個(gè)方面入手:①存在,是指是否提供關(guān)鍵性元數(shù)據(jù)元素,衡量元數(shù)據(jù)是否全面、詳盡地描述目標(biāo)資源;②非空,是指在存在元數(shù)據(jù)關(guān)鍵元素的情況下,其實(shí)際的記錄值是否存在缺失值;③符合規(guī)范,是指某些元數(shù)據(jù)是否符合格式規(guī)范要求。
4.2.1 存在性
存在性是衡量平臺(tái)已提供的元數(shù)據(jù)元素存在于元數(shù)據(jù)標(biāo)準(zhǔn)中的存在率,本文將存在性分為簡(jiǎn)單存在度與關(guān)鍵存在度。公式(2)為判斷元數(shù)據(jù)元素K是否存在的布爾函數(shù)ifExistence:
1)簡(jiǎn)單存在度
Metric(K,ifExistence,max)表示平臺(tái)P提供的能與元數(shù)據(jù)標(biāo)準(zhǔn)映射的元數(shù)據(jù)元素K,使用max 聚合函數(shù),表示存在,記為1;count(all_meta_std)表示元數(shù)據(jù)標(biāo)準(zhǔn)中元數(shù)據(jù)元素個(gè)數(shù),則平臺(tái)P的簡(jiǎn)單存在度為:
2)關(guān)鍵存在度
關(guān)鍵存在度是指在生成階段是否提供能夠發(fā)現(xiàn)/檢索、訪問/定位信息;開放階段是否提供數(shù)據(jù)集的管理、維護(hù)信息以及元數(shù)據(jù)信息等關(guān)鍵元素。本文定義了衡量關(guān)鍵存在度必須有的關(guān)鍵性元素列表(表4),表5 所設(shè)的公式(4)~公式(9)定義了計(jì)算平臺(tái)P的關(guān)鍵存在度的方式。
4.2.2 完整性
完整性是指元數(shù)據(jù)中非空元數(shù)據(jù)實(shí)例的比率,以衡量數(shù)據(jù)集是否提供了完整的元數(shù)據(jù)信息,采用簡(jiǎn)單完整度與加權(quán)完整度兩個(gè)完整性指標(biāo)來衡量。本文定義了布爾函數(shù)nonEmpty,確定元數(shù)據(jù)元素K的第i個(gè)元數(shù)據(jù)實(shí)例Ki是否非空:
1)簡(jiǎn)單完整度
簡(jiǎn)單完整度計(jì)算了每個(gè)元數(shù)據(jù)元素的非空實(shí)例的數(shù)量占比。令N代表平臺(tái)P的元數(shù)據(jù)實(shí)例總數(shù),當(dāng)平臺(tái)P的元數(shù)據(jù)元素K的第i個(gè)實(shí)例為空時(shí),則Metric(Ki,nonEmpty) = 0,平臺(tái)P的一個(gè)元數(shù)據(jù)元素K的全部元數(shù)據(jù)實(shí)例的簡(jiǎn)單完整度的計(jì)算方式為
2)加權(quán)完整度
并非所有元數(shù)據(jù)元素都與所有數(shù)據(jù)資源相關(guān),且與上下文同等重要程度相關(guān),因此,加權(quán)完整度提出為每個(gè)元數(shù)據(jù)元素賦予權(quán)重,再進(jìn)行完整度的計(jì)算:
其中,αi為元數(shù)據(jù)元素K的權(quán)重,表示元數(shù)據(jù)元素對(duì)某些上下文或任務(wù)的重要性(或相關(guān)性)的任何正值,如果更頻繁地使用某元素,那么其加權(quán)完整性度量應(yīng)相應(yīng)地改變,這也體現(xiàn)出加權(quán)系數(shù)應(yīng)適應(yīng)用戶需求的變化而變化。
表4 關(guān)鍵性元數(shù)據(jù)元素說明
表5 關(guān)鍵元數(shù)據(jù)元素的關(guān)鍵存在度計(jì)算方法
在計(jì)算平臺(tái)中各元數(shù)據(jù)元素的權(quán)重時(shí),可依據(jù)各元數(shù)據(jù)元素meta 被用戶使用的頻數(shù)動(dòng)態(tài)確定其權(quán)重。本文提出采用熵權(quán)法的原理,根據(jù)各平臺(tái)的元數(shù)據(jù)元素的使用人數(shù)占比率求得各元數(shù)據(jù)元素的權(quán)重,進(jìn)而計(jì)算其加權(quán)完整度。假設(shè)共有P個(gè)平臺(tái),元數(shù)據(jù)標(biāo)準(zhǔn)共有M個(gè)元數(shù)據(jù)元素,平臺(tái)累計(jì)使用的用戶數(shù)為user,M個(gè)元數(shù)據(jù)元素的被使用次數(shù)為use,因此可以計(jì)算求得各個(gè)平臺(tái)的各元素的使用頻率Upm(p= 1,2,…,P;m= 1,2,…,M) (表6),表7為加權(quán)完整度的計(jì)算步驟。
4.2.3 合規(guī)性
合規(guī)性是指應(yīng)具有標(biāo)準(zhǔn)/規(guī)定數(shù)值內(nèi)容的元數(shù)據(jù)元素中合規(guī)的元數(shù)據(jù)實(shí)例個(gè)數(shù)占比。公式(13)定義了檢驗(yàn)元數(shù)據(jù)元素實(shí)例Ki是否合規(guī)的布爾函數(shù)nonCompliance,
當(dāng)平臺(tái)P上K元素的第i個(gè)實(shí)例不合規(guī)時(shí),則Metric(Ki,nonCompliance) = 0。公式(14)計(jì)算了平臺(tái)P的合規(guī)性:
本文提出以下需要具有符合標(biāo)準(zhǔn)/規(guī)定輸入內(nèi)容的元數(shù)據(jù)元素及其合規(guī)性檢驗(yàn)方式(表8)。
表6 各平臺(tái)各元數(shù)據(jù)元素的使用占比數(shù)值表
表7 加權(quán)完整度的計(jì)算步驟
4.3.1 全面性
全面性是衡量林業(yè)開放政府?dāng)?shù)據(jù)內(nèi)容的豐富性,如是否提供了林業(yè)領(lǐng)域各業(yè)務(wù)主題的數(shù)據(jù)內(nèi)容。由于林業(yè)沒有統(tǒng)一的開放政府?dāng)?shù)據(jù)資源目錄,本文以《政務(wù)信息資源分類》[16]為標(biāo)準(zhǔn),整理出以主題、行業(yè)為分類依據(jù)的林業(yè)數(shù)據(jù)主題分類目錄(表9)。本文將“數(shù)據(jù)主題”元數(shù)據(jù)元素作為計(jì)算依 據(jù),使 用Python 的difflib 庫(kù):difflib.Sequence‐Matcher(None,val1,val2).quick_ratio()進(jìn)行文本相似度計(jì)算,得到表9 中與元數(shù)據(jù)實(shí)例具有最高相似度的標(biāo)準(zhǔn)主題分類,以此來標(biāo)注現(xiàn)有平臺(tái)提供的數(shù)據(jù)內(nèi)容的全面性。
4.3.2 可理解性
當(dāng)用戶訪問/下載所需數(shù)據(jù)后,接受、理解數(shù)據(jù)資源內(nèi)容的容易程度至關(guān)重要,因此,衡量元數(shù)據(jù)相關(guān)描述信息能否方便用戶理解數(shù)據(jù)資源內(nèi)容的容易程度(即用戶的可理解性)是元數(shù)據(jù)的質(zhì)量要求。Flesch 指數(shù)可以應(yīng)用于分析元數(shù)據(jù)實(shí)例的長(zhǎng)文本元素(本文將“數(shù)據(jù)描述abstract”作為計(jì)算依據(jù)),當(dāng)Flesch 指數(shù)得分越高,閱讀文本越容易。Python 提供了一個(gè)計(jì)算可閱讀性的包textstat,本文采用內(nèi)置公式textstat.flesch_reading_ease(abstract)計(jì)算abstract 文本的易讀性指標(biāo)作為可理解性,
4.3.3 開放性
開放性的提出基于開放知識(shí)需滿足的三個(gè)要求:①可以自由訪問;②以機(jī)器可讀和開放格式提供;③公開授權(quán)。要求①在可訪問性中已有衡量,本文引入數(shù)據(jù)格式的開放性、機(jī)器可讀、開放許可來衡量要求②和要求③。
表8 元數(shù)據(jù)元素的合規(guī)性檢驗(yàn)方法
表9 林業(yè)開放政府?dāng)?shù)據(jù)主題分類目錄
1)格式開放度
本文應(yīng)用歐盟的開放數(shù)據(jù)監(jiān)測(cè)器OpenDataMon‐itor 項(xiàng)目對(duì)文件格式的評(píng)估中定義的非專屬格式列表[17]:
本文定義了布爾函數(shù)isOpenFormat,
確定數(shù)據(jù)格式是否在開放格式列表中。若平臺(tái)P的第i個(gè)實(shí)例的所記錄的數(shù)據(jù)格式不包含在預(yù)定義的開放格式描述列表中,則Metric(Ki,isOpenFormat)= 0。例如,若某數(shù)據(jù)資源的“數(shù)據(jù)格式”記錄值為“CSV”,則Metric(Ki,isOpenFormat) = 1。公式(17)計(jì)算平臺(tái)P的開放格式數(shù)據(jù)集比率:
2)機(jī)器可讀度
本文應(yīng)用歐盟的開放數(shù)據(jù)監(jiān)測(cè)器OpenDataMon‐itor 項(xiàng)目對(duì)文件格式的評(píng)估中定義的機(jī)器可讀格式列表[17]:
cdf, csv, csv.zip, esri shapefile, geojson, iati, ical,ics, json, kml, kmz, netcdf, nt, ods, psv, psv.zip, rdf, rd‐fa, rss, shapefile, shp, shp.zip, sparql, sparql web form,tsv, ttl, wms, xlb, xls, xls.zip, xlsx, xml, xml.zip
本文定義了布爾函數(shù)isMachineReadable,
判斷元數(shù)據(jù)實(shí)例Ki的數(shù)據(jù)格式的機(jī)器可讀性。若Ki所記錄的數(shù)據(jù)格式包含在預(yù)定義的機(jī)器可讀格式描述列表中,則返回1。例如,若某數(shù)據(jù)資源的“數(shù)據(jù) 格 式” 記 錄 值 為“CSV”, 則 Metric(Ki,isMachineReadable) = 1。同時(shí)定義
計(jì)算平臺(tái)P的機(jī)器可讀數(shù)據(jù)集比率。
3)許可開放度
本文應(yīng)用歐盟的開放數(shù)據(jù)監(jiān)測(cè)器OpenDataMon‐itor 項(xiàng)目對(duì)文件格式的評(píng)估中定義的機(jī)器可讀格式列表[17]:
定義布爾函數(shù)isOpenLicense,判斷元數(shù)據(jù)實(shí)例值是否在開放定義提供的許可證列表中,以評(píng)估指定許可證的方式確認(rèn)每個(gè)數(shù)據(jù)集的許可證的開放性。若Ki所記錄的許可證包含在預(yù)定義的開放許可描述列表中,則返回1。例如,若某數(shù)據(jù)資源的“許可證”實(shí)例值為“OGL”,則Metric(Ki,isOpenLicense) = 1。公式(21)計(jì)算了平臺(tái)P的已知/未知許可證使用率:
4.3.4 更新性
更新性指標(biāo)的設(shè)計(jì)參考了文獻(xiàn)[15],依據(jù)數(shù)據(jù)發(fā)布日期與更新日期來劃分“存量/增量”數(shù)據(jù):數(shù)據(jù)發(fā)布日期在近一年內(nèi)(2018—2019 年),且在更新周期內(nèi)保持最新狀態(tài)的數(shù)據(jù)(即發(fā)布日期與更新日期相同)作為“增量數(shù)據(jù)”。其余的“存量數(shù)據(jù)”中超過更新周期而未進(jìn)行更新的增量數(shù)據(jù)為歷史增量數(shù)據(jù),這部分?jǐn)?shù)據(jù)沒有得到持續(xù)的更新積累,隨時(shí)間的變化價(jià)值逐漸降低。本文并從持續(xù)性、適時(shí)性和活躍性三個(gè)方面對(duì)兩類數(shù)據(jù)的更新狀態(tài)進(jìn)行研究,主要指標(biāo)有:更新積累度、更新及時(shí)度、更新增長(zhǎng)度和更新轉(zhuǎn)化度。
定義布爾函數(shù)isStockOrIncremental,
判斷該數(shù)據(jù)集的數(shù)據(jù)類型。其中,Ds為數(shù)據(jù)首次發(fā)布日期;Du為最近更新日期;De為當(dāng)前調(diào)查日期。
1)持續(xù)性——更新積累度
持續(xù)性的評(píng)估對(duì)象是存量數(shù)據(jù),設(shè)更新積累度為U,將實(shí)際的數(shù)據(jù)集版本數(shù)Va與理應(yīng)更新的期望數(shù)據(jù)集版本數(shù)Vp相除,得到更新積累度。當(dāng)數(shù)據(jù)集的數(shù)據(jù)發(fā)布日期Ds與最近更新日期Du相同時(shí),按照當(dāng)前調(diào)查日期De為截止時(shí)間,數(shù)據(jù)發(fā)布日期Ds為起始時(shí)間,如公式(23)所示,U越大,更新積累度越高:
2)適時(shí)性——更新及時(shí)度
適時(shí)性的評(píng)估對(duì)象是存量數(shù)據(jù),以當(dāng)前調(diào)查日期De為基準(zhǔn)判斷最近更新日期Du是否在規(guī)定的更新周期內(nèi),計(jì)算當(dāng)前調(diào)查日期De與最新更新日期Du的時(shí)間差,并與最新更新日期Du與數(shù)據(jù)首次發(fā)布日期Ds的時(shí)間差做比較。設(shè)及時(shí)度為T,則更新及時(shí)度為
當(dāng)Ds=Du≤De時(shí),認(rèn)為QUpdateness(PT)= 1,此指標(biāo)的計(jì)算值無意義。當(dāng)Ds<Du=De時(shí),QUpdateness(PT)=0,可認(rèn)為更新及時(shí)度最佳。當(dāng)Ds<Du<De時(shí),若QUpdateness(PT) ≥1,則認(rèn)為更新及時(shí)度不合格,T值越大,更新及時(shí)度越低;若QUpdateness(PT) <1 時(shí),則認(rèn)為更新及時(shí)度合格。
3)活躍性——更新增長(zhǎng)度
活躍性的評(píng)估對(duì)象主要是增量數(shù)據(jù),通過計(jì)算增量數(shù)據(jù)相對(duì)于存量數(shù)據(jù)的比重衡量其更新增長(zhǎng)度,設(shè)存量數(shù)據(jù)的數(shù)量為X,增量數(shù)據(jù)的數(shù)量為Y,更新增長(zhǎng)度為Z,則更新增長(zhǎng)度為
Z越大,該數(shù)據(jù)開放平臺(tái)的增量數(shù)據(jù)就越多,即其開放的林業(yè)政府?dāng)?shù)據(jù)越活躍。
4)活躍性——更新轉(zhuǎn)化度
更新轉(zhuǎn)化度可衡量存量數(shù)據(jù)中歷史增量數(shù)據(jù)的有效轉(zhuǎn)化比重,設(shè)更新轉(zhuǎn)化度為W,未轉(zhuǎn)化的歷史增量數(shù)據(jù)數(shù)量為V,則更新轉(zhuǎn)化度為
4.3.5 可訪問性
可訪問性是衡量用戶通過平臺(tái)提供的數(shù)據(jù)資源訪問URL 真正訪問到實(shí)際數(shù)據(jù)資源的程度,這是用戶使用數(shù)據(jù)的基礎(chǔ)保障。評(píng)估內(nèi)容可分為兩部分:①使用正則表達(dá)式驗(yàn)證Access URL、Download URL的訪問屬性的值是否為有效HTTP URL;②通過使用GET 請(qǐng)求返回HTTP 狀態(tài)代碼展示錯(cuò)誤狀態(tài)碼的分布。
1)URL 有效度
定義布爾函數(shù)isValidURL,
通過正則表達(dá)式“[a-zA-z]+://[^s]*”分別檢驗(yàn)Ac‐cess URL、Download URL 的有效性。公式(28)計(jì)算了平臺(tái)P的URL 有效度,規(guī)定了有效URL 的標(biāo)識(shí)過程:
若平臺(tái)P的第i個(gè)實(shí)例的所記錄的“訪問地址”或“下載地址”其中一個(gè)為有效值,則max 函數(shù)使得Metric(K{訪問地址,下載地址}i,isValidUrl,max)=1。
2)錯(cuò)誤狀態(tài)碼
本文定義了函數(shù)isErrorCode,
通過獲取GET 請(qǐng)求的HTTP 狀態(tài)代碼來計(jì)算錯(cuò)誤狀態(tài)碼(error status codes)的分布。參考美國(guó)“開放數(shù)據(jù)項(xiàng)目(Project Open Data) ”的儀表板在線系統(tǒng),分別為5 種狀態(tài)碼給定從0~1 的5 等距得分作為此函數(shù)的值。公式(30)使用max 函數(shù)統(tǒng)計(jì)了平臺(tái)P中第i個(gè)實(shí)例的所記錄的“訪問地址”或“下載地址”返回的狀態(tài)碼函數(shù)值,
因而可基于展示出URL 狀態(tài)碼的分布,求得平臺(tái)P的URL 狀態(tài)碼分值。
4.3.6 期望符合度
期望符合度是衡量提供的元數(shù)據(jù)內(nèi)容滿足數(shù)據(jù)用戶需求的程度,可通過測(cè)量元數(shù)據(jù)實(shí)例信息量的方法來估計(jì)其與用戶的期望的一致性。熵通常被用來衡量一條信息的信息內(nèi)容,計(jì)算元數(shù)據(jù)實(shí)例的信息熵,需先將元數(shù)據(jù)元素歸為兩類:受控值元素的信息量和自由文本元素的信息量[18]。
1)受控值元素的信息量
需從受控詞匯表中取值的元素為“受控值元素”,記為control_meta,通過計(jì)算平臺(tái)P上所有元數(shù)據(jù)實(shí)例中該受控值元素中存在value 值的相對(duì)頻次并將其標(biāo)準(zhǔn)化,使其從最小值0(最低質(zhì)量)到最大值1(最高質(zhì)量)變化,
表示平臺(tái)P上受控值元素在第i個(gè)元數(shù)據(jù)實(shí)例中的信息量。設(shè)C為受控值元素?cái)?shù)量,control_metaj為第j個(gè)受控值元素,公式(32)表示平臺(tái)P上所有元數(shù)據(jù)實(shí)例的所有受控值元素的平均信息熵:
2)自由文本元素的信息量
取值為自由文本的元素為“自由文本值元素”,記為freetext_meta。對(duì)于自由文本元素,信息內(nèi)容計(jì)算需要估計(jì)每個(gè)單詞在每個(gè)元素中的貢獻(xiàn),因此,選擇使用術(shù)語頻率-逆文檔頻率(TFIDF)值計(jì)算單詞的重要性。公式(33)提供了平臺(tái)P上自由文本信息元素freetext_meta 在第i個(gè)元數(shù)據(jù)實(shí)例中的信息量?jī)?nèi)容的計(jì)算:
其中, tf(wordw) 表示第w個(gè)詞的術(shù)語頻率;df(wordw)表示第w個(gè)詞的文檔頻率;W表示該自由文本值元素freetext_meta 中有效詞的個(gè)數(shù)。設(shè)T為自由文本元素?cái)?shù)量,freetext_metaj為第j個(gè)自由文本值元素,公式(34)計(jì)算了數(shù)據(jù)開放平臺(tái)P上所有元數(shù)據(jù)實(shí)例的所有自由文本元素的平均信息熵:
4.3.7 使用性
使用率的衡量主要基于用戶行為數(shù)據(jù),本文將用戶使用行為歸納為“檢索→瀏覽→下載/分享→反饋”,其使用行為數(shù)據(jù)包括數(shù)據(jù)集的被檢索次數(shù)、瀏覽時(shí)長(zhǎng)、瀏覽次數(shù)、下載次數(shù)、分享次數(shù)與分享目的地,以及評(píng)分與評(píng)價(jià)內(nèi)容等。因此,本文提出“使用轉(zhuǎn)化度”質(zhì)量指標(biāo),定義了Filler 函數(shù),
來度量每一個(gè)元數(shù)據(jù)實(shí)例的相鄰用戶行為(K1,K2)的轉(zhuǎn)化度。公式(36)計(jì)算了平臺(tái)P上所有元數(shù)據(jù)實(shí)例的該相鄰行為的轉(zhuǎn)化度:
4.3.8 及時(shí)性
元數(shù)據(jù)實(shí)例的瞬時(shí)值在給定的時(shí)間可以等同于其整體質(zhì)量[12],本文將前述指標(biāo)的平均值用作平臺(tái)元數(shù)據(jù)質(zhì)量的瞬時(shí)估計(jì)值。設(shè)Qi為第i個(gè)指標(biāo)的度量值,count(Q)為前述指標(biāo)的數(shù)量,公式(37)計(jì)算了平臺(tái)P在當(dāng)前時(shí)間下的元數(shù)據(jù)質(zhì)量瞬時(shí)值:
設(shè)t1、t2、t3為不同時(shí)間節(jié)點(diǎn),以t2對(duì)應(yīng)當(dāng)前時(shí)間,t3為期望Qcurr估計(jì)的時(shí)間,公式(38)通過測(cè)量一段時(shí)間內(nèi)瞬時(shí)值的變化率來估計(jì)元數(shù)據(jù)實(shí)例的及時(shí)度Qtime:
能表明質(zhì)量變化的方向。Qtime(t2-t1)為(t1-t2)間隔期間的及時(shí)度,公式(39)可估計(jì)未來時(shí)間的元數(shù)據(jù)質(zhì)量:
本文的結(jié)論主要有三方面:第一,基于林業(yè)開放政府?dāng)?shù)據(jù)資源特征與開放政府?dāng)?shù)據(jù)生命周期理論,分別從開放政府?dāng)?shù)據(jù)生命周期“生成-開放-使用”三個(gè)階段與“形式-內(nèi)容-效用”三個(gè)質(zhì)量層面,構(gòu)建了林業(yè)開放政府?dāng)?shù)據(jù)質(zhì)量評(píng)估框架;第二,針對(duì)目前開放政府?dāng)?shù)據(jù)質(zhì)量評(píng)估中缺乏“效用質(zhì)量”的研究現(xiàn)狀,提出從元數(shù)據(jù)元素的存在性、元數(shù)據(jù)實(shí)例的完整性、合規(guī)性評(píng)估數(shù)據(jù)質(zhì)量,基于元數(shù)據(jù)實(shí)例評(píng)估林業(yè)開放政府?dāng)?shù)據(jù)的全面性、可理解性、開放性、更新性、可訪問性、期望符合度、使用性與及時(shí)性;第三,通過定義質(zhì)量評(píng)估指標(biāo)度量模型,提出質(zhì)量評(píng)估指標(biāo)的量化公式,構(gòu)建全面衡量林業(yè)開放政府?dāng)?shù)據(jù)質(zhì)量評(píng)估框架、評(píng)估指標(biāo)及其量化方法,為一般開放政府?dāng)?shù)據(jù)質(zhì)量評(píng)估提供借鑒。
本文提出的基于元數(shù)據(jù)的林業(yè)開放政府?dāng)?shù)據(jù)質(zhì)量評(píng)估方法還有待于進(jìn)一步驗(yàn)證,接下來的研究主要有兩個(gè)方面。一方面,通過采集現(xiàn)有林業(yè)開放政府?dāng)?shù)據(jù)平臺(tái)的元數(shù)據(jù)元素與元數(shù)據(jù)實(shí)例,應(yīng)用本文提出的質(zhì)量評(píng)估量化方法,驗(yàn)證基于元數(shù)據(jù)的林業(yè)開放政府?dāng)?shù)據(jù)質(zhì)量評(píng)估指標(biāo)的可靠性和可行性;另一方面,林業(yè)開放政府?dāng)?shù)據(jù)質(zhì)量自動(dòng)評(píng)估系統(tǒng)是管控林業(yè)開放政府?dāng)?shù)據(jù)質(zhì)量的重要方式,將質(zhì)量評(píng)估指標(biāo)的量化方式納入系統(tǒng),能夠?qū)崿F(xiàn)定期檢測(cè)、自動(dòng)評(píng)估開放政府?dāng)?shù)據(jù)平臺(tái)的數(shù)據(jù)質(zhì)量,不僅有助于幫助政府發(fā)現(xiàn)開放數(shù)據(jù)的質(zhì)量問題,還能使人們以創(chuàng)新的方式使用數(shù)據(jù),提升開放政府?dāng)?shù)據(jù)的價(jià)值。