• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    從數(shù)據(jù)質(zhì)量到數(shù)據(jù)產(chǎn)品質(zhì)量

    2022-05-13 05:32:44蔡莉朱揚勇
    大數(shù)據(jù) 2022年3期
    關(guān)鍵詞:評測產(chǎn)品質(zhì)量對象

    蔡莉,朱揚勇

    1. 云南大學(xué)軟件學(xué)院,云南 昆明 650504;

    2. 復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院,上海 200438;

    3. 上海市數(shù)據(jù)科學(xué)重點實驗室,上海 200438

    0 引言

    數(shù)據(jù)作為信息化的副產(chǎn)品,長期以來處于自產(chǎn)自用的狀態(tài),數(shù)據(jù)質(zhì)量研究也集中在數(shù)據(jù)自產(chǎn)自用過程中的質(zhì)量管理和控制方面。數(shù)據(jù)質(zhì)量是隨著信息系統(tǒng)的發(fā)展而出現(xiàn)的,數(shù)據(jù)質(zhì)量會直接影響信息系統(tǒng)的運行效果,因此需開展數(shù)據(jù)質(zhì)量研究[1]。數(shù)據(jù)質(zhì)量逐漸形成一個專業(yè)的研究領(lǐng)域,并涌現(xiàn)出許多重要的研究成果。在20世紀(jì)70年代至90年代,數(shù)據(jù)質(zhì)量問題的研究更多來源于行業(yè)應(yīng)用,如會計領(lǐng)域、管理領(lǐng)域、統(tǒng)計領(lǐng)域和計算機領(lǐng)域[2],沒有一個關(guān)于數(shù)據(jù)質(zhì)量的統(tǒng)一知識體系[3];在1990—1999年,美國麻省理工學(xué)院(MIT)的數(shù)據(jù)質(zhì)量研究小組在Wang R Y教授[4]的帶領(lǐng)下提出了全面數(shù)據(jù)質(zhì)量管理(total data quality management,TDQM)的理論,美國國會要求聯(lián)邦政府的行政管理和預(yù)算局(Office of Management and Budget,OMB)制定新的政策,確保所發(fā)布數(shù)據(jù)的可靠性,即數(shù)據(jù)要有質(zhì)量[5];2005年,國際標(biāo)準(zhǔn)化組織(International Organization for Standardization,ISO)下設(shè)的委員會開始組織撰寫ISO 8000標(biāo)準(zhǔn)[6],2001年美國國會正式批準(zhǔn)“信息質(zhì)量法”[7]。

    市場上流通的產(chǎn)品被稱為商品,任何一種在市場上流通的商品在上市前都需要滿足一定的產(chǎn)品質(zhì)量標(biāo)準(zhǔn)、規(guī)范或要求,數(shù)據(jù)產(chǎn)品亦不例外。因此,數(shù)據(jù)從自用到商品這個質(zhì)的變化也必將表現(xiàn)在數(shù)據(jù)質(zhì)量上,有關(guān)數(shù)據(jù)的質(zhì)量研究和實踐需要從關(guān)注原始數(shù)據(jù)質(zhì)量到關(guān)注數(shù)據(jù)產(chǎn)品質(zhì)量、從內(nèi)部質(zhì)量控制到外部質(zhì)量檢測,即數(shù)據(jù)用戶和政府監(jiān)管部門要對數(shù)據(jù)產(chǎn)品的質(zhì)量提出要求并進行檢測。本文針對數(shù)據(jù)產(chǎn)品的質(zhì)量需求,構(gòu)建了一個數(shù)據(jù)產(chǎn)品的質(zhì)量體系,該體系包括數(shù)據(jù)產(chǎn)品質(zhì)量的使用需求、數(shù)據(jù)產(chǎn)品質(zhì)量的監(jiān)管需求、數(shù)據(jù)產(chǎn)品質(zhì)量評測等6個部分。該體系能為監(jiān)管機構(gòu)或消費者提供切實可行的檢測依據(jù)和標(biāo)準(zhǔn)。本文以盒裝數(shù)據(jù)為例,將數(shù)據(jù)產(chǎn)品質(zhì)量體系具體化。

    1 關(guān)于數(shù)據(jù)的質(zhì)量新需求

    1.1 數(shù)據(jù)產(chǎn)品質(zhì)量現(xiàn)狀

    農(nóng)業(yè)經(jīng)濟時代的關(guān)鍵生產(chǎn)要素是勞動力和土地,工業(yè)經(jīng)濟時代的關(guān)鍵生產(chǎn)要素是資本和技術(shù),而自大數(shù)據(jù)出現(xiàn)以來,數(shù)據(jù)是數(shù)字經(jīng)濟的關(guān)鍵要素成為共識[8],從數(shù)據(jù)滿足企業(yè)自身信息系統(tǒng)運行到將數(shù)據(jù)拿到市場上流通,這是數(shù)據(jù)的質(zhì)的變化。

    美國農(nóng)業(yè)部經(jīng)濟研究服務(wù)機構(gòu)下設(shè)數(shù)據(jù)產(chǎn)品審查委員會,該委員負(fù)責(zé)監(jiān)督和實施數(shù)據(jù)產(chǎn)品必須遵循的質(zhì)量需求,確保每個數(shù)據(jù)產(chǎn)品都符合實用性、客觀性、透明度、完整性和可訪問性標(biāo)準(zhǔn)[9]。美國國家環(huán)境信息中心世界海洋數(shù)據(jù)庫(world ocean database,WOD)對其發(fā)布的海洋剖面和海洋生物觀測數(shù)據(jù)產(chǎn)品有著嚴(yán)格的質(zhì)量控制流程,保障了數(shù)據(jù)產(chǎn)品的穩(wěn)定性和權(quán)威性[10]。上述關(guān)于數(shù)據(jù)產(chǎn)品質(zhì)量的做法仍然局限在某些部門或領(lǐng)域,不是嚴(yán)格意義上的數(shù)據(jù)產(chǎn)品質(zhì)量,其數(shù)據(jù)產(chǎn)品并不具有通用性和市場流通性。在國內(nèi)數(shù)據(jù)要素市場建設(shè)方面,有30多家數(shù)據(jù)交易機構(gòu)基本沒有對數(shù)據(jù)產(chǎn)品的質(zhì)量進行監(jiān)管,僅2021年11月25日成立的上海數(shù)據(jù)交易所對交易標(biāo)的的數(shù)據(jù)質(zhì)量進行了明確要求[11]。

    在市場上流通的數(shù)據(jù)應(yīng)該是數(shù)據(jù)產(chǎn)品,數(shù)據(jù)產(chǎn)品具有數(shù)據(jù)類別格式多種多樣、數(shù)據(jù)規(guī)模大小不一、數(shù)據(jù)對象內(nèi)容千差萬別等特點,因此要形成一個被廣泛認(rèn)可的數(shù)據(jù)產(chǎn)品標(biāo)準(zhǔn)形態(tài),在此基礎(chǔ)上才能構(gòu)建出一個合理的、具備權(quán)威性的數(shù)據(jù)質(zhì)量體系。一旦數(shù)據(jù)產(chǎn)品質(zhì)量體系構(gòu)建完成,市場監(jiān)管部門就可以根據(jù)數(shù)據(jù)產(chǎn)品質(zhì)量標(biāo)準(zhǔn)檢測市場上流通的數(shù)據(jù)產(chǎn)品質(zhì)量,而數(shù)據(jù)產(chǎn)品生產(chǎn)企業(yè)就可以根據(jù)數(shù)據(jù)產(chǎn)品質(zhì)量標(biāo)準(zhǔn)管控數(shù)據(jù)生成過程各個環(huán)節(jié)的數(shù)據(jù)質(zhì)量問題,提升數(shù)據(jù)產(chǎn)品質(zhì)量,達(dá)到產(chǎn)品質(zhì)量標(biāo)準(zhǔn)。

    1.2 數(shù)據(jù)產(chǎn)品質(zhì)量的使用者需求

    數(shù)據(jù)產(chǎn)品在市場上流通,給他人使用,即數(shù)據(jù)的“他用需求”。那么使用者(購買者)對數(shù)據(jù)產(chǎn)品的質(zhì)量有什么需求呢?目前,在數(shù)據(jù)交易市場上,數(shù)據(jù)產(chǎn)品的使用者對產(chǎn)品質(zhì)量的需求有如下幾個方面。

    (1)數(shù)據(jù)量充裕

    不同行業(yè)或者應(yīng)用場景下,數(shù)據(jù)購買者對數(shù)據(jù)量的需求有所不同。例如,一家做醫(yī)藥O2O(online to offline)的電商平臺希望購買能提供藥品-病癥之間的關(guān)系的數(shù)據(jù)集。國內(nèi)市場上銷售的常規(guī)藥品的數(shù)量達(dá)到6萬種,如果所購買的數(shù)據(jù)產(chǎn)品中的數(shù)據(jù)對象能涵蓋這6萬種藥品,那么數(shù)據(jù)量就符合購買者的需求。再如,購買者需要利用出租車的全球定位系統(tǒng)(global positioning system,GPS)軌跡數(shù)據(jù)分析居民出行的熱點區(qū)域[12],假定購買者所在城市大約有7 300輛出租車,如果數(shù)據(jù)集能涵蓋全部出租車的運行數(shù)據(jù),那么數(shù)據(jù)量也符合購買需求。此外,數(shù)據(jù)量還與時間有一定關(guān)聯(lián)。一個月的出租車運行數(shù)據(jù)肯定比一周的運行數(shù)據(jù)更加充足,從中獲取的數(shù)據(jù)分析或者數(shù)據(jù)挖掘的結(jié)果也更加準(zhǔn)確。因此,數(shù)據(jù)量表示了在某一應(yīng)用場景下,數(shù)據(jù)購買者對數(shù)據(jù)產(chǎn)品所涵蓋數(shù)據(jù)集的廣度和深度的要求。

    (2)來源權(quán)威

    數(shù)據(jù)產(chǎn)品是否由權(quán)威機構(gòu)提供,或者由權(quán)威專家或?qū)I(yè)人員參與數(shù)據(jù)產(chǎn)品的采集、處理、實現(xiàn)和發(fā)布,以及比對的標(biāo)桿是否來源于權(quán)威資料,也是數(shù)據(jù)購買者關(guān)注的質(zhì)量需求之一[13]。以前文的藥品數(shù)據(jù)產(chǎn)品為例,通常能提供藥品信息的權(quán)威機構(gòu)是藥品監(jiān)督管理局,但其提供的數(shù)據(jù)并不包括疾病方面的信息,無法滿足購買者的需求。于是,購買者退而求其次,只能從一家提供藥學(xué)服務(wù)的公司購買所需要的數(shù)據(jù)產(chǎn)品。

    (3)數(shù)據(jù)準(zhǔn)確

    數(shù)據(jù)產(chǎn)品的準(zhǔn)確性是數(shù)據(jù)購買者關(guān)注的第三個質(zhì)量需求,數(shù)據(jù)產(chǎn)品的準(zhǔn)確性越高,其可信度越高,所能產(chǎn)生的數(shù)據(jù)價值也就越高;反之,則可信度越低,數(shù)據(jù)價值也越低[14]。準(zhǔn)確性的衡量比較困難,當(dāng)有標(biāo)準(zhǔn)數(shù)據(jù)集或者參考數(shù)據(jù)集時,可以將數(shù)據(jù)對象與之進行對比,確定其準(zhǔn)確性。否則,只能在一定誤差范圍內(nèi)確定準(zhǔn)確性。在上述例子中,可以將藥品數(shù)據(jù)產(chǎn)品中的部分信息與藥品監(jiān)督管理局提供的藥物信息進行對比,以確定內(nèi)容的準(zhǔn)確性。但是,出租車的GPS軌跡數(shù)據(jù)沒有對應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)集或者參考數(shù)據(jù)集,只能在一個給定的限制條件下判斷其準(zhǔn)確性。例如,如果一輛出租車在工作日早高峰某個時間點的車速達(dá)到 120 km/h,基本可以判斷這一數(shù)值是錯誤的。

    (4)數(shù)據(jù)之間的一致性

    數(shù)據(jù)產(chǎn)品中的數(shù)據(jù)對象都有一些屬性或者字段,有些屬性之間會存在一定的關(guān)聯(lián)關(guān)系或者映射關(guān)系,這些關(guān)系可以被統(tǒng)稱為一致性。例如,郵政編碼與地址信息存在一種映射關(guān)系,郵政編碼涵蓋了周邊一定投遞范圍內(nèi)的地址信息。如果兩者不匹配,那就破壞了一致性的質(zhì)量需求。另外,有些數(shù)據(jù)產(chǎn)品直接來源于數(shù)據(jù)庫中不同表之間的連接查詢結(jié)果,一張表中某個屬性的取值范圍由另一張表中對應(yīng)屬性的取值確定,這也是一致性需求的體現(xiàn)。

    (5)數(shù)據(jù)產(chǎn)品的時間

    有一些應(yīng)用場景對數(shù)據(jù)產(chǎn)品的發(fā)布時間或者更新時間有明確要求,甚至希望能提供近乎實時的數(shù)據(jù)。例如,某導(dǎo)航公司準(zhǔn)備提供實時路況的查詢功能,因而需要購買浮動車數(shù)據(jù)。所謂浮動車就是安裝了GPS設(shè)備的車輛,通過網(wǎng)絡(luò)將實時的經(jīng)緯度位置、車頭方向、速度等值傳遞到處理中心,進而計算出全市主要道路的路況信息[15]。通常,浮動車包括出租車、長途客車、物流車輛等,其中最重要的車輛就是穿梭于城市各種道路的出租車。還有一些應(yīng)用場景則希望數(shù)據(jù)產(chǎn)品的更新時間能與自己的業(yè)務(wù)相匹配,以獲得更優(yōu)質(zhì)的服務(wù)[16]。例如,一個外賣平臺與提供高分天氣預(yù)報的公司合作,想結(jié)合天氣預(yù)報做更多的場景挖掘,比如分鐘級降雨預(yù)報,以此判斷接下來2 h訂單量是否激增,外賣員的平均送單時間是否增加等。

    (6) 數(shù)據(jù)產(chǎn)品的獲取方式

    數(shù)據(jù)產(chǎn)品的獲取方式多種多樣,有一些數(shù)據(jù)產(chǎn)品可以直接到交易平臺購買;另一些數(shù)據(jù)產(chǎn)品由于數(shù)量較大,交易平臺上只會提供樣本數(shù)據(jù),全量數(shù)據(jù)需要經(jīng)過一定授權(quán)后通過應(yīng)用程序接口(application programming interface,API)下載,或者經(jīng)過協(xié)商后采取遠(yuǎn)程查詢數(shù)據(jù)庫的方式獲取。因此,數(shù)據(jù)產(chǎn)品獲取方式的難易程度也是購買者關(guān)注的一個質(zhì)量需求。

    (7)質(zhì)量反饋

    某些數(shù)據(jù)產(chǎn)品的適用場景較少,購買者數(shù)量不多,導(dǎo)致該產(chǎn)品的評價或者反饋意見很少。還有一些數(shù)據(jù)產(chǎn)品由于適用場景較為廣泛,出現(xiàn)了數(shù)量較多的購買者。如果數(shù)據(jù)產(chǎn)品也能像普通商品一樣提供用戶購買后的使用體驗或者質(zhì)量反饋,就能幫助新的購買者判斷這一產(chǎn)品是否符合自己的需求、是否值得購買。

    (8)元數(shù)據(jù)信息

    元數(shù)據(jù)是用來解釋數(shù)據(jù)的數(shù)據(jù),它可以幫助購買者理解數(shù)據(jù)產(chǎn)品的各種信息和真實語義,是數(shù)據(jù)提供者和購買者之間溝通和理解的橋梁[17]。元數(shù)據(jù)記錄了數(shù)據(jù)計算文檔、語法和語義描述、質(zhì)量指標(biāo)、訪問控制策略、數(shù)據(jù)“血緣關(guān)系”等信息。

    1.3 數(shù)據(jù)產(chǎn)品質(zhì)量的監(jiān)管者需求

    數(shù)據(jù)產(chǎn)品流通市場需要政府監(jiān)管才能保證市場的公開、公平和公正,才能形成一個良性市場。數(shù)據(jù)市場 監(jiān)管者對數(shù)據(jù)產(chǎn)品質(zhì)量的需求就是“監(jiān)管需求”,包括如下4個方面。

    (1)數(shù)據(jù)產(chǎn)品的合規(guī)性

    數(shù)據(jù)產(chǎn)品是在充分挖掘數(shù)據(jù)價值的基礎(chǔ)上幫助用戶進行決策(甚至行動)的一種產(chǎn)品形式。數(shù)據(jù)產(chǎn)品來源于數(shù)據(jù),因此,數(shù)據(jù)采集或爬取是否符合國家的法律法規(guī)成為監(jiān)管者最關(guān)注的監(jiān)管需求。當(dāng)前,數(shù)據(jù)產(chǎn)品的提供者主要是企業(yè),而企業(yè)數(shù)據(jù)合規(guī)風(fēng)險來自由大量個人信息構(gòu)成的運營數(shù)據(jù),我國現(xiàn)行法規(guī)要求企業(yè)在采集公民個人信息時堅持同意、合理、最小化3項基本原則[18]。在交易數(shù)據(jù)產(chǎn)品之前,市場監(jiān)管部門需要調(diào)查數(shù)據(jù)來源的合法性,調(diào)查因素包括被收集人是否知曉該數(shù)據(jù)被數(shù)據(jù)產(chǎn)品提供方收集、數(shù)據(jù)流通行為是否已經(jīng)得到被收集人同意、數(shù)據(jù)利用形式是否已告知被收集人并得到同意以及接收數(shù)據(jù)的種類等。除了通過業(yè)務(wù)采集的數(shù)據(jù),一些企業(yè)還會通過爬蟲技術(shù)抓取外部數(shù)據(jù)。非法的數(shù)據(jù)爬取會帶來不正當(dāng)競爭、侵犯商業(yè)秘密等民事糾紛或非法獲取計算機系統(tǒng)數(shù)據(jù)罪的風(fēng)險,這些風(fēng)險也需要監(jiān)管部門予以考慮[19]。

    (2)有效的數(shù)據(jù)產(chǎn)品質(zhì)量標(biāo)準(zhǔn)

    數(shù)據(jù)產(chǎn)品在市場上交易之前,最好能通過相應(yīng)的質(zhì)量檢測,現(xiàn)階段這一工作主要由 數(shù)據(jù)產(chǎn)品提供方自行完成。由于我國并未出臺針對數(shù)據(jù)產(chǎn)品的國家質(zhì)量標(biāo)準(zhǔn),數(shù)據(jù)產(chǎn)品提供方會依據(jù)自己制定的質(zhì)量標(biāo)準(zhǔn)完成檢測。質(zhì)量標(biāo)準(zhǔn)不統(tǒng)一使得監(jiān)管部門或者購買者難以判斷數(shù)據(jù)產(chǎn)品的質(zhì)量,進而影響后續(xù)的數(shù)據(jù)定價以及質(zhì)量問題維權(quán)。此外,現(xiàn)有參與交易的產(chǎn)品質(zhì)量檢測報告大多由數(shù)據(jù)產(chǎn)品提供方自己提供,很少由第三方質(zhì)量檢測機 構(gòu)出具,缺乏一定的公信力[20]。如果國家層面或者行業(yè)層面能出臺一個有效的數(shù)據(jù)產(chǎn)品質(zhì)量標(biāo)準(zhǔn),那么該標(biāo)準(zhǔn)既可作為數(shù)據(jù)產(chǎn)品生產(chǎn)、檢驗和評定質(zhì)量的技術(shù)依據(jù),又能為數(shù)據(jù)要素市場的發(fā)展提供強有力的服務(wù)保障。

    (3)數(shù)據(jù)產(chǎn)品的可溯源性

    一些數(shù)據(jù)產(chǎn)品是由原始數(shù)據(jù)集經(jīng)過一定的處理形成的衍生產(chǎn)品,這些處理涉及流轉(zhuǎn)、復(fù)制、遷移、集成、抽取、計算等操作。如果沒有對原生數(shù)據(jù)的溯源信息進行記錄,將在很大程度上降低數(shù)據(jù)產(chǎn)品的真實性和有效性[21],從而為特定的數(shù)據(jù)應(yīng)用場景帶來風(fēng)險。溯源信息可被看作數(shù)據(jù)的元數(shù)據(jù),通常包括what、why、when和where 4個方面的元素[22]。其中,what描述影響數(shù)據(jù)發(fā)生的事件,包括創(chuàng)建、使用、存儲和轉(zhuǎn)換,甚至涉及數(shù)據(jù)的存檔;why描述事件發(fā)生的原因;when記錄事件發(fā)生的時間;who是這些事件涉及的人或組織。數(shù)據(jù)產(chǎn)品的可溯源是指利用標(biāo)記、數(shù)字指紋等方式,實現(xiàn)對數(shù)據(jù)產(chǎn)品整個生命周期內(nèi)所經(jīng)歷的全部操作及變換信息的描述,確保由原始數(shù)據(jù)衍生的數(shù)據(jù)產(chǎn)品真實可靠,也是建立信任和實現(xiàn)責(zé)任制的重要基礎(chǔ)。

    (4)應(yīng)用場景明確

    數(shù)據(jù)產(chǎn)品的產(chǎn)生和交易是為了滿足用戶的某些需求,其應(yīng)用場景描述了關(guān)于產(chǎn)品、用戶及其環(huán)境的背景信息、用戶的目的或目標(biāo)、一系列活動和事件等內(nèi)容。由于用戶的需求類型多樣,明確應(yīng)用場景一方面可以幫助監(jiān)管部門判斷數(shù)據(jù)產(chǎn)品是否合規(guī),另一方面也可以提供切合實際管理和應(yīng)用需求的數(shù)據(jù)產(chǎn)品和業(yè)務(wù)應(yīng)用。

    2 數(shù)據(jù)產(chǎn)品質(zhì)量體系框架

    根據(jù)上述數(shù)據(jù)產(chǎn)品的質(zhì)量需求,本文創(chuàng)新地提出了 一個質(zhì)量體系框架,如圖1所示。該質(zhì)量體系框架主要由應(yīng)用場景確認(rèn)、數(shù)據(jù)產(chǎn)品管理、質(zhì)量需求描述、質(zhì)量維度選擇、評估模型及方法建立和 數(shù)據(jù)產(chǎn)品質(zhì)量監(jiān)控6個部分構(gòu)成。

    圖1 數(shù)據(jù)產(chǎn)品的質(zhì)量體系框架

    (1)應(yīng)用場景確認(rèn)

    在數(shù)據(jù)交易市場中,數(shù)據(jù)本身具有可復(fù)制性,因此不同的使用者和不同的使用場景具有不同的價值,不同行業(yè)下的應(yīng)用場景對同一數(shù)據(jù)產(chǎn)品的需求大相徑庭。為了避免違法違規(guī),甚至禁止交易的數(shù)據(jù)產(chǎn)品或目前不宜交易的數(shù)據(jù)產(chǎn)品流入交易市場,數(shù)據(jù)產(chǎn)品的提供者需要明確給出產(chǎn)品的使用場景,以供市場監(jiān)管方評估及核查。

    (2) 數(shù)據(jù)產(chǎn)品管理

    按照產(chǎn)品的呈現(xiàn)形式和使用方式,數(shù)據(jù)產(chǎn)品可分為數(shù)據(jù)資源類、數(shù)據(jù)服務(wù)類以及數(shù)據(jù)咨詢/決策類3種類型,不同類型的數(shù)據(jù)產(chǎn)品在質(zhì)量維度選擇和評估模型及方法建立上有較大區(qū)別。數(shù)據(jù)產(chǎn)品管理是將相同或者類似的產(chǎn)品按照應(yīng)用場景進行歸類和存儲,從而方便后續(xù)的質(zhì)量評估和監(jiān)測。

    (3)質(zhì)量需求描述

    數(shù)據(jù)產(chǎn)品質(zhì)量需求主要有兩個來源,分別為使用者和監(jiān)管者,前者對應(yīng)數(shù)據(jù)產(chǎn)品應(yīng)用角度的要求,后者對應(yīng)數(shù)據(jù)產(chǎn)品監(jiān)管目標(biāo)。數(shù)據(jù)產(chǎn)品質(zhì)量需求涉及范圍和影響程度不一,較小的需求以數(shù)據(jù)集中的數(shù)據(jù)對象修改為單位,處理方式簡單直接;較大的需求以整個數(shù)據(jù)集為代表,剖析數(shù)據(jù)來源,甚至包括采集方式和業(yè)務(wù)規(guī)則的調(diào)整。

    (4)質(zhì)量維度選擇

    在數(shù)據(jù)質(zhì)量研究中,研究者提出的質(zhì)量維度多達(dá)20余個,這些維度從不同角度反映了測量和管理數(shù)據(jù)質(zhì)量的需求。質(zhì)量維度的選擇主要由數(shù)據(jù)產(chǎn)品質(zhì)量標(biāo)準(zhǔn)來確定,但現(xiàn)階段并未出臺針對數(shù)據(jù)產(chǎn)品的國家標(biāo)準(zhǔn)或者行業(yè)標(biāo)準(zhǔn)。因此,可以依據(jù)數(shù)據(jù)產(chǎn)品質(zhì)量需求、國家的相關(guān)法律法規(guī)以及應(yīng)用場景來確定。同時,將質(zhì)量維度應(yīng)用到實際的評估模型時,還應(yīng)該分析數(shù)據(jù)類型、數(shù)據(jù)格式和屬性值域的分布,以建立每一個維度下的具體評估指標(biāo)。

    (5)評估模型及方法建立

    評估模型及方法建立指對各類數(shù)據(jù)的特征進行分析,根據(jù)分析結(jié)果和所選擇的質(zhì)量維度及其評估指標(biāo),建立評估模型。之后,確定評估方法及其詳細(xì)過程。評估方法可以采用定性評估、定量評估或者綜合評估方法[3]。

    (6)數(shù)據(jù)產(chǎn)品質(zhì)量監(jiān)控

    數(shù)據(jù)產(chǎn)品質(zhì)量監(jiān)控覆蓋數(shù)據(jù)產(chǎn)品在交易平臺上的全流程,并對其進行質(zhì)量監(jiān)管和檢驗,具體任務(wù)包括數(shù)據(jù)產(chǎn)品登記、數(shù)據(jù)產(chǎn)品合規(guī)審查、數(shù)據(jù)產(chǎn)品溯源、數(shù)據(jù)產(chǎn)品質(zhì)量評估、質(zhì)量報告生成、數(shù)據(jù)產(chǎn)品交易追蹤和數(shù)據(jù)產(chǎn)品質(zhì)量反饋等內(nèi)容。

    3 盒裝數(shù)據(jù)產(chǎn)品的質(zhì)量框架和質(zhì)量指標(biāo)

    數(shù)據(jù)產(chǎn)品有多種類型,而盒裝數(shù)據(jù)是葉雅珍等人[23]提出的一種資源型的數(shù)據(jù)產(chǎn)品標(biāo)準(zhǔn)形態(tài),包括盒內(nèi)數(shù)據(jù)和盒外包裝兩個部分。其中,盒內(nèi)數(shù)據(jù)是指“時間+空間+內(nèi)容”三維度的數(shù)據(jù)立方體組織,一般包括圖像、圖形、視頻、音頻、文本、結(jié)構(gòu)化數(shù)據(jù)等多種類型的數(shù)據(jù);盒外包裝是包括產(chǎn)品登記證書、使用說明書、質(zhì)量證書、合規(guī)證書等內(nèi)容的數(shù)據(jù)盒外部形態(tài)[23]。

    3.1 質(zhì)量維度

    盒內(nèi)數(shù)據(jù)是用時間維度、空間維度、內(nèi)容維度來表示的,因此數(shù)據(jù)質(zhì)量也可以從這3個維度來評測。圖2顯示了本文提出的針對盒裝數(shù)據(jù)的質(zhì)量評測體系。整個質(zhì)量評測體系是一個兩層的多維度、多指標(biāo)的結(jié)構(gòu)。數(shù)據(jù)產(chǎn)品質(zhì)量維度是一個可以測量和改進的數(shù)據(jù)產(chǎn)品的某個特性或者屬性。事實上,質(zhì)量維度提供了一種用于測量和管理數(shù)據(jù)產(chǎn)品質(zhì)量以及信息的方式[24]。數(shù)據(jù)產(chǎn)品質(zhì)量指標(biāo)歸屬于質(zhì)量維度,是質(zhì)量維度更細(xì)化的評測形式。

    圖2 盒裝數(shù)據(jù)產(chǎn)品的質(zhì)量評測體系

    3.2 質(zhì)量指標(biāo)

    建立了盒裝數(shù)據(jù)產(chǎn)品的3個質(zhì)量維度后,每個維度還需要細(xì)分為2~5個質(zhì)量指標(biāo),這些指標(biāo)可以定量地評估盒裝數(shù)據(jù)產(chǎn)品的質(zhì)量。時間完整性維度劃分為時間覆蓋率、時效性和可溯源性3個指標(biāo),空間完整性維度劃分為空間覆蓋率和空間一致性兩個指標(biāo),而內(nèi)容完整性維度劃分為屬性覆蓋率、準(zhǔn)確性、一致性、可獲取性和權(quán)威性5個指標(biāo)。這10個指標(biāo)的具體含義見表1。

    表1 盒裝數(shù)據(jù)產(chǎn)品的質(zhì)量指標(biāo)

    (1) 時間完整性維度

    時間完整性從3個方面刻畫數(shù)據(jù)產(chǎn)品是否滿足時間的質(zhì)量需求。一是時間覆蓋率,指數(shù)據(jù)集中的數(shù)據(jù)對象在數(shù)據(jù)產(chǎn)品所描述的各個時間點上有具體的值,沒有缺失。如果數(shù)據(jù)對象在某些時間點上沒有值或者存在描述時間之外的值,則都屬于不完整的情況。二是時效性,指數(shù)據(jù)產(chǎn)品能否在需要的時候得到保證。例如,數(shù)據(jù)購買者需要購買A醫(yī)院2021年心臟病患者診斷檢驗數(shù)據(jù)集,但是A醫(yī)院只能提供2020年的相關(guān)數(shù)據(jù),則無法滿足需要提供最新診斷檢驗數(shù)據(jù)集的需求。三是可溯源性,指數(shù)據(jù)產(chǎn)品可以進行溯源。

    (2)空間完整性維度

    空間完整性從兩個方面刻畫數(shù)據(jù)產(chǎn)品是否滿足空間的質(zhì)量需求。一是空間覆蓋率,指數(shù)據(jù)產(chǎn)品中的全體數(shù)據(jù)對象都應(yīng)該包含在數(shù)據(jù)集中。如果沒有包含某些數(shù)據(jù)對象,則是不完整的;如果包含了數(shù)據(jù)產(chǎn)品描述之外的數(shù)據(jù)對象,則也是不完整的。二是空間一致性,指描述數(shù)據(jù)對象之間的空間邏輯關(guān)系是否與現(xiàn)實世界相匹配,例如,某一空間數(shù)據(jù)產(chǎn)品提供昆明市2021年的地圖數(shù)據(jù)集,但是,其中有些用來表征面的數(shù)據(jù)對象存在重疊和空隙,這就不滿足空間邏輯關(guān)系一致的需求[25]。

    (3)內(nèi)容完整性維度

    內(nèi)容完整性從5個方面刻畫數(shù)據(jù)產(chǎn)品是否滿足內(nèi)容的質(zhì)量需求。一是屬性覆蓋率,指數(shù)據(jù)集中的數(shù)據(jù)對象內(nèi)容完整,沒有遺漏,也沒有多余。例如,在GPS數(shù)據(jù)產(chǎn)品中,每輛出租車當(dāng)天的經(jīng)度、緯度、運行狀態(tài)、方向和車速共同構(gòu)成完整的行駛數(shù)據(jù)。如果這5種屬性少了某一種或某幾種屬性,那么內(nèi)容就是不完整的;當(dāng)然,如果多了某些屬性,則也是不完整的。二是準(zhǔn)確性,指數(shù)據(jù)對象的取值是否真實、準(zhǔn)確地描述應(yīng)用場景或者誤差能在一定的允許范圍內(nèi)。例如,2020年9月7日出租車云A*****的經(jīng)度、緯度、運行狀態(tài)、方向和車速與實際情況相符,那它的數(shù)值準(zhǔn)確無誤;或者某一興趣點(point of interest,POI)的經(jīng)緯度誤差控制在0.000001°以內(nèi),則數(shù)值準(zhǔn)確。三是一致性,指數(shù)據(jù)產(chǎn)品間屬性或數(shù)據(jù)內(nèi)容的一致程度。 例如,“2021年高德地圖中上海市POI數(shù)據(jù)集”數(shù)據(jù)產(chǎn)品(以下簡稱POI數(shù)據(jù)產(chǎn)品)中,郵政編碼與地址信息要一致。四是可獲取性,表示數(shù)據(jù)產(chǎn)品可以方便地獲取或者允許授權(quán)用戶進行下載和使用。例如,POI數(shù)據(jù)產(chǎn)品可以直接在交易平臺購買或者通過API授權(quán)下載。五是權(quán)威性,表示數(shù)據(jù)產(chǎn)品由權(quán)威機構(gòu)或者專業(yè)人員提供,可靠性和可用性都很高。例如,POI數(shù)據(jù)產(chǎn)品由高德提供,高德是國內(nèi)數(shù)字地圖、導(dǎo)航和位置服務(wù)解決方案提供商,具備國家甲級導(dǎo)航電子地圖測繪和甲級航空攝影資質(zhì),因此它是一家地圖類數(shù)據(jù)產(chǎn)品的權(quán)威提供商。

    4 盒裝數(shù)據(jù)產(chǎn)品的質(zhì)量 評測模型

    為了更形式化地描述盒裝數(shù)據(jù)產(chǎn)品的質(zhì)量評測模型,本文給出如下變量定義,見表2。下面將描述各評價指標(biāo)對應(yīng)的評測模型。

    表2 變量定義表

    4.1 時間完整性 評測模型

    時間完整性的 評測模型如下:

    其中,w1~w3表示權(quán)重,w1+w2+w3=1,可以根據(jù)實際需求或者評測指標(biāo)的重要性確定權(quán)重的取值。PTCOV、PTTL和PTPRO分別表示時間覆蓋率、時效性和可溯源性的評測結(jié)果。

    (1)時間覆蓋率評測模型

    數(shù)據(jù)對象oi如果在某個時間點上有缺失,就會影響數(shù)據(jù)產(chǎn)品的時間完整性。假設(shè)映射函數(shù)F(x)表示數(shù)據(jù)對象在某個時間點上是否存在,則有:

    故時間覆蓋率評測模型PTCOV如下:

    PTCOV的取值范圍是(0, 1),越接近1,表示數(shù)據(jù)產(chǎn)品的時間覆蓋率越好;反之,則越差。

    (2)時效性評測模型

    時效性評估反映數(shù)據(jù)產(chǎn)品的產(chǎn)生或提供是否及時,可以通過計算數(shù)據(jù)產(chǎn)品產(chǎn)生或提供的時間與當(dāng)前時間的差值來表示。假設(shè)以當(dāng)前時間作為基準(zhǔn)時間并設(shè)為t,則時效性評測模型PTTL如下:

    其中,tP表示 數(shù)據(jù)產(chǎn)品P的創(chuàng)建或提供時間,為了便于計算,可以將tP和t轉(zhuǎn)換為整數(shù)進行處理,在轉(zhuǎn)換時,有相應(yīng)的函數(shù)可以計算當(dāng)前時間距離1970年1月1日0點0分0秒的總毫秒數(shù)。PTTL的取值范圍是(0, 1),越接近1,表示數(shù)據(jù)產(chǎn)品的時效性越好;反之則越差。

    (3)可溯源性評測模型

    可溯源性評測模型主要以定性評估為主,可將需要溯源的信息設(shè)計為打分項,然后檢查數(shù)據(jù)產(chǎn)品中各溯源要素是否由提供者提供。如果是由提供者提供,則獲得相應(yīng)的分值;否則,該項分值為0。最后,將所得分值相加即最終的評測結(jié)果。

    4.2 空間完整性評測模型

    空間完整性的評測模型如下:

    其中,w1和w2表示權(quán)重,w1+w2=1,權(quán)重的取值由評估者確定。PSCOV和 PSCON分別表示空間覆蓋率和空間一致性的評測結(jié)果。

    (1)空間覆蓋率評測模型

    空間覆蓋率反映數(shù)據(jù)產(chǎn)品中 的數(shù)據(jù)對象是否缺失或者多余,空間覆蓋率評測模型PSCOV如下:

    其中,函數(shù)count(P)表示對數(shù)據(jù)產(chǎn)品P計數(shù)。若PSCOV的取值為1,則說明數(shù)據(jù)對象沒有缺失或者多余; PSCOV越接近1,則說明數(shù)據(jù)對象缺失或者多余的情況越少;PSCOV越接近0,則說明數(shù)據(jù)對象缺失或者多余的情況越明顯。

    (2)空間一致性評估模型

    對于空間數(shù)據(jù)產(chǎn)品,除了檢查空間覆蓋率,還需要檢查空間一致性。空間一致性是指在空間數(shù)據(jù)對象之間不存在明顯的矛盾或沖突,主要通過拓?fù)潢P(guān)系來反映 兩個對象間的空間關(guān)系。本文使用空間拓?fù)潢P(guān)系的描述模型V9I來描述兩個對象間的空間關(guān)系,這些關(guān)系包括相等(equal)、相接(touch)、相交(intersect)、包含(contain)、在空洞內(nèi)部(cwithin)、內(nèi)接(interiorcontact)、包含于(contained-by)、直接鄰近(immediate-adjacency)、被第三個空間實體隔開(2-orderadjacency)、在空洞內(nèi)部且邊界相接(cinterior-contact)10種[26]。在現(xiàn)實世界中,如果兩個數(shù)據(jù)對象的距離超過2 km,則分析它們的拓?fù)潢P(guān)系一般沒有太大意義。因此,需要在對象的鄰域范圍內(nèi)考慮拓?fù)潢P(guān)系。下面給出空間一致性評估中用到的相關(guān)定義。

    定義1: 鄰域?qū)ο蟆?假設(shè)oik、ojl分別代表第i層的第k個數(shù)據(jù)對象和第j層的第l個數(shù)據(jù)對象,若對象oik、ojl之間的距離小于給定的閾值dij,則稱ojl為oik的鄰域?qū)ο螅洖镹(oik)={ojl|D(oik,ojl)≤dij},其中D(oik,ojl)為兩個對象的歐氏距離。

    定義2:拓?fù)潢P(guān)系。假設(shè)對象oik、oij之間應(yīng)該滿足的拓?fù)潢P(guān)系為觀測拓?fù)潢P(guān)系,記為Tpikjl,它屬于10種拓?fù)潢P(guān)系中的一種,則:

    Tpikjl∈{w|w= equal, touch,intersect, contain, cwithin, containedby, interior-contact, cinterior-contact,immediate-adjacency, 2-orderadjacency}

    則空間一致性評測模型PSCON如下:

    4.3 內(nèi)容完整性評測模型

    與前面兩個評測模型類似,內(nèi)容完整性的評估模型如下:

    其中,w1~w5表示權(quán)重,w1+…+w5=1,權(quán)重的取值也由評估者確定。PVCOV、PVACC、PVCON、PVAC和PVAU分別代表屬性覆蓋率、準(zhǔn)確性、一致性、可獲取性和權(quán)威性的評測結(jié)果。

    (1)屬性覆蓋率評估模型

    若數(shù)據(jù)產(chǎn)品中數(shù)據(jù)對象的屬性缺失,則會降低數(shù)據(jù)產(chǎn)品的可用性。變量oValij表示第i個數(shù)據(jù)對象在第j個屬性上的取值,則有映射函數(shù):

    故屬性覆蓋率評測模型P VCOV如下:

    其中,Y(oAij)為判斷第i個數(shù)據(jù)對象的第j個屬性取值是否非空的映射函數(shù),Y(oAij)的取值為0或1。當(dāng)屬性取值非空時,Y(oAij)的值為1,否則為0。

    ( 2)準(zhǔn)確性評測模型

    準(zhǔn)確性反映數(shù)據(jù)對象是否真實、準(zhǔn)確地描述應(yīng)用場景,設(shè)屬性集合A={A1,A2,...,AM}在該場景下的參考值標(biāo)準(zhǔn)為R={R1,R2,…,RM},設(shè)φ(·)為準(zhǔn)確性判斷函數(shù),若對象oi在屬性Ak上的取值滿足參考值標(biāo)準(zhǔn)Rk,則φ(·)值為1,反之為0。準(zhǔn)確性評測模型PVACC為:

    其中,PVACC的取值范圍為[0, 1],當(dāng)PVACC取值為0時,數(shù)據(jù)對象的準(zhǔn)確性很低;當(dāng)PVACC取值為1時,數(shù)據(jù)對象的準(zhǔn)確性很高。

    (3) 一致性評測模型

    一致性評測用來判斷同一數(shù)據(jù)對象中的不同屬性之間的取值是否正確和完整。設(shè)Ak和Al為存在一致性關(guān)系的兩個屬性,μ(·)為一致性判斷函數(shù),若對象oi在屬性Ak和Al上的取值滿足一致性關(guān)系,則μ(·)值為1,反之為0。則一致性評測模型PVCON有:

    其中,函數(shù)Cc(M)用來統(tǒng)計屬性集A中存在一致性的屬性數(shù)量。

    (4) 可獲取性評測模型

    可獲取性是指用戶可以獲得數(shù)據(jù)產(chǎn)品的物理條件或者接口,可獲取性評測模型PVAC如下:

    其中,UN表示不能訪問的數(shù)據(jù)對象數(shù)量。

    (5) 權(quán)威性評測模型

    數(shù)據(jù)產(chǎn)品的來源各不相同,依據(jù)各來源的實際情況,采用定性方法確定數(shù)據(jù)產(chǎn)品權(quán)威性的評測模型PVAU為:

    如式(15)所示,本文針對不同數(shù)據(jù)來源,確定其打分范圍。來自國家行政機構(gòu)的數(shù)據(jù)權(quán)威性最高;其次,知名企業(yè)及公司、領(lǐng)域?qū)<壹皩W(xué)者、行業(yè)網(wǎng)站及機構(gòu)等權(quán)威性依次降低;因目前互聯(lián)網(wǎng)環(huán)境中自媒體、營銷號大量存在,并且極易傳播不實信息,故該來源的數(shù)據(jù)權(quán)威性最低。

    5 結(jié)束語

    數(shù)據(jù)流通是數(shù)據(jù)成為資源、成為資產(chǎn)、成為要素的必然,數(shù)據(jù)要素市場建設(shè)是“十四五”期間發(fā)展數(shù)字經(jīng)濟的重要任務(wù),各地紛紛成立數(shù)據(jù)交易機構(gòu)。然而,絕大部分的數(shù)據(jù)交易機構(gòu)沒有對數(shù)據(jù)產(chǎn)品的質(zhì)量進行有效監(jiān)管,這對于數(shù)據(jù)購買方來說是一個潛在風(fēng)險,并影響了數(shù)據(jù)交易市場的健康發(fā)展。為此,本文構(gòu)建了一個數(shù)據(jù)產(chǎn)品的質(zhì)量體系,并以盒裝數(shù)據(jù)為例,將數(shù)據(jù)產(chǎn)品質(zhì)量體系具體化。由于數(shù)據(jù)產(chǎn)品有多種不同的分類形式,本文提出的數(shù)據(jù)產(chǎn)品質(zhì)量體系主要適用于資源類數(shù)據(jù)產(chǎn)品的檢測和評定,數(shù)據(jù)服務(wù)類以及數(shù)據(jù)咨詢/決策類的數(shù)據(jù)產(chǎn)品還需要進一步的改進和完善。

    猜你喜歡
    評測產(chǎn)品質(zhì)量對象
    神秘來電
    睿士(2023年2期)2023-03-02 02:01:09
    次時代主機微軟XSX全方位評測(下)
    次時代主機微軟XSX全方位評測(上)
    產(chǎn)品質(zhì)量監(jiān)督抽查的本質(zhì)與拓展
    加強PPE流通領(lǐng)域產(chǎn)品質(zhì)量監(jiān)督
    勞動保護(2019年7期)2019-08-27 00:41:04
    攻坡新利器,TOKEN VENTOUS評測
    “望聞問切”在產(chǎn)品質(zhì)量鑒定工作中的應(yīng)用
    攻略對象的心思好難猜
    意林(2018年3期)2018-03-02 15:17:24
    Canyon Ultimate CF SLX 8.0 DI2評測
    中國自行車(2017年1期)2017-04-16 02:54:06
    基于熵的快速掃描法的FNEA初始對象的生成方法
    海晏县| 通辽市| 博白县| 锦屏县| 长乐市| 东乡县| 德昌县| 页游| 双桥区| 嘉荫县| 崇义县| 丹巴县| 贡觉县| 昌都县| 新兴县| 锡林浩特市| 灵宝市| 达日县| 梓潼县| 潜山县| 松潘县| 富川| 比如县| 秦安县| 磐石市| 唐河县| 天峻县| 措美县| 公安县| 德安县| 延庆县| 邢台市| 深州市| 垫江县| 罗平县| 文山县| 吉木乃县| 简阳市| 三台县| 团风县| 洪江市|