數(shù)據(jù)治理技術(shù)*

2019-10-24 05:50:08吳信東董丙冰堵新政

軟件學(xué)報 2019年9期

關(guān)鍵詞：數(shù)據(jù)源方法

吳信東,董丙冰,堵新政,楊威

1(明略科技集團(tuán),北京 100084)

2(合肥工業(yè)大學(xué) 大知識科學(xué)研究院,安徽合肥 230009)

3(大數(shù)據(jù)知識工程教育部重點(diǎn)實(shí)驗(yàn)室(合肥工業(yè)大學(xué)),安徽合肥 230009)

4(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽合肥 230601)

通訊作者:吳信東,E-mail:wuxindong@mininglamp.com

隨著信息技術(shù)的迅速發(fā)展,數(shù)據(jù)規(guī)模逐漸擴(kuò)大.與此同時,劣質(zhì)數(shù)據(jù)也隨之而來,極大地降低了數(shù)據(jù)挖掘的質(zhì)量,對信息社會造成了嚴(yán)重的困擾[1].劣質(zhì)數(shù)據(jù)大量存在于很多領(lǐng)域和機(jī)構(gòu),國外權(quán)威機(jī)構(gòu)的統(tǒng)計(jì)表明:美國的企業(yè)信息系統(tǒng)中,1%～30%的數(shù)據(jù)具有各種錯誤和誤差[2];13.6%～81%的關(guān)鍵數(shù)據(jù)不完整或陳舊情況存在于美國的醫(yī)療信息系統(tǒng)中[3].根據(jù)Gartner 的調(diào)查結(jié)果:在全球財富1 000 強(qiáng)的企業(yè)中,超過25%的企業(yè)信息系統(tǒng)中存在錯誤數(shù)據(jù)[4].

大多數(shù)組織不考慮數(shù)據(jù)質(zhì)量對大數(shù)據(jù)平臺建設(shè)、分析應(yīng)用等方面的重要影響而盲目投入,缺乏對大數(shù)據(jù)資源的整體規(guī)劃和綜合治理,最終導(dǎo)致一些項(xiàng)目實(shí)施的終止和失敗.項(xiàng)目的失敗和數(shù)據(jù)量的激增,使得數(shù)據(jù)治理的重要性逐步得到工業(yè)界和學(xué)術(shù)界的共識.隨著國家政策支持以及產(chǎn)業(yè)實(shí)際需求的增長,如何通過數(shù)據(jù)治理提升組織數(shù)據(jù)管理能力、消除數(shù)據(jù)孤島、挖掘數(shù)據(jù)潛在的價值,將成為重點(diǎn)發(fā)展領(lǐng)域.

數(shù)據(jù)治理的重要前提是建設(shè)統(tǒng)一共享的數(shù)據(jù)平臺,信息系統(tǒng)的建設(shè)發(fā)展到一定階段,數(shù)據(jù)資源將成為戰(zhàn)略資產(chǎn),而有效的數(shù)據(jù)治理才是數(shù)據(jù)資產(chǎn)形成的必要條件.同時,在數(shù)據(jù)共享的時代,享受大數(shù)據(jù)帶來便利的同時,也帶來如個人隱私泄露的問題[5].個人隱私信息泄露事件頻繁發(fā)生,使得人們更加注重保護(hù)個人的隱私信息,通常采取一些措施,如在進(jìn)行網(wǎng)站注冊時故意填寫虛假信息,這將會嚴(yán)重的影響數(shù)據(jù)的質(zhì)量和完整性,低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果.數(shù)據(jù)治理不僅要規(guī)范數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的價值和管控風(fēng)險,還要做到隱私保護(hù).

本文首先對數(shù)據(jù)治理做全面的分析,然后介紹我們自己設(shè)計(jì)的大數(shù)據(jù)治理模型.本文第1 節(jié)介紹數(shù)據(jù)治理的定義和發(fā)展趨勢.第2 節(jié)介紹數(shù)據(jù)規(guī)范技術(shù)的內(nèi)涵以及應(yīng)用方法.第3 節(jié)介紹數(shù)據(jù)清洗的背景以及清洗的基本方法.第4 節(jié)對數(shù)據(jù)交換的基本概念及其實(shí)現(xiàn)模式進(jìn)行闡述.第5 節(jié)介紹數(shù)據(jù)集成技術(shù)的基本概念和數(shù)據(jù)集成的方法,并說明這些方法的應(yīng)用場景.第6 節(jié)從數(shù)據(jù)治理的成熟度模型開始,引出數(shù)據(jù)治理框架.第7 節(jié)對我們提出的HAO 治理模型進(jìn)行詳細(xì)說明.第8 節(jié)以公安數(shù)據(jù)治理為例,具體介紹治理模型的具體應(yīng)用.最后是對數(shù)據(jù)治理技術(shù)的總結(jié)與展望.

1 數(shù)據(jù)治理的研究現(xiàn)狀

1.1 數(shù)據(jù)治理的定義

至今為止,數(shù)據(jù)治理還沒有統(tǒng)一標(biāo)準(zhǔn)的定義.IBM 對于數(shù)據(jù)治理的定義是,數(shù)據(jù)治理是一種質(zhì)量控制規(guī)程,用于在管理、使用、改進(jìn)和保護(hù)組織信息的過程中添加新的嚴(yán)謹(jǐn)性和紀(jì)律性[6].DGI 則認(rèn)為,數(shù)據(jù)治理是指在企業(yè)數(shù)據(jù)管理中分配決策權(quán)和相關(guān)職責(zé)[6].

數(shù)據(jù)治理的目標(biāo),總體來說就是提高數(shù)據(jù)質(zhì)量,在降低企業(yè)風(fēng)險的同時,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)價值的最大化,包括:

· 構(gòu)筑適配靈活、標(biāo)準(zhǔn)化、模塊化的多源異構(gòu)數(shù)據(jù)資源接入體系;

· 建設(shè)規(guī)范化、流程化、智能化的數(shù)據(jù)處理體系;

· 打造數(shù)據(jù)精細(xì)化治理體系、組織的數(shù)據(jù)資源融合分類體系;

· 構(gòu)建統(tǒng)一調(diào)度、精準(zhǔn)服務(wù)、安全可用的信息共享服務(wù)體系.

其次,我們還需理解數(shù)據(jù)治理的職能——數(shù)據(jù)治理提供了將數(shù)據(jù)作為資產(chǎn)進(jìn)行管理所需的指導(dǎo).最后,我們要把握數(shù)據(jù)治理的核心——數(shù)據(jù)資產(chǎn)管理的決策權(quán)分配和指責(zé)分工[7].

由此,數(shù)據(jù)治理從本質(zhì)上看就是對一個機(jī)構(gòu)(企業(yè)或政府部門)的數(shù)據(jù)從收集融合到分析管理和利用進(jìn)行評估、指導(dǎo)和監(jiān)督(EDM)的過程,通過提供不斷創(chuàng)新的數(shù)據(jù)服務(wù),為企業(yè)創(chuàng)造價值[6].

數(shù)據(jù)治理與數(shù)據(jù)管理是兩個十分容易混淆的概念,治理和管理從本質(zhì)上看是兩個完全不同的活動,但是存在一定的聯(lián)系,下面我們對這兩個概念進(jìn)行詳細(xì)的解讀.

COBIT5(control objectives for information and related technology)對管理的定義:管理是按照治理機(jī)構(gòu)設(shè)定的方向開展計(jì)劃、建設(shè)、運(yùn)營和監(jiān)控活動來實(shí)現(xiàn)企業(yè)目標(biāo)[6].所以,治理過程是對管理活動的評估、指導(dǎo)和監(jiān)督,而管理過程是對治理決策的計(jì)劃、建設(shè)和運(yùn)營.具體分析:首先,數(shù)據(jù)治理與數(shù)據(jù)管理包含不同的活動即職能,數(shù)據(jù)治理包括評估指導(dǎo)和監(jiān)督,數(shù)據(jù)管理包括計(jì)劃建設(shè)和運(yùn)營;其次,數(shù)據(jù)治理是回答企業(yè)決策的相關(guān)問題并制定數(shù)據(jù)規(guī)范,而數(shù)據(jù)管理是實(shí)現(xiàn)數(shù)據(jù)治理提出的決策并給予反饋;最后,數(shù)據(jù)治理和數(shù)據(jù)管理的責(zé)任主體也是不同的,前者是董事會,后者是管理層.

1.2 大數(shù)據(jù)治理——數(shù)據(jù)治理新趨勢

近年來,大數(shù)據(jù)已成為國內(nèi)外專家學(xué)者研究的熱點(diǎn)話題,目前基本上采用IBM 的5V 模型描述大數(shù)據(jù)的特征:第1 個V(volume)是數(shù)據(jù)量大,包括采集、存儲和計(jì)算的量都非常大;第2 個V(velocity)是數(shù)據(jù)增長速度快,處理速度也快,時效性要求高;第3 個V(variety)是種類和來源多樣化,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);第4 個V(value)是數(shù)據(jù)價值密度相對較低,可以說是浪里淘沙卻又彌足珍貴;第五個V(veracity)是各個數(shù)據(jù)源的質(zhì)量良莠不齊,需要精心甄別[8].隨著數(shù)據(jù)量的激增,可以用“5V+I/O”——體量、速度、多樣性、數(shù)據(jù)價值和質(zhì)量以及數(shù)據(jù)在線來概括其特征.這里的“I/O”是指數(shù)據(jù)永遠(yuǎn)在線,可以隨時調(diào)用和計(jì)算,這個特征是大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)最大的區(qū)別.

2014 年,吳信東等人基于大數(shù)據(jù)具有異構(gòu)、自治的數(shù)據(jù)源以及復(fù)雜和演變的數(shù)據(jù)關(guān)聯(lián)等本質(zhì)特征,提出了HACE 定理[9].該定理從大數(shù)據(jù)的數(shù)據(jù)處理、領(lǐng)域應(yīng)用及數(shù)據(jù)挖掘這3 個層次(如圖1 所示)來刻畫大數(shù)據(jù)處理框架[8].

框架的第1 層是大數(shù)據(jù)計(jì)算平臺,該層面臨的挑戰(zhàn)集中在數(shù)據(jù)存取和算法計(jì)算過程上;第2 層是面向大數(shù)據(jù)應(yīng)用的語義和領(lǐng)域知識,該層的挑戰(zhàn)主要包括信息共享和數(shù)據(jù)隱私、領(lǐng)域和應(yīng)用知識這兩個方面;架構(gòu)的第3層集中在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法設(shè)計(jì)上:稀疏不確定和不完整的數(shù)據(jù)挖掘、挖掘復(fù)雜動態(tài)的數(shù)據(jù)以及局部學(xué)習(xí)和模型融合[9].第3 層的3 類算法對應(yīng)3 個階段:首先,通過數(shù)據(jù)融合技術(shù)對稀疏、異構(gòu)、不確定、不完整和多源數(shù)據(jù)進(jìn)行預(yù)處理;其次,在預(yù)處理之后,挖掘復(fù)雜和動態(tài)的數(shù)據(jù);最后,通過局部學(xué)習(xí)和模型融合獲得的全局知識進(jìn)行測試,并將相關(guān)信息反饋到預(yù)處理階段,預(yù)處理階段根據(jù)反饋調(diào)整模型和參數(shù)[9].

Fig.1 A big data processing framework[9]圖1 大數(shù)據(jù)處理框架[9]

面對大數(shù)據(jù)興起帶來的挑戰(zhàn),為了促進(jìn)大數(shù)據(jù)治理的發(fā)展和變革,目前業(yè)界比較權(quán)威的大數(shù)據(jù)治理定義是:大數(shù)據(jù)治理是廣義信息治理計(jì)劃的一部分,它通過協(xié)調(diào)多個職能部門的目標(biāo),來制定與大數(shù)據(jù)優(yōu)化、隱私與貨幣化相關(guān)的策略[10].此定義指出:大數(shù)據(jù)的優(yōu)化、隱私保護(hù)以及商業(yè)價值是大數(shù)據(jù)治理的重點(diǎn)關(guān)注領(lǐng)域,大數(shù)據(jù)治理是數(shù)據(jù)治理發(fā)展的一個新階段,與數(shù)據(jù)治理相比,各種需求的解決在大數(shù)據(jù)治理中變得更加重要和富有挑戰(zhàn)性[6].

· 海量數(shù)據(jù)存儲:根據(jù)本地實(shí)際數(shù)據(jù)量級和存儲處理能力,結(jié)合集中式或分布式等數(shù)據(jù)資源的存儲方式進(jìn)行構(gòu)建,為大數(shù)據(jù)平臺提供PB 級數(shù)據(jù)的存儲及備份能力支撐.云計(jì)算[11,12]作為一種新型的商業(yè)模式,它所提供的存儲服務(wù)具有專業(yè)、經(jīng)濟(jì)和按需分配的特點(diǎn),可以滿足大數(shù)據(jù)的存儲需求;

· 處理效率:大數(shù)據(jù)治理提供多樣化的海量數(shù)據(jù)接入及處理能力,包括對各類批量、實(shí)時、準(zhǔn)實(shí)時及流式的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)提供快速的計(jì)算能力和搜索能力,比如數(shù)據(jù)加載能力≥130MB/s、億級數(shù)據(jù)秒級檢索、百億數(shù)據(jù)實(shí)時分析≤10s、千億數(shù)據(jù)離線分析≤30m 等等.對于大數(shù)據(jù)的搜索能力方面,為了保證數(shù)據(jù)安全,大數(shù)據(jù)在云計(jì)算平臺上的存儲方式一般為密文存儲,因此,研究人員設(shè)計(jì)了很多保護(hù)隱私的密文搜索算法[13-22],基于存儲在云平臺上大數(shù)據(jù)的計(jì)算安全問題的解決方法一般采用比較成熟的完全同態(tài)加密算法[23-29];

· 數(shù)據(jù)可靠性:圍繞行業(yè)數(shù)據(jù)元相關(guān)標(biāo)準(zhǔn)規(guī)定,基于行業(yè)元數(shù)據(jù)體系打造大數(shù)據(jù)平臺采集匯聚、加工整合、共享服務(wù)等全過程的、端到端的數(shù)據(jù)質(zhì)量稽核管控體系,確保數(shù)據(jù)準(zhǔn)確可靠;

· 數(shù)據(jù)安全性:數(shù)據(jù)價值是大數(shù)據(jù)平臺的核心價值,所以數(shù)據(jù)的安全是保證平臺運(yùn)行的基礎(chǔ).數(shù)據(jù)安全包括數(shù)據(jù)存儲的安全、數(shù)據(jù)傳輸過程中的安全,數(shù)據(jù)的一致性、數(shù)據(jù)訪問安全等,如圖2 所示.數(shù)據(jù)安全的總體目標(biāo)是保證數(shù)據(jù)的存儲、傳輸、訪問、展示和導(dǎo)出安全.數(shù)據(jù)安全措施主要有數(shù)據(jù)脫敏控制[30]、數(shù)據(jù)加密控制、防拷貝管理、防泄漏管理、數(shù)據(jù)權(quán)限管理、數(shù)據(jù)安全等級管理等.

Fig.2 Data application security schematic圖2 數(shù)據(jù)應(yīng)用安全示意圖

而數(shù)據(jù)治理技術(shù)就是在數(shù)據(jù)治理的過程中所用到的技術(shù)工具,其中主要包括數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)交換和數(shù)據(jù)集成這4 種技術(shù),下面具體介紹這4 種技術(shù).

2 數(shù)據(jù)規(guī)范

2.1 數(shù)據(jù)規(guī)范的含義

數(shù)據(jù)治理的處理對象是海量分布在各個系統(tǒng)中的數(shù)據(jù),這些不同系統(tǒng)的數(shù)據(jù)往往存在一定的差異:數(shù)據(jù)代碼標(biāo)準(zhǔn)、數(shù)據(jù)格式、數(shù)據(jù)標(biāo)識都不一樣,甚至可能存在錯誤的數(shù)據(jù).這就需要建立一套標(biāo)準(zhǔn)化的體系,對這些存在差異的數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn),符合行業(yè)的規(guī)范,使得在同樣的指標(biāo)下進(jìn)行分析,保證數(shù)據(jù)分析結(jié)果的可靠性.例如,對于數(shù)據(jù)庫的屬性值而言,可以建立唯一性規(guī)則、連續(xù)性規(guī)則以及空值規(guī)則等來對數(shù)據(jù)進(jìn)行檢驗(yàn)和約束:唯一性規(guī)則一般是指為主鍵或其他屬性填寫unique 約束,使得給定屬性的每個值與該屬性的其他值不同;連續(xù)性規(guī)則是指屬性的最大值和最小值之間沒有缺失值并且每個值也是唯一的,一般用于檢驗(yàn)數(shù);空值規(guī)則是指使用其他特殊符號來代替空值,以及對于這樣的值應(yīng)該如何處理.

數(shù)據(jù)的規(guī)范化能夠提高數(shù)據(jù)的通用性、共享性、可移植性及數(shù)據(jù)分析的可靠性.所以,在建立數(shù)據(jù)規(guī)范時要具有通用性,遵循行業(yè)的或者國家的標(biāo)準(zhǔn).

2.2 數(shù)據(jù)規(guī)范方法

數(shù)據(jù)治理過程中可使用的數(shù)據(jù)規(guī)范方法有:規(guī)則處理引擎、標(biāo)準(zhǔn)代碼庫映射.

(1)規(guī)則處理引擎

數(shù)據(jù)治理為每個數(shù)據(jù)項(xiàng)制定相關(guān)聯(lián)的數(shù)據(jù)元標(biāo)準(zhǔn),并為每個標(biāo)準(zhǔn)數(shù)據(jù)元定義一定的處理規(guī)則,這些處理邏輯包括數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)校驗(yàn)、數(shù)據(jù)拼接賦值等.基于機(jī)器學(xué)習(xí)等技術(shù),對數(shù)據(jù)字段進(jìn)行認(rèn)知和識別,通過數(shù)據(jù)自動對標(biāo)技術(shù),解決在數(shù)據(jù)處理過程中遇到的數(shù)據(jù)不規(guī)范的問題.

· 根據(jù)數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)定義規(guī)則模板,圖3 中“出生日期”的規(guī)則如下所示。

? 值域稽核規(guī)則:YYYY:MM:DD 或YYYY-MM-DD;

? 取值范圍規(guī)則:1900

· 將數(shù)據(jù)項(xiàng)與標(biāo)準(zhǔn)庫數(shù)據(jù)項(xiàng)對應(yīng)。

借助機(jī)器學(xué)習(xí)推薦來簡化人工操作,根據(jù)語義相似度和采樣值域測試,推薦相似度最高的數(shù)據(jù)項(xiàng)關(guān)聯(lián)數(shù)據(jù)表字段,并根據(jù)數(shù)據(jù)特點(diǎn)選擇適合的轉(zhuǎn)換規(guī)則進(jìn)行自動標(biāo)準(zhǔn)化測試.根據(jù)數(shù)據(jù)項(xiàng)的規(guī)則模板自動生成字段的稽核任務(wù).

規(guī)則體系中包含很多數(shù)據(jù)處理的邏輯:將不同數(shù)據(jù)來源中各種時間格式的數(shù)據(jù)項(xiàng),轉(zhuǎn)化成統(tǒng)一的時間戳(timestamp)格式;對數(shù)據(jù)項(xiàng)做加密或者哈希轉(zhuǎn)換;對身份證號做校驗(yàn),檢驗(yàn)是否為合法的18 位身份證號,如果是15 位的,則將其統(tǒng)一轉(zhuǎn)換成18 位;將多個數(shù)據(jù)項(xiàng)通過指定拼接符號,連接成一個數(shù)據(jù)項(xiàng);將某個常量或者變量值賦給某個數(shù)據(jù)項(xiàng)等.

規(guī)則庫中的規(guī)則可以多層級迭代,形成數(shù)據(jù)處理的一條規(guī)則鏈.規(guī)則鏈上,上一條規(guī)則的輸出作為下一條規(guī)則的輸入,通過規(guī)則的組合,能夠靈活地支持各種數(shù)據(jù)處理邏輯.例如:對身份證號先使用全角轉(zhuǎn)半角的規(guī)則,對輸出的半角值使用身份證校驗(yàn)轉(zhuǎn)換規(guī)則,統(tǒng)一成18 位的身份證號;再對18 位身份證號使用數(shù)據(jù)脫敏規(guī)則,將身份證號轉(zhuǎn)成脫敏后的字符串.

Fig.3 Rule processing schematic圖3 規(guī)則處理示意圖

(2)標(biāo)準(zhǔn)代碼庫映射

標(biāo)準(zhǔn)代碼庫是基于國標(biāo)或者通用的規(guī)范建立的key-value 字典庫,字典庫遵循國標(biāo)值域、公安裝備資產(chǎn)分類與代碼等標(biāo)準(zhǔn)進(jìn)行構(gòu)建.當(dāng)數(shù)據(jù)項(xiàng)的命名為XXXDM(XXX 代碼)時,根據(jù)字典庫的國標(biāo)或部標(biāo)代碼,通過字典規(guī)則關(guān)聯(lián)出與代碼數(shù)據(jù)項(xiàng)對應(yīng)的代碼名稱數(shù)據(jù)項(xiàng)XXXDMMC(XXX 代碼名稱).

例如,我們想要將所有表示性別“男”的字段都轉(zhuǎn)換成“男”這種同一的表示方式,可以先建立一個數(shù)據(jù)字典,其中的鍵的取值范圍是所有不同表示方式的集合,值為最終我們想要?dú)w一化表示的“男”.

使用數(shù)據(jù)轉(zhuǎn)換規(guī)則時查找數(shù)據(jù)字典,將所有不同的表示方式統(tǒng)一成一種表示方式.

3 數(shù)據(jù)清洗

3.1 數(shù)據(jù)清洗背景

數(shù)據(jù)質(zhì)量一般由準(zhǔn)確性、完整性、一致性、時效性、可信性以及可解釋性等特征來描述,根據(jù)Rahm 等人在2000 年對數(shù)據(jù)質(zhì)量基于單數(shù)據(jù)源還是多數(shù)據(jù)源以及問題出在模式層還是實(shí)例層的標(biāo)準(zhǔn)進(jìn)行分類,將數(shù)據(jù)質(zhì)量問題分為單數(shù)據(jù)源模式層問題、單數(shù)據(jù)源實(shí)例層問題、多數(shù)據(jù)源模式層問題和多數(shù)據(jù)源實(shí)例層問題這4 大類[31].現(xiàn)實(shí)生活中的數(shù)據(jù)極易受到噪聲、缺失值和不一致數(shù)據(jù)的侵?jǐn)_,數(shù)據(jù)集成可能也會產(chǎn)生數(shù)據(jù)不一致的情況,數(shù)據(jù)清洗就是識別并且(可能)修復(fù)這些“臟數(shù)據(jù)”的過程[32].如果一個數(shù)據(jù)庫數(shù)據(jù)規(guī)范工作做得好,會給數(shù)據(jù)清洗工作減少許多麻煩.對于數(shù)據(jù)清洗工作的研究基本上是基于相似重復(fù)記錄的識別與剔除方法展開的,并且以召回率和準(zhǔn)確率作為算法的評價指標(biāo)[33,34].現(xiàn)有的清洗技術(shù)大都是孤立使用的,不同的清洗算法作為黑盒子以順序執(zhí)行或以交錯方式執(zhí)行,而這種方法沒有考慮不同清洗類型規(guī)則之間的交互簡化了問題的復(fù)雜性,但這種簡化可能會影響最終修復(fù)的質(zhì)量,因此需要把數(shù)據(jù)清洗放在上下文中結(jié)合端到端質(zhì)量執(zhí)行機(jī)制進(jìn)行整體清洗[35].隨著大數(shù)據(jù)時代的到來,現(xiàn)在已經(jīng)有不少有關(guān)大數(shù)據(jù)清洗系統(tǒng)的研究[36,37],不僅有對于數(shù)據(jù)一致性[38-40]以及實(shí)體匹配[41]的研究,也有基于MapReduce 的數(shù)據(jù)清洗系統(tǒng)的優(yōu)化[42]研究.下面對數(shù)據(jù)清洗具體應(yīng)用技術(shù)以及相關(guān)算法進(jìn)行分析.

3.2 數(shù)據(jù)清洗基本方法

從微觀層面來看,數(shù)據(jù)清洗的對象分為模式層數(shù)據(jù)清洗和實(shí)例層數(shù)據(jù)清洗[43].數(shù)據(jù)清洗識別并修復(fù)的“臟數(shù)據(jù)”主要有錯誤數(shù)據(jù)、不完整的數(shù)據(jù)以及相似重復(fù)的數(shù)據(jù),根據(jù)“臟數(shù)據(jù)”分類,數(shù)據(jù)清洗也可以分為3 類:屬性錯誤清洗、不完整數(shù)據(jù)清洗以及相似重復(fù)記錄的清洗,下面分別對每種情況進(jìn)行具體分析.

3.2.1 屬性錯誤清洗

數(shù)據(jù)庫中很多數(shù)據(jù)違反最初定義的完整性約束,存在大量不一致的、有沖突的數(shù)據(jù)和噪聲數(shù)據(jù),我們應(yīng)該識別出這些錯誤數(shù)據(jù),然后進(jìn)行錯誤清洗.

(1)屬性錯誤檢測

屬性錯誤檢測有基于定量的方法和基于定性的方法.

· 定量的誤差檢測一般在離群點(diǎn)檢測的基礎(chǔ)上采用統(tǒng)計(jì)方法來識別異常行為和誤差,離群點(diǎn)檢測是找出與其他觀察結(jié)果偏離太多的點(diǎn),Aggarwal 將關(guān)于離群點(diǎn)檢測方法又分為6 種類型:極值分析、聚類模型、基于距離的模型、基于密度的模型、概率模型、信息理論模型[44],并對這幾種模型進(jìn)行了詳盡的介紹;

· 定性的誤差檢測一般依賴于描述性方法指定一個合法的數(shù)據(jù)實(shí)例的模式或約束,因此確定違反這些模式或者約束的就是錯誤數(shù)據(jù).

圖4 描述了定性誤差檢測技術(shù)在3 個不同方面的不同分類,下面我們對圖中提出的3 個問題進(jìn)行分析.

· 首先,錯誤類型是指要檢測什么.定性誤差檢測技術(shù)可以根據(jù)捕捉到的錯誤類型來進(jìn)行分類,目前,大量的工作都是使用完整性約束來捕獲數(shù)據(jù)庫應(yīng)該遵守的數(shù)據(jù)質(zhì)量規(guī)則,雖然重復(fù)值也違反了完整性約束,但是重復(fù)值的識別與清洗是數(shù)據(jù)清洗的一個核心(在后續(xù)小節(jié)將會單獨(dú)介紹);

· 其次,自動化檢測.根據(jù)人類的參與與否以及參與步驟來對定性誤差檢測技術(shù)進(jìn)行分類,大部分的檢測過程都是全自動化的,個別技術(shù)涉及到人類參與;

· 最后,商業(yè)智能層是指在哪里檢測.錯誤可以發(fā)生在數(shù)據(jù)治理的任何階段,大部分的檢測都是針對原始數(shù)據(jù)庫的,但是有些錯誤只能在數(shù)據(jù)治理后獲得更多的語義和業(yè)務(wù)邏輯才能檢測出來.

Fig.4 Classification of qualitative error detection techniques[45]圖4 定性誤差檢測技術(shù)分類[45]

不僅可以使用統(tǒng)計(jì)方法來對屬性錯誤進(jìn)行檢測,使用一些商業(yè)工具也可以進(jìn)行異常檢測,如數(shù)據(jù)清洗工具以及數(shù)據(jù)審計(jì)工具等.Potter’s Wheel[46]是一種公開的數(shù)據(jù)清洗工具,不僅支持異常檢測,還支持后面數(shù)據(jù)不一致清洗所用到的數(shù)據(jù)變換功能.

(2)屬性錯誤清洗

屬性錯誤清洗包括噪聲數(shù)據(jù)以及不一致的數(shù)據(jù)清洗.

· 噪聲數(shù)據(jù)的清洗也叫光滑噪聲技術(shù),主要方法有分箱以及回歸等方法:分箱方法是通過周圍鄰近的值來光滑有序的數(shù)據(jù)值但是只是局部光滑,回歸方法是使用回歸函數(shù)擬合數(shù)據(jù)來光滑噪聲;

· 不一致數(shù)據(jù)的清洗在某些情況下可以參照其他材料使用人工進(jìn)行修改,可以借助知識工程工具來找到違反限制的數(shù)據(jù),例如:如果知道數(shù)據(jù)的函數(shù)依賴關(guān)系,通過函數(shù)關(guān)系修改屬性值.但是大部分的不一致情況都需要進(jìn)行數(shù)據(jù)變換,即定義一系列的變換糾正數(shù)據(jù),也有很多商業(yè)工具提供數(shù)據(jù)變換的功能,例如數(shù)據(jù)遷移工具和ETL 工具等,但是這些功能都是有限的.

3.2.2 不完整數(shù)據(jù)清洗

在實(shí)際應(yīng)用中,數(shù)據(jù)缺失是一種不可避免的現(xiàn)象[42].有很多情況下會造成數(shù)據(jù)值的缺失,例如填寫某些表格時需要填寫配偶信息,那沒有結(jié)婚的人就無法填寫此字段,或者在業(yè)務(wù)處理的稍后步驟提供值,字段也可能缺失.處理缺失值目前有以下幾種方法.

· 忽略元組:一般情況下,當(dāng)此元組缺少多個屬性值時常采用此方法,否則該方法不是很有效.當(dāng)忽略了此條元組之后,元組內(nèi)剩下的有值的屬性也不能被采用,這些數(shù)據(jù)可能是有用的;

· 人工填寫缺失值:這種方法最大的缺點(diǎn)就是需要大量的時間和人力,數(shù)據(jù)清理技術(shù)需要做到最少的人工干預(yù),并且在數(shù)據(jù)集很大、缺失很多屬性值時,這種方法行不通;

· 全局變量填充缺失值:使用同一個常量來填充屬性的缺失值.這種方法雖然使用起來較為簡單,但是有時不可靠.例如,用統(tǒng)一的常量“NULL”來填寫缺失值,在后續(xù)的數(shù)據(jù)挖掘中,可能會認(rèn)為它們形成了一個有趣的概念;

· 中心度量填充缺失值:使用屬性的中心度量來填充缺失值.中心度量是指數(shù)據(jù)分布的“中間”值,例如均值或者中位數(shù),數(shù)據(jù)對稱分布使用均值、傾斜分布使用中位數(shù);

· 使用最可能的值填充:相當(dāng)于數(shù)值預(yù)測的概念.回歸分析是數(shù)值預(yù)測最常用的統(tǒng)計(jì)學(xué)方法,此外也可以使用貝葉斯形式化方法的基于推理的工具或決策樹歸納確定缺失值.

鑒于現(xiàn)在很多人為了保護(hù)自己的隱私或者為了方便,隨意地選擇窗口中給定的值,Hua 等人于2007 年提出了一種識別偽裝缺失數(shù)據(jù)的啟發(fā)式方法,當(dāng)用戶不愿意泄露個人信息時故意錯誤地選擇窗口上的默認(rèn)值(如生日字段),這時數(shù)據(jù)就會被捕獲[47].

3.2.3 相似重復(fù)記錄清洗

· 相似重復(fù)記錄識別

消除相似重復(fù)記錄,首先應(yīng)該識別出相同或不同數(shù)據(jù)集中的兩個實(shí)體是否指向同一實(shí)體,這個過程也叫實(shí)體對齊或?qū)嶓w匹配.文本相似度度量是實(shí)體對齊的最基礎(chǔ)方法,大致分為4 種:基于字符的(例如編輯距離、仿射間隙距離、Smith-Waterman 距離、Jaro 距離度量、Q-gram 距離[48])、基于單詞的(例如Jaccard 系數(shù))、混合型(例如softTF-IDF)和基于語義的(例如WordNet).隨著知識表示學(xué)習(xí)在各個領(lǐng)域的發(fā)展,一些研究人員提出了基于表示學(xué)習(xí)的實(shí)體匹配算法,但均是以TransE 系列模型為基礎(chǔ)構(gòu)建的.TransE[49]首次提出基于翻譯的方法,將關(guān)系解釋為實(shí)體的低維向量之間的翻譯操作,隨之涌現(xiàn)出一些擴(kuò)展的典型算法,下面對這些算法進(jìn)行簡單介紹.

a)MTransE 算法[50]:基于轉(zhuǎn)移的方法解決多語言知識圖譜中的實(shí)體對齊.首先,使用TransE 對單個的知識圖譜進(jìn)行表示學(xué)習(xí);接著,學(xué)習(xí)不同空間的線性變換來進(jìn)行實(shí)體對齊.轉(zhuǎn)移方法有基于距離的軸校準(zhǔn)、翻譯向量、線性變換這3 種.該知識模型簡單復(fù)用TransE,對于提高實(shí)體對齊的精度仍存在很大局限;

b)JAPE 算法[51]是針對跨語言實(shí)體對齊的聯(lián)合屬性保護(hù)模型,利用屬性及文字描述信息來增強(qiáng)實(shí)體表示學(xué)習(xí),分為結(jié)構(gòu)表示、屬性表示.IPTransE 算法[52]使用聯(lián)合表示的迭代對齊,即使用迭代的方式不斷更新實(shí)體匹配.該方法分為3 部分:知識表示、聯(lián)合表示、迭代對齊.但這兩種算法都是基于先驗(yàn)實(shí)體匹配,將不同知識圖譜中的實(shí)體和關(guān)系嵌入到統(tǒng)一的向量空間,然后將匹配過程轉(zhuǎn)換成向量表示間距離的過程;

c)SEEA 算法[53]分為兩部分:屬性三元組學(xué)習(xí)、關(guān)系三元組學(xué)習(xí).該模型能夠自學(xué)習(xí),不需要對齊種子的輸入.每次迭代,根據(jù)前面迭代過程所得到的表示模型,計(jì)算實(shí)體向量間的余弦相似度.并選取前β對添加到關(guān)系三元組中更新本次表示模型,直到收斂.收斂條件:無法選取前β對實(shí)體對.

實(shí)體對齊方法不僅應(yīng)用于數(shù)據(jù)清洗過程中,對后續(xù)的數(shù)據(jù)集成以及數(shù)據(jù)挖掘也起到重要的作用.除此之外,也有很多重復(fù)檢測的工具可以使用,如Febrl 系統(tǒng)、TAILOR 工具、WHIRL 系統(tǒng)、BigMatch 等,但是很多匹配算法只適用于英文不適合中文,所以中文數(shù)據(jù)清洗工具的開發(fā)還需要進(jìn)一步的研究.

· 相似重復(fù)記錄清洗

相似重復(fù)記錄的清洗一般都采用先排序再合并的思想,代表算法有優(yōu)先隊(duì)列算法、近鄰排序算法、多趟近鄰排序算法.優(yōu)先隊(duì)列算法比較復(fù)雜,先將表中所有記錄進(jìn)行排序后,排好的記錄被優(yōu)先隊(duì)列進(jìn)行順序掃描并動態(tài)地將它們聚類,減少記錄比較的次數(shù),匹配效率得以提高,該算法還可以很好地適應(yīng)數(shù)據(jù)規(guī)模的變化.近鄰排序算法是相似重復(fù)記錄清洗的經(jīng)典算法,近鄰排序算法是采用滑動窗口機(jī)制進(jìn)行相似重復(fù)記錄的匹配,每次只對進(jìn)入窗口的w條記錄進(jìn)行比較,只需要比較w×N次,提高了匹配的效率.但是它有兩個很大的缺點(diǎn):首先是該算法的優(yōu)劣對排序關(guān)鍵字的依賴性很大,如果排序關(guān)鍵字選擇得不好,相似的兩條記錄一直沒有出現(xiàn)在滑動窗口上就無法識別相似重復(fù)記錄,導(dǎo)致很多條相似重復(fù)記錄得不到清洗;其次是滑動窗口的值w也很難把控,w值太大可能會產(chǎn)生沒必要的比較次數(shù),w值太小又可能會遺漏重復(fù)記錄的匹配.多趟近鄰排序算法是針對近鄰排序算法進(jìn)行改進(jìn)的算法,它是進(jìn)行多次近鄰排序算法每次選取的滑動窗口值可以不同,且每次匹配的相似記錄采用傳遞閉包,雖然可以減少很多遺漏記錄,但也會產(chǎn)生誤識別的情況.這兩個算法的滑動窗口值和屬性值的權(quán)重都是固定的,所以也有一些學(xué)者提出基于可變的滑動窗口值和不同權(quán)重的屬性值來進(jìn)行相似重復(fù)記錄的清洗.以上算法都有一些缺陷,如都要進(jìn)行排序,多次的外部排序會引起輸入/輸出代價過大;其次,由于字符位置敏感性,排序時相似重復(fù)的記錄不一定排在鄰近的位置,對算法的準(zhǔn)確性有影響.

4 數(shù)據(jù)交換

4.1 數(shù)據(jù)交換的基本概念

數(shù)據(jù)交換是將符合一個源模式的數(shù)據(jù)轉(zhuǎn)換為符合目標(biāo)模式數(shù)據(jù)的問題,該目標(biāo)模式盡可能準(zhǔn)確并且以與各種依賴性一致的方式反映源數(shù)據(jù)[54,55].

早期數(shù)據(jù)交換的一個主要方向是在關(guān)系模式之間從數(shù)據(jù)交換的上下文中尋求一階查詢的語義和復(fù)雜性.2008 年,Afrati 等人開始系統(tǒng)地研究數(shù)據(jù)交換中聚合查詢的語義和復(fù)雜性,給出一些概念并做出了技術(shù)貢獻(xiàn)[56].在一篇具有里程碑意義的論文中,Fagin 等人提出了一種純粹邏輯的方法來完成這項(xiàng)任務(wù)[55].從這時起,在數(shù)據(jù)庫研究界已經(jīng)對數(shù)據(jù)交換進(jìn)行了深入研究.近年,Xiao 等人指出,跨越不同實(shí)體的數(shù)據(jù)交換是實(shí)現(xiàn)智能城市的重要手段,設(shè)計(jì)了一種新穎的后端計(jì)算架構(gòu)——數(shù)據(jù)隱私保護(hù)自動化架構(gòu)(DPA),促進(jìn)在線隱私保護(hù)處理自動化,以無中斷的方式與公司的主要應(yīng)用系統(tǒng)無縫集成,允許適應(yīng)靈活的模型和交叉的服務(wù)質(zhì)量保證實(shí)體數(shù)據(jù)交換[57].隨著云計(jì)算和Web 服務(wù)的快速發(fā)展,Wu 等人將基于特征的數(shù)據(jù)交換應(yīng)用于基于云的設(shè)計(jì)與制造的協(xié)作產(chǎn)品開發(fā)上,并提出了一種面向服務(wù)的基于云的設(shè)計(jì)和制造數(shù)據(jù)交換架構(gòu)[58].

完善合理的數(shù)據(jù)交換服務(wù)建設(shè),關(guān)系到大數(shù)據(jù)平臺是否具有高效、穩(wěn)定的處理數(shù)據(jù)能力.

4.2 數(shù)據(jù)交換的實(shí)現(xiàn)模式

數(shù)據(jù)整合是平臺建設(shè)的基礎(chǔ),涉及到多種數(shù)據(jù)的整合手段,其中,數(shù)據(jù)交換、消息推送、通過服務(wù)總線實(shí)現(xiàn)應(yīng)用對接等都需要定義一套通用的數(shù)據(jù)交換標(biāo)準(zhǔn),基于此標(biāo)準(zhǔn)實(shí)現(xiàn)各個系統(tǒng)間數(shù)據(jù)的共享和交換,并支持未來更多系統(tǒng)與平臺的對接.平臺數(shù)據(jù)交換標(biāo)準(zhǔn)的設(shè)計(jì),充分借鑒國內(nèi)外現(xiàn)有的各類共享交換系統(tǒng)的建設(shè)經(jīng)驗(yàn),采用基于可擴(kuò)展標(biāo)記語言(XML)的信息交換框架.XML 定義了一組規(guī)則,用于以人類可讀和機(jī)器可讀的格式編碼文檔,它由國際萬維網(wǎng)聯(lián)盟設(shè)計(jì).XML 文檔格式良好且結(jié)構(gòu)化,因此它們更易于解析和編寫.由于它具有簡化、跨平臺、可擴(kuò)展性和自我描述等特征,XML 成為通過Internet 進(jìn)行數(shù)據(jù)傳輸?shù)耐ㄓ谜Z言[59].XML 關(guān)心的重點(diǎn)是數(shù)據(jù),而其他的因素如數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)類型、表現(xiàn)以及操作,都是有其他的以XML 為核心的相關(guān)技術(shù)完成.基于基本的XML 語言,通過定義一套數(shù)據(jù)元模型(語義字典)和一套基于XML Schema 的描述規(guī)范來實(shí)現(xiàn)對信息的共同理解,基于此套交換標(biāo)準(zhǔn)完成數(shù)據(jù)的交換.數(shù)據(jù)交換概括地說有以下兩種實(shí)現(xiàn)模式.

(1)協(xié)議式交換

協(xié)議式數(shù)據(jù)交換是源系統(tǒng)和目標(biāo)系統(tǒng)之間定義一個數(shù)據(jù)交換交互協(xié)議,遵循制定的協(xié)議,通過將一個系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)移植到另一個系統(tǒng)的數(shù)據(jù)庫來完成數(shù)據(jù)交換.Tyagi 等人于2017 年提出一種通用的交互式通信協(xié)議,稱為遞歸數(shù)據(jù)交換協(xié)議(RDE),它可以獲得各方觀察到的任何數(shù)據(jù)序列,并提供單獨(dú)的性能序列保證[60];并于2018 年提出了一種新的數(shù)據(jù)交換交互協(xié)議,它可以逐步增加通信大小,直到任務(wù)完成,還導(dǎo)出了基于將數(shù)據(jù)交換問題與秘密密鑰協(xié)議問題相關(guān)聯(lián)的最小位數(shù)的下限[61].這種交換模式的優(yōu)點(diǎn)在于:它無需對底層數(shù)據(jù)庫的應(yīng)用邏輯和數(shù)據(jù)結(jié)構(gòu)做任何改變,可以直接用于開發(fā)在數(shù)據(jù)訪問層.但是編程人員基于底層數(shù)據(jù)庫進(jìn)行直接修改也是這種模式的缺點(diǎn)之一,編程人員首先要對雙方數(shù)據(jù)庫的底層設(shè)計(jì)有清楚的了解,需要承擔(dān)較高的安全風(fēng)險;其次,編程人員在修改原有的數(shù)據(jù)訪問層時需要保證數(shù)據(jù)的完整性和一致性.此外,這種模式的另一個缺點(diǎn)在于系統(tǒng)的可重用性很低,每次對于不同應(yīng)用的數(shù)據(jù)交換都需要做不同的設(shè)計(jì).下面我們舉一個通俗易懂的例子:安徽人和新疆人有生意上的往來,但由于彼此說的都是家鄉(xiāng)話,交易很難進(jìn)行,于是雙方就約定每次見面都使用安徽話或者新疆話.假如他們規(guī)定一個協(xié)議,每次見面都以安徽話來交談,那么新疆人每句話的語法結(jié)構(gòu)和發(fā)音標(biāo)準(zhǔn)都按照安徽話來修改,同時要保證每句話的完整性和準(zhǔn)確性,保證雙方順利的交談.然而在下次的生意中,新疆人可能面對的是一位廣東人,那么交流依舊出現(xiàn)了困難,此時新疆人又需要把自己的新疆話轉(zhuǎn)換為廣東話.

(2)標(biāo)準(zhǔn)化交換

標(biāo)準(zhǔn)化數(shù)據(jù)交換是指在網(wǎng)絡(luò)環(huán)境中建立一個可供多方共享的方法作為統(tǒng)一的標(biāo)準(zhǔn),使得跨平臺應(yīng)用程序之間實(shí)現(xiàn)數(shù)據(jù)共享和交換.下面我們依舊以安徽人與新疆人作交易為例來解釋這種交換模式.為了解決雙方無法溝通的困境,雙方約定每次見面交易都使用普通話這種標(biāo)準(zhǔn)來交流,當(dāng)下次即使遇到全國各地的人,也可以使用普通話來交流,而且大家只需要熟悉普通話的語法規(guī)則即可,不需要精通各地的語言.這種交換模式的優(yōu)點(diǎn)顯而易見,系統(tǒng)對于不同的應(yīng)用只需要提供一個多方共享的標(biāo)準(zhǔn)即可,具有很高的可重用性.

實(shí)現(xiàn)基于XML 的數(shù)據(jù)交換平臺確實(shí)需要一系列的努力和資源來創(chuàng)建/管理交換,但它不是對現(xiàn)有系統(tǒng)的大規(guī)模改變而是有限的改變,所以使用基于XML 數(shù)據(jù)交換的關(guān)鍵優(yōu)勢是信息共享的組織不需要更改其現(xiàn)有的數(shù)據(jù)存儲或標(biāo)準(zhǔn),使得異構(gòu)系統(tǒng)之間可以實(shí)現(xiàn)最大限度的協(xié)同,并能在現(xiàn)有數(shù)據(jù)交換應(yīng)用的基礎(chǔ)上擴(kuò)展更多新的應(yīng)用,從而對不同企業(yè)間發(fā)展應(yīng)用集成起到促進(jìn)作用.

5 數(shù)據(jù)集成

5.1 數(shù)據(jù)集成的基本概念

在信息化建設(shè)初期,由于缺乏有效合理的規(guī)劃和協(xié)作,信息孤島的現(xiàn)象普遍存在,大量的冗余數(shù)據(jù)和垃圾數(shù)據(jù)存在于信息系統(tǒng)中,數(shù)據(jù)質(zhì)量得不到保證,信息的利用效率明顯低下.為了解決這個問題,數(shù)據(jù)集成技術(shù)[62]應(yīng)運(yùn)而生.數(shù)據(jù)集成技術(shù)是協(xié)調(diào)數(shù)據(jù)源之間不匹配問題[63-67],將異構(gòu)、分布、自治的數(shù)據(jù)集成在一起,為用戶提供單一視圖,使得可以透明地訪問數(shù)據(jù)源.系統(tǒng)數(shù)據(jù)集成主要指異構(gòu)數(shù)據(jù)集成,重點(diǎn)是數(shù)據(jù)標(biāo)準(zhǔn)化和元數(shù)據(jù)中心的建立.

· 數(shù)據(jù)標(biāo)準(zhǔn)化:數(shù)據(jù)標(biāo)準(zhǔn)化的作用在于提高系統(tǒng)的可移植性、互操作性、可伸縮性、通用性和共享性.數(shù)據(jù)集成依據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)包括屬性數(shù)據(jù)標(biāo)準(zhǔn)、網(wǎng)絡(luò)應(yīng)用標(biāo)準(zhǔn)和系統(tǒng)元數(shù)據(jù)標(biāo)準(zhǔn).名詞術(shù)語詞典、數(shù)據(jù)文件屬性字典、菜單詞典及各類代碼表等為系統(tǒng)公共數(shù)據(jù),在此基礎(chǔ)上促成系統(tǒng)間的術(shù)語、名稱、代碼的統(tǒng)一,促成屬性數(shù)據(jù)統(tǒng)一的維護(hù)管理;

· 元數(shù)據(jù)中心的建立:在建立元數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)上,統(tǒng)一進(jìn)行數(shù)據(jù)抽取、格式轉(zhuǎn)換、重組、儲存,實(shí)現(xiàn)對各業(yè)務(wù)系統(tǒng)數(shù)據(jù)的整合.經(jīng)處理的數(shù)據(jù)保存在工作數(shù)據(jù)庫中,庫中所有屬性數(shù)據(jù)文件代碼及各數(shù)據(jù)文件中的屬性項(xiàng)代碼均按標(biāo)準(zhǔn)化要求編制,在整個系統(tǒng)中保持唯一性,可以迅速、準(zhǔn)確定位.各屬性項(xiàng)的文字值及代碼,也都通過詞庫建設(shè)進(jìn)行標(biāo)準(zhǔn)化處理,實(shí)現(xiàn)一詞一義.建立元數(shù)據(jù)中心的基本流程如圖5所示.

Fig.5 Metadata center圖5 元數(shù)據(jù)中心

5.2 數(shù)據(jù)集成方法

數(shù)據(jù)規(guī)范和數(shù)據(jù)交換的完成,對數(shù)據(jù)集成的有效進(jìn)行提供了很大的幫助,但在數(shù)據(jù)集成時仍然需要解決以下難題.

首先是異構(gòu)性.數(shù)據(jù)異構(gòu)分為兩個方面:其一,不同數(shù)據(jù)源數(shù)據(jù)的結(jié)構(gòu)不同,此為結(jié)構(gòu)性異構(gòu);其二,不同數(shù)據(jù)源的數(shù)據(jù)項(xiàng)在含義上有差別,此為語義性異構(gòu);其次是數(shù)據(jù)源的異地分布性;最后是數(shù)據(jù)源的自治性.數(shù)據(jù)源可以改變自身的結(jié)構(gòu)和數(shù)據(jù),這就要求數(shù)據(jù)集成系統(tǒng)應(yīng)具有魯棒性.

為了解決這些難題,現(xiàn)在有模式集成方法、數(shù)據(jù)復(fù)制方法和基于本體的方法這幾種典型的數(shù)據(jù)集成方法:

(1)模式集成方法

模式集成方法為用戶提供統(tǒng)一的查詢接口,通過中介模式訪問實(shí)時數(shù)據(jù),該模式直接從原始數(shù)據(jù)庫檢索信息(如圖6 所示).該方法的實(shí)現(xiàn)共分為4 個主要步驟:源數(shù)據(jù)庫的發(fā)現(xiàn)、查詢接口模式的抽取、領(lǐng)域源數(shù)據(jù)庫的分類和全局查詢接口集成[68-73].

Fig.6 Schematic diagram of a pattern integration approach圖6 模式集成方法示意圖

模式集成方法依賴于中介模式與原始源模式之間的映射[74],并將查詢轉(zhuǎn)換為專用查詢,以匹配原始數(shù)據(jù)庫的模式.這種映射可以用兩種方式指定:作為從中介模式中的實(shí)體到原始數(shù)據(jù)源中的實(shí)體的映射——全局視圖(GAV)方法[75],或者作為從原始源中的實(shí)體到中介模式——本地視圖(LAV)方法的映射[76].后一種方法需要更復(fù)雜的推理來解析對中介模式的查詢[67,77,78],但是可以更容易地將新數(shù)據(jù)源添加到穩(wěn)定中介模式中.

模式集成方法的優(yōu)點(diǎn)是為用戶提供了統(tǒng)一的訪問接口和全局?jǐn)?shù)據(jù)視圖;缺點(diǎn)是用戶使用該方法時經(jīng)常需要訪問多個數(shù)據(jù)源,存在很大的網(wǎng)絡(luò)延遲,數(shù)據(jù)源之間沒有進(jìn)行交互.如果被集成的數(shù)據(jù)源規(guī)模比較大且數(shù)據(jù)實(shí)時性比較高更新頻繁,則一般采用模式集成方法.

(2)數(shù)據(jù)復(fù)制方法

數(shù)據(jù)復(fù)制方法是將用戶可能用到的其他數(shù)據(jù)源的數(shù)據(jù)預(yù)先復(fù)制到統(tǒng)一的數(shù)據(jù)源中,用戶使用時,僅需訪問單一的數(shù)據(jù)源或少量的數(shù)據(jù)源.數(shù)據(jù)復(fù)制方法提供了緊密耦合的體系結(jié)構(gòu),數(shù)據(jù)已經(jīng)在單個可查詢的存儲庫中進(jìn)行物理協(xié)調(diào),因此解析查詢通常需要很少的時間[79],系統(tǒng)處理用戶請求的效率顯著提升;但在使用該方法時,數(shù)據(jù)復(fù)制需要一定的時間,所以數(shù)據(jù)的實(shí)時一致性不好保證.數(shù)據(jù)倉庫方法是數(shù)據(jù)復(fù)制方法的一種常見方式[80],第一個數(shù)據(jù)集成系統(tǒng)便是使用該方法于1991 年在明尼蘇達(dá)大學(xué)設(shè)計(jì)的.該方法的過程是:先提取各個異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),然后轉(zhuǎn)換、加載到數(shù)據(jù)倉庫中,用戶在訪問數(shù)據(jù)倉庫查找數(shù)據(jù)時,類似訪問普通數(shù)據(jù)庫.

對于經(jīng)常更新的數(shù)據(jù)集,數(shù)據(jù)倉庫方法不太可行,需要連續(xù)重新執(zhí)行提取、轉(zhuǎn)換、加載(ETL)過程以進(jìn)行同步.根據(jù)數(shù)據(jù)復(fù)制方法的優(yōu)缺點(diǎn)可以看出:數(shù)據(jù)源相對穩(wěn)定或者用戶查詢模式已知或有限的時候,適合采用數(shù)據(jù)復(fù)制方法.數(shù)據(jù)倉庫方法示意圖如圖7 所示.

下面舉例說明這兩種集成方法具體應(yīng)用的區(qū)別:目前我們想要設(shè)計(jì)一個應(yīng)用程序,該應(yīng)用程序的功能為用戶可以利用該程序查詢到自己所在城市的任何信息,包括天氣信息、人口統(tǒng)計(jì)信息等.傳統(tǒng)的思想是,把所有這些信息保存在一個后臺數(shù)據(jù)庫中,但是這種廣度的信息收集起來難度大且成本高,即使收集到這些資源,它們也可能會復(fù)制已有數(shù)據(jù)庫中的數(shù)據(jù),不具備實(shí)時性.

此時,我們選擇模式集成方法解決該應(yīng)用程序面臨的問題,讓開發(fā)人員構(gòu)建虛擬模式——全局模式,然后對各個單獨(dú)的數(shù)據(jù)源進(jìn)行“包裝”,這些“包裝”只是將本地查詢結(jié)果(實(shí)際上是由相對應(yīng)的網(wǎng)站或數(shù)據(jù)庫返回的結(jié)果)轉(zhuǎn)換為易于處理的表單,當(dāng)使用該應(yīng)用程序的用戶查詢數(shù)據(jù)時,看似是本地查詢,實(shí)則數(shù)據(jù)集成系統(tǒng)會將此查詢轉(zhuǎn)換為相應(yīng)數(shù)據(jù)源上的相應(yīng)查詢.最后,虛擬數(shù)據(jù)庫將這些查詢的結(jié)果反饋給用戶.

如果我們選擇使用數(shù)據(jù)復(fù)制方法來解決此問題的話,首先,我們需要把所有的數(shù)據(jù)信息復(fù)制到數(shù)據(jù)倉庫中,每當(dāng)數(shù)據(jù)(如天氣情況)有所更新時,我們也要手動集成到系統(tǒng)中.所以,兩種數(shù)據(jù)集成方法的使用需根據(jù)具體的情形來選擇.

Fig.7 Schematic diagram of data warehouse method圖7 數(shù)據(jù)倉庫方法示意圖

(3)基于本體的數(shù)據(jù)集成

根據(jù)上述介紹,數(shù)據(jù)異構(gòu)有兩個方面:前兩種方法都是針對解決結(jié)構(gòu)異構(gòu)而提出的解決方案;而本體技術(shù)致力于解決語義性異構(gòu)問題.語義集成過程中,一般通過沖突檢測、真值發(fā)現(xiàn)等技術(shù)來解決沖突,常見的沖突解決策略有如下3 類:沖突忽略、沖突避免和沖突消解.沖突忽略是人工干預(yù)把沖突留給用戶解決;沖突避免是對所有的情形使用統(tǒng)一的約束規(guī)則;沖突消解又分為3 類:一是基于投票的方法采用簡單的少數(shù)服從多數(shù)策略;二是基于質(zhì)量的方法,此方法在第1 種方法的基礎(chǔ)上考慮數(shù)據(jù)來源的可信度;三是基于關(guān)系的方法,此方法在第2 種方法的基礎(chǔ)上考慮不同數(shù)據(jù)來源之間的關(guān)系.

本體是對某一領(lǐng)域中的概念及其之間關(guān)系的顯式描述,基于本體的數(shù)據(jù)集成系統(tǒng)允許用戶通過對本體描述的全局模式的查詢來有效地訪問位于多個數(shù)據(jù)源中的數(shù)據(jù)[81].陶春等人針對基于本體的XML 數(shù)據(jù)集成的查詢處理提出了優(yōu)化算法[82].目前,基于本體技術(shù)的數(shù)據(jù)集成方法有3 種,分別為:單本體方法、多本體方法和混合本體方法.

由于單本體方法所有的數(shù)據(jù)源都要與共享詞匯庫全局本體關(guān)聯(lián),應(yīng)用范圍很小,且數(shù)據(jù)源的改變會影響全局本體的改變.為了解決單本體方法的缺陷,多本體方法應(yīng)運(yùn)而生.多本體方法的每個數(shù)據(jù)源都由各自的本體進(jìn)行描述,它的優(yōu)點(diǎn)是數(shù)據(jù)源的改變對本體的影響小,但是由于缺少共享的詞匯庫,不同的數(shù)據(jù)源之間難以比較,數(shù)據(jù)源之間的共享性和交互性相對較差.混合本體方法的提出,解決了單本體和多本體方法的不足:混合本體的每個數(shù)據(jù)源的語義都由它們各自的本體進(jìn)行描述,解決了單本體方法的缺點(diǎn).混合本體還建立了一個全局共享詞匯庫以解決多本體方法的缺點(diǎn),如圖8 所示.混合本體方法有效地解決了數(shù)據(jù)源間的語義異構(gòu)問題.

Fig.8 Hybrid ontology approach圖8 混合本體方法

6 數(shù)據(jù)治理框架

6.1 數(shù)據(jù)治理成熟度模型

一個機(jī)構(gòu)的數(shù)據(jù)治理能力越高,所享受到數(shù)據(jù)治理帶來的價值也會越多,如增加收入、減少成本、降低風(fēng)險等.于是,很多機(jī)構(gòu)想要準(zhǔn)確地評估本公司的數(shù)據(jù)治理能力,可以利用數(shù)據(jù)治理成熟度模型方法,包括DQM,Dataflux 和IBM 在內(nèi)的一些組織都開發(fā)了相類似的數(shù)據(jù)治理成熟度模型.

我們先介紹一下DQM 集團(tuán)的數(shù)據(jù)治理成熟度模型[83],此數(shù)據(jù)治理成熟度模型共分為5 個階段.

(1)意識階段:當(dāng)公司數(shù)據(jù)不統(tǒng)一的情況隨處可見,數(shù)據(jù)質(zhì)量很差卻難以提高,數(shù)據(jù)模型的梳理難以進(jìn)行時,公司會意識到數(shù)據(jù)治理對于數(shù)據(jù)平臺的建設(shè)發(fā)揮著至關(guān)重要的作用,但并沒有定義數(shù)據(jù)規(guī)則和策略,基本不采取行動;

(2)被動的反應(yīng)階段:公司在出現(xiàn)數(shù)據(jù)上的問題時,會去采取措施解決問題,但并不會尋其根源解決根本問題,也就是說,公司的行動通常是由危機(jī)驅(qū)動的.該類反應(yīng)性組織的數(shù)據(jù)仍然是“孤立”存在的,很少進(jìn)行數(shù)據(jù)共享,只是努力達(dá)到監(jiān)管的要求;

(3)主動的應(yīng)對階段:處在這個階段的組織最終可以識別和解決根本原因,并可以在問題出現(xiàn)之前將其化解.這個階段的組織將數(shù)據(jù)視為整個企業(yè)的戰(zhàn)略資產(chǎn),而不是像第1 階段將數(shù)據(jù)作為一種成本開銷;

(4)成熟的管理階段:這個階段的組織擁有一組成熟的數(shù)據(jù)流程,可以識別出現(xiàn)的問題,并以專注于數(shù)據(jù)開發(fā)的方式定義策略;

(5)最佳階段:一個組織把數(shù)據(jù)和數(shù)據(jù)開發(fā)作為人員、流程和技術(shù)的核心競爭力.

IBM 的數(shù)據(jù)治理成熟度模型也分為5 個階段[84],分別是初始階段、基本管理、定義階段(主動管理)、量化管理、最佳(持續(xù)優(yōu)化)階段(影響數(shù)據(jù)治理成熟度的關(guān)鍵因素有以下3 個:嚴(yán)格性、全面性以及一致性).

(1)IBM 的初始階段是指企業(yè)缺乏數(shù)據(jù)治理流程,沒有跟蹤管理,也沒有一個穩(wěn)定的數(shù)據(jù)治理的環(huán)境,僅僅只能體現(xiàn)個人的努力和成果,工作尚未開展;

(2)基本管理階段是指該階段有了初始的流程定義,開展了基本的數(shù)據(jù)治理工作,但仍然存在很多問題;

(3)定義階段是指企業(yè)在相關(guān)成功案例的基礎(chǔ)上積累了相關(guān)的經(jīng)驗(yàn),形成了部分標(biāo)準(zhǔn)但仍不完善的流程;

(4)量化管理階段的企業(yè)能夠運(yùn)用先進(jìn)的工具對數(shù)據(jù)治理的效果進(jìn)行量化,數(shù)據(jù)治理已經(jīng)能取得持續(xù)的效果,并且能根據(jù)既定的目標(biāo)進(jìn)行一致的績效評估;

(5)最佳階段是持續(xù)地關(guān)注流程的優(yōu)化,達(dá)到了此階段的企業(yè)已經(jīng)具有創(chuàng)新能力,成為行業(yè)的領(lǐng)導(dǎo)者.

從這些企業(yè)的數(shù)據(jù)治理模型可以看出:數(shù)據(jù)治理從來都不是一次性的程序,而是一個持續(xù)的過程,這個過程必須是漸進(jìn)式迭代型的,每個組織必須采取許多小的、可實(shí)現(xiàn)的、可衡量的步驟來實(shí)現(xiàn)長期目標(biāo).

6.2 數(shù)據(jù)治理框架

Khatri 等人使用Weill 和Ross 框架進(jìn)行IT 治理,作為設(shè)計(jì)數(shù)據(jù)治理框架的起點(diǎn)[85],IBM 的數(shù)據(jù)治理委員會以支撐域、核心域、促成因素和成果這4 個層次來構(gòu)建數(shù)據(jù)治理框架[84],如圖9 所示.

圖9 的數(shù)據(jù)治理框架所包含的11 個域并不是相互獨(dú)立運(yùn)行的而是相關(guān)聯(lián)的,例如,數(shù)據(jù)的質(zhì)量和安全/隱私要求需要在整個信息生命周期中進(jìn)行評估和管理.IBM 的數(shù)據(jù)治理框架注重數(shù)據(jù)治理的方法以及過程,IBM 數(shù)據(jù)治理委員會最關(guān)鍵的命題是數(shù)據(jù)治理的成果,在下面3 層的支撐作用下,組織最終實(shí)現(xiàn)數(shù)據(jù)治理的目標(biāo)提升數(shù)據(jù)價值.

在IBM 數(shù)據(jù)治理框架的基礎(chǔ)上加以擴(kuò)充,文獻(xiàn)[6]設(shè)計(jì)了一個大數(shù)據(jù)背景下的數(shù)據(jù)治理框架,如圖10 所示.

結(jié)合IBM 公司的數(shù)據(jù)治理框架,我們對文獻(xiàn)[6]給出的大數(shù)據(jù)治理框架進(jìn)行了幾處修改得到圖10.為了與圖9 保持一致,將文獻(xiàn)[6]中大數(shù)據(jù)治理框架圖的“范圍”修改為“核心域”,文獻(xiàn)[6]的大數(shù)據(jù)治理框架圖的“大數(shù)據(jù)質(zhì)量”修改為“數(shù)據(jù)質(zhì)量管理”,文獻(xiàn)[6]的大數(shù)據(jù)治理框架圖的“大數(shù)據(jù)生命周期”修改為“數(shù)據(jù)生命周期管理”.圖10從原則、核心域、實(shí)施與評估這3 個方面來對大數(shù)據(jù)治理全面地進(jìn)行描述,企業(yè)數(shù)據(jù)治理應(yīng)該遵循戰(zhàn)略一致、風(fēng)險管理、運(yùn)營合規(guī)以及價值創(chuàng)造這4 個基本的指導(dǎo)性原則,治理的核心域或者說叫決策域包括戰(zhàn)略、組織、數(shù)據(jù)生命周期管理、數(shù)據(jù)質(zhì)量管理、大數(shù)據(jù)服務(wù)創(chuàng)新、大數(shù)據(jù)安全以及大數(shù)據(jù)架構(gòu)這7 個部分,實(shí)施與評估維度指出大數(shù)據(jù)治理在實(shí)施評估時重點(diǎn)需要關(guān)注促成因素、實(shí)施過程、成熟度評估以及審計(jì)這4 個方面.一個大數(shù)據(jù)治理組織要在4 個基本原則下對7 個核心域進(jìn)行數(shù)據(jù)治理,不斷地推進(jìn)大數(shù)據(jù)治理的工作.

Fig.9 IBM data governance framework[84]圖9 IBM 數(shù)據(jù)治理框架[84]

Fig.10 Big data governance framework[6]圖10 大數(shù)據(jù)治理框架[6]

框架頂部的4 個原則是數(shù)據(jù)治理自上而下的頂層設(shè)計(jì),對大數(shù)據(jù)治理的實(shí)施具有指導(dǎo)作用,它為所有其他的管理決策確定方向.戰(zhàn)略一致是指數(shù)據(jù)治理的戰(zhàn)略要和企業(yè)的整體戰(zhàn)略保持一致,在制定數(shù)據(jù)治理戰(zhàn)略時要融合企業(yè)的整體戰(zhàn)略、企業(yè)的文化制度以及業(yè)務(wù)需要,來繪制數(shù)據(jù)治理實(shí)現(xiàn)藍(lán)圖;大數(shù)據(jù)的到來不僅伴隨著價值同時也會帶來風(fēng)險,企業(yè)要保持風(fēng)險可控有計(jì)劃地對風(fēng)險進(jìn)行不定期的評估工作;運(yùn)營合規(guī)是指企業(yè)在數(shù)據(jù)治理過程中要遵守法律法規(guī)和行業(yè)規(guī)范;企業(yè)的數(shù)據(jù)治理要不斷地為企業(yè)提供創(chuàng)新服務(wù)創(chuàng)造價值.

框架的核心域也可以叫做決策域,指出數(shù)據(jù)治理需要治理的核心對象,下面對數(shù)據(jù)治理的7 個核心域進(jìn)行一一介紹,其中:戰(zhàn)略制定要根據(jù)大數(shù)據(jù)治理目標(biāo)來制定,根據(jù)戰(zhàn)略的制定,企業(yè)應(yīng)該設(shè)置對應(yīng)的組織架構(gòu)把戰(zhàn)略實(shí)施落到實(shí)處,明確各個部門相關(guān)職責(zé);數(shù)據(jù)生命周期管理是從數(shù)據(jù)的采集、存儲、集成、分析、歸檔、銷毀的全過程進(jìn)行監(jiān)督和管理,根據(jù)出現(xiàn)的問題及時優(yōu)化的過程;數(shù)據(jù)質(zhì)量管理不僅要保障數(shù)據(jù)的完整性、準(zhǔn)確性、及時性以及一致性,而且還包括問題追蹤和合規(guī)性監(jiān)控.

2014 年10 月,美國摩根大通公司電腦系統(tǒng)發(fā)生數(shù)據(jù)泄露,被竊取的信息包括客戶姓名、地址、電話號碼和電子郵箱地址,將對7 600 萬家庭和700 萬小企業(yè)造成影響.2018 年1 月,有一家數(shù)據(jù)分析公司對Facebook 超過8 700 萬用戶進(jìn)行非法的數(shù)據(jù)挖掘,接下來的3 月、9 月以及12 月,Facebook 又多次發(fā)生用戶數(shù)據(jù)泄露事件.大數(shù)據(jù)背景下的信息開放和共享,使得隱私和信息安全問題被顯著放大,IBM 數(shù)據(jù)治理專家Soares 在其著作《Big Data Governance an Emerging Imperative》中以清晰的案例介紹電信行業(yè)利用地理位置數(shù)據(jù)來侵犯個人隱私[10],因此在大數(shù)據(jù)治理過程中,采取一定的措施和策略保證信息安全和隱私保護(hù)尤為重要.下面從大數(shù)據(jù)安全防護(hù)和隱私保護(hù)兩個方面來介紹它們的關(guān)鍵技術(shù).

(1)首先,大數(shù)據(jù)安全防護(hù)主要包括以下關(guān)鍵技術(shù).

· 大數(shù)據(jù)加密技術(shù):對平臺中的核心敏感數(shù)據(jù)進(jìn)行加密保護(hù),結(jié)合訪問控制技術(shù),利用用戶權(quán)限和數(shù)據(jù)權(quán)限的比較來防止非授權(quán)用戶訪問數(shù)據(jù);

· 大數(shù)據(jù)安全漏洞檢測:該技術(shù)可以采用白/黑/灰盒測試或者動態(tài)跟蹤分析等方法,對大數(shù)據(jù)平臺和程序進(jìn)行安全漏洞檢測,減少由于設(shè)計(jì)缺陷或人為因素留下的問題;

· 威脅預(yù)測技術(shù):利用大數(shù)據(jù)分析技術(shù),對平臺的各類信息資產(chǎn)進(jìn)行安全威脅檢測,在攻擊發(fā)生前進(jìn)行識別預(yù)測并實(shí)施預(yù)防措施;

· 大數(shù)據(jù)認(rèn)證技術(shù):利用大數(shù)據(jù)技術(shù)收集用戶行為和設(shè)備行為數(shù)據(jù),根據(jù)這些數(shù)據(jù)的特征對使用者進(jìn)行身份判斷;

(2)其次,對于隱私保護(hù),現(xiàn)有的關(guān)鍵技術(shù)分析如下.

· 匿名保護(hù)技術(shù):針對結(jié)構(gòu)化數(shù)據(jù),一般采用數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù);而對于類似圖的非結(jié)構(gòu)化數(shù)據(jù),則一般采用社交網(wǎng)絡(luò)匿名保護(hù)技術(shù);

· 數(shù)據(jù)水印技術(shù):水印技術(shù)一般用于多媒體數(shù)據(jù)的版權(quán)保護(hù),但多用于靜態(tài)數(shù)據(jù)的保護(hù),在大數(shù)據(jù)動態(tài)性的特點(diǎn)下需要改進(jìn);

· 數(shù)據(jù)溯源技術(shù):由于數(shù)據(jù)的來源不同,對數(shù)據(jù)的來源和傳播進(jìn)行標(biāo)記,為使用者判斷信息真?zhèn)翁峁┍憷?

· 數(shù)據(jù)審計(jì)技術(shù):對數(shù)據(jù)存儲前后的完整性和系統(tǒng)日志信息進(jìn)行審計(jì).

大數(shù)據(jù)架構(gòu)是從系統(tǒng)架構(gòu)層面進(jìn)行描述,不僅關(guān)心大數(shù)據(jù)的存儲,還關(guān)心大數(shù)據(jù)的管理和分析.我們首先要明確元數(shù)據(jù)和主數(shù)據(jù)的含義:元數(shù)據(jù)是對數(shù)據(jù)的描述信息,而主數(shù)據(jù)就是業(yè)務(wù)的實(shí)體信息.所以對于元數(shù)據(jù)和主數(shù)據(jù)的管理是對基礎(chǔ)數(shù)據(jù)的管理.數(shù)據(jù)治理不僅要降低企業(yè)成本,還要應(yīng)用數(shù)據(jù)創(chuàng)新服務(wù)為企業(yè)增加價值,大數(shù)據(jù)服務(wù)創(chuàng)新也是大數(shù)據(jù)治理的核心價值.

大數(shù)據(jù)治理的實(shí)施與評估主要包括促成因素、實(shí)施過程、成熟度評估和審計(jì):促成因素包括企業(yè)的內(nèi)外部環(huán)境和數(shù)據(jù)治理過程中采用的技術(shù)工具;大數(shù)據(jù)治理是一個長期的、閉環(huán)的、循序漸進(jìn)的過程,在每一個階段需要解決不同的問題,有不同的側(cè)重點(diǎn),所以應(yīng)該對數(shù)據(jù)生命周期的每個階段有一個很好的規(guī)劃,這就是實(shí)施過程的內(nèi)涵所在;數(shù)據(jù)治理成熟度模型我們已經(jīng)在本節(jié)的上半部分介紹了它的內(nèi)容,但成熟度評估主要是對數(shù)據(jù)的安全性、一致性、準(zhǔn)確性、可獲取性、可共享性以及大數(shù)據(jù)的存儲和監(jiān)管進(jìn)行評估;審計(jì)是第三方對企業(yè)數(shù)據(jù)治理進(jìn)行評價和給出審計(jì)意見,促進(jìn)有關(guān)數(shù)據(jù)治理工作內(nèi)容的改進(jìn),對于企業(yè)的持續(xù)發(fā)展意義重大.

在企業(yè)的數(shù)據(jù)治理過程中,治理主體對數(shù)據(jù)治理的需求進(jìn)行評估來設(shè)定數(shù)據(jù)治理的目標(biāo)和發(fā)展方向,為數(shù)據(jù)治理戰(zhàn)略準(zhǔn)備與實(shí)施提供指導(dǎo),并全程監(jiān)督數(shù)據(jù)治理的實(shí)施過程.通過對實(shí)施成果的評估,全面了解本公司數(shù)據(jù)治理的水平和狀態(tài),更好地改進(jìn)和優(yōu)化數(shù)據(jù)治理過程,以致達(dá)到組織的預(yù)期目標(biāo).

7 HAO 治理模型

下面介紹我們自己設(shè)計(jì)的HAO 治理模型.該模型從大數(shù)據(jù)開始,為HI(人類智能)、AI(人工智能)和OI(組織智能)三者協(xié)同的HAO 智能[86]提供數(shù)據(jù)治理支持.

HAO 治理模型旨在實(shí)現(xiàn)以下需求.

(1)建立全面、動態(tài)、可配置的數(shù)據(jù)接入機(jī)制,滿足數(shù)據(jù)采集、數(shù)據(jù)匯聚、任務(wù)配置、任務(wù)調(diào)度、數(shù)據(jù)加密、斷點(diǎn)續(xù)傳等需求;

(2)建立標(biāo)準(zhǔn)化的數(shù)據(jù)處理流程,形成面向數(shù)據(jù)內(nèi)容的數(shù)據(jù)規(guī)范、清洗、關(guān)聯(lián)、比對、標(biāo)識等轉(zhuǎn)換處理規(guī)范模式,為一個組織的數(shù)據(jù)融合建庫提供支撐;

(3)統(tǒng)籌建設(shè)多元集成、融合建庫的數(shù)據(jù)組織模式,按照業(yè)務(wù)類型、敏感程度、隱私內(nèi)容等關(guān)鍵要素分級分類推進(jìn)云建庫和存儲管理,采用特征標(biāo)簽、歸一集成等多種手段實(shí)現(xiàn)不同來源的數(shù)據(jù)資源關(guān)聯(lián)融合;

(4)構(gòu)建知識圖譜分類,建設(shè)多渠道、多維度的數(shù)據(jù)服務(wù)模式,面向使用者提供查詢檢索、比對排序等基礎(chǔ)數(shù)據(jù)服務(wù),面向?qū)I(yè)人員提供挖掘分析、專家建模等智能數(shù)據(jù)服務(wù);

(5)HI 和AI 通過知識圖譜和OI 實(shí)現(xiàn)交互和協(xié)同,存取和共享治理過的集成數(shù)據(jù),并利用大數(shù)據(jù)處理模型(以HACE 定理開始的三級結(jié)構(gòu),如圖1 所示)、云計(jì)算和霧計(jì)算機(jī)制來實(shí)現(xiàn)數(shù)據(jù)服務(wù)和隱私保護(hù).

HAO 治理模型如圖11 所示.

Fig.11 Architecture diagram of HAO governance model圖11 HAO 治理模型架構(gòu)圖

該模型具備以下功能.

· 支持不同種類、不同數(shù)據(jù)源、不同目標(biāo)庫的數(shù)據(jù)抽取傳輸.常用數(shù)據(jù)源、目標(biāo)庫類型包括Oracle,SqlServer,MySql,Hbase,Hive,GreenPlum,Gbase,PostgreSQL,SOLR,Redis,ODPS,OTS,GDS 等主流數(shù)據(jù)庫,常用文件類型包括FTP,XML,CSV,JSON,EXCEL 等,常見消息處理類型包括Kafka 和Webservice;

· 支持不同類型的抽取匯聚任務(wù)配置,主要包括異構(gòu)數(shù)據(jù)庫之間數(shù)據(jù)傳輸匯聚,不同類型、跨服務(wù)器的文件型數(shù)據(jù)傳輸,數(shù)據(jù)庫和文件類、服務(wù)接口間相互傳輸?shù)?

· 支持?jǐn)?shù)據(jù)清洗和數(shù)據(jù)規(guī)范的規(guī)則自定義,主要包括NULL 值替換、字符串操作、數(shù)據(jù)類型轉(zhuǎn)換、函數(shù)依賴、正則處理、組合字段、數(shù)據(jù)比對、自定義SQL 腳本執(zhí)行、JSON 輸出等數(shù)據(jù)轉(zhuǎn)換規(guī)則,以及對相似重復(fù)記錄和屬性值異常等問題數(shù)據(jù)清洗規(guī)則,以及MD5 加密規(guī)則;

· 實(shí)現(xiàn)基于數(shù)據(jù)元的異構(gòu)數(shù)據(jù)自動解析,并能按照業(yè)務(wù)場景進(jìn)行自定義配置,實(shí)現(xiàn)智能化、可視化、組件式數(shù)據(jù)匯聚整合任務(wù)構(gòu)建;

· 通過構(gòu)建知識圖譜實(shí)現(xiàn)作業(yè)流程的可視化設(shè)計(jì),各組件、連接線等以圖形控件形式提供,并按不同功能分組,支持復(fù)制、粘貼、剪切、撤銷等功能,數(shù)據(jù)整合任務(wù)在流程設(shè)計(jì)器中可直觀顯示;

· 支持插件二次開發(fā):提供第三方開發(fā)平臺,方便根據(jù)現(xiàn)場實(shí)際業(yè)務(wù)需求,定制項(xiàng)目插件.

HAO 治理模型的設(shè)計(jì)準(zhǔn)則包括:(1)數(shù)據(jù)源和治理功能的模塊化;(2)模型的可分解性;(3)快速原型系統(tǒng)構(gòu)建;(4)數(shù)據(jù)更新和融合能力;(5)交互的靈活性和(6)實(shí)時反應(yīng).

下面對HAO 治理模型包括的3 個核心模塊——數(shù)據(jù)接入模塊、數(shù)據(jù)治理模塊、數(shù)據(jù)服務(wù)模塊分別進(jìn)行介紹.

7.1 數(shù)據(jù)接入模塊

大數(shù)據(jù)工程的數(shù)據(jù)來源包含企業(yè)內(nèi)部數(shù)據(jù)和企業(yè)外部數(shù)據(jù),其中:企業(yè)內(nèi)部數(shù)據(jù)由資源服務(wù)平臺、綜合資源庫、各業(yè)務(wù)系統(tǒng)生產(chǎn)庫中的結(jié)構(gòu)化數(shù)據(jù)和文件服務(wù)器上的文本、圖片等非結(jié)構(gòu)化數(shù)據(jù)組成,其中包括人財物記錄、財物報表、原材料、顧客信息、氣測數(shù)據(jù)以及企業(yè)的文化和規(guī)章制度等;企業(yè)外部數(shù)據(jù)由社會數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)和設(shè)備采集數(shù)據(jù)組成,外部數(shù)據(jù)一般包括地理環(huán)境、人口數(shù)據(jù)、經(jīng)濟(jì)市場、金融數(shù)據(jù)、社會關(guān)系、社交數(shù)據(jù)等等.

在數(shù)據(jù)接入之前,首先需要進(jìn)行數(shù)據(jù)采集,如圖12 所示.數(shù)據(jù)采集基于云計(jì)算和分布存儲之上的采集工具,采用標(biāo)準(zhǔn)化、規(guī)范化的抽取模式,實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化資源的統(tǒng)一抽取、整合、加工、轉(zhuǎn)換和裝載.數(shù)據(jù)采集工具主要包括了數(shù)據(jù)層、接入層、交互層和監(jiān)控層.其中,工具的數(shù)據(jù)層即涉及整個采集平臺中總體架構(gòu)的數(shù)據(jù)層即數(shù)據(jù)支撐層,工具背后的接入層是采集邏輯處理部分,交互層即對應(yīng)總體架構(gòu)的采集門戶.

Fig.12 Data acquisition tool architecture diagram圖12 數(shù)據(jù)采集工具架構(gòu)圖

數(shù)據(jù)層指出企業(yè)內(nèi)部和企業(yè)外部數(shù)據(jù)的主要數(shù)據(jù)來源方式,數(shù)據(jù)庫可以是指業(yè)務(wù)系統(tǒng)的Oracle;文件方式是各種文件或FTP 接入的文件包;接口主要是用來企業(yè)對接外部系統(tǒng)使用的;數(shù)據(jù)流是指可以使用Kafka 平臺處理的實(shí)時數(shù)據(jù)流式方式這種來源.接入層主要提供豐富的工具集,針對不同的數(shù)據(jù)接入方式提供相應(yīng)的工具組件,依賴作業(yè)配置引擎和作業(yè)調(diào)度引擎實(shí)現(xiàn)數(shù)據(jù)抽取.監(jiān)控層可監(jiān)控作業(yè)執(zhí)行情況,采集作業(yè)日志,對問題作業(yè)及時告警,方便后期用戶排除故障、維護(hù)作業(yè).交互層提供可視化頁面便捷地實(shí)現(xiàn)數(shù)據(jù)接入與作業(yè)管理.

對采集后各種類型的源數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取,該模型的數(shù)據(jù)抽取支持3 種方式:全量抽取、增量抽取、實(shí)時抽取,將經(jīng)過數(shù)據(jù)抽取后的數(shù)據(jù)匯入到匯聚庫中;對于其他的數(shù)據(jù)庫系統(tǒng),可以直接通過數(shù)據(jù)交換平臺,把數(shù)據(jù)匯入到匯聚庫中.

7.2 數(shù)據(jù)治理模塊

數(shù)據(jù)治理模塊主要包括對匯聚庫中的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)規(guī)范,必要時進(jìn)行主題劃分和數(shù)據(jù)關(guān)聯(lián),然后進(jìn)行數(shù)據(jù)集成,治理完成后的數(shù)據(jù)匯聚到數(shù)據(jù)共享中心中.

數(shù)據(jù)清洗是對數(shù)據(jù)進(jìn)行審查和校驗(yàn),過濾不合規(guī)數(shù)據(jù)、刪除重復(fù)數(shù)據(jù)、糾正錯誤數(shù)據(jù)、完成格式轉(zhuǎn)換,并進(jìn)行清洗前后的數(shù)據(jù)一致性檢查,保證清洗結(jié)果集的質(zhì)量.數(shù)據(jù)清洗的方法除了以上介紹的幾種基本方法以外,該模型還支持自定義清洗規(guī)則,數(shù)據(jù)清洗規(guī)則是由業(yè)務(wù)需求人員與開發(fā)人員配合制定數(shù)據(jù)處理邏輯,經(jīng)過這些規(guī)則進(jìn)行數(shù)據(jù)清洗后,保證數(shù)據(jù)的一致性、準(zhǔn)確性和規(guī)范性更能滿足業(yè)務(wù)上的需求.

數(shù)據(jù)治理技術(shù)及基本方法在前面幾節(jié)進(jìn)行了詳細(xì)介紹.

7.3 數(shù)據(jù)服務(wù)模塊

數(shù)據(jù)服務(wù)模塊以數(shù)據(jù)共享中心構(gòu)建知識圖譜為起點(diǎn),早在2006 年,Web 創(chuàng)始人Berners-Lee 就提出數(shù)據(jù)鏈接的思想,隨后掀起了語義網(wǎng)絡(luò)的狂潮[87],知識圖譜在此基礎(chǔ)上形成.但是直到2012 年,知識圖譜的概念才被谷歌正式提出[88].知識圖譜是由節(jié)點(diǎn)和邊組成的巨型知識網(wǎng)絡(luò),節(jié)點(diǎn)代表實(shí)體,邊代表實(shí)體之間的關(guān)系,每個實(shí)體還由(key-value)鍵值對來描述實(shí)體的內(nèi)在特性.新的知識圖譜中還增加了實(shí)體與實(shí)體之間的事件,即邊表示關(guān)系或事件.楊玉基等人提出用四步法來構(gòu)建知識圖譜,即領(lǐng)域本體構(gòu)建、眾包半自動語義標(biāo)注、外源數(shù)據(jù)補(bǔ)全、信息抽取[89].

數(shù)據(jù)服務(wù)模塊基于知識圖譜面向不同用戶提供多渠道、多維度的數(shù)據(jù)服務(wù),面向使用者提供模型管理、智能發(fā)現(xiàn)、模型探索、數(shù)據(jù)探索、數(shù)據(jù)訂閱等數(shù)據(jù)服務(wù),面向?qū)I(yè)人員提供挖掘分析、專家建模等智能數(shù)據(jù)服務(wù).模型管理主要是對實(shí)體、關(guān)系進(jìn)行編輯和處理;智能發(fā)現(xiàn)是根據(jù)日志等元信息,將配置到系統(tǒng)的數(shù)據(jù)源反向推導(dǎo)出物理模型關(guān)系,將多個異構(gòu)物理模型歸一到同一實(shí)體后自動生成語義層的業(yè)務(wù)視圖;模型探索是支持關(guān)鍵詞搜索實(shí)體、關(guān)系等,將搜索結(jié)果拖拽到畫布探索實(shí)體之間以及關(guān)系之間的核對關(guān)系,用戶在了解業(yè)務(wù)模型的同時,也可以了解到業(yè)務(wù)模型背后對應(yīng)的物理模型,以及物理數(shù)據(jù)表的生產(chǎn)血緣關(guān)系;數(shù)據(jù)探索是對業(yè)務(wù)模型視圖可以進(jìn)行知識問答式的搜索,在路徑的任意節(jié)點(diǎn)上設(shè)置標(biāo)簽的條件,再在另外的節(jié)點(diǎn)上設(shè)定對應(yīng)標(biāo)簽的答案,使得用戶對數(shù)據(jù)的業(yè)務(wù)關(guān)系充分地了解;數(shù)據(jù)訂閱滿足外部其他平臺對本平臺各類數(shù)據(jù)的需求,通過對不同用戶下放的不同權(quán)限,再結(jié)合數(shù)據(jù)資源目錄服務(wù)的開放數(shù)據(jù)內(nèi)容,為外部用戶提供數(shù)據(jù)訂閱/退訂流程,并通過資源總線服務(wù)完成最終的數(shù)據(jù)投遞.

領(lǐng)域?qū)＜覀?人類智能,HI)可以根據(jù)知識圖譜中的實(shí)體、關(guān)系、屬性等核心數(shù)據(jù)進(jìn)行建模,并進(jìn)行高層次的數(shù)據(jù)挖掘分析和加工,可以同知識圖譜、數(shù)據(jù)分析與加工模塊(AI)和組織智能(OI)相互交互和協(xié)同,實(shí)現(xiàn)HAO智能的大智慧問題求解[86].吳信東等人于2008 年所編著的《數(shù)據(jù)挖掘十大算法》一書詳細(xì)地介紹了用途最廣、影響最大的10 種數(shù)據(jù)挖掘算法[90],并于2018 年,吳信東等人基于分布式計(jì)算對大數(shù)據(jù)分析的兩種算法——MapReduce 與Spark 從背景、原理以及應(yīng)用場景進(jìn)行了具體的分析與比較[91].HACE 定理的大數(shù)據(jù)處理框架中(如圖1 所示),第1 層架構(gòu)解決了流數(shù)據(jù)存儲的計(jì)算問題,第2 層架構(gòu)考慮了隱私保護(hù)和模式發(fā)現(xiàn),第3 層架構(gòu)主要描述復(fù)雜的數(shù)據(jù)挖掘算法,HACE 定理在數(shù)據(jù)服務(wù)模塊如關(guān)聯(lián)分析與計(jì)算以及數(shù)據(jù)挖掘得到了廣泛應(yīng)用[8];自然語言處理的應(yīng)用更加廣泛,例如我們平時使用的私人助手Siri 以及出行助手等,都能給人們帶來更加便利的服務(wù).HAO 治理模型涵蓋了數(shù)據(jù)治理的全過程,從數(shù)據(jù)的采集、交換、清洗、規(guī)范、集成、應(yīng)用等融為一體,完成了智能數(shù)據(jù)治理.

HAO 智能的核心是在大數(shù)據(jù)問題環(huán)境下,用人機(jī)協(xié)同來實(shí)現(xiàn)組織智能(HI+AI+OI),所以數(shù)據(jù)治理功能的模塊化和交互的靈活性是上面提到的HAO 治理模型6 個設(shè)計(jì)準(zhǔn)則中的兩個.

8 數(shù)據(jù)治理具體應(yīng)用

下面以公安數(shù)據(jù)治理為例,具體介紹HAO 治理模型的大數(shù)據(jù)治理過程.

8.1 公安數(shù)據(jù)治理架構(gòu)

圖13 描述的是公安數(shù)據(jù)治理框架,平臺架構(gòu)主要包括數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算、數(shù)據(jù)管理、數(shù)據(jù)應(yīng)用這4 個部分.

(1)數(shù)據(jù)存儲:基于分布式的大數(shù)據(jù)存儲平臺,具有很強(qiáng)的存儲能力和擴(kuò)張能力;

(2)數(shù)據(jù)計(jì)算:這是數(shù)據(jù)治理的最主要部分,包括數(shù)據(jù)的探查、提取、清洗、轉(zhuǎn)換、集成等.這些計(jì)算任務(wù)都是基于大數(shù)據(jù)分布式的計(jì)算能力,應(yīng)用MapReduce 批處理和spark streaming 流式處理技術(shù),通過scheduler 任務(wù)調(diào)度器,實(shí)現(xiàn)對調(diào)度任務(wù)的執(zhí)行、管理與監(jiān)控.

? 數(shù)據(jù)探查:通過對數(shù)據(jù)量、數(shù)據(jù)質(zhì)量、數(shù)據(jù)特征等指標(biāo)的分析來評估后續(xù)數(shù)據(jù)治理任務(wù)的工作量;

? 數(shù)據(jù)提取:抽取分布在各個系統(tǒng)中的各種類型的源數(shù)據(jù),提取元數(shù)據(jù),基于深度學(xué)習(xí)的語音識別、圖像識別、視頻處理技術(shù),實(shí)現(xiàn)對非結(jié)構(gòu)化的數(shù)據(jù)提取;

? 數(shù)據(jù)清洗:對缺失數(shù)據(jù)的處理,過濾掉重復(fù)相似的記錄,清除值錯誤的數(shù)據(jù);

? 數(shù)據(jù)轉(zhuǎn)換:將不符合規(guī)范的數(shù)據(jù),按照規(guī)范化的處理規(guī)則,轉(zhuǎn)化成符合標(biāo)準(zhǔn)的數(shù)據(jù),如編碼統(tǒng)一、格式統(tǒng)一、元數(shù)據(jù)統(tǒng)一等;

? 數(shù)據(jù)集成:將轉(zhuǎn)化后的規(guī)范化數(shù)據(jù)進(jìn)行整合,按照一定方式重新組織,如數(shù)據(jù)屬性的融合、關(guān)系融合、數(shù)據(jù)的主題化、標(biāo)簽化等;

(3)數(shù)據(jù)管理:對集成后的數(shù)據(jù)統(tǒng)一維護(hù)與管理,包括對數(shù)據(jù)質(zhì)量的檢測、數(shù)據(jù)安全控制、數(shù)據(jù)血緣的監(jiān)控、元素管理等.

? 數(shù)據(jù)質(zhì)量檢測:從各個維度(唯一性、準(zhǔn)確性、完整性、合法性等)檢測,并形成數(shù)據(jù)質(zhì)量報告;

? 數(shù)據(jù)安全控制:對數(shù)據(jù)的使用與訪問,進(jìn)行權(quán)限的管理與控制;

? 數(shù)據(jù)血緣監(jiān)控:追蹤數(shù)據(jù)的來源與去向的整個過程;

? 元數(shù)據(jù)管理:數(shù)據(jù)知識庫的建立與維護(hù),包括對代碼庫、標(biāo)準(zhǔn)庫、標(biāo)簽庫、模型庫、圖譜庫等的管理;

(4)數(shù)據(jù)應(yīng)用:這是數(shù)據(jù)價值最直接的體現(xiàn),基于自然語言處理、數(shù)據(jù)挖掘算法模型等技術(shù)對數(shù)據(jù)分析挖掘,包括統(tǒng)計(jì)分析、比對碰撞、關(guān)聯(lián)分析、數(shù)據(jù)挖掘等,將分析結(jié)果提供給上層應(yīng)用,如構(gòu)建專題庫、主題庫、構(gòu)建知識圖譜等.

8.2 數(shù)據(jù)處理流程

數(shù)據(jù)處理流程是對源數(shù)據(jù)到目標(biāo)數(shù)據(jù)整個處理過程的監(jiān)管,并描述了數(shù)據(jù)采集、數(shù)據(jù)處理及數(shù)據(jù)展現(xiàn)這3個方面所用到的技術(shù)架構(gòu)和處理邏輯.本節(jié)主要介紹了處理流程中數(shù)據(jù)接入、數(shù)據(jù)預(yù)處理、數(shù)據(jù)規(guī)范化、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)簽化、數(shù)據(jù)主題化、構(gòu)建知識圖譜以及數(shù)據(jù)分析與挖掘8 個方面的內(nèi)容.

(1)數(shù)據(jù)接入

公安系統(tǒng)中的源數(shù)據(jù),包括結(jié)構(gòu)化文本、關(guān)系型數(shù)據(jù)庫、非結(jié)構(gòu)化的文本及視頻、hadoop 平臺中的數(shù)據(jù)以及流式數(shù)據(jù),經(jīng)過批處理引擎或流式計(jì)算引擎,接入到統(tǒng)一的數(shù)據(jù)源系統(tǒng)中,形成最初的數(shù)據(jù)集市.

(2)數(shù)據(jù)預(yù)處理

在對數(shù)據(jù)集市中的數(shù)據(jù)做處理前,根據(jù)數(shù)據(jù)規(guī)則庫定義的規(guī)則,首先對數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)質(zhì)量的評估、空值率的計(jì)算、數(shù)據(jù)特征分析、數(shù)據(jù)格式的分析等;然后判斷數(shù)據(jù)是否有治理的價值;然后提取需要治理的數(shù)據(jù)、提取元數(shù)據(jù),經(jīng)過統(tǒng)一的編碼轉(zhuǎn)換處理后,過濾掉臟、亂、差的數(shù)據(jù);然后進(jìn)行數(shù)據(jù)去重等清洗處理.

(3)數(shù)據(jù)規(guī)范化

數(shù)據(jù)規(guī)范是將預(yù)處理后的數(shù)據(jù),根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)知識庫的標(biāo)準(zhǔn),將數(shù)據(jù)統(tǒng)一處理成符合行業(yè)標(biāo)準(zhǔn)、省部級標(biāo)準(zhǔn)及國標(biāo)等標(biāo)準(zhǔn)的規(guī)范化數(shù)據(jù),提高數(shù)據(jù)的可移植性、共享性及復(fù)用性.數(shù)據(jù)規(guī)范過程(標(biāo)準(zhǔn)化過程)中所依賴的數(shù)據(jù)規(guī)范來源于權(quán)威性的行業(yè)規(guī)范、國標(biāo)、部標(biāo)等,對數(shù)據(jù)、名稱、字段及元數(shù)據(jù)等進(jìn)行標(biāo)準(zhǔn)化.

(4)數(shù)據(jù)清洗

數(shù)據(jù)清洗是對不完整的數(shù)據(jù)、不一致的數(shù)據(jù)以及異常的數(shù)據(jù)進(jìn)行清洗,并過濾掉重復(fù)相似的記錄.

(5)數(shù)據(jù)標(biāo)簽化

數(shù)據(jù)標(biāo)簽根據(jù)數(shù)據(jù)標(biāo)簽庫可以分為技術(shù)標(biāo)簽和業(yè)務(wù)標(biāo)簽:技術(shù)標(biāo)簽是基于表、字段的技術(shù)元數(shù)據(jù),例如空間占用、條目數(shù)、最新更新時間、更新頻率、訪問頻率、數(shù)據(jù)格式、字段數(shù)據(jù)類型、是否壓縮等,通過規(guī)則引擎進(jìn)行規(guī)則計(jì)算,為庫、表、字段等打上相應(yīng)的技術(shù)標(biāo)簽,例如最近一天更新的數(shù)據(jù)、大數(shù)據(jù)集、小數(shù)據(jù)集、頻繁更新數(shù)據(jù)集、壓縮文件、圖片、視頻等;業(yè)務(wù)標(biāo)簽基于庫、表、字段的業(yè)務(wù)定義、描述,值域的具體內(nèi)容,對于數(shù)據(jù)進(jìn)行業(yè)務(wù)標(biāo)簽生成,例如對于庫表來說,數(shù)據(jù)來源/數(shù)據(jù)種類(人口、教育、醫(yī)療等)標(biāo)簽、數(shù)據(jù)內(nèi)容標(biāo)簽(姓名、組織、地址、電話、商品等).

(6)數(shù)據(jù)主題化

數(shù)據(jù)按照一定的主題進(jìn)行關(guān)聯(lián)來構(gòu)造一個模型.公安數(shù)據(jù)治理分別以人、物、時空、組織、虛擬標(biāo)識、案件等作為主題,分別建立模型,如圖14 所示.

· 以人作為主題時,提取自然人為主體進(jìn)行描述的數(shù)據(jù)資源,并按照公安部的數(shù)據(jù)分類進(jìn)行主題模型的構(gòu)建;

· 以物作為主題構(gòu)建模型時,提取特定的物為主體進(jìn)行描述的數(shù)據(jù)資源,針對不同情況涵蓋不同的內(nèi)容,包括物品、物證、微小痕跡、尸體等;

· 以時空作為主題時,提取以時間、地點(diǎn)為主體進(jìn)行描述的數(shù)據(jù)資源來構(gòu)建時空主體模型;

· 以組織作為主題時,提取法人、單位、特定人群組織結(jié)構(gòu)(如:戶)為主體進(jìn)行描述的數(shù)據(jù)資源來構(gòu)建組織類主題模型;

· 以虛擬標(biāo)識作為主題時,以一個物品的標(biāo)簽或者分類信息作為主題進(jìn)行構(gòu)建模型;

· 以案件作為主題構(gòu)建模型時,根據(jù)執(zhí)行主體的不同,案件又分為偵查調(diào)查行為和違法犯罪行為:偵查調(diào)查行為是指公安機(jī)關(guān)行使打擊犯罪,維護(hù)社會治安進(jìn)行偵查破案的行為;而違法犯罪行為是指犯罪嫌疑人進(jìn)行違法犯罪的行為.

Fig.14 Public security governance theme model diagram圖14 公安治理主題模型圖

(7)知識圖譜構(gòu)建

知識圖譜按照目標(biāo)數(shù)據(jù)可以分為實(shí)體、事件、關(guān)系這3 種類型來建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,將數(shù)據(jù)抽象化的內(nèi)在聯(lián)系,以可視化的形式有效表現(xiàn)出來.圖15 是以人為中心實(shí)體構(gòu)建的一個簡單的知識圖譜.以人為中心實(shí)體,建立人與電話號碼所屬關(guān)系、人與護(hù)照所屬關(guān)系及人與人的關(guān)系,同時建立了人與航班的出行事件、人與旅館的住宿事件.

Fig.15 Knowledge gragh of character tracking圖15 人物追蹤知識圖譜

(8)數(shù)據(jù)分析與挖掘

對治理后的標(biāo)準(zhǔn)化數(shù)據(jù),采用一定的數(shù)據(jù)挖掘算法模型,對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析、關(guān)聯(lián)分析、比對碰撞、數(shù)據(jù)挖掘等,為上層應(yīng)用提供數(shù)據(jù)服務(wù).公安機(jī)關(guān)作為偵查一線的最實(shí)用的技術(shù)是數(shù)據(jù)比對碰撞分析,數(shù)據(jù)比對碰撞分析是指運(yùn)用計(jì)算機(jī)對數(shù)據(jù)進(jìn)行分析,將兩組以上同類型的數(shù)據(jù)集進(jìn)行梳理,通過關(guān)聯(lián)查詢,篩選數(shù)據(jù)集取交集的一種方法.

9 總結(jié)與展望

身處于大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)成為一個組織最寶貴的財富之一,組織如果想要利用龐大且寶貴的數(shù)據(jù)資產(chǎn)來挖掘其中的商業(yè)價值,在數(shù)據(jù)挖掘之前就需要使用數(shù)據(jù)治理技術(shù),提高數(shù)據(jù)質(zhì)量,減少實(shí)際挖掘所需要的時間.通過第8 節(jié)對公安數(shù)據(jù)治理流程的具體介紹我們會發(fā)現(xiàn):數(shù)據(jù)治理技術(shù)融入到數(shù)據(jù)治理的每一個階段中,而不是孤立使用的,每一個階段都可能用到多個數(shù)據(jù)治理技術(shù).

數(shù)據(jù)治理的核心目標(biāo)是在降低風(fēng)險的同時,為企業(yè)增加價值.合理的數(shù)據(jù)治理,能夠建立規(guī)范的數(shù)據(jù)應(yīng)用標(biāo)準(zhǔn),消除數(shù)據(jù)的不一致性,提高數(shù)據(jù)質(zhì)量,推動數(shù)據(jù)廣泛共享,充分發(fā)揮數(shù)據(jù)對政府及企業(yè)的業(yè)務(wù)、管理以及戰(zhàn)略決策的重要作用.大數(shù)據(jù)治理對于確保大數(shù)據(jù)的優(yōu)化、共享和安全是至關(guān)重要的,有效的大數(shù)據(jù)治理計(jì)劃可通過改進(jìn)決策、縮減成本、降低風(fēng)險和提高安全合規(guī)等方式,將價值回饋于業(yè)務(wù),并最終體現(xiàn)為增加收入和利潤[6].根據(jù)上述幾節(jié)的描述,數(shù)據(jù)治理包括元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全合規(guī)、數(shù)據(jù)模型設(shè)計(jì)以及數(shù)據(jù)的應(yīng)用這5 個基本功能.

一個組織數(shù)據(jù)治理的好壞是否達(dá)到自己預(yù)期的目標(biāo),可以通過以下幾個方面進(jìn)行評價.

· 從數(shù)據(jù)的質(zhì)量方面考慮;

a)數(shù)據(jù)的準(zhǔn)確性:經(jīng)過數(shù)據(jù)治理后的數(shù)據(jù)應(yīng)該是準(zhǔn)確的,而不能在治理過程中給正確的數(shù)據(jù)帶去噪音;

b)數(shù)據(jù)的完整性和一致性:數(shù)據(jù)治理之后,數(shù)據(jù)的完整程度以及數(shù)據(jù)的一致性;

c)數(shù)據(jù)的安全性:好的數(shù)據(jù)治理要充分地保護(hù)敏感數(shù)據(jù);

· 從數(shù)據(jù)治理的效率進(jìn)行考慮:使用每秒處理多少條數(shù)據(jù)進(jìn)行直觀對比,這直接影響到數(shù)據(jù)的及時性;

· 數(shù)據(jù)治理模型的成熟度:數(shù)據(jù)治理過程中,選擇的數(shù)據(jù)模型的成熟度直接影響數(shù)據(jù)治理的結(jié)果;

· 從是否能追根溯源,找到數(shù)據(jù)質(zhì)量問題產(chǎn)生的原因;

· 人工干預(yù)程度:發(fā)現(xiàn)質(zhì)量問題以后,是系統(tǒng)自動處理,還是需要人工干預(yù)處理.然而,現(xiàn)在大數(shù)據(jù)治理也面臨一系列的問題和挑戰(zhàn).

· 隨著數(shù)據(jù)產(chǎn)生方式的不斷擴(kuò)展,大數(shù)據(jù)不僅量大、類型多樣,而且數(shù)據(jù)內(nèi)容的維度和知識范疇的粒度也以多樣性展現(xiàn),體現(xiàn)的是數(shù)據(jù)與知識之間的立體關(guān)系[92],所以大數(shù)據(jù)治理技術(shù)的復(fù)雜性也將加大;

· 數(shù)據(jù)量的龐大和增長速度之快,就要求數(shù)據(jù)清洗活動要具有可伸縮性和及時性,雖然已經(jīng)提出了多種錯誤檢測的方法,但是仍然有很多錯誤不能被檢測到.要設(shè)計(jì)更具表現(xiàn)力的完整性約束語言,使得數(shù)據(jù)所有者可以輕松地指定數(shù)據(jù)的質(zhì)量規(guī)則,并有效地讓人類專家參與錯誤檢測[45];

· 數(shù)據(jù)治理技術(shù)面臨著更加嚴(yán)峻的隱私安全的挑戰(zhàn).多源數(shù)據(jù)的集成技術(shù)使得數(shù)據(jù)之間的關(guān)聯(lián)性無形地被公開化,很可能會暴露用戶的個人隱私.所以,需要研究主動降低隱私泄露風(fēng)險的策略和風(fēng)險評估模型,用來有效地預(yù)測隱私泄露的風(fēng)險程度并提供風(fēng)險預(yù)警[92].Ni 等人于2010 年提供了一種支持隱私感知訪問控制機(jī)制的綜合框架,即,一種適用于對包含個人身份信息的數(shù)據(jù)實(shí)施訪問控制的機(jī)制[93];

· 由于數(shù)據(jù)治理是一個長期的過程,短期投入的人力、技術(shù)不一定能夠得到實(shí)質(zhì)性的回報,所以數(shù)據(jù)治理面臨著更大的投資回報風(fēng)險.

本文主要介紹了數(shù)據(jù)治理技術(shù),數(shù)據(jù)治理方法不僅需要數(shù)據(jù)治理技術(shù),還需要企業(yè)的制度規(guī)范以及生態(tài)運(yùn)營來配合加強(qiáng)數(shù)據(jù)治理工作.在制度保障方面,一個組織應(yīng)當(dāng)定義模型設(shè)計(jì)規(guī)范、數(shù)據(jù)開發(fā)規(guī)范、數(shù)據(jù)變更規(guī)范、數(shù)據(jù)質(zhì)量管理規(guī)范、數(shù)據(jù)安全規(guī)范、元數(shù)據(jù)規(guī)范等;在組織保障方面,組織應(yīng)當(dāng)設(shè)立數(shù)據(jù)委員會包括決策小組、安全小組、質(zhì)量小組以及穩(wěn)定性小組等來執(zhí)行管理職責(zé),設(shè)立數(shù)據(jù)資產(chǎn)部門包括部門數(shù)據(jù)負(fù)責(zé)人和數(shù)據(jù)生產(chǎn)團(tuán)隊(duì)來執(zhí)行建設(shè)職責(zé).一個組織應(yīng)該對數(shù)據(jù)治理進(jìn)行長期的規(guī)劃,建立有效的數(shù)據(jù)治理體系,挖掘數(shù)據(jù)資產(chǎn)的潛力,從而發(fā)揮數(shù)據(jù)資產(chǎn)在企業(yè)中的核心價值.

猜你喜歡

數(shù)據(jù)源方法

學(xué)習(xí)方法

兒童故事畫報(2019年5期)2019-05-26 14:26:14

Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*

計(jì)算機(jī)與生活(2018年3期)2018-03-12 08:38:11

基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究

中國科技期刊研究(2017年2期)2017-05-14 06:16:26

可能是方法不對

意林原創(chuàng)版(2016年10期)2016-11-25 10:28:30

用對方法才能瘦

Coco薇(2016年2期)2016-03-22 02:42:52

四大方法教你不再“坐以待病”！

Coco薇(2015年1期)2015-08-13 02:47:34

賺錢方法

小雪花·成長指南(2015年7期)2015-08-11 15:03:12

02C衛(wèi)星成國土資源主體業(yè)務(wù)主力數(shù)據(jù)源

河北遙感(2015年1期)2015-07-18 11:11:26

基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法

浙江大學(xué)學(xué)報(工學(xué)版)(2015年2期)2015-05-30 07:05:04

捕魚

小雪花·成長指南(2015年4期)2015-05-19 14:47:56

軟件學(xué)報2019年9期

軟件學(xué)報的其它文章: 區(qū)塊鏈數(shù)據(jù)管理專題前言*; NSFC 計(jì)算機(jī)圖像與視頻處理領(lǐng)域項(xiàng)目關(guān)鍵詞分析*; 圓形圖像抗旋轉(zhuǎn)高效高鑒別特征表示方法*; 目標(biāo)邊界點(diǎn)集的層次化描述及其形狀檢索應(yīng)用*; 融合多種數(shù)據(jù)信息的餐館推薦模型*; PUseqClust:一種RNA-seq 數(shù)據(jù)聚類分析方法*

感谢您访问我们的网站，您可能还对以下资源感兴趣：温州秤旁教育咨询有限公司

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看网站地图

亚洲中文字幕一区二区三区有码在线看 22中文网久久字幕搞女人的毛片 18禁动态无遮挡网站免费大片18禁欧美潮喷喷水亚洲色图av天堂亚洲三级黄色毛片 18禁裸乳无遮挡免费网站照片国产av不卡久久亚洲国产欧美在线一区老师上课跳d突然被开到最大视频啦啦啦啦在线视频资源国产免费福利视频在线观看午夜视频国产福利国产精品久久电影中文字幕十八禁国产超污无遮挡网站蜜桃久久精品国产亚洲av 十八禁国产超污无遮挡网站成人亚洲欧美一区二区av av国产免费在线观看乱码一卡2卡4卡精品亚洲国产欧美人成日本色播在线视频国产精品一区二区在线观看99 好男人在线观看高清免费视频男的添女的下面高潮视频噜噜噜噜噜久久久久久91 日日摸夜夜添夜夜爱黄色日韩在线色综合亚洲欧美另类图片超碰av人人做人人爽久久国产在视频线在精品淫秽高清视频在线观看尾随美女入室神马国产精品三级电影在线观看国产69精品久久久久777片综合色丁香网色视频www国产美女cb高潮喷水在线观看日韩在线高清观看一区二区三区禁无遮挡网站秋霞在线观看毛片日韩欧美精品免费久久国产又色又爽无遮挡免午夜老司机福利剧场精品国产三级普通话版国产淫语在线视频国产淫语在线视频国产一区有黄有色的免费视频 26uuu在线亚洲综合色少妇猛男粗大的猛烈进出视频 91av网一区二区大又大粗又爽又黄少妇毛片口 .国产精品久久七月丁香在线播放亚洲国产欧美人成国产极品天堂在线久久99热这里只有精品18 午夜福利成人在线免费观看久久久久久久久久久免费av 免费av毛片视频搡老妇女老女人老熟妇 97超碰精品成人国产 a级毛色黄片国产一区二区亚洲精品在线观看边亲边吃奶的免费视频亚洲不卡免费看国产又黄又爽又无遮挡在线国产精品1区2区在线观看. 婷婷六月久久综合丁香欧美变态另类bdsm刘玥国产精品福利在线免费观看国产精品精品国产色婷婷免费观看精品视频网站国产国拍精品亚洲av在线观看免费观看的影片在线观看 1000部很黄的大片简卡轻食公司亚洲人成网站在线播亚洲美女搞黄在线观看五月伊人婷婷丁香亚洲精品乱码久久久久久按摩 22中文网久久字幕 99在线视频只有这里精品首页一边摸一边抽搐一进一小说亚洲久久久久久中文字幕一级爰片在线观看 av天堂中文字幕网 91精品伊人久久大香线蕉国产av不卡久久 99在线人妻在线中文字幕成人午夜高清在线视频欧美三级亚洲精品亚洲欧美精品综合久久99 国模一区二区三区四区视频亚洲精品,欧美精品三级国产精品欧美在线观看欧美人与善性xxx 欧美3d第一页 18禁在线无遮挡免费观看视频美女cb高潮喷水在线观看身体一侧抽搐国产精品久久久久久精品电影国产黄片视频在线免费观看日韩成人伦理影院欧美zozozo另类高清午夜精品一区二区三区好男人视频免费观看在线国产伦一二天堂av在线观看男的添女的下面高潮视频女人被狂操c到高潮赤兔流量卡办理一区二区三区四区激情视频麻豆av噜噜一区二区三区国产伦在线观看视频一区国产精品福利在线免费观看午夜亚洲福利在线播放秋霞在线观看毛片国产黄a三级三级三级人在线免费观看不下载黄p国产国产成人精品一,二区天天躁日日操中文字幕边亲边吃奶的免费视频亚洲性久久影院国产在线一区二区三区精免费不卡的大黄色大毛片视频在线观看熟妇人妻久久中文字幕3abv 99久久九九国产精品国产免费直男gayav资源 91在线精品国自产拍蜜月国产视频首页在线观看成年版毛片免费区亚洲人成网站在线观看播放久久99热这里只有精品18 久久久久久久久久久丰满国产乱人偷精品视频久久久久精品久久久久真实原创 av在线蜜桃九九在线视频观看精品国产真实乱freesex 一个人观看的视频www高清免费观看国产成人精品婷婷人人妻人人澡人人爽人人夜夜干丝袜人妻中文字幕欧美成人精品欧美一级黄精品99又大又爽又粗少妇毛片欧美精品一区二区大全国产av在哪里看 99视频精品全部免费在线亚洲在线自拍视频好男人视频免费观看在线在线播放国产精品三级联通29元200g的流量卡 a级毛色黄片 kizo精华嫩草影院入口久久久色成人亚洲av成人精品一区久久 99热这里只有是精品50 99久久精品国产国产毛片欧美bdsm另类精品国产一区二区三区久久久樱花精品一区二区三区视频在线免费观看性生交大片5 亚洲国产高清在线一区二区三 18禁裸乳无遮挡免费网站照片色吧在线观看欧美zozozo另类 99久久精品一区二区三区精品一区二区三区人妻视频热99在线观看视频国产黄色小视频在线观看久久久久免费精品人妻一区二区中文在线观看免费www的网站国产精品人妻久久久久久国产精品.久久久男女国产视频网站高清毛片免费看国产成人福利小说国产乱人视频国产伦精品一区二区三区视频9 国产精品无大码特级一级黄色大片午夜激情福利司机影院淫秽高清视频在线观看精品不卡国产一区二区三区国产午夜精品一二区理论片级片在线观看亚洲久久久久久中文字幕最近中文字幕2019免费版女人十人毛片免费观看3o分钟午夜亚洲福利在线播放 av在线天堂中文字幕变态另类丝袜制服亚洲av二区三区四区日韩一区二区视频免费看免费看a级黄色片成人二区视频禁无遮挡网站麻豆成人午夜福利视频欧美激情国产日韩精品一区一级黄色大片毛片能在线免费观看的黄片久久精品国产亚洲av涩爱精品不卡国产一区二区三区午夜福利网站1000一区二区三区 videossex国产久久热精品热久久精品国产亚洲av涩爱亚洲精品乱码久久久久久按摩国产成人a区在线观看日本与韩国留学比较熟女人妻精品中文字幕免费无遮挡裸体视频一个人免费在线观看电影午夜激情欧美在线 99久久中文字幕三级久久日本又粗又爽又猛毛片免费看精品一区二区免费观看亚洲欧美一区二区三区国产亚洲高清免费不卡视频联通29元200g的流量卡国产精品久久久久久久久免国产一区欧美日韩成年版毛片免费区日韩av在线大香蕉日韩国内少妇激情av av在线天堂中文字幕桃色一区二区三区在线观看一区二区三区免费毛片 18禁动态无遮挡网站午夜福利高清视频麻豆乱淫一区二区午夜a级毛片国产精品久久久久久久电影在线天堂最新版资源欧美日韩精品成人综合77777 免费人成在线观看视频色亚洲在线自拍视频久久精品久久精品一区二区三区亚洲无线观看免费亚洲国产精品成人综合色男女视频在线观看网站免费色哟哟·www 久久鲁丝午夜福利片搡女人真爽免费视频火全软件欧美+日韩+精品精品一区二区三区视频在线午夜精品在线福利亚洲欧美精品专区久久亚洲av男天堂我的老师免费观看完整版 www.av在线官网国产久久久久久九九精品二区国产欧美变态另类bdsm刘玥最近最新中文字幕大全电影3 女人被狂操c到高潮日本免费在线观看一区欧美激情久久久久久爽电影 99热精品在线国产色噜噜av男人的天堂激情 2022亚洲国产成人精品成人亚洲精品av一区二区搡女人真爽免费视频火全软件熟女人妻精品中文字幕国产在线一区二区三区精 a级毛片免费高清观看在线播放欧美区成人在线视频噜噜噜噜噜久久久久久91 午夜视频国产福利精品酒店卫生间中文字幕免费在线视频6 18禁动态无遮挡网站人体艺术视频欧美日本欧美三级亚洲精品国产成人a∨麻豆精品午夜爱爱视频在线播放成人亚洲精品av一区二区一边摸一边抽搐一进一小说亚洲av成人av av专区在线播放噜噜噜噜噜久久久久久91 欧美一区二区精品小视频在线水蜜桃什么品种好国产伦一二天堂av在线观看女的被弄到高潮叫床怎么办国产亚洲91精品色在线 99在线人妻在线中文字幕国产精品国产三级专区第一集 99久久人妻综合少妇丰满av 女人久久www免费人成看片成人一区二区视频在线观看毛片一级片免费看久久久久菩萨蛮人人尽说江南好唐韦庄狂野欧美白嫩少妇大欣赏 ponron亚洲 av女优亚洲男人天堂狂野欧美白嫩少妇大欣赏欧美激情在线99 晚上一个人看的免费电影美女高潮的动态插逼视频在线观看热99在线观看视频精品久久国产蜜桃成人二区视频深夜a级毛片国产亚洲av片在线观看秒播厂欧美丝袜亚洲另类国产高清三级在线国产亚洲5aaaaa淫片日本免费在线观看一区久久久午夜欧美精品国产成人91sexporn 人妻夜夜爽99麻豆av 身体一侧抽搐一级av片app 黄片无遮挡物在线观看日本五十路高清 99热6这里只有精品亚洲图色成人 97超视频在线观看视频中文字幕亚洲精品专区婷婷色av中文字幕直男gayav资源成年女人看的毛片在线观看精品久久久久久成人av 国产综合懂色 av天堂中文字幕网亚洲怡红院男人天堂免费看日本二区永久免费av网站大全国产精品久久久久久精品电影国产色婷婷99 色哟哟·www 亚洲精华国产精华液的使用体验日本-黄色视频高清免费观看国产精品国产三级国产专区5o 九九热线精品视视频播放 ponron亚洲最近最新中文字幕免费大全7 极品教师在线视频亚洲精华国产精华液的使用体验久久精品久久久久久噜噜老黄看免费成人av毛片亚洲真实伦在线观看精品国产一区二区三区久久久樱花国产不卡一卡二亚洲av成人精品一二三区看黄色毛片网站在线天堂最新版资源熟妇人妻久久中文字幕3abv 日产精品乱码卡一卡2卡三 av线在线观看网站十八禁国产超污无遮挡网站午夜亚洲福利在线播放婷婷色麻豆天堂久久免费av不卡在线播放国产精品国产三级国产专区5o 欧美高清性xxxxhd video 欧美性感艳星久久久精品大字幕三级男女做爰猛烈吃奶摸视频色噜噜av男人的天堂激情成人鲁丝片一二三区免费亚洲精品自拍成人 av在线观看视频网站免费久久久a久久爽久久v久久亚洲国产欧美在线一区中文资源天堂在线亚洲经典国产精华液单亚洲av成人精品一区久久国产熟女欧美一区二区非洲黑人性xxxx精品又粗又长久久精品国产亚洲av涩爱一级二级三级毛片免费看亚洲国产高清在线一区二区三男人舔女人下体高潮全视频精品无人区乱码1区二区国国产精品蜜臀av免费色综合色国产高清日韩中文字幕在线亚洲欧美精品自产自拍午夜免费激情av 成年av动漫网址少妇熟女欧美另类日韩亚洲欧美综合久久国内精品自在自线图片亚洲三级黄色毛片免费在线观看成人毛片一级二级三级毛片免费看国产视频内射国产av码专区亚洲av 免费看美女性在线毛片视频国产精品永久免费网站成人三级黄色视频国产探花极品一区二区国产欧美另类精品又又久久亚洲欧美国产精品女同一区二区软件校园人妻丝袜中文字幕欧美不卡视频在线免费观看国产精品爽爽va在线观看网站中文字幕av成人在线电影我的女老师完整版在线观看免费看日本二区赤兔流量卡办理九九在线视频观看精品国产精品久久久久久久久免又粗又爽又猛毛片免费看免费搜索国产男女视频日韩一区二区视频免费看婷婷六月久久综合丁香 97超碰精品成人国产亚洲一区高清亚洲精品 av在线天堂中文字幕我的女老师完整版在线观看精品人妻熟女av久视频少妇丰满av 精品一区二区三区视频在线夫妻性生交免费视频一级片天美传媒精品一区二区欧美精品一区二区大全乱码一卡2卡4卡精品大香蕉97超碰在线一个人免费在线观看电影精品久久久久久成人av 欧美性猛交黑人性爽久久精品夜夜夜夜夜久久蜜豆深爱激情五月婷婷 99在线人妻在线中文字幕亚洲av电影不卡..在线观看 av专区在线播放亚洲精品日韩av片在线观看亚洲国产最新在线播放 av播播在线观看一区 18+在线观看网站欧美xxxx性猛交bbbb 亚洲国产精品国产精品亚洲av电影在线观看一区二区三区永久免费av网站大全亚洲人成网站在线播亚洲婷婷狠狠爱综合网久久亚洲精品不卡亚洲精品日韩av片在线观看 91精品伊人久久大香线蕉亚洲,欧美,日韩国产伦一二天堂av在线观看日韩精品青青久久久久久一区二区三区乱码不卡18 成人午夜精彩视频在线观看午夜福利网站1000一区二区三区免费观看精品视频网站久久久久久大精品日韩精品有码人妻一区亚洲人成网站在线播在线观看美女被高潮喷水网站高清日韩中文字幕在线老司机福利观看丰满人妻一区二区三区视频av 老师上课跳d突然被开到最大视频日韩亚洲欧美综合久久99热这里只有精品18 精品一区二区免费观看亚洲精品乱码久久久v下载方式国产亚洲精品久久久com 欧美另类亚洲清纯唯美男女啪啪激烈高潮av片 97热精品久久久久久大话2 男鬼变身卡一本一本综合久久 a级毛片免费高清观看在线播放亚洲av免费在线观看久久亚洲国产成人精品v 美女xxoo啪啪120秒动态图中文天堂在线官网色5月婷婷丁香 91精品一卡2卡3卡4卡自拍偷自拍亚洲精品老妇色吧在线观看日韩三级伦理在线观看国产黄色视频一区二区在线观看久久久久性生活片天堂√8在线中文国产成人精品久久久久久亚洲av日韩在线播放色综合站精品国产国产免费福利视频在线观看精品欧美国产一区二区三一个人免费在线观看电影 av卡一久久亚洲av熟女最近手机中文字幕大全免费av不卡在线播放免费观看的影片在线观看亚洲人成网站高清观看中文精品一卡2卡3卡4更新亚洲18禁久久av 夜夜看夜夜爽夜夜摸 18禁动态无遮挡网站亚洲最大成人av 精品一区二区免费观看国产在视频线在精品日日摸夜夜添夜夜爱婷婷色麻豆天堂久久你懂的网址亚洲精品在线观看 97在线视频观看国产精品综合久久久久久久免费国语自产精品视频在线第100页久久精品国产亚洲网站久久久久久九九精品二区国产欧美不卡视频在线免费观看纵有疾风起免费观看全集完整版国产精品爽爽va在线观看网站草草在线视频免费看真实男女啪啪啪动态图午夜a级毛片久久久亚洲精品成人影院国产精品乱码一区二三区的特点最后的刺客免费高清国语热99re8久久精品国产欧美极品一区二区三区四区高清在线视频一区二区三区成人综合一区亚洲 .国产精品久久国产精品蜜桃在线观看国产片特级美女逼逼视频成人二区视频久99久视频精品免费国产高清不卡午夜福利亚洲内射少妇av 你懂的网址亚洲精品在线观看国产亚洲5aaaaa淫片色噜噜av男人的天堂激情欧美日韩精品成人综合77777 免费av观看视频一区二区三区四区激情视频国产精品久久视频播放亚洲天堂国产精品一区在线亚洲在线观看片国产精品无大码听说在线观看完整版免费高清亚洲国产日韩欧美精品在线观看欧美成人一区二区免费高清观看 22中文网久久字幕亚洲五月天丁香 91午夜精品亚洲一区二区三区日韩大片免费观看网站 a级毛片免费高清观看在线播放 18+在线观看网站亚洲欧美中文字幕日韩二区国产色爽女视频免费观看搡女人真爽免费视频火全软件韩国高清视频一区二区三区午夜爱爱视频在线播放日日干狠狠操夜夜爽国产高清三级在线亚洲在久久综合麻豆乱淫一区二区天堂中文最新版在线下载精品人妻一区二区三区麻豆一级爰片在线观看国内揄拍国产精品人妻在线免费人成在线观看视频色精品人妻熟女av久视频欧美成人午夜免费资源乱码一卡2卡4卡精品亚洲精品乱码久久久v下载方式在线播放无遮挡少妇猛男粗大的猛烈进出视频色吧在线观看国产精品一区二区在线观看99 亚洲美女视频黄频亚洲欧美日韩高清专用中文乱码字字幕精品一区二区三区一级毛片电影观看秋霞伦理黄片国产不卡一卡二国产亚洲91精品色在线久久国产乱子免费精品麻豆久久精品国产亚洲av 亚洲av福利一区成人性生交大片免费视频hd 两个人的视频大全免费全区人妻精品视频毛片一级片免费看久久久久久久久久久久久久久免费av 国产免费一级a男人的天堂美女内射精品一级片tv 国产精品一及搡老妇女老女人老熟妇 99久久精品热视频热99re8久久精品国产国产亚洲一区二区精品国产美女午夜福利看片在线看免费视频亚洲精品aⅴ在线观看国产一区二区在线观看日韩国产精品国产高清国产av 简卡轻食公司七月丁香在线播放午夜激情福利司机影院 a级毛色黄片日本猛色少妇xxxxx猛交久久国产精华一区二区三区亚洲aⅴ乱码一区二区在线播放国产亚洲精品av在线欧美最新免费一区二区三区国产v大片淫在线免费观看 97在线视频观看国产精品蜜桃在线观看欧美zozozo另类午夜老司机福利剧场久久6这里有精品国产亚洲精品av在线中文资源天堂在线欧美bdsm另类国产精品熟女久久久久浪国产一区二区在线av高清观看高清在线视频一区二区三区国内精品宾馆在线特大巨黑吊av在线直播男女国产视频网站男插女下体视频免费在线播放啦啦啦观看免费观看视频高清少妇丰满av 国产激情偷乱视频一区二区建设人人有责人人尽责人人享有的亚洲av成人精品一区久久五月玫瑰六月丁香亚洲四区av 男人舔女人下体高潮全视频国产精品一区二区三区四区免费观看国产伦理片在线播放av一区身体一侧抽搐亚洲国产色片午夜a级毛片 videos熟女内射少妇的逼水好多成人国产麻豆网乱系列少妇在线播放男人狂女人下面高潮的视频婷婷色麻豆天堂久久美女xxoo啪啪120秒动态图 videos熟女内射久久精品熟女亚洲av麻豆精品精品久久久久久成人av 91久久精品国产一区二区成人麻豆一二三区av精品十八禁国产超污无遮挡网站少妇的逼好多水尤物成人国产欧美一区二区三区搞女人的毛片日韩av在线大香蕉舔av片在线久久精品国产亚洲av天美人人妻人人澡人人爽人人夜夜国产精品国产三级国产专区5o 国产精品久久久久久精品电影亚洲av电影在线观看一区二区三区亚洲综合色惰成年免费大片在线观看 av卡一久久亚洲国产精品合色在线国产av一区在线观看免费免费观看a级毛片全部你懂的网址亚洲精品在线观看国产精品电影一区二区三区我要看日韩黄色一级片日韩精品有码人妻一区午夜福利在线在线亚洲av成人精品一二三区成人综合一区亚洲国产精品99久久久久久久久久久精品综合一区二区三区少妇高潮的动态图看免费成人av毛片 97超碰精品成人国产午夜精品国产一区二区电影在线免费观看的www视频欧美极品一区二区三区四区九九在线视频观看精品亚洲图色成人国产美女午夜福利 97在线视频观看亚洲婷婷狠狠爱综合网亚洲自拍偷在线中国国产av一级久久久精品欧美日韩精品国产在视频线在精品国产亚洲av嫩草精品影院亚洲精品久久久久久婷婷小说欧美一区二区亚洲超碰av人人做人人爽久久日韩国内少妇激情av 欧美变态另类bdsm刘玥亚洲最大成人av 狂野欧美白嫩少妇大欣赏亚洲国产精品专区欧美免费一级毛片在线播放高清视频美女被艹到高潮喷水动态国产亚洲午夜精品一区二区久久国产精品久久久久久精品电影小说国产精品野战在线观看亚洲欧美清纯卡通最近2019中文字幕mv第一页日韩欧美国产在线观看中国国产av一级 99在线视频只有这里精品首页乱码一卡2卡4卡精品午夜激情欧美在线久久精品久久久久久久性亚洲成人中文字幕在线播放色综合站精品国产久久久久久伊人网av 国产老妇女一区中文字幕av成人在线电影插阴视频在线观看视频男人舔女人下体高潮全视频 2021少妇久久久久久久久久久 99热6这里只有精品在线免费观看的www视频国产精品国产三级专区第一集色网站视频免费爱豆传媒免费全集在线观看婷婷色av中文字幕 99热网站在线观看午夜av观看不卡成人毛片60女人毛片免费亚洲国产av影院在线观看国产精品秋霞免费鲁丝片咕卡用的链子免费看av在线观看网站欧美精品一区二区大全免费黄网站久久成人精品日韩,欧美,国产一区二区三区久久久久久久久久久免费av 熟女电影av网午夜精品国产一区二区电影久久久久久久亚洲中文字幕女性被躁到高潮视频又大又黄又爽视频免费夜夜骑夜夜射夜夜干国产精品无大码 18+在线观看网站男女边吃奶边做爰视频亚洲图色成人免费观看无遮挡的男女亚洲欧美色中文字幕在线 97在线人人人人妻亚洲av电影在线观看一区二区三区亚洲人成网站在线观看播放考比视频在线观看亚洲五月色婷婷综合制服诱惑二区亚洲精品美女久久av网站中国美白少妇内射xxxbb 亚洲av综合色区一区少妇人妻久久综合中文我要看黄色一级片免费的日本vs欧美在线观看视频亚洲精品日韩在线中文字幕久久精品国产a三级三级三级 tube8黄色片一级黄片播放器 av女优亚洲男人天堂伦理电影大哥的女人热99国产精品久久久久久7 男男h啪啪无遮挡国国产精品蜜臀av免费性色avwww在线观看国产乱人偷精品视频亚洲av.av天堂看十八女毛片水多多多免费大片18禁亚洲天堂av无毛 av黄色大香蕉亚洲精品国产av蜜桃国产极品天堂在线亚洲精品久久成人aⅴ小说国产色爽女视频免费观看 99re6热这里在线精品视频又黄又爽又刺激的免费视频. 在线观看人妻少妇 videossex国产免费在线观看完整版高清中文字幕人妻丝袜制服在线观看一区二区三区激情亚洲精品第二区麻豆精品久久久久久蜜桃大话2 男鬼变身卡午夜免费观看性视频中文乱码字字幕精品一区二区三区亚洲精品av麻豆狂野国产乱人偷精品视频男女下面插进去视频免费观看精品国产一区二区三区四区第35 最新的欧美精品一区二区亚洲精品视频女赤兔流量卡办理侵犯人妻中文字幕一二三四区国产成人精品婷婷久久久久久久大尺度免费视频两个人看的免费小视频男女高潮啪啪啪动态图秋霞伦理黄片亚洲欧洲国产日韩 90打野战视频偷拍视频久久这里有精品视频免费国产免费视频播放在线视频亚洲精品色激情综合 a 毛片基地两个人看的免费小视频国产成人av激情在线播放蜜臀久久99精品久久宅男老女人水多毛片亚洲精品av麻豆狂野 97在线人人人人妻 91午夜精品亚洲一区二区三区 97人妻天天添夜夜摸自线自在国产av 国产成人免费无遮挡视频黄色一级大片看看午夜久久久在线观看欧美国产精品va在线观看不卡国产国语露脸激情在线看国产精品不卡视频一区二区久久精品国产自在天天线免费大片黄手机在线观看婷婷色av中文字幕一二三四在线观看免费中文在日本91视频免费播放国产黄色视频一区二区在线观看国产精品麻豆人妻色哟哟久久 1024视频免费在线观看色婷婷久久久亚洲欧美婷婷色综合www 成人亚洲欧美一区二区av 另类亚洲欧美激情 av福利片在线 90打野战视频偷拍视频伦精品一区二区三区 99热国产这里只有精品6 黑丝袜美女国产一区国产男人的电影天堂91 精品久久久久久电影网多毛熟女@视频在线观看国产h片丝袜喷水一区国产亚洲精品久久久com 国产精品欧美亚洲77777 免费看光身美女亚洲欧美中文字幕日韩二区国产成人91sexporn 久久亚洲国产成人精品v 欧美激情国产日韩精品一区成人二区视频有码亚洲区边亲边吃奶的免费视频午夜日本视频在线高清不卡的av网站国产高清三级在线 18在线观看网站 av女优亚洲男人天堂国内精品宾馆在线美女视频免费永久观看网站亚洲精品乱久久久久久日韩av免费高清视频精品少妇内射三级免费黄网站久久成人精品热99国产精品久久久久久7 免费人妻精品一区二区三区视频男女国产视频网站国产日韩欧美视频二区中文乱码字字幕精品一区二区三区日日摸夜夜添夜夜爱精品卡一卡二卡四卡免费日韩伦理黄色片国产精品熟女久久久久浪亚洲综合精品二区男人添女人高潮全过程视频 9191精品国产免费久久国产男人的电影天堂91 国产永久视频网站国产成人91sexporn 日韩,欧美,国产一区二区三区中文字幕另类日韩欧美亚洲嫩草国产精品久久久久久av不卡欧美日本中文国产一区发布国产无遮挡羞羞视频在线观看两个人免费观看高清视频在线观看www视频免费大香蕉97超碰在线 99热这里只有是精品在线观看日韩人妻精品一区2区三区欧美人与性动交α欧美软件成人毛片a级毛片在线播放久久韩国三级中文字幕色网站视频免费少妇被粗大猛烈的视频精品少妇黑人巨大在线播放桃花免费在线播放亚洲av男天堂久热这里只有精品99 在线 av 中文字幕国产免费福利视频在线观看中文字幕人妻熟女乱码国产伦理片在线播放av一区久久国产精品大桥未久av 国产男女超爽视频在线观看 √禁漫天堂资源中文www 熟女人妻精品中文字幕看非洲黑人一级黄片久久久精品94久久精品男的添女的下面高潮视频色吧在线观看日韩欧美精品免费久久制服诱惑二区国精品久久久久久国模美亚洲精华国产精华液的使用体验满18在线观看网站婷婷色av中文字幕欧美亚洲国产日韩一国产av精品麻豆在线观看免费视频网站a站日韩av不卡免费在线播放女性被躁到高潮视频一区二区三区精品91 丝袜人妻中文字幕国产男人的电影天堂91 最新中文字幕久久久久亚洲色图男人天堂中文字幕久久青草综合色国产欧美日韩一区二区三区在线 26uuu在线亚洲综合色国产精品一区www在线观看美女大奶头黄色视频天堂中文最新版在线下载国产一区亚洲一区在线观看男女午夜视频在线观看国产精品免费大片亚洲,一卡二卡三卡免费黄色在线免费观看亚洲国产日韩一区二区久久久精品区二区三区 av在线app专区 99热全是精品在线免费观看不下载黄p国产少妇被粗大的猛进出69影院 9色porny在线观看 kizo精华成人亚洲欧美一区二区av 一区在线观看完整版精品一品国产午夜福利视频亚洲精品乱久久久久久波多野结衣一区麻豆国产精品偷伦视频观看了一本一本久久a久久精品综合妖精国产伦在线观看视频一区亚洲av日韩在线播放 a级片在线免费高清观看视频色婷婷av一区二区三区视频精品99又大又爽又粗少妇毛片波多野结衣一区麻豆熟女av电影日本免费在线观看一区成人影院久久国产精品蜜桃在线观看中文字幕精品免费在线观看视频久久这里只有精品19 av播播在线观看一区久久99一区二区三区性高湖久久久久久久久免费观看 2018国产大陆天天弄谢成人午夜精彩视频在线观看搡老乐熟女国产国产老妇伦熟女老妇高清亚洲精品日韩在线中文字幕水蜜桃什么品种好亚洲国产欧美日韩在线播放日韩制服骚丝袜av 久久免费观看电影 1024视频免费在线观看久久久a久久爽久久v久久日韩一区二区三区影片晚上一个人看的免费电影欧美精品人与动牲交sv欧美 18禁在线无遮挡免费观看视频男女无遮挡免费网站观看啦啦啦中文免费视频观看日本免费看av在线观看网站少妇人妻视频 av在线app专区免费日韩欧美在线观看性高湖久久久久久久久免费观看搡女人真爽免费视频火全软件少妇猛男粗大的猛烈进出视频久久av网站午夜日本视频在线人人妻人人爽人人添夜夜欢视频男女下面插进去视频免费观看日本免费在线观看一区国产亚洲精品第一综合不卡日本91视频免费播放欧美3d第一页国产精品国产av在线观看自拍欧美九色日韩亚洲蝌蚪91 久久久精品94久久精品久久99热6这里只有精品日本黄色日本黄色录像最近的中文字幕免费完整午夜影院在线不卡国产免费一区二区三区四区乱码免费黄网站久久成人精品日韩一本色道免费dvd 国产精品99久久99久久久不卡丝袜在线中文字幕久久av网站精品一区二区三卡丝袜脚勾引网站精品卡一卡二卡四卡免费 99久久人妻综合国产日韩欧美视频二区亚洲精品成人av观看孕妇视频在线观看一区二区三区亚洲精品久久午夜乱码狠狠精品人妻久久久久久综合国产精品99久久99久久久不卡一级a做视频免费观看欧美激情极品国产一区二区三区晚上一个人看的免费电影国产成人91sexporn 亚洲精品456在线播放app 午夜影院在线不卡 av.在线天堂国产又色又爽无遮挡免国产精品国产三级国产av玫瑰宅男免费午夜亚洲av福利一区国产精品偷伦视频观看了国产av一区二区精品久久 18禁观看日本亚洲丝袜综合中文字幕 91久久精品国产一区二区三区丰满饥渴人妻一区二区三 999精品在线视频免费观看性生交大片5 av黄色大香蕉少妇精品久久久久久久国产免费视频播放在线视频欧美精品亚洲一区二区久久这里只有精品19 国产一区二区激情短视频黑人欧美特级aaaaaa片久久久久久久大尺度免费视频国产在线免费精品飞空精品影院首页国产精品1 老女人水多毛片亚洲精品久久久久久婷婷小说在线观看免费日韩欧美大片最近的中文字幕免费完整日韩视频在线欧美美女内射精品一级片tv 制服丝袜香蕉在线免费大片黄手机在线观看免费不卡的大黄色大毛片视频在线观看久久女婷五月综合色啪小说精品人妻熟女毛片av久久网站天天操日日干夜夜撸欧美精品av麻豆av 18禁国产床啪视频网站夫妻性生交免费视频一级片妹子高潮喷水视频成人国产麻豆网 av播播在线观看一区在线观看人妻少妇免费大片18禁狠狠婷婷综合久久久久久88av 91精品三级在线观看亚洲欧美中文字幕日韩二区亚洲丝袜综合中文字幕亚洲四区av 人妻人人澡人人爽人人亚洲一码二码三码区别大吗国产av国产精品国产五月开心婷婷网午夜福利,免费看成人二区视频 av一本久久久久啦啦啦在线观看免费高清www 日日爽夜夜爽网站激情视频va一区二区三区美女内射精品一级片tv 五月开心婷婷网在线亚洲精品国产二区图片欧美欧美xxⅹ黑人日本猛色少妇xxxxx猛交久久 91精品伊人久久大香线蕉大香蕉97超碰在线免费高清在线观看日韩欧美国产精品一级二级三级丝袜脚勾引网站 www日本在线高清视频伦精品一区二区三区国产精品久久久久成人av 午夜影院在线不卡精品卡一卡二卡四卡免费国产日韩欧美在线精品亚洲国产精品专区欧美国产午夜精品一二区理论片肉色欧美久久久久久久蜜桃美女主播在线视频 av在线老鸭窝女人被躁到高潮嗷嗷叫费观黑丝袜美女国产一区超碰97精品在线观看国产男女内射视频欧美日本中文国产一区发布亚洲性久久影院欧美成人午夜免费资源大码成人一级视频国产精品人妻久久久影院国产成人午夜福利电影在线观看日韩亚洲欧美在线看免费成人av毛片色网站视频免费九九爱精品视频在线观看 99国产综合亚洲精品黄色怎么调成土黄色亚洲欧美成人精品一区二区五月开心婷婷网五月伊人婷婷丁香大香蕉久久网国产白丝娇喘喷水9色精品人妻少妇偷人精品九色国产免费视频播放在线视频啦啦啦视频在线资源免费观看桃花免费在线播放亚洲第一区二区三区不卡九色成人免费人妻av 国产精品一区www在线观看国产淫语在线视频人妻一区二区av 国产欧美日韩一区二区三区在线免费看光身美女精品一区二区三区视频在线国产成人精品在线电影欧美人与性动交α欧美软件日韩在线高清观看一区二区三区国产成人精品在线电影我要看黄色一级片免费的国产69精品久久久久777片在线亚洲精品国产二区图片欧美亚洲欧美一区二区三区国产亚洲精华国产精华液的使用体验久久精品国产鲁丝片午夜精品一级片'在线观看视频欧美激情高清一区二区三区 91精品国产国语对白视频久久久久久久久久久久大奶天堂中文最新版在线下载日韩成人av中文字幕在线观看 av免费在线看不卡 freevideosex欧美久久狼人影院国产一区亚洲一区在线观看在线观看免费日韩欧美大片亚洲av福利一区久热这里只有精品99 一级片'在线观看视频女的被弄到高潮叫床怎么办久久亚洲国产成人精品v 欧美bdsm另类宅男免费午夜国产一区亚洲一区在线观看 a级毛色黄片欧美日韩视频精品一区男女下面插进去视频免费观看国产精品女同一区二区软件午夜激情av网站国产极品天堂在线久久精品国产a三级三级三级一本一本久久a久久精品综合妖精国产伦在线观看视频一区高清视频免费观看一区二区国产片内射在线十分钟在线观看高清视频www 国产精品国产三级专区第一集日韩,欧美,国产一区二区三区欧美激情国产日韩精品一区母亲3免费完整高清在线观看男女啪啪激烈高潮av片 av天堂久久9 91国产中文字幕 80岁老熟妇乱子伦牲交日本av手机在线免费观看 90打野战视频偷拍视频国产深夜福利视频在线观看亚洲欧美色中文字幕在线一本一本久久a久久精品综合妖精国产伦在线观看视频一区性色av一级视频中文字幕在线观看超色免费av 宅男免费午夜女人被躁到高潮嗷嗷叫费观国产免费又黄又爽又色国产一区精品欧美国产精品va在线观看不卡亚洲在久久综合亚洲第一av免费看女人精品久久久久毛片一区二区三区四区激情视频一边亲一边摸免费视频午夜激情av网站久久99蜜桃精品久久日韩成人av中文字幕在线观看一区二区三区四区激情视频国产成人a∨麻豆精品国产亚洲一区二区精品国产日韩欧美在线精品 97超碰精品成人国产建设人人有责人人尽责人人享有的秋霞在线观看毛片国产精品一国产av 国产片特级美女逼逼视频国产精品久久久久久精品古装美女国产高潮福利片在线看 99热这里只有是精品在线观看国产精品久久久久久精品电影小说国产有黄有色有爽视频亚洲精品第二区日韩在线高清观看一区二区三区国产精品蜜桃在线观看乱码一卡2卡4卡精品亚洲精品自拍成人成年人午夜在线观看视频亚洲精品第二区欧美人与性动交α欧美精品济南到免费久久久久久久精品成人欧美视频亚洲精品第二区日日爽夜夜爽网站欧美少妇被猛烈插入视频丰满乱子伦码专区男女午夜视频在线观看 97人妻天天添夜夜摸成人无遮挡网站一边摸一边做爽爽视频免费 91国产中文字幕亚洲色图综合在线观看满18在线观看网站国产欧美另类精品又又久久亚洲欧美久久久精品区二区三区久久久久精品久久久久真实原创久久人人爽av亚洲精品天堂国产免费福利视频在线观看嫩草影院入口国产在线一区二区三区精男女边摸边吃奶国产亚洲精品第一综合不卡少妇在线观看黄色视频在线播放观看不卡大片电影免费在线观看免费你懂的网址亚洲精品在线观看一级爰片在线观看国产成人精品无人区高清视频免费观看一区二区 av黄色大香蕉国产精品人妻久久久影院亚洲精品一二三男女下面插进去视频免费观看天天影视国产精品久久精品久久久久久噜噜老黄插逼视频在线观看精品午夜福利在线看成年人免费黄色播放视频 videosex国产 av线在线观看网站成人亚洲欧美一区二区av 久久婷婷青草少妇的逼好多水 18禁动态无遮挡网站日韩不卡一区二区三区视频在线两个人看的免费小视频热99久久久久精品小说推荐精品国产国语对白av 女人被躁到高潮嗷嗷叫费观少妇人妻久久综合中文 av电影中文网址国产一区二区在线观看av 51国产日韩欧美亚洲精品一区蜜桃国产淫语在线视频亚洲经典国产精华液单亚洲欧洲国产日韩国产成人a∨麻豆精品欧美日韩av久久黄色一级大片看看午夜av观看不卡国内精品宾馆在线夫妻性生交免费视频一级片乱人伦中国视频亚洲,一卡二卡三卡日本wwww免费看又黄又粗又硬又大视频另类精品久久黑人高潮一二区久久精品国产亚洲av天美老司机亚洲免费影院亚洲色图综合在线观看欧美日韩视频精品一区久热这里只有精品99 国精品久久久久久国模美亚洲欧美精品自产自拍热re99久久国产66热成人亚洲精品一区在线观看熟妇人妻不卡中文字幕亚洲三级黄色毛片视频在线观看一区二区三区国产不卡av网站在线观看狠狠精品人妻久久久久久综合丰满饥渴人妻一区二区三亚洲精品久久久久久婷婷小说在线观看一区二区三区激情久久久久久人人人人人亚洲国产成人一精品久久久亚洲精品第二区 av.在线天堂久久青草综合色男女无遮挡免费网站观看 99国产综合亚洲精品 av在线老鸭窝亚洲精品456在线播放app 美女大奶头黄色视频亚洲av欧美aⅴ国产亚洲精品美女久久av网站久久久国产欧美日韩av 亚洲色图综合在线观看 999精品在线视频最近最新中文字幕大全免费视频欧美日韩精品国产亚洲国产欧美在线一区欧美精品人与动牲交sv欧美一二三四在线观看免费中文在亚洲精品国产av成人精品午夜av观看不卡国产成人午夜福利电影在线观看亚洲精品国产av成人精品亚洲四区av 久久婷婷青草 18在线观看网站免费久久久久久久精品成人欧美视频日韩一区二区视频免费看国产激情久久老熟女免费观看a级毛片全部哪个播放器可以免费观看大片性色av一级 videosex国产亚洲av中文av极速乱色网站视频免费国产国语露脸激情在线看亚洲三级黄色毛片 h视频一区二区三区欧美日韩亚洲高清精品亚洲国产色片日韩精品有码人妻一区咕卡用的链子久久人人爽av亚洲精品天堂 9色porny在线观看巨乳人妻的诱惑在线观看 99热全是精品不卡视频在线观看欧美国产欧美日韩一区二区三区在线国产麻豆69 免费看av在线观看网站久久狼人影院视频在线观看一区二区三区国产一区二区在线观看av 制服诱惑二区极品人妻少妇av视频国产伦理片在线播放av一区亚洲欧美成人综合另类久久久欧美国产精品一级二级三级青春草亚洲视频在线观看一区二区三区四区激情视频 18禁在线无遮挡免费观看视频日韩中文字幕视频在线看片蜜桃在线观看.. 日韩精品免费视频一区二区三区精品一区在线观看国产久久久久国产网址大香蕉久久成人网国产精品国产三级专区第一集人人妻人人澡人人看久久久久精品久久久久真实原创欧美精品一区二区免费开放午夜激情久久久久久久精品少妇黑人巨大在线播放中文字幕精品免费在线观看视频一区二区三区四区激情视频亚洲成人av在线免费 99re6热这里在线精品视频国产成人91sexporn 91成人精品电影午夜影院在线不卡建设人人有责人人尽责人人享有的亚洲第一av免费看亚洲,欧美,日韩日韩中字成人亚洲av免费高清在线观看国产精品人妻久久久久久大码成人一级视频伦理电影免费视频久久久精品区二区三区看免费av毛片日本免费在线观看一区在线精品无人区一区二区三亚洲综合色网址婷婷成人精品国产国产又色又爽无遮挡免最近最新中文字幕大全免费视频中文乱码字字幕精品一区二区三区天美传媒精品一区二区大陆偷拍与自拍午夜福利视频在线观看免费亚洲精华国产精华液的使用体验少妇人妻视频韩国高清视频一区二区三区久久久久精品性色欧美精品一区二区大全国产1区2区3区精品亚洲av免费高清在线观看亚洲av免费高清在线观看日日爽夜夜爽网站亚洲人成网站在线观看播放 av国产精品久久久久影院 2021少妇久久久久久久久久久 av网站免费在线观看视频日本黄大片高清人妻系列视频国产免费又黄又爽又色丰满少妇做爰视频久久99热6这里只有精品国产欧美另类精品又又久久亚洲欧美人人澡人人妻人久久久久精品性色免费黄网站久久成人精品一级,二级,三级黄色视频国产乱人偷精品视频国产精品女同一区二区软件男人添女人高潮全过程视频午夜激情久久久久久久一区二区三区精品91 涩涩av久久男人的天堂午夜老司机福利剧场国产激情久久老熟女狂野欧美激情性xxxx在线观看国产69精品久久久久777片男女高潮啪啪啪动态图国产精品秋霞免费鲁丝片美女国产视频在线观看 91成人精品电影欧美亚洲日本最大视频资源中文天堂在线官网男女国产视频网站亚洲中文av在线午夜视频国产福利狠狠婷婷综合久久久久久88av 国产精品一国产av 国产精品一二三区在线看中文字幕精品免费在线观看视频一区二区三区四区激情视频 51国产日韩欧美日本欧美国产在线视频 av在线播放精品 av不卡在线播放亚洲av在线观看美女高潮在现免费观看毛片有码亚洲区日韩一区二区三区影片国产亚洲一区二区精品人妻少妇偷人精品九色成人手机av 亚洲第一区二区三区不卡夫妻午夜视频 www.熟女人妻精品国产国产成人91sexporn 成人毛片a级毛片在线播放亚洲av福利一区亚洲国产精品一区二区三区在线自拍欧美九色日韩亚洲蝌蚪91 欧美丝袜亚洲另类久久久久久人人人人人麻豆乱淫一区二区亚洲精品美女久久久久99蜜臀婷婷色综合www 91aial.com中文字幕在线观看男女下面插进去视频免费观看久久免费观看电影欧美精品一区二区免费开放亚洲av在线观看美女高潮日本猛色少妇xxxxx猛交久久少妇人妻久久综合中文少妇精品久久久久久久国产爽快片一区二区三区中文字幕人妻熟女乱码精品一品国产午夜福利视频极品少妇高潮喷水抽搐涩涩av久久男人的天堂欧美日韩视频精品一区中文字幕人妻丝袜制服国产精品久久久av美女十八一级a做视频免费观看亚洲综合色惰 97人妻天天添夜夜摸久久精品aⅴ一区二区三区四区亚洲,欧美精品. 国产一区二区三区综合在线观看免费人成在线观看视频色多毛熟女@视频久久久久人妻精品一区果冻亚洲欧美成人精品一区二区国产一区二区在线观看av 国产一区精品亚洲欧美清纯卡通 97精品久久久久久久久久精品国产精品国内视频免费观看在线日韩午夜福利在线观看免费完整高清在天美传媒精品一区二区久久久久网色 www.av在线官网国产我的女老师完整版在线观看成年人午夜在线观看视频婷婷色麻豆天堂久久欧美日韩精品国产性色avwww在线观看免费黄网站久久成人精品日韩精品免费视频一区二区三区成年美女黄网站色视频大全免费久久精品久久久久久噜噜老黄男男h啪啪无遮挡日韩欧美精品免费久久亚洲久久久国产精品日日摸夜夜添夜夜爱亚洲综合色网址 18禁观看日本午夜福利影视在线免费观看一区二区三区四区激情视频成人漫画全彩无遮挡欧美精品一区二区大全久久韩国三级中文字幕亚洲国产毛片av蜜桃av 日韩在线高清观看一区二区三区久热这里只有精品99 日日爽夜夜爽网站中文字幕最新亚洲高清亚洲精品美女久久久久99蜜臀久久人人爽人人爽人人片va 精品人妻偷拍中文字幕中文字幕免费在线视频6 色94色欧美一区二区亚洲四区av 丝袜脚勾引网站国精品久久久久久国模美久久久精品免费免费高清 freevideosex欧美少妇被粗大猛烈的视频国产成人午夜福利电影在线观看十八禁高潮呻吟视频国产一区亚洲一区在线观看久久久国产一区二区久久久久久久久久久久大奶国产午夜精品一二区理论片一本色道久久久久久精品综合超色免费av 男人添女人高潮全过程视频成年动漫av网址中文字幕人妻熟女乱码在现免费观看毛片婷婷色av中文字幕精品熟女少妇av免费看另类精品久久伊人久久国产一区二区免费久久久久久久精品成人欧美视频国产片内射在线精品久久国产蜜桃久久久精品94久久精品天堂中文最新版在线下载韩国av在线不卡 99热这里只有是精品在线观看日本黄色日本黄色录像 9热在线视频观看99 啦啦啦在线观看免费高清www 欧美成人午夜精品在线亚洲精品国产二区图片欧美日本黄色日本黄色录像 80岁老熟妇乱子伦牲交色婷婷av一区二区三区视频日本av手机在线免费观看成人影院久久国产综合精华液一本久久精品欧美日韩av久久麻豆精品久久久久久蜜桃久久久久久伊人网av 免费高清在线观看视频在线观看亚洲高清免费不卡视频 18禁裸乳无遮挡动漫免费视频热99国产精品久久久久久7 一级毛片黄色毛片免费观看视频搡老乐熟女国产亚洲欧美日韩卡通动漫高清av免费在线又粗又硬又长又爽又黄的视频激情视频va一区二区三区欧美日韩视频高清一区二区三区二久久青草综合色久久久久国产精品人妻一区二区女性生殖器流出的白浆国产精品女同一区二区软件亚洲第一区二区三区不卡国产精品国产三级国产av玫瑰欧美人与性动交α欧美软件久久热在线av 美女xxoo啪啪120秒动态图熟女av电影精品久久久久久电影网大码成人一级视频人人妻人人添人人爽欧美一区卜 av.在线天堂日本wwww免费看 av有码第一页日本黄大片高清日韩一本色道免费dvd 少妇精品久久久久久久最后的刺客免费高清国语午夜福利视频在线观看免费 av网站免费在线观看视频免费av不卡在线播放热re99久久精品国产66热6 久久久a久久爽久久v久久性色av一级国产淫语在线视频国产精品久久久久成人av 欧美日韩一区二区视频在线观看视频在线日韩视频在线欧美内地一区二区视频在线 99久久综合免费亚洲人与动物交配视频亚洲av.av天堂国产精品一国产av 国产极品天堂在线欧美最新免费一区二区三区中文精品一卡2卡3卡4更新韩国av在线不卡超碰97精品在线观看日日爽夜夜爽网站亚洲av电影在线观看一区二区三区亚洲av男天堂校园人妻丝袜中文字幕国产一区二区在线观看日韩久久99热6这里只有精品日本午夜av视频亚洲欧美日韩另类电影网站亚洲国产av新网站亚洲成av片中文字幕在线观看亚洲少妇的诱惑av 色哟哟·www 自拍欧美九色日韩亚洲蝌蚪91 欧美国产精品一级二级三级国产在线一区二区三区精欧美亚洲国产日韩一男男h啪啪无遮挡亚洲av男天堂午夜老司机福利剧场少妇高潮的动态图曰老女人黄片午夜福利网站1000一区二区三区亚洲经典国产精华液单最近中文字幕高清免费大全6 久久精品国产鲁丝片午夜精品国产女主播在线喷水免费视频网站美女脱内裤让男人舔精品视频两个人免费观看高清视频亚洲熟女精品中文字幕久久精品国产亚洲av天美国产极品天堂在线 97超碰精品成人国产国语对白做爰xxxⅹ性视频网站男人爽女人下面视频在线观看曰老女人黄片香蕉丝袜av 免费黄网站久久成人精品青春草视频在线免费观看亚洲第一区二区三区不卡综合色丁香网交换朋友夫妻互换小说国产精品熟女久久久久浪午夜免费观看性视频久久久久精品久久久久真实原创欧美变态另类bdsm刘玥亚洲精品乱码久久久久久按摩国产熟女欧美一区二区男女啪啪激烈高潮av片曰老女人黄片 51国产日韩欧美高清欧美精品videossex 热re99久久精品国产66热6 亚洲精品美女久久av网站九色成人免费人妻av 男人添女人高潮全过程视频精品酒店卫生间久久久久国产网址久久精品aⅴ一区二区三区四区国产高清三级在线国产av国产精品国产女人久久www免费人成看片国产成人精品婷婷亚洲精品色激情综合人妻亚洲视频十八禁高潮呻吟视频欧美精品国产亚洲国产黄色免费在线视频 99热6这里只有精品午夜精品国产一区二区电影毛片一级片免费看久久久久 a级毛色黄片午夜激情av网站国产精品一区二区在线不卡亚洲美女搞黄在线观看日本猛色少妇xxxxx猛交久久 av天堂久久9 xxxhd国产人妻xxx 色网站视频免费人妻一区二区av 国产高清三级在线黄网站色视频无遮挡免费观看久久精品aⅴ一区二区三区四区国产色婷婷99 女的被弄到高潮叫床怎么办一级毛片黄色毛片免费观看视频欧美xxⅹ黑人精品熟女少妇av免费看 av电影中文网址 9191精品国产免费久久 18+在线观看网站黄色视频在线播放观看不卡十八禁网站网址无遮挡欧美激情高清一区二区三区大片免费播放器马上看亚洲第一av免费看久久国产亚洲av麻豆专区 av电影中文网址亚洲欧洲国产日韩中文字幕另类日韩欧美亚洲嫩草日韩欧美一区视频在线观看日韩一本色道免费dvd 伊人亚洲综合成人网 69精品国产乱码久久久精品人妻一区二区三区麻豆 2018国产大陆天天弄谢国产在线一区二区三区精十分钟在线观看高清视频www 国产乱人偷精品视频国产极品天堂在线亚洲国产最新在线播放天美传媒精品一区二区免费看光身美女国产精品99久久99久久久不卡日本爱情动作片www.在线观看亚洲图色成人精品久久久久久电影网亚洲人成77777在线视频男女下面插进去视频免费观看宅男免费午夜 99热这里只有是精品在线观看精品99又大又爽又粗少妇毛片最近最新中文字幕免费大全7 久久热在线av 午夜福利网站1000一区二区三区国产成人午夜福利电影在线观看人人妻人人澡人人爽人人夜夜两个人免费观看高清视频亚洲欧洲国产日韩国产精品一区二区在线不卡狂野欧美激情性xxxx在线观看成人手机av 欧美精品人与动牲交sv欧美九色成人免费人妻av 久久精品aⅴ一区二区三区四区国产精品嫩草影院av在线观看色视频在线一区二区三区 2022亚洲国产成人精品日日撸夜夜添街头女战士在线观看网站九色亚洲精品在线播放一级黄片播放器成人漫画全彩无遮挡国产成人午夜福利电影在线观看欧美日韩亚洲高清精品你懂的网址亚洲精品在线观看日韩av在线免费看完整版不卡欧美亚洲丝袜人妻在线精品国产乱码久久久久久小说男女下面插进去视频免费观看国产精品熟女久久久久浪男女午夜视频在线观看性色avwww在线观看 av线在线观看网站最黄视频免费看国产精品1 最近手机中文字幕大全国产色婷婷99 久久久久精品性色 √禁漫天堂资源中文www 国产免费视频播放在线视频国产日韩欧美在线精品少妇高潮的动态图国产精品久久久久成人av 好男人视频免费观看在线日韩制服丝袜自拍偷拍免费女性裸体啪啪无遮挡网站精品国产露脸久久av麻豆 freevideosex欧美 av片东京热男人的天堂天堂8中文在线网国产白丝娇喘喷水9色精品 av在线观看视频网站免费 99久久中文字幕三级久久日本日本黄色日本黄色录像丝袜美足系列男人操女人黄网站亚洲av在线观看美女高潮伦精品一区二区三区 97在线视频观看一级毛片电影观看一级,二级,三级黄色视频国产综合精华液日本欧美国产在线视频久久久久国产网址国产爽快片一区二区三区久久久欧美国产精品久久99热这里只频精品6学生久久久久久久久久久免费av 精品一区二区三区四区五区乱码亚洲精品美女久久av网站国产一区亚洲一区在线观看中文字幕精品免费在线观看视频成年动漫av网址欧美老熟妇乱子伦牲交国产乱人偷精品视频久久精品国产综合久久久日韩亚洲欧美在线久久99热6这里只有精品成人亚洲精品一区在线观看国产成人免费无遮挡视频草草在线视频免费看欧美bdsm另类 97在线人人人人妻欧美激情国产日韩精品一区如日韩欧美国产精品一区二区三区亚洲图色成人国产精品女同一区二区软件国语对白做爰xxxⅹ性视频网站免费观看无遮挡的男女亚洲国产毛片av蜜桃av 女人精品久久久久毛片大香蕉久久网久久精品久久精品一区二区三区 99久国产av精品国产电影日韩在线高清观看一区二区三区中文精品一卡2卡3卡4更新 26uuu在线亚洲综合色人体艺术视频欧美日本高清av免费在线 91精品伊人久久大香线蕉午夜视频国产福利国产成人欧美久久精品国产鲁丝片午夜精品亚洲国产欧美日韩在线播放久久99热这里只频精品6学生咕卡用的链子成人午夜精彩视频在线观看久久久精品免费免费高清黄网站色视频无遮挡免费观看最近中文字幕2019免费版国产无遮挡羞羞视频在线观看少妇人妻久久综合中文亚洲精品美女久久av网站精品第一国产精品国产免费一区二区三区四区乱码飞空精品影院首页中文字幕av电影在线播放国产亚洲精品第一综合不卡一级爰片在线观看午夜影院在线不卡亚洲精品久久久久久婷婷小说日韩,欧美,国产一区二区三区乱码一卡2卡4卡精品亚洲人成网站在线观看播放国产一区精品亚洲av日韩在线播放天天影视国产精品人人妻人人澡人人爽人人夜夜女人被躁到高潮嗷嗷叫费观国产精品久久久久久av不卡综合色丁香网香蕉精品网在线国产精品久久久久成人av 久久精品人人爽人人爽视色亚洲熟女精品中文字幕亚洲欧美日韩卡通动漫 av在线老鸭窝欧美性感艳星国产男女超爽视频在线观看日韩成人伦理影院狂野欧美激情性xxxx在线观看少妇被粗大猛烈的视频 av在线app专区男女边摸边吃奶国产免费福利视频在线观看色吧在线观看亚洲精品乱久久久久久国产精品国产三级国产av玫瑰久久这里只有精品19 色婷婷久久久亚洲欧美欧美精品人与动牲交sv欧美免费女性裸体啪啪无遮挡网站久久99精品国语久久久国产欧美日韩综合在线一区二区欧美精品人与动牲交sv欧美中文字幕人妻熟女乱码久久久a久久爽久久v久久亚洲内射少妇av 如何舔出高潮亚洲婷婷狠狠爱综合网日本黄色日本黄色录像天天影视国产精品人人妻人人澡人人看看非洲黑人一级黄片青青草视频在线视频观看 2022亚洲国产成人精品纯流量卡能插随身wifi吗美女主播在线视频日日爽夜夜爽网站精品99又大又爽又粗少妇毛片色哟哟·www 久久久久久人人人人人欧美3d第一页国产极品粉嫩免费观看在线午夜福利乱码中文字幕内地一区二区视频在线国产精品.久久久久久精品久久久久久久性伦理电影免费视频一本—道久久a久久精品蜜桃钙片 91精品国产国语对白视频国产片特级美女逼逼视频免费观看性生交大片5 日本wwww免费看日本欧美国产在线视频国产免费视频播放在线视频只有这里有精品99 菩萨蛮人人尽说江南好唐韦庄人妻一区二区av 欧美日韩综合久久久久久亚洲国产毛片av蜜桃av 最近2019中文字幕mv第一页岛国毛片在线播放色网站视频免费亚洲综合色惰国产亚洲一区二区精品国产亚洲精品久久久com 久久久久精品久久久久真实原创国产精品人妻久久久久久在线亚洲精品国产二区图片欧美一级片'在线观看视频伦理电影大哥的女人欧美xxⅹ黑人日韩成人av中文字幕在线观看国产在线免费精品久久99精品国语久久久在线观看免费日韩欧美大片久久久久久人妻不卡视频在线观看欧美日韩亚洲欧美在线中文字幕精品免费在线观看视频亚洲色图综合在线观看日韩一本色道免费dvd 国产在线视频一区二区国产午夜精品一二区理论片国产在视频线精品免费黄色在线免费观看精品久久久精品久久久国产成人a∨麻豆精品校园人妻丝袜中文字幕 xxx大片免费视频免费观看无遮挡的男女人人妻人人添人人爽欧美一区卜人妻亚洲视频岛国毛片在线播放

一个人看片免费亚洲精品乱码爱久久久久免费观看亚洲一区二区