• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向地址數(shù)據(jù)基于ISM理論構(gòu)建數(shù)據(jù)清洗規(guī)則鏈方法研究

    2022-01-13 05:35:34殷滋偉王佳慧馬利民
    關(guān)鍵詞:語義要素規(guī)則

    殷滋偉,張 偉,2,王佳慧,馬利民,2

    (1.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101;2.北京信息科技大學(xué) 北京材料基因工程高精尖創(chuàng)新中心,北京 100101;3.國(guó)家信息中心 信息與網(wǎng)絡(luò)安全部,北京 100045)

    0 引言

    2019年全球爆發(fā)新冠疫情,中國(guó)借助大數(shù)據(jù)等技術(shù)對(duì)感染者、疑似感染者軌跡進(jìn)行追蹤定位,使得疫情得到了有效防控,可見地址數(shù)據(jù)非常重要。現(xiàn)實(shí)生活中存在著大量以自然語言描述的地址數(shù)據(jù),由于缺乏對(duì)地址及地址模型概念框架的有效研究,導(dǎo)致地址數(shù)據(jù)格式不統(tǒng)一,數(shù)據(jù)的存儲(chǔ)和管理秩序混亂,造成極大不便[1]。數(shù)據(jù)清洗最早起源于20世紀(jì)50年代,從美國(guó)的社會(huì)保險(xiǎn)號(hào)糾錯(cuò)開始[2]。數(shù)據(jù)清洗能有效提高數(shù)據(jù)質(zhì)量,但地址數(shù)據(jù)不同于一般數(shù)據(jù)——因復(fù)雜的歷史、地域、人為因素,其具有易出錯(cuò)的特點(diǎn),同時(shí)海量的地址數(shù)據(jù)導(dǎo)致數(shù)據(jù)治理難度更大。

    當(dāng)前對(duì)于數(shù)據(jù)清洗的研究主要集中在數(shù)據(jù)挖掘、數(shù)據(jù)清洗效率和清洗框架上,將數(shù)據(jù)挖掘的方法應(yīng)用在數(shù)據(jù)清洗上,采用統(tǒng)計(jì)、機(jī)器學(xué)習(xí)的方法來檢測(cè)和消除臟數(shù)據(jù)。楊尚林[3]針對(duì)多源異構(gòu)數(shù)據(jù)存在數(shù)據(jù)不精確的問題,設(shè)計(jì)了基于貝葉斯網(wǎng)絡(luò)和粗糙集屬性約減聯(lián)合清洗模型;郭開彥等[4]用主動(dòng)學(xué)習(xí)的方法,利用用戶交互,提高數(shù)據(jù)清洗效率。何俊等[5]利用petri網(wǎng)建立規(guī)則鏈組合模型,提出一種規(guī)則鏈自動(dòng)組合與檢測(cè)方法;謝文閣等[6]引入全文索引技術(shù)對(duì)鄰近排序算法(sorted-neighborhood method,SNM)算法進(jìn)行改進(jìn),以此提高重復(fù)記錄查找的速度和準(zhǔn)確率,從而提升SNM算法的性能;張培根等[7]對(duì)于傳統(tǒng)SNM方法不適合中文數(shù)據(jù)的問題,引入編輯距離來計(jì)算近似度,提高中文數(shù)據(jù)去重效率;為了解決新興的眾包技術(shù)時(shí)間和代價(jià)成本高的問題,齊志鑫[8]提出知識(shí)庫(kù)優(yōu)化的眾包數(shù)據(jù)清洗框架COSSET+,并以代價(jià)敏感決策樹縮小清洗數(shù)據(jù)的范圍,實(shí)現(xiàn)按需清洗。對(duì)數(shù)據(jù)清洗框架的研究,潘彬[9]提出了ECL-TL框架,引入中間庫(kù)將數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換完全分離,降低各組件之間的耦合度。

    中文和西文的地址數(shù)據(jù)的處理方式不同[10],國(guó)外對(duì)于西文數(shù)據(jù)的處理依靠空格和標(biāo)點(diǎn)符號(hào),對(duì)每一個(gè)單詞進(jìn)行詞干還原和詞形還原,如經(jīng)典的波特算法(Porter algorithm)。而由于中文詞語之間沒有規(guī)范的分隔符,中文數(shù)據(jù)處理起來非常困難[11]。國(guó)內(nèi)對(duì)于地址數(shù)據(jù)的研究主要在地址分詞上。因?yàn)榈刂窋?shù)據(jù)的組成要素復(fù)雜多元,造成地址分詞十分困難。中文分詞的方法主要分為3類:1)基于統(tǒng)計(jì)的分詞方法;2)基于詞典的方法;3)基于語義的方法。梁東陽[12]基于統(tǒng)計(jì)的思想,通過自然語言處理技術(shù)結(jié)合地址詞典,合理推斷出用戶想要的地址。趙成等[13]利用中文地址詞典結(jié)合逆向最大匹配算法實(shí)現(xiàn)中文地址分詞。李曉林等[14]提出一種基于地址語義理解的地址位置信息識(shí)別方法,不依賴地名詞典和詞性標(biāo)注。但是以上研究都是針對(duì)比較完整的地址數(shù)據(jù)進(jìn)行的。對(duì)于非規(guī)范的地址數(shù)據(jù),許也等[15]提出了一種條件隨機(jī)場(chǎng)的非規(guī)范化中文地址解析方法,實(shí)現(xiàn)對(duì)地址要素的自動(dòng)解析。李曉林等[16]采用“路”特征詞來提取信息,并通過行政區(qū)劃字典和移動(dòng)窗口最大匹配算法來進(jìn)行地址的匹配。以上方法只能針對(duì)特定的場(chǎng)景,且只是對(duì)地址進(jìn)行分詞等操作,不能滿足當(dāng)前地址數(shù)據(jù)準(zhǔn)確的數(shù)據(jù)解析和門牌級(jí)用戶關(guān)聯(lián)。

    數(shù)據(jù)清洗是檢測(cè)數(shù)據(jù)中存在的異常數(shù)據(jù)(如錯(cuò)誤數(shù)據(jù)、缺失數(shù)據(jù)和不一致數(shù)據(jù)等),并糾正和補(bǔ)全以提高數(shù)據(jù)質(zhì)量的過程。當(dāng)前數(shù)據(jù)清洗規(guī)則的研究多是面向特定領(lǐng)域、結(jié)構(gòu)相同或者相似的數(shù)據(jù)集,可重用率低,可擴(kuò)展性差。而對(duì)于地址數(shù)據(jù),組成結(jié)構(gòu)復(fù)雜,處理難度增大。隨著業(yè)務(wù)場(chǎng)景越來越復(fù)雜,數(shù)據(jù)組成要素增多,數(shù)據(jù)清洗規(guī)則之間由于操作的字段存在相關(guān)性,造成數(shù)據(jù)清洗規(guī)則邏輯相關(guān),主觀分析的執(zhí)行順序?qū)τ趫?chǎng)景復(fù)雜的數(shù)據(jù)清洗場(chǎng)景,容易出現(xiàn)執(zhí)行順序的邏輯沖突,從而造成數(shù)據(jù)清洗質(zhì)量降低。

    本文以北京某燃?xì)夤緮?shù)據(jù)關(guān)聯(lián)項(xiàng)目為背景,展開以下工作:分析地址數(shù)據(jù),結(jié)合地址數(shù)據(jù)的特點(diǎn),構(gòu)建多層次語義模型和地址規(guī)則庫(kù);采用解析結(jié)構(gòu)模型(interpretative structural modeling method,ISM)對(duì)數(shù)據(jù)清洗規(guī)則的執(zhí)行順序進(jìn)行建模,推導(dǎo)和建立無沖突的規(guī)則鏈;最后通過實(shí)驗(yàn),對(duì)比傳統(tǒng)順序執(zhí)行方法和本文的基于ISM理論推導(dǎo)規(guī)則鏈執(zhí)行方法,驗(yàn)證方法的優(yōu)越性。

    1 解析結(jié)構(gòu)模型

    解析結(jié)構(gòu)模型ISM是系統(tǒng)工程較為成熟的理論。它能根據(jù)系統(tǒng)各要素的關(guān)系來對(duì)系統(tǒng)進(jìn)行分析和建模,從而解決實(shí)際問題。

    ISM是結(jié)構(gòu)模型中的靜態(tài)定性模型,構(gòu)建過程如圖1所示。它的基本理論是圖論的重構(gòu)理論,通過一些基本假設(shè)和圖、矩陣的有關(guān)運(yùn)算,得到可達(dá)性矩陣,然后通過人機(jī)結(jié)合,分析可達(dá)性矩陣,使復(fù)雜的系統(tǒng)分解成多級(jí)遞階結(jié)構(gòu)形式。這種思想與將規(guī)則之間的二元關(guān)系轉(zhuǎn)化為多元關(guān)系從而構(gòu)造無沖突規(guī)則鏈的思想非常契合,所以本文將基于ISM來進(jìn)行規(guī)則鏈的推導(dǎo)。

    圖1 結(jié)構(gòu)模型構(gòu)建過程

    2 地址規(guī)則庫(kù)建設(shè)

    2.1 多層要素地址語義模型

    隨著社會(huì)經(jīng)濟(jì)的發(fā)展,基于位置的服務(wù)(location based services,LBS)廣泛應(yīng)用在日常生活的方方面面。地名地址數(shù)據(jù)作為最常用的社會(huì)公共信息資源之一,是政府行政管理、經(jīng)濟(jì)建設(shè)中不可或缺的基礎(chǔ)信息資源。所以加快建立涵蓋各行業(yè)各專題數(shù)據(jù)的標(biāo)準(zhǔn)地址庫(kù)有著重要戰(zhàn)略意義[17]。根據(jù)國(guó)內(nèi)的研究,學(xué)者們普遍認(rèn)為中文地址要素排列是基于層次關(guān)系的模型[18]。根據(jù)國(guó)家標(biāo)準(zhǔn)GB/T23705—2009[19],中文地址的粒度宜分為行政區(qū)域、基本區(qū)域限定物、局部點(diǎn)位置 3 個(gè)層次。規(guī)范的地址應(yīng)準(zhǔn)確地將人類日常生活的位置描述與實(shí)際地理坐標(biāo)相對(duì)應(yīng)。而地址是融合地理坐標(biāo)和地址要素的綜合體。對(duì)地址數(shù)據(jù)的解析是對(duì)地址要素的識(shí)別,是把地址要素和要素的關(guān)系結(jié)構(gòu)從地址數(shù)據(jù)中提煉出來作為唯一識(shí)別地理位置的過程。

    由于地域、時(shí)間的問題,地址模型難以統(tǒng)一。以北京市居民地址為例,大部分用房住戶的地址如“北京市—區(qū)—街道—小區(qū)—樓—單元—戶”的模式,但是部分地址存在要素缺省的情況,街道劃分復(fù)雜,居民住宅類型多樣。由于缺乏基于小區(qū)的標(biāo)準(zhǔn)的地址字典,基于門牌級(jí)的地址匹配非常困難。圖2為多層語義模型圖,對(duì)地址特征進(jìn)行分析,地址要素的解析不能完全統(tǒng)一,需要建立多層次的要素語義模型,對(duì)地址要素進(jìn)行分級(jí)管理,來對(duì)地址數(shù)據(jù)進(jìn)行規(guī)范,預(yù)防出現(xiàn)地址要素缺省、冗余的問題。

    圖2 多層語義模型

    2.2 地址規(guī)則庫(kù)構(gòu)建流程

    地址數(shù)據(jù)是泛化的地理數(shù)據(jù),包括文字描述和位置描述,即語義地址信息和空間地址信息[20]。為加快和整合市政府各部門和單位的地址信息資源,實(shí)現(xiàn)數(shù)據(jù)共享和信息交換已成為迫切要求。地址信息由于在不同業(yè)務(wù)系統(tǒng)中來源不同,容易出現(xiàn)數(shù)據(jù)的孤立,難以形成標(biāo)準(zhǔn)的管理格式和準(zhǔn)確的定位,導(dǎo)致地址信息難以共享利用以挖掘有用的信息。

    地址編碼是建立地址描述與坐標(biāo)對(duì)應(yīng)關(guān)系的過程[21]。而地址數(shù)據(jù)不能完全跟地理位置一一對(duì)應(yīng)的原因如下:1)規(guī)范的地理命名技術(shù)尚未普及,地址數(shù)據(jù)缺乏統(tǒng)一命名規(guī)范;2)缺乏規(guī)范的分隔符,難以對(duì)要素進(jìn)行切割;3)由于歷史和地域原因,地名存在別名;4)人為因素,存在縮寫、錯(cuò)寫、要素缺失、要素錯(cuò)位等問題。

    地址匹配技術(shù)將一般描述的地址數(shù)據(jù)轉(zhuǎn)換成對(duì)應(yīng)的地理空間信息,從而實(shí)現(xiàn)空間信息和社會(huì)經(jīng)濟(jì)信息的整合[22]。人為獲取的地址數(shù)據(jù)存在大量的問題,數(shù)據(jù)的使用效率低,需要對(duì)數(shù)據(jù)進(jìn)行清洗和標(biāo)準(zhǔn)化后,借助地址匹配技術(shù)進(jìn)行關(guān)聯(lián)。對(duì)于大規(guī)模數(shù)據(jù)、復(fù)雜數(shù)據(jù)需要建立規(guī)范的數(shù)據(jù)處理規(guī)則集。

    地址規(guī)則庫(kù)構(gòu)建流程如圖3所示。對(duì)于多源地址數(shù)據(jù)需要進(jìn)行標(biāo)準(zhǔn)化的處理,建立統(tǒng)一的語義庫(kù),實(shí)現(xiàn)統(tǒng)一的地址標(biāo)準(zhǔn)庫(kù)。

    圖3 地址規(guī)則庫(kù)構(gòu)建流程

    2.2.1 數(shù)據(jù)預(yù)處理

    對(duì)待進(jìn)入數(shù)據(jù)清洗系統(tǒng)的源數(shù)據(jù)做數(shù)據(jù)解析。對(duì)數(shù)據(jù)進(jìn)行摸底抽查,了解數(shù)據(jù)的基本情況,如數(shù)據(jù)缺失情況、元數(shù)據(jù)情況等,以確定字段操作范圍、字段優(yōu)先級(jí)和規(guī)范其數(shù)據(jù)格式,方便數(shù)據(jù)正確地讀入和進(jìn)行下一步處理。

    2.2.2 數(shù)據(jù)檢查與修復(fù)

    對(duì)地址分詞和其中關(guān)鍵要素進(jìn)行抽取,從而提高數(shù)據(jù)的利用率。數(shù)據(jù)檢查是對(duì)地址數(shù)據(jù)中重要字段數(shù)據(jù)缺失、錯(cuò)誤數(shù)據(jù)的篩選和標(biāo)示。數(shù)據(jù)修復(fù)是對(duì)對(duì)應(yīng)的數(shù)據(jù)問題通過特定的方法進(jìn)行完善和修改,以提高數(shù)據(jù)利用率。

    2.2.3 數(shù)據(jù)分簇

    對(duì)處理后的數(shù)據(jù)按照關(guān)鍵地址要素劃分成小區(qū)域數(shù)據(jù)集,縮小地址關(guān)聯(lián)比對(duì)范圍。本文關(guān)聯(lián)通過小區(qū)名進(jìn)行聚簇,將數(shù)據(jù)按照小區(qū)名稱劃分。

    2.2.4 提取要素

    按照本文2.1部分提出的多層級(jí)地址語義模型,地址通過小區(qū)名聚簇,以“院(或分區(qū))+樓棟+單元+戶”進(jìn)行地址要素?cái)?shù)據(jù)的提取。地址的組合方式不是唯一的,對(duì)不規(guī)范的地址按照地址組成要素的層級(jí)進(jìn)行分詞以提取其中的結(jié)構(gòu)化的語義信息,如“28樓”、“3單元”、“301戶”,從而實(shí)現(xiàn)對(duì)地址要素進(jìn)行結(jié)構(gòu)化的存儲(chǔ)。

    2.2.5 地址標(biāo)準(zhǔn)化

    對(duì)提取出語義信息的地址要素及其他關(guān)鍵信息中存在的臟數(shù)據(jù)進(jìn)行處理并對(duì)數(shù)據(jù)問題進(jìn)一步核驗(yàn)。地址標(biāo)準(zhǔn)化實(shí)現(xiàn)關(guān)鍵要素缺失補(bǔ)全、要素內(nèi)容格式標(biāo)準(zhǔn)化、去除特殊字符等,從而對(duì)數(shù)據(jù)不規(guī)范問題進(jìn)行糾錯(cuò),以保證地址數(shù)據(jù)格式統(tǒng)一,內(nèi)容完善,從而提高地址整合精度。

    2.2.6 地址整合

    按照地理、語義信息的聚合,把地理屬性相近、語義特征相似的地址進(jìn)行關(guān)聯(lián)匹配。地理屬性通過調(diào)用地圖API獲取經(jīng)緯度,地址的相似度通過計(jì)算獲得地址向量的余弦值來做判斷。語義信息通過計(jì)算和比較地址關(guān)鍵要素?cái)?shù)據(jù)的編輯距離來進(jìn)行關(guān)聯(lián)匹配。

    3 基于ISM構(gòu)建規(guī)則鏈

    數(shù)據(jù)清洗是對(duì)數(shù)據(jù)集中的臟數(shù)據(jù)進(jìn)行規(guī)范。數(shù)據(jù)集中的清洗規(guī)則由多個(gè)規(guī)則組成,規(guī)則集為S={R1,R2,…,Rn}。規(guī)則的執(zhí)行順序需要考慮規(guī)則之間的邏輯關(guān)系。一定場(chǎng)景下,地址數(shù)據(jù)清洗的執(zhí)行順序可以是“全角轉(zhuǎn)半角→地址樓號(hào)缺失及補(bǔ)全→去除樓號(hào)、單元號(hào)、門號(hào)字段完全相同的數(shù)據(jù)”,如果改為第二條最先執(zhí)行,則存在全角半角格式不一致導(dǎo)致程序操作報(bào)錯(cuò)而無法執(zhí)行下去的情況;如果規(guī)則三先于規(guī)則二執(zhí)行,則會(huì)存在數(shù)據(jù)缺失修復(fù)后仍有可能存在地址多要素重復(fù)的情況,需要重復(fù)執(zhí)行第三條規(guī)則。所以數(shù)據(jù)清洗規(guī)則存在關(guān)聯(lián)性,對(duì)于規(guī)則數(shù)量少、情況比較簡(jiǎn)單的問題,人為判斷規(guī)則的執(zhí)行順序簡(jiǎn)單有效,但是當(dāng)數(shù)據(jù)清洗問題比較復(fù)雜、數(shù)據(jù)量較多時(shí),人為主觀判斷容易造成清洗規(guī)則邏輯沖突,數(shù)據(jù)清洗效率非常低,數(shù)據(jù)質(zhì)量差。所以需要借助ISM對(duì)規(guī)則的執(zhí)行過程進(jìn)行建模,將規(guī)則之間的關(guān)系通過鄰接矩陣進(jìn)行描述,對(duì)規(guī)則按照層間要素劃分層次關(guān)系,構(gòu)建最優(yōu)的數(shù)據(jù)清洗規(guī)則鏈,以解決數(shù)據(jù)清洗人力成本高、效率低、出錯(cuò)率高的問題。

    本文采用ISM理論構(gòu)建有向圖從而生成規(guī)則鏈,具體包括構(gòu)建可達(dá)矩陣、區(qū)域劃分、級(jí)位劃分、骨架矩陣提取和多級(jí)遞階規(guī)則鏈生成等步驟。

    1)建立清洗規(guī)則集S={R1,R2,…,Rn}的鄰接矩陣A=(aij)n×n。其中:

    2)建立可達(dá)矩陣M=(mij)n×n,其中:

    可達(dá)矩陣M可通過鄰接矩陣與單位矩陣的布爾矩陣運(yùn)算法則計(jì)算得到:

    M=(A+I)t=(A+I)t+1≠(A+I)1≠

    (A+I)2≠…≠(A+I)t-1

    當(dāng)t=1表示Ri自身可到達(dá),即規(guī)則滿足自反性;當(dāng)t≥2表示Ri與Rj經(jīng)傳遞可達(dá)。

    3)集合劃分獨(dú)立區(qū)域。求得可達(dá)集R(Ri)、先行集A(Ri)、共同集C(Ri)、起始集B(Ri),按照起始集要素是否有交集劃分區(qū)域P1、P2、…、Pm。

    判斷規(guī)則集之間是否分層。如果B(Ri)為空,則只有一個(gè)區(qū)域;如果不為空,就判斷起始集B(Ri)中的規(guī)則及其可達(dá)集R(Ri)是否獨(dú)立可以分割。判斷的標(biāo)準(zhǔn)是,起始集?Ri,Rj∈B(Ri)滿足:

    ①如果R(Ri)∩R(Rj)≠?,Ri、Rj及R(Ri)、R(Rj)屬于同一區(qū)域,區(qū)域不可分;

    ②如果R(Ri)∩R(Rj)=?,Ri、Rj及R(Ri)、R(Rj)不屬于同一區(qū)域,對(duì)應(yīng)R(Ri)、R(Rj)可以分割成至少兩個(gè)區(qū)域。

    4)級(jí)位劃分。L0=?,S0=S,Lj={Rk∈Sj-1|Cj(Rk)=Rj(Rk)},Sj=Sj-1-Lj。對(duì)每個(gè)區(qū)域Pm提取R(Rk)=C(Rk)的Rk作為第一級(jí),然后依次去掉上級(jí)提取的Rk;對(duì)剩余規(guī)則循環(huán)這一過程,直至所有區(qū)域和要素劃分完畢,即Sj=?,按照分級(jí)順序構(gòu)造重組可達(dá)矩陣M′。

    5)提取骨架矩陣。對(duì)上面的可達(dá)矩陣進(jìn)行縮減和檢出,對(duì)強(qiáng)連接要素保留同級(jí)的一個(gè)要素,其他同級(jí)進(jìn)行剔除,并去掉要素間的越級(jí)二元關(guān)系和單位矩陣,構(gòu)造新的矩陣M″。

    6)生成多級(jí)遞階有向圖。根據(jù)規(guī)則鏈的鄰接矩陣,按照層次連接規(guī)則,強(qiáng)連接規(guī)則關(guān)系平等,順序不分先后,所以按編號(hào)插入,最終得到規(guī)則鏈S。

    基于ISM理論推導(dǎo)規(guī)則鏈及按照規(guī)則鏈順序進(jìn)行數(shù)據(jù)清洗的流程如算法1和算法2。

    算法1 基于ISM的規(guī)則鏈生成算法

    輸入:規(guī)則集合S(R1,R2,…,Rn),鄰接矩陣A,各規(guī)則的先行集A(Ri)、共同集C(Ri)、起始集B(Ri),可達(dá)集R(Ri)

    輸出:規(guī)則鏈

    1.M=(A+I)t≠(A+I)t-1;

    2.i=0;

    3.whileRi∈S and i

    4. if B(Ri)≠?:

    5. Pt[]add (Ri);

    6. i++;

    7.end do;

    8.P ={};

    9.if Pt!=[]:

    10.p=0,q=0;

    11.while Rp∈Pt and p

    12. while Rq∈Pt and q

    if R(Rp)∩R(Rq)=?:

    13. P add(R(Rp),R(Rq));//劃分獨(dú)立區(qū)域

    14. else P add(S);

    15. p++;

    16. q++;

    17.end do;

    18.L0=?,S0=S,m=1,x=1,j=1;

    19.while Pm∈P and m

    20. while Rx∈Pmand x

    21. if Pm≠?:

    22. Lj={Rk∈Sj-1|Cj(Rk)=Rj(Rk)};

    23. Sj=Sj-1-Lj;

    24. x++;

    25. j++;

    26.m++;

    27.M′=check(M);//重組可達(dá)矩陣

    28.M″=check(M′);//提取骨架矩陣

    29.seq add(Ri);//將骨架矩陣轉(zhuǎn)化為隊(duì)列

    30.end

    算法2 基于規(guī)則鏈的數(shù)據(jù)清洗

    輸入:原始數(shù)據(jù)集data,規(guī)則集合S(R1,R2,…,Rn),規(guī)則鏈S

    輸出:干凈的數(shù)據(jù)集data′

    1.i=0;

    2. while Ri∈S and i

    3. find(Ri);

    4. configure(Ri)://配置規(guī)則

    5. data′=CleanRule(Ri,data′);

    6. i++;

    7. end

    4 實(shí)驗(yàn)

    實(shí)驗(yàn)以北京某燃?xì)夤菊鎸?shí)用戶數(shù)據(jù)作為數(shù)據(jù)集,以Pycharm作為實(shí)驗(yàn)平臺(tái),對(duì)11 717戶居民地址數(shù)據(jù)進(jìn)行分析和建立地址規(guī)則庫(kù)。規(guī)則執(zhí)行順序采用順序執(zhí)行和基于ISM推導(dǎo)的規(guī)則鏈執(zhí)行兩種方法。順序執(zhí)行方法規(guī)則采用主觀組合的方式,相對(duì)于基于ISM推導(dǎo)的規(guī)則鏈執(zhí)行順序缺少一致性驗(yàn)證。實(shí)際執(zhí)行結(jié)果如表1所示。

    表1 兩種方法對(duì)比

    實(shí)驗(yàn)證明,基于ISM理論推導(dǎo)的規(guī)則鏈清洗時(shí)間低于傳統(tǒng)的順序執(zhí)行方法,并且隨著小區(qū)數(shù)量及用戶數(shù)據(jù)的增加,執(zhí)行時(shí)間優(yōu)勢(shì)更加明顯,兩種方法時(shí)間對(duì)比如圖4所示。其核心原因是基于ISM推導(dǎo)的規(guī)則鏈執(zhí)行方法的規(guī)則復(fù)用率更低,降低了規(guī)則之間邏輯關(guān)聯(lián)的影響,執(zhí)行時(shí)間更少,從而提高了清洗效率。

    圖4 兩種方法時(shí)間對(duì)比

    5 結(jié)束語

    本文提出了一種基于ISM理論推導(dǎo)生成規(guī)則鏈的方法。通過建立數(shù)據(jù)清洗規(guī)則庫(kù),對(duì)規(guī)則庫(kù)中規(guī)則的邏輯關(guān)系采用ISM的方法進(jìn)行建模,構(gòu)造無沖突的規(guī)則鏈。對(duì)比順序執(zhí)行方法和基于ISM推導(dǎo)的規(guī)則鏈執(zhí)行方法,驗(yàn)證了后者匹配率更高,執(zhí)行速度更快,規(guī)則復(fù)用率低,能有效地降低規(guī)則之間的邏輯沖突,從而提高數(shù)據(jù)處理的準(zhǔn)確性。之后將針對(duì)如何降低規(guī)則的重復(fù)比和規(guī)則的可擴(kuò)展性進(jìn)行研究,以進(jìn)一步提高數(shù)據(jù)清洗的效率。

    猜你喜歡
    語義要素規(guī)則
    撐竿跳規(guī)則的制定
    數(shù)獨(dú)的規(guī)則和演變
    掌握這6點(diǎn)要素,讓肥水更高效
    語言與語義
    觀賞植物的色彩要素在家居設(shè)計(jì)中的應(yīng)用
    讓規(guī)則不規(guī)則
    Coco薇(2017年11期)2018-01-03 20:59:57
    論美術(shù)中“七大要素”的辯證關(guān)系
    TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
    “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
    也談做人的要素
    山東青年(2016年2期)2016-02-28 14:25:36
    循化| 达州市| 米泉市| 成都市| 手游| 安溪县| 五河县| 葵青区| 巨鹿县| 呼和浩特市| 南华县| 东海县| 海安县| 衢州市| 吴忠市| 方城县| 铁岭市| 库尔勒市| 安吉县| 怀宁县| 东丽区| 大关县| 中阳县| 朝阳市| 简阳市| 德江县| 闽清县| 凤庆县| 肥乡县| 鄄城县| 綦江县| 左云县| 西乌珠穆沁旗| 达州市| 成武县| 沙雅县| 二连浩特市| 嵩明县| 会宁县| 彩票| 大新县|