王鵬,溫暖,馬麗,習(xí)媛媛,蔡常雨
(1.長(zhǎng)春理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長(zhǎng)春130022;2.長(zhǎng)春理工大學(xué) 光電工程學(xué)院,長(zhǎng)春130022)
隨著現(xiàn)代物流業(yè)的發(fā)展,物流中每個(gè)環(huán)節(jié)信息量也是非常的龐大,實(shí)際的業(yè)務(wù)難于對(duì)其進(jìn)行準(zhǔn)確、高效、及時(shí)的操作處理。數(shù)據(jù)挖掘技術(shù)能有效的提取與業(yè)務(wù)相關(guān)的有用信息,準(zhǔn)確的統(tǒng)計(jì)出業(yè)務(wù)經(jīng)營(yíng)動(dòng)態(tài)和發(fā)展方向,從而使得物流管理更加滿足客戶的要求[1]。
物流中的空間數(shù)據(jù)具有時(shí)空、多維結(jié)構(gòu)、多尺度、不確定和海量性等特征,這使得空間數(shù)據(jù)挖掘技術(shù)成為一種必要??臻g數(shù)據(jù)挖掘就是從空間數(shù)據(jù)庫(kù)中提取隱含的、用戶感興趣的空間和非空間模式和普遍特征的過程,這種挖掘需要數(shù)據(jù)挖掘與空間數(shù)據(jù)庫(kù)技術(shù)的集成。它可用于理解空間數(shù)據(jù),發(fā)現(xiàn)空間聯(lián)系和空間與非空間數(shù)據(jù)之間的聯(lián)系,構(gòu)造空間知識(shí)庫(kù),重組空間數(shù)據(jù)庫(kù)和優(yōu)化空間查詢[2]。由于空間數(shù)據(jù)的大數(shù)據(jù)量和空間數(shù)據(jù)類型和空間訪問方法的復(fù)雜性,以及目前對(duì)空間數(shù)據(jù)挖掘的研究主要集中于挖掘技術(shù)、挖掘算法、挖掘語(yǔ)言等,而事實(shí)上空間數(shù)據(jù)挖掘?qū)λ幚淼目臻g數(shù)據(jù)有嚴(yán)格的質(zhì)量要求,因此在空間數(shù)據(jù)挖掘過程中數(shù)據(jù)預(yù)處理至關(guān)重要。
數(shù)據(jù)挖掘中的預(yù)處理主要是接受并理解用戶的發(fā)現(xiàn)要求,確定發(fā)現(xiàn)任務(wù),抽取與發(fā)現(xiàn)任務(wù)相關(guān)的知識(shí)源,根據(jù)背景知識(shí)中的約束性規(guī)則對(duì)數(shù)據(jù)進(jìn)行合法性檢查,通過清理和歸約等操作,生成供挖掘核心使用的目標(biāo)數(shù)據(jù),即知識(shí)基。知識(shí)基是原始數(shù)據(jù)庫(kù)經(jīng)數(shù)據(jù)匯集處理后得到的二位表,縱向?yàn)閷傩?Atributes或 Fields),橫向?yàn)樵M(Tuples或 Records),它匯集了原始數(shù)據(jù)庫(kù)中與發(fā)現(xiàn)任務(wù)相關(guān)的所有數(shù)據(jù)的總體特征,是知識(shí)發(fā)現(xiàn)狀態(tài)空間的基底,也可以認(rèn)為是最原始的知識(shí)模板[3,4]。
數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、集成和歸約,數(shù)據(jù)清理是處理數(shù)據(jù)中的遺漏和清洗臟數(shù)據(jù),數(shù)據(jù)集成是將很多數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行合并處理,解決語(yǔ)義模糊性并整合成一致的數(shù)據(jù)存儲(chǔ),數(shù)據(jù)歸約將辨別出需要挖掘的數(shù)據(jù)集合,縮小處理范圍[5]。數(shù)據(jù)預(yù)處理的工作流程框圖如圖1所示。
圖1 數(shù)據(jù)預(yù)處理工作流程框圖Fig.1 Data preprocessing work flow
為了精簡(jiǎn)挖掘所需要的目標(biāo)數(shù)據(jù),需要對(duì)空間數(shù)據(jù)對(duì)象屬性進(jìn)行選擇,由于空間數(shù)據(jù)分布在不同的圖層,這就需要把數(shù)據(jù)集中不同的圖層數(shù)據(jù)關(guān)聯(lián)起來(lái),進(jìn)行關(guān)聯(lián)查詢,提取挖掘任務(wù)相關(guān)的數(shù)據(jù)集。而提取挖掘任務(wù)相關(guān)的數(shù)據(jù),只需要提取謂詞所需要處理的數(shù)據(jù),一些不相關(guān)的屬性數(shù)據(jù)可以摒棄。通過對(duì)屬性數(shù)據(jù)的選擇以及相應(yīng)目標(biāo)數(shù)據(jù)的提取,可以約簡(jiǎn)挖掘任務(wù)的相關(guān)數(shù)據(jù),從而提高挖掘的效率,同時(shí)避免不相關(guān)數(shù)據(jù)的干擾,提高挖掘的精度[6]。
數(shù)據(jù)的集成主要包括:1.針對(duì)上步所提取的目標(biāo)數(shù)據(jù),消除其中不一致,不統(tǒng)一的部分,將其數(shù)據(jù)結(jié)構(gòu)統(tǒng)一化;2.將數(shù)據(jù)分成不同的類型,如:時(shí)間型數(shù)據(jù)、空間型數(shù)據(jù)以及時(shí)空型數(shù)據(jù);3.將不同類型的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù),在數(shù)據(jù)庫(kù)中進(jìn)行處理。
數(shù)據(jù)清理即對(duì)目標(biāo)數(shù)據(jù)中重復(fù)的數(shù)據(jù)、丟失的數(shù)據(jù)、異常的數(shù)據(jù)等進(jìn)行相應(yīng)的處理,包括填充空缺值、識(shí)別孤立點(diǎn)、消除噪聲、糾正數(shù)據(jù)不一致等,進(jìn)而提高數(shù)據(jù)的質(zhì)量。處理重復(fù)數(shù)據(jù),即對(duì)數(shù)據(jù)庫(kù)中同類型的數(shù)據(jù)對(duì)比分析,在允許誤差范圍內(nèi)研究?jī)蓚€(gè)數(shù)據(jù)是否等值。處理缺失數(shù)據(jù),即用不同的方法來(lái)填補(bǔ),方法有很多,比如采用缺失數(shù)據(jù)所在行的上一行和下一行記錄中該屬性值的平均值來(lái)填補(bǔ)空缺;或者使用所有該屬性的平均值填補(bǔ);或者利用回歸、判定樹歸納等方式確定最有可能的值來(lái)填補(bǔ)空缺。異常點(diǎn)檢測(cè),異??赡苁怯蓽y(cè)量誤差所導(dǎo)致,也可能是數(shù)據(jù)固有的可變性結(jié)果。對(duì)于不同類型的數(shù)據(jù)的檢測(cè)方法也不一樣,時(shí)間型數(shù)據(jù)多采用基于移動(dòng)窗口和標(biāo)準(zhǔn)差的方法;空間型數(shù)據(jù)多采用基于移動(dòng)曲線擬合法;多維數(shù)據(jù)多采用聚類分析法來(lái)實(shí)現(xiàn)檢測(cè)。實(shí)踐證明,當(dāng)檢測(cè)到的異常點(diǎn)是因測(cè)量誤差所致時(shí),去除后能提高挖掘的效率和準(zhǔn)確度;當(dāng)檢測(cè)到的異常點(diǎn)是正常點(diǎn)時(shí),重點(diǎn)分析該點(diǎn)能發(fā)現(xiàn)其中隱含著重要的信息[7]。數(shù)據(jù)清理過程的流程如圖2所示。
圖2 數(shù)據(jù)清理流程圖Fig.2 Data clearing flow chart
數(shù)據(jù)轉(zhuǎn)換階段的任務(wù)就是針對(duì)不同的數(shù)據(jù)類型進(jìn)行不同類型的數(shù)據(jù)轉(zhuǎn)換,這依賴于數(shù)據(jù)挖掘模型和輸入的數(shù)據(jù)集。
1.平滑:去掉數(shù)據(jù)中的噪聲。這種技術(shù)包括分箱、聚類和回歸。
2.聚集:對(duì)數(shù)據(jù)進(jìn)行匯總和聚集。例如,通過一天的發(fā)貨量統(tǒng)計(jì)月發(fā)貨量。
3.數(shù)據(jù)概化:使用概念分層,用高層次的概念替換低層次的“原始”數(shù)據(jù)。如分類屬性street可以概化為高層次的概念,city或者country等。
4.規(guī)范化:將屬性數(shù)據(jù)按照一定的比例進(jìn)行縮放,使這些數(shù)據(jù)落在一個(gè)較小的特定區(qū)間內(nèi)。方法有:
最小—最大規(guī)范化:對(duì)原始數(shù)據(jù)進(jìn)行線性變換。設(shè)定屬性A的最大最小值分別為將 A的值映射到區(qū)間new_min,new_max中的v'。
小數(shù)定標(biāo)規(guī)范化:通過一定屬性A的小數(shù)點(diǎn)位置規(guī)范化,公式為:。
5.屬性構(gòu)造:即用現(xiàn)有的屬性構(gòu)造新的屬性,并添加到屬性集中。例如通過屬性height和width構(gòu)造屬性area。通過新組的屬性,可以發(fā)現(xiàn)數(shù)據(jù)屬性之間的更多聯(lián)系,為知識(shí)發(fā)現(xiàn)所用[7]。
基于定義的謂詞,利用屬性歸納技術(shù),設(shè)定謂詞的判定標(biāo)準(zhǔn),編寫判定函數(shù),進(jìn)行分析處理,這樣可以將連續(xù)性的數(shù)據(jù)進(jìn)行抽象歸納離散化,處理后的謂詞具有一定程度的抽象特征與層次概念,從而達(dá)到對(duì)數(shù)據(jù)的歸納與簡(jiǎn)化,同時(shí)使得挖掘出的規(guī)則具有更高的支持度與可信度。歸納與概念泛化后的數(shù)據(jù)具備一定特征信息,但同時(shí)也存在多種數(shù)據(jù)格式與類型,為了需要,需要進(jìn)行編碼,并規(guī)范化。對(duì)每一個(gè)謂詞對(duì)應(yīng)的數(shù)據(jù)進(jìn)行抽象特征化,并進(jìn)行編碼,將每條記錄的謂詞判定結(jié)果全轉(zhuǎn)換成整型數(shù)據(jù),如0表示否,1表示是等。這樣對(duì)挖掘謂詞的計(jì)算處理結(jié)果就全轉(zhuǎn)換成0或1,預(yù)處理后的數(shù)據(jù)集就比較簡(jiǎn)單。采用這種編碼方式,可以快速的實(shí)現(xiàn)現(xiàn)實(shí)數(shù)據(jù)與算法實(shí)現(xiàn)之間的轉(zhuǎn)換。以一個(gè)城市為例,提取幾個(gè)特征因素,經(jīng)過數(shù)據(jù)預(yù)處理后的數(shù)據(jù)集如表1。
表1 預(yù)處理后的數(shù)據(jù)集Tab.1 Data set after preprocessing
同時(shí)對(duì)每個(gè)謂詞所在的記錄屬性列進(jìn)行編碼,給定唯一標(biāo)識(shí),編碼后的每條記錄就對(duì)應(yīng)于一個(gè)一維數(shù)組,這樣編碼后的所有記錄集就可存放到一個(gè)整型的二維數(shù)組中,并使一維數(shù)組的下標(biāo)與判定謂詞的編號(hào)一一對(duì)應(yīng)。
實(shí)踐證明,通過對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行相應(yīng)的操作,在用關(guān)聯(lián)規(guī)則的 APriori等算法進(jìn)行掃描記錄集時(shí),只需直接以謂詞的所對(duì)應(yīng)的Id索引為一維數(shù)組的下標(biāo)讀取數(shù)據(jù),進(jìn)行分析判斷,而不需掃描整條記錄。并且針對(duì)物流信息中的海量數(shù)據(jù)而言,通過數(shù)據(jù)預(yù)處理,可以大大提高算法的效率[8]。
本文針對(duì)物流空間數(shù)據(jù)的海量性和復(fù)雜性,提出了空間數(shù)據(jù)預(yù)處理技術(shù)的工作流程,并重點(diǎn)分析了數(shù)據(jù)預(yù)處理的整個(gè)過程。實(shí)踐證明,物流數(shù)據(jù)通過預(yù)處理后,提高了數(shù)據(jù)的準(zhǔn)確度,為進(jìn)一步的數(shù)據(jù)挖掘算法提高了效率,有著一定的推廣價(jià)值。
[1]楊柳.基于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的物資管理系統(tǒng)的研究與開發(fā)[J].電腦開發(fā)與應(yīng)用,2005,18(11):15-19.
[2]崔陽(yáng),王華,喬淑娟.基于GIS的空間數(shù)據(jù)庫(kù)構(gòu)建與應(yīng)用研究[J].微計(jì)算機(jī)信息,2006,22(2-3):199-201.
[3]王道平,潘靜,郝玫.基于數(shù)據(jù)挖掘的物流信息系統(tǒng)研究與設(shè)計(jì)[J].價(jià)值工程,2004,3:117-119.
[4]韓家煒,堪博.?dāng)?shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007:30-65.
[5]范坤,何智文.基于數(shù)據(jù)挖掘在物流管理決策中的應(yīng)用[J].湖北廣播電視大學(xué)學(xué)報(bào),2008,28(10):83-84.
[6]孟燕萍,王潔,黃有方,等.?dāng)?shù)據(jù)倉(cāng)庫(kù)在口岸物流數(shù)據(jù)分析中的應(yīng)用[J].上海海事大學(xué)學(xué)報(bào),2008,29(4):65-69.
[7]閆永慧,胡伍生.空間數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理技術(shù)的研究[J].山西建筑,2009,35(14):363-365.
[8]黃容偉,李文敬.基于粗糙集理論的數(shù)據(jù)預(yù)處理[J].廣西師范學(xué)院學(xué)報(bào):自然科學(xué)版,2006,23(4):87-92.