摘要:該文講述的是如何從現(xiàn)有的數(shù)據(jù)中獲取新的知識,但是現(xiàn)有的數(shù)據(jù)中會存在不集中、雜亂,甚至還不完整數(shù)據(jù)。雖然使用數(shù)據(jù)挖掘機(jī)模型進(jìn)行微調(diào)和開發(fā)還會出現(xiàn)一些雜音,但仍然可以從中獲取到有用的數(shù)據(jù),保證數(shù)據(jù)的質(zhì)量。主要數(shù)據(jù)挖掘流程:獲取數(shù)據(jù)、清洗數(shù)據(jù)、探索數(shù)據(jù)、建模數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)。
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)處理;獲取數(shù)據(jù);清洗數(shù)據(jù);探索數(shù)據(jù);建模數(shù)據(jù)
中圖分類號:TP311? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)04-0027-02
1 數(shù)據(jù)挖掘
1.1數(shù)據(jù)挖掘模型的介紹
數(shù)據(jù)挖掘是獲取知識的經(jīng)過,數(shù)據(jù)挖掘模型是從種種數(shù)據(jù)源來獲取所需要的數(shù)據(jù),然后再將這些數(shù)據(jù)轉(zhuǎn)換成知識,把這些知識再提供給所需要的區(qū)域。數(shù)據(jù)挖掘的流程是從需求的開始到需求的滿足,意思就是將所挖掘的數(shù)據(jù)的精華知識以數(shù)據(jù)源形式發(fā)送到人們的手中。
1.2提前處理數(shù)據(jù)
提前處理數(shù)據(jù)的目的是使數(shù)據(jù)能夠更加容易地進(jìn)行挖掘處理。提取數(shù)據(jù)的質(zhì)量對數(shù)據(jù)挖掘模型可能會產(chǎn)生很大的影響,比如應(yīng)景設(shè)置了數(shù)據(jù)和特點(diǎn)能夠獲取的最大上限,但是數(shù)據(jù)挖掘模型也只是近似于上限。如果提升對各種數(shù)據(jù)的提前處理技術(shù),那么不論是數(shù)據(jù)的要求、質(zhì)量還是預(yù)測目標(biāo)的相關(guān)性都會得到很大的提高,而且可以使模型能夠得到更好的優(yōu)化[1]。
1.3通常數(shù)據(jù)的缺陷
從現(xiàn)實(shí)生活中獲取的數(shù)據(jù)格式往往是不正確的,這樣就會引起數(shù)據(jù)庫出現(xiàn)各種各樣的問題,所以這就需要我們研究對各種數(shù)據(jù)的預(yù)處理技術(shù),現(xiàn)在的數(shù)據(jù)預(yù)處理技術(shù)還不是很完善,但是解決一些小問題和提升一些技能還是可以的。
1.4數(shù)據(jù)縮減技術(shù)
數(shù)據(jù)挖掘模型如果輸入量較多,它們就會有較多的維度和巨大的數(shù)量,這樣會使數(shù)據(jù)挖掘模型傳送數(shù)據(jù)的時候會遇到前所未見的困難。這時候我們就要通過數(shù)據(jù)縮減技術(shù)來進(jìn)行維度縮減或者對數(shù)據(jù)進(jìn)行縮減采樣和選擇這些技術(shù)來減少以上帶來的問題[2]。
2 數(shù)據(jù)挖掘的過程
2.1數(shù)據(jù)挖掘的流程
數(shù)據(jù)挖掘的流程就是把需要挖掘數(shù)據(jù)的任務(wù)中所有數(shù)據(jù)集中一起。盡管它們的大多數(shù)據(jù)都存在數(shù)據(jù)庫或者其他存放數(shù)據(jù)的數(shù)據(jù)源中。為了讓人們更加明白,更加容易理解我們使用模型把里面的數(shù)據(jù)挖掘出來展示給人們。數(shù)據(jù)挖掘的主要流程是獲取數(shù)據(jù)、數(shù)據(jù)清理、數(shù)據(jù)探索、數(shù)據(jù)建模,知識可視化(如圖1所示)。這個流程在現(xiàn)實(shí)世界中不是一次性的過程,而是長久性的任務(wù)[3]。因?yàn)榍謇頂?shù)據(jù)和數(shù)據(jù)建模必須進(jìn)行不斷地測試和改進(jìn),獲取的數(shù)據(jù)必須適應(yīng)不同類型的數(shù)據(jù)源。數(shù)據(jù)的可視化和解釋也必須不斷地改變,不斷地調(diào)整,從而滿足人們的需求。
2.2數(shù)據(jù)的獲取
獲取數(shù)據(jù)挖掘的基本做法就是獲取所需要的數(shù)據(jù)。因?yàn)樗枰臄?shù)據(jù)中本身就有自己所需要的知識數(shù)據(jù)資源。大多數(shù)據(jù)來源就是從數(shù)據(jù)庫和數(shù)據(jù)倉庫中獲取的,也可以使用語言來查詢結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)倉庫就是用來組織數(shù)據(jù),理解和利用數(shù)據(jù)而形成的,它們一般和運(yùn)營數(shù)據(jù)庫是分離的系統(tǒng),為的是讓后續(xù)分析工作更容易一些,而且大多數(shù)的數(shù)據(jù)都很重要,這樣也不會容易丟失。可以將獲取到的數(shù)據(jù)存放到一個文件夾中,以便后續(xù)的過程中用到它。它們可以一起存儲到數(shù)據(jù)庫和數(shù)據(jù)倉庫中,為以后數(shù)據(jù)挖掘任務(wù)做備用。有一組有起點(diǎn)和有終點(diǎn)的有序數(shù)據(jù)我們稱它數(shù)據(jù)流的概念,數(shù)據(jù)流的概念比收集數(shù)據(jù)更重要。數(shù)據(jù)流可以很好地開發(fā)在線運(yùn)行的模型和算法,數(shù)據(jù)收獲的不再是數(shù)據(jù)集,而是實(shí)際輸入源[4]。
3 數(shù)據(jù)的清洗
3.1數(shù)據(jù)清理的步驟
數(shù)據(jù)清理和數(shù)據(jù)的預(yù)處理都屬于數(shù)據(jù)清洗,把數(shù)據(jù)再進(jìn)行一遍審查和校驗(yàn)一遍。目的就是把重復(fù)的、錯誤的信息刪除掉,提供一樣的數(shù)據(jù)。
3.2發(fā)布清理技術(shù)
有時在科學(xué)研究所得到的數(shù)據(jù)格式不準(zhǔn)確,有一些問題影響模型的誤差結(jié)果,比如說,離群值會使數(shù)值分布但實(shí)際上失真值影響聚類算法。如果不處理問題將無法通過模型來解析數(shù)據(jù)。為了解決這個問題科學(xué)研究所發(fā)布了數(shù)據(jù)清洗技術(shù)來處理失真值的處理和離群值的檢測[5]。
3.3缺失值的處理
缺失值是數(shù)據(jù)集中一種常見的不完整的一種典型。這些缺失值不能用來做比較、分類和算數(shù)。所以,必須要推算數(shù)據(jù)挖掘模型之前處理掉這些缺失值。缺失值的處理辦法很簡單,就是把整個樣本刪掉。如果缺失值有的數(shù)據(jù)不能忽略或者缺失值的屬性的比例不同,我們可以減少數(shù)據(jù)集的數(shù)量,刪掉沒有利用價(jià)值的信息。還可以利用其他方法來填補(bǔ)缺失值。比如可以通過得數(shù)值來表示缺失、統(tǒng)計(jì)信息、預(yù)測屬性值和分配所有的可能值。用數(shù)據(jù)集來補(bǔ)充缺失值是最好的技術(shù)了,忽視缺失值的樣本來分配所有可能值表現(xiàn)得技術(shù)也不錯,根據(jù)數(shù)據(jù)集的不同要求,缺失值技術(shù)也大有不同。大部分的數(shù)據(jù)都需要數(shù)據(jù)挖掘任務(wù)來進(jìn)行實(shí)驗(yàn),來進(jìn)行檢測。
3.4異常值的檢測
和大部分的樣本數(shù)據(jù)巨大差距的數(shù)據(jù)樣本就是離群值,雖然這種離群值出現(xiàn)的概率很小,但它不一定會出錯,一半的錯誤異常值是通過錯誤的測量和錯誤的記錄組成的,所以它不會帶來很大的影響。雖然有些模型會對異常值出現(xiàn)沖突,但是在數(shù)據(jù)處理工作中仍然需要使異常值來測試。離群值檢查算法是最常見的算法之一,在一般的情況下分布是未知的,正態(tài)分布就是最好的替代,可以從它的平均值和誤差來估算馬氏距離是兩個樣本的中間和標(biāo)度的距離無關(guān)我們可以利用馬氏距離來和每個樣本的平均值來確定異常值。
平均值和誤差來估算方式:
4 數(shù)據(jù)的轉(zhuǎn)換
4.1 數(shù)據(jù)轉(zhuǎn)換的優(yōu)勢
不同屬性的數(shù)據(jù)表示不同的形式,有的數(shù)據(jù)分類,有的是不分類的。對于分類的數(shù)據(jù)值被稱作標(biāo)稱值;對于不分類的數(shù)據(jù)可以根據(jù)不同的統(tǒng)計(jì)特征來算平均值和誤差。但是,不是所有的數(shù)值都可以通過模型的需求。數(shù)據(jù)之間的差別還會對模型的工作帶來麻煩,數(shù)據(jù)轉(zhuǎn)換可以使數(shù)據(jù)挖掘機(jī)讓算法更容易成功。
4.2數(shù)字化
分類自然界中用得最多的數(shù)據(jù),比如計(jì)算組之間的熵,它就可以在分類數(shù)據(jù)上完成,但是還是有一半的數(shù)據(jù)不適合用于分類數(shù)據(jù),因此就將分類數(shù)據(jù)編碼數(shù)據(jù),采用編碼數(shù)據(jù)來進(jìn)行數(shù)據(jù),比如一鍵編碼、順序編碼、定制編碼來編輯這些數(shù)據(jù),它也不會在設(shè)計(jì)上花費(fèi)很多的精力。
4.3歸一化
不同的屬性用的單位制也不同,它們的平均值就會有差距也會有誤差,但是數(shù)值上的差距會比更重要,而它沒有屬性這種數(shù)值會對某些數(shù)據(jù)制造麻煩,比如KNN:大一些的數(shù)值會影響距離的比較,這就要考慮模型的屬性是傾向大一些的數(shù)值。除此之外,神經(jīng)元網(wǎng)絡(luò)模型就對梯度優(yōu)化就產(chǎn)生了不好的影響,被迫使用較小的學(xué)習(xí)率,為了解決這些問題還發(fā)布了很多標(biāo)準(zhǔn)化的方法比如Min-max規(guī)范化(1)、Z分?jǐn)?shù)歸一化(2),還有十進(jìn)制縮放規(guī)范化(3)等,在各種情況下有不同的屬性有相同和相似的單位,比如數(shù)據(jù)預(yù)處理的RGB彩色成像就沒必要進(jìn)入標(biāo)準(zhǔn)化。如果不能對單位系統(tǒng)保證,還是建議進(jìn)行數(shù)據(jù)挖掘模型來進(jìn)行標(biāo)準(zhǔn)化。
4.4數(shù)值變換
其他數(shù)據(jù)的屬性也可以在數(shù)據(jù)集上變換,通過轉(zhuǎn)換得到的數(shù)據(jù)和其他數(shù)據(jù)挖掘出最優(yōu)的數(shù)據(jù)擬合(比如神經(jīng)網(wǎng)絡(luò))可能這些都不重要。可是,對于簡單的參數(shù)較少的數(shù)據(jù)模型(比如線性回歸),轉(zhuǎn)換后的是數(shù)據(jù)就很好地幫助模型獲取更優(yōu)的數(shù)據(jù),它們之間的屬性轉(zhuǎn)換關(guān)系對科學(xué)發(fā)現(xiàn)和對機(jī)器的控制是必不可缺的。
5數(shù)據(jù)的建模
數(shù)據(jù)建模通常在挖掘任務(wù)當(dāng)中會將數(shù)據(jù)分為訓(xùn)練集和測試集,再從中獲取新的數(shù)據(jù)集上對數(shù)據(jù)模型的正確性進(jìn)行評分。數(shù)據(jù)模型中包括超參數(shù),比如KNN模型K的選擇就創(chuàng)建了驗(yàn)證集并獲取了最好的超參數(shù)集。大多數(shù)的數(shù)據(jù)挖掘模型都是要定損失含義的。一般,數(shù)據(jù)挖掘模型質(zhì)量是優(yōu)損失函數(shù)值就低,它都有特殊的功能,比如凸度,它就比梯度算法得到的結(jié)果就好。經(jīng)過訓(xùn)練得到的參數(shù)在進(jìn)行模型訓(xùn)練步驟來調(diào)整參數(shù),使它的訓(xùn)練數(shù)據(jù)損失更低。數(shù)據(jù)挖掘模型的復(fù)雜性也各個都不相同:簡單的模型僅有少量的參考數(shù),少量的參考數(shù)會將訓(xùn)練的步驟降低,復(fù)雜的數(shù)據(jù)挖掘模型數(shù)據(jù)有上百萬個參考數(shù),要是訓(xùn)練它們需要巨大的數(shù)據(jù)集,但是復(fù)雜并不是代表它?們更好,應(yīng)該根據(jù)數(shù)據(jù)挖掘模型任務(wù)來評測目標(biāo),數(shù)據(jù)集的大小,數(shù)據(jù)的類型等來確定模型,有的是時候一個數(shù)據(jù)集可以運(yùn)行多個不同的數(shù)據(jù)模型,并且還能找到最適合數(shù)據(jù)挖掘模型。
6結(jié)束語
數(shù)據(jù)挖掘技術(shù)是從數(shù)據(jù)集中發(fā)現(xiàn)更多的信息,從中獲取自己所需要的數(shù)據(jù)資料。相對于以前的傳統(tǒng)數(shù)據(jù)分析方法,有了數(shù)據(jù)挖掘技術(shù)不但可以采集海量的信息,還可以提高學(xué)習(xí)方法。從獲取數(shù)字、到清洗數(shù)據(jù)、再到探索數(shù)據(jù)、再到建模數(shù)據(jù)、再到挖掘知識可視化這幾個步驟缺一不可,因此每個基礎(chǔ)方法都需要學(xué)習(xí)。
參考文獻(xiàn):
[1] 解二虎.數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理關(guān)鍵技術(shù)研究[J].科技通報(bào),2013,29(12):211-213.
[2]張治斌,劉威.淺析數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理技術(shù)[J].數(shù)字技術(shù)與應(yīng)用,2017(10):216-217.
[3] 董師倢.數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理技術(shù)[J].信息與電腦,2016(19):144-145.
[4] 梁婷.券商經(jīng)紀(jì)業(yè)務(wù)發(fā)展現(xiàn)狀及轉(zhuǎn)型淺析[J].當(dāng)代經(jīng)濟(jì),2020(5):35-37.
[5] 趙陽,江雅文.金融科技賦能證券經(jīng)營機(jī)構(gòu)財(cái)富管理轉(zhuǎn)型研究[J].金融縱橫,2019(10):36-45.
收稿日期:2021-08-18
作者簡介:許輝(1979—),女,江蘇鎮(zhèn)江人,副教授,工程碩士,研究方向:軟件技術(shù)。