金巨波,葛 雷,徐秀麗
(黑龍江財經(jīng)學院,黑龍江 哈爾濱 150025)
隨著網(wǎng)絡的普及與迅速發(fā)展,大數(shù)據(jù)與移動互聯(lián)網(wǎng)、云計算聯(lián)系緊密、息息相關(guān)。移動網(wǎng)絡的發(fā)展必然離不開大數(shù)據(jù)的分析。大數(shù)據(jù)的分析挖掘能力是保證物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等發(fā)展的基礎與前提。
一般來說,現(xiàn)在各行各業(yè)都提到的大數(shù)據(jù)指的是一種宏觀、無法用現(xiàn)有的普通規(guī)模數(shù)據(jù)庫來表示的管理技術(shù)以及工具處理的數(shù)據(jù)集。但實際上,這種大規(guī)模數(shù)據(jù)群出現(xiàn)的很早。在剛開始出現(xiàn)時,由于沒有固定的統(tǒng)一稱謂,大家普遍稱之為“海量數(shù)據(jù)”。同時,大數(shù)據(jù)的處理技術(shù)問題還出現(xiàn)在專業(yè)雜志上進行公開討論。
簡而言之,大數(shù)據(jù)就是各式各樣的不同數(shù)據(jù)集合在一起的數(shù)據(jù)集合[1]。但是,大數(shù)據(jù)有其特殊性,一般很難被普通尋常的數(shù)據(jù)挖掘以及分析工具進行合理有效的分析處理。因為大數(shù)據(jù)的范圍很廣,它的定義還包括了一部分超出普通大小處理范圍的數(shù)據(jù)規(guī)模,因此,必須有專門的計算機挖掘技術(shù)對這部份大數(shù)據(jù)進行處理。
海量、多樣性、價值密度低、速度快是大數(shù)據(jù)所具有的四個典型特征[2]。首先,大數(shù)據(jù)的數(shù)據(jù)體積規(guī)模超過普通的數(shù)據(jù),它的計量單位有別于一般的數(shù)據(jù)存儲容量,大數(shù)據(jù)是以PB、EB、ZB作為基本數(shù)據(jù)存儲單位進行計量;其次大數(shù)據(jù)不僅僅體積規(guī)模龐大,它的種類多且復雜。大數(shù)據(jù)有著各種來源,因此它的數(shù)據(jù)變化快,種類和格式各式各樣,種類繁多,遠遠超出普通的結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)性數(shù)據(jù)和多元結(jié)構(gòu)性數(shù)據(jù)是大數(shù)據(jù)在目前市場下最常見的兩種數(shù)據(jù)格式,其中不具備具體結(jié)構(gòu)卻依舊可以通過傳統(tǒng)數(shù)據(jù)存儲的數(shù)據(jù)就是非結(jié)構(gòu)型數(shù)據(jù)。此類大數(shù)據(jù)字互聯(lián)網(wǎng)消息傳遞方面運用較為廣泛。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)的收益效果不理想,其價值密度低。但是,通過分析資料可知,大數(shù)據(jù)在生產(chǎn)率、價值質(zhì)量的優(yōu)勢遠大于傳統(tǒng)數(shù)據(jù)。只要運用計算機挖掘技術(shù)對大數(shù)據(jù)的價值質(zhì)量進行挖掘,則其價值效益將遠遠超過傳統(tǒng)數(shù)據(jù)。大數(shù)據(jù)還有一大優(yōu)勢是它產(chǎn)生新數(shù)據(jù)的速度高于傳統(tǒng)數(shù)據(jù)。目前,市場中很多企業(yè)的發(fā)展依賴于大數(shù)據(jù)的研究,大數(shù)據(jù)帶動著企業(yè)生產(chǎn)與收益。在企業(yè)中,往往大數(shù)據(jù)種類的多樣性會隨著企業(yè)的運營而增長??梢哉f大數(shù)據(jù)屬于企業(yè)資產(chǎn)的一部分,不斷更新的數(shù)據(jù)又進一步提升了大數(shù)據(jù)的產(chǎn)生速度。
為了達到滿足用戶各種需求,使用大數(shù)據(jù)挖掘技術(shù)手段可以達到開拓新市場的目的,這是大數(shù)據(jù)在企業(yè)中最重要的應用。一個企業(yè)的發(fā)展少不了以下四個步驟:分析市場、尋找潛在客戶、進行談判、市場操作。在市場分析中,大數(shù)據(jù)扮演者重要的作用,可以使用數(shù)據(jù)進行市場分析。以往市場分析通過市場問卷調(diào)查,根據(jù)歷史數(shù)據(jù)進行分析調(diào)查的方法很容易造成市場分析誤差,影響后續(xù)步驟的進行。而運用數(shù)據(jù)挖掘技術(shù),可以全面運用各式各樣和各類型的數(shù)據(jù)進行分析,這些數(shù)據(jù)可以涵蓋過去的行業(yè)歷史數(shù)據(jù)、最新的數(shù)據(jù)進行全面系統(tǒng)的分析。不僅可以實現(xiàn)對企業(yè)的運行各方面的分析,而且數(shù)據(jù)分析效率和質(zhì)量還更高,其數(shù)據(jù)分析結(jié)果的精準性,這是傳統(tǒng)數(shù)據(jù)挖掘方法無法比擬的。經(jīng)過大數(shù)據(jù)挖掘技術(shù)的分析,公司在對大數(shù)據(jù)分析的數(shù)據(jù)作為依據(jù),根據(jù)市場需求、市場發(fā)展趨勢以及市場演變的規(guī)律、企業(yè)推出產(chǎn)品的發(fā)展、經(jīng)濟收益做出更精確的計劃,從而最大程度上實現(xiàn)經(jīng)濟效益的提升[3]。
數(shù)據(jù)挖掘技術(shù)是根據(jù)已獲取的數(shù)據(jù),從中挖掘出有潛在價值、未知的以及對所做的決定有價值的數(shù)據(jù)[4]。數(shù)據(jù)挖掘技術(shù)的成功發(fā)展也經(jīng)歷必不可少的五個階段:數(shù)據(jù)收集、數(shù)據(jù)訪問、決策支持數(shù)據(jù)挖掘以及大數(shù)據(jù)挖掘。對各式各樣、種類繁多的數(shù)據(jù)進行收集整理,進行最簡單的分類處理是數(shù)據(jù)收集階段的工作。這對之后出現(xiàn)的大數(shù)據(jù)挖掘技術(shù)奠定了基礎,具有更高的利用價值。
此外,大數(shù)據(jù)挖掘技術(shù)的流行是隨著使用需求大、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的運用而快速發(fā)展起來的。大數(shù)據(jù)挖掘為這些行業(yè)提供準確度高的預測信息,根據(jù)對數(shù)據(jù)倉庫中的海量數(shù)據(jù)進行分析,雖然與傳統(tǒng)數(shù)據(jù)分析挖掘技術(shù)相似,但大數(shù)據(jù)挖掘可以改變數(shù)據(jù)算法應對不同的數(shù)據(jù)分析條件進行預測分析。
數(shù)據(jù)挖掘技術(shù)可對已有海量數(shù)據(jù)庫繼續(xù)挖掘,從而獲取有價值的信息。但值得注意的是,幾乎所有的數(shù)據(jù)挖掘技術(shù)算法的種類所歷經(jīng)的流程相似。在數(shù)劇挖掘過程中,各種算法互相協(xié)調(diào)配合使用,可以解決多種問題,達到獲取有價值信息的目的。數(shù)據(jù)挖掘技術(shù)會歷經(jīng)輸翻譯數(shù)據(jù)、預處理數(shù)據(jù)、分析數(shù)據(jù)建模三個階段來得到輸出結(jié)果(見圖1)。翻譯數(shù)據(jù)指將數(shù)據(jù)庫中海量的數(shù)據(jù)換成計算機可識別的格式后,再輸入計算機。此階段,會對海量數(shù)據(jù)庫中的數(shù)據(jù)進行選擇與篩除,分析出有價值的數(shù)據(jù)。在進行數(shù)據(jù)的選取后,會繼續(xù)對翻譯后的數(shù)據(jù)進行初始化處理,更大程度上提升數(shù)據(jù)的質(zhì)量。進行預處理數(shù)據(jù)是為了避免翻譯數(shù)據(jù)流程中輸入的不準確數(shù)據(jù)對后續(xù)分析的干擾。對數(shù)據(jù)進行再篩選,也是為了保障后續(xù)數(shù)據(jù)分析的準確性。通常使用數(shù)據(jù)篩選、數(shù)據(jù)變量轉(zhuǎn)換、缺失值處理、壞數(shù)據(jù)處理、數(shù)據(jù)標準化、屬性選擇等方法進行全面客觀的數(shù)據(jù)處理。隨后進行的第三階段的數(shù)據(jù)建模,是按照實際數(shù)據(jù)處理問題的需要,對預處理的數(shù)據(jù)進行數(shù)學建模分析,通過數(shù)據(jù)建模對預處理的數(shù)據(jù)軌跡進行概括處理,使這些數(shù)據(jù)的具體結(jié)構(gòu)相互匹配,從而得到最終的數(shù)據(jù)挖掘結(jié)果。
圖1 數(shù)據(jù)挖掘過程圖
總的來說,盡管大數(shù)據(jù)挖掘技術(shù)已經(jīng)替代了傳統(tǒng)數(shù)據(jù)挖掘方法。但大數(shù)據(jù)挖掘技術(shù)始終是建立在普通數(shù)據(jù)挖掘處理上的,大數(shù)據(jù)挖掘技術(shù)是由時代的變化規(guī)律發(fā)展而來的。
處于大數(shù)據(jù)化的背景下的社會的發(fā)展,計算機挖掘技術(shù)的產(chǎn)生與使用可以更高效率地得到數(shù)據(jù)信息,相較于傳統(tǒng)數(shù)據(jù)處理,其準確性也更高,得到的結(jié)果也更全面。從實際生活的運用來分析,大數(shù)據(jù)的應用能夠開發(fā)出可視化數(shù)據(jù)處理技術(shù),這就需要計算機挖掘技術(shù)進行不斷的開發(fā)與探索。大數(shù)據(jù)的核心在于其數(shù)據(jù)加工能力,根據(jù)目前的算法類型,可把數(shù)據(jù)挖掘算法分為六種:分類算法、回歸分析、聚類分析、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡方法、Web數(shù)據(jù)挖掘。[5]根據(jù)大數(shù)據(jù)的類別對大數(shù)據(jù)進行分析就是分類算法;回歸分析算法是依據(jù)某一個因變量與其他多個自變量之間的變化關(guān)系進行分析,找到數(shù)據(jù)屬性值之間的關(guān)系,從而寫出多個聯(lián)系兩者關(guān)系的算法;聚類分析算法是把分類分析的算法進行大劃分,依照數(shù)據(jù)直接的類似性,對數(shù)據(jù)再次進行分類;關(guān)聯(lián)規(guī)則算法是指深入挖掘找到使大數(shù)據(jù)組中數(shù)據(jù)集合的關(guān)聯(lián)關(guān)系的算法;神經(jīng)網(wǎng)絡算法是模擬人大腦的學習思考過程,對一些樣本進行學習后,從而產(chǎn)生相似的對不同的樣本數(shù)據(jù)也能進行區(qū)別的算法;而Web算法是最簡單的算法,它的目的是不斷收集Web網(wǎng)頁中的數(shù)據(jù)。
實際上,大數(shù)據(jù)挖掘技術(shù)的運用,不是單一算法的運用,往往是多種算法一起結(jié)合使用后再進行數(shù)據(jù)挖掘。它將數(shù)據(jù)挖掘的過程抽象化,從而形成一種可通用的數(shù)據(jù)挖掘方法,與傳統(tǒng)方法單一方法相比,可利用性、可復制性以及通用性更高。
軸線型挖掘法指將數(shù)據(jù)挖掘過程看成一條軸線,軸線的起始點到終點的流程分別指的是數(shù)據(jù)輸入、數(shù)據(jù)預處理、數(shù)據(jù)分析、數(shù)據(jù)輸出等幾個階段[6]。軸線型數(shù)據(jù)挖掘法流程示意圖(見圖2),這個過程簡單明了。此方法的優(yōu)勢是可以隨時進行修改,實現(xiàn)起來較為簡單且操作方便。軸線型數(shù)據(jù)挖掘法唯一的缺點是其進行數(shù)據(jù)挖掘時,耗時長,但這仍然是目前挖掘工作中所使用的主流方法。
圖2 軸線型數(shù)據(jù)挖掘法流程示意圖
環(huán)形數(shù)據(jù)挖掘發(fā)是把完整的一個數(shù)據(jù)流程分布在一個環(huán)上,所有的階段在環(huán)上執(zhí)行一周即代表一次數(shù)據(jù)挖掘工作的完成。一次完整的環(huán)形數(shù)據(jù)挖掘,仍然包括數(shù)據(jù)的輸入輸出與分析,與軸線型數(shù)據(jù)挖掘法的流程一致。這種方法可以循環(huán)高效利用挖掘到的數(shù)據(jù)。一次數(shù)據(jù)挖掘的結(jié)束可以繼續(xù)運用到下一次數(shù)據(jù)挖掘循環(huán)中,不斷地進行循環(huán)、持續(xù)。環(huán)形數(shù)據(jù)挖掘法具有數(shù)據(jù)的高效利用性、挖掘流程持續(xù)性、效率高的優(yōu)勢,但其操作流程較為復雜,實操性較弱[7]。
在日常行政管理方面計算機數(shù)據(jù)挖掘技術(shù)有較大利用空間,可以協(xié)助解決許多存在問題。比如,在交通運輸管理方面,隨著各種打車軟件的興起,人們的日常出行需求得到了滿足,但是隨之而來也有很多問題。實際上,這些打車軟件也利用計算機數(shù)據(jù)挖掘技術(shù),但是仍然不夠全面與完善。行政部門可通過計算機數(shù)據(jù)挖掘技術(shù)將交通出行的有效信息傳入到交通運輸數(shù)據(jù)系統(tǒng)庫中,方便大眾實時查看,合理選擇出行路線與方式,可以達到減少交通事故,保證道路暢通的目的。另外,在行政工作的檔案數(shù)據(jù)管理工作中,可以通過數(shù)據(jù)挖掘技術(shù),更改檔案保存整理方式,有效的對檔案進行檢索與整理,減少工作量,從而實現(xiàn)工作的高效性。
良好的市場發(fā)展離不開市場營銷的作用,而市場營銷是為了更好地迎合大眾需求,掌握大眾心理。利用計算機數(shù)據(jù)挖掘技術(shù),可以實現(xiàn)通過應用信息管理與條形碼技術(shù)的結(jié)合,收集用戶的日常數(shù)據(jù)[8]。但由于數(shù)據(jù)數(shù)量大,種類多的特點,很難實現(xiàn)人為管理,所以此時大數(shù)據(jù)挖掘技術(shù)就可以解決這個問題,利用大數(shù)據(jù)挖掘技術(shù)收集到的客戶數(shù)據(jù),對其日常生活軌跡、購買力情況以及消費心理習慣進行數(shù)據(jù)分析(見圖3)?;跀?shù)據(jù)挖掘技術(shù)得到的數(shù)據(jù)更為精確、全面的特點,市場營銷部門可以更好地掌握顧客的消費習慣,從而制定出更為合理、適應市場強度力強的營銷方案。還可以利用大數(shù)據(jù)庫的交互查詢以及建模預測算法進行演練,挖掘出更多潛在顧客,實現(xiàn)更全面市場營銷。
圖3 計算機數(shù)據(jù)挖掘技應用于市場營銷模式示意圖
不止在上述兩個方面,數(shù)據(jù)挖掘技術(shù)在企業(yè)的發(fā)展方面也有較大運用價值。一個成功的企業(yè)離不開其金融分析能力。通過對股票交易市場的投資評估與預測,可以減少投資風險。在開始投資前,利用計算機數(shù)據(jù)挖掘技術(shù),建立數(shù)學模型進行風險預測,可以有效地分析出各種潛在風險,避免企業(yè)進行不合理的投資,及時規(guī)避風險。通過數(shù)據(jù)分析,協(xié)助企業(yè)更改并完善投資計劃,選擇最佳時期進行投資,最大程度上降低風險[9]。此外,對于一些特殊的企業(yè),例如煤礦挖掘、燃油開采等工作性質(zhì)較為危險的企業(yè),可以利用計算機數(shù)據(jù)挖掘技術(shù),對工作環(huán)境進行分析,建立完善的報警安全管理舉措。在進行開采作業(yè)時,對施工現(xiàn)場進行數(shù)據(jù)建模,預估風險,合理評估風險指數(shù),從而演算出安全舉措,盡可能保障施工人員安全;計算機挖掘技術(shù)還可運用在開采作業(yè)的計劃中,利用大數(shù)據(jù)挖掘數(shù)據(jù)分析,協(xié)助決策部門制定出更完整,開采效益更高,危險系數(shù)更低的開采計劃;在半導體領域,計算機數(shù)據(jù)挖掘技術(shù)可以用于零件的檢測。由于半導體零件對質(zhì)量以及精密度的要求較高,為了達到企業(yè)的生產(chǎn)標準,需要計算機數(shù)據(jù)分析技術(shù),通過采集元件的信息數(shù)據(jù),對元件的質(zhì)量進行檢測,再繼續(xù)投入生產(chǎn),從而保證元件的合格率以及質(zhì)量安全。
綜上所述,在社會經(jīng)濟不斷發(fā)展的現(xiàn)狀下,各行各業(yè)對于大數(shù)據(jù)的依賴日漸增強,這使計算機數(shù)據(jù)挖掘技術(shù)的開發(fā)與應用有較高的研究和利用價值。大數(shù)據(jù)挖掘技術(shù)在各行業(yè)中的影響力越來越大,例如在市場營銷運營方面,通過分析客戶購買行為以及購買率,可更深入的了解顧客心理,可推廣更適合大眾的產(chǎn)品。