南陽市中心醫(yī)院 孟維成
本文首先對大數(shù)據(jù)技術(shù)、大數(shù)據(jù)需求、數(shù)據(jù)挖掘技術(shù)相關(guān)概念簡要敘述,然后從傳統(tǒng)方法、常用算法、軸線型數(shù)據(jù)挖掘法、環(huán)形數(shù)據(jù)挖掘法、決策樹數(shù)據(jù)挖掘法、可視化技術(shù)、數(shù)據(jù)聯(lián)機(jī)處理、決策樹與神經(jīng)網(wǎng)絡(luò)等方面闡述計算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)技術(shù)。最后從市場、電信、金融、人事、檔案、安全、教育、開發(fā)、科技等領(lǐng)域闡述計算機(jī)數(shù)據(jù)挖掘技術(shù)的應(yīng)用方向。
計算機(jī)數(shù)據(jù)挖掘技術(shù)極大地提高了人們的生活質(zhì)量,滿足了人們對物質(zhì)和精神需求,推動了社會的進(jìn)步和發(fā)展。但是計算機(jī)數(shù)據(jù)挖掘技術(shù)也會對人們的生活帶來一定的困擾,人們的隱私安全在計算機(jī)數(shù)據(jù)挖掘技術(shù)下無法得到保障,因此計算機(jī)數(shù)據(jù)挖掘技術(shù)這把雙刃劍必須得到合理應(yīng)用。
大數(shù)據(jù)或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)具有大量、高速、多樣、低價值密度、真實等特點(diǎn),大數(shù)據(jù)技術(shù)可以掌握龐大的數(shù)據(jù)信息,并且對這些數(shù)據(jù)進(jìn)行專業(yè)化處理,最終實現(xiàn)數(shù)據(jù)增值盈利,信息化時代下大數(shù)據(jù)技術(shù)的重要性還會逐漸提高。
大數(shù)據(jù)需求必須以用戶為中心進(jìn)行分析,以企業(yè)用戶為例,企業(yè)必須通過市場挖掘潛在客戶,然后通過市場操作和商業(yè)談判獲取經(jīng)濟(jì)效益,大數(shù)據(jù)技術(shù)在企業(yè)中可以發(fā)揮出信息數(shù)據(jù)收集分析的作用。企業(yè)在市場操作和商業(yè)談判過程中必須對合作伙伴、競爭對手、市場行業(yè)發(fā)展方向詳細(xì)了解才能作出正確決策,大數(shù)據(jù)技術(shù)可以在此過程中信息統(tǒng)計匯總的方式得到準(zhǔn)確調(diào)查結(jié)果。這樣企業(yè)管理人員才能對市場發(fā)展方向加深了解,最終企業(yè)才能研發(fā)出合適的產(chǎn)品,為企業(yè)創(chuàng)造更大經(jīng)濟(jì)效益。
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。數(shù)據(jù)挖掘技術(shù)可以將大量數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識,并將其廣泛用于商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計和科學(xué)探索等領(lǐng)域中。
計算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)使用的傳統(tǒng)方法包括抽樣分析法、多元統(tǒng)計分析法、統(tǒng)計預(yù)測法等,抽樣分析法通過抽樣分析降低數(shù)據(jù)挖掘工作量,但是最終得到的數(shù)據(jù)分析結(jié)果與總體結(jié)果差異不大;多元統(tǒng)計分析法通過對復(fù)雜結(jié)構(gòu)和較高維數(shù)的因子和數(shù)據(jù)進(jìn)行分析,最終得到比較科學(xué)準(zhǔn)確的數(shù)據(jù)分析結(jié)果;統(tǒng)計預(yù)測法主要通過回歸分析和序列分析預(yù)測數(shù)據(jù)發(fā)展規(guī)律,為相關(guān)人員提供參考。
計算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)常用算法包括回歸算法、分類算法、聚類分析、神經(jīng)網(wǎng)絡(luò)方法、關(guān)聯(lián)規(guī)則和Web數(shù)據(jù)挖掘,這些算法具有高效性、優(yōu)越性和全面性,能夠使用當(dāng)前計算機(jī)數(shù)據(jù)挖掘技術(shù)的各個應(yīng)用方向?;貧w算法主要分析數(shù)據(jù)之間的規(guī)則或者相似性;分類算法主要根據(jù)數(shù)據(jù)屬性之間的不同之處對其進(jìn)行分類;聚類分析主要根據(jù)數(shù)據(jù)屬性之間的相似處對其進(jìn)行分類;神經(jīng)網(wǎng)絡(luò)方法通過集中測試對數(shù)據(jù)進(jìn)行處理;關(guān)聯(lián)規(guī)則通過數(shù)據(jù)之間的聯(lián)系進(jìn)行數(shù)據(jù)處理;Web數(shù)據(jù)挖掘通過網(wǎng)頁收集各類數(shù)據(jù)。
計算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)中,軸線型數(shù)據(jù)挖掘法指的是按照軸線總結(jié)數(shù)據(jù)挖掘信息輸入、信息處理、信息研究、信息輸出各個流程,其中信息輸入在軸線型數(shù)據(jù)挖掘法中作為起點(diǎn),信息輸出在軸線型數(shù)據(jù)挖掘法中作為終點(diǎn),從起點(diǎn)到終點(diǎn)即可完成數(shù)據(jù)挖掘。軸線型數(shù)據(jù)挖掘法的優(yōu)點(diǎn)是時效性強(qiáng)、技術(shù)原理簡單、操作便捷,但是該技術(shù)沒有對挖掘的數(shù)據(jù)進(jìn)行分類,因此數(shù)據(jù)挖掘時間過長是該方法的缺點(diǎn),總體來說軸線型數(shù)據(jù)挖掘法在開發(fā)中的應(yīng)用比較普遍。
計算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)中,環(huán)形數(shù)據(jù)挖掘法指的是將信息輸入、信息處理、信息研究、信息輸出各個數(shù)據(jù)挖掘流程與實時操作聯(lián)系起來,將每個數(shù)據(jù)挖掘流程分別打造成不同的數(shù)據(jù)挖掘閉環(huán),最終信息輸出流程可以得到相對精準(zhǔn)的信息數(shù)據(jù)。環(huán)形數(shù)據(jù)挖掘法的優(yōu)點(diǎn)是持續(xù)性強(qiáng)、目標(biāo)性強(qiáng)、數(shù)據(jù)挖掘效率高,但是該方法的環(huán)形數(shù)據(jù)挖掘流程相對于軸線型數(shù)據(jù)挖掘流程來說更加復(fù)雜,因此該方法的缺點(diǎn)是對開發(fā)技術(shù)人員的要求較高且實際應(yīng)用可行性低。
計算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)中,決策樹數(shù)據(jù)挖掘法指的是按照決策樹統(tǒng)計分類方法對體量龐大的數(shù)據(jù)進(jìn)行挖掘,該方法中包括了對其他計算統(tǒng)計方法的應(yīng)用,否則無法得到科學(xué)準(zhǔn)確的分類結(jié)果。決策樹數(shù)據(jù)挖掘法的優(yōu)點(diǎn)是可以處理體量龐大的數(shù)據(jù),而且能夠直接利用統(tǒng)計方法對數(shù)據(jù)進(jìn)行挖掘和分類,數(shù)據(jù)挖掘的目標(biāo)性比較強(qiáng),但是該技術(shù)對計算機(jī)技術(shù)的依賴性比較強(qiáng),目前計算機(jī)技術(shù)仍然在不斷發(fā)展,未來該技術(shù)仍然較大進(jìn)步和發(fā)展空間。
計算機(jī)數(shù)據(jù)挖掘技術(shù)極大地提高了可視化技術(shù)的應(yīng)用效果,可視化技術(shù)可以通過圖表等更加直觀的方式將數(shù)據(jù)特征完全展現(xiàn)出來,給人帶來更加強(qiáng)烈的視覺感受。而計算機(jī)數(shù)據(jù)挖掘技術(shù)本身無法將數(shù)據(jù)特征展現(xiàn)出來,只有將該技術(shù)與可視化技術(shù)相結(jié)合,才能提高可視化技術(shù)和計算機(jī)數(shù)據(jù)挖掘技術(shù)的效率,進(jìn)而充分展現(xiàn)二者的優(yōu)勢,因此可視化技術(shù)在計算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)中的使用比較常見。
計算機(jī)數(shù)據(jù)挖掘技術(shù)可以極大地提高數(shù)據(jù)信息處理效率,當(dāng)數(shù)據(jù)挖掘過程中遇到體量龐大的數(shù)據(jù)時往往效率不如人意,此時可以通過數(shù)據(jù)聯(lián)機(jī)處理充分將計算機(jī)的數(shù)據(jù)處理能力利用起來,以達(dá)到提高整個數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)效率的目的。正常情況下,只有計算機(jī)數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)體量龐大時才會采用該種方法,該方法的使用對計算機(jī)的協(xié)同性具有較高要求,因此數(shù)據(jù)聯(lián)機(jī)處理并不會對數(shù)據(jù)處理效果造成負(fù)面影響。
計算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)可以將決策樹與神經(jīng)網(wǎng)絡(luò)算法共合使用,決策樹是一種數(shù)據(jù)整合和分類的高效統(tǒng)計方法,神經(jīng)網(wǎng)絡(luò)可以通過輸入層、隱藏層和輸出層得到較為科學(xué)準(zhǔn)確的數(shù)據(jù),決策樹與神經(jīng)網(wǎng)絡(luò)下計算機(jī)數(shù)據(jù)挖掘技術(shù)可以通過分析數(shù)據(jù)屬性與數(shù)據(jù)值之間的映射關(guān)系,憑借決策樹的分類優(yōu)勢實現(xiàn)數(shù)據(jù)的單一輸出。目前該技術(shù)在計算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)中比較常見,研究人員可以通過決策樹與神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進(jìn)行預(yù)測分析。
計算機(jī)數(shù)據(jù)挖掘技術(shù)在市場領(lǐng)域中可以使用常用傳統(tǒng)方法中的抽樣分析法和多元統(tǒng)計分析法,基于以上兩種計算機(jī)數(shù)據(jù)挖掘技術(shù)可以分別對用戶的搜索行為、連續(xù)訪問網(wǎng)頁行為、交易行為進(jìn)行分析,然后根據(jù)數(shù)據(jù)統(tǒng)計結(jié)果即可分析出用戶的購物需求,最后根據(jù)環(huán)形數(shù)據(jù)挖掘法不斷為用戶推薦商品數(shù)據(jù),直到用戶完成交易。在信息化時代下,企業(yè)經(jīng)營管理面臨的風(fēng)險比較大,如果企業(yè)不能與時俱進(jìn)提高計算機(jī)數(shù)據(jù)挖掘技術(shù)效果,則在市場競爭中必然處于不利地位。
電信企業(yè)可以基于環(huán)形數(shù)據(jù)挖掘法對客戶欺詐進(jìn)行識別、對客戶流失進(jìn)行預(yù)測、對客戶進(jìn)行細(xì)分、輔助完成交叉捆綁銷售??蛻羝墼p識別需要先基于用戶屬性信息、企業(yè)服務(wù)內(nèi)容、客戶消費(fèi)數(shù)據(jù)等信息構(gòu)建欺詐關(guān)聯(lián)模型,通過量化欺詐及時發(fā)現(xiàn)惡意欠費(fèi)的客戶;客戶流失預(yù)測需要根據(jù)用戶的歷史行為數(shù)據(jù)構(gòu)建忠誠度評估模型,判斷用戶是否會轉(zhuǎn)投其他電信運(yùn)營商;客戶細(xì)分需要通過對用戶地位、使用率、使用場合、忠誠度、購買態(tài)度等信息進(jìn)行挖掘,進(jìn)而進(jìn)行針對性營銷;交叉捆綁銷售可以對用戶的消費(fèi)特征進(jìn)行提取,如果用戶消費(fèi)特征與其他套餐重合,則可以對該客戶推銷對應(yīng)套餐。
計算機(jī)數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域可以采用常用算法中的回歸算法、分類算法、聚類分析、神經(jīng)網(wǎng)絡(luò)方法對目標(biāo)市場客戶進(jìn)行分類與聚類分析,然后通過數(shù)據(jù)處理轉(zhuǎn)換以及人工智能數(shù)據(jù)挖掘得到該用戶的金融產(chǎn)品使用頻率信息,最后根據(jù)忠誠度模型判斷用戶是否會流失,若用戶存在流失可能則需要通過特征提取尋找相似的用戶進(jìn)行替代。除此之外,金融領(lǐng)域還可與基于多維數(shù)據(jù)分析和數(shù)據(jù)挖掘設(shè)計技術(shù)構(gòu)造金融數(shù)據(jù)庫,對負(fù)債和收入等數(shù)據(jù)倉庫、數(shù)據(jù)特征、數(shù)據(jù)立方體進(jìn)行孤立點(diǎn)分析,推動金融數(shù)據(jù)倉庫的構(gòu)造。
計算機(jī)數(shù)據(jù)挖掘技術(shù)在人事領(lǐng)域可以為人才匹配合適的崗位,首先各類招聘軟件企業(yè)可以基于環(huán)形數(shù)據(jù)挖掘法不斷提取各個企業(yè)崗位的特征和人才檔案關(guān)鍵詞,然后不斷使用聚類和分類算法對人才和崗位進(jìn)行匹配,若始終無法匹配成功則對其他關(guān)鍵詞特征再次提煉,直到人才和崗位匹配成功,最后將人事信息儲存到數(shù)據(jù)庫。如果該網(wǎng)站發(fā)現(xiàn)該人事簡歷再次啟用,則重新提煉檔案關(guān)鍵詞,持續(xù)利用決策樹與神經(jīng)網(wǎng)絡(luò)算法為其推薦更加優(yōu)質(zhì)的企業(yè)崗位信息。
計算機(jī)數(shù)據(jù)挖掘技術(shù)在開發(fā)領(lǐng)域可以基于抽樣分析法和多元統(tǒng)計分析法分析開發(fā)系統(tǒng)所需要的功能,然后確定開發(fā)系統(tǒng)的框架、算法、數(shù)據(jù)庫架構(gòu)技術(shù),若采用神經(jīng)網(wǎng)絡(luò)架構(gòu)則可以將開發(fā)系統(tǒng)分為輸入層、隱藏層和輸出層,最后基于網(wǎng)絡(luò)神經(jīng)算法和決策樹算法構(gòu)建開發(fā)系統(tǒng)數(shù)據(jù)庫,這樣根據(jù)提取的特征即可分別實現(xiàn)開發(fā)系統(tǒng)的各個功能。
計算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案領(lǐng)域?qū)?shù)據(jù)信息處理效率具有較高要求,因此可以基于數(shù)據(jù)聯(lián)機(jī)處理計算機(jī)數(shù)據(jù)挖掘技術(shù)提高對檔案的處理能力。檔案數(shù)據(jù)體量非常龐大,而且檔案數(shù)據(jù)量基本只增不減,因此必須采用數(shù)據(jù)聯(lián)機(jī)處理此類協(xié)同性和處理效率都比較高的計算機(jī)數(shù)據(jù)挖掘技術(shù)。但是檔案領(lǐng)域?qū)τ嬎銠C(jī)數(shù)據(jù)挖掘技術(shù)的保密性也具有一定要求,因此檔案領(lǐng)域必須設(shè)置檢測模塊,利用檔案錄入計算機(jī)設(shè)備接口對檔案信息安全性進(jìn)行審計。其中涉及到檔案特征的提取,如果檔案特征與檔案數(shù)據(jù)庫中的病毒數(shù)據(jù)庫信息一致則會發(fā)出對應(yīng)警報。
計算機(jī)數(shù)據(jù)挖掘技術(shù)在安全領(lǐng)域可以用于網(wǎng)絡(luò)病毒防御,企業(yè)必須在利用計算機(jī)數(shù)據(jù)挖掘技術(shù)收集處理數(shù)據(jù)的同時,做好網(wǎng)絡(luò)病毒防御工作,防止企業(yè)自身關(guān)鍵數(shù)據(jù)泄露。技術(shù)人員可以基于軸線型數(shù)據(jù)挖掘法和環(huán)型數(shù)據(jù)挖掘法構(gòu)建病毒預(yù)防流程,首先使用嗅探器、解碼器對網(wǎng)絡(luò)信息數(shù)據(jù)進(jìn)行預(yù)處理,然后使用異常分析器對網(wǎng)絡(luò)信息數(shù)據(jù)是否安全進(jìn)行判斷,如果受到攻擊則記錄未知攻擊日志,并使用特征提取器提取病毒特征,最后完善規(guī)則庫對具備該特征的病毒進(jìn)行預(yù)防,若再次受到已知攻擊則發(fā)出報警信號。
計算機(jī)數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域可以基于神經(jīng)網(wǎng)絡(luò)算法、決策樹、回歸分析、聚類分析建立教育行業(yè)相關(guān)信息數(shù)據(jù)預(yù)測模型,對學(xué)生的學(xué)習(xí)成績變動情況進(jìn)行統(tǒng)計。其中貝葉斯分類和裁判分析也可以應(yīng)用其中,用于對學(xué)生特征的提取,有利于分析學(xué)生的心理狀態(tài)和消費(fèi)情況,學(xué)生選課系統(tǒng)可以作為分析學(xué)生專業(yè)方向?qū)I(yè)的依據(jù),專業(yè)特征與學(xué)生行為特征一致時學(xué)生有很大可能選擇該專業(yè)課程。
計算機(jī)數(shù)據(jù)挖掘技術(shù)在科技生產(chǎn)領(lǐng)域可以基于神經(jīng)網(wǎng)絡(luò)與決策樹算法提取科學(xué)技術(shù)的參數(shù)特征,然后基于各個精度參數(shù)構(gòu)建對應(yīng)數(shù)據(jù)庫,最后對生產(chǎn)出來的產(chǎn)品進(jìn)行精度檢測后將數(shù)據(jù)傳輸?shù)缴窠?jīng)網(wǎng)絡(luò)算法的輸入層,經(jīng)過與隱藏層中的數(shù)據(jù)參數(shù)進(jìn)行比對,最后即可在輸出層輸出精度參數(shù)是否符合要求的結(jié)論。除此之外,還可以通過該回歸算法、分類算法、聚類分析等計算機(jī)數(shù)據(jù)挖掘技術(shù)分析精度參數(shù)數(shù)據(jù)不符合要求的原因,這樣即可使用算法替代人工決策。
綜上所述,計算機(jī)數(shù)據(jù)挖掘技術(shù)的重要性隨著社會的發(fā)展越來越高,各個行業(yè)、領(lǐng)域?qū)τ嬎銠C(jī)數(shù)據(jù)挖掘技術(shù)的依賴性越來越強(qiáng)。因此,各個企業(yè)必須加強(qiáng)計算機(jī)數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用,盡量利用該技術(shù)提高企業(yè)經(jīng)濟(jì)效益和市場競爭力,讓企業(yè)決策管理水平得到增強(qiáng),進(jìn)而促進(jìn)企業(yè)可持續(xù)發(fā)展。