劉喆
本文首先對數(shù)據(jù)挖掘的現(xiàn)狀以及發(fā)展方向作出了整體的概括,接下來對數(shù)據(jù)挖掘在電力系統(tǒng),醫(yī)學(xué)領(lǐng)域,商業(yè)領(lǐng)域以及軍事領(lǐng)域上分別進(jìn)行了闡述。
數(shù)據(jù)挖掘的現(xiàn)狀及發(fā)展方向:
在現(xiàn)階段,基于數(shù)據(jù)挖掘的算法已經(jīng)被學(xué)術(shù)界所接受,并在實際中得到了大量的應(yīng)用。從本質(zhì)上講,數(shù)據(jù)挖掘?qū)嶋H上就是從海量的數(shù)據(jù)(結(jié)構(gòu)化與非結(jié)構(gòu)化)上挖掘到的實現(xiàn)不為人知的、隱含在數(shù)據(jù)中的潛在的信息。挖掘出來的信息具有很大的價值,可能是用戶具有用戶感興趣的、可理解、可使用的、可以為我們帶來收益的,對科學(xué)研究具有巨大導(dǎo)向的。數(shù)據(jù)挖掘過程的流程主要有數(shù)據(jù)準(zhǔn)備(數(shù)據(jù)的提取,數(shù)據(jù)的轉(zhuǎn)換,數(shù)據(jù)的加工,數(shù)據(jù)的預(yù)處理),數(shù)據(jù)挖掘,解釋與評估。數(shù)據(jù)挖掘?qū)?shù)據(jù)中的各種特征下的信息直觀的呈現(xiàn)出來。
數(shù)據(jù)挖掘的功能及存在的問題:
數(shù)據(jù)挖掘的功能大體分為兩個部分,第一部分是通過分析海量數(shù)據(jù)在不同屬性不同維度下表現(xiàn)出的對象特征,對象的特征以及對象間的相關(guān)性來劃分不同類別進(jìn)行事物的描述,對內(nèi)在的關(guān)系進(jìn)行分析及總結(jié)。第二部分為關(guān)聯(lián)是某種事物與另一種事物很有可能同時發(fā)生,或者一種事物發(fā)生后另外一種事物很可能會連帶著發(fā)生。對數(shù)據(jù)中蘊含的規(guī)律進(jìn)行分析及把握并預(yù)測未來的發(fā)展動態(tài)針對未來的發(fā)展趨勢,采取相應(yīng)的措施。并對極少數(shù)的,特殊的對象進(jìn)行重點分析,挖掘出內(nèi)在的關(guān)系,提取出有價值的信息。
1 數(shù)據(jù)挖掘在電力系統(tǒng)中的應(yīng)用
數(shù)據(jù)挖掘運用到電力系統(tǒng)中主要有以下幾個方面的任務(wù):
從電力系統(tǒng)的運行調(diào)動方面,調(diào)度運行部門是電力系統(tǒng)穩(wěn)健,高效運行的重點保障。它對系統(tǒng)中反饋而來的信息進(jìn)行分析及處理,在這個步驟下,數(shù)據(jù)挖掘起著重要的推動作用,利用數(shù)據(jù)挖掘分析出來的內(nèi)在規(guī)律做出相應(yīng)的決策。在保障系統(tǒng)穩(wěn)健安全運行的前提下,考慮各種經(jīng)濟(jì)問題的同時例如對電價如何進(jìn)行合理的制定等。
在決策支持和控制方面,在電力系統(tǒng)發(fā)生故障時,調(diào)度員可以通過保護(hù)裝置的動作信息判斷出具體的故障原因以及具體的故障位置。為避免大量的經(jīng)濟(jì)損失要求在極端時間內(nèi)解決問題。然而面對系統(tǒng)中的海量數(shù)據(jù),傳統(tǒng)的靠專家的經(jīng)驗已經(jīng)無法適應(yīng)今天的情況,面對海量的數(shù)據(jù),數(shù)據(jù)挖掘方法能去除無關(guān)的屬性,獲得復(fù)雜數(shù)據(jù)下的規(guī)律,并對故障特征進(jìn)行提取,幫助調(diào)度員判斷電力系統(tǒng)的狀態(tài)以及選擇處理故障問題的方法。
在電力系統(tǒng)的不良數(shù)據(jù)辨識方面,現(xiàn)在這一階段對電力系統(tǒng)數(shù)據(jù)的可靠性要求越來越高。
對于不良數(shù)據(jù)辨識就是想找出由于種種原因產(chǎn)生的少量不良數(shù)據(jù),從而避免不良數(shù)據(jù)對系統(tǒng)的軟件環(huán)境性能產(chǎn)生影響。然而在辨識不良數(shù)據(jù)的過程中,傳統(tǒng)方法很可能造成誤檢或漏檢,然而通過數(shù)據(jù)挖掘中的神經(jīng)網(wǎng)絡(luò),聚類以及關(guān)聯(lián)規(guī)則等算法就能更加快速而且準(zhǔn)確的達(dá)到對不良數(shù)據(jù)辨識的目的。
在電力系統(tǒng)的建模方面,整個電力系統(tǒng)的實時性決策是以電力系統(tǒng)模型為基礎(chǔ),因為電力系統(tǒng)的高復(fù)雜度,采用傳統(tǒng)的動力學(xué)模型進(jìn)行具體應(yīng)用非常困難,而數(shù)據(jù)挖掘技術(shù)不受對象模型的復(fù)雜度控制,對其數(shù)據(jù)進(jìn)行分析,總結(jié)出電力系統(tǒng)數(shù)據(jù)模式的內(nèi)在規(guī)律。
2 數(shù)據(jù)挖掘在醫(yī)學(xué)領(lǐng)域上的應(yīng)用
在很早以前,數(shù)據(jù)挖掘技術(shù)就被應(yīng)用到醫(yī)學(xué)領(lǐng)域上,并因此形成了“專家系統(tǒng)”。專家系統(tǒng)的功能為對醫(yī)學(xué)領(lǐng)域上的專家的個人經(jīng)驗與她們自身的知識積累利用數(shù)據(jù)挖掘技術(shù)進(jìn)行計算機(jī)語言方面的描述,從而實現(xiàn)對醫(yī)學(xué)領(lǐng)域方面問題的處理。隨著時間的發(fā)展,從不同疾病的類型出發(fā),利用從不同疾病患者中收集到的病歷信息,將其轉(zhuǎn)化為數(shù)據(jù)挖掘技術(shù)所需要的數(shù)據(jù)集,通過分析數(shù)據(jù)中隱藏著的潛在信息來對實現(xiàn)對體檢人員相應(yīng)病情的風(fēng)險評估,進(jìn)行相應(yīng)的提醒。
3 在商業(yè)領(lǐng)域的應(yīng)用
數(shù)據(jù)挖掘在商業(yè)以及金融上的應(yīng)用較為明顯,甚至滲透于商業(yè)以及金融領(lǐng)域的方方面面。從商業(yè)上講,通過收集顧客對各種商品的購買情況的數(shù)據(jù)來構(gòu)成有分析價值的數(shù)據(jù)庫。利用關(guān)聯(lián)規(guī)則分析算法來對數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行挖掘,并對顧客的購買習(xí)慣進(jìn)行總結(jié)。挖掘出一系列的購買規(guī)律,從而調(diào)整商品在商店的擺放以及商業(yè)廣告中商品的搭配等,從而達(dá)到最大的獲利。并且在電子商務(wù)上,數(shù)據(jù)挖掘可以使商家更加了解客戶的需求,為客戶提供更加個性化的服務(wù),從而保留個數(shù)增加商品的銷售額。從金融上講,對股市中的數(shù)據(jù)的變化趨勢進(jìn)行總結(jié),再用關(guān)聯(lián)規(guī)則,卷積神經(jīng)網(wǎng)絡(luò)等方法對股市中接下來的運行趨勢進(jìn)行預(yù)測。從而對針對股市的漲幅等情況來調(diào)整利率,從而避免經(jīng)濟(jì)損失,達(dá)到盈利的目的。
4 在軍事領(lǐng)域上的應(yīng)用
由于大數(shù)據(jù)時代的來臨,決策的思維和方法產(chǎn)生了變革。傳統(tǒng)戰(zhàn)爭下的決策缺少數(shù)據(jù)的支持,并且數(shù)據(jù)的準(zhǔn)確性很難達(dá)到保障,一般靠經(jīng)驗在戰(zhàn)爭中進(jìn)行決策。然而現(xiàn)階段的戰(zhàn)爭下,可以利用海量與戰(zhàn)爭相關(guān)的數(shù)據(jù),這就要求指揮者有全新的數(shù)據(jù)思維,并結(jié)合統(tǒng)計學(xué)家與數(shù)據(jù)挖掘研究人員,找出數(shù)據(jù)中隱含的信息,不受舊思想的束縛,達(dá)到最大的作戰(zhàn)效益。例如,可以用深度學(xué)習(xí)的方法結(jié)果衛(wèi)星對敵方地理位置達(dá)到精準(zhǔn)的還原,通過計算機(jī)高速的計算能力使指揮者更快做出決策,也可以分析敵方以往的作戰(zhàn)數(shù)據(jù),對其作戰(zhàn)規(guī)律進(jìn)行總結(jié),并對其下一步的行動做出較為精準(zhǔn)的預(yù)測,并且對于自己大量的作戰(zhàn)資源與戰(zhàn)士們的人員通過數(shù)據(jù)挖掘的方法進(jìn)行合理的分配,最終達(dá)到作戰(zhàn)能力的最大化。
(作者單位:東北大學(xué)秦皇島分校)