摘 要:為了提升大數(shù)據(jù)挖掘過(guò)程中的效率和準(zhǔn)確性,本文提出了一種新的大數(shù)據(jù)挖掘方法。該方法從實(shí)際問(wèn)題出發(fā),抽象出多個(gè)不同的約束條件,并利用和方案的交叉映射形成選擇矩陣,再選擇矩陣中各個(gè)元素的排序,確定最佳選擇,即得到最終的挖掘結(jié)果。為了測(cè)試所提出的多條件約束大數(shù)據(jù)挖掘方法的有效性,本文以云計(jì)算虛擬機(jī)資源的配置挖掘?yàn)檠芯繉?duì)象進(jìn)行試驗(yàn)。試驗(yàn)中針對(duì)計(jì)算型任務(wù)、優(yōu)化型任務(wù)和圖像型任務(wù)分別選擇不同的虛擬機(jī),挖掘方法在通用均衡性虛擬機(jī)、計(jì)算密集型虛擬機(jī)、內(nèi)存優(yōu)化型虛擬機(jī)、圖形處理型虛擬機(jī)、開發(fā)測(cè)試型虛擬機(jī)以及網(wǎng)絡(luò)安全型虛擬機(jī)中找到了最佳的配置結(jié)果。
關(guān)鍵詞:大數(shù)據(jù)挖掘;云計(jì)算;虛擬機(jī)配置;最佳配置
中圖分類號(hào):TP 311" " " " 文獻(xiàn)標(biāo)志碼:A
自從人類進(jìn)入信息社會(huì)以來(lái),社會(huì)生產(chǎn)和人民生活面臨前所未有的深刻變化,其中一個(gè)最重要的特點(diǎn)就是信息量的大幅度增加[1]。這種增加無(wú)疑使社會(huì)公眾獲取信息的渠道更豐富,不同群體間的信息不對(duì)稱性也得到了一定程度的改進(jìn),進(jìn)而推動(dòng)了人人自媒體時(shí)代的到來(lái)。但是,數(shù)據(jù)量和信息量的增加也帶來(lái)了一些負(fù)面影響,例如增加了人們信息搜索方面的時(shí)間開銷[2]。由于有用信息之外摻雜了大量的冗余信息和無(wú)效信息,人們不得不抽出大量時(shí)間,瀏覽各類信息,以提取對(duì)自己有用的信息。如果不能在海量信息中提取出對(duì)自己有價(jià)值的信息,那么可能會(huì)被錯(cuò)誤的信息誤導(dǎo),進(jìn)而做出錯(cuò)誤的選擇甚至引發(fā)工作失誤、降低工作效率。為了解決上述問(wèn)題,大數(shù)據(jù)挖掘方法應(yīng)用而生[3]。大數(shù)據(jù)挖掘方法是在數(shù)據(jù)挖掘基礎(chǔ)上的進(jìn)一步改良,其面對(duì)的數(shù)據(jù)集合也不同于以往時(shí)代,需要處理更多的數(shù)據(jù)。這就要求大數(shù)據(jù)挖掘方法具有足夠的硬件支撐,同時(shí)要求挖掘過(guò)程更嚴(yán)謹(jǐn)、挖掘結(jié)果更精確。因此本文提出了一種新的大數(shù)據(jù)挖掘方法,并通過(guò)試驗(yàn)進(jìn)行測(cè)試。
1 多條件約束的大數(shù)據(jù)挖掘方法設(shè)計(jì)
1.1 方法設(shè)計(jì)
大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘一樣,都注重挖掘的效率和準(zhǔn)確率。挖掘效率既取決于挖掘算法本身,也在很大程度上受硬件的影響。目前,硬件技術(shù)水平的發(fā)展日新月異,給大數(shù)據(jù)挖掘提供了足夠的支持。因此,只要挖掘方法設(shè)計(jì)合理,就可以取得較高的挖掘效率。而挖掘結(jié)果的準(zhǔn)確率離不開大數(shù)據(jù)挖掘方法的合理設(shè)計(jì)。從解決思路上看,設(shè)定的條件充分、約束合理,就可以保證挖掘結(jié)果的精確性。因此,本文中提出了一種多條件約束的大數(shù)據(jù)挖掘方法。
這種方法需要從要處理的問(wèn)題中提煉出不同的條件,每個(gè)條件對(duì)應(yīng)一項(xiàng)約束,這樣就行了一個(gè)多約束集合,如公式(1)所示。
E={e1,e2,…,e|E|} (1)
式中:E表示從挖掘問(wèn)題本身提煉出的全部約束所構(gòu)成的集合;e1表示從挖掘問(wèn)題本身提煉出的第一條約束;e2表示從挖掘問(wèn)題本身提煉出的第二條約束;e|E|表示從挖掘問(wèn)題本身提煉出的第|E|條約束;|E|表示從挖掘問(wèn)題本身提煉出的全部約束的數(shù)量。
為了解決一個(gè)具體的挖掘問(wèn)題,需要有針對(duì)性地設(shè)計(jì)出處理方案,其構(gòu)成的集合如公式(2)所示。
P={p1,p2,…,p|P|} (2)
式中:P表示針對(duì)挖掘問(wèn)題所設(shè)計(jì)的全部方案所構(gòu)成的集合;p1表示針對(duì)挖掘問(wèn)題所設(shè)計(jì)的第一組方案;p2表示針對(duì)挖掘問(wèn)題所設(shè)計(jì)的第二組方案;p|P|表示針對(duì)挖掘問(wèn)題所設(shè)計(jì)的第|E|組方案;|P|表示針對(duì)挖掘問(wèn)題所設(shè)計(jì)的全部方案的組數(shù)。
進(jìn)而需要根據(jù)約束和方案進(jìn)行判斷和選擇,得到的依據(jù)如公式(3)所示。
(3)
式中:R表示約束和方案交叉映射后的選擇矩陣;r11表示約束一和方案一交叉映射后的選擇;r12表示約束二和方案一交叉映射后的選擇;r21表示約束一和方案二交叉映射后的選擇。
顯然,最終挖掘結(jié)果的合理性取決于公式(3)中選擇的合理性,哪種選擇與預(yù)期結(jié)果更接近,該選擇就是正確的、合理的。進(jìn)而需要將每一種選擇和預(yù)期結(jié)果進(jìn)行比較,如公式(4)所示。
(4)
在不同的問(wèn)題中并非都是正向選擇,有的取決于反向選擇的結(jié)果。反向選擇的操作如公式(5)所示。
(5)
1.2 方法流程
如上所述,本文對(duì)多條件約束的大數(shù)據(jù)挖掘方法進(jìn)行了設(shè)計(jì),這種方法在解決具體問(wèn)題過(guò)程中需要一個(gè)完整的流程,如下所示。
第一個(gè)步驟,根據(jù)大數(shù)據(jù)挖掘的具體任務(wù),分別設(shè)定好約束集合和方案集合。
第二個(gè)步驟:在約束集合和方案集合的支撐下,得到選擇集合。
第三個(gè)步驟:計(jì)算選擇集合中不同選擇的權(quán)重。
第四個(gè)步驟:將每種選擇與預(yù)期結(jié)果進(jìn)行比較,并分別形成正向比對(duì)和反向比對(duì),如公式(4)和公式(5)所示。
第五個(gè)步驟:得到全部選擇的比較結(jié)果,從中選擇一個(gè)最合適的作為最終的挖掘結(jié)果。
2 云計(jì)算虛擬機(jī)配置的條件設(shè)定
在上述研究工作中,本文提出了一種新的大數(shù)據(jù)挖掘方法。該大數(shù)據(jù)挖掘方法使用多種條件進(jìn)行約束,從而保證挖掘結(jié)果的準(zhǔn)確性。為了驗(yàn)證所提方法的有效性,本文選定特定的對(duì)象進(jìn)行試驗(yàn)測(cè)試。
云計(jì)算是目前廣泛采用的一種新型計(jì)算模式,可以有效解決本地計(jì)算資源不足的問(wèn)題。云計(jì)算中的關(guān)鍵是實(shí)際計(jì)算任務(wù)經(jīng)過(guò)虛擬機(jī)匹配,進(jìn)而在云端找到合適的物理資源的過(guò)程。因此,在云端進(jìn)行虛擬機(jī)的合理選擇是實(shí)現(xiàn)云計(jì)算資源最佳配置的關(guān)鍵所在。在各個(gè)云平臺(tái)構(gòu)成的云端存在大量的虛擬機(jī),搜索合適虛擬機(jī)可以采用大數(shù)據(jù)挖掘。云端的虛擬機(jī)不僅數(shù)量多,而且類型豐富,不同的計(jì)算任務(wù)請(qǐng)求需要選擇最合適的虛擬機(jī)。云端虛擬機(jī)的分類如圖1所示。
從圖1可以看出,云端虛擬機(jī)資源至少可以分成6類,不同類別的虛擬機(jī)可以完成不同特色的任務(wù)。不同類別虛擬機(jī)的特點(diǎn)見表1。
表1對(duì)6類不同類別的虛擬機(jī)資源都進(jìn)行了不同的特征特點(diǎn)的比較。從6列虛擬機(jī)的特點(diǎn)比較可以看出,前3類特征特點(diǎn)都體現(xiàn)了不同類別虛擬機(jī)的公有屬性,而后3類特征特點(diǎn)則更能體現(xiàn)不同類別虛擬機(jī)間的差異性。這些公有的屬性和差異屬性共同影響大數(shù)據(jù)挖掘過(guò)程的準(zhǔn)確性和效率。
3 云計(jì)算虛擬機(jī)資源的大數(shù)據(jù)挖掘試驗(yàn)結(jié)果與分析
闡明多條件約束大數(shù)據(jù)挖掘方法,并設(shè)置云計(jì)算虛擬機(jī)的分類標(biāo)準(zhǔn)后,進(jìn)一步設(shè)定數(shù)據(jù)挖掘過(guò)程中各個(gè)挖掘方案對(duì)應(yīng)的準(zhǔn)確性等級(jí)。數(shù)據(jù)挖掘的等級(jí)一般可以劃分為6個(gè)等級(jí):第一個(gè)等級(jí)是最高等級(jí),意義為“非常準(zhǔn)確”,即數(shù)據(jù)挖掘算法提供給客戶的結(jié)果與客戶需求完全一致。第二個(gè)等級(jí)是次高等級(jí),意義為“很準(zhǔn)確”,即數(shù)據(jù)挖掘算法提供給客戶的結(jié)果與客戶需求一致。第三個(gè)等級(jí)是中間偏好等級(jí),意義為“準(zhǔn)確”,即數(shù)據(jù)挖掘算法提供給客戶的結(jié)果與客戶需求基本一致。第四個(gè)等級(jí)是中間偏差等級(jí),意義為“一般”,即數(shù)據(jù)挖掘算法提供給客戶的結(jié)果與客戶需求有輕微不符。第五個(gè)等級(jí)是較差等級(jí),意義為“不準(zhǔn)確”,即數(shù)據(jù)挖掘算法提供給客戶的結(jié)果與客戶需求在很大程度不符。第六個(gè)等級(jí)是最差等級(jí),意義為“很不準(zhǔn)確”,即數(shù)據(jù)挖掘算法提供給客戶的結(jié)果與客戶需求完全不符。
可見,上述6個(gè)等級(jí)具有由好逐漸變差的趨勢(shì)。在挖掘算法中,為了能夠量化執(zhí)行挖掘過(guò)程,將這6個(gè)等級(jí)對(duì)應(yīng)于具體的分?jǐn)?shù),見表2。
表2設(shè)定的分?jǐn)?shù)是一個(gè)區(qū)間分?jǐn)?shù)的下限值,例如“非常準(zhǔn)確”的得分必須要大于等于90分,滿分為100。90~100區(qū)間的分?jǐn)?shù),都對(duì)應(yīng)“非常準(zhǔn)確”的等級(jí)。按照同樣的方式,80~89區(qū)間的分?jǐn)?shù),都對(duì)應(yīng)“很準(zhǔn)確”的等級(jí);70~79區(qū)間的分?jǐn)?shù),都對(duì)應(yīng)“準(zhǔn)確”的等級(jí);60~69區(qū)間的分?jǐn)?shù),都對(duì)應(yīng)“一般”的等級(jí);50~59這個(gè)區(qū)間的分?jǐn)?shù),都對(duì)應(yīng)“不準(zhǔn)確”的等級(jí);40分以下的分?jǐn)?shù),都對(duì)應(yīng)“很不準(zhǔn)確”的等級(jí)。
本文以云端的海量虛擬機(jī)測(cè)試數(shù)據(jù)為挖掘?qū)ο?,?duì)其中6類虛擬機(jī)資源進(jìn)行數(shù)據(jù)挖掘并形成分析和判斷,判斷這些虛擬機(jī)對(duì)不同計(jì)算任務(wù)的實(shí)用性。本文分別選擇計(jì)算型任務(wù)、優(yōu)化型任務(wù)和圖像型任務(wù),并采用本文提出的多條件約束大數(shù)據(jù)挖掘方法所匹配的虛擬機(jī)情況,所得挖掘結(jié)果如下:計(jì)算型任務(wù)得到的虛擬機(jī)匹配結(jié)果見表3,優(yōu)化型任務(wù)得到的虛擬機(jī)匹配結(jié)果見表4,圖像型任務(wù)得到的虛擬機(jī)匹配結(jié)果見表5。
表3、表4和表5分別給出了不同任務(wù)需求下大數(shù)據(jù)挖掘方法所得各類虛擬機(jī)的配置結(jié)果,為了便于將這些結(jié)果直觀地展示出來(lái),本文繪制了如圖2所示的對(duì)比圖形。
由圖2可以看出,大數(shù)據(jù)挖掘方法給計(jì)算型任務(wù)準(zhǔn)確地配置了計(jì)算密集型的虛擬機(jī)資源,給優(yōu)化型任務(wù)選擇了內(nèi)存優(yōu)化的虛擬機(jī)資源,給圖像型任務(wù)配置了圖形處理的虛擬機(jī)資源??梢姡瑢?duì)于不同類型的任務(wù),本文提出的大數(shù)據(jù)挖掘方法都能找到最佳的虛擬機(jī)資源進(jìn)行配置,也取得了令人滿意的結(jié)果。
4 結(jié)論
信息社會(huì)的到來(lái)使信息量的爆炸式增長(zhǎng),在給人們提供信息便利的同時(shí)也增加了信息搜索的難度。大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘一樣,都注重挖掘的效率和準(zhǔn)確率。為了提升大數(shù)據(jù)挖掘過(guò)程中的效率和準(zhǔn)確性,本文建立了一種基于多條件約束的大數(shù)據(jù)挖掘方法。該方法利用約束集合、方案集合和選擇集合的設(shè)定和計(jì)算,得到了合理的挖掘結(jié)果。性能測(cè)試試驗(yàn)以云計(jì)算虛擬機(jī)配置為挖掘?qū)ο螅瑸?類任務(wù)在6類虛擬機(jī)資源中尋找最佳配置,試驗(yàn)結(jié)果充分證明了本文所提方法的有效性。
參考文獻(xiàn)
[1]萬(wàn)祥,胡念蘇,韓鵬飛,等.大數(shù)據(jù)挖掘技術(shù)應(yīng)用于汽輪機(jī)組運(yùn)行性能優(yōu)化的研究[J].中國(guó)電機(jī)工程學(xué)報(bào),2016,36(2):459-467.
[2]趙小凡,杜舒明,劉超.基于大數(shù)據(jù)挖掘的電能計(jì)量互感器誤差自動(dòng)化控制系統(tǒng)[J].自動(dòng)化與儀表,2024,39(3):151-154.
[3]劉雪飛,林子釗,田啟東,等.基于大數(shù)據(jù)挖掘的電力多源異構(gòu)信息融合技術(shù)研究[J].制造業(yè)自動(dòng)化,2023,45(9):75-78.