張輝
摘 要: 傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)存在挖掘速率慢、時(shí)間長、數(shù)據(jù)可靠度低等問題,無法達(dá)到運(yùn)動(dòng)訓(xùn)練生化指標(biāo)精準(zhǔn)數(shù)據(jù)挖掘的標(biāo)準(zhǔn),為此,對基于關(guān)聯(lián)規(guī)則的運(yùn)動(dòng)訓(xùn)練生化指標(biāo)數(shù)據(jù)挖掘系統(tǒng)進(jìn)行設(shè)計(jì)。采用三層結(jié)構(gòu)B/S模式,將后臺的數(shù)據(jù)庫存儲(chǔ)以及挖掘的數(shù)據(jù)作為參考,設(shè)計(jì)系統(tǒng)硬件框架;選取數(shù)據(jù)并對數(shù)據(jù)進(jìn)行預(yù)處理,采用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法完成系統(tǒng)軟件部分設(shè)計(jì);進(jìn)行實(shí)驗(yàn),驗(yàn)證系統(tǒng)設(shè)計(jì)的合理性。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)數(shù)據(jù)挖掘速率快、耗費(fèi)時(shí)間短、可信度高,為運(yùn)動(dòng)生化指標(biāo)數(shù)據(jù)挖掘提供了更加合理的評定標(biāo)準(zhǔn)。
關(guān)鍵詞: 關(guān)聯(lián)規(guī)則; 運(yùn)動(dòng)訓(xùn)練; 生化指標(biāo); 數(shù)據(jù)挖掘; B/S模式; 數(shù)據(jù)可靠度
中圖分類號: TN02?34; G80?32 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2018)07?0183?04
Design of association rules based data mining system
for exercise training biochemical indexes
ZHANG Hui
(Xinlian College of Henan Normal University, Zhengzhou 450000, China)
Abstract: The traditional data mining system has the problems of slow mining speed, long mining time and low data reliabi?lity, and can′t reach the accurate data mining for biochemical indicators of exercise training. Therefore, an association rule based data mining system of exercise training biochemical indexes was designed. The three?layer B/S mode is adopted to design the system hardware framework by storing the background database and taking the mined data as a reference. The data is selected for preprocessing. The data mining algorithm based on association rules is used to design the system software. The experiment was performed for the system to verify the rationality of the system design. The experimental results show that the data mining system has fast mining rate, short time consumption and high reliability, and provides a more reasonable evaluation standard for the data mining of sports biochemical indexes.
Keywords: association rule; exercise training; biochemical indicator; data mining; B/S mode; data reliability
0 引 言
隨著數(shù)據(jù)庫技術(shù)的突飛猛進(jìn),人們對于數(shù)據(jù)的獲取途徑越來越多,人類所擁有的數(shù)據(jù)也急劇增加,但是對于數(shù)據(jù)的分析與處理方式卻很少,人們通過數(shù)據(jù)而獲取的信息僅僅占整個(gè)系統(tǒng)所有信息中較小的一部分,隱藏在數(shù)據(jù)之后的是更加重要的特征以及未來的發(fā)展趨勢,這些信息在決策過程中具有重要意義。數(shù)據(jù)挖掘能夠給決策者帶來重要的參考價(jià)值,進(jìn)而產(chǎn)生不可估量的效益,成為運(yùn)動(dòng)競賽的關(guān)鍵環(huán)節(jié)。但是傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)存在挖掘速率慢、時(shí)間長、數(shù)據(jù)可靠度低等問題,無法滿足運(yùn)動(dòng)訓(xùn)練生化指標(biāo)精準(zhǔn)數(shù)據(jù)挖掘的標(biāo)準(zhǔn)。
針對該問題,對基于關(guān)聯(lián)規(guī)則的運(yùn)動(dòng)訓(xùn)練生化指標(biāo)數(shù)據(jù)挖掘系統(tǒng)進(jìn)行設(shè)計(jì)。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)數(shù)據(jù)挖掘速率快、耗費(fèi)時(shí)間短、可信度高,為運(yùn)動(dòng)生化指標(biāo)數(shù)據(jù)挖掘提供了更加合理的評定標(biāo)準(zhǔn),也為今后的訓(xùn)練方案提供了依據(jù)。
1 數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)
1.1 系統(tǒng)結(jié)構(gòu)和功能框架設(shè)計(jì)
基于關(guān)聯(lián)規(guī)則的運(yùn)動(dòng)訓(xùn)練生化指標(biāo)數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)與功能框架的設(shè)計(jì)需要建立一個(gè)分布式的數(shù)據(jù)挖掘平臺,關(guān)聯(lián)規(guī)則集成數(shù)據(jù)庫、數(shù)據(jù)挖掘的模型以及知識挖掘表達(dá)等功能。該系統(tǒng)選擇將數(shù)據(jù)倉庫中的數(shù)據(jù)作為挖掘的對象,并采用關(guān)聯(lián)規(guī)則原理和方法提取拓?fù)潢P(guān)系的信息,使用具體數(shù)據(jù)模型進(jìn)行處理與挖掘,根據(jù)圖形結(jié)果的表達(dá)來探詢關(guān)聯(lián)規(guī)則的內(nèi)在信息,通過傳統(tǒng)分析功能獲取抽象規(guī)則[1]。
為了滿足該系統(tǒng)的需求,采用三層結(jié)構(gòu)的B/S模式,將后臺的數(shù)據(jù)庫存儲(chǔ)以及挖掘的數(shù)據(jù)作為參考,將關(guān)聯(lián)規(guī)則的數(shù)據(jù)引擎SDE作為連接器[2]。在該應(yīng)用服務(wù)器上與相應(yīng)的數(shù)據(jù)進(jìn)行配置,并將數(shù)據(jù)挖掘的客戶端與文件和描述文件存放在服務(wù)器上,使多個(gè)客戶機(jī)能同時(shí)訪問Web頁面,并激發(fā)下載與之相關(guān)的數(shù)據(jù)挖掘客戶端。該系統(tǒng)功能框架主要由以下三部分構(gòu)成,如圖1所示。
由圖1可知:基于關(guān)聯(lián)規(guī)則的運(yùn)動(dòng)訓(xùn)練生化指標(biāo)的數(shù)據(jù)管理和人機(jī)交互模塊是整個(gè)系統(tǒng)的核心模塊,采用ArcSDE完成數(shù)據(jù)挖掘的信息抽取,而模塊中的組件用于對原始數(shù)據(jù)挖掘,其中,應(yīng)用層Web的服務(wù)器負(fù)責(zé)接收教練員、訓(xùn)練中心和體育局的決策人員經(jīng)過瀏覽器發(fā)送的請求,然后根據(jù)數(shù)據(jù)庫服務(wù)器獲取的數(shù)據(jù)再傳送回瀏覽器[3],進(jìn)而實(shí)現(xiàn)系統(tǒng)框架的設(shè)計(jì)。
1.2 數(shù)據(jù)挖掘系統(tǒng)模塊設(shè)計(jì)
運(yùn)動(dòng)訓(xùn)練生化指標(biāo)數(shù)據(jù)挖掘?qū)\(yùn)動(dòng)員來說具有重大意義,也是關(guān)注的焦點(diǎn)。
1.2.1 數(shù)據(jù)選取
從數(shù)據(jù)庫中選擇運(yùn)動(dòng)訓(xùn)練的生化指標(biāo),主要包括:血色素(HB)、血肌酸激酶(CK)、血尿素氮(BUN)以及睪酮(T),除去性別與年齡[4],原始數(shù)據(jù)如表1所示。
1.2.2 數(shù)據(jù)預(yù)處理
對數(shù)據(jù)進(jìn)行預(yù)處理時(shí),需要將大量具有屬性指標(biāo)的數(shù)據(jù)進(jìn)行記錄,假設(shè)考慮每一個(gè)指標(biāo),那么就會(huì)存在以下問題:指標(biāo)多、無代表性;指標(biāo)存在不同程度的關(guān)聯(lián)性,容易造成數(shù)據(jù)維數(shù)禍害而導(dǎo)致數(shù)據(jù)挖掘效率降低[5]。主成分分析方法能夠?qū)⑦@類指標(biāo)的維數(shù)降低,通過綜合指標(biāo)表示原有的指標(biāo),并將復(fù)雜指標(biāo)簡化為簡單的綜合指標(biāo)[6],如表2所示。
) 經(jīng)過對數(shù)據(jù)的查詢與分析,需要將目標(biāo)有關(guān)的對象與參照集合共同收集到數(shù)據(jù)庫當(dāng)中[7]。數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則[X?Y,]所有事物所包含的百分比稱之為[X?Y]的期望置信度[8];將置信度與期望的置信度進(jìn)行對比,獲取興趣度[(f)]為:
[f=置信度X?Y期望置信度X?Y] (1)
興趣度能度量所有事物所包含的[X,Y]相關(guān)度。
2) 在粗略層次上進(jìn)行謂詞計(jì)算,將目標(biāo)設(shè)定為最小的限定矩形,抽取距離落在預(yù)定閾值之內(nèi)作為對象,將對象關(guān)系的謂詞存儲(chǔ)在數(shù)據(jù)庫當(dāng)中,屬性值被設(shè)定為單個(gè)值或一組值。
3) 不同謂詞具有不同的支持度,即:
[支持度X,Y=f×支持度X×支持度Y] (2)
將支持度較小的閾值排除,進(jìn)而形成常用數(shù)據(jù)庫。
4) 在常用數(shù)據(jù)庫中執(zhí)行準(zhǔn)確的空間計(jì)算,采用MBR技術(shù)對謂詞之間的關(guān)系進(jìn)行檢查,排除掉與實(shí)際不符合的謂詞關(guān)系,進(jìn)而形成拓?fù)鋽?shù)據(jù)表,由此計(jì)算謂詞的支持度,排除支持度較小的項(xiàng)目進(jìn)而形成最優(yōu)的數(shù)據(jù)庫[9?10]。
5) 對步驟4)的拓?fù)潢P(guān)系進(jìn)行概化,形成新的拓?fù)潢P(guān)系數(shù)據(jù)表,進(jìn)而完成對數(shù)據(jù)的挖掘。
2 實(shí) 驗(yàn)
為了驗(yàn)證基于關(guān)聯(lián)規(guī)則的運(yùn)動(dòng)訓(xùn)練生化指標(biāo)數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)的合理性,進(jìn)行了如下實(shí)驗(yàn)。首先需要對實(shí)驗(yàn)參數(shù)進(jìn)行設(shè)置,選取某體育學(xué)院50名學(xué)生運(yùn)動(dòng)訓(xùn)練的生化指標(biāo):血色素(HB)、血肌酸激酶(CK)、血尿素氮(BUN)以及睪酮(T),在GoogleAppEngine平臺上進(jìn)行數(shù)據(jù)挖掘,將數(shù)據(jù)集作為輸入的標(biāo)準(zhǔn),根據(jù)不同的數(shù)據(jù)量分成5組,分別在傳統(tǒng)和基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘設(shè)計(jì)的系統(tǒng)上進(jìn)行數(shù)據(jù)挖掘,以此驗(yàn)證該系統(tǒng)設(shè)計(jì)的合理性。
2.1 數(shù)據(jù)挖掘速率結(jié)果與分析
對50名學(xué)生的訓(xùn)練生化指標(biāo)數(shù)據(jù)進(jìn)行分組,共分為5組,分別在傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)與基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘系統(tǒng)進(jìn)行實(shí)驗(yàn),并記錄數(shù)據(jù)挖掘所耗費(fèi)的時(shí)間,結(jié)果如表3所示。
由表3可知:當(dāng)數(shù)據(jù)采集量為2 000時(shí),傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)所耗費(fèi)的時(shí)間為8.25 s,而基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘系統(tǒng)所耗費(fèi)的時(shí)間為2.31 s;當(dāng)數(shù)據(jù)采集量為10 000時(shí),傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)所耗費(fèi)的時(shí)間為821.45 s,而基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘系統(tǒng)所耗費(fèi)的時(shí)間為65.78 s;當(dāng)數(shù)據(jù)采集量為18 000時(shí),傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)所耗費(fèi)的時(shí)間為2 015.68 s,而基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘系統(tǒng)所耗費(fèi)的時(shí)間為91.65 s。明顯看出,傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)所耗費(fèi)的時(shí)間較長。
根據(jù)數(shù)據(jù)挖掘系統(tǒng)所耗費(fèi)的時(shí)間繪制兩種系統(tǒng)進(jìn)行數(shù)據(jù)挖掘時(shí)所運(yùn)行的速率,結(jié)果如圖3所示。
由圖3可知:基于關(guān)聯(lián)規(guī)則的運(yùn)動(dòng)訓(xùn)練生化指標(biāo)數(shù)據(jù)挖掘系統(tǒng)的速率明顯比傳統(tǒng)數(shù)據(jù)挖掘速率要快,且隨著數(shù)據(jù)采集量的增加,該系統(tǒng)數(shù)據(jù)挖掘速率優(yōu)勢更加明顯;而傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)存在不能對大數(shù)據(jù)進(jìn)行快速分析等問題,導(dǎo)致大量數(shù)據(jù)積壓,不能及時(shí)處理,進(jìn)而降低了系統(tǒng)挖掘數(shù)據(jù)的速率。
2.2 數(shù)據(jù)挖掘的可信度結(jié)果與分析
基于本文采用的關(guān)聯(lián)規(guī)則算法對運(yùn)動(dòng)訓(xùn)練生化指標(biāo)的數(shù)據(jù)挖掘,從表2中選取支持度為20%的頻繁1項(xiàng),由頻繁1項(xiàng)按照步驟進(jìn)行挖掘,選取可信度為70%的進(jìn)行挖掘,挖掘結(jié)果如表4所示。
根據(jù)表4中第2個(gè)規(guī)則說明了血色素(HB)指標(biāo)大小范圍在13~17 g/dL的運(yùn)動(dòng)員可信度為77.9%;第4個(gè)規(guī)則說明了血色素(HB)指標(biāo)大小范圍在14~18 g/L的運(yùn)動(dòng)員可信度為82.1%;第6個(gè)規(guī)則說明了血肌酸激酶(CK)指標(biāo)大小范圍在50~130 U/L的運(yùn)動(dòng)員可信度為85%;對于其他運(yùn)動(dòng)員來說,血肌酸激酶(CK)大小為[80~150 U/L]的運(yùn)動(dòng)員的可信度為100%。
基于關(guān)聯(lián)規(guī)則的運(yùn)動(dòng)訓(xùn)練生化指標(biāo)數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)對數(shù)據(jù)挖掘的可信度較高,能夠?yàn)檫\(yùn)動(dòng)訓(xùn)練模式與訓(xùn)練計(jì)劃的制定提供依據(jù)。
2.3 實(shí)驗(yàn)結(jié)論
根據(jù)上述實(shí)驗(yàn)內(nèi)容得出實(shí)驗(yàn)結(jié)果:基于關(guān)聯(lián)規(guī)則的運(yùn)動(dòng)訓(xùn)練生化指標(biāo)數(shù)據(jù)挖掘系統(tǒng)的速率明顯比傳統(tǒng)數(shù)據(jù)挖掘速率要快,且隨著數(shù)據(jù)采集量的增加,該系統(tǒng)數(shù)據(jù)挖掘速率優(yōu)勢更加明顯;而傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)存在不能對大數(shù)據(jù)進(jìn)行快速分析等問題,導(dǎo)致大量數(shù)據(jù)積壓,不能及時(shí)處理,進(jìn)而降低了系統(tǒng)挖掘數(shù)據(jù)的速率。而且該系統(tǒng)對數(shù)據(jù)挖掘的可信度較高,能夠?yàn)檫\(yùn)動(dòng)訓(xùn)練模式與訓(xùn)練計(jì)劃的制定提供依據(jù)。
3 結(jié) 語
為了能夠更好地為運(yùn)動(dòng)項(xiàng)目提供決策,針對關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘研究進(jìn)行了深入的分析與設(shè)計(jì),將各種指標(biāo)因素與成績好壞的關(guān)系結(jié)合起來,在關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的分析基礎(chǔ)上,制定更加合理的科學(xué)評價(jià)方法,為運(yùn)動(dòng)生化指標(biāo)數(shù)據(jù)挖掘提供更加合理的評定標(biāo)準(zhǔn),也為今后的訓(xùn)練方案提供了依據(jù)。
參考文獻(xiàn)
[1] 李悅,孫健,邱志祺.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[J].現(xiàn)代電子技術(shù),2016,39(23):121?123.
LI Yue, SUN Jian, QIU Zhiqi. Application and research on data mining technology based on association rules [J]. Modern electronics technique, 2016, 39(23): 121?123.
[2] 唐曉東.基于關(guān)聯(lián)規(guī)則映射的生物信息網(wǎng)絡(luò)多維數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)應(yīng)用研究,2015,32(6):1614?1616.
TANG Xiaodong. Biological information network multidimensional data mining algorithm based on association rules mapping [J]. Application research of computers, 2015, 32(6): 1614?1616
[3] 謝修娟,莫凌飛,朱林.基于關(guān)聯(lián)規(guī)則的濫用入侵檢測系統(tǒng)的研究與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2017,40(2):43?47.
XIE Xiujuan, MO Lingfei, ZHU Lin. Research and implementation of misuse intrusion detection system based on association rules [J]. Modern electronics technique, 2017, 40(2): 43?47.
[4] 徐開勇,龔雪容,成茂才.基于改進(jìn)Apriori算法的審計(jì)日志關(guān)聯(lián)規(guī)則挖掘[J].計(jì)算機(jī)應(yīng)用,2016,36(7):1847?1851.
XU Kaiyong, GONG Xuerong, CHENG Maocai. Audit log association rule mining based on improved Apriori algorithm [J]. Journal of computer applications, 2016, 36(7): 1847?1851.
[5] 王宏,于勇,印璞,等.基于關(guān)聯(lián)規(guī)則的MBD數(shù)據(jù)集定義研究與實(shí)現(xiàn)[J].北京航空航天大學(xué)學(xué)報(bào),2015,41(12):2377?2383.
WANG Hong, YU Yong, YIN Pu, et al. Research and implementation of MBD dataset definition based on association rules [J]. Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(12): 2377?2383.
[6] 林穎華,陳長鳳.基于關(guān)聯(lián)規(guī)則的企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)評價(jià)研究[J].會(huì)計(jì)之友,2017,22(1):32?35.
LIN Yinghua, CHEN Changfeng. Research on enterprise financial risk assessment based on association rules [J]. Friends of accounting, 2017, 22(1): 32?35.
[7] 梁路,王彪,王劍輝.一種結(jié)合OCAT邏輯方法的細(xì)粒度的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(12):2667?2670.
LIANG Lu, WANG Biao, WANG Jianhui. A fine?gained association rule data mining based on OCAT logical method [J]. Journal of Chinese computer systems, 2015, 36(12): 2667?2670.
[8] 王文槿,劉寶旭.一種基于關(guān)聯(lián)規(guī)則挖掘的入侵檢測系統(tǒng)[J].核電子學(xué)與探測技術(shù),2015,21(2):119?123.
WANG Wenjin, LIU Baoxu. Association rule?based network intrusion detection system [J]. Nuclear electronics & detection technology, 2015, 21(2): 119?123.
[9] 鄒元君,姜彤偉.基于改進(jìn)關(guān)聯(lián)規(guī)則的圖像挖掘技術(shù)研究[J].現(xiàn)代電子技術(shù),2017,40(16):109?111.
ZOU Yuanjun, JIANG Tongwei. Research on image mining technology based on improved association rules [J]. Modern electronics technique, 2017, 40(16): 109?111.
[10] 周芳.基于關(guān)聯(lián)規(guī)則Apriori算法的物聯(lián)網(wǎng)海量數(shù)據(jù)挖掘系統(tǒng)研究[J].河北北方學(xué)院學(xué)報(bào)(自然科學(xué)版),2015,32(1):15?18.
ZHOU Fang. Mass data mining system for Internet of Things based on association rules Apriori algorithm [J]. Journal of Hebei North University (natural science edition), 2015, 32(1): 15?18.