• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向糖尿病數(shù)據(jù)集挖掘頻繁項(xiàng)目集和關(guān)聯(lián)規(guī)則*

      2022-12-16 09:23:00耿飆梁成全
      計(jì)算機(jī)時(shí)代 2022年12期
      關(guān)鍵詞:關(guān)聯(lián)可視化數(shù)量

      耿飆,梁成全

      (1.蘇州衛(wèi)生職業(yè)技術(shù)學(xué)院基礎(chǔ)部,江蘇 蘇州 215009;2.華東療養(yǎng)院信息科)

      0 引言

      從大型數(shù)據(jù)庫(kù)中提取知識(shí)是數(shù)據(jù)挖掘中的重要內(nèi)容。在過(guò)去的幾十年中,已經(jīng)開(kāi)發(fā)了一些算法[1-3]。本文對(duì)關(guān)聯(lián)規(guī)則算法如基于FP-Growth[4]的算法及其變體,以及CFP-Growth[5]和ICFP-Growth[6],對(duì)這三種算法進(jìn)行比較研究。ICFP-Growth 是CPF-Growth 算法的改進(jìn)版本,該算法包括三個(gè)步驟:多項(xiàng)目支持樹(shù)(MIS-Tree)[7]的構(gòu)建、緊湊型MIS 樹(shù)的提取和緊湊型MIS 挖掘樹(shù)。本文開(kāi)發(fā)環(huán)境:操作系統(tǒng)Windows 10專業(yè)版;軟件平臺(tái)為Python 3.7.6。數(shù)據(jù)集是女性的糖尿病數(shù)據(jù)集(https://www.kaggle.com/mathchi/diabetesdata-set)。它分為兩個(gè)“.csv”文件,第一個(gè)用于訓(xùn)練數(shù)據(jù)集,另一個(gè)用于測(cè)試數(shù)據(jù)集。這兩個(gè)“.csv”文件包含8 個(gè)功能:①懷孕次數(shù);②葡萄糖;③血壓;④皮膚厚度;⑤胰島素;⑥BMI:體重指數(shù);⑦糖尿病譜系函數(shù);⑧年齡。

      1 數(shù)據(jù)庫(kù)轉(zhuǎn)換

      該數(shù)據(jù)集僅包含數(shù)值。FP-Growth、CFP-Growth和ICFP-Growth接受事務(wù)數(shù)據(jù)集。糖尿病數(shù)據(jù)集(數(shù)值數(shù)據(jù)集)被轉(zhuǎn)換為交易數(shù)據(jù)集。為了進(jìn)行這種轉(zhuǎn)換,每個(gè)特征都被可視化,以便了解它在個(gè)體數(shù)量中的變化,將每個(gè)特征重新劃分組合為幾個(gè)個(gè)體的域。0:表示無(wú)糖尿病,1:表示有糖尿病。

      第一個(gè)特征是年齡,可視化結(jié)果如圖1所示。

      圖1 年齡與個(gè)體數(shù)量

      在范圍[20,30]中所看到的,與糖尿病患者的數(shù)量相比,沒(méi)有糖尿病的人數(shù)很高,而對(duì)于范圍[30,80],0和1兩個(gè)類別的人數(shù)幾乎相同,所以可將特征的范圍分為兩個(gè)域:A1:[0,30]和A2:[30,80]。

      第二個(gè)特征是血壓,結(jié)果如圖2 所示。在[0,40]范圍內(nèi),對(duì)0 類和1 類有相同的變化,在[40,90]中,0 類最高,在[90,120]范圍內(nèi),也有0 類和1 類的相同變體,因此將此特征劃分為三個(gè)域:B1:[0,40];B2:[40,90];B3:[90,120]。

      圖2 血壓與個(gè)體數(shù)量

      第三個(gè)特征是BMI,可視化結(jié)果如圖3所示??梢詫MI特征的范圍劃分為兩個(gè)域,第一個(gè)BMI1:[0,30],其中有0類的個(gè)體數(shù)量高于1類,第二個(gè)是BMI2:[30,60]其中兩個(gè)類具有幾乎相同的變化。

      圖3 BMI與個(gè)體數(shù)量

      第四個(gè)特征是糖尿病譜系函數(shù),可視化在圖4中。在這張圖中,可以看到在[0,0.8]中,0 類的個(gè)體數(shù)量最多,而在[0.8,2.5]范圍內(nèi),相反,類1 的個(gè)體數(shù)量最多,因此可以將特征分為兩個(gè)域:D1:[0,0.8]和D2:[0.8,2.5]。

      圖4 糖尿病譜系功能與個(gè)體數(shù)量

      第五個(gè)特征是葡萄糖,其可視化結(jié)果如圖5所示。在范圍[0,125]內(nèi),與類別1 的個(gè)體數(shù)量相比,類別0 的數(shù)量較多,而對(duì)于范圍[125,200],對(duì)于0 類和1 類個(gè)體數(shù)量幾乎相同,可以將特征的范圍劃分為兩個(gè)域:G1:[0,125]和G2:[125,200]。

      圖5 葡萄糖與個(gè)體數(shù)量

      第六個(gè)特征是胰島素,結(jié)果如圖6 所示。在[0,30]范圍內(nèi)的胰島素與個(gè)體數(shù)量的關(guān)系中,對(duì)于0類和1類有幾乎相同的變化,在范圍[30,150]內(nèi),0 類高于1 類,在范圍[150,800]內(nèi),也有0 類和1 類的相同變體,因此將此特征劃分為三個(gè)域:I1:[0,30];I2:[30,150];I3:[150,800]。

      圖6 胰島素與個(gè)體數(shù)量

      第七個(gè)特征是Pregnancy,可視化結(jié)果如圖7所示??梢詫regnancies 特征的范圍劃分為兩個(gè)域,第一個(gè)P1:[0,7],其中0 類的個(gè)體數(shù)量高于1 類個(gè)體的數(shù)量,第二個(gè)是P2:[7,17]其中兩個(gè)類具有幾乎相同的變化。

      圖7 懷孕與個(gè)體數(shù)量

      最后一個(gè)特征是皮膚厚度,可視化在圖8 中。在這張圖中,可以看到在[0,8]中,兩個(gè)類的變化幾乎相同,而在[8,45]中,0 類的個(gè)體數(shù)量幾乎比1 類多。此外,對(duì)于[45,60]范圍,這兩個(gè)類也有相同的變化,因此可以將特征分為三個(gè)域:S1:[0,8],S2:[8,45]和S3:[45,60]。

      圖8 皮膚厚度與個(gè)體數(shù)量

      經(jīng)過(guò)以上分析,可以總結(jié)出所有轉(zhuǎn)換的信息。轉(zhuǎn)換結(jié)果如表1所示。

      表1 轉(zhuǎn)換結(jié)果

      現(xiàn)在可以使用域?qū)?shù)據(jù)集轉(zhuǎn)換為事務(wù)數(shù)據(jù)集。從轉(zhuǎn)換中獲得的結(jié)果如圖9所示。

      圖9 轉(zhuǎn)換的部分結(jié)果

      2 關(guān)聯(lián)規(guī)則的提取

      首先,必須初始化FP-Growth 的minsupport,以及CFP-Growth和ICFP-Growth的MIS值。要為CFP增長(zhǎng)分配MIS值,使用式⑴。

      其中MIS(i)是項(xiàng)目“i”的MIS 值。β ∈[0,1]是一個(gè)參數(shù),它控制項(xiàng)目的MIS 值,與其頻率相關(guān)。f(i)是項(xiàng)目“i”的頻率值。LS 是一個(gè)使用指定值,表示允許的最小支持。此外,對(duì)于ICFP-Growth,有:

      在本實(shí)驗(yàn)中,我們將FP-Growth 的最小支持定義為40,對(duì)于CFP-Growth的β等于0.1,LS等于40,對(duì)于ICFP-Growth,SD值為0.1,LMS等于50,LMIS等于40。

      針對(duì)CFP-Growth的MIS值生成結(jié)果如表2所示。此外,對(duì)于ICFP-Growth,MIS 值初始化的結(jié)果在表3中給出。

      表2 CFP-Growth算法的MIS值

      表3 ICFP-Growth算法的MIS值

      在該數(shù)據(jù)集上應(yīng)用這三種算法后,獲得了三個(gè)包含關(guān)聯(lián)規(guī)則的模型,如圖10所示。

      圖10 已獲取關(guān)聯(lián)規(guī)則

      我們所提模型的結(jié)構(gòu)是(left)→(right,Confidence)。左為因,右為果。置信度是[0,1] 范圍內(nèi)的一個(gè)數(shù)字,它可以表示有多少左可以將我們引向右,有多少原因可以導(dǎo)致結(jié)果,使用式⑷計(jì)算置信度:

      圖11顯示了所有特征之間的關(guān)聯(lián)規(guī)則,但在所給例子中,想要做一個(gè)分類模型,因?yàn)檫^(guò)濾關(guān)聯(lián)規(guī)則以在結(jié)果(右)中只包含代表類的項(xiàng)目('0'和'1'),結(jié)果如圖11所示。

      圖11 關(guān)聯(lián)規(guī)則結(jié)果

      在圖中有分類模型的關(guān)聯(lián),例如有這個(gè)關(guān)聯(lián)規(guī)則('A2','BMI2','G2','P2')→(('1'),0.89)。這表示如果個(gè)人的年齡在[30,80]之間,則為A2。BMI2體重指數(shù)在[30,60]范圍內(nèi),G2血漿葡萄糖濃度在口服葡萄糖耐量試驗(yàn)中2小時(shí)在[125,200]范圍內(nèi),P2懷孕次數(shù)在[7,17]之間,因此可以看到該個(gè)體患有糖尿病,置信度為0.89。

      3 性能評(píng)價(jià)

      FP-Growth、CFP-Growth 和ICFP-Growth 這三種算法使用與在訓(xùn)練數(shù)據(jù)集上應(yīng)用的相同預(yù)處理進(jìn)行評(píng)估,以將數(shù)值數(shù)據(jù)集轉(zhuǎn)換為事務(wù)數(shù)據(jù)集。之后,從數(shù)據(jù)集中取出一個(gè)事務(wù),并計(jì)算測(cè)試事務(wù)與模型關(guān)聯(lián)規(guī)則左側(cè)的距離。在這種情況下,使用一種方法來(lái)計(jì)算距離。例如,有T測(cè)試交易和G模型中存在的關(guān)聯(lián)規(guī)則的左側(cè)。T=['P1','G1','B2','S2','I3','BMI2','D2','A2'],G=['A1','B3','BMI2','D1','G2','I2','P1']。

      首先,在數(shù)據(jù)集中有八個(gè)特征。將距離初始化為8,并檢查T 的每個(gè)項(xiàng)目是否存在于G 中,并且對(duì)于每個(gè)項(xiàng)目存在,將距離減1。在這個(gè)例子中,有P1存在于T 和G,所以距離是7。另外,G1 不存在于G,所以仍然有距離是7,而B(niǎo)2、S2、I3、D2、A2 也沒(méi)有。t 存在于G 中,有BMI2存在,所以將距離減1,這時(shí)有距離等于6,G 和T 之間的距離是6。另外,在計(jì)算距離之后,選擇三個(gè)closet 關(guān)聯(lián)規(guī)則,計(jì)算誰(shuí)對(duì)“0”和“1”投了多少票,然后選擇票數(shù)最高的類。在這個(gè)測(cè)試過(guò)程之后,計(jì)算每個(gè)算法的準(zhǔn)確性。三種算法FP-Growth、CFP-Growth和ICFP-Growth的準(zhǔn)確率分別為51.30%,57%和60.5%。

      4 總結(jié)

      頻繁項(xiàng)目集挖掘是數(shù)據(jù)挖掘中的一個(gè)重要課題。本文實(shí)現(xiàn)了三種關(guān)聯(lián)規(guī)則算法,即FP-Growth、CFPGrowth 和ICFP-Growth。這些算法使用python 編程語(yǔ)言提取糖尿病數(shù)據(jù)集上的頻繁項(xiàng)目集。實(shí)驗(yàn)結(jié)果表明,ICFP-Growth比其他兩種算法更準(zhǔn)確。

      猜你喜歡
      關(guān)聯(lián)可視化數(shù)量
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      基于CGAL和OpenGL的海底地形三維可視化
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
      統(tǒng)一數(shù)量再比較
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      頭發(fā)的數(shù)量
      我國(guó)博物館數(shù)量達(dá)4510家
      宝丰县| 乐山市| 长海县| 余干县| 汉阴县| 铁力市| 清涧县| 泰来县| 井研县| 大竹县| 大庆市| 平塘县| 满城县| 永新县| 靖西县| 左贡县| 青铜峡市| 平原县| 乐山市| 静安区| 恩平市| 常山县| 胶州市| 桃江县| 南丹县| 兴安县| 修文县| 旺苍县| 铜梁县| 新兴县| 合川市| 宁化县| 含山县| 汾阳市| 托克逊县| 汉源县| 西吉县| 江陵县| 抚松县| 宝鸡市| 武义县|