常琴雪 王肖萌 王 淳 王柯云 劉媛媛 李長(zhǎng)平 孫繼佳 崔 壯△ 馬 駿
【提 要】 目的 研究上海地區(qū)老年人健康體檢數(shù)據(jù),分析與老年人脂肪肝患病相關(guān)的因素以及多個(gè)因素間潛在的交互作用。方法 選取2017年上海某社區(qū)60歲及以上老年人體檢的臨床健康數(shù)據(jù)作為研究對(duì)象,脂肪肝影響因素的篩選先采用LASSO回歸進(jìn)行降維和消除變量之間的多重共線性,再采用逐步回歸法構(gòu)建logistic回歸模型。關(guān)聯(lián)規(guī)則建模并提取與脂肪肝患病相關(guān)的規(guī)則。結(jié)果 在所有6252例研究對(duì)象中,病例組3345例,該社區(qū)老年人脂肪肝患病率為53.50%,為高患病率。性別、BMI、高脂血癥、白蛋白、谷丙轉(zhuǎn)氨酶、谷草轉(zhuǎn)氨酶、平均紅細(xì)胞體積、紅細(xì)胞壓積、尿素、平均血紅蛋白含量、血小板、單核細(xì)胞數(shù)、血小板容積、肌酐、總膽固醇、葡萄糖含量、低密度脂蛋白、甘油三酯、尿酸為老年人患脂肪肝的獨(dú)立影響因素。關(guān)聯(lián)規(guī)則提示性別、BMI、高血壓、低密度脂蛋白等變量關(guān)聯(lián)在一起時(shí),一定程度上增加脂肪肝發(fā)生的風(fēng)險(xiǎn)。結(jié)論 分析與脂肪肝患病相關(guān)的因素以及多個(gè)因素間潛在的交互作用,能夠?yàn)橹靖蔚脑缙陬A(yù)防與控制提供信息參考,從而更好地預(yù)防脂肪肝的發(fā)生。
脂肪肝(fatty liver,F(xiàn)L)是指由于各種原因?qū)е碌母渭?xì)胞中脂肪過(guò)度堆積的病變,它是一種常見(jiàn)的肝臟病理變化,而不是一種獨(dú)立的疾病[1]。脂肪肝是多種癥狀群的集合,它與性別、年齡、相關(guān)生理生化指標(biāo)以及影像學(xué)癥候間必然存在或多或少的聯(lián)系,僅僅通過(guò)一個(gè)或兩個(gè)指標(biāo)去解釋脂肪肝的發(fā)生與發(fā)展機(jī)制是不現(xiàn)實(shí)的。這是因?yàn)楫?dāng)人體某器官發(fā)生病變時(shí),單一的生理指標(biāo)常常不足以反映人體健康狀況,從而無(wú)法解釋病情[2]。體檢數(shù)據(jù)作為醫(yī)學(xué)信息的重要部分,需利用機(jī)器學(xué)習(xí)方法進(jìn)行相關(guān)的挖掘分析。通過(guò)對(duì)健康體檢數(shù)據(jù)的挖掘,脂肪肝相關(guān)因素之間可能存在諸多交互效應(yīng)。所謂交互效應(yīng),指的是當(dāng)某自變量對(duì)因變量的作用效應(yīng)的大小與另一個(gè)自變量的取值有關(guān)時(shí),則表示兩個(gè)變量具有交互作用[3]。
本研究基于經(jīng)典機(jī)器學(xué)習(xí)方法,利用回歸算法篩選出脂肪肝相關(guān)因素,用關(guān)聯(lián)規(guī)則Aprior算法建模并提取強(qiáng)關(guān)聯(lián)條,分析與脂肪肝患病相關(guān)的因素以及多個(gè)因素間潛在的交互作用,為脂肪肝的早期預(yù)防與控制提供信息參考,從而更好地預(yù)防脂肪肝的發(fā)生。
1.數(shù)據(jù)來(lái)源
主要采用2017年上海某社區(qū)的60歲及以上老年人體檢的臨床健康數(shù)據(jù),對(duì)6664例原始數(shù)據(jù)進(jìn)行建模和分析。收集性別、年齡、體重指數(shù)(BMI)、相關(guān)生化指標(biāo)與病史情況共48項(xiàng)內(nèi)容作為自變量預(yù)測(cè)出現(xiàn)脂肪肝的概率,生化指標(biāo)包括白蛋白、血紅蛋白、白細(xì)胞、紅細(xì)胞、平均紅細(xì)胞體積、紅細(xì)胞壓積、平均血紅蛋白含量、平均血紅蛋白濃度、紅細(xì)胞分布寬度、紅細(xì)胞分布寬度變異系數(shù)、血小板、血小板分布寬度、血小板容積、大型血小板比率、平均血小板體積、谷丙轉(zhuǎn)氨酶、谷草轉(zhuǎn)氨酶、總膽固醇、總膽紅素、肌酐、高密度脂蛋白、低密度脂蛋白、甲胎蛋白、癌胚抗原測(cè)試、甘油三酯、尿素、尿酸、葡萄糖、嗜堿性粒細(xì)胞數(shù)、嗜堿性細(xì)胞比率、嗜酸性粒細(xì)胞數(shù)、嗜酸性粒細(xì)胞比率、淋巴細(xì)胞數(shù)、淋巴細(xì)胞比率、單核細(xì)胞數(shù)、單核細(xì)胞比率、中性細(xì)胞數(shù)、中性細(xì)胞比率,病史情況包括高血壓、糖尿病、心臟病、腦梗、慢阻肺、骨質(zhì)疏松、高血脂。
2.數(shù)據(jù)處理
由于體檢數(shù)據(jù)具有不完整性、多樣性以及存在缺失值等特點(diǎn),在進(jìn)行數(shù)據(jù)挖掘分析前,需要對(duì)體檢數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理措施,如對(duì)缺失數(shù)據(jù)進(jìn)行多重插補(bǔ)。通過(guò)數(shù)據(jù)預(yù)處理最終獲得6252例原始數(shù)據(jù),即為本文最終的研究數(shù)據(jù)。病史情況中將“患病”與“正?!狈謩e賦值1和0。關(guān)聯(lián)規(guī)則使用定性變量分類,因此,需要對(duì)定量數(shù)據(jù)進(jìn)行離散化處理。將BMI按照小于18.5(體重偏瘦),介于18.5和24(體重正常),介于24和28(體重超重)和大于28(體重肥胖)劃分為四個(gè)等級(jí),其他相關(guān)生化指標(biāo)依照公認(rèn)的醫(yī)學(xué)參考值范圍劃分為“異?!焙汀罢!?,分別賦值為1和0,再進(jìn)行關(guān)聯(lián)規(guī)則建模。
3.統(tǒng)計(jì)學(xué)方法
1.脂肪肝患病情況的單因素分析
在所有6252例研究對(duì)象中,患脂肪肝3345例,患病率為53.5%。其中男性和女性的患病率分別為51.24%和55.38%,差異有統(tǒng)計(jì)學(xué)意義(P<0.001)。兩組在年齡、BMI和白蛋白、白細(xì)胞、谷丙轉(zhuǎn)氨酶、谷草轉(zhuǎn)氨酶等28項(xiàng)生化指標(biāo)數(shù)值比較差異具有統(tǒng)計(jì)學(xué)意義(P<0.05),見(jiàn)表1。病例組和對(duì)照組在高血壓、糖尿病、慢阻肺和高脂血癥等病史情況比較差異具有統(tǒng)計(jì)學(xué)意義(P<0.05),見(jiàn)表2。
表1 病例組與對(duì)照組的相關(guān)生化指標(biāo)參數(shù)比較
2.脂肪肝患病情況的LASSO回歸分析
以脂肪肝患病結(jié)局為因變量,將性別、年齡、BMI和白蛋白、白細(xì)胞、谷丙轉(zhuǎn)氨酶、谷草轉(zhuǎn)氨酶等28項(xiàng)生化指標(biāo)和高血壓、糖尿病等4項(xiàng)病史情況,共35項(xiàng)單因素差異具有統(tǒng)計(jì)學(xué)意義的變量納入LASSO回歸模型中,篩選與脂肪肝患病相關(guān)的變量。在Cp統(tǒng)計(jì)量(Mallows Cp統(tǒng)計(jì)量)取最小時(shí),LASSO回歸篩掉紅細(xì)胞、中性細(xì)胞比率、血紅蛋白、淋巴細(xì)胞比率和中性細(xì)胞數(shù)這5項(xiàng)生化指標(biāo),既消除了自變量間的多重共線性并起到了降維的作用。
3.脂肪肝患病情況的多因素logistic回歸分析
將經(jīng)LASSO回歸篩選后的30項(xiàng)變量納入到logistic回歸分析中,逐步回歸的結(jié)果顯示:性別、BMI、白蛋白、谷丙轉(zhuǎn)氨酶、谷草轉(zhuǎn)氨酶、平均紅細(xì)胞體積、紅細(xì)胞壓積、尿素、平均血紅蛋白含量、葡萄糖含量、血小板、總膽固醇、單核細(xì)胞數(shù)、血小板容積、肌酐、低密度脂蛋白、甘油三酯、尿酸、高脂血癥為老年人患脂肪肝的獨(dú)立影響因素(P<0.05),見(jiàn)表3。
表3 老年人脂肪肝患病情況的多因素logistic回歸分析
4.關(guān)聯(lián)規(guī)則
在判斷關(guān)聯(lián)規(guī)則的可靠性時(shí),有研究發(fā)現(xiàn):當(dāng)最小支持度已確定時(shí),最小置信度>80%,提升度>1的關(guān)聯(lián)規(guī)則結(jié)果較為可靠[4]。因此,本研究中首先將最小置信度設(shè)立為80%,以脂肪肝患病情況為后項(xiàng),最小支持度逐漸降低,觀察并篩選得出的關(guān)聯(lián)規(guī)則結(jié)果。當(dāng)最小支持度為2%時(shí),挖掘出的信息較多且挖掘時(shí)間較短。最終,設(shè)立最小置信度為80%,最小支持度為2%,提升度>1作為篩選強(qiáng)關(guān)聯(lián)規(guī)則的標(biāo)準(zhǔn)。去除冗余規(guī)則后生成的與脂肪肝有關(guān)的強(qiáng)關(guān)聯(lián)規(guī)則見(jiàn)表4。
表4 脂肪肝相關(guān)因素的強(qiáng)關(guān)聯(lián)規(guī)則
總體而言,該社區(qū)60歲及以上老年人體檢數(shù)據(jù)脂肪肝相關(guān)因素以脂肪肝患病為后項(xiàng)的關(guān)聯(lián)規(guī)則顯示,脂肪肝的發(fā)生與性別、BMI、高血壓患病相關(guān),與低密度脂蛋白、總膽固醇、甘油三酯、谷丙轉(zhuǎn)氨酶、葡萄糖含量、肌酐等生化指標(biāo)的含量也密切相關(guān)。以關(guān)聯(lián)規(guī)則1為例說(shuō)明該強(qiáng)關(guān)聯(lián)條的意義:在全部研究對(duì)象中,體重肥胖、低密度脂蛋白含量異常、患脂肪肝的人占全部對(duì)象的2.93%,患脂肪肝在已知體重肥胖、低密度脂蛋白含量異常的人群中的條件概率為86.32%。提示體重肥胖、低密度脂蛋白含量異常的老年人通常患有脂肪肝。另外,在規(guī)則6的基礎(chǔ)上添加了一個(gè)前項(xiàng)變量,就得到規(guī)則2、3、4、7。規(guī)則6提示體重超重、甘油三脂含量異常的老年人通常患脂肪肝,規(guī)則2、3、4、7在這基礎(chǔ)上分別強(qiáng)調(diào)了總膽固醇、性別、高血壓和葡萄糖含量的影響。通過(guò)觀測(cè)指標(biāo)和疾病發(fā)生的關(guān)聯(lián)強(qiáng)弱,可以把某些體檢項(xiàng)目作為推斷某疾病是否發(fā)生的指標(biāo),對(duì)疾病的防治有重要的意義。關(guān)聯(lián)位點(diǎn)結(jié)構(gòu)見(jiàn)圖1。
圖1 關(guān)聯(lián)位點(diǎn)結(jié)構(gòu)
通過(guò)對(duì)體檢數(shù)據(jù)的研究分析,本研究發(fā)現(xiàn)性別、BMI、高脂血癥及谷丙轉(zhuǎn)氨酶、總膽固醇、葡萄糖含量、低密度脂蛋白、甘油三酯、尿酸等多項(xiàng)生化指標(biāo)為老年人患脂肪肝的獨(dú)立影響因素,這與周云慶、何陳等人的研究結(jié)果一致。在本文中,女性患病率略高于男性,與以往研究中男性患病率高于女性的結(jié)論不同[5],這可能是因?yàn)檠芯康貐^(qū)存在差異。此外,有研究發(fā)現(xiàn)調(diào)整了年齡和性別后,血脂異常(特別是高脂血癥)和體重肥胖是脂肪肝患病的重要危險(xiǎn)因素[6]。這也與臨床情況相符合:大部分肥胖病人患有高脂血癥[7],當(dāng)人體內(nèi)的血脂過(guò)高時(shí),甘油三酯在肝臟附近堆積就很有可能會(huì)使肝臟慢慢的變成脂肪肝情況。我們的研究還發(fā)現(xiàn)了白蛋白、肌酐、單核細(xì)胞數(shù)等其他指標(biāo)和脂肪肝密切相關(guān)。國(guó)外研究發(fā)現(xiàn),脂肪肝患者的尿白蛋白與肌酐的比值顯著高于健康人[8]。來(lái)自單核細(xì)胞的巨噬細(xì)胞是脂肪肝的驅(qū)動(dòng)因素,研究表明肝臟的巨噬細(xì)胞數(shù)量與脂肪肝嚴(yán)重程度之間呈正相關(guān)關(guān)系[9]。
本研究關(guān)聯(lián)規(guī)則的提升度在1.5左右,說(shuō)明前后項(xiàng)具有較強(qiáng)的關(guān)聯(lián)性。規(guī)則提示性別、BMI、高血壓、低密度脂蛋白、總膽固醇、甘油三酯、谷丙轉(zhuǎn)氨酶、葡萄糖含量、肌酐等變量關(guān)聯(lián)在一起時(shí),一定程度上增加脂肪肝發(fā)生的風(fēng)險(xiǎn),補(bǔ)充了logistic回歸的結(jié)果。提示在今后的脂肪肝預(yù)防中,當(dāng)聯(lián)合出現(xiàn)上述多種情況異常時(shí)應(yīng)提高警惕。此外,甘油三酯、葡萄糖含量可作為脂肪肝較敏感的生化指標(biāo)。但是本研究中得出的結(jié)果并不能提示因果關(guān)聯(lián),只在一定程度上提示是多因素間的交互作用的結(jié)果,并且疾病之間的關(guān)系強(qiáng)弱也需要進(jìn)一步的研究。
本文在變量選擇方面只采用了老年人體檢數(shù)據(jù)中的生化指標(biāo)數(shù)據(jù)和一些病史情況,刪去許多與脂肪肝發(fā)生相關(guān)的因素,如B超檢查、放射結(jié)果等,使得規(guī)則并不是十分全面與精確。在數(shù)據(jù)方面,BMI變量存在一定比例的缺失,但經(jīng)過(guò)BMI缺失組和未缺失組的其他變量比較,我們認(rèn)為BMI的缺失為隨機(jī)缺失,對(duì)結(jié)論無(wú)影響,經(jīng)多重插補(bǔ)后的研究結(jié)果具有可信性。此外,關(guān)聯(lián)規(guī)則在實(shí)際應(yīng)用中并沒(méi)有明確的評(píng)價(jià)標(biāo)準(zhǔn),常常是研究者根據(jù)研究背景以及關(guān)聯(lián)規(guī)則的數(shù)量選擇可能感興趣的強(qiáng)關(guān)聯(lián)條,具有一定的主觀性。但關(guān)聯(lián)規(guī)則結(jié)果能夠形象直觀地反映候選變量之間的關(guān)系,在結(jié)果的臨床解釋上也有較高的專業(yè)性。
隨著信息化技術(shù)的飛速發(fā)展,醫(yī)學(xué)數(shù)據(jù)越來(lái)越呈現(xiàn)海量、復(fù)雜多變的特點(diǎn),需要更具效率和效能的方法來(lái)分析。在本文中,基于數(shù)據(jù)存在較多的變量,LASSO回歸進(jìn)行了降維并消除了變量間的多重共線性,有利于logistic回歸模型構(gòu)建。logistic回歸分析了某變量是否為疾病的獨(dú)立影響因素,而關(guān)聯(lián)規(guī)則分析了變量間的聯(lián)合與交互,補(bǔ)充了logistic回歸提供不了的信息,更加豐富、全面、綜合地分析了老年人脂肪肝發(fā)病的影響因素。關(guān)聯(lián)規(guī)則的特點(diǎn)就是能夠發(fā)現(xiàn)大量復(fù)雜數(shù)據(jù)之間的關(guān)聯(lián)或者相關(guān)聯(lián)系,在此基礎(chǔ)上,不僅能挖掘出各個(gè)變量之間的相關(guān)關(guān)系,還能挖掘出多個(gè)變量組合之間的相關(guān)關(guān)系,直接提示變量間的交互作用。因此,在醫(yī)學(xué)領(lǐng)域關(guān)聯(lián)規(guī)則大有作為:從多維多元的醫(yī)療信息中揭示疾病發(fā)生與發(fā)展的規(guī)律,研究疾病機(jī)制,評(píng)價(jià)臨床診斷、藥物治療的效果以及為疾病早期預(yù)防與控制提供科學(xué)、準(zhǔn)確的信息參考。在近三十年的研究和發(fā)展中,前人基于Apriori算法研究出了許多改進(jìn)算法和多種擴(kuò)展關(guān)聯(lián)規(guī)則,使得關(guān)聯(lián)規(guī)則算法已成為最成熟的數(shù)據(jù)挖掘方法之一,在醫(yī)學(xué)數(shù)據(jù)分析中具有廣闊的應(yīng)用前景。
中國(guó)衛(wèi)生統(tǒng)計(jì)2022年4期