摘 要:為了探究脂肪肝、血脂異常與各常規(guī)體檢項目間的關系,實現對脂肪肝和血脂異常的發(fā)病風險評估,基于2 972 例體檢者9 091 人次血常規(guī)體檢結果建立以脂肪肝血脂異常為響應變量的二元響應廣義線性混合模型,并進行疾病風險預測以及預測效果評價. 結果表明:脂肪肝血脂異常的共同影響因素有性別、年齡、糖尿病、體質指數、谷丙轉氨酶和高密度脂蛋白,脂肪肝和血脂異常兩個響應之間的混合效應之間呈現一定的正相關性. 在模型預測方面,模型中脂肪肝的ROC 曲線下面積SAUC 為0.855(95%CI:0.831~0.881),血脂異常的ROC 曲線下面積SAUC 為0.814(95%CI:0.794~0.850),五則交叉驗證結果顯示脂肪肝血脂異常的SAUC 分別為0.850(95%CI:0.845~0.868)、0.807(95%CI:0.793~0.819),表明模型能夠充分反映響應變量之間的相關性,具有較好的預測能力,適用于醫(yī)學上多疾病的聯(lián)合分析.
關鍵詞:體檢數據;脂肪肝;血脂異常;常規(guī)體檢項目;多元廣義線性混合效應模型
中圖分類號:O212.1; R195
DOI: 10.19504/j.cnki.issn1671-5365.2024.06.16
隨著人民群眾生活水平的提高,健康意識不斷增強,人們對健康體檢與管理的需求呈上升態(tài)勢[1-2]. 定期體檢是一個必要的健康管理環(huán)節(jié),通過定期進行體檢了解自身的健康狀況,對檢查出的身體健康問題做出正確的干預,以預防或者控制疾病[3-4]. 人們飲食結構的改變使脂肪肝、血脂異常患者人數逐年增加[5], 但脂肪肝的可逆性以及血脂異常狀態(tài)可改變,使得正確干預下有效減少肝硬化或肝癌以及心血管疾病的發(fā)生成為可能[6-8]. 對疾病的相關性分析多集中在一個響應變量的相關性分析,如通過建立邏輯回歸模型分析某一個疾病與其他指標的相關關系,實際上單個疾病響應變量并不能全面描述個體情況,因此,為了更加全面地刻畫變量之間的相關關系,需要研究多元響應的回歸建模問題. 醫(yī)院采用信息化技術積累了大量的醫(yī)療數據[9-11],對這些數據所蘊含的意義尚需進一步分析挖掘. 在體檢過程中,通常會對同一個體進行多次檢查,包括對血壓、心率、血液、體重等多個指標的測量,以監(jiān)測個體健康狀況的變化,因此體檢數據是一種縱向數據(統(tǒng)計學中指在不同時間點對同一組個體或觀察單元進行的重復測量或觀察所得到的數據).本文擬通過對重復測量的體檢數據建立二元廣義線性混合效應模型,以解釋脂肪肝和血脂異常的患病率及影響因素,為脂肪肝血脂異常的防治提供參考.
1 數據來源
數據源自2006—2014 年間在某醫(yī)院健康體檢中心定期體檢的2 972 例體檢者9091 人次體檢數據,共納入19 項體檢指標作為研究變量. 連續(xù)變量有:體質指數即體重身高2(kg/m2)、白細胞、血紅蛋白、血小板、總膽紅素、總蛋白、白蛋白、白球比、谷丙轉氨酶、尿素氮、肌酐、高密度脂蛋白和低密度脂蛋白;分類變量有:性別(女性賦值1,男性賦值0)、年齡層(年齡lt;60 賦值1,年齡≧60 賦值0)、脂肪肝(依據腹部彩超檢查結果判定體檢者是否患有脂肪肝,是賦值1,否賦值0)、高血壓[12](收縮壓≧140 mmHg或舒張壓≧90 mmHg 賦值1,其余情況賦值0)、血脂異常[13](高膽固醇血癥(總膽固醇≧6.2 mmol/L)或高甘油三酯血癥(甘油三酯≧2.3 mmol/L)的情況賦值1,其余情況賦值為0)、糖尿病[14](空腹血糖≧7.0mmol/L 或餐后血糖≧11.1 mmol/L 賦值1,其余情況賦值0).
2 模型理論
多元廣義線性混合模型如下: 定義Yikj (i =1,2,…,N ; k = 1,2,…,K ; j = 1,2,…,ni )是第i 個體的第k 個響應變量在時間點tij 處的觀測,Yikj 可以是連續(xù)的也可以是離散的,是具有分散參數?k 的指數分布族,于是有:
g (E (Y ) ikj |Xikj,Zikj,γik ) = X Tikj βk + Z Tikj γik
其中: XXikj 是固定效應的p 維協(xié)變量,βk 是相關的p ×1 維參數向量,Z Tikj 是隨機效應的q 維協(xié)變量,γik 是相關的q × 1 維參數向量,g 是一個單調連接函數,它取決于結果的類型(如二元結果連接函數是logit 函數).隨機效應γi = (γTi1,γTi2,…,γTiK ) T ~N (0,Σ),在此Σ不僅考慮了每個結果重復測量的相關性,還考慮了多個結果之間的關聯(lián). 值得注意的是,給定γik,隨機變量Yik1,Yik2,…,Yikni 對于i 個體是獨立的. 給定參數向量Θ = { } βTk,Σ,?kKk = 1,其似然函數為:
多變量的聯(lián)合建模使用多變量廣義線性混合模型進行,主要有兩個優(yōu)勢:(1)連續(xù)和離散型的結果都可以聯(lián)合同時分析,(2)多個響應結果之間的相關性可以納入該模型. 模型參數通過貝葉斯方法進行估計,利用R 軟件中的“MCMCglmm”軟件包得到參數的估計和推斷[15],在“MCMCglmm”R 包的默認選項下,β 參數的先驗分布為正態(tài)分布,協(xié)方差矩陣Σ 服從逆Wishart 分布,而彌散參數? 為gamma 分布,這是無信息的. 另外,在參數估計過程中使用MCMC 算法,進行3 000 次burn-in 和1 000 次后續(xù)迭代(細化為1∶10),從聯(lián)合后驗分布中獲得樣本(使用“MCMCglmm”函數),將樣本均值作為參數的估計.
3 結果
3.1 脂肪肝組與非脂肪肝組的一般狀況
本研究中脂肪肝的檢出率為15.77%(1434/9091),各年齡段人群中脂肪肝檢出率分別為非老年組21.79%(407/1868)和老年組14.22%(1027/7223),隨著年齡的增加,脂肪肝的檢出率下降(χ2 = 63.44,p lt; 0.001).脂肪肝組的男性比例、糖尿病比例、體質指數、白細胞、血紅蛋白、血小板、總蛋白、白蛋白、谷丙轉氨酶和低密度脂蛋白高于非脂肪肝組,脂肪肝組的老年比例、高血壓比例、肌酐和高密度脂蛋白低于非脂肪肝組(見表1).上述結果表明男性、糖尿病、體質指數過高等均是引發(fā)脂肪肝疾病的因素,并且較高的谷丙轉氨酶和較低的高密度脂蛋白也會誘發(fā)脂肪肝.
3.2 脂肪肝血脂異常與常規(guī)體檢項目相關關系
為了更加準確地分析脂肪肝血脂異常與體檢項目相關性,以及脂肪肝和血脂異常之間的相關關系,利用聯(lián)合建模方法對脂肪肝和血脂異常進行綜合分析,建立聯(lián)合模型:
log it (Pr (Y )) ikj = 1| γik = X Tikj βk + γik,(i = 1,…,2972 ; k = 1,2 ; j = 1,…,9)
這里的響應變量脂肪肝和血脂異常均是二分類的,于是選擇的連接函數為log it 函數. 考慮的協(xié)變量有性別、年齡分組、血脂異常、糖尿病、體質指數、血小板、總膽紅素、白蛋白、谷丙轉氨酶、肌酐、高密度脂蛋白和低密度脂蛋白,考慮的隨機效應的協(xié)變量為個體變量(僅考慮隨機截距不考慮隨機斜率),其中,個體之間是通過體檢者唯一id 標識變量進行識別匹配的.
表2 展示了模型中重要協(xié)變量估計結果. 對于雙響應模型脂肪肝和血脂異常而言,性別女的系數估計值分別為-0.6425、0.5933(p 值均lt;0.001),對應的OR 值分別為0.5260、1.8099,這說明性別間脂肪肝和血脂異常患病風險均具有顯著性差異,男性更容易患脂肪肝,女性更容易患血脂異常,且女性患脂肪肝的風險僅為男性的50%,患血脂異常的風險卻比男性高81%. 體質指數的系數估計值分別為1.0272、0.4433,對應的p 值均lt;0.001,說明隨著體質指數的增大,脂肪肝和血脂異?;疾★L險均會顯著增加. 總膽紅素的系數估計值為-0.0217、-0.1701(對應的p 值分別為0.408、lt;0.001),說明總膽紅素是脂肪肝的影響因素,而與血脂異常無關. 高密度脂蛋白的系數估計值為-0.0911、0.1256(p 值均lt;0.05),對應的OR 值分別為0.9129、1.1339,說明高密度脂蛋白是脂肪肝和血脂異常的共同影響因素,但是,較高的高密度脂蛋白是脂肪肝的保護因素,卻是血脂異常的危險因素. 從其他變量的系數估計結果可以看出,對于脂肪肝患病風險而言,在其他影響因素相同的情況下,糖尿病、高血壓患者的患病風險更大,脂肪肝患病風險與谷丙轉氨酶的濃度呈正相關,與高密度脂蛋白呈負相關;對于血脂異?;疾★L險,顯著的影響因素是年齡≦60 歲、糖尿病、谷丙轉氨酶過高和低密度脂蛋白濃度過低等.
此外,表2 給出了對應的脂肪肝和血脂異常單雙響應模型的重要協(xié)變量系數估計及其顯著性. 就系數顯著性而言,單雙響應模型基本一致,因此無論是以脂肪肝和血脂異常作為響應變量的雙響應模型還是分別以脂肪肝血脂異常為響應變量建立的單響應模型,對于脂肪肝血脂異常與常規(guī)體檢項目的相關性認定是基本一致的.
通過檢驗隨機效應的顯著性以及不同響應過程之間隨機效應的相關性,以驗證脂肪肝患病風險和血脂異?;疾★L險之間的相關性. 表3 展示了混合效應模型中隨機效應的方差估計和相關系數估計,可以看出脂肪肝的隨機效應和血脂異常的隨機效應都是顯著不為0(可信區(qū)間不包含0),而且脂肪肝的截距項隨機效應和血脂異常的截距項隨機效應具有顯著的線性相關性(經計算相關系數為0.52).圖1是隨機效應的估計散點圖,從中也得出相同的結論,即脂肪肝和血脂異常之間存在一定的相關性,這個結論與一些文獻報道的隨著脂肪肝患病風險的增加、血脂異常發(fā)生率明顯增高一致.
通過與對應的單響應模型對比分析發(fā)現,單雙響應模型對于脂肪肝血脂異常危險因素的認定是基本一致的,但雙響應模型通過利用隨機效應的聯(lián)合分布揭示了脂肪肝與血脂異常之間存在的正相關性(脂肪肝和血脂異常雙響應模型計算出響應變量的隨機效應之間的相關系數為0.52).
3.3 模型的預測能力評價
通過雙響應模型分析可得脂肪肝與血脂異常的患病風險呈正相關,此結論符合實際意義. 為了進一步驗證模型的適用性,對模型的預測能力進行深入分析. 預測模型的ROC 曲線如圖2 所示,其中(a)、(b)為預測模型的脂肪肝和血脂異常ROC 曲線,脂肪肝預測模型ROC 曲線下面積SAUC 為0.855(95%CI:0.831~0.881);血脂異常預測模型ROC 曲線下面積SAUC 為0.814(95%CI:0.794~0.850).對模型進行五折交叉驗證后的脂肪肝、血脂異常ROC曲線見圖2 中(c)、(d),其脂肪肝、血脂異常預測模型ROC 曲線下面積SAUC 分別為0.850(95%CI:0.845~0.868)和0.807(95%CI:0.793~0.819).預測模型與五折交叉驗證得到的SAUC 差別不大,說明模型穩(wěn)定性較好.
4 討論
生物醫(yī)學研究中產生的大量縱向數據,兼顧了橫斷面數據特性和時序性,同一變量的不同時間點之間存在相互關系,不同變量之間也存在某種關聯(lián),眾多的變量和指標能夠更加全面綜合地反映個體特征,可為醫(yī)學診斷、療效評估等提供大量信息,醫(yī)學分析價值極高[16]. 如何將這些信息和數據隱藏的規(guī)律剖析清楚,為醫(yī)學研究提供有效幫助,是統(tǒng)計學致力于發(fā)展的核心問題. 實際應用中,根據數據特性和模型特點選擇合適的統(tǒng)計方法,是得到可靠結果和充分利用數據信息的核心要件,是促進醫(yī)學研究的有力保障. 本文采用廣義線性混合效應模型對多元縱向數據進行單獨建模和聯(lián)合建模,探討了聯(lián)合建模的優(yōu)勢. 結果發(fā)現:年齡lt;60 歲、糖尿病、體質指數過高以及谷丙轉氨酶過高會同時影響脂肪肝和血脂異常的患病率;高血壓、血小板、白蛋白、尿素氮和肌酐只影響脂肪肝的患病率而與血脂異常無關;白細胞、血紅蛋白、總膽紅素、總蛋白、白球比和低密度脂蛋白只影響血脂異常的患病率而與脂肪肝無關.因此,定期進行體檢,了解自身健康情況,能夠及時發(fā)現問題并加以控制從而減少脂肪肝、血脂異常疾病的發(fā)生. 此外,二元廣義線性混合效應模型通過利用隨機效應之間的相關性來刻畫不同的響應變量之間的相關關系,揭示了脂肪肝和血脂異?;疾★L險的正相關性,符合實際意義,具有參考價值. 在醫(yī)學數據中,通常一個響應無法反映疾病全部情況,而多元響應模型通過隨機效應之間的協(xié)方差矩陣來反映響應之間的關系,豐富了醫(yī)學數據分析方法,為醫(yī)學數據研究提供了新的思路,一定程度上可以推動醫(yī)療事業(yè)的發(fā)展.
參考文獻:
[1] 張靜波, 李強, 劉峰, 等. 健康管理服務模式的發(fā)展趨勢[J].山東大學學報(醫(yī)學版), 2019, 57(8): 69-76.
[2] 關寧, 段續(xù)微. 大數據環(huán)境下我國健康體檢模式的發(fā)展與探究[J]. 中華健康管理學雜志, 2022, 16(9): 644-646.
[3] 冷芬, 歐陽平, 張廣清, 等. 新冠肺炎疫情對居民健康體檢意愿的影響因素分析[J]. 護理學報, 2021, 28(12): 49-52.
[4] 程樹桃. 定期體檢的必要性分析[J]. 中國保健營養(yǎng), 2017,27(8): 383.
[5] 蘇海. 關于我國血脂異?;疾÷实膸讉€問題[J]. 中華血脂異常雜志, 2018, 26(11): 1001-1003.
[6] PARASCHIV A. Epidemiological evolution of chronic hepa?titis, liver cirrhosis and liver cancer in the Republic of Mol?dova[EB/OL]. (2021-04-01) [2023-03-25]. https://api. se?manticscholar.org/CorpusID:233615444.
[7] ZHANG X, COKER O O, CHU E S, et al. Dietary choles?terol drives fatty liver-associated liver cancer by modulating gut microbiota and metabolites[J]. Cut, 2021(70): 761-774.doi:10.1136/GUTJNL-2019-319664.
[8] 陳偉偉, 高潤霖, 劉力生, 等.《 中國心血管病報告2016》概要[J]. 中國循環(huán)雜志, 2017, 32(6): 521-530.
[9] 王美珊, 姚蘭, 高福祥, 等. 面向醫(yī)療集值數據的差分隱私保護技術研究[J]. 計算機科學, 2022, 49(4): 362-368.
[10] 于國慶, 沈飛. 數據挖掘技術在醫(yī)療大數據分析中的應用——評《醫(yī)療大數據分析與數據挖掘處理研究》[J]. 中國科技論文, 2022(7): 847-847.
[11] HUANG W, HUANG D, DING Y, et al. Clinical applica?tion of intelligent technologies and integration in medical laboratories[J]. iLABMED, 2023, 1(1): 82-91. Doi: 10.1002/ila2.9.
[12] GONZáLEZ-VILLALPANDO C, Stern M P, Haffner S M,et al. Prevalence of hypertension in a Mexican population ac?cording to the sixth report of the Joint National Committee on Prevention, Detection, Evaluation and Treatment of High Blood Pressure[J]. European Journal of Cardiovascular Risk,1999, 6(3):177-181. doi:10.1177/204748739900600309.
[13] 中國成人血脂異常防治指南修訂聯(lián)合委員會. 中國成人血脂異常防治指南(2016 年修訂版)[J]. 中國循環(huán)雜志, 2016,31(10): 937-950.
[14] 李靜, 張毅強, 金薩茹拉, 蘇敬. 糖尿病診斷標準再商榷[J].基層醫(yī)學論壇,2018,22(8):1110-1111.
[15] HADFIELD J D. MCMCglmm: Markov chain Monte Carlo methods for generalised linear mixed models[EB/OL]. (2010-02-10)[2023-03-25]. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.160.5098amp;rep=rep1amp;type=pdf.
[16] DEBROUWER E, BECKER T, MOREAU Y, et al. Longi?tudinal machine learning modeling of MS patient trajectories improves predictions of disability progression[J]. Computer Methods and Programs in Biomedicine, 2021(208): 106180.doi:10.1016/j.cmpb.2021.106180.
[17] 余昊, 趙超群, 楊建萍. 基于密度比模型的pAUC 半參數估計方法及其應用[J/OL]. 浙江理工大學學報( 自然科學版), 2023. https://kns. cnki. net/kcms/detail//33.1338.TS.20230228.1656.014.html.
【編校:許潔】
基金項目:國家自然科學基金項目(U1830133);中央高?;究蒲袠I(yè)務經費項目(SWJTU,2682021ZTPY078)