趙碩
類風(fēng)濕關(guān)節(jié)炎患者腰椎骨密度值及相關(guān)因素與患病程度相關(guān)性的研究
趙碩
(齊齊哈爾大學(xué) 網(wǎng)絡(luò)信息中心,黑龍江省 齊齊哈爾 161006)
研究了齊齊哈爾地區(qū)類風(fēng)濕關(guān)節(jié)炎患者腰椎骨密度及相關(guān)因素與患病程度相關(guān)性的關(guān)系。首先對2020年8月到2021年3月在齊齊哈爾市某醫(yī)院放射線科住院和門診就診的類風(fēng)濕患者的骨密度和相關(guān)因素進(jìn)行采樣,得到患者骨密度及相關(guān)信息的原始數(shù)據(jù)。然后對原始數(shù)據(jù)進(jìn)行兩種不同的預(yù)處理方法得到兩組數(shù)據(jù),再對兩組處理后的數(shù)據(jù)采用改進(jìn)決策樹算法建立了兩個(gè)決策樹,通過對決策樹對比發(fā)現(xiàn)共同點(diǎn):患病程度與類風(fēng)濕關(guān)節(jié)炎患者腰椎骨密度值、相關(guān)因素中的患病時(shí)長密切相關(guān);患病程度與相關(guān)因素中的其它因素:性別、年齡、身高、體重沒有密切的關(guān)系。
類風(fēng)濕關(guān)節(jié)炎;骨密度;決策樹
類風(fēng)濕性關(guān)節(jié)炎是最常見的一種關(guān)節(jié)炎,是最主要的致殘性疾病之一。類風(fēng)濕關(guān)節(jié)炎并發(fā)骨質(zhì)疏松已經(jīng)得到了流行病學(xué)研究的證實(shí),并且從不同角度闡明了類風(fēng)濕關(guān)節(jié)炎患者產(chǎn)生骨質(zhì)疏松的相關(guān)因素。有些學(xué)者對前臂骨密度測定在診斷骨質(zhì)疏松中的應(yīng)用價(jià)值進(jìn)行了研究[1];有些學(xué)者對類風(fēng)濕關(guān)節(jié)炎患者股骨和腰椎部位骨密度的關(guān)系進(jìn)行了研究[2];有些學(xué)者應(yīng)用新型多變量決策樹算法進(jìn)行實(shí)例研究[3];有些學(xué)者研究絕經(jīng)后女性類風(fēng)濕關(guān)節(jié)炎患者骨密度變換影響因素[4],但是類風(fēng)濕關(guān)節(jié)炎患者骨密度及相關(guān)因素與患病程度相關(guān)性的研究未見報(bào)道。
本文應(yīng)用數(shù)據(jù)挖掘的方法對齊齊哈爾地區(qū)類風(fēng)濕關(guān)節(jié)炎患者腰椎骨密度及相關(guān)因素與患病程度相關(guān)性進(jìn)行研究。首先對2020年8月到2021年3月期間在齊齊哈爾市某醫(yī)院放射線科住院和門診就診的類風(fēng)濕患者進(jìn)行抽樣數(shù)據(jù)采集,然后對原始數(shù)據(jù)進(jìn)行預(yù)處理,通過數(shù)值屬性離散化,得到新的數(shù)據(jù)表。應(yīng)用改進(jìn)數(shù)據(jù)挖掘的決策樹算法進(jìn)行挖掘找到骨密度及相關(guān)因素與患病程度的關(guān)系。建立決策樹,用決策樹判斷類風(fēng)濕患者患病的程度。
(1)骨密度[5]。骨密度又叫做骨骼礦物質(zhì)密度,是骨質(zhì)量的一個(gè)重要指標(biāo),以克/每平方厘米表示(g/cm2),反映骨質(zhì)疏松的程度,是預(yù)測骨折危險(xiǎn)性的重要指標(biāo)和依據(jù)。
(2)T值。T值是將測得的骨密度值與同性別、同種族的正常人群骨峰值比較值。絕經(jīng)后婦女和50歲以上男性的BMD報(bào)告使用T值。
(3)Z值。Z值是將測得的骨密度值與同年齡、同性別、同同種族的正常人群比較值。絕經(jīng)前婦女和50歲以下的男性BMD報(bào)告使用Z值,不能使用T值,尤其是兒童。
腰椎是最常用的測量點(diǎn),感興趣區(qū)域(ROI)L1~L4,即脊柱的估計(jì)骨量的試量點(diǎn).脊柱大約骨礦含量130g,而(ROI)區(qū)域約35g。實(shí)際采樣的數(shù)據(jù)是腰椎L1~L4的平均值。
原始數(shù)據(jù)統(tǒng)計(jì)表,2020年8月到2021年3月期間在齊齊哈爾市第一醫(yī)院放射線科住院的類風(fēng)濕患者進(jìn)行抽樣數(shù)據(jù)采集,共254人。其中男性類風(fēng)濕患者54人,女性類風(fēng)濕患者200人。如表1所示為原始數(shù)據(jù)信息統(tǒng)計(jì)部分?jǐn)?shù)據(jù)。
表1 原始數(shù)據(jù)信息統(tǒng)計(jì)部分?jǐn)?shù)據(jù)
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘前的準(zhǔn)備工作[6],一方面保證挖掘數(shù)據(jù)的正確性和有效性;另一方面通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整,使數(shù)據(jù)更符合挖掘的需要。主要任務(wù)就是通過清理和歸納等操作,生成供挖掘核心算法使用的目標(biāo)函數(shù)。然后把初始數(shù)據(jù)屬性離散化,影像號對于每個(gè)患者各不相同作為數(shù)據(jù)挖掘的關(guān)鍵字。
第一種離散化方法:細(xì)致離散化。
性別的離散化是:女和男,定義為1和2。
年齡的離散化是:20及以下的患者,定義為1;21歲到29歲的患者定義為2;30歲到39歲的患者定義為3;40歲到49歲的患者定義為4;50歲到59歲的患者定義為5;60歲到69歲的患者定義為6;70歲和79歲的患者定義為7;80歲以上的患者定義為8。
身高的離散化是:150cm及以下的患者,定義為1;151cm到159cm的患者定義為2;160cm到169cm的患者定義為3;170cm到179cm的患者定義為4;180cm及以上的患者定義為5。
體重的離散化是:50kg及以下的患者定義為1;50kg以上到55kg及以下的患者定義為2;55kg以上到60kg及以下的患者定義為3;60kg以上到65kg及以下的患者定義為4;65kg以上到70kg及以下的患者定義為5;70kg以上到75kg及以下的患者定義為6;75kg以上到80kg及以下的患者定義為7;80kg以上到85kg及以下的患者定義為8;85kg以上到90kg以下的患者定義為9;90kg及以下的患者定義為10。
患病時(shí)長的離散化是:5年及以下的患者定義為1;6年到10年定義為2;11年到15年的定義為3;16年到20年的定義為4;20年以上的定義為5。
T值的離散化是:T值大于或等于-1時(shí),定義為1;當(dāng)T值為 -2.5到-1時(shí),定義為2;當(dāng)T值小于-2.5時(shí),定義為3。
Z值的離散化是:Z值大于-2時(shí),定義為1;當(dāng)Z值小于等于-2時(shí),定義為2。
患病程度的離散化:輕度定義為1;中度定義為2;重度定義為3。
根據(jù)第一種離散化方法把初始化表變成預(yù)處理后的數(shù)據(jù)表1,如下表2所示。
表2 預(yù)處理后的數(shù)據(jù)表1
第二種離散化方法:粗略離散化。
性別、患病時(shí)長、T值、Z值和患病程度的離散化和第一種離散化方法相同。
年齡的離散化:50歲以下的患者定義為1;50歲到69歲的患者定義為2;70歲及以上的患者定義為3。
身高的離散化:160cm以下的患者,定義為1;160cm到169cm的患者定義為2;170cm及以上的患者,定義為3。
體重的離散化:65kg及以下的患者定義為1;65kg以上到80kg以下的患者定義為2;80kg及以上的患者定義為3。
根據(jù)第二種離散化方法把初始化表變成預(yù)處理后的數(shù)據(jù)表2,如下表3所示。
表3 預(yù)處理后的數(shù)據(jù)表2
改進(jìn)的決策樹算法的基本思想:首先根據(jù)組合數(shù)學(xué)的思想分類出不同的屬性組合分組,每個(gè)組合分組分別采用遞歸的方法對數(shù)據(jù)集進(jìn)行劃分,每路分支的每個(gè)非葉子節(jié)點(diǎn)可以包含一個(gè)分割點(diǎn)或者包含一個(gè)組合判斷分割點(diǎn),由這個(gè)分割點(diǎn)決定數(shù)據(jù)如何劃分。直至每個(gè)子集的記錄全屬于一類或者某一類占壓倒的多數(shù)。最后比較各個(gè)屬性組合分組的路徑,從中選出最優(yōu)作為決策樹搜索路徑。
如果是采用第一種細(xì)致離散化的預(yù)處理數(shù)據(jù),并采用改進(jìn)的決策樹算法的思想,可以建立決策樹1,如圖1所示。
如果是采用第二種粗略離散化的預(yù)處理數(shù)據(jù),并采用改進(jìn)的決策樹算法的思想,可以建立決策樹2,如圖2所示。
圖1 決策樹1
圖2 決策樹1
全部挖掘數(shù)據(jù)共有254例,如果采用第一種數(shù)據(jù)離散化方法并且根據(jù)改進(jìn)的決策樹算法分析,可以得到5個(gè)結(jié)論:
(1)當(dāng)T值等于“3”或Z值=“2”時(shí),共有85例,其中類風(fēng)濕患病程度為3,2,1的人數(shù)分別是77例,4例和4例。類風(fēng)濕患病程度為重的比率是:90.6%。
(2)當(dāng)T值或Z值=“2”時(shí),共有101例,如果患病時(shí)長=“5”時(shí),共有17例。其中類風(fēng)濕患病程度為3,2,1的人數(shù)分別是16例,1例,0例。當(dāng)T值或Z值=“2”同時(shí)患病時(shí)長=“5”時(shí),類風(fēng)濕患病程度為重的比率是:94.1%。
(3)當(dāng)T值或Z值=“2”時(shí),如果患病時(shí)長≠“5”時(shí),共有84例,其中類風(fēng)濕患病程度為3,2,1的人數(shù)分別是14例,52例,14例。當(dāng)T值或Z值=“2”同時(shí)患病時(shí)長≠“5”時(shí),類風(fēng)濕患病程度為中度的比率是:61.9%。
(4)當(dāng)T值或Z值=“1”時(shí),共有68例。如果患病時(shí)長=“1”時(shí),共有29例,其中類風(fēng)濕患病程度為3,2,1的人數(shù)分別是0例,0例,29例。當(dāng)T值或Z值=“1”同時(shí)患病時(shí)長=“1”時(shí),類風(fēng)濕患病程度為輕度的比率是:100%。
(5)當(dāng)T值或Z值=“1”同時(shí)患病時(shí)長≠“1”時(shí),共有39例。其中類風(fēng)濕患病程度為3,2,1的人數(shù)分別是0例,5例,18例。當(dāng)T值或Z值=“1”同時(shí)患病時(shí)長=“2”時(shí),類風(fēng)濕患病程度為輕的比率是:78.3%。
隨機(jī)挖掘數(shù)據(jù)共178例。如果采用第二種粗略離散化預(yù)處理數(shù)據(jù)方法并且根據(jù)改進(jìn)的決策樹算法分析,可以得到5個(gè)結(jié)論:
(1)當(dāng)T值=“3”或Z值=“2”時(shí),共有61例,其中類風(fēng)濕患病程度為3,2,1的人數(shù)分別是54例,3例和4例。類風(fēng)濕患病程度為重的比率是:88.5%。
(2)當(dāng)T值或Z值=“2”時(shí),共有76例,如果患病時(shí)長=“5”時(shí),共有16例。其中類風(fēng)濕患病程度為3,2,1的人數(shù)分別是15例,1例,0例。當(dāng)T值或Z值=“2”同時(shí)患病時(shí)長=“5”時(shí),類風(fēng)濕患病程度為重的比率是:93.8%。
(3)當(dāng)T值或Z值=“2”時(shí),如果患病時(shí)長≠“5”時(shí),共有60例,其中類風(fēng)濕患病程度為3,2,1的人數(shù)分別是11例,37例,12例。當(dāng)T值或Z值=“2”同時(shí)患病時(shí)長≠“5”時(shí),類風(fēng)濕患病程度為中度的比率是:61.7%。
(4)當(dāng)T值或Z值=“1”時(shí),共有41例。如果患病時(shí)長=“1”時(shí),共有17例,其中類風(fēng)濕患病程度為3,2,1的人數(shù)分別是0例,0例,17例。當(dāng)T值或Z值=“1”同時(shí)患病時(shí)長=“1”時(shí),類風(fēng)濕患病程度為輕度的比率是:100%。
(5)當(dāng)T值或Z值=“1”同時(shí)患病時(shí)長≠“1”時(shí),共有24例。其中類風(fēng)濕患病程度為3,2,1的人數(shù)分別是5例,6例,13例。當(dāng)T值或Z值=“1”同時(shí)患病時(shí)長時(shí)≠1時(shí),類風(fēng)濕患病程度為輕的比率是:54.2%。
通過第一種和第二種數(shù)據(jù)預(yù)處理方法和改進(jìn)算法相結(jié)合,產(chǎn)生了兩種決策樹。比較兩種決策樹發(fā)現(xiàn),共同點(diǎn):類風(fēng)濕患者患病的程度主要和T值(Z值)和患病時(shí)長有緊密的關(guān)系。當(dāng)骨密度測量值為骨質(zhì)疏松時(shí),患者可能患類風(fēng)濕的程度為重度。當(dāng)骨密度測量值為骨量減小,如果患病時(shí)長為20年以上,患者可能類風(fēng)濕的程度為重度,否則為中度。當(dāng)骨密度測量值為正常,如果患病時(shí)長小于5年,患者可能患類風(fēng)濕的程度為輕度。類風(fēng)濕患者患病的程度和年齡、身高、性別、體重沒有很密切的關(guān)系。
本文主要研究的是齊齊哈爾地區(qū)類風(fēng)濕關(guān)節(jié)炎患者腰椎骨密度及相關(guān)因素與患病程度相關(guān)性的關(guān)系。采用的方法是改進(jìn)的決策樹算法。首先對2020年8月到2021年3月期間在齊齊哈爾市某醫(yī)院放射線科住院和門診就診的類風(fēng)濕患者進(jìn)行抽樣數(shù)據(jù)采集,然后對原始數(shù)據(jù)進(jìn)行預(yù)處理,通過兩種數(shù)值屬性離散化方法,得到兩張新的數(shù)據(jù)表。再分別和改進(jìn)的決策樹算法相結(jié)合,建立兩個(gè)決策樹。
通過決策樹的對比發(fā)現(xiàn),有共同之處:類風(fēng)濕患者患病的程度主要和T值(Z值)和患病時(shí)長有緊密的關(guān)系:當(dāng)骨密度測量值為骨質(zhì)疏松時(shí),患者可能患類風(fēng)濕的程度為重度。當(dāng)骨密度測量值為骨量減小,如果患病時(shí)長為20年以上,患者可能類風(fēng)濕的程度為重度,否則為中度。當(dāng)骨密度測量值為正常,如果患病時(shí)長小于5年,患者可能患類風(fēng)濕的程度為輕度。類風(fēng)濕患者患病的程度和年齡、身高、性別、體重沒有很密切的關(guān)系。這兩個(gè)決策樹都可以用于判斷類風(fēng)濕患者患病的程度。從而為醫(yī)生提供參考依據(jù)。
[1] 張小艷,封欣然,李航,等. 類風(fēng)濕關(guān)節(jié)炎患者骨密度及骨代謝水平的臨床分析[J]. 包頭醫(yī)學(xué),2020, 44(4): 5-7.
[2] 劉童,裴必偉,徐勝前,等. 類風(fēng)濕關(guān)節(jié)炎患者股骨和腰椎部位骨密度的臨床研究[J]. 中華臨床醫(yī)師雜志,2011, 11(05): 6231-6235.
[3] 黃俊南. 基于決策類劃分新型多變量決策樹算法實(shí)例分析[J]. 齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(01): 4-9.
[4] 何志翔,蔡小燕,林小軍,等. 老年類風(fēng)濕關(guān)節(jié)炎合并肌少癥患者骨密度及骨代謝指標(biāo)改變的臨床研究[J]. 中國骨質(zhì)疏松雜志,2022, 28(03): 403-406.
[5] 趙碩. 基于數(shù)據(jù)挖掘的齊齊哈爾地區(qū)男性骨密度與相關(guān)因素關(guān)系的研究[J]. 齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版),2021, 37(06): 37-41
[6] 邵峰晶,于忠清,王金龍,等. 數(shù)據(jù)挖掘原理與算法[M]. 北京:科學(xué)出版社,2009: 67.
[7] CHEN LK, LIU LK, WOOL, etal. Sarcopenia in asia: consensus report of the Asina working group for sarcopenia[J]. JAmMedDir Assoc, 2014, 15(2): 95-101.
[8] 趙碩,王善霞,楊陽,等. 基于數(shù)據(jù)挖掘的雙靶DR乳腺癌灶密度值測定分析[J]. 齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,34(03): 11-16.
Study on correlation between Lumbar bone mineral density and related factors in patients with rheumatoid arthritis and disease degree
ZHAO Shuo
(Network Information Center,Qiqihar University,Heilongjiang Qiqihar 161006, China)
This paper studies the relationship between lumbar bone mineral density and related factors and the degree of disease in patients with rheumatoid arthritis in Qiqihar area. First, bone mineral density and related factors of rheumatoid patients hospitalized and out-patients in the Radiology Department of Qiqihar some Hospital from August 2020 to March 2021 were sampled to obtain the original data of bone mineral density and related information. Then the raw data for two kinds of different pretreatment methods have two sets of data, and then the data of two groups after treatment with the improved decision tree, decision tree algorithm has established two based on decision tree found in common: how sick patients with rheumatoid arthritis (closely related to the density value, the related factors of the diseased time; There was no significant correlation between the severity of the disease and other related factors: sex, age, height, and weight.
rheumatoid arthritis;bone mineral density;decision tree
2022-03-12
趙碩(1974-),女,山東煙臺人,高級工程師,碩士,主要從事數(shù)據(jù)挖掘,計(jì)算機(jī)網(wǎng)絡(luò)研究,01513@qqhru.edu.cn。
TP312;R816.8
A
1007-984X(2022)05-0028-05