溫佳穎 李佳鑫 馮萬里
摘要:睡眠是人類生活中不可缺少的一部分。那么睡眠質(zhì)量的好壞會對人體造成多大的影響呢?這便是本文討論的主要問題。本文首先探究了睡眠質(zhì)量與多項指標之間的相關(guān)性,然后以匹茨堡睡眠質(zhì)量指數(shù)作為指標來判斷睡眠質(zhì)量的好壞,并探討其與兩大類、百余種精神疾病的相互關(guān)系。
關(guān)鍵詞:匹茲堡睡眠質(zhì)量指數(shù);Sperman相關(guān)性分析;國際疾病分類編碼ICD-10;無監(jiān)督機器學習模型,K-means算法
模型假設(shè)
假設(shè)題目中所有數(shù)據(jù)均測量準確,沒有誤診或數(shù)據(jù)丟失,題目所給數(shù)據(jù)均具有可靠性,且對疾病的檢測原則一致。
分析
已有的數(shù)據(jù)的有兒童門診、門診、體檢、科研測試與病房五個數(shù)據(jù)源,其中兒童門診3例樣本,門診6325例樣本,體檢13例樣本,科研測試1例樣本,病房7例樣本。為了避免由于數(shù)據(jù)來源的不同對分析結(jié)果造成影響,我們排除兒童門診、體檢、科研測試與病房這四個小眾數(shù)據(jù)源,僅對來自門診的6325例樣本進行分析。
符號說明
K為預(yù)先設(shè)定的聚類數(shù)目Ci樣本i與K個聚類中最近的類,即表示分組(i=1,2,3,4……)
Uj對同一個類的樣本質(zhì)心的猜測N樣本是n維實數(shù)
K將樣本聚類成k簇I第i個樣例
模型的建立與求解
問題一
由Spearman相關(guān)系數(shù)的雙變量相關(guān)性計算所得到的結(jié)論可知,Age、Sex、Psychoticism、Nervousness這四項參數(shù)與Sleepquality之間存在置信度為99%的相關(guān)性,但是相關(guān)系數(shù)較小,因此可以認為它們之間存在較弱的相關(guān)性。Reliability與Sleep quality之間存在置信度為95%的相關(guān)性,而Character與Sleepquality之間不存在相關(guān)性,應(yīng)當除去。
問題二
由于數(shù)據(jù)量龐大,首先進行聚類分析,但效果不是很好,可能原因是小眾疾病的干擾,先考慮無監(jiān)督學習的情況,首選K-means聚類。將每一病人樣本視為9維數(shù)組,在假設(shè)診斷結(jié)果與睡眠質(zhì)量指標之間有聯(lián)系的基礎(chǔ)上,將睡眠質(zhì)量指標分組,所得結(jié)果應(yīng)當與實際診斷結(jié)果有較明顯的對應(yīng)關(guān)系。在聚類問題中,訓練樣本為{x(1),…, x(2)},其中每個x都是n維實數(shù)。隨后K-means算法將樣本聚類成K個簇。首先隨機選取K個聚類質(zhì)心點,然后對于每一個樣例i,計算其應(yīng)該屬于的類:對于每個類j,重新計算質(zhì)心,然后重復(fù)上述兩步,直到結(jié)果收斂。是否收斂的判斷方法為畸變函數(shù)。
按照上述思路,對附件中所提到的110種疾病進行分類,最終合并成精神類疾病與神經(jīng)類疾病兩大類。排除掉同時患有多種疾病的人群,統(tǒng)計得到兩大類疾病患病人數(shù)的比例為2338:1703。用K-means算法聚類成2類,所得結(jié)果為1795:2226,其所的比例與實際情況吻合得非常好。通過現(xiàn)有對皮茨堡睡眠質(zhì)量指數(shù)的研究,我們可知普通人正常水平下的7項指標。將樣本指標和正常人指標對比得到以下結(jié)果:(如表1)
模型的優(yōu)缺
K-means模型優(yōu)點:解決聚類問題的一種經(jīng)典算法,簡單,快速。2.對處理大數(shù)據(jù)集,該算法保持可伸縮性和高效性。
K-means模型缺點:在簇的平均值可被定義的情況下才能使用。
參考文獻:
[1]鄭棒,李曼,王凱路,呂筠.匹茲堡睡眠質(zhì)量指數(shù)在某高校醫(yī)學生中的信度與效度評價[J].北京大學學報(醫(yī)學版),2016,48(03):424-428.
[2]殷瑞剛,魏帥,李晗,于洪.深度學習中的無監(jiān)督學習方法綜述[J].計算機系統(tǒng)應(yīng)用,2016,25(08):1-7
[3]韓雅雯.kmeans聚類算法的改進及其在信息檢索系統(tǒng)中的應(yīng)用[D].云南大學,2016