劉帥 高澤斌 白倬寧 畢秋哲 王立亞
摘要:睡眠質量是衡量生活質量的重要指標,與人體的年齡、性別、神經質等客觀生理指標以及主觀心理評價密切相關,對人的身心健康和疾病診斷起著至關重要的作用。根據(jù)統(tǒng)計學、病理學以及數(shù)據(jù)挖掘等知識,對睡眠質量及其影響因素間具體關系進行探究,運用皮爾遜相關分析法確定年齡、性別Reliability、Psychoticism、Nervousness、Characte這六個指標的相關系數(shù),再根據(jù)顯著性分析的結果排除了指標Reliabilit、Character。依此可確定診斷結果與睡眠的關系。
關鍵詞:應用數(shù)學;皮爾遜相關分析法;病理學;統(tǒng)計學;FP-Growth算法
中國分類號:R338.63,R749.41 文件標識碼: A 文章編號:
0 引言
人類將生命中1/3的時間用于睡眠,在此期間,人體的循環(huán)系統(tǒng)進行代謝,使人恢復體力,增強免疫力,同時神經系統(tǒng)進入休眠狀態(tài),保護大腦并恢復精力。但隨著生活節(jié)奏的加快,壓力的增大,人的睡眠質量逐漸得不到保障。據(jù)統(tǒng)計,中國成人失眠率高達38.2%,近年來,青少年的睡眠障礙率也在逐步上升至43.5%。長時間失眠和睡眠障礙會導致人的精神不集中,工作效率低下,甚至影響任的身心健康,不利于青少年的健康成長。因此,保持良好的睡眠質量對于我們的健康生活尤為重要。
1 模型建立與求解
1.1 睡眠質量與指標間相關性分析模型
1.1.1 數(shù)據(jù)標準化
由于醫(yī)生對患者進行診斷時,不可避免的夾雜著人為主觀因素,因此利用式(1)來對數(shù)據(jù)進行標準化處理。
1.1.2 皮爾遜相關分析法與回歸系數(shù)
皮爾遜相關系數(shù)法[8](Pearson product-moment correlation coefficient)是一種準確度量兩個變量間相關程度的統(tǒng)計學方法。對于兩個變量x和y,通過試驗可得到若干組數(shù)據(jù),記為(xi,yi)(i=1,2,3,…,n),相關系數(shù)r的取值范圍為[-1,1],即 。 越接近于1,表明x與y的線性相關程度越高。如果r=-1,則表明x與y之間為完全負線性相關,反之,若r=+1,則表明x與y之間為完全正線性相關,如果r=0,則x與y間不存在線性相關的關系。
一般情況下,r的取值在(-1,1)之間,變量間的相關程度可分為以下幾種情況:當 時,可視為高度相關; 時,為中度相關;
時,為低度相關;當 時,說明兩個變量間的相關程度極弱,可視為非線性相關。
接著,利用已求得的相關系數(shù)r,求得對應的回歸系數(shù)b?;貧w系數(shù)[9](regression coefficient)在回歸方程中表示自變量x對因變量y的影響程度的參數(shù),其值越大則表明x對y的影響越大。
1.1.3 顯著性檢驗
相關系數(shù)r是通過對樣本數(shù)據(jù)進行計算獲得的,其值受到樣本抽樣的隨機性、樣本的數(shù)量等影響,因此,需要考慮樣本相關系數(shù)的可靠性,即進行顯著性檢驗。首先將樣本不相關的推斷假設為H0;其次計算檢驗的統(tǒng)計量,一般情況下采用T分布檢驗[10]。
最后,根據(jù)給定的顯著性水平α和自由度df=n-2,利用T分布表查出 的臨界值。若 ,則拒絕原假設 ,表明總體上兩個變量間存在顯著的線性關系。
1.1.4 數(shù)據(jù)處理與相關性分析
根據(jù)式(2)以及樣本中經標準化處理后的相關數(shù)據(jù),運用SPSS軟件計算出睡眠質量與年齡、性別等指標的相關系數(shù)和顯著性系數(shù),結果如表1。
由表可知,睡眠質量與年齡、Psychoticism高度相關,相關系數(shù)分別為0.83和0.84,與性別、Nervousness中度相關,相關系數(shù)分別為0.78和0.67,而與Reliabilit、Character的相關系數(shù)均小于0.3,相關程度極弱,可忽略。有顯著性的判斷結果可知,睡眠質量與年齡、性別、Psychoticism、Nervousness的相關性較為顯著。
1.2 基于FP-Growth挖掘癥狀與睡眠狀況的關聯(lián)規(guī)則模型
1.2.1 FP-Growth理論準備
FP-Growth是關聯(lián)分析中一種經典的算法,由韓家煒[11]等人于2000年提出,采取如下分治策略:將提供頻繁項集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹[12](FP-tree),但仍保留項集關聯(lián)信息,查找存在于項目集合或對象集合之間的頻繁模式、關聯(lián)、相關性或因果結構。FP-Growth算法的使用可有效降低學習算法的復雜度,加快學習速度,提高學習與分類精度。
在算法中使用了一種稱為頻繁模式樹FP-tree(Frequent Pattern Tree)的數(shù)據(jù)結構。FP-tree是一種特殊的前綴樹,由頻繁項頭表和項前綴樹構成。將事務數(shù)據(jù)表中的各個事務數(shù)據(jù)項按照支持度排序后,把每個事務中的數(shù)據(jù)項按降序依次插入到一棵以NULL為根結點的樹中,同時在每個結點處記錄該結點出現(xiàn)的支持度。
基本思路:不斷地迭代FP-tree的構造和投影過程。
1.2.2 數(shù)據(jù)篩選
首先,根據(jù)病理學知識,對附件中的128種疾病的發(fā)病原因、發(fā)生機制、發(fā)展規(guī)律以及疾病過程中機體的形態(tài)結構、功能代謝變化情況進行分析,最終將其歸為四類:Anxiety,以符號A代表;Emotingal problem(E);Sleep disorder(S);Depreesion(D)。
接著,對數(shù)據(jù)進行預處理,包括清洗、集成、轉換、離散和規(guī)約等工作。一個預處理良好的數(shù)據(jù)集不僅可以提高挖掘算法的效率和質量,還可以盡量減少因為數(shù)據(jù)不合理付出的代價。
1.數(shù)據(jù)清洗:
利用均值填空的方法處理缺省值,缺省值和現(xiàn)有數(shù)據(jù)具有一定的相關性。利用噪聲平滑和刪除孤立點的方法清洗噪聲數(shù)據(jù)與臟數(shù)據(jù)。剔除無關項,如刪除在Diagnosis項中標識為空白和?的數(shù)據(jù)等。
2.數(shù)據(jù)離散:
將多數(shù)據(jù)源和多文件的異構數(shù)據(jù)進行合并處理,達到數(shù)據(jù)統(tǒng)一存儲的目的。例如:在128種疾病中,某些疾病僅包含一條數(shù)據(jù),將此類數(shù)據(jù)分離整合為同一數(shù)據(jù)集。
3.數(shù)據(jù)規(guī)約:
某些患者診斷為多種疾病,將這些數(shù)據(jù)集同時歸為各種疾病的包涵項中。如Sleep disorder,Depression,在處理Sleep disorder時包涵這一數(shù)據(jù),在處理Depression時也包涵這一數(shù)據(jù)。
2 結論
設計的基于FP-growth關聯(lián)挖掘模型,實現(xiàn)了診斷結果與睡眠狀況關聯(lián)規(guī)則的研究。創(chuàng)新的提出了基于頻繁順序表的FP-Tree算法結構,有效地提高了計算效率,并求解出關聯(lián)規(guī)則中負相關和弱相關規(guī)則,準確的到了各參數(shù)與診斷結果的關聯(lián)規(guī)律,確定其參數(shù)的優(yōu)先性和置信度范圍。雖然此改進型FP-Growth算法雖然能反映出項集的客觀度量,但是對于非對稱的項集,提升度也有一定的局限性。接著再將測試樣本中數(shù)據(jù)導入模型,得出了附件中10個病例的診斷結果,但在挖掘系統(tǒng)中,考慮到數(shù)據(jù)的冗雜性,并沒有對128種疾病進行分析,而是將其整合為4種類型,沒有更加準確的分析這些患者所患的疾病。