趙杰,路露,張曉娜,,馮向侃,李鑫丹,蘆鴻雁
(1寧夏醫(yī)科大學護理學院,寧夏銀川,750004;2寧夏醫(yī)科大學總醫(yī)院,寧夏銀川,750004)
聚類分析是最常用的新興數(shù)據(jù)分析方法之一,在心理學、社會學、人類學和生物學領域的應用效果顯著,在醫(yī)學領域具有探索觀察對象之間的新關系并指導臨床實踐決策的功能和從數(shù)據(jù)集中找到相似病例組的獨特優(yōu)勢[1]。已被廣泛應用于疾病的癥狀群、疾病表型研究、疾病風險預測、醫(yī)務人員實踐水平分級等醫(yī)學的多個領域[2-3]。將聚類分析應用于護理領域,既可為患者自我評估和監(jiān)測自身癥狀提供參考,又能幫助護理人員為患者提供針對性的疾病管理指導。國外較早(1977年)將聚類分析引入護理領域,在推動其創(chuàng)新發(fā)展的同時,涉及的范圍不斷擴大[4-5]。目前,國內(nèi)護理領域聚類分析的應用雖快速發(fā)展,但相比國外仍然存在不足。因此,本文將從聚類分析的概念、護理領域常用方法的特點及基本步驟、聚類分析在國內(nèi)外護理領域的應用等方面進行綜述,旨在發(fā)掘聚類分析在護理領域的應用潛力,促進其與我國護理領域研究的融合發(fā)展。
聚類分析(cluster analysis,CA)是將一個集合分為多個類似對象的過程,是用于創(chuàng)建分類的各種方法或過程的總稱,旨在發(fā)掘數(shù)據(jù)集中原本不明顯的關系和同質(zhì)組的分類[4]。根據(jù)實際需要可將聚類分析按聚類對象分為兩大類[6]:對樣品集合進行聚類(Q型聚類)和對指標集合進行聚類(R型聚類),程序可以通過聚類算法把樣品(或指標)分成若干類,并根據(jù)其測量對象之間的相似距離,形成具有相似聚類對象的離散組或“簇”,這些“簇”具有組內(nèi)同質(zhì)性、組間異質(zhì)性的特點。
聚類分析方法主要包括:系統(tǒng)聚類、K-Means聚類、兩步聚類以及基于模型的聚類[7]等,在護理領域的常用方法也主要為以上幾種,研究者可以根據(jù)需求選擇合適的一種或多種方法,均可在統(tǒng)計分析軟件中完成數(shù)據(jù)分析。
1.2.1 系統(tǒng)聚類 系統(tǒng)聚類也稱層次聚類(hierarchical cluster,HC),是聚類分析中最常用的一種方法,可根據(jù)個體間距離的遠近逐漸將所有的數(shù)據(jù)聚為一類,數(shù)據(jù)既可以是連續(xù)性變量也可以是分類變量,適用于小型數(shù)據(jù)集的分類[6]。研究者不需預先指定聚類分組的數(shù)目,結(jié)果以樹狀圖的形式直觀顯示出聚類情況,清晰地劃分組與組之間的層次關系,研究者可根據(jù)其結(jié)果并結(jié)合臨床經(jīng)驗對不同組聚類對象進行描述并制定有針對性的干預指導。HC的基本步驟[6,8]:①開始時各個樣品(或變 量)獨自視為一類,即各類只含一個樣品(或變量),計算類間相似系數(shù)矩陣,其中的元素是樣品(或變量)間的相似系數(shù),相似系數(shù)矩陣是對稱矩陣;②將相似系數(shù)最大(距離最小或相似系數(shù)最大)的兩類合并成新類,計算新類與其余類間相似系數(shù);③重復第二步,直至全部樣品(或變量)被并為一類。
1.2.2 K-Means聚類 K-Means聚類適用于處理大數(shù)據(jù)集,特別是當樣本分布呈現(xiàn)類內(nèi)團聚狀時,可以達到很好的聚類結(jié)果,以確定聚類數(shù)(K值)和選定的初始聚類中心為前提,使各樣本到其判屬類別中心距離(平方)之和最小的最佳聚類[6,9]。以效果較好、思想簡單的優(yōu)點在聚類算法中廣泛應用,能夠快速獲得聚類結(jié)果,研究者可根據(jù)分類結(jié)果比較不同組患者的特征,發(fā)掘不同組別差異及制定針對性的干預措施。K-Means聚類的基本步驟[6,10]:①研究人員自定義聚類數(shù)(K值)和初始聚類質(zhì)心的估計值;②在完成第一遍數(shù)據(jù)處理后,計算每個數(shù)據(jù)點與質(zhì)心之間的距離,數(shù)據(jù)點被分配到與其共享群集質(zhì)心最小距離的群集;③計算新質(zhì)心,并重新計算所有數(shù)據(jù)點與新質(zhì)心之間的距離;④不斷重復,直到數(shù)據(jù)點的重新分配停止并且質(zhì)心保持穩(wěn)定。
1.2.3 兩步聚類 兩步聚類(two step cluster,TSC)是近年隨著人工智能發(fā)展起來的智能聚類方法,用于解決海量數(shù)據(jù)、復雜類別結(jié)構時的聚類分析問題,利于研究者在無任何先驗知識時進行探索性分析,其前提條件是各個變量互相獨立,服從多元正態(tài)分布(對于連續(xù)型變量)或聯(lián)合多分類正態(tài)分布(對于同時具有連續(xù)型和分類變量時)[6]。TSC的基本步驟:①預聚類:對記錄進行初始的歸類,構建聚類特征樹。先把某個觀測量放在特征樹的根節(jié)點處,記錄該觀測量的變量信息,然后根據(jù)指定距離測度作為相似性依據(jù),每個后續(xù)觀測量根據(jù)與已有節(jié)點的相似性的比較,放至最相似的節(jié)點處;若未找到某個相似性的節(jié)點,就形成一個新的節(jié)點。②正式聚類:對第一步完成的初步聚類進行再聚類并確定最終的聚類方案,系統(tǒng)更具一定的統(tǒng)計標準確定聚類的類別數(shù)目。
1.2.4 潛在類別模型 潛在類別模型(latent class model,LCM)是近幾年來應用于癥狀群研究的一種方法,相較于傳統(tǒng)的聚類分析等數(shù)據(jù)分析方式具有客觀、不受變量類型限制、無需標準化、可考慮協(xié)變量等優(yōu)點,因而在疾病分型中具有較高的臨床應用價值。包括潛在剖面分析(latent profile analysis,LPA)和潛在類別分析(latent class analysis,LCA),前者適用于連續(xù)性變量,后者適用于分類變量[11-12]。LCM的基本步驟[12]:①把零模型當作假設模型,從零模型開始逐漸增加潛在類別的數(shù)目,在參數(shù)限定的基礎上運用極大似然法對各模型進行估計,反復進行假設模型與觀察數(shù)據(jù)之間的檢驗,比較各模型的適配結(jié)果,直至找到最佳模型為止。最佳模型確定后,根據(jù)條件概率來判斷各類別的反應傾向。即條件概率越大,表示該潛在類別在該外顯變量上選擇該水平的概率越大,表明這種外顯傾向越明顯。②根據(jù)各外顯變量的條件概率對各潛在類別的特征進行歸納和命名。③通過計算后驗概率推斷各作答向量所屬的潛在類別,以此來對每位被試進行潛在分類。
20世紀70年代聚類分析開始應用于國外護理領域,主要集中在護理實踐的定義[4]。1977年,HAGAN[13]認為不以患者特征,而通過提供的護理服務來確定目標人群存在困難,探索運用聚類分析根據(jù)提供的護理服務和患者的敏銳度確定了同質(zhì)的亞組,描述了優(yōu)質(zhì)護理的概念,標志著聚類分析在護理領域的出現(xiàn)。
繼HAGAN[13]將聚類分析引入護理領域之后10多年間,未見類似研究公開發(fā)表。1990年,STUIFBERGEN[14]對父母長期患病的家庭功能模式進行探索,評估養(yǎng)育子女的父母中一方患有慢性病的家庭功能模式,運用K-Means聚類對評估結(jié)果進行分析,將研究對象聚為四類并對每組家庭模式的特征進行比較和命名,標志著聚類分析再現(xiàn)護理領域。隨后,JOHNSON[15]使用HC等方法對靜脈性和動脈性腿部潰瘍患者的愈合因素進行聚類,幫助護士評估患者的愈合潛力,擴大了聚類分析在護理領域的應用范圍。這一階段聚類分析在護理研究領域的應用基于HC居多;同時,研究的焦點逐步多樣化,涉及護士執(zhí)業(yè)環(huán)境、護士類型、患者類型的聚類[4]。
DUNN等[4]指出,21世紀初的護理研究者開始應用LCM和聚類分析的程序。如RYAN等[16]為確定可以代表急性心肌梗死的癥狀簇,應用LCA確定了急性心肌梗死的五類癥狀,發(fā)現(xiàn)所有集群中均未出現(xiàn)急性心肌梗死的常見癥狀,提示此結(jié)果應受到公眾及醫(yī)務人員的關注,以有效地評估患者癥狀并指導其尋求治療的行為。BENDER等[17]將聚類分析用于癌癥癥狀群分類,運用HC確定了與乳腺癌發(fā)展的3個階段相對應的3個癥狀組,推動腫瘤護理領域聚類分析的創(chuàng)新發(fā)展,進而促進在其他疾病護理領域的應用。LINDBERG等[18]為確定血液析患者的自我效能、威脅的關注度和抑郁癥狀方面是否存在可定義的亞組,運用TSC將患者聚為3個不同的亞組,比較不同特征組患者存在的差異。這一時期研究者對聚類分析的認可度和重視度越來越高,并推動其不斷創(chuàng)新與發(fā)展。
2010年以后聚類分析解決特定疾病護理問題的研究范圍不斷擴大,涉及慢性腎病、精神疾病、呼吸系統(tǒng)疾病等,LCA在護理文獻中的應用也越來越普遍[4]。此外,GHOSH等[5]探索美國護士分布在城鄉(xiāng)差異并討論地理分布不均的影響,運用聚類分析對心理健康高級執(zhí)業(yè)注冊護士短缺的空間分布進行分類,從而識別護士短缺的地域,為指導教育、臨床實踐和制定政策提供了依據(jù)。GHOSH等[5]運用聚類分析解決高級護理實踐問題,標志著聚類分析的應用延伸至全部護理領域。
聚類分析引入我國護理領域較晚。2001年肖海汀等[19]在《中華護理雜志》發(fā)表“關于護士職業(yè)心理素質(zhì)的聚類分析”,首次將聚類分析引入國內(nèi)護理領域。該研究運用HC對護士職業(yè)心理素質(zhì)的51個變量聚類并結(jié)合具體工作實踐進行描述,表明護士的職業(yè)心理素質(zhì)主要體現(xiàn)在職業(yè)能力及其行為方式、情緒情感及其表達方式、對人格的自我要求3個方面。
2002年至2010年,國內(nèi)護理領域應用聚類分析的研究基本保持在每年發(fā)表1篇相關文獻。如:中國香港學者CHAN等[20]基于TSC對中國香港華人健康狀況調(diào)查數(shù)據(jù)聚類,旨在探索不同人群的健康狀況,認為“低體力活動、低健康知識組”和“低體力活動、低健康、低飲食/營養(yǎng)組”較合適,并對兩組人群的一般人口學資料進行比較分析,實現(xiàn)對兩組人群健康狀況差異的描述;臺灣學者LIU等[21]為探討腫瘤患兒母親不確定性和痛苦的分組,基于HC確定了4個組,發(fā)現(xiàn)不確定性低和痛苦低的亞組中的母親具有最高的生活質(zhì)量和希望;陳懷玉等[22]邀請護理專家對篩選出的32項護士工作職責進行評分,運用聚類分析探索評分結(jié)果,最終將護士工作職責聚為6組,從而實現(xiàn)對護士工作職責的等級劃分。
2011年至2014年,國內(nèi)相關文獻數(shù)量呈緩慢增長趨勢,所涉及的內(nèi)容和領域逐漸豐富,每年的發(fā)文量基本保持在3篇左右。值得注意的是,從2014年開始國內(nèi)引用聚類分析的護理文獻數(shù)量呈快速增長趨勢,但研究主要集中于共詞聚類,文獻計量學方法與聚類分析相結(jié)合以發(fā)掘近期護理研究熱點為目的,如:沈明等[23]基于PubMed數(shù)據(jù)庫的護理人員職業(yè)召喚研究現(xiàn)狀的共詞聚類分析。也有部分研究將聚類分析引入臨床護理疾病的癥狀分型、護理教育、護理管理等領域。同時,LCM也逐漸出現(xiàn)在國內(nèi)護理文獻中,如:王營營等[24]關于造血干細胞移植患者心理韌性的潛在類別及應對方式研究、張賢賢等[25]關于妊娠期糖尿病孕婦妊娠相關焦慮的潛在類別分析等。這表明我國護理研究者開始重視以聚類分析為方法論并將其應用于國內(nèi)護理領域,也預測聚類分析將會是今后護理領域方法學上的趨勢。
聚類分析應用于臨床護理領域主要是對疾病的臨床癥狀分型,為護士實施針對性干預提供實證依據(jù)。聚類結(jié)果中每一“簇”患者都各具特征,要求醫(yī)護人員有效甄別并給予針對性的管理和支持,更大程度地促進患者康復。
國外學者VASILIADOU等[26]首次將聚類分析應用在特定疾病,對不同科室、不同體力強度下的護士職業(yè)性腰痛進行聚類并對分類進行比較描述。SHAHRBANIAN等[27]基于HC和K-Means聚類將多發(fā)性硬化癥的9種癥狀聚為3個癥狀組,比較各特征組對不良結(jié)局的貢獻度,幫助醫(yī)務人員確定每組患者治療方法的優(yōu)先順序。慢性疼痛是常見的老年綜合征,HALL-LORD等[28]關于老年人慢性疼痛的研究,對患者疼痛和苦惱問卷中12個條目的得分進行聚類分析后產(chǎn)生3個特征組,并比較了每組老年人疼痛的特征,為后續(xù)的研究提供依據(jù)。此外,BUIJCK等[29]對老年腦卒中患者病情進行分型,以預測其出院后適合的療養(yǎng)場所,基于TSC區(qū)分不同組的變量,最終將患者聚為2組,并對2組患者入院和出院時的相關指標進行分析。同時,聚類分析在國外兒科與產(chǎn)婦護理領域也取得了一定的進展,主要涉及兒童腫瘤、兒童營養(yǎng)、嬰兒睡眠與產(chǎn)婦健康狀況等方面的研究。
在國內(nèi),樊惠穎等[30]探索精神分裂癥患者中自我管理狀況的類型,以自我管理的6個因子為聚類變量,HC初步確定聚類個數(shù),K-Means聚類將具有相似自我管理狀況的患者聚為3類,通過比較分析對各類加以命名并探討各組患者特點,為更有針對性地提高患者的自我管理能力提供參考。此外,國內(nèi)也有護理研究者將聚類分析運用于其他臨床疾病,如探討哮喘患兒家庭照護模式的不同類型[31]、縱向探究心力衰竭患者從急性加重期到穩(wěn)定期癥狀群的變化情況[32]、心房顫動患者癥狀群及其影響因素研究[33]等。
聚類分析應用于護理教育領域,利于學生課程的設置和安排。THORPE等[34]首次將聚類分析應用于護理教育領域,基于TSC探索護理和管理專業(yè)本科生批判性思維的類型最終將樣本聚為4類,每一類學生在形成評判性思維的過程中都各具特點,通過制定針對性的干預方案,可有效提高學生的評判性思維。此外,F(xiàn)ORSMAN等[35]研究瑞典應屆護生的專業(yè)能力與考試成績的關系,收集179名學生最后一學期課程的成績,運用TSC識別護生能力概況并進行聚類之間的比較,最終確定了3個特征組并描述了學生的不同能力概況。
國內(nèi)學者呂蘭存等[36]對高等護理教育臨床教學質(zhì)量評價系統(tǒng)的研究,標志聚類分析在國內(nèi)護理教育研究中的應用,該研究根據(jù)各醫(yī)院帶教老師授課質(zhì)量、護生綜合成績及教學基地綜合實力測評得出平均成績,基于HC將5所教學醫(yī)院聚為3類,通過建立一套完善的臨床護理教學質(zhì)量評價體系以發(fā)現(xiàn)各教學醫(yī)院薄弱環(huán)節(jié),提出改進措施,從而提高教學水平。此后,相關研究主要涉及我國護理學專業(yè)博士學位論文的研究現(xiàn)狀及其熱點[37]、教師的教學設計[38]等。
聚類分析應用于護理管理領域,利于護理工作更加合理、便捷及高效的開展。HILLHOUSE等[39]對護士的工作壓力、職業(yè)倦怠、情感癥狀和軀體癥狀進行了全面可靠的評估,運用聚類分析確定了3種不同的護士壓力效應亞型,標志著聚類分析開始在護理管理領域應用。此外,有研究將聚類分析用于護理學教授的分型,TOESCHER等[40]了解到護理學教授在日常實踐中會遇到與他們的價值觀和道德準則相沖突的情況會導致道德困擾,運用TSC對該人群社會人口學特征和精神困擾強度進行分組,最終將研究對象聚為4類,倡導以符合該人群具體特點和需求及倫理的、合適的方式制定教育規(guī)劃的政策。
馬金娟等[41]為了減少護理工作統(tǒng)計量,首次將聚類分析應用在國內(nèi)護理管理工作中,對護理工作項目指標間的相關系數(shù)進行HC,篩選出具有代表性的8個項目,結(jié)果表明以這些項目為護理工作量的統(tǒng)計評價體系,在減少護理工作統(tǒng)計量的同時使護理管理工作更加高效、便捷。此后,研究主要關注護士職業(yè)生涯[42]、護理崗位研究[43]等。
聚類分析在護理研究領域的應用為研究提供方向,對學科發(fā)展起到積極的推動作用,主要通過文獻計量學方法與聚類分析相結(jié)合,發(fā)掘近幾年護理研究的熱點,為研究選題提供方向和依據(jù),相關文獻聚焦在護理科研的發(fā)展趨勢、研究熱點的共詞聚類等。如于琦等[44]近5年護理學研究主題演化分析、周元等[45]國內(nèi)神經(jīng)外科護理相關研究現(xiàn)狀與趨勢分析等研究。
聚類分析在國外護理領域的應用注重從特定疾病及臨床實際問題出發(fā),為患者更好管理疾病提供依據(jù),也為解決護理人員工作中的困惑提供參考。此外,還有研究者建議應進一步將聚類分析的應用過渡到護理實踐、臨床決策和循證實踐實施等[4]。近些年,國內(nèi)護理領域聚類分析的應用主要集中于揭示當下護理分支領域研究的發(fā)展現(xiàn)狀和演變規(guī)律,把握護理學研究的最新動態(tài),雖然體現(xiàn)國內(nèi)研究者創(chuàng)新性上的突破,但聚類分析在臨床疾病的應用范圍仍較窄且研究數(shù)目不多,今后研究者可在自身創(chuàng)新的基礎上參考國外研究趨勢。
聚類分析在國內(nèi)護理領域的研究涉及臨床表征的識別及歸類,根據(jù)分類的特征給出相應的干預方案,但對方案的驗證研究較少,未來可逐步延伸至縱向的驗證性研究,推進研究結(jié)果指導并應用于臨床,以解決具體臨床問題。同時,研究者對聚類分析的結(jié)果進行歸類命名時帶有一定的主觀性,這就要求研究者通過參考大量文獻、結(jié)合臨床經(jīng)驗及咨詢相關領域?qū)<遥㈧`活應用降低聚類結(jié)果的主觀性,從而確定最佳的聚類數(shù)目并加以驗證分析。未來的研究可通過提升研究者的數(shù)據(jù)處理能力以彌補主觀性的不足,推進聚類分析與護理學科發(fā)展的有機融合。