陳 浩 王翔宇 侯如霞 楊婷婷 劉君瑜 史富茹
齲病是一種牙體硬組織慢性疾病,嚴(yán)重威脅人類的健康[1]。第四次全國口腔流行病學(xué)調(diào)查結(jié)果顯示,12歲兒童中有34.5%的人患齲病,而在35~44歲的人群中患齲率則高達89.0%[2]。齲病可造成牙體缺損、牙髓病和根尖周病等,影響牙的功能與美觀,可使患者的咀嚼功能減退、發(fā)音功能障礙,甚至可能會導(dǎo)致顳下頜關(guān)節(jié)紊亂和錯牙合畸形。目前公認齲病是在一定的時間內(nèi),受宿主易感性、口腔細菌和飲食等因素影響的一種口腔牙體疾病[3]。這些影響因素具體為宿主的基因、唾液[4]、細菌的種類[5]及其附著方式、飲食的種類及頻率等。而在宏觀上,齲病的發(fā)生則可能受到家庭、政策、社會和經(jīng)濟[6]等因素的影響。
齲病的流行病學(xué)研究是通過臨床流行病學(xué)基本方法對齲病的發(fā)病原因、分布規(guī)律、預(yù)防方法等進行研究的。統(tǒng)計學(xué)和計算機技術(shù)的發(fā)展使得復(fù)雜的統(tǒng)計方法和分析成為可能。近年來,國內(nèi)外研究者使用方差分析、相關(guān)性分析、回歸分析、聚類分析等統(tǒng)計學(xué)方式對齲病進行了大量的研究,促進了齲病防治方式的進步。作為數(shù)據(jù)統(tǒng)計分析方式之一,聚類分析統(tǒng)計法因其具有簡單快速、結(jié)論直觀和無需訓(xùn)練集等優(yōu)點,近年來在齲病的流行病學(xué)研究中也得到了廣泛的使用。本文就聚類分析法在齲病的流行病學(xué)研究中的常用方法、應(yīng)用進展和優(yōu)勢與展望等做一綜述,以期發(fā)掘聚類分析法在齲病流行病學(xué)研究中的應(yīng)用價值,促進齲病防治的發(fā)展,促進人類口腔健康的發(fā)展。
數(shù)據(jù)挖掘(data mining,DM)是從大量的、不完全的、模糊的數(shù)據(jù)集中,提取隱含在其中有用信息的過程。描述型DM 屬于無監(jiān)督模型,不需要響應(yīng)變量集,是在自身的數(shù)據(jù)集中尋找規(guī)律,主要有“關(guān)聯(lián)分析”、“聚類分析”、“主成分分析”三種模式。聚類分析作為描述型DM 中的一種,是傳統(tǒng)統(tǒng)計學(xué)算法的延伸和擴展。它的出現(xiàn)不是為了替代以往的統(tǒng)計學(xué)算法,而是與其他統(tǒng)計學(xué)方法一起去解決一些較難的數(shù)據(jù)分析問題。聚類分析法是將一組數(shù)據(jù)(如:病例、問卷、試驗數(shù)據(jù))在一定的算法規(guī)則下,按照其相似性和差異性分為幾個類別,使得同一類別中的數(shù)據(jù)特征相近,而不同類別間的數(shù)據(jù)相似性盡可能的小[7]。從而把樣本分成不同的幾個簇集,以便于研究者依靠簇集的聚類特征進一步發(fā)掘出潛在的信息。聚類分析得到的相應(yīng)的簇集結(jié)果后,可以再聯(lián)合其他的統(tǒng)計方式(例如單因素分析、多元logistics回歸等)進行更深入的統(tǒng)計學(xué)分析[8]。
聚類分析統(tǒng)計法主要可以分為以下幾個種類:劃分算法(以K-means最為常見)、層次方法(以系統(tǒng)聚類分析為代表)、基于密度的算法(如: DBSCAN算法等)、基于模型的方法(如:神經(jīng)網(wǎng)絡(luò))以及基于網(wǎng)格的方法(如:Wave-Cluster),這些方法可以滿足多數(shù)應(yīng)用場景和研究的需求。目前,在齲病的流行病學(xué)研究中主要的運用方法的是K-means 聚類分析、系統(tǒng)聚類分析、兩步聚類分析等。
K-means 聚類分析一般為Q 型聚類,即對樣本進行聚類,可對連續(xù)變量進行處理。K-means 聚類分析通常以一個預(yù)設(shè)分類數(shù)開始,根據(jù)研究的目標(biāo),選擇人為干擾或不干擾初始聚類中心(質(zhì)心)。然后通過計算樣本間的平方歐式距離,經(jīng)過多次迭代,不斷地調(diào)整質(zhì)心,最終在目標(biāo)函數(shù)收斂結(jié)束時,把樣本分成K 個不同的簇集[9]。K-means 聚類分析具有簡單快速,適用于大樣本和多變量數(shù)據(jù)等優(yōu)點,但是也有著對離群點、異常點較敏感等缺點。目前在齲病研究中的應(yīng)用如下。
(1)飲食模式與齲風(fēng)險的關(guān)系研究
K-means 聚類分析法可以對連續(xù)變量進行處理,最終按照個體的變量特征將個體聚集為不同的幾個簇集。在研究飲食模式與疾病之間的聯(lián)系時,需要把個體多類型的飲食攝入量或攝入頻率看成一個整體[10]。Samman M 等[11]發(fā)現(xiàn)美國兒童齲病與其飲料攝入量有關(guān),但兒童攝入的飲料是多類型的,各類飲料之間潛在的相互干擾,導(dǎo)致一些基于傳統(tǒng)統(tǒng)計分析方式得出的研究結(jié)論經(jīng)常出現(xiàn)相互矛盾的情況。而該研究則使用K-means聚類分析法對美國兒童飲料攝入量的數(shù)據(jù)進行了預(yù)處理,最終確定了4種飲料模式,然后使用描述性統(tǒng)計和多元logistics分析等方式進行了深入分析,最終得出了無糖飲料對美國兒童齲齒無不良影響的結(jié)論。這為齲病與飲食模式關(guān)系的研究開辟了新的思路與研究方向。
(2)社會環(huán)境因素與齲齒經(jīng)歷的關(guān)系研究
K-means 聚類分析法能處理齲病的多維度的影響因素,從而使得研究者能更容易地發(fā)掘其潛在的影響關(guān)系。Juliana Neide Amato[12]對5213名學(xué)生的齲齒經(jīng)歷進行了研究,納入了社會、環(huán)境、學(xué)校、家庭等方面的數(shù)十個影響因素,然后使用K-means 聚類分析法進行了聚類,最終從“優(yōu)勢群體”和“弱勢群體”的角度上分析了各種社會環(huán)境因素與齲齒經(jīng)歷的關(guān)系。
(3)齲齒的臨床診斷研究
K-means 聚類分析法在實現(xiàn)數(shù)字口腔內(nèi)放射(digital intraoral radiology,DIR)圖像的齲齒區(qū)域可視化上具有優(yōu)勢。Obuchowicz R[13]為了改進齲齒DIR 臨床檢測方法,探討了可行的六種方法,包括K-means 聚類、共生矩陣、灰度差陣等方法,最終認為K-means 聚類雖然具有一些缺點(如必須預(yù)先輸入分類數(shù)量),但使用此方法進行齲齒的DIR圖像紋理特征分析,能顯著提高DIR齲病位點的檢測能力。同時,Das Gupta S[14]通過K-means 聚類分析法對10顆早期齲壞牙齒的拉曼顯微光譜(Raman microspectroscopy)進行了研究,最終發(fā)現(xiàn)K-means聚類分析對礦化程度很敏感,能準(zhǔn)確地從光譜圖中識別到齲齒病變。
系統(tǒng)聚類(hierarchical cluster,HC)也叫層次聚類算法、分層聚類法。它是層次方法之一[15]。HC法能處理分類變量或者連續(xù)變量。其方法主要分為兩種,一種是凝聚層次聚類(AGNES),另一種是分解層次聚類(DIANA)。在齲病研究中以AGNES 較為常用。其基本原理為:初始時,把每個變量或樣本作為單獨的一簇,計算變量或樣本之間的類間距離,把距離相近的變量先聚合成為一個新簇,再重復(fù)此步驟逐步合并,最終把變量或樣本都合并到同一個聚類時則停止,整個結(jié)果用樹狀圖或譜系圖來表示。雖然HC 法處理速度相對較慢、不適用于龐大的數(shù)據(jù)集,但其具有使用限制較少、無需預(yù)先確定分類數(shù)等優(yōu)勢。HC法在齲病研究中的應(yīng)用較為廣泛。
(1)齲病病因?qū)W研究:①遺傳因素:在個體層面上使用HC 法對齲面進行聚類后,再對聚類簇進行遺傳關(guān)聯(lián)的研究[16],有助于對齲病有關(guān)的遺傳基因因素的探索。Haworth S[17]在一項對雙胞胎患齲病特點的研究中,使用HC 法把不同牙位的齲齒面聚集為了7 個類型,然后通過多變量ACE 模型研究了每個聚類中的遺傳因素的貢獻比例,最后證明遺傳因素能解釋41.9%~54.3%的齲病易感性。②細菌因素:使用HC 法可建立齲病患者與口腔細菌種類的無監(jiān)督分層聚類熱圖,從而更容易地對不同齲病患者的口腔菌群類型進行分析。Wolff[18]使用HC 法對26 例患齲者和28 例無齲者的牙菌斑細菌的實時定量聚合酶鏈?zhǔn)椒磻?yīng)(real-time quantitative polymerase chain reaction,RQ-PCR) 產(chǎn)物進行了分析,最終通過觀察分層聚類熱圖發(fā)現(xiàn):在沒有患齲齒的受試者中,血鏈球菌、戈登氏鏈球菌、二氧化碳噬纖維菌、咽峽炎鏈球菌群和梭桿菌的RQ-PCR 表達水平相對更高,而在患有齲病的受試者中,變形鏈球菌和酸性丙酸桿菌的RQ-PCR 表達水平相對較高。③唾液因素:使用HC 法可以把含有數(shù)十種成分的唾液進行分類,進而使研究者從整個唾液分型的維度去分析對應(yīng)的齲風(fēng)險特征[19]。Xia G[20]的一項對28 名志愿者的縱向研究,對未受刺激分泌的唾液和受刺激后分泌的唾液的變量進行了HC 分析,最終證明較高的唾液流速、較低的未刺激唾液溶菌酶和乳鐵蛋白水平與低齲風(fēng)險相關(guān)?;谕僖簲?shù)據(jù)的聚類分析,有助于從一系列唾液數(shù)據(jù)中挖掘出對低齲風(fēng)險較為重要的唾液影響成分。
(2)齲病分類模型研究
建立相應(yīng)的齲病分類模型,有助于齲病的流行病學(xué)研究[21]和基因研究[22]。使用HC法,根據(jù)人群中齲病病變牙面的分布特征對牙面進行分類,有助于研究人員對特定的齲病模式與環(huán)境、遺傳等因素的相關(guān)關(guān)系進行研究。Shaffer JR 等人[23]對1068 名成年人的全口齲齒數(shù)據(jù)進行了分層聚類分析,將樣本分為了5 種齲病模式:C1 磨牙窩溝面、C2 下頜前牙面、C3 后牙非窩溝的面、C4 上頜前牙面、C5 牙列中部的面,然后再進一步地對這五種齲病模式的患者特征進行了分析,最終發(fā)現(xiàn)遺傳、年齡、受教育程度等是齲病的一系列影響因素。
基于多維比例分析建立的低齡兒童齲?。╡arly childhood caries,ECC)模型在準(zhǔn)確性上相對較差,而使用HC 可以對現(xiàn)有的ECC 模型進行補充和完善[24]。Psoter WJ[25]在一項對美國5169 名學(xué)齡前兒童的研究中,使用HC 分析同時結(jié)合已有的ECC 模型,建立了一種更精確的ECC 模型:C1 除上頜切牙外的光滑面、C2 上頜切牙、C3 下頜第一磨牙牙合面、C4 上頜第一磨牙牙合 面、C5 上頜第二磨牙牙合 面、C6下頜第二磨牙牙合面。使用HC 法建立的ECC 模型有助于研究者對ECC 危險因素的識別,以進一步探討ECC 的風(fēng)險因素和保護因素。Wang X[26]的研究使用HC 法把2160 名青少年分為了4 個齲風(fēng)險簇集(低風(fēng)險、中風(fēng)險、高風(fēng)險和極高風(fēng)險),并深入分析了這4 個簇集的人口、社會經(jīng)濟、心理和行為因素的關(guān)聯(lián),為有關(guān)部門在齲病預(yù)防政策上的優(yōu)化提供了方法和依據(jù)。
(3)齲病預(yù)防模式的研究
使用HC 法對醫(yī)師預(yù)防模式進行分析,可以幫助醫(yī)師和相關(guān)機構(gòu)選擇重點干預(yù)人群,優(yōu)化預(yù)防齲病的方式,從而預(yù)防或延緩齲齒在人群中的發(fā)展[27]。Da Silva Tagliaferro[28]使用聚類分析對197名巴西牙醫(yī)的齲病預(yù)防模式進行分析后發(fā)現(xiàn):最大分組(容納著98 名牙醫(yī))的特征是“很少對患者使用齲病預(yù)防措施”,該分組同時伴有以下特征:①能接受個人齲齒預(yù)防的患者比例最低;②評估齲齒風(fēng)險的可能性最低;③女性牙醫(yī)比例最低;④45~64歲的患者比例最高。
兩步聚類分析法(two step cluster,TSC)是以統(tǒng)計量作為距離指標(biāo),把連續(xù)變量和分類(離散)變量根據(jù)統(tǒng)計標(biāo)準(zhǔn),自動確定最佳分類數(shù)的一種聚類方法。TSC 的兩步為:第一步,構(gòu)建聚類特征(Cluster feature,CF)樹。CF 樹是在掃描數(shù)據(jù)集的過程中不斷添加并更新CF 條目及分裂節(jié)點來形成的。它根據(jù)首個樣本建立根節(jié)點及相應(yīng)的條目,之后根據(jù)距離最小的原則逐個將其他的樣本分配。CF 樹中節(jié)點的每個條目表示一個聚類,每個條目就是聚類特征。第二步,將上一步的預(yù)聚類結(jié)果進行正式地再聚類。根據(jù)施瓦茲貝葉斯準(zhǔn)則或Akaike信息準(zhǔn)則等指標(biāo)自動確定最佳聚類個數(shù)[29]。TSC 還具有更適用于大型數(shù)據(jù)集,同時也能診斷樣本中的離群點和噪聲數(shù)據(jù)等優(yōu)勢。
(1)復(fù)雜因素對齲病的影響研究
相較于K-means 聚類分析和HC 分析,TSC 的一個優(yōu)勢在于可以同時對分類變量和連續(xù)變量進行處理。Fadel HT[30]的一項的齲病影響因素的研究中,同時納入了父母教育水平、患兒性別等分類變量和患兒身體質(zhì)量指數(shù)(body mass index,BMI)等連續(xù)變量,運用TSC法把290名兒童家長聚集為了4個類型,從而進一步分析了4 個類型中的齲病患兒在DMFT 指數(shù)上的差異,最終認為BMI 高、父母教育程度低的患兒,齲風(fēng)險更大。
(2)不良修復(fù)體與繼發(fā)齲的關(guān)系研究
TSC 的另一個優(yōu)勢在于可以自動確定最佳的分類數(shù)。Ghulam OA[31]在一項修復(fù)體懸突和繼發(fā)齲的研究中,對502 名具有修復(fù)經(jīng)歷的患者的年齡、性別、醫(yī)療水平和齲齒經(jīng)歷等變量使用了TSC法,最終將患者自動聚集為了5 種類型,然后通過分析聚類特征,進而證明了充填體懸突與患者所受的醫(yī)療水平相關(guān),且修復(fù)體懸突是繼發(fā)齲的一個危險因素。
口腔流行病學(xué)研究中較常使用的統(tǒng)計分析方式(相關(guān)分析、方差分析、回歸分析等)在齲病的研究中發(fā)揮著重要作用,但對于樣本量大、影響因素多維的數(shù)據(jù)集,有時卻面臨著統(tǒng)計設(shè)計繁瑣和統(tǒng)計結(jié)果的可解釋性較弱等問題。而使用聚類分析法與傳統(tǒng)統(tǒng)計方式相結(jié)合的模式,可以更直觀且便捷地處理齲病的多維度的影響因素,從而有利于研究人員進一步發(fā)掘數(shù)據(jù)集中潛在的有用信息。比如在研究飲食模式與齲病之間的聯(lián)系時,需要把個體多類型的飲食攝入量或攝入頻率看成一個整體,如果單純地使用傳統(tǒng)統(tǒng)計方式,則統(tǒng)計設(shè)計相對困難且繁瑣。而研究人員如果使用聚類分析法預(yù)處理數(shù)據(jù)[11],從個體的維度上把樣本聚類為幾個飲食模式,再使用傳統(tǒng)方式進行齲風(fēng)險的分析則更容易進行數(shù)據(jù)處理,且得到的分析結(jié)果也更加淺顯易懂。Shaffer[23]認為相較于一般的齲病流行病學(xué)研究,使用聚類分析法可以根據(jù)齲齒的特點將其進行合理的分組,這有利于進一步的齲齒病因?qū)W的研究。WangX[26]認為在齲病橫斷面調(diào)查的研究中使用分層聚類分析可以從更少的樣本中挖掘出更多有用的信息。但Zhao J[32]在肯定聚類分析法具有優(yōu)勢的同時,也指出了這種方式?jīng)]有考慮到個體分類的不確定性,且在結(jié)果再現(xiàn)性方面具有一定的局限。所以,臨床在應(yīng)用聚類分析進行數(shù)據(jù)分析時,應(yīng)充分考量其局限性對實驗結(jié)果的影響[33]。同時,關(guān)注并使用聚類分析算法的改進方法或許可以更好的達到實驗?zāi)康?,如簡單多核K-Means聚類方法[34]、無中心聚類法[35]等。
三種聚類分析方法在齲病流行病學(xué)研究中的適用范圍不同,優(yōu)缺點各異(表1)。值得注意的是,本文中所探討的聚類分析法在齲病研究中的應(yīng)用,僅為國內(nèi)外研究應(yīng)用現(xiàn)況,并非表明類似的齲病研究就必須局限于所對應(yīng)的聚類分析方法。研究者應(yīng)根據(jù)樣本量、變量類型及研究目的等,靈活地選用更適合的聚類分析方法。同時應(yīng)注意到,聚類分析方法并不能完全代替?zhèn)鹘y(tǒng)統(tǒng)計方法,在一項研究中一般不會單獨地使用聚類分析。通常,使用聚類分析法對樣本進行預(yù)處理后,仍然需要傳統(tǒng)的統(tǒng)計方法對聚類結(jié)果進行進一步的處理及分析。
表1 三種聚類分析方法的適用范圍及優(yōu)缺點
綜上,在齲病的流行病學(xué)研究中使用聚類分析方法,對明確齲病的病因、影響因素和在齲病預(yù)防等方面具有重要的意義。目前,聚類分析法在齲病流行病學(xué)研究中的應(yīng)用,使得基因因素、細菌因素、飲食因素、社會環(huán)境因素等對齲風(fēng)險的影響關(guān)系更加清晰與完善?;诰垲惙治龅凝x病的流行病學(xué)研究仍然有廣闊的發(fā)展空間,有一些問題亟待解決:①個體飲食模式對齲風(fēng)險的影響的研究尚不完善;②目前的研究多局限于橫斷面研究,這不足以支撐齲病影響因素與齲病間的因果關(guān)系;③齲風(fēng)險評估模型建立的方法很多[36],而依靠聚類分析建立起的齲風(fēng)險評估模型對齲病的預(yù)防具有一定的指導(dǎo)意義[37]。