吳振強,王楊,李衛(wèi)
采用Logistic回歸分析時需注意的問題
吳振強,王楊,李衛(wèi)
Logistic;回歸; 樣本量
Logistic回歸常用于分析二分類因變量(如存活和死亡、患病和未患病等)與多個自變量的關系[1]。比較常用的情形是分析危險因素與是否發(fā)生某疾病相關聯(lián)。例如,若探討胃癌的危險因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群有不同的臨床表現(xiàn)和生活方式等,因變量就為有或無胃癌,即“是”或“否”,為二分類變量,自變量包括年齡、性別、飲食習慣、是否幽門螺桿菌感染等。自變量既可以是連續(xù)變量,也可以為分類變量。通過Logistic回歸分析,就可以大致了解胃癌的危險因素。
Logistic回歸與多元線性回歸有很多相同之處,但最大的區(qū)別就在于他們的因變量不同。多元線性回歸的因變量為連續(xù)變量;Logistic回歸的因變量為二分類變量或多分類變量,但二分類變量更常用,也更加容易解釋[1]。
盡管Logistic回歸在醫(yī)學研究領域中應用廣泛,但在應用中存在很多問題。本文將結合筆者自身的經(jīng)驗,對使用Logistic回歸常見的問題進行討論。
一般而言,Logistic回歸有兩大用途,首先是尋找危險因素,如上文的例子,找出與胃癌相關的危險因素;其次是用于預測,我們可以根據(jù)建立的Logistic回歸模型,預測在不同的自變量情況下,發(fā)生某病或某種情況的概率(包括風險評分的建立)。
所謂相對危險度(risk ratio,RR)是用來描述某一因素不同狀態(tài)發(fā)生疾?。ɑ蚱渌Y局)危險程度的比值。Logistic回歸給出的OR(odds ratio)值與相對危險度類似,常用來表示相對于某一人群,另一人群發(fā)生終點事件的風險超出或減少的程度。如不同性別的胃癌發(fā)生危險不同,通過Logistic回歸可以求出危險度的具體數(shù)值,例如1.7,這樣就表示,男性發(fā)生胃癌的風險是女性的1.7倍。這里要注意估計的方向問題,以女性作為參照,男性患胃癌的OR是1.7。如果以男性作為參照,算出的OR將會是0.588(1/1.7),表示女性發(fā)生胃癌的風險是男性的0.588倍,或者說,是男性的58.8%。撇開了參照組,相對危險度就沒有意義了。
Logistic回歸在醫(yī)學研究中廣泛使用的原因之一,就是模型直接給出具有臨床實際意義的OR值,很大程度上方便了結果的解讀與推廣。
通常回歸模型都需要建立在大樣本的基礎上。在進行Logistic回歸前,應該考慮當前的樣本量是否充足?根據(jù)模擬研究,在使用Logistic回歸時,事件(死亡或患?。﹤€數(shù)至少應該是自變量個數(shù)的10倍以上(這一條也適于Logostic其他的應用情況)[2]。例如,觀察胃癌的危險因素,比如有性別、年齡和飲食習慣等9個研究因素,那就至少需要90例胃癌。另一個比較常見的樣本量原則是,觀測的數(shù)量應該至少是自變量數(shù)的20~30倍,同樣如果有9個自變量,那么總體樣本最好能夠達到180例以上。建議在進行Logistic回歸前,結合上述兩個原則,從總樣本和事件數(shù)兩個角度共同對模型樣本量進行考慮。
Logistic回歸的自變量既可以是連續(xù)變量,也可為分類變量。總體原則是盡量從實際或專業(yè)角度考慮采取何種形式更好。比如年齡,可以取為連續(xù)變量,也可以5歲、10歲作為一組,甚至分為老年人和年輕人兩組。不同的劃分方式?jīng)Q定了結果解讀時的差異,比如,在做出胃癌與年齡的關系,如果把年齡作為連續(xù)變量分析,得到危險度為1.008,其解釋為年齡每增加1歲,患胃癌的風險就會多出0.008倍,這個數(shù)據(jù)會顯得沒有太大的臨床意義。但如果以10歲一組,可能得到的危險度就是1.6,即年齡每增長10歲、患胃癌的風險就增加60%,這樣幅度的相對風險更具有臨床實際意義。
如何將連續(xù)變量進行劃分并沒有固定的標準,按照統(tǒng)計學的分位數(shù)或具有臨床意義的界值劃分都是常用的方法。建議在分析時先進行趨勢的描述,觀察特定的自變量和因變量是何種關系,再結合臨床專業(yè)角度與統(tǒng)計學考慮,以獲得最合理的劃分方式。
在進行Logistic回歸分析時,是否必須先進行單因素分析,然后才能進行多因素分析?理論上講,如果樣本足夠大,且所有的因素之間沒有關聯(lián),最好把所有的因素都放到方程中,通過全模型法對所有可能的混雜因素同時進行分析,在此基礎上進一步通過逐步回歸的方法對有顯著意義的變量進行篩選,此種情況下可以不做單因素分析。如果樣本例數(shù)有限,比如,僅有80例患者,但是有20個因素,這種情況下,最好先進行單因素分析,剔除既無統(tǒng)計學意義,又無臨床意義的變量,只分析有意義的變量。
單因素分析時最好將P值放寬,比如0.1或0.15等,避免漏掉一些重要因素(變量間的相互作用可能導致多因素的結果不同于單因素分析)。當然,也要注意仔細檢查各因素間的關聯(lián)程度,對于高度相關的自變量一般不同時帶入模型,例如:收縮壓和舒張壓。一旦發(fā)現(xiàn)因素之間有較強的相關性,建議首先進行篩選,選擇最具代表性的變量帶入模型。
[1]陳峰. 醫(yī)用多元統(tǒng)計分析方法. 北京.中國統(tǒng)計出版社. 2007. 83-113.
[2]Peduzzi P, Concato J, Kemper E, et al. A simulation study of the number of events per variable in logistic regression analysis. J Clin Epidemiol. 1996. 49: 1373-1379.
100037 北京市,中國醫(yī)學科學院 北京協(xié)和醫(yī)學院 心血管病研究所 阜外心血管病醫(yī)院 醫(yī)學研究統(tǒng)計中心
吳振強 碩士 主要從事生物統(tǒng)計學研究 Email wuzhenqiang@mrbc-nccd.com 通訊作者:李衛(wèi) Email:liwei@mrbc-nccd.com
R54
C
1000-3614(2014)03-0230-02
10.3969/j.issn.1000-3614.2014.03.019
2014-02-07)
(編輯:常文靜)