王 超 吳 騁 許金芳 錢 維 葉小飛 杜文民 賀 佳
藥品不良反應(yīng)(adverse drug reaction,ADR)監(jiān)測最主要的數(shù)據(jù)來源是自發(fā)呈報系統(tǒng)(spontaneous reporting system,SRS),由各個地區(qū)的衛(wèi)生部門根據(jù)各自監(jiān)測到的不良反應(yīng)報告及時自發(fā)地上報得來,截止2010年該數(shù)據(jù)已達到692 904。要從如此海量而又復雜的數(shù)據(jù)中尋求信息并發(fā)現(xiàn)藥品與不良反應(yīng)之間的關(guān)聯(lián),需要借助有效的數(shù)據(jù)挖掘和統(tǒng)計分析方法才能實現(xiàn)。自1998年以來,對于不良反應(yīng)信號的數(shù)據(jù)挖掘工作已成為WHO烏普薩拉監(jiān)測中心(UMC)信號檢測過程中的一項常規(guī)工作〔1〕。如今,越來越多的國家已經(jīng)在用數(shù)據(jù)挖掘工具來提取信息。比較成熟的挖掘方法包括荷蘭藥物警戒中心的報告比數(shù)比法(reporting odds ratio,ROR);英國藥品和保健產(chǎn)品管理局的綜合標準法(Medicines and Healthcare Products Regulatory Agency MHRA,或 MCA);WHO的貝葉斯可信神經(jīng)網(wǎng)絡(luò)法(Bayesian confidence propagation neuralnetwork,BCPNN)和美國FDA的多項伽馬泊松收縮估計法(Multi-item gamma poisson shrinker,MGPS)等〔2-5〕。
應(yīng)用數(shù)據(jù)挖掘方法得出的不成比例報告僅僅是知識發(fā)現(xiàn)過程的第一步。對分析觀察性研究的數(shù)據(jù),一個最大的阻礙就是可能存在可測量的或不可測量的混雜,進而扭曲或遮蔽了真實的內(nèi)部關(guān)聯(lián)〔1〕。在ADR監(jiān)測工作中,目前大多情況仍是在基線不均衡的狀態(tài)下分析SRS數(shù)據(jù)。如老年人服用某種藥品發(fā)生的某不良反應(yīng)概率更高,但在SRS數(shù)據(jù)中某段時間內(nèi)上報的老年人很多,因此在沒有將年齡均衡的情況下得出的該藥和不良反應(yīng)的關(guān)聯(lián)是不可信的。如果能有效控制其中可能存在的混雜因素,將會使不同特征的數(shù)據(jù)具有可比性,從而更好地挖掘出數(shù)據(jù)間隱藏的信息。對于分層、匹配或多元回歸等傳統(tǒng)的去除混雜的方法,當面對像SRS這樣混雜因素較多的數(shù)據(jù)時,若同時分析這些混雜因素會出現(xiàn)過度分層或過匹配的現(xiàn)象,logistic回歸在自變量較多的情況下也會出現(xiàn)共線性等問題〔6〕。傾向性評分法(propensity score,PS)作為一種均衡基線的新方法〔7〕經(jīng)Rosenbaum和Rubin于上世紀80年代提出后引起了廣泛關(guān)注,主要應(yīng)用于觀察性和臨床非隨機化數(shù)據(jù)的研究。本文將介紹應(yīng)用PS匹配法對SRS數(shù)據(jù)進行混雜偏倚矯正并探討其適用性與效果。
Rosenbaum 和 Rubin 把傾向性評分定義為〔7-8〕:在可觀察的協(xié)變量(Xi)條件下,研究對象i(i=1,2,…,N)接受某種處理(或暴露)因素(Zi=1)而非對照因素(Zi=0)的條件概率,計算公式為:
可將公式進一步轉(zhuǎn)化為:
這里的e(x)就是傾向性評分??梢钥闯?,PS概括了所有協(xié)變量的作用并整合為一個綜合的分值。因此如果處理和對照有近似的PS值,我們就可以認為他們在這個具體的PS水平上是均衡可比的。
通過PS去除混雜主要包括以下幾個步驟〔9-10〕:第一,建立一個模型來估計傾向性評分值;第二,評價模型的適用性;第三,通過合適的方法應(yīng)用傾向性評分值估計處理(或暴露)因素的作用。通常應(yīng)用PS的方法主要為匹配,分層和回歸矯正。這三種方法計算PS的過程是相同的,待PS估算后就可應(yīng)用不同的方法來處理。傾向性評分分層法和回歸矯正法簡單易行,其中分層法應(yīng)用較廣,它是將所得的PS值分成若干層,一般分五層就能降低90%以上的偏倚〔11-12〕,再在每一層里進行處理效果的估計,之后加權(quán)這五層的估計值就能得到矯正混雜后的總結(jié)果。許多研究表明〔13-14〕,PS匹配法近年來受到更多的關(guān)注,是一種最能均衡各組之間分布與構(gòu)成的方法。并且由于SRS特點,對照組的人群數(shù)量遠遠大于處理組,此時更適合采用匹配的方法分析PS〔7〕。因此本研究將采用傾向性評分匹配法來處理SRS的數(shù)據(jù)。
為了驗證PS應(yīng)用在SRS中的可行性,本文首先在模擬數(shù)據(jù)集中進行了探討。模擬數(shù)據(jù)集根據(jù)Brookhart〔15〕的模擬多變量數(shù)據(jù)方法以及SRS自身的特點產(chǎn)生:
首先,利用正態(tài)分布離差隨機數(shù)RANNOR,模擬SRS年齡的變量生成連續(xù)協(xié)變量X1,利用二項分布隨機數(shù)RANBIN模擬性別生成二分類協(xié)變量X2,并且X1,X2相互獨立。
其次,在X1,X2變量下,應(yīng)用logistic回歸產(chǎn)生暴露變量 Drug1、Drug2、Drug3、Drug4。暴露模型如下:
最后,以 X1、X2、Drug1、Drug2、Drug3、Drug4為自變量,應(yīng)用logistic回歸生成二分類結(jié)果變量ADR,模型如下:
基于模擬數(shù)據(jù),通過 ROR、PRR、BCPNN〔2-5〕三種方法分別挖掘數(shù)據(jù),并根據(jù)其各自的標準閾值進行過濾篩選。選擇所有挖掘方法均能檢測出的可疑組合進行下一步的PS矯正。將PS匹配法應(yīng)用于SRS主要分以下幾步:
第一,應(yīng)用logistic回歸納入候選協(xié)變量建立模型,得出每個個體的傾向性評分值。在選擇協(xié)變量時,我們應(yīng)該盡量選取既與某藥因素有關(guān)又與某不良反應(yīng)變量有關(guān)的協(xié)變量納入模型〔15〕,并且根據(jù)C統(tǒng)計值判斷模型的適用性。
第二,將包含有傾向評分的全部觀察對象按是否服用某藥劃分為兩個數(shù)據(jù)集,再依次從用藥組選出一個個體,并從對照組找出和該個體的PS值最為接近的全部個體(小于所規(guī)定的選擇標準),再隨機從這些選定的對象中抽取一個作為對照。就這樣直至符合選擇標準的觀察對象全部抽取。
第三,按照抽取好的樣本再次通過統(tǒng)計算法(如ROR、PRR)等分析某藥和某不良反應(yīng)的關(guān)聯(lián)〔16〕。具體步驟如圖1所示。匹配方法通過SAS9.1.3編程實現(xiàn),本文參考 Parsons的貪婪法進行1∶1匹配〔17〕。
圖1 應(yīng)用PS均衡SRS數(shù)據(jù)的具體步驟
實際數(shù)據(jù)來自于上海市2009年藥品不良反應(yīng)監(jiān)測中心SRS的報告,共24 297例。數(shù)據(jù)集的初步清理包括,根據(jù)國家衛(wèi)生部發(fā)布的常用處方藥品通用名錄規(guī)范和編碼藥品的通用名稱,并采用MedDRA14.0中文版的優(yōu)先級(PT)規(guī)范了ADR名稱。應(yīng)用PS均衡混雜協(xié)變量的方法與模擬試驗類似,此處不再贅述。
應(yīng)用SAS9.1.3軟件實現(xiàn)SRS數(shù)據(jù)的模擬、PS匹配、logistic回歸模型的建立、χ2檢驗和t檢驗等。
模擬試驗產(chǎn)生1000例數(shù)據(jù),其中結(jié)果變量模型參數(shù):β0ADR= -12.458,β1ADR=1.125,β2ADR=2.979,β3ADR=6.362,β4ADR=6.467。Drug1 的 OR=193.268,Drug2的 OR=216.613;Drug3、Drug4的 OR值約為1,沒有進入模型。具體結(jié)果如表1所示,可以看出Drug1-ADR、Drug2-ADR組合為真陽性信號,PS匹配前后的信號值變化不大,而假陽性的 Drug3-ADR、Drug4-ADR在PS前的信號值較強,但在考慮了基線均衡后便無信號產(chǎn)生。
表1 模擬的四個Drug-ADR組合在PS均衡協(xié)變量前后挖掘算法值的變化
2.實際應(yīng)用結(jié)果應(yīng)用數(shù)據(jù)挖掘算法對09年上海市的SRS數(shù)據(jù)分析,將初步得到的可疑組合按信號值大小排列,其中部分組合如表2所示。
表2 四種數(shù)據(jù)挖掘算法對上海市09年SRS初步挖掘結(jié)果舉例
在表2中列出的可疑組合除“喹硫平-閉經(jīng)”外,其他均有說明書及文獻支持,為加強此組合的可信性,我們應(yīng)用SRS現(xiàn)存的基線協(xié)變量信息,通過傾向性評分法來對其進一步分析。通過專業(yè)知識和變量選擇策略〔15〕,我們從喹硫平組和非喹硫平組(對照組)的原始數(shù)據(jù)中選擇了年齡、體重、性別、ADR發(fā)生時間和是否有合并用藥等協(xié)變量納入模型。對年齡以國際通用的標準(WONCA)〔18〕劃分成八個等級:<1 歲,1 ~4 歲,5~14歲,15~24歲,25~44歲,45~64歲,65~74歲,>75歲。ADR發(fā)生時間按照季節(jié)性劃分為四段。此外,根據(jù) Rubin的理論,當 C-statistics在 0.65到0.85時為判定模型較好的標準〔19〕。該模型的C-statistics=0.750,因此擬合效果較好,待估算PS之后進行匹配。表3為比較對PS值進行匹配前后協(xié)變量在組間的分布情況。如表3所示,除性別外其他四個協(xié)變量在PS匹配前兩組中的分布都是不均衡的P<0.05,差異均有統(tǒng)計學意義;當進行PS匹配后,協(xié)變量在兩組間的分布達到均衡,P>0.1。再將匹配后的數(shù)據(jù)用三種挖掘算法分析喹硫平與閉經(jīng)的關(guān)系。表4則展示了三種信號挖掘算法在PS匹配之后,其可疑信號值均顯著降低,信號消失。
表3 PS匹配前后喹硫平組與其他藥品組間協(xié)變量分布的均衡性
表4 三種數(shù)據(jù)挖掘方法在PS匹配前后計算“喹硫平-閉經(jīng)”組合的信號值
數(shù)據(jù)挖掘方法提供的自動信號產(chǎn)生過程對藥品安全性的監(jiān)測起到了關(guān)鍵的作用。但由于SRS數(shù)據(jù)量巨大和藥品上市后的一些限制,導致這些方法因不能有效的體現(xiàn)隱藏在數(shù)據(jù)中的所有信息而產(chǎn)生諸多假陽性。傾向性評分法的優(yōu)點在于〔17〕:首先,它能將多個協(xié)變量綜合為一個值來分析,既能避免了過度分層和過分匹配等問題,同樣也避免了自變量間的共線性;其次能使估計PS前后的不均衡程度更明顯,因為當我們應(yīng)用傳統(tǒng)的回歸模型矯正混雜時,這種不均衡程度經(jīng)常被掩蓋。再者,PS簡化了多重結(jié)果需要考慮的事項,因為傾向性評分僅僅估計一次就可以分別的由每個結(jié)果所應(yīng)用。此外,用標準的統(tǒng)計軟件來實施會相對簡單易懂。本研究在進行混雜協(xié)變量矯正之前,三種數(shù)據(jù)挖掘方法均對“喹硫平-閉經(jīng)”組合提示為可疑信號,其協(xié)變量除了性別外,年齡、體重、是否合并用藥和不良反應(yīng)發(fā)生時間在兩組間分布都不均衡,待矯正之后便無信號產(chǎn)生。經(jīng)分析原始數(shù)據(jù)及詳細查閱咨詢后得知,由于喹硫平組中有較多合并用藥,其多數(shù)為奮乃靜等傳統(tǒng)的抗精神病類藥品,他們一定程度上會引起高催乳素血癥〔20〕,繼而可能出現(xiàn)閉經(jīng)。而喹硫平乃新一代抗精神病類藥品,許多實驗證明其導致高催乳素血癥及閉經(jīng)的可能性很小。因此,不能忽略合并用藥因素來單獨分析喹硫平與閉經(jīng)反應(yīng)之間的關(guān)聯(lián)。
然而一些不足也難以避免:一方面,如同傳統(tǒng)的矯正方法不能去除非觀察性的偏倚,此方法也不能去除由這種混雜導致的偏倚;另一方面,如果協(xié)變量選擇不恰當會降低效能,例如只選擇與處理因素有關(guān)而與結(jié)果無關(guān)的協(xié)變量有時會降低估計的效能,甚至會增加偏倚,但如果樣本量足夠大,即使協(xié)變量的選擇不當也不會受到較大影響〔17,19,21〕。
PS應(yīng)用于SRS中還存在一定的阻礙。由于SRS屬于觀察性研究的數(shù)據(jù),不能保證每種藥品的用藥人數(shù)都足夠,樣本量太少會導致PS效能降低甚至無法分析;其次是自發(fā)上報的數(shù)據(jù)都會存在漏報問題,如果納入模型的協(xié)變量有缺失數(shù)據(jù),勢必會影響模型擬合效果,此時必須將缺失數(shù)據(jù)進行填補后再納入分析。目前,SRS中的現(xiàn)有信息并沒有完全的應(yīng)用于藥品安全性研究中,在不改變挖掘算法截斷值的條件下要減少假陽性信號的產(chǎn)生,就必須添加更多的混雜因素進行分析〔6〕。若能將現(xiàn)有的信息全部運用使基線均衡,再得出的信號值其可信性就會顯著提高,進而為專家評價其信號關(guān)聯(lián)提供更多有力可靠的證據(jù)。相信隨著PS的不斷改進和SRS數(shù)據(jù)質(zhì)量的逐步提高,傾向性評分法將會成為均衡SRS數(shù)據(jù)的有力工具。
1.Hopstadius J,Niklas NG,Bate A,et al.Impact of stratification on adverse drug reaction surveillance drug safety,2008,31(11):1035-1048.
2.van Puijenbreek EP,Bate A,Leufkens HG,et al.A comparison of measures of disproportionality for signal detection in spontaneous reporting systems for adverse drug reactions.Pharmacoepidemiology and drug safety,2002,11:3-10.
3.Bate A,Lindquist M,Edwards IR,et a1.A Bayesian neural network for adverse drug reaction signal generation European Journal of Clinical Pharmacology,1998,54:315-321.
4.DuMouchel W,Pregibon D.Empirical bayes screening for multi-item association.Conference on knowledge discovery in data,proceedings of the seventh ACM SIGKDD international conference on knowledge discovery and data mining.
5.Hauben M,Madigan D,Gerrits CM,et al.The role of data mining in pharmacovigilance.Drug safety,2005,4(5):929-948.
6.Stephen JW.Stratification for spontaneous report database.Drug safety,2008,31(11):1049-1052.
7.Rosenbaum PR,Rubin DB.The central role of the propensity score in observational studies for causal effects.Biometrika,1983,70:41-55.
8.D'Agostino RB.Propensity score methods for bias reduction in the comparison of a treatment to a non-randomized control group.Stat Med,1998,17:2265-2281.
9.Sekula Dipl Math P,Caputo A,Dunant A,et al.An application of propensity score method to estimate the treatment effect of corticosteroids in patients with severe cutaneous adverse reactions.Pharmacoepidemiology and drug safety,2010,19:10-18.
10.Perkins SM,Tu W,Underhill MG,et al.The use of propensity scores in pharmacoepidemiology research.Pharmacoepidemiology and drug safety,2000,9:93-101.
11.Rosenbaum PR,Rubin DB.Reducing bias in observational studies using subclassification on the propensity score.American Statistical Association,1984,79(387):516-524.
12.Cochran WG.The effectiveness of adjustment by subclassification in removing bias in observational studies.Biometrics,1968,24:295-313.
13.Austin PC.A critical appraisal of propensity score matching in the medical literature between 1996 and 2003.Stat Med,2008,27:2037-2049.
14.Austin PC.Propensity-score matching in the cardiovascular surgery literature from 2004 to 2006:a systematic review and suggestions for improvement.Thorac Cardiovasc Surg,2007,134:1128-1135.
15.Brookhart MA,Schneeweiss S,Rothman KJ,et al.Variable selection for propensity score models.Am J Epidemiol,2006,163:1149-1156.
16.Rubin DB,Thomas N.Matching using estimated propensity scores:relating theory to practice.Biometrics,1996,52:249-264.
17.Parsons LS,Ovation Research Group,Seattle WA.Reducing bias in a propensity score match-pair sample using greedy matching technique.http://www2.sas.com/proceedings/sugi26/p214-26.pdf.2010-9-22.
18.Bentzen N.An international glossary for general/family practice.Fam Pract,1995,12(3):341-369.
19.Rubin DB.Estimating causal effects from large data sets using propensity scores.Ann Intern Med,1997,127:757-763.
20.吳莉珍,安彬.抗精神病藥物對女性精神病患者血清催乳素的影響.臨床心身疾病雜志.2007,13(5):247.
21.Wang J,Donnan PT.Propensity score methods in drug safety studies:practice,strengths and limitations.Pharmacoepidemiology and drug safety,2001,10:341-344.