田波,李志優(yōu),胡建新
江西省人民醫(yī)院,江西 南昌 330006
康艾注射液主要成分為黃芪、人參、苦參素,具有益氣扶正,增強(qiáng)機(jī)體免疫功能,可用于原發(fā)性肝癌、肺癌、直腸癌、惡性淋巴瘤、婦科惡性腫瘤。在我省臨床應(yīng)用非常廣泛,使用量居于2018 年度省直醫(yī)療機(jī)構(gòu)中成藥用量排名第2 位。鑒于此,筆者認(rèn)為其臨床使用安全性問題值得重點(diǎn)研究。
檢索中國知網(wǎng)、萬方醫(yī)學(xué)網(wǎng)、維普等數(shù)據(jù)庫,檢索時(shí)限為2015 年1 月至2019 年12 月。以“康艾”and“不良反應(yīng)”or“ADR”or“過敏”or“副作用”or“副反應(yīng)”為檢索詞進(jìn)行主題詞檢索和自由詞檢索,收集康艾注射液ADR 病例。
納入標(biāo)準(zhǔn):排除患者性別、患者年齡、用藥劑量、原發(fā)疾病四項(xiàng)信息中兩項(xiàng)以上(含兩項(xiàng))記載不詳?shù)牟v。
收集國家ADR 監(jiān)測系統(tǒng)某兩家醫(yī)院近5 年康艾注射液ADR 報(bào)告案例。納入標(biāo)準(zhǔn):報(bào)告資料包括患者基本信息、用藥信息、不良反應(yīng)發(fā)生具體情況等,且不良反應(yīng)的關(guān)聯(lián)性評(píng)價(jià)為肯定、很有可能、可能,排除資料不齊全的報(bào)告。
1.2.1 數(shù)據(jù)庫建立確定數(shù)據(jù)庫字段,包括患者信息(性別、年齡、過敏史、原患疾病、診斷信息等)、用藥信息(用藥劑量、用法、給藥途徑、滴速、用藥療程等)、不良反應(yīng)信息(臨床表現(xiàn)、發(fā)生程度、發(fā)生時(shí)間、結(jié)局)等主要信息。在Excel 中錄入完成,共計(jì)128 例,作為數(shù)據(jù)源。
1.2.2 數(shù)據(jù)預(yù)處理對原始數(shù)據(jù)進(jìn)行預(yù)處理,如對原患疾病“右肺癌Ⅳ期、非小細(xì)胞肺癌”統(tǒng)一為“肺癌”,對“有青霉素過敏史”“有參麥注射液過敏史”統(tǒng)一為“有過敏史”,對臨床表現(xiàn)“皮疹、瘙癢”“注射部位紅腫伴瘙癢”累及器官統(tǒng)一為“皮膚及附件損害”等。
利用IBM SPSS Modeler 軟件,讀取數(shù)據(jù)源,對數(shù)據(jù)進(jìn)行清洗。使用“過濾器”節(jié)點(diǎn),對意義不大的字段進(jìn)行過濾刪除(如因收集的案例給藥途徑,均為靜脈滴注,而滴速、用藥療程等字段缺失值太多,均刪除)。使用“類型”節(jié)點(diǎn),對數(shù)據(jù)進(jìn)行實(shí)例化。使用“數(shù)據(jù)審核”節(jié)點(diǎn),對數(shù)據(jù)質(zhì)量進(jìn)行檢查,對缺失值進(jìn)行處理。對字符型空值予以丟棄(如過敏史為空,該條記錄則剔除),對數(shù)值型空值使用缺失值插補(bǔ)的方法進(jìn)行填充(如對“年齡”變量,選擇“固定”方法,使用“中程數(shù)值”進(jìn)行插補(bǔ))。
使用“分級(jí)化”節(jié)點(diǎn),對連續(xù)型數(shù)據(jù)進(jìn)行離散化處理。離散化是指把連續(xù)型數(shù)據(jù)切分成若干“段”,也稱bin,是數(shù)據(jù)分析中常用手段。在數(shù)據(jù)挖掘中,離散化實(shí)用性很強(qiáng),可提升性能,克服數(shù)據(jù)中隱藏的缺陷,使模型結(jié)果更加穩(wěn)定[1]。因此,本研究對“年齡”進(jìn)行分級(jí)化處理,分級(jí)寬度為10,分級(jí)結(jié)果見圖1。
圖1 對年齡進(jìn)行離散化處理
1.2.3 數(shù)據(jù)挖掘?qū)?shù)據(jù)進(jìn)行清理、集成、轉(zhuǎn)換后,利用IBM SPSS Modeler 軟件,采用決策樹(CHAID)算法、貝葉斯網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則 Apriori 算法建模,對ADR 發(fā)生特點(diǎn)、相關(guān)因素關(guān)聯(lián)性開展數(shù)據(jù)挖掘研究。
以“ADR 累及器官”為目標(biāo)變量,其他項(xiàng)為輸入變量,構(gòu)建CHAID,結(jié)果見圖2 至圖4。解讀決策樹模型可知,決定決策樹分類最重要的相關(guān)因素是用藥劑量,其次是年齡、性別、溶媒類型、過敏史,見圖2。
108 個(gè)有效案例中,有52 例患者用藥劑量為40 mL 和50 mL,占比最高(48.148%),其中累及器官為全身性損害的案例最多,有17 例(構(gòu)成比32.692%),其次為皮膚及附件損害有15 例(構(gòu)成比28.846%),見圖3。
用藥劑量為30 mL 和60 mL 的,年齡大于40歲小于60 歲的患者發(fā)生ADR 例數(shù)最高,為20例(占比18.519%),其次為年齡60 歲以上患者,有18 例(占比16.667%)。該兩類患者發(fā)生全身性損害例數(shù)最高,構(gòu)成比分別為45%、38.889%,見圖3。
對用藥劑量為40 mL 和50 mL,且無過敏史患者發(fā)生ADR 有39 例,占比高于有過敏史者(13 例),這可能與收集的案例大部分是無過敏史患者有關(guān),其中,男性22 例,女性17 例,但女性發(fā)生皮膚及附件損害比例高于男性。有過敏史患者中,溶媒類型為0.9%氯化鈉的有10 例,9 例發(fā)生全身性損害,溶媒類型為5%葡萄糖有3 例,全部發(fā)生皮膚及附件損害。見圖4。
圖2 基于CHAID算法預(yù)測變量重要性
圖3 基于CHAID算法的決策樹局部圖1
圖4 基于CHAID算法的決策樹局部圖2
以“ADR 累及器官”為目標(biāo)變量,其他項(xiàng)為輸入變量,選取TAN 模型,參數(shù)學(xué)習(xí)方法選擇“針對小單元格計(jì)數(shù)的貝葉斯調(diào)整”,進(jìn)行貝葉斯網(wǎng)絡(luò)挖掘,結(jié)果見圖5、表1。由圖5 和表1 可見,用藥劑量是最重要的預(yù)測因子(概率為42.77%),其次為性別、年齡、溶媒用量、溶媒類型等。
表1 不同節(jié)點(diǎn)的重要性(%)
圖5 基于貝葉斯網(wǎng)絡(luò)分析圖
應(yīng)用關(guān)聯(lián)規(guī)則Apriori 算法,以“ADR 累及器官”為后項(xiàng),其他項(xiàng)為前項(xiàng)。因關(guān)聯(lián)規(guī)則需同時(shí)滿足最低支持度閾值和最小置信度閾值時(shí)才是有效規(guī)則[1],閾值設(shè)置過高可能會(huì)遺漏有價(jià)值的信息,而閾值設(shè)置過低又會(huì)導(dǎo)致結(jié)果混入無意義的規(guī)則[2],因此,本研究經(jīng)反復(fù)測試,設(shè)置最低條件支持度為10%、最小規(guī)則置信度為75%,得到12 條規(guī)則,見表2。
解讀置信度大于80%的前兩條規(guī)則如下:無過敏史的女性患者在連續(xù)用藥后,發(fā)生ADR 案例為11 例,占全部案例10.19%,其中90.91%的案例表現(xiàn)為皮膚及附件損害。有過敏史且用藥劑量為40 mL 的患者發(fā)生ADR 案例為11 例,占全部案例10.19%,其中81.82%的案例表現(xiàn)為全身性損害。
數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含的、規(guī)律性的、人們事先未知的、但又是潛在有用的信息和知識(shí)的非平凡過程[3]。數(shù)據(jù)挖掘技術(shù)已成為國際藥品不良反應(yīng)事件分析與評(píng)價(jià)的主流方法[4]。本研究綜合應(yīng)用數(shù)據(jù)挖掘常用技術(shù),如決策樹、貝葉斯網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則,對康艾注射液ADR 發(fā)生特點(diǎn)、相關(guān)因素關(guān)聯(lián)性開展數(shù)據(jù)挖掘研究。
表2 基于Apriori 算法挖掘的關(guān)聯(lián)規(guī)則
決策樹具有分類精度高、提取的規(guī)則可以量化、易理解、對噪聲數(shù)據(jù)有較好的穩(wěn)健性等優(yōu)點(diǎn)。常用的決策樹算法有ID3、C5.0、CHAID、QUEST、CART[5]等,其中CHAID 算法是一種基于χ2和F分布的P值的決策樹算法,即從統(tǒng)計(jì)顯著性檢驗(yàn)角度確定最佳分組變量和分割點(diǎn)[6]。本研究選用CHAID算法,對康艾注射液ADR 影響因素進(jìn)行深入挖掘分析,結(jié)果表明,ADR 累及器官可能與用藥劑量、患者年齡、性別、溶媒類型、過敏史具有相關(guān)性。用藥劑量為30 mL 和60 mL 的,且年齡為40 歲以上中老年患者易發(fā)生全身性損害,應(yīng)引起臨床重點(diǎn)關(guān)注。
貝葉斯網(wǎng)絡(luò)是一種由貝葉斯概率方法和有向無環(huán)圖的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)結(jié)合表示的數(shù)學(xué)模型[7],可發(fā)現(xiàn)變量間因果關(guān)系,并用概率定量表示因果關(guān)系的強(qiáng)度[8]。本研究運(yùn)用貝葉斯網(wǎng)絡(luò)分析結(jié)果表明,用藥劑量是最重要的預(yù)測因子,其次為性別、年齡、溶媒用量、溶媒類型等,與決策樹挖掘結(jié)果基本吻合。
Apriori 算法是關(guān)聯(lián)規(guī)則分析的核心算法,架構(gòu)簡單、易于解讀,可結(jié)合規(guī)則支持度、置信度的判讀,定量測量變量間的相關(guān)關(guān)系[9]。支持度和置信度是關(guān)聯(lián)規(guī)則的基礎(chǔ)評(píng)價(jià)性指標(biāo),對于關(guān)聯(lián)規(guī)則X →Y,支持度為前項(xiàng)X 和后項(xiàng)Y 的事務(wù)數(shù)量在數(shù)據(jù)集中事務(wù)總數(shù)量的概率,通常用于反映規(guī)則的普遍程度。置信度是給定前項(xiàng)X 的前提下后項(xiàng)Y 的條件概率,通常用于反映規(guī)則的可靠性[1,10]。而增益,是關(guān)聯(lián)規(guī)則的實(shí)用性指標(biāo),當(dāng)增益>1 時(shí),認(rèn)為前項(xiàng)對后項(xiàng)有正向影響,一般增益越大,認(rèn)為正向影響程度越高[1]。本研究選用Apriori 算法,探討康艾注射液ADR 累及器官與各因素之間的關(guān)聯(lián)強(qiáng)度,得到12 條規(guī)則,增益均在1 以上,關(guān)聯(lián)分析具有意義。從置信度為80%以上的規(guī)則可知,患者性別、過敏史、用藥劑量、ADR 發(fā)生時(shí)間、溶媒類型、溶媒用量對ADR 累及器官有正向影響,與前兩種挖掘方法結(jié)果基本一致。
本研究運(yùn)用3 種挖掘技術(shù),比較全面客觀,數(shù)據(jù)來源基于文獻(xiàn)報(bào)道及國家ADR 監(jiān)測系統(tǒng)醫(yī)院上報(bào)案例,數(shù)據(jù)來源真實(shí)可靠,研究結(jié)果可視化,較直觀,可讀性強(qiáng),易于理解。但本研究存在以下不足,部分?jǐn)?shù)據(jù)信息不完整,如“滴速”一項(xiàng)大多遺漏,致使分析時(shí)所納入的變量有限。數(shù)據(jù)缺失、數(shù)據(jù)樣本量有限,且由于臨床用藥情況的復(fù)雜性,可能導(dǎo)致分析結(jié)果出現(xiàn)偏倚,如ADR 累及器官與用藥劑量相關(guān)性較強(qiáng),可能也與樣本數(shù)據(jù)大多選用了說明書的用法40~60 mL 有關(guān)。以上因素導(dǎo)致結(jié)果不能全面反映康艾注射液ADR 發(fā)生規(guī)律,尚需更大樣本量的數(shù)據(jù)來進(jìn)一步分析驗(yàn)證。另外,支持度和置信度閾值設(shè)定高低會(huì)導(dǎo)致挖掘結(jié)果的質(zhì)量,本研究主要依靠多次重復(fù)測算來設(shè)置,如何合理設(shè)置閾值得深入探討。
綜上所述,建立預(yù)測模型,挖掘康艾注射液ADR 發(fā)生特點(diǎn)、影響因素關(guān)聯(lián)性,有助于科學(xué)客觀地解讀中藥注射劑ADR發(fā)生規(guī)律,為臨床合理使用、安全使用中藥注射劑提供參考,為藥品上市后再評(píng)價(jià)提供數(shù)據(jù)支持。