李志優(yōu),田波,姚閩
1.江西省人民醫(yī)院藥學(xué)部,江西 南昌 330006;2.江西省藥品檢驗(yàn)檢測(cè)研究院,國(guó)家藥品監(jiān)督管理局中成藥質(zhì)量評(píng)價(jià)重點(diǎn)實(shí)驗(yàn)室,江西省藥品與醫(yī)療器械質(zhì)量工程技術(shù)研究中心,江西 南昌 330029
中藥注射劑具有生物利用度高、起效快的特點(diǎn),廣泛應(yīng)用于臨床,在特定疾病治療中發(fā)揮重要作用,尤其在腫瘤疾病的治療方面有著獨(dú)特的治療優(yōu)勢(shì)[1]。近年來(lái),中藥注射劑不良反應(yīng)(ADR)報(bào)道數(shù)量急劇增多,其安全性引起國(guó)內(nèi)醫(yī)藥界的廣泛關(guān)注。艾迪注射液成分為斑蝥、人參、黃芪、刺五加,能清熱解毒,消瘀散結(jié),可用于原發(fā)性肝癌,肺癌,直腸癌,惡性淋巴瘤,婦科惡性腫瘤等,在我省臨床應(yīng)用非常廣泛,使用量居于省直醫(yī)療機(jī)構(gòu)近年中成藥用量排名前列。本研究利用IBM SPSS Modeler軟件,綜合應(yīng)用決策樹(C5.0)算法、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)和關(guān)聯(lián)規(guī)則Apriori 算法,對(duì)艾迪注射液ADR 案例信息進(jìn)行深入挖掘,探索艾迪注射液ADR 發(fā)生特點(diǎn)及發(fā)生規(guī)律,為臨床合理、安全使用中藥注射劑提供借鑒。
(1)檢索中國(guó)知網(wǎng)、萬(wàn)方醫(yī)學(xué)網(wǎng)、維普等數(shù)據(jù)庫(kù),檢索時(shí)限為2015 年1 月至2019 年6 月。以“艾迪”and“不良反應(yīng)”or“ADR”or“過(guò)敏”or“副作用”or“副反應(yīng)”為主題詞檢索,收集艾迪注射液ADR 案例。(2)收集國(guó)家ADR 監(jiān)測(cè)系統(tǒng)某兩家醫(yī)院近5 年艾迪注射液ADR 報(bào)告案例。
納入標(biāo)準(zhǔn):報(bào)告資料應(yīng)包括患者基本信息、用藥信息、不良反應(yīng)發(fā)生具體情況等,且不良反應(yīng)的關(guān)聯(lián)性評(píng)價(jià)為肯定、很有可能、可能,排除資料不齊全的報(bào)告。排除標(biāo)準(zhǔn):排除患者性別、年齡、用藥劑量、原發(fā)疾病四項(xiàng)信息中兩項(xiàng)以上記載不詳?shù)陌咐?/p>
1.3.1數(shù)據(jù)預(yù)處理在Excel 中錄入ADR 案例信息,包括患者性別、年齡、過(guò)敏史、原患疾病、用藥劑量、溶媒類型、溶媒用量、臨床表現(xiàn)、累及器官、發(fā)生時(shí)間等字段,共計(jì)185例。
進(jìn)行數(shù)據(jù)轉(zhuǎn)換預(yù)處理,如對(duì)過(guò)敏史“青霉素過(guò)敏”“解熱鎮(zhèn)痛藥過(guò)敏”“酒精過(guò)敏”統(tǒng)一為“有過(guò)敏史”,對(duì)原患疾病“卵巢惡性腫瘤”“宮頸惡性腫瘤”統(tǒng)一為“婦科惡性腫瘤”,對(duì)臨床表現(xiàn)“胸悶、心悸”“心慌不適”累及器官統(tǒng)一為“心血管系統(tǒng)損害”等。
利用IBM SPSS Modeler 軟件,對(duì)意義不大的字段進(jìn)行過(guò)濾刪除(如給藥途徑均為靜脈滴注),對(duì)數(shù)值型空值進(jìn)行缺失值插補(bǔ)(如對(duì)“年齡”變量,選擇“固定”方法,使用“中程數(shù)值”進(jìn)行插補(bǔ)),對(duì)字符型空值選取“缺失值篩選”節(jié)點(diǎn),選擇丟棄(如對(duì)過(guò)敏史、原患疾病等信息不詳?shù)陌咐?,得?76 條有效記錄。
1.3.2數(shù)據(jù)挖掘?qū)?shù)據(jù)進(jìn)行清理、集成、轉(zhuǎn)換等預(yù)處理后,利用IBM SPSS Modeler 軟件,應(yīng)用決策樹(C5.0)算法、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則Apriori 算法建模,對(duì)艾迪注射液ADR 發(fā)生特點(diǎn)、發(fā)生規(guī)律開展數(shù)據(jù)挖掘研究。
以“ADR 累及器官”為目標(biāo)變量,其他項(xiàng)為輸入變量,輸出類型選擇“使用boosting”,構(gòu)建C5.0算法的決策樹,結(jié)果見圖1 至圖2、表1。
從圖1、表1 可見,ADR 累及器官受用藥劑量影響最大(重要性57.44%),其次是過(guò)敏史、溶媒用量、性別。
表1 基于決策樹C5.0算法預(yù)測(cè)變量重要性值
圖1 基于決策樹C5.0算法預(yù)測(cè)變量重要性
從圖2 可知,樹模型深度為3,共產(chǎn)生16 個(gè)節(jié)點(diǎn),終結(jié)點(diǎn)12 個(gè)。用藥劑量為100、80 mL 的患者,易發(fā)生全身性損害(構(gòu)成比分別為30.233%、26.829%),其次為皮膚及附件損害(構(gòu)成比分別為20.930%、21.951%)。無(wú)過(guò)敏史的患者發(fā)生ADR比例高于有過(guò)敏史患者,但有過(guò)敏史的患者更易發(fā)生過(guò)敏性休克。
圖2 基于C5.0算法的決策樹圖
用藥劑量為60 mL 的男性患者發(fā)生ADR例數(shù)高于女性患者,且以皮膚及附件損害為主(構(gòu)成比42.857%),女性患者則更易發(fā)生全身性損害(構(gòu)成比46.667%)。
用藥劑量為120、20、40、50 mL 的患者發(fā)生ADR 總例數(shù)最多(57例,占全部案例31.844%),其中,發(fā)生皮膚及附件損害例數(shù)最高(構(gòu)成比31.579%),其次為消化系統(tǒng)損害(構(gòu)成比17.544%)。
以“ADR 累及器官”為目標(biāo)變量,其他項(xiàng)為輸入變量,選取TAN 模型,參數(shù)學(xué)習(xí)方法選擇“針對(duì)小單元格計(jì)數(shù)的貝葉斯調(diào)整”,進(jìn)行貝葉斯網(wǎng)絡(luò)挖掘,結(jié)果見圖3、表2。結(jié)果表明,原患疾病是最重要的預(yù)測(cè)因子(重要性為29.84%),其次為用藥劑量、年齡、性別、溶媒用量、過(guò)敏史等。
圖3 基于貝葉斯網(wǎng)絡(luò)分析圖
表2 基于貝葉斯網(wǎng)絡(luò)預(yù)測(cè)變量重要性值
以“ADR 累及器官”為目標(biāo)變量,其他項(xiàng)為輸入變量,構(gòu)建多層感知器(mLP)神經(jīng)網(wǎng)絡(luò)模型,見圖4、表3。結(jié)果顯示,隱藏層含有1 個(gè)神經(jīng)元,原患疾病是最重要的影響因素(重要性為25.31%),其次為年齡、用藥劑量、溶媒用量、ADR 發(fā)生時(shí)間等。
圖4 基于神經(jīng)網(wǎng)絡(luò)分析圖
表3 基于神經(jīng)網(wǎng)絡(luò)分析變量重要性值
應(yīng)用關(guān)聯(lián)規(guī)則Apriori 算法,以“ADR 累及器官”為后項(xiàng),其他項(xiàng)為前項(xiàng)。設(shè)置最低條件支持度為10%、最小規(guī)則置信度為45%,得到6 條規(guī)則,見表4。解讀置信度最高的前兩條規(guī)則如下:對(duì)無(wú)過(guò)敏史的男性患者,以250 mL 的5%葡萄糖為溶媒滴注艾迪注射液,發(fā)生ADR 的例數(shù)為24例,占比13.41%,其中54.17%的案例表現(xiàn)為皮膚及附件損害?;贾苯Y(jié)腸癌的男性,使用溶媒用量為250 mL 滴注艾迪注射液,發(fā)生ADR 的例數(shù)為19例,占比10.61%,其中52.63%的案例表現(xiàn)為皮膚及附件損害。
表4 基于Apriori算法挖掘的關(guān)聯(lián)規(guī)則
數(shù)據(jù)挖掘又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含的、規(guī)律性的、人們事先未知的、但又是潛在有用的信息和知識(shí)的非平凡過(guò)程[13]。數(shù)據(jù)挖掘技術(shù)在研究藥品不良反應(yīng)的發(fā)生規(guī)律中具有很好的應(yīng)用前景[14]。本研究綜合應(yīng)用數(shù)據(jù)挖掘常用技術(shù),如決策樹、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則,對(duì)艾迪注射液ADR 發(fā)生特點(diǎn)、發(fā)生規(guī)律開展數(shù)據(jù)挖掘研究。
決策樹是機(jī)器學(xué)習(xí)中的預(yù)測(cè)模型,主要建立決策樹節(jié)點(diǎn),且根據(jù)字段的不同值來(lái)建立分支,生成的規(guī)則可視化,便于理解[15]。常用的決策樹算法有ID3、C5.0、CHAID、QUEST、CART[5]等。C5.0是C4.5 進(jìn)一步的商業(yè)版本,C5.0 改善了生成規(guī)則和算法精度,實(shí)現(xiàn)更準(zhǔn)確的生成規(guī)則,更快的速度和更低的錯(cuò)誤率[15]。本研究選用C5.0 算法挖掘分析,利用了Boosting 方法來(lái)提高決策樹的分類效率和準(zhǔn)確率[16]。結(jié)果表明,ADR 累及器官與用藥劑量最為相關(guān)(重要性57.44%),其次是過(guò)敏史、溶媒用量、性別。用藥劑量為100 mL 或80 mL,且無(wú)過(guò)敏史的患者發(fā)生ADR 比例高于有過(guò)敏史患者,可能由于樣本數(shù)據(jù)大多為無(wú)過(guò)敏史患者導(dǎo)致,但有過(guò)敏史的患者更易發(fā)生過(guò)敏性休克(構(gòu)成比分別為18.182%、33.333%),應(yīng)引起臨床重點(diǎn)關(guān)注。值得注意的是,用藥劑量為80 mL,溶媒用量為250 mL 的無(wú)過(guò)敏史患者發(fā)生ADR例數(shù)占比較高,溶媒用量太少,與說(shuō)明書“成人一次50~100 mL,加入0.9%氯化鈉注射液或5%~10%葡萄糖注射液400~450 mL 中”不符。臨床應(yīng)規(guī)范溶媒用量,避免藥物濃度太高,導(dǎo)致ADR 發(fā)生。
貝葉斯網(wǎng)絡(luò)是用于描述變量之間相互依賴聯(lián)系的概率網(wǎng)絡(luò)圖模型,是概率論與圖論相結(jié)合的產(chǎn)物,借助有向無(wú)環(huán)圖來(lái)表達(dá)變量之間的因果關(guān)系,用條件概率表達(dá)因果關(guān)系的強(qiáng)度[17-18]。本研究運(yùn)用貝葉斯網(wǎng)絡(luò)分析結(jié)果表明,原患疾病是最重要的預(yù)測(cè)因子(重要性為29.84%),其次為用藥劑量、年齡、性別、溶媒用量、過(guò)敏史等。
人工神經(jīng)網(wǎng)絡(luò)是通過(guò)模擬人類大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的一種信息處理系統(tǒng),通過(guò)模仿具有神經(jīng)網(wǎng)絡(luò)的生物行為特征,分布式并行信息處理的數(shù)學(xué)模型。通??煞譃槿龑樱狠斎雽印㈦[藏層和輸出層。輸入層接收輸入信號(hào),通過(guò)一個(gè)或多個(gè)隱藏層對(duì)輸入信息主動(dòng)學(xué)習(xí)和調(diào)整,在不斷地訓(xùn)練過(guò)程中尋找變量間復(fù)雜的非線性關(guān)系,最后經(jīng)輸出層輸出學(xué)習(xí)預(yù)測(cè)后的結(jié)果[19]。根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和激活函數(shù)的不同有多種神經(jīng)網(wǎng)絡(luò),其中mLP 采用多層感知器構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,具有預(yù)測(cè)能力較好的優(yōu)點(diǎn)[16]。本研究構(gòu)建多層感知器(mLP)神經(jīng)網(wǎng)絡(luò)模型,結(jié)果表示原患疾病是最重要的影響因素(重要性為25.31%),其次為年齡、用藥劑量、溶媒用量、ADR 發(fā)生時(shí)間等,與貝葉斯網(wǎng)絡(luò)結(jié)果基本吻合。
關(guān)聯(lián)規(guī)則分析是指變量間存在關(guān)聯(lián),其中一個(gè)變量(后項(xiàng))可通過(guò)其他變量(前項(xiàng))來(lái)預(yù)測(cè)。關(guān)聯(lián)分析的準(zhǔn)確度由支持度、置信度、提升度3 個(gè)指標(biāo)決定[19]。支持度是指前后項(xiàng)同時(shí)發(fā)生的概率,描述規(guī)則的頻度,是對(duì)關(guān)聯(lián)規(guī)則重要性的度量。置信度是指由前項(xiàng)推測(cè)后項(xiàng)發(fā)生的條件概率,描述規(guī)則的強(qiáng)度,是對(duì)關(guān)聯(lián)規(guī)則準(zhǔn)確性、可靠性的度量[20]。而提升度>1 時(shí),認(rèn)為前項(xiàng)對(duì)后項(xiàng)有正向影響,一般提升度越大,認(rèn)為正向影響程度越高[21]。本研究選用關(guān)聯(lián)分析的經(jīng)典算法Apriori,探討艾迪注射液ADR 累及器官與各因素之間的關(guān)聯(lián)強(qiáng)度,得到6 條規(guī)則,提升度均在1 以上,關(guān)聯(lián)分析具有意義。支持度較好,均在10%以上,但置信度均低于60%,條件概率偏低。
本研究綜合運(yùn)用4 種挖掘技術(shù),全面挖掘分析了艾迪注射液ADR 發(fā)生特點(diǎn)及發(fā)生規(guī)律,為臨床安全用藥提供客觀依據(jù)。但尚存在以下不足:一是樣本量太小。因數(shù)據(jù)來(lái)源有限,且檢索的文獻(xiàn)及上報(bào)的案例缺失項(xiàng)太多,導(dǎo)致最終提取有效的樣本量太?。欢峭诰蚪Y(jié)果準(zhǔn)確率偏低。利用IBM SPSS Modeler 軟件,比較各算法準(zhǔn)確度,發(fā)現(xiàn)貝葉斯網(wǎng)絡(luò)正確率最高,為62.57%,決策樹(C5.0)算法正確率為39.66%,神經(jīng)網(wǎng)絡(luò)“ADR 累及器官分類總體正確率”為32.4%,關(guān)聯(lián)規(guī)則Apriori 算法得到的規(guī)則置信度均低于60%。挖掘結(jié)果欠佳,可能與樣本量有限,且臨床用藥復(fù)雜性有關(guān),擬收集足夠大的樣本數(shù)據(jù),探討改進(jìn)數(shù)據(jù)挖掘算法,以期利用最優(yōu)算法,挖掘分析大樣本數(shù)據(jù),進(jìn)一步驗(yàn)證和提升本研究的整體結(jié)果。