姚其超,熊科宇,李 睿
(重慶市巴蜀中學(xué)校,重慶 400013)
重癥肌無力是一種神經(jīng)-肌肉接頭傳遞障礙的自身免疫性疾病。病理為受累骨骼肌纖維間小靜脈周圍有淋巴細(xì)胞浸潤(rùn)。急性期患者與晚期患者分別有特殊病變。75%至85%的重癥肌無力患者同時(shí)伴隨胸腺異常,60%至70%為胸腺增生,10%為胸腺瘤。
同時(shí)重癥肌無力的發(fā)病與臨床類型與年齡與性別呈統(tǒng)計(jì)相關(guān)。女性患病率略高于男性,且胸腺異常的具體發(fā)展概率分布也有區(qū)別。在臨床上,重癥肌無力也因?yàn)榛疾≌吣挲g分為:成人重癥肌無力、兒童重癥肌無力與新生兒重癥肌無力。不同年齡患者在癥狀和病情發(fā)展上也有明顯不同。[1]基于重癥肌無力的基本病理可知,重癥肌無力的具體受累肌肉部分與病情發(fā)展有著本質(zhì)性的聯(lián)系,胸腺異常和患者性別與重癥肌無力存在一定的聯(lián)系,且重癥肌無力的發(fā)病年齡與病情發(fā)展有著直接或間接的聯(lián)系。
重癥肌無力危象,是指由于疾病的發(fā)展,藥物應(yīng)用不當(dāng)、感染、分娩、手術(shù)等諸多因素所致的呼吸肌無力而不能維持正常通氣功能的危急狀態(tài)。[1]也就是說,重癥肌無力的危象,嚴(yán)重關(guān)系者患者的生命體征。而重癥肌無力發(fā)展到危象的時(shí)間,嚴(yán)重影響著患者的康復(fù)、存活過程。且重癥肌無力治療,仍然受患者病情發(fā)展因素的制約。
同時(shí),重癥肌無力作為一種罕見病,在地方缺乏專業(yè)有效的診斷,且重癥肌無力的病情發(fā)展多由經(jīng)驗(yàn)與統(tǒng)計(jì)得出。關(guān)于重癥肌無力的治療方法的統(tǒng)計(jì)學(xué)意義與重癥肌無力危象預(yù)測(cè)模型的構(gòu)建上,吉林大學(xué)的田升軍醫(yī)生和廣州中醫(yī)藥大學(xué)的劉琴醫(yī)生做了極有意義的研究和創(chuàng)新探索,他們證明了重癥肌無力的若干因素與肌無力危象的發(fā)生具有統(tǒng)計(jì)學(xué)關(guān)系。[2][3]但是重癥肌無力雖然是目前病理理解最為清楚的自身免疫病之一,仍然缺乏實(shí)用的病情預(yù)測(cè)機(jī)制和更好的治療策略。此時(shí),在關(guān)聯(lián)患者病情癥狀與病情發(fā)展之間,作為新興技術(shù)的大數(shù)據(jù)分析,便是一個(gè)重要的解決思路。
目前,在中央政府的大力倡導(dǎo)下,中國開始發(fā)展多個(gè)醫(yī)療大數(shù)據(jù)數(shù)據(jù)庫,其中本文使用國家人口與健康科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)的重癥肌無力診療數(shù)據(jù)庫。[4]截止本文寫作,數(shù)據(jù)庫更新數(shù)據(jù)96條,大多有效。導(dǎo)出數(shù)據(jù)進(jìn)行分析制表,可發(fā)現(xiàn)發(fā)病自危象時(shí)間與發(fā)病年齡的點(diǎn)狀圖分布呈三角形分布,即中間高,左右低。因至危象受各種隨機(jī)因素的影響,故使用假說演繹法,大膽預(yù)測(cè)至危象時(shí)間與發(fā)病年齡呈正態(tài)分布的加權(quán)關(guān)系,并以此建模,驗(yàn)證此假說是否具有合理性。同時(shí),提取數(shù)據(jù)庫有效數(shù)據(jù),病癥大多為是或否,其余病癥出現(xiàn)太過分散,無法驗(yàn)證其統(tǒng)計(jì)學(xué)意義。本探索作為重癥肌無力危象時(shí)間預(yù)測(cè)的可行性研究,將病癥的出現(xiàn)與至危象時(shí)間假設(shè)為簡(jiǎn)單線形關(guān)系進(jìn)行研究。
首先,模型架構(gòu)如下:
其中設(shè)定患者有關(guān)變量為性別、發(fā)病年齡(age)、是否受累眼肌、是否受累頸肌、是否受累肢肌、是否受累呼吸肌。各變量各設(shè)置權(quán)重值pi(i=1,2,3…),又以發(fā)病年齡的正態(tài)分布的期望值為l,為方便計(jì)算使用發(fā)病年齡的加權(quán)期望值的減半周期為r來近似計(jì)算l。
設(shè)權(quán)重計(jì)算函數(shù):f(r,l)
該函數(shù)自動(dòng)就加權(quán)數(shù)計(jì)算結(jié)果
(該病人pi為出現(xiàn)病癥的對(duì)應(yīng)權(quán)重)對(duì)比真實(shí)至危象時(shí)長(zhǎng),對(duì)于權(quán)重值進(jìn)行修正。自優(yōu)化函數(shù)自動(dòng)調(diào)整(r,l)參數(shù)重復(fù)觸發(fā)權(quán)重計(jì)算函數(shù),并分別記錄下允許一年誤差的正確率、允許半年誤差的正確率、允許兩月誤差的正確率與其權(quán)重與參數(shù)變化情況。最末為精度最高時(shí)的參數(shù)。將其代入
(該病人pi為出現(xiàn)病癥的對(duì)應(yīng)權(quán)重),即為重癥肌無力的簡(jiǎn)單預(yù)測(cè)模型。
最終經(jīng)過約75000組有效的訓(xùn)練與優(yōu)化,選出測(cè)試組綜合正確率最高的一組模型,最終得到的重癥肌無力據(jù)最終病情癥狀進(jìn)行發(fā)病至危象的時(shí)間預(yù)測(cè)計(jì)算模型如下:
(p1=0.931,p2=9.96,p3=0.469,p4=-6.317,p5=8.801,p6=2.616)(該病人pi為出現(xiàn)病癥的對(duì)應(yīng)權(quán)重)
同時(shí)本模型訓(xùn)練組和測(cè)試組相互獨(dú)立互不重合。進(jìn)行交叉檢驗(yàn)很能說明所構(gòu)建模型的普適性。由測(cè)試組得出的正確率相較訓(xùn)練組的正確率雖然有一定的下滑,但是測(cè)試組六月正確率仍然為50.0%。說明大數(shù)據(jù)數(shù)據(jù)挖掘在肌無力危象預(yù)測(cè)中具有研究?jī)r(jià)值和實(shí)用意義。初步探索了數(shù)據(jù)挖掘在重癥肌無力甚至是罕見病診斷治療中的巨大實(shí)用價(jià)值。
同時(shí),對(duì)具體數(shù)據(jù)進(jìn)行分析,我們發(fā)現(xiàn)重癥肌無力至危象時(shí)間多為0至48月之間。模型所有正確數(shù)據(jù)均取于此中。也就是說,如果將排除超過48月的為異常樣本,本模型的正確率將提高更多,這樣的排除在如安排手術(shù)治療等實(shí)踐中仍然有應(yīng)用價(jià)值。
經(jīng)過統(tǒng)計(jì),我們發(fā)現(xiàn)無論是在測(cè)試組還是訓(xùn)練組,誤差六月內(nèi)正確樣本與誤差二月內(nèi)正確樣本大多集中于18個(gè)月內(nèi)出現(xiàn)重癥肌無力危象的樣本。訓(xùn)練組中24月內(nèi)危象樣本的一年正確率為100%,六月正確率為75.6%。且在測(cè)試組中24月內(nèi)危象樣本的預(yù)測(cè)六月正確率也高于平均水平,為66.7%。同時(shí),樣本病情至危象時(shí)間一旦超過24月,預(yù)測(cè)正確率就急劇降低。
根據(jù)危象時(shí)間超過24月的樣本修正參數(shù)與權(quán)重之后,在超過24月危象樣本的預(yù)測(cè)正確率將提高,超過100月發(fā)生危象的樣本雖然少有一年正確者,但預(yù)測(cè)值誤差相比其發(fā)生危象時(shí)間減少很多。但是值得注意的是這樣的修正明顯降低了24月內(nèi)危象樣本的正確率。
以上的實(shí)際問題有一個(gè)重要的解決思路:引入新變量。
本文使用患者數(shù)據(jù)因?yàn)閿?shù)據(jù)處理與數(shù)據(jù)庫局限原因,種類較少,樣本數(shù)量較少。如果借助引入新變量,如:胸腺異常情況、激素水平等,有希望能統(tǒng)一各種時(shí)長(zhǎng)危象樣本的預(yù)測(cè)模型。
本模型以各變量間存在線形關(guān)系或正態(tài)分布作為假設(shè),目的是為此領(lǐng)域提供可行性探索。在實(shí)際使用方面,應(yīng)當(dāng)使用更加精密的算法以進(jìn)一步增強(qiáng)模型的普適性和準(zhǔn)確性。
值得注意的是,目前公開可靠的臨床數(shù)據(jù)較少,不利于進(jìn)行大數(shù)據(jù)研究。本次使用的數(shù)據(jù)雖然得到了數(shù)據(jù)主管單位,北京協(xié)和醫(yī)院數(shù)據(jù)中心的大力支持,但是數(shù)據(jù)中仍有不少缺失數(shù)據(jù)與無效數(shù)據(jù)。要盡快發(fā)展大數(shù)據(jù)醫(yī)療,就應(yīng)當(dāng)注意數(shù)據(jù)的收集與保存。對(duì)于罕見病的病情應(yīng)當(dāng)分階段,分別進(jìn)行具體的統(tǒng)計(jì),才能使中國盡快擁有大量珍貴的罕見病數(shù)據(jù)進(jìn)行科學(xué)研究。
建模得到的相關(guān)數(shù)據(jù)和算法在大量樣本驗(yàn)證的情況下會(huì)存在其內(nèi)部的科學(xué)聯(lián)系,并且這樣的具體聯(lián)系在模型中會(huì)有提示。如該癥狀加重或是減輕了病情或其他癥狀。重癥肌無力乃至罕見病作為科研難關(guān)的攻克,不僅需要大數(shù)據(jù)支撐,焚膏繼晷的科研攻關(guān),同時(shí)也需要一些諸如數(shù)據(jù)挖掘模型帶來的提示。利用這樣的提示進(jìn)行科學(xué)的假設(shè),將會(huì)較之漫無目的的統(tǒng)計(jì)與猜測(cè)更加接近真理。
本文在選取研究對(duì)象時(shí)著重注意了研究數(shù)據(jù)在病理學(xué)上是否有明顯的相關(guān)性,并在此基礎(chǔ)上進(jìn)行了大膽的數(shù)學(xué)假設(shè)。這應(yīng)當(dāng)為后來研究者所注意:大數(shù)據(jù)在研究相關(guān)數(shù)據(jù)時(shí)往往更能發(fā)現(xiàn)其中規(guī)律,也能使大數(shù)據(jù)結(jié)論除了統(tǒng)計(jì)學(xué)依據(jù)以外增加更多的可解釋、可研究的科學(xué)的內(nèi)在聯(lián)系。
大數(shù)據(jù)醫(yī)療,往往需要跨學(xué)科的醫(yī)療合作。往往醫(yī)療、生物科研從業(yè)者無法擁有專業(yè)大數(shù)據(jù)從業(yè)人員的數(shù)學(xué)、大數(shù)據(jù)技術(shù)水平。同樣,大數(shù)據(jù)工程師也往往無法在生物科研與醫(yī)療領(lǐng)域做到精通。要充分發(fā)揮社會(huì)科研資源,使大數(shù)據(jù)醫(yī)療科研項(xiàng)目能夠保證準(zhǔn)確性的同時(shí)又保證專業(yè)性,就需要更多制度性的保障來促進(jìn)科研信息的充分交流,充分利用。