桑秀麗,李 哲,肖漢杰,呂 梁,王 華
(昆明理工大學(xué) 質(zhì)量發(fā)展研究院,云南 昆明650093)
腫瘤的病理類型一直是國內(nèi)外臨床醫(yī)學(xué)研究的重要內(nèi)容之一。準確的腫瘤病理類型一方面有助于醫(yī)師進行診斷,從而選擇科學(xué)合理的診療方案,合理分配醫(yī)療資源,另一方面有助于減少患者精神和經(jīng)濟壓力,提高患者滿意度。
目前確定腫瘤性質(zhì)和腫瘤病理類型主要依靠的方法有:醫(yī)學(xué)影像學(xué)、超聲診斷、放射性核素診斷、內(nèi)鏡診斷、腫瘤標志物診斷、組織切片診斷(“金標準”)等[1-2]。醫(yī)學(xué)影像學(xué)主要是通過X光成像、CT、核磁共振成像(MRI)、超聲成像等現(xiàn)代成像技術(shù)來對腫瘤的性質(zhì)和病理類型進行確定[3]。組織切片診斷方法是病理檢查的一種,用以檢查機體器官、組織或細胞中病理改變的病理形態(tài)學(xué)方法。醫(yī)學(xué)影像學(xué)是現(xiàn)代醫(yī)學(xué)中最重要的臨床診斷及治療方法,但是最終診斷還是依賴醫(yī)師臨床經(jīng)驗,由于醫(yī)生訓(xùn)練程度跟經(jīng)驗的豐富程度不同,對同一病癥可能做出不同的診斷,容易造成誤診。雖然影像診斷方法簡單易操作,但是存在較大的誤診風(fēng)險,容易造成患者生命危險,引起醫(yī)療糾紛。如果影像診斷不明確時,最終都必須通過金標準檢驗,但金標準檢驗存在一定風(fēng)險,價格較高且容易對患者身心產(chǎn)生重大影響,是診斷的最后選擇。
隨著醫(yī)療儀器設(shè)備的發(fā)展,醫(yī)院能夠采集的資料越來越豐富,可將越來越多的統(tǒng)計學(xué)方法運用到醫(yī)療診斷中。Hansen等使用對數(shù)線性模型與logistic回歸模型對診斷方法進行了研究[4];趙良淵等將多元線性回歸模型在考慮共線影響點的情況下運用到醫(yī)學(xué)中[5];劉瓊蘇等將神經(jīng)網(wǎng)絡(luò)運用到乳腺腫瘤的診斷中,仿真結(jié)果表明其具有較高的準確性[6];謝益輝運用R軟件將分類與回歸樹應(yīng)用到前列腺癌診斷中,得到了對疾病診斷和預(yù)防具有指導(dǎo)意義的結(jié)論[7];孫靜等將粗糙集理論引入到醫(yī)學(xué)影像診斷中,通過與logistic回歸對比,認為粗糙集有更高的預(yù)測精度[8];王學(xué)偉將數(shù)據(jù)挖掘技術(shù)的貝葉斯網(wǎng)絡(luò)運用到中醫(yī)診斷中,通過交叉驗證法得出基于關(guān)鍵癥狀診斷模型的性能相對基于全部癥狀的模型性能顯著提高,貝葉斯網(wǎng)絡(luò)適合解決診斷問題[9]。
有鑒于此,本文以昆明某醫(yī)院常年腫瘤診斷報告為研究對象,提出了一種對病人無手術(shù)創(chuàng)傷,輔助醫(yī)師進行診斷與推理于一體的腫瘤病理類型分析模型,即綠色診斷模型[10]。
腫瘤診斷過程中常常存在診斷信息的模糊性和不確定性[11]。模糊性是醫(yī)學(xué)圖像固有的特性,醫(yī)學(xué)圖像的部分容積效應(yīng)跟醫(yī)學(xué)圖像的部分圖像不能被準確分割,決定了醫(yī)學(xué)圖像具有模糊性,而醫(yī)師的經(jīng)驗診斷主觀性較大,使得診斷信息具有不確定性,有鑒于此,綠色診斷模型的診斷流程與理論方法具體為:
第一,對腫瘤數(shù)據(jù)運用粗糙集理論進行初步條件屬性約簡。
第二,建立病理類型診斷列聯(lián)表,運用變精度粗糙集理論獲得最小約簡表。
第三,運用貝葉斯網(wǎng)絡(luò)獲得各病理類型發(fā)生的概率。
粗糙集是一種處理不確定性與模糊性的工具,簡單實用是其特點,與數(shù)理統(tǒng)計方法相比,粗糙集對不完整與不確定性數(shù)據(jù)有較強的處理能力。與決策樹算法、神經(jīng)網(wǎng)絡(luò)相比,粗糙集能夠保證在分類能力不變的情況下,將專家知識約簡,縮短學(xué)習(xí)周期,簡化決策樹,但是粗糙集的診斷推理速度受到簡約得到的規(guī)則庫大小的影響,且噪聲易引起數(shù)據(jù)不一致性問題[12]。變精度粗糙集能夠解決屬性間無函數(shù)或不確定數(shù)據(jù)的分類問題,即對噪聲數(shù)據(jù)具有免疫性[13]。貝葉斯網(wǎng)絡(luò)具備學(xué)習(xí)和推理能力,且處理數(shù)據(jù)信息時具有柔和性、容錯性的特點,此兩種方法能夠解決粗糙集出現(xiàn)的問題[14]。有鑒于此,本文提出了變精度粗糙集理論(VPRST)與貝葉斯網(wǎng)絡(luò)(BN)相結(jié)合的方法來解決疾病診斷出現(xiàn)的問題。兩種方法結(jié)合不僅能夠克服各自對腫瘤診斷的不足,而且能夠進行優(yōu)勢互補。實例證明,此組合方法在腫瘤診斷方面簡單、準確、有效。
腫瘤綠色診斷是指診斷設(shè)備、方法、過程不僅可以解決腫瘤病理類型診斷,還滿足節(jié)省成本、保護環(huán)境、簡單易操作的要求。腫瘤通常以組織發(fā)生為依據(jù),每一類別又按其分化程度及其對機體影響的不同分為良性和惡性兩大類。例如,甲狀腺腫瘤可分為甲狀腺良性腫瘤和甲狀腺惡性腫瘤兩類,甲狀腺瘤良性腫瘤又分為甲狀腺腺瘤、結(jié)節(jié)性甲狀腺腫、亞急性甲狀腺炎、甲狀舌管囊腫;甲狀腺惡性腫瘤又分為乳頭狀癌、濾泡狀癌、未分化癌、髓樣癌。
目前對腫瘤的診斷判別有輔助檢查與鑒別診斷兩種。以甲狀腺腫瘤為例,輔助檢查主要有甲狀腺功能化驗、核素掃描、B超檢查、針吸涂片細胞學(xué)檢查。鑒別診斷通過結(jié)節(jié)性甲狀腺腫來判斷腫瘤的良惡性,但是上述診斷只能對腫瘤良惡性做一個初步診斷,不能對所有病理類型做出判斷。
1.變精度粗糙集簡介
1993年Ziarko首次提出變精度粗糙集理論。變精度粗糙集是Z.Pawlak粗糙集的延伸與擴充,即當錯誤分辨率β=0時,變精度粗糙集等于Pawlak粗糙集,Pawlak粗糙集是變精度粗糙集的一種特例[15]。
定義1:稱c(X,Y)為集合X關(guān)于集合Y的相對錯誤分辨率,當且僅當滿足如下條件
其中c(X,Y)×|X|稱為絕對分類誤差。
條件1:γ(P,Q,β)=γ(red(P,Q,β),Q,β)。
條件2:red(P,Q,β)中屬性不可再約簡,即假設(shè)約簡條件1不成立。
2.貝葉斯網(wǎng)絡(luò)簡介
貝葉斯網(wǎng)絡(luò)是描述隨機變量之間依賴關(guān)系的圖形模式,被廣泛用于不確定性問題的智能化化解[16]。它具有多功能性、有效性和開放性等特征,能夠有效地轉(zhuǎn)化數(shù)據(jù)為知識,并利用知識進行推理,以解決分析、預(yù)測和控制等方面的問題。
定義1:滿足下面四個條件的有向無環(huán)圖稱為貝葉斯網(wǎng)絡(luò)。
貝葉斯網(wǎng)絡(luò)的構(gòu)建可以分為以下三個步驟:
第一,明確變量與解釋變量,以方便建模。
第二,獨立條件的有向無環(huán)圖的建立。由概率論相關(guān)知識可得到:
用Pai表示變量Xi的“因”,即父節(jié)點,則:
因此,首先需要通過對變量X1,X2,…,Xn排序,然后通過滿足式(2)的父節(jié)點集Pai(i=1,2,…,n)來決定貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)。
第三,指定局部概率分布p(xi|Pai)。在離散的情形下,需要為每一個變量Xi的父節(jié)點集的各個狀態(tài)指派一個分布。
3.建模步驟
具體建模步驟如圖1所示。
圖1 建模步驟圖
本文以某三甲醫(yī)院930例甲狀腺腫瘤為例,首先將獲得的甲狀腺腫瘤的超聲診斷數(shù)據(jù)通過粗糙集理論將條件屬性進行初步約簡,并運用改進的層次分析法對條件屬性的重要度進行排名,然后運用變精度粗糙集理論獲得調(diào)整后超聲診斷癥狀(條件屬性)與病理類型建立的關(guān)系集合R列表的最小屬性集,最后利用貝葉斯網(wǎng)絡(luò)既能進行“因→果”推理,又能進行“果→因”的逆向推理得到腫瘤病理類型的概率,概率最大的即為患者處于的病理類型[17]。
下面假設(shè):U= {1,2,…,930},C= {b,c,d,e,f,g}為條件屬性,D= {a}為決策屬性。a= 腫瘤(良性 =1,惡性 =2);b= 回聲(低回聲 =1,實性=2,囊性=3,混合=4,等回聲=5,中等=6,中低=7,實質(zhì)不均質(zhì)=8,無回聲=9);c=邊界(清楚=1,不清楚即毛糙=2,成角=3);d=形態(tài)(規(guī)整=1,不規(guī)整=2,凸向包膜外=3);e=CDFI(短線狀血流=1,腫塊內(nèi)及周邊見血流信號=2,腫塊內(nèi)及周邊血流豐富=3,腫塊內(nèi)及周邊未見血流信號=4,環(huán)狀血流 =5);f=腫塊內(nèi)斑點狀強回聲(鈣化)(有 =1,無 =2);g= 淋巴結(jié)腫大(有 =1,無 =2)。
通過計算,可以得到條件屬性b,c,d,e,f,g的重要性分別為:
所以條件屬性C的決策屬性D約簡為C-{c}={b,d,e,f,g}。
從上式可以得到重要度由低到高分別為e,b,d,f,g,c,其中c是冗余條件屬性。下面用層次分析法對刪除條件屬性c的其他屬性重要度進行修正。
由于層次分析法(AHP)的判斷矩陣是由相對重要度組成,而由粗糙集得到的重要度是遠遠不夠的[18]?;诖?,本文提出利用粗糙集要度兩兩最簡比四舍五入后的值作為相對重要度。假設(shè)在一個知識表達系統(tǒng)中C稱為條件屬性集,稱為決策屬性集,指標相對重要度定義如下:,其中ROUND代表四舍五入運算。
利用matlab得到判斷矩陣的最大特征值λmax=5.039 4,CR=CI/RI<0.10,即認為判斷矩陣通過一致性檢驗。
最大特征值對應(yīng)的特征向量即為重要度,從表1可以得到五個條件屬性e,b,d,f,g的重要度分別為0.321 2,0.321 2,0.171 6,0.111 3,0.074 7,這說明判斷腫瘤為良性或為惡性腫瘤先后順序為CDFI、回聲、形態(tài)、腫塊內(nèi)斑點狀強回聲、淋巴結(jié)腫大,其中CDFI、回聲占的權(quán)重最大,為0.321 2。此時修正的粗糙集重要度只是給出了判斷腫瘤的條件屬性的優(yōu)先順序,但是哪些癥狀對應(yīng)良性腫瘤與惡性腫瘤里哪個病理類型還需進一步分析。
表1 判斷矩陣表
表2給出了經(jīng)過整理后的征兆集合M列表。表3給出甲狀腺腫瘤病理類型N列表,其先驗概率是利用歷史資料計算得到的客觀先驗概率。
表2 超聲癥狀集合M列表
表3 甲狀腺腫瘤病理類型N列表
表4給出病理類型與甲狀腺腫瘤分期之間的關(guān)系集合R列表,其中R列表中有缺失數(shù)據(jù)、噪聲數(shù)據(jù)。
表4表示征兆與甲狀腺腫瘤癥狀之間的關(guān)系,各概率值表示在ai發(fā)生的條件下mj發(fā)生的概率,用數(shù)學(xué)符號表示為
表4 征兆與甲狀腺腫瘤癥狀之間的關(guān)系集合R列表
根據(jù)粗糙集診斷決策表,但表中數(shù)據(jù)為連續(xù)值,需要將其離散化。將表4中的數(shù)據(jù)離散化,規(guī)定量化為量化為1量化為2,其他的量化為3。條件屬性取值3,2,1,0直觀上可以理解為該病理類型引起此類型征兆的概率大、中、小、幾乎沒有。癥狀診斷決策表5如下,其中a7行表示噪聲數(shù)據(jù)。
表5 癥狀診斷決策表
當β=0.35時,正域為:
由以上得m4為核屬性,逐一驗證包含核屬性值的所有情況,最后得到的近似約簡有四個
刪除結(jié)論屬性對應(yīng)條件屬性為零的以及不確定屬性值屬性集,最終選擇作為最小屬性集,重新建立最小癥狀診斷決策表如表6所示。由癥狀與征兆之間的關(guān)系建立貝葉斯網(wǎng)絡(luò)模型如圖1所示,其中為父節(jié)點為子節(jié)點。
表6 最小癥狀診斷決策表
貝葉斯網(wǎng)絡(luò)利用一些征兆信息快速得出腫瘤癥狀發(fā)生的概率,便于對腫瘤進行診斷。據(jù)此構(gòu)建如圖2所示的推理模型:
圖2 腫瘤診斷的貝葉斯網(wǎng)絡(luò)模型圖
具體計算步驟如下:
第二,各腫瘤癥狀發(fā)生的概率為先驗概率與在其他條件下征兆發(fā)生概率的乘積,用概率公式表示為:
第三,在腫瘤診斷中,我們更希望得到哪個癥狀發(fā)生的概率最大,這樣能有目的去做進一步診斷與治療,即求
具體診斷步驟為:收集病人的征兆信息,得到征兆集中哪些征兆發(fā)生和哪些征兆不發(fā)生;根據(jù)已經(jīng)得到的先驗概率及在癥狀發(fā)生下的征兆條件概率,利用式(2)分別得到父節(jié)點a1,a2,…,a6發(fā)生的概率;將得到的概率按從小到大排序,概率最大對應(yīng)的癥狀即為最有可能發(fā)生的癥狀。
例:某病人經(jīng)超聲檢查具有單發(fā)結(jié)節(jié),形態(tài)不規(guī)則,回聲低而略欠均勻,伴砂粒樣鈣化,常侵犯周圍組織,且淋巴結(jié)轉(zhuǎn)移率最高,臨床檢查中降鈣素的值常高于正常范圍,聲像圖常表現(xiàn)為腫物后方回聲不衰減的特點。
表7 各癥狀發(fā)生概率表
從表7可知,P(a3|A+∩A-)發(fā)生概率最大,即乳頭狀癌發(fā)生的概率最大,其次是結(jié)節(jié)性甲狀腺腫和髓樣癌,而實際情況是超聲診斷為乳頭狀癌,診斷結(jié)論與實際情況吻合。
由上例可以看到,基于變精度粗糙集與貝葉斯網(wǎng)絡(luò)的腫瘤病理類型診斷方法具有穩(wěn)健性,其不僅可以對甲狀腺腫瘤進行區(qū)分,還可以將其擴展到其他腫瘤領(lǐng)域。在實際運用中即使判斷結(jié)果有誤,也可以根據(jù)發(fā)生概率大小依次進行有方向、有目的的診斷,節(jié)省人力、物力、財力與時間。
根據(jù)貝葉斯網(wǎng)絡(luò)模型,采用10折交叉驗證法對數(shù)據(jù)進行測試,獲得診斷的準確率、靈敏度、特異度,并以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標得到ROC面積。以上得到變精度粗糙集與貝葉斯網(wǎng)絡(luò)模型的診斷性能與孫靜的粗糙集方法進行對比,得到診斷性能對比表8。通過對比發(fā)現(xiàn),變精度粗糙集與貝葉斯網(wǎng)絡(luò)預(yù)測的精度高于粗糙集理論;ROC曲線AUG在90%以上說明它們都具有較高準確性,且VPRST與BN準確性更高一些;特異度都在90%以上反映篩檢試驗確定非病人的能力VPRST與BN比粗糙集理論更強;VPRST與BN比粗糙集理論有更高的靈敏度,反映正確判斷病人的能力VPRST與BN比粗糙集理論更強一些。
表8 診斷性能對比表
腫瘤有良性與惡性之分,良性腫瘤對機體影響較小,惡性腫瘤由于分化不成熟、生長較快,浸潤破壞器官的結(jié)構(gòu)和功能,并可發(fā)生轉(zhuǎn)移,因而對機體影響嚴重,因此準確對腫瘤進行診斷,尤其是惡性腫瘤的診斷對醫(yī)院準確地了解病人情況,及時采取治療措施具有重要意義。
腫瘤診斷常存在診斷信息的模糊性及信息缺失、噪聲數(shù)據(jù)等引起的不確定性問題,使得目標識別與診斷變得困難。本文采用變精度粗糙集與貝葉斯網(wǎng)絡(luò)相結(jié)合的方法對腫瘤癥狀進行診斷,該方法依托腫瘤診斷的歷史數(shù)據(jù),利用變精度粗糙集將專家知識簡化,獲得腫瘤診斷最小約簡表。利用貝葉斯網(wǎng)絡(luò)具有柔和性、容錯性的特點,將最小約簡表與貝葉斯網(wǎng)絡(luò)結(jié)合,幫助醫(yī)師根據(jù)病癥識別患者腫瘤病理類型,進而采取更為科學(xué)合理的治療方案。本方法將變精度粗糙集與貝葉斯網(wǎng)絡(luò)結(jié)合,既發(fā)揮了變精度粗糙集處理模糊、不確定知識,對噪聲數(shù)據(jù)有較強的免疫性能力,又發(fā)揮了貝葉斯網(wǎng)絡(luò)的網(wǎng)絡(luò)推理和診斷的能力,使得腫瘤診斷模型分別融合了變精度粗糙集與貝葉斯網(wǎng)絡(luò)的優(yōu)點,并且互相彌補了腫瘤診斷方法的缺點。
變精度粗糙集是一種定量分析的數(shù)學(xué)工具,將其運用到腫瘤診斷中,可以減少醫(yī)生主觀判斷的偏誤,而貝葉斯網(wǎng)絡(luò)是為了解決不確定性、不完整性問題而提出,可以以概率形式更加形象具體地表征發(fā)生的可性,兩者結(jié)合可以優(yōu)勢互補,實例對比分析證明此方法在腫瘤診斷方面的有效性、準確性。
[1] 周純武,趙心明,郝玉芝,等.醫(yī)學(xué)影像學(xué)進展[J].中國腫瘤,2008,17(9).
[2] Chantrain C F,DeClerck Y A,Groshen S,et al.Computerized Quantification of Tissue Vascularization Using High-resolution Slide Scanning of Whole Tumor Sections[J].Journal of Histochemistry &Cytochemistry,2003,51(2).
[3] 高秀香,徐怡莊,趙梅仙,等.核磁共振波譜在腫瘤診療中的應(yīng)用研究進展[J].光譜學(xué)與光譜分析,2008,28(8).
[4] Hanson T E,Johnson W O,Gardner I A.Log-linear and Logistic Modeling of Dependence Among Diagnostic Tests[J].Preventive Veterinary Medicine,2000,45(1).
[5] 趙良淵,何大衛(wèi),王彤.多元線性回歸方程中共線影響點的診斷[J].中國衛(wèi)生統(tǒng)計,2004,21(2).
[6] 劉瓊蘇,何離慶.基于人工神經(jīng)網(wǎng)絡(luò)的乳腺癌診斷模型[J].重慶大學(xué)學(xué)報:自然科學(xué)版,2003,26(4).
[7] 謝益輝.基于R軟件rpart包的分類與回歸樹應(yīng)用[J].統(tǒng)計與信息論壇,2007,22(5).
[8] 孫靜,孫興旺.粗糙集方法在醫(yī)學(xué)影像診斷分析中的應(yīng)用[J].統(tǒng)計與信息論壇,2012,27(6).
[9] 王學(xué)偉,瞿海斌,王階.一種基于數(shù)據(jù)挖掘的中醫(yī)定量診斷方法[J].北京中醫(yī)藥大學(xué)學(xué)報,2005,28(1).
[10]Gotwald T F,Daniaux M,Stoeger A,et al.The Value of the World Wide Web for Tele-education in Radiology[J].Journal of Telemedicine and Telecare,2000,6(1).
[11]龔燕冰,倪青,王永炎.中醫(yī)證候研究的現(xiàn)代方法學(xué)述評(二)——中醫(yī)證候的量化及數(shù)理統(tǒng)計方法[J].北京中醫(yī)藥大學(xué)學(xué)報,2007,30(1).
[12]張爽,劉雪華,靳強.決策樹學(xué)習(xí)方法應(yīng)用于生態(tài)景觀分類[J].清華大學(xué)學(xué)報,2006,46(9).
[13]徐紅升,張瑞玲.變精度粗糙集在智能診療系統(tǒng)中的應(yīng)用[J].計算機應(yīng)用與軟件,2013,30(2).
[14]張娜,王國永,朱曉艷,等.貝葉斯網(wǎng)絡(luò)在艾滋病發(fā)病影響因素研究中的應(yīng)用[J].中華預(yù)防醫(yī)學(xué)雜志,2014,48(4).
[15]Pawlak Z.Rough Sets[J].International Journal of Computer &Information Sciences,1982,11(5).
[16]黃影平.貝葉斯網(wǎng)絡(luò)發(fā)展及其應(yīng)用綜述[J].北京理工大學(xué)學(xué)報,2013,33(12).
[17]宋永濤,蘇秦.基于貝葉斯網(wǎng)絡(luò)的質(zhì)量管理實踐對績效的影響評價[J].系統(tǒng)工程理論與實踐,2011,31(8).
[18]Saaty T L.A Scaling Method for Priorities in Hierarchical Structures[J].Journal of Mathematical Psychology,1977(3).