何睿琳,劉子妤,楊欣怡,李 晨,李曉燕
1東北大學醫(yī)學與生物信息工程學院,沈陽 110819 2中國醫(yī)科大學腫瘤醫(yī)院/遼寧省腫瘤醫(yī)院病理科,沈陽 110042
醫(yī)學圖像是現(xiàn)代醫(yī)學主要診斷依據(jù)之一,組織病理學圖像作為醫(yī)學圖像的重要組成部分,對切實了解患者病情具有極為重要的意義。然而,由于組織病理學圖像數(shù)據(jù)龐大且復雜,需在有限的存儲空間中實現(xiàn)對大量醫(yī)學信息的完整保存,即在高壓縮率下,同時保證高質(zhì)量、具有完整有效信息的圖像重建。在眾多數(shù)字圖像處理方法中,矩陣計算應用較為廣泛,一般由計算機增強、特征提取、腐蝕膨脹及分割等操作步驟組成,其中主成分分析法(principal component analysis,PCA)和奇異值分解法(singular value decomposition,SVD)是更具優(yōu)勢的圖像壓縮方法[1]。采用PCA對圖像進行降維處理,在減小數(shù)據(jù)量、簡化數(shù)據(jù)分析的同時,不丟失原矩陣圖片的主要特征;采用SVD對矩陣圖片進行分解,選擇其中的奇異值進行重構,可獲得原矩陣圖片的主要信息[2]。
本研究基于PCA與SVD兩種矩陣算法,對低、中、高分化的宮頸癌組織病理學圖像進行壓縮存儲,對比分析壓縮重建前后的圖像質(zhì)量,提出針對不同分化程度的組織病理學圖像壓縮存儲的最優(yōu)途徑。
本研究為回顧性分析,以遼寧省腫瘤醫(yī)院病理科資料庫2019年1—10月宮頸癌組織病理圖像作為研究對象,包括低、中、高不同分化程度的宮頸癌組織免疫組化染色圖像及HE染色圖像各10組(每組10張,共600張),分類均經(jīng)病理診斷證實。以上圖像均由全視野數(shù)字圖像(whole slide image,WSI)剪裁獲得,既可作為獨立視野顯微圖像使用(直接進行壓縮儲存),又可作為WSI局部使用。作為WSI局部使用時,首先需將WSI圖像剪裁至所需大小,然后對每張圖像進行壓縮儲存,在需要使用WSI圖像時,再將壓縮后的圖像進行還原拼接。
本研究已通過遼寧省腫瘤醫(yī)院倫理審查委員會批準(審批號:202229),并豁免患者知情同意。
1.2.1 基本原理
PCA是利用正交變換的方法,將從圖像中提取的原向量經(jīng)過線性變化處理變換為新向量,并將計算分析出的新向量根據(jù)方差大小進行排序。因此,在正交變換中,總體方差不變,第一主成分計算結果是方差最大的向量組,第二主成分是次一級向量組,以此類推,可獲得n個變量,即n個主成分,且新獲得的主成分之間無相關性[3]。一張組織病理學圖片往往具有較多維度,利用PCA實現(xiàn)了對圖片的降維處理,在縮小其存儲空間的同時,保存了圖片中的大量信息。
1.2.2 壓縮儲存步驟
假設樣本為
(2)將轉化好的標準化矩陣進行計算、分析,得出相關系數(shù)矩陣。
(3)由相關系數(shù)矩陣求解其特征方程。通過計算可得出m個特征根,并使用sort函數(shù)對指定區(qū)間所有數(shù)值進行排序。利用數(shù)據(jù),求出特征值和特征向量。
(4)計算貢獻率。貢獻率是主成分與各個分量方差總和的比值。累計貢獻率則是所選取的主成分的貢獻率的總和,累計貢獻率的大小代表了數(shù)據(jù)的一種可靠性,且兩者成正比關系,累計貢獻率越大,所得出結論的可靠性越強;累計貢獻率越小,圖片損失的信息量越大[4]。通常在利用PCA對圖像進行處理時,累計貢獻率一般不低于85%,采用這一標準確定選取主成分的個數(shù),能夠作出較為科學的評價。
1.2.3 圖像儲存改進
本研究在以上PCA的基礎上,對圖像進行3種方式的壓縮處理改進:(1) 將彩色圖像轉化為灰度圖像,將圖像數(shù)組矩陣轉化為樣本矩陣,并計算樣本和變量的個數(shù)。計算并提取前p個主成分,根據(jù)系數(shù)矩陣重建樣本矩陣,再將樣本矩陣轉化回圖像數(shù)組。(2) 分塊處理。利用im2col函數(shù)實現(xiàn)圖像塊重排列,再利用col2im對圖像進行恢復。以自定義大小作為卷積核,對輸入圖像進行分割處理,形成新的矩陣。將圖像塊轉換成矢向量,并計算圖像塊灰度均值。計算取出最大n個特征值,將自定義維度映射到n維,最后利用col2im重建圖像。(3) 圖像融合。提取圖片主成分,融合第一、二主成分實現(xiàn)圖像壓縮。
1.3.1 基本原理
SVD是高等數(shù)學線性代數(shù)中的一種算法,可有效提取矩陣代數(shù)特征[5],主要應用對象為正方矩陣,在信號處理中有著極為廣泛的應用。其從雙線性函數(shù)f(x,y)=xTAy,a∈Rn×n著手,通過利用線性變換,x=Uζ,y=Vη,帶入到雙線性函數(shù)中,得到f(x,y)=ζTSη,其中S如公式(1.1)所示。
S=UTAV
(1.1)
由公式(1.1)可知,當滿足矩陣U和矩陣V均為正交矩陣時,二者之間的選擇存在(n2-n)的自由度。若通過這些自由度將矩陣S的對角線元素不置零,其余元素均置零,則矩陣S便成為對角矩陣且S=∑=diag(σ1,σ2,σ3,…,σn)。接著用U和VT各自左乘和右乘公式(1.1)。利用矩陣U和矩陣V的正交性,可得A如公式(1.2)所示。
A=U∑VT
(1.2)
1.3.2 壓縮儲存步驟
若一幅圖像有n×n個像素,則利用n×n的矩陣A代表n×n個像素,對矩陣A進行奇異值分解,可知A=U∑VT,并將所得的奇異值由大到小排序。選取前k個奇異值逼近原圖像,即可通過k×(2n+1)個值逼近原圖像n×n個數(shù)值??汕蟮脡嚎s比例,如公式(1.3)所示。
(1.3)
利用SVD的具體操作步驟如下:
(1)首先對輸入圖片進行灰度化處理,并計算輸入圖像尺寸;
(2)將原圖像的灰度值轉換成double類型;
(3)進行奇異值分解,并提出對角矩陣的對角線元素,得到一個向量,并計算最大、最小奇異值;
(4)保留前n個最大奇異值,并對其他奇異值置零,將向量轉化為對角矩陣;
(5)還原圖像,計算壓縮比。
1.3.3 圖像儲存改進
本研究在以上SVD的基礎上,對圖像進行2種方式的壓縮處理改進:(1) 在傳統(tǒng)SVD的方法上,將圖片uint8改為double類型,double更適合運算,uint8是為了節(jié)省存儲空間。首先進行奇異值分解,提出對角矩陣對角線元素,獲得向量。保留選定的奇異值,計算壓縮比,若為矩形矩陣,則用0填滿。(2)利用colormap和imagesc函數(shù)進行計算,獲取當前色圖,并以圖像的方式顯示矩陣。
重建圖像的還原度從以下兩個角度進行考量:
(1)峰值信噪比(peak signal-to-noise ratio,PSNR)。PSNR是應用最為廣泛的圖像客觀評價指標,基于對應像素點之間的誤差進行圖像評價,如公式(1.4)所示。PSNR高于40 db說明圖像質(zhì)量極好,十分接近原圖像;>30~40 db說明圖像質(zhì)量較好,可察覺部分失真;20~30 db說明圖像質(zhì)量差;20 db以下則圖像質(zhì)量不可接受。
(1.4)
(2)結構相似度(structural similarity,SSIM)。SSIM是一種質(zhì)量評價方法,可用于衡量兩張圖片相似性指標。SSIM取值范圍為[0,1],值越大,表明圖像結構失真越小。
所有數(shù)據(jù)應用SPSS 23.0軟件進行描述性統(tǒng)計學分析,PSNR和SSIM以均數(shù)±標準差表示。
利用PCA對圖像進行壓縮儲存預試驗,當主成分p分別為1、18、36、53時,圖像壓縮比分別為539.68、29.98、14.99、10.18,累計貢獻率分別為99.35%、99.98%、99.99%、99.99%。
將主成分p設為53,應用PCA處理低、中、高分化宮頸癌組織免疫組化染色和HE染色病理圖像各10組(每組10張)。結果顯示,低、中、高分化宮頸癌組織免疫組化染色圖像PSNR均值分別為43.84±0.43、43.27±0.25、43.71±0.49,壓縮圖像SSIM分別為0.964±0.004、0.963±0.006、0.965±0.005;HE染色圖像PSNR均值分別為43.41±0.78、42.95±1.03、43.52±0.69,壓縮圖像SSIM分別為0.953±0.010、0.949±0.015、0.960±0.007。壓縮前后的圖像對比見圖1,2。
圖1 不同分化程度宮頸癌組織免疫組化染色圖像經(jīng)主成分分析法壓縮前后圖像
圖2 不同分化程度宮頸癌組織HE染色圖像經(jīng)主成分分析法壓縮前后圖像
利用SVD對圖像進行壓縮儲存預試驗,當奇異值分別為32、48、64、108、128、200時,圖像壓縮比分別為47.99、32.00、24.00、14.22、10.00、7.68。
設定奇異值為128,應用SVD處理低、中、高分化宮頸癌組織免疫組化染色和HE染色病理圖像各10組(每組10張)。結果顯示,低、中、高分化宮頸癌組織免疫組化染色圖像PSNR均值分別為39.89±1.69、38.20±2.19、40.90±0.50,壓縮圖像SSIM分別為0.949±0.006、0.938±0.011、0.955±0.004;HE染色圖像PSNR均值分別為40.31±0.98、39.46±1.59、40.77±1.67,壓縮圖像SSIM分別為0.965±0.006、0.943±0.010、0.969±0.005。壓縮前后的圖像對比見圖3,4。
圖3 不同分化程度宮頸癌組織免疫組化染色圖像經(jīng)奇異值分解法壓縮前后圖像
圖4 不同分化程度宮頸癌組織HE染色圖像經(jīng)奇異值分解法壓縮前后圖像
本研究采用PCA和SVD兩種矩陣算法對不同分化程度的宮頸癌組織免疫組化染色圖像及HE染色圖像進行壓縮儲存處理,解決了病理學圖像數(shù)據(jù)龐大、圖像包含信息量巨大、占用大量存儲空間等問題。經(jīng)PSNR和SSIM分別評價后,顯示兩種壓縮儲存算法在圖像質(zhì)量和結構保真度方面均較好。
近年來,隨著數(shù)字病理學的發(fā)展,傳統(tǒng)病理診斷瓶頸逐漸被打破,在一定程度上解決了醫(yī)療資源地域分布不均等問題,極大提高了病理診斷效率及診斷準確性。但同時,隨著醫(yī)學圖像數(shù)量及尺寸(分辨率提高)的增加,對于有效存儲和便捷傳輸方法的需求亦不斷提高[6]。壓縮后的圖像需要保留精細的結構信息[7],而正是對圖片質(zhì)量的高要求,需要更大存儲容量的設備,因而產(chǎn)生了額外的昂貴成本[8]。因此,高效的影像學數(shù)據(jù)壓縮、傳輸不僅對于疾病遠程診斷和監(jiān)測十分重要,且是降低醫(yī)院運營成本的重要舉措??v觀所有高階數(shù)據(jù)處理方法,PCA或類PCA是廣泛使用的圖像壓縮方法[9]。在矩陣中,SVD可在不影響圖像質(zhì)量的前提下,實現(xiàn)圖像重建的目的[10]。
PCA矩陣計算方法是先將圖像數(shù)據(jù)進行分塊,將每一塊作為一個樣本向量,再通過對多個樣本構成的矩陣提取主成分[11],其去相關性好,根據(jù)圖像本身數(shù)據(jù),制訂變換矩陣,其計算方式是在最小均方差狀態(tài)下的正交變換,幾乎適用于各種醫(yī)學圖像的壓縮存儲處理。主成分的貢獻率越大,證明此主成分的比重越大,所包含的信息量越多。故本研究選擇主成分p=53,此時壓縮比為10.18,在保證運算速度的同時,使累計貢獻率最大化,即圖中有效信息的可檢測性大,圖像質(zhì)量較優(yōu)。
在利用矩陣計算方法對圖像進行存儲處理的過程中,矩陣的奇異值分解是一種重要的處理手段。自1970年由Golub和Reinch提出矩陣計算方法SVD以來,SVD已成為解決圖像矩陣計算方面的有效解決工具[12]。其優(yōu)點在于圖像奇異值的穩(wěn)定性較為出色,例如施加一些小的干擾,醫(yī)學圖像的奇異值不會發(fā)生較大的變動,且SVD所展現(xiàn)出的并非視覺特性,而是醫(yī)學圖片蘊含的固有屬性[13-14],是在不改變醫(yī)學圖像原本矩陣度量的條件下,分析計算出有效秩,再在特定情形下給出圖片矩陣秩的最佳逼近效果。通過利用圖像的固有矩陣結構,對圖像對應的數(shù)據(jù)矩陣進行圖像再壓縮。重構時,首先選擇合適的奇異值及奇異值向量還原數(shù)據(jù)矩陣,再重構圖像,這樣可簡化數(shù)據(jù),極大降低圖像所占用的資源[10]。本研究選擇的最大奇異值為128,壓縮比為10.00,此時可最大程度保留原圖像信息,是SVD系數(shù)最優(yōu)值。
本研究采用PSNR和SSIM針對圖像壓縮后重建質(zhì)量進行分析評估。PSNR是基于對應像素點間的誤差,即基于誤差敏感的圖像質(zhì)量評價,其數(shù)值越大,圖像失真越小。SSIM是一種全參考的圖像質(zhì)量評價指標,分別從亮度、對比度、結構三方面度量圖像相似性,其數(shù)值越大,圖像失真越小,且在圖像相似度的評價上優(yōu)于PSNR。本研究綜合衡量兩種指標,壓縮免疫組化圖像時,PCA算法相對于SVD算法質(zhì)量更高且更穩(wěn)定,波動的標準差在0.5以內(nèi),并與原圖相比,SSIM近乎為1。壓縮HE染色圖像時,SVD 可在很大程度上保證繼承原圖像的大量信息,重建所得圖像與原圖像SSIM高于PCA算法。本研究發(fā)現(xiàn),宮頸癌分化程度對組織圖像壓縮具有一定影響,相較于低、高分化,中分化宮頸癌組織圖像壓縮重建后SSIM稍低,推測原因:低、高分化宮頸癌一般具有典型的組織學形態(tài),圖像像素分布較為集中,因此壓縮后重建效果較好。
綜上,PCA和SVD兩種算法均具有出色的圖像壓縮和重建功能,其中PCA技術穩(wěn)定性相對更高,為解決病理圖像存儲難題提供了解決方案,值得臨床進一步推廣應用。
作者貢獻:何睿琳負責結果分析、論文初稿撰寫;劉子妤、楊欣怡負責臨床試驗;李晨、李曉燕構思論文框架、審核并修訂論文。
利益沖突:所有作者均聲明不存在利益沖突