吳文珍,謝建輝,李倩,楊小波△,王瑞軒,李青海,黃旭東,潘宇翔,王羽飛,黃嗣宗
(1.省部共建中醫(yī)濕證國家重點實驗室(廣州中醫(yī)藥大學第二附屬醫(yī)院),廣東廣州 510120;2.廣東省中醫(yī)院,廣東廣州 510120;3.中山大學,廣東廣州 510275;4.廣東精點數(shù)據(jù)科技股份有限公司,廣東廣州 510000)
中醫(yī)在我國發(fā)展歷史悠久,舌象診斷是中醫(yī)望診中的重要組成部分,其主要依賴于舌象的外觀表現(xiàn),通過觀察舌質和舌苔的變化情況來感知患者疾病?,F(xiàn)代硬件技術已能達到良好舌象獲取標準,目前舌象標準化采集的研究主要聚焦于采集光源與采集設備。在采集光源的研究上,石強[1]通過比較標準光源D50和自然光源下舌像診斷結果的相似度,認為D50光源穩(wěn)定性強,在舌象采集中有較好效果;在采集設備的研究上,王憶勤團隊研制的ZBOX-1型舌脈象數(shù)字化分析儀構建了中醫(yī)舌脈象規(guī)范采集和信息處理方法[2],蔡軼珩團隊設計的以計算機為核心的標準舌像分析儀實現(xiàn)了舌像采集、處理、分析與定量化的標準流程[3];在專利研究方面,目前已研究出LED光源手持式中醫(yī)舌診儀、微云智能舌診儀、電子舌診儀、電子舌面鏡等[4],滿足了各應用場景的舌像采集需要。但是,現(xiàn)存的舌像采集方式大多依賴于實驗場景標準光源,以及成本高、普及性低的舌像采集儀,難以在日常生活發(fā)揮作用,因此在互聯(lián)網(wǎng)、手機移動終端快速發(fā)展的今日,對于中醫(yī)舌診提出了便攜化、客觀化和定量化的要求,基于智能手機平臺的舌象圖片采集,需要在兼顧操作便利的同時,提高智能舌診識別的準確率。本文研究的舌象采集標化處理方案旨在開發(fā)基于微信小程序平臺的舌象采集分析交互前端頁面,在合理的范圍內對采集圖像進行標化處理,滿足舌診準確化、客觀化的要求,更好地服務于患者與醫(yī)生。
本研究對于舌象采集流程中的標準化問題包括顏色校正、亮度檢測、模糊檢測等進行了研究,并在此基礎上提出以超分辨率為核心的圖像增強修復方案,并設計了依賴于智能手機前端的舌象采集流程(見圖1):前端采集的原圖片,上傳服務器后第一流程是使用支持向量回歸的顏色校正算法進行顏色校正。經(jīng)過顏色校正后的圖片進入舌象裁剪流程,即調用YOLOv5模型使用標注舌象進行監(jiān)督學習后的輸出,對圖片進行裁剪處理只保留舌象目標部分。成功進行舌象目標裁剪后對目標進行亮度檢測分析和調整,亮度檢測除非特殊情況(該情況會先在前一流程導致目標檢測失?。?,都可以調整至適合進行舌診的亮度,考慮計算成本和實際應用情況,這一流程使用固定算法和閾值的亮度檢測算法,將亮度不合格的圖片進行調整。進行圖像亮度識別以及調整后,進入對圖片模糊程度的判斷以及處理,本流程選擇拉普拉斯算子方法作為判斷圖片模糊的算法,雖然該算法有設備自動對焦錯誤時導致錯判模糊區(qū)域的風險,但前面的舌象裁剪流程可以有效減少該類誤判,使其成功識別模糊程度并最終決定是否需要對圖像進行超分辨率增強,對于可增強圖像進行超分辨率修復后保存至服務器并返回成功信息,而過于模糊的圖像由于信息損失嚴重將返回失敗信息。
圖1 舌象手機采集處理流程圖
2.1.1 白平衡 白平衡即將非真實顏色變換去除的過程,使得被平衡后圖中物件被人觀察時和在照片中呈現(xiàn)一樣的顏色。某些相機的白平衡功能會將光源的“色溫”考慮進去(色溫意指白光的冷暖程度)。人類的眼睛在不同的光源下具有自動平衡的能力,合理的白平衡對在本次舌象采集中,能對不同環(huán)境中可能存在的各種光照環(huán)境下拍攝出的照片進行合理的調整,提升照片的質量。
2.1.2 灰度世界+完美反射白平衡 灰度世界是施行白平衡處理時的一種假設:對于顏色豐富的圖像,RGB三通道統(tǒng)計平均值都趨向于同一個灰階的顏色[5]。根據(jù)此假設,在處理時保持G分量不變,通過調整R、B分量的均值實現(xiàn)顏色校正。完美反射是施行白平衡處理時的另一種假設:圖像中存在一個純白色的物體或區(qū)域(完美反射體),在任何光源色溫下R、G、B皆為極大值,處理時以完美反射體為基準對其他顏色進行校正?;叶仁澜纭⑼昝婪瓷鋬煞N白平衡處理算法適用于大部分圖像的顏色校正,但在特定情況下不能正確再現(xiàn)物體的真實顏色。因此本文中采用結合兩者優(yōu)點的算法,在灰度世界和完美反射校正原有的線性映射基礎上,校正R通道時使用平方的形式[6]:
2.1.3 SVR支持向量機回歸支持向量機(Support Vector Machine,SVM)是一類監(jiān)督學習方式的二元分類模型,是定義在特征空間上依據(jù)間隔最大化進行分割的線性分類器[7]。支持向量回歸是支持向量機標準模型的復雜形式,將硬間隔距離最小化結合拉格朗日函數(shù)的偏導特性可得該支持向量回歸的對偶問題,以及偏移量b的解:
2.1.4 多項式回歸 多項式回歸具有建模速度快、占用計算資源少、算法實現(xiàn)易等優(yōu)點,常用于打印機色彩校正[8]。其算法原理如下:在標準空間下第i個色塊的RGB值為R0i、G0i、B0i,則轉換多項式表示為:
本文選擇多項式項數(shù)為9,最高次為2.多項式向量如下:
RGB值組合的多項式向量是多項式回歸校正算法的關鍵。當多項式次數(shù)過少時會導致欠擬合,達不到理想的校正效果;而多項式次數(shù)過多時容易導致過擬合,使算法可拓展性差[9]。
用智能手機拍攝舌象圖片,分別用上述4種算法進行顏色校正,對比色差公式的客觀顏色評價計算值,結合人眼觀察得到的主觀顏色評價(見表1),選擇顏色校正效果最好的算法。
表1 各種顏色校正算法主觀顏色評價對照
客觀標準即設定在CIE-Lab顏色空間中使用如下色差公式計算兩幅圖像的差異,客觀評價結果由avg(a)、avg(b)和avg(E)三個計算值來衡量,認為當avg(a)<=14、avg(b)<=8且avg(E)<=16時顏色基本一致,統(tǒng)計得到上述算法通過色差公式計算的客觀評價結果(見表2),支持向量回歸算法各項色差計算值均為最小。結合4種顏色校正算法的客觀評價計算結果和人眼主觀判斷結果進行分析和比較,選擇結果最優(yōu)秀的支持向量回歸算法進行舌象顏色校正。
表2 各種顏色校正算法客觀顏色評價結果
3.1.1 顏色空間轉換檢測 顏色空間轉換檢測的主要是考慮圖片在HSL(色相、飽和度、亮度)顏色空間下L分量(亮度)的大小[10],L公式為:
將獲取圖像的RGB值代入上述公式得到亮度分量L,與預設閾值進行對比即可判斷圖片的明暗程度是否符合要求。相對模糊檢測,亮度問題可以通過圖片校正來提高亮度,相對來說可以采用比較柔和的策略提高用戶體驗。
3.1.2 機器學習方法 上述公式容易受到圖像中某一像素點的干擾,無論最后判斷亮度采用平均或是極值處理,會發(fā)生圖像中某部分像素對圖片整體產(chǎn)生影響而判斷有誤的情況。相對地采用監(jiān)督學習的機器學習方法,在有足夠數(shù)據(jù)支撐的情況下,可以正確的學習到標注過為暗和亮圖片中的特征并對其進行分類判斷。實驗過程中,將顏色空間轉換算法對同一張圖片置暗處理后(見圖8)的亮度檢測計算結果分別為56%與34%,與人眼主觀判斷基本保持一致(見表3)。對比人工智能方法所用的計算成本和亮度檢測算法的結果代價,最終選擇使用顏色空間轉換法,并設置閾值為45%。
表3 對舌象圖片進行暗化處理的結果
3.2.1 拉普拉斯算子檢測及快速Fourier檢測(FFT)本文利用了cv2實現(xiàn)的拉普拉斯算子,計算圖片通過拉普拉斯算子后的方差,通過方差給定閾值之間的關系判斷圖片是否模糊。FFT和拉普拉斯算子檢測作為類似的檢測方法,本質在于提取圖片的高頻信息,因為其作用在整個圖片上,會受到目標區(qū)域和非目標區(qū)域模糊程度不同而影響檢測效果,由于非目標區(qū)域占圖片較大比例而目標區(qū)域占圖片比例較小,非目標區(qū)域的清晰程度會成為決定最后檢測值的主要原因。參考圖9,由于對焦問題,肉眼可見的在衣服處的紋理比人像上清晰,簡單截取衣服紋理區(qū)域(見圖10)和目標人像區(qū)域(見圖11)對算法的結果進行校驗,校驗結果如下(見表4):
表4 兩種模糊檢測算法的舌象校驗結果
可見上述中截取了圖片部分,由于目標圖片使用前置攝像頭在默認條件下采集,疑似出現(xiàn)了對焦問題,對焦位置在衣服紋理而非目標人像上。對整體圖像、疑似對焦區(qū)域、舌象目標區(qū)域分別使用拉普拉斯算子與FFT檢測,在合理的閾值內(太高可能意味著噪音太多),值越高說明圖片越清晰,結果值大小與人眼主觀判斷基本一致(較為清晰、清晰、模糊),同時也暴露該算法的問題:如果目標區(qū)域與非目標區(qū)域(背景等)存在因對焦出現(xiàn)的模糊狀況,在進行評估計算時,依然會被統(tǒng)計進值中。因此在整個舌象采集流程中,需要在進行模糊判斷前對目標區(qū)域(舌象)進行裁剪的必要。
3.2.2 機器學習方法 相對上述利用過濾器對圖片進行運算并判定閾值,本實驗中判定/標定是否模糊應以客戶為準。在實際舌象診斷中,由于診室的環(huán)境無法標準化,實際進行診斷時也并非對著標準化的舌象進行診斷。考慮到診斷還會受到諸多因素影響:時間(早中晚對舌苔色澤等特征會產(chǎn)生影響)、事件(就診人是否食用帶顏色食物飲料等)等,圖片失真程度只要在一定的合理范圍內,均可以視為有效采集的舌象。基于上述要求,設置了以監(jiān)督學習為基礎的機器學習方法進行判斷是否模糊的方案。構建深度學習網(wǎng)絡,標定樣本的label,進行訓練并對模型預測結果進行評估。
圖像增強技術主要存在兩個分支:人工智能和圖像校正。圖像增強的主要應用場景為圖像信息損失的情況。但是圖像增強后,已經(jīng)損失的信息無法還原,即圖像增強并非模糊化圖像(諸如打馬賽克等技術)的逆運算,其最多能減少增強后圖像與源圖像的區(qū)別。通過卷積神經(jīng)網(wǎng)絡將分辨率低的圖片進行無損放大,提升細節(jié)的技術。增強圖片清晰度的技術一般稱為超分辨率技術,常見的有基于臨近像素點計算的方法、基于貼片的方法、基于圖像成像原理的方法以及基于深度神經(jīng)網(wǎng)絡的方法等,目前效果最好的是基于深度神經(jīng)網(wǎng)絡的方法。本文中實現(xiàn)了Google RAISR超分辨率技術[11],對在前文中提到的模糊檢測中無法通過的原始圖片(圖12)進行圖像增強(見表5),在圖像符合模糊檢測的要求后(圖13),再對數(shù)據(jù)進行存儲,模糊檢測計算值也符合人眼的主觀判斷結果。
表5 對舌象圖片進行超分辨率圖像增強
隨著近年來科學技術的不斷發(fā)展,中醫(yī)舌診的標準化、客觀化、定量化是中醫(yī)智能診斷的發(fā)展方向,本研究探討一種舌象采集標準化處理流程,發(fā)現(xiàn)①顏色校正方面:中醫(yī)舌診主要是診察舌質和舌苔的情況對病情做出初步判斷,舌苔的顏色表現(xiàn)是診察的重要依據(jù),舌象圖片的顏色是直接影響診斷結果的重要指標。舌象采集會受采集設備、環(huán)境光源、采集角度等因素影響而導致顏色失真,影響醫(yī)生對于患者病情的主觀判斷,以及后續(xù)舌象分析系統(tǒng)的預測結果。因此進行顏色校正是實現(xiàn)舌象采集標準化處理的關鍵步驟之一。前端采集的原圖片上傳至服務器后,服務器后臺首先對原始圖片進行色彩校正,這一部分就顏色校正算法進行了實驗,共實驗了:白平衡、結合灰度世界和完美反射假設的白平衡、多項式回歸、支持向量回歸的顏色校正算法。實驗中,基于手機拍攝的圖片在經(jīng)過候選顏色校正算法后的結果,使用能夠客觀判斷色差的算法對不同顏色校正算法的結果進行比對,客觀評價結果顯示支持向量回歸算法各項色差計算值均為最小,結合人眼對于圖片顏色的主觀判斷,最終選擇支持向量回歸算法作為顏色校正的處理方法。在亮度檢測方面:對舌象圖片進行亮度的檢測與調整,相對來說是采用比較柔和的策略提高了用戶體驗。顏色校正并成功進行舌象目標裁剪后將對目標進行亮度檢測分析和調整,在實驗中提出兩種方法:轉換顏色空間后檢測亮度分量大小、訓練人工智能二分類模型后進行判斷分類。前者為固定算法+閾值選擇,流程較快但會受到圖片成分的影響,因此需要先進行舌象裁剪。后者雖然仍需更多數(shù)據(jù)支持,但能夠有效的學習到圖片中的特征并進行分類,輔以訓練圖像的變化則可以更好的提高模型的識別能力。實驗過程中,將顏色空間轉換算法對同一張圖片置暗處理后,顏色空間轉換法的檢測結果與人眼主觀判斷結果基本一致。對比計算成本和結果誤差后選擇使用顏色空間轉換法作為亮度檢測算法。②模糊檢測方面:舌形信息包含舌的輪廓、形狀、表面紋理,舌苔信息包含舌苔的密度、紋理、數(shù)量以及位置,對于這些舌象信息的觀察需要對圖像有一定的清晰度要求,因此需要使用模糊檢測算法判斷圖像是否需要進行圖像修復。通過對比拉普拉斯算子檢測與FFT檢測的測試結果,對整體圖像、疑似對焦的截取部分、舌象目標區(qū)域分別使用拉普拉斯算子方法所得值,符合人眼對其的主觀判斷:較為清晰、清晰、模糊,可見兩種方法都存在當圖片在智能手機中拍攝時存在背景模糊或因為設備自動對焦錯誤時導致錯判的問題,而流程中對目標舌象的裁剪可以有效減少該類誤判??紤]到人工智能方法對服務器產(chǎn)生的負擔,以及兩種圖片算法的相似程度以及運算速度,選擇拉普拉斯算子檢測作為模糊檢測算法。③圖像增強方面:模糊本身是一種圖片信息的損失,修復處理可以還原部分信息,當圖片過于模糊無法還原時,后臺將直接返回失敗至客戶端并要求重新采樣。而當模糊不嚴重時,可以嘗試調用超分辨率算法對圖像進行修復。做出這個考慮一是因為用戶采集時即便按照要求操作,也無法達到實驗室的采集效果,需要給予一定容錯率,否則將降低用戶的操作體驗;二是基于對中醫(yī)醫(yī)師的調查得知,在真實舌象診斷時,診斷環(huán)境也存在一定的寬容范圍。文中實現(xiàn)并試驗了Google RAISR超分辨率技術,并使用模糊檢測算子進行檢測,可見檢測值得到了大幅提升,與人眼判斷下感到明顯分辨率上升一致。
通過對相關研究資料整理發(fā)現(xiàn),目前研究主要集中于采集光源選擇、圖像大數(shù)據(jù)分析、舌象智能診斷等方面,在智能手機前端舌象采集處理方面的研究還存在著一定的空白。韋玉科[12]研究了一種基于圖像信息的中醫(yī)舌診圖像智能采集方法,通過分析圖像信息,控制系統(tǒng)發(fā)出步進電機的驅動信號,控制或調整相機去適應病人以獲得效果佳的圖像,對比本文的采集場景,該方法難以應用于智能手機等便攜平臺。朱明峰[13]研究的融合顏色和空間信息的舌象提取方法:在舌象圖片中尋找與舌象的色調和亮度特征接近的起始像素作為目標區(qū)域,根據(jù)色調相似性排序的結果選擇差異最小的像素,重復上述過程直到提取完整舌象,對比本文的標化流程,該方法缺少圖像標準化處理過程,因此容易受原始圖像顏色信息、模糊度影響導致提取舌象難以使用。本研究基于圖像修復的舌象采集標化處理過程,提出了基于采集便捷性和診斷準確性的最優(yōu)處理流程,使舌象圖片滿足舌診準確化、客觀化要求,希望為后續(xù)舌診智能化分析的發(fā)展提供參考。