傅唯佳 湯梁峰 葉成杰 黃健雋 袁媛 劉麗娟 黃劍峰 李小玲 王立波 張曉波 國家兒童醫(yī)學中心 復旦大學附屬兒科醫(yī)院 ( 上海 201102)
內容提要: 目的:針對以圖片形式存儲的歷史肺功能報告,運用人工智能技術提取其中的數(shù)據(jù)并進行結構化處理,并運用數(shù)據(jù)嘗試進行輔助診斷,實現(xiàn)高質量的數(shù)據(jù)儲存和運用。方法:運用目標光學字符識別(OCR)結合自然語言處理(NLP)技術,對圖片形式的歷史肺功能報告文件進行解析,提取其中的數(shù)據(jù)并完成結構化轉換,構建肺功能報告數(shù)據(jù)庫。同時依據(jù)兒童肺功能診斷原理,構建肺功能輔助診斷系統(tǒng)。運用抽樣比對的方法,對所構建的數(shù)據(jù)庫進行數(shù)據(jù)提取準確性、輔助診斷準確性分別進行評價。結果:構建了歷史肺功能報告的數(shù)據(jù)轉換模型,并建立了結構化數(shù)據(jù)庫。對數(shù)據(jù)提取質量進行了評價,通過模型的改進,數(shù)據(jù)提取準確性提升到100%。運用提取的數(shù)據(jù),在診斷原則下,開發(fā)肺功能輔助診斷系統(tǒng),該系統(tǒng)的準確性達到91.5%。結論:基于人工智能技術能完成對肺功能歷史報告的處理,構建了高質量的數(shù)據(jù)庫和運用。這一方法有助于對大量歷史文件進行結構化處理以便充分發(fā)揮數(shù)據(jù)的作用,并后續(xù)開發(fā)臨床決策支持等應用。
肺功能檢查是運用儀器通過檢測受檢者呼吸過程中的氣流參數(shù)進行呼吸功能的評價[1],是描述呼吸功能的一種重要方法,牽涉呼吸力學、流體力學和熱力學等,檢查過程中產生大量的客觀定量數(shù)據(jù),經過一定的測試和計算后,判斷患者的呼吸系統(tǒng)臨床問題[2]。肺功能測定中產生的大量數(shù)據(jù)具有顯著的臨床和科研價值。在醫(yī)療信息化發(fā)展的早期,為了快速實現(xiàn)無紙化,以及大部分型號肺功能儀聯(lián)機功能的限制,肺功能報告的無紙化多數(shù)以翻拍儀器輸出的報告圖片的形式進行。這種存儲方式支持了無紙化調閱,但計算機無法直接識別其中的數(shù)據(jù),極大地限制了對其中所包含的臨床數(shù)據(jù)的高效再運用。正如本院大量以圖片形式存儲了肺功能歷史報告,其中有意義的參數(shù)無法實現(xiàn)計算機識別和運用。
人工智能技術(Artificial Intelligence,AI)作為運用計算機技術模擬和延伸人類智能的一門新興學科[3],開始廣泛應用于醫(yī)療衛(wèi)生中的數(shù)據(jù)治理和輔助診斷領域。針對本院肺功能報告歷史數(shù)據(jù)的特點,我們嘗試運用AI技術,對圖片形式存儲的肺功能報告進行解析,實現(xiàn)報告數(shù)據(jù)結構化,并用高度結構化的數(shù)據(jù)開發(fā)輔助診斷功能。本文介紹這一數(shù)據(jù)轉換的實現(xiàn)過程、效果,以及在研發(fā)肺功能輔助診斷工具中的運用。
以復旦大學附屬兒科醫(yī)院的歷史肺功能報告的存儲文件為資料來源,通過目標光學字符識別(Optical Character Recognition,OCR)結合自然語言處理(Natural Language Processing,NLP)技術,對圖片格式的報告中的文字內容進行分析,提取其中的數(shù)據(jù)并完成結構化轉換,構建高質量數(shù)據(jù)庫;同時,驗證數(shù)據(jù)提取的準確性并進行針對性優(yōu)化和提升;嘗試依據(jù)兒童肺功能診斷原理,將提取的數(shù)據(jù)用于肺功能輔助診斷。
1.1.1 光學字符識別(OCR)技術。通過OCR技術可以從視頻、圖像中提取出其中的文字信息,目前該技術已經廣泛地應用在了圖像檢索、視頻摘要等各個方面[4]該技術夠批量處理大量報告,根據(jù)圖片內容識別數(shù)據(jù)并進行判斷。OCR技術的工作流程包含了圖片輸入預處理、版面分析、字符切割、特征提取、字符識別、矯正后處理、結果輸出(圖1)。
圖1.OCR結合NLP技術處理圖片內文字并結構化存儲的技術過程
1.1.2 自然語言處理(NLP)技術。自然語言處理(NLP)則能利用計算機技術把日常書寫或交流的語言或文字信息進行定量化、結構化,目的是轉化構建人與計算機之間能夠共同使用的結構化語言[5]。自然語言處理技術在OCR識別后的工作流程包括了對OCR提取的結果進行進一步識別和校驗,根據(jù)自然語言特性,對數(shù)據(jù)進行修正,提升數(shù)據(jù)的準確性。
1.1.3 OCR技術結合NLP技術的應用。程序完成了OCR技術和NLP技術的結合,運用采用平均閾值法對肺功能報告圖片預處理,借助于開源引擎Tesseract進行頁面版式分析、直線和單詞檢測、單詞識別、字符分類,最終通過字符類型修正及建立醫(yī)學詞典保證解析結果準確性,使肺功能報告內容識別率得到保證,報告數(shù)據(jù)存儲到PostgreSQL數(shù)據(jù)庫中。根據(jù)此邏輯開發(fā)的本院肺功能報告數(shù)據(jù)采集系統(tǒng)使用OCR技術識別及NLP技術轉換,以歷史圖片格式的報告為原始資料,對報告中的數(shù)據(jù)進行了識別提取、結構化處理并展現(xiàn)(圖2)。
圖2.OCR結合NLP技術實現(xiàn)肺功能報告數(shù)據(jù)結構化示意圖
基于人工智能的數(shù)據(jù)提取構建高質量的結構化數(shù)據(jù)庫,在臨床進行了數(shù)據(jù)運用的實踐。依據(jù)兒童肺功能診斷原理,在??漆t(yī)師的協(xié)助下,構建肺功能輔助診斷功能。以規(guī)定的參數(shù)判斷邏輯和原則,由程序根據(jù)數(shù)據(jù)進行運算,得出相應肺功能的報告結論,該結論可以供肺功能診斷醫(yī)師參考。
以原始報告所載明的數(shù)據(jù)為金標準,采用橫斷面調查,抽樣一個月的全量肺功能報告,對程序基于OCR聯(lián)合NLP技術獲取的數(shù)據(jù)進行比對,評價數(shù)據(jù)提取的準確性。每份肺功能報告采集的變量數(shù)在17~47個之間,即每個檢測項目不同的Act、Best、Pre、Best/Pre等指標,準確率定義為:原始報告比對解析無誤的變量數(shù)量/總變量數(shù)。由此計算全體變量的解析準確率。通過準確性評價,針對性分析數(shù)據(jù)采集不準確的原因,通過改善OCR和NLP的模型布置,并增加校驗機制逐步提升準確性,并通過重復評價進行驗證。同樣的,以原始肺功能報告結論為參考標準,全量選取一個月的肺功能報告分析所獲數(shù)據(jù),根據(jù)程序規(guī)則運算所得輔助結論,由小兒呼吸科??漆t(yī)師進行人工比對,評價程序進行肺功能輔助報告支持的結論的準確性。
通過OCR聯(lián)合NLP的數(shù)據(jù)治理模型,將歷史肺功能報告的圖片形式轉換成為了結構式報告(圖3)。對本院2015年12月~2021年7月,共計41534份歷史肺功能報告數(shù)據(jù)完成了轉換和數(shù)據(jù)提取,其中常規(guī)通氣22259份、氣道阻力17413份、潮氣肺功能1862份。建成了高度結構化的歷史肺功能檢查報告數(shù)據(jù)庫。
圖3.歷史肺功能報告的圖片形式轉換成為了結構式報告
首次常規(guī)布置完成程序,隨機抽取不同時期報告共29份,進行數(shù)據(jù)解析結果的準確性驗證,解析準確率為70%。為了改善低下的準確率,對解析錯誤的原因進行了分析發(fā)現(xiàn),由于肺功能報告的復雜性,常常會有多語言的混合,主要包括中文、英文字符和數(shù)字,在識別的過程中常常會出現(xiàn)錯誤。比如英文字母“0”常被識別成數(shù)字“0”;數(shù)字“l(fā)”很容易被誤認為英文字母“l(fā)”;單個中文漢字會被識別成多個字符。這種情況對識別的準確性造成了負面影響。
為了提升準確性,對程序進行了多方面改進。首先根據(jù)肺功能報告的特點規(guī)定了不同變量的取值類型和值域,顯著提升了糾錯能力,比如數(shù)值結果中近似英文字母“l(fā)”識別為數(shù)字“l(fā)”;負數(shù)數(shù)值結果中首位數(shù)值識別為為符號“-”。同時,增加校驗邏輯,如肺功能報告中Best為Act1-Act5中的最大值;對程序轉換的best/pre和分別轉換的best和pre值進行比對校驗,并根據(jù)取值區(qū)間進行比對,此類內部校驗顯著增加了數(shù)據(jù)提取的準確性。
經過多種方法改進的數(shù)據(jù)模型,再次驗證準確性,抽取了2021年7月的全部肺功能報告47份,共計1461個變量,再次比對,解析準確率已經達到100%。
運用小兒呼吸專科醫(yī)師根據(jù)文獻和指南給出的肺功能結論規(guī)則(圖四),程序以嵌入規(guī)則的形式構建了對上述解析數(shù)據(jù)的運用案例。抽取2021年7月所有肺功能報告47份,通過??漆t(yī)師比對,程序的肺功能報告輔助決策支持準確率達91.5%。
圖4.肺功能報告輔助決策支持規(guī)則示意圖
肺功能測定對于判斷呼吸系統(tǒng)疾病尤其是在喘息性疾病的診斷、鑒別診斷、治療及預后評估方面均有重要意義[6]。復旦大學附屬兒科醫(yī)院在國內較早開展小兒肺功能診斷,在哮喘防治、長期隨訪中發(fā)揮了巨大作用。然而,由于早期設備和條件限制,大量的肺功能報告僅以圖片的形式存儲在服務器,大量歷史數(shù)據(jù)的回顧性分析需要耗費大量的人力物力。為了充分運用歷史數(shù)據(jù),發(fā)揮臨床數(shù)據(jù)的價值,本院率先針對此類圖片形式存儲的數(shù)據(jù),運用人工智能技術進行了大規(guī)模處理和利用的研究。
醫(yī)療文書的儲存形式分為結構化儲存和非結構化儲存。非結構化數(shù)據(jù)往往為整段自由文本甚至圖片等不可編輯格式,運用的常規(guī)方式需要人工逐份查閱報告,并進行轉抄處理,極不適用于大規(guī)模的數(shù)據(jù)研究。而結構化儲存的報告具有明確的邏輯,使用標準語匯、具有標準組織結構,其內容也有清晰的規(guī)定。結構化數(shù)據(jù)以規(guī)定形式變量儲存在數(shù)據(jù)表中,信息完整、準確,更易于解讀和回顧對比[7-8],屬于高可用數(shù)據(jù),能高效地為計算機語言識別,直接運用。
我們的實踐表明,OCR配合NLP的模式能有效應用于此類非結構化圖片文件的數(shù)據(jù)提取和處理,但也需要進行針對性的準確性評價和糾正,深入地分析程序解析中存在的問題,個性化地根據(jù)圖片文件的特點、報告中的變量類型和值域等進行校正規(guī)則的布置和優(yōu)化,能達到比較滿意的效果,實現(xiàn)數(shù)據(jù)的高度結構化和高可用。
研究表明[9],臨床工作中執(zhí)行的很多診斷標準如TNM分期、實體腫瘤的療效評價標準(response evaluation criteria in solid tumors,RECIST)等,其內在學術邏輯可以設定在結構式報告的軟件邏輯中,可自動提取數(shù)據(jù)并做出判斷?;诖?,本院肺功能報告決策支持目前以常規(guī)通氣報告為例,提取兒童肺功能系列指南[2]規(guī)則,實現(xiàn)結論的生成,有望在未來為肺功能報告醫(yī)師的工作提供輔助。
在醫(yī)療數(shù)據(jù)治理的過程中,本方法為歷史數(shù)據(jù)的新運用提供了一種數(shù)據(jù)治理的思路。當然,具體圖片文件的分析受到像素、對比度、圖片畸變、字體等多因素的影響,而且不同的報告類型也有非常個性化的特點,需要醫(yī)院數(shù)據(jù)管理部門根據(jù)臨床醫(yī)師的需求出發(fā),深化和臨床的合作,讓歷史數(shù)據(jù)重新煥發(fā)活力。本文對此數(shù)據(jù)在臨床決策支持的運用也僅做了粗淺的嘗試,提示通過數(shù)據(jù)治理,一定還能深入挖掘臨床歷史數(shù)據(jù)的價值,為臨床研究提供更大支撐。
基于人工智能的數(shù)據(jù)治理方法,通過對圖片儲存的歷史肺功能報告進行數(shù)據(jù)的解析運用,構建了高度結構化的數(shù)據(jù)庫,能有效支持回顧性數(shù)據(jù)的臨床研究,并進一步運用在輔助診斷等決策支持場景,以便充分發(fā)揮歷史數(shù)據(jù)的價值。