上海市胸科醫(yī)院(上海交通大學附屬胸科醫(yī)院) 信息中心,上海 200030
近幾年來,由于檢查設備性能的提升和患者人數(shù)的增加,許多大型醫(yī)院的檢查科室運轉已達到滿負荷狀態(tài)。上海市胸科醫(yī)院作為診治胸部疾病為主的三級甲等??漆t(yī)院,2019年檢查人次已達70萬。而且受到檢查工作流程及環(huán)境等因素的影響,醫(yī)生在檢查時無法同步錄入診斷報告,如B超檢查、病理取材時,醫(yī)生因使用儀器而難以兼顧鍵盤錄入;放射閱片場景下,讀片醫(yī)生的注意力主要集中于對影像的觀察分析上,鍵盤輸入容易導致注意力分散。因此,大部分醫(yī)生需要通過事后回憶性錄入或配備助手協(xié)助轉錄的方式完成報告撰寫。據(jù)日本一項研究指出,74%的醫(yī)生認為現(xiàn)行鍵盤錄入的交互方式對診療工作產(chǎn)生了負面影響,包括工作效率降低、科室人力成本增加等[1-3]。因此,如何優(yōu)化現(xiàn)有醫(yī)技科室的工作模式,在實現(xiàn)診療效率提升的同時減輕臨床工作壓力,是當前醫(yī)院發(fā)展中亟待解決的重要問題之一。
隨著人工智能技術的日益成熟,人工智能與醫(yī)療健康領域的融合也在不斷加深。智能語音識別作為人工智能技術之一,在輔助醫(yī)生病歷書寫、報告錄入方面應用效果良好[2]。Blackley Suzanne指出美國多家醫(yī)院放射科運用Nuance公司的醫(yī)療語音識別系統(tǒng)后,醫(yī)生報告錄入的時間縮短為原來的五分之一[4]。西班牙布宜諾斯艾利斯醫(yī)院對移動環(huán)境中的語音識別技術進行探索,識別率達到94.1%[5]。雖然我國對該領域的研究起步較晚,但發(fā)展迅速。根據(jù)世界產(chǎn)權組織近期開展的一項研究表明,中國的大學在人工智能,尤其是語音識別領域的創(chuàng)造發(fā)明顯示出強勁發(fā)展勢頭。工信部于2017年出臺了《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018-2020年)》,其中明確支持發(fā)展智能語音識別交互系統(tǒng)[6]。
因此,本研究以上海市胸科醫(yī)院為背景,將智能語音識別技術作為切入點,構建醫(yī)技報告交互系統(tǒng)。通過與醫(yī)技檢查流程的緊密結合,實現(xiàn)檢查全程無接觸式語音輸入,使得醫(yī)生可以正確、高效地撰寫報告,并且對其應用情況進行研究分析,為語音識別技術在中文醫(yī)療領域的應用提供參考依據(jù)。
語音識別是指將人類說話的聲波轉換成可識別的文本信息,這項技術的重點在于如何使計算機聽懂人類的語言[7]。本研究所設計的醫(yī)技報告交互系統(tǒng)根據(jù)中文醫(yī)療領域相關標準及場景,定制專業(yè)模型實現(xiàn)語音信號的識別及轉換,從而輸出文本結果,具體流程見圖1。
圖1 語音識別流程框架
醫(yī)生的語音通過麥克風輸入后,先經(jīng)過分幀、預加重等預處理操作后轉成數(shù)字信號,再利用端點檢測、噪音消除模塊進行處理,以確定語音起始及結束位置,并進一步消除由語音采集設備等外界環(huán)境因素引起的信號干擾[8]。接著將處理過的信號傳入特征提取模塊,把能有效反映語音特征的信息轉化成一組離散型矢量序列,壓縮封裝后傳送至識別引擎,開始語音識別搜索[9]。
識別引擎作為整個系統(tǒng)的中樞,分為醫(yī)療環(huán)境聲學模型、醫(yī)療語言模型、識別字典三個部分。醫(yī)療環(huán)境聲學模型基于隱馬爾可夫模型(Hidden Markov Models, HMM)構建,通過采集醫(yī)技科室真實音頻數(shù)據(jù),對模型進行自適應訓練[10]。由于音頻中包含了真實醫(yī)療環(huán)境中的噪聲、采集設備噪聲及醫(yī)生個體發(fā)音習慣,因而訓練出的模型更加符合實際應用場景,極大地增強了該模型的識別性能。識別字典則由指令動作庫和標準醫(yī)學詞語庫組成,既包含了報告創(chuàng)建、保存等動作類操作指令,也涵蓋了ICD10、SNOMED等醫(yī)學領域的標準診斷及術語,有效解決了通用語音識別系統(tǒng)無法識別醫(yī)學專業(yè)詞匯的問題[11-12]。醫(yī)療語言模型主要負責句子的構成,能夠結合語法、上下文結構等要素來判定不同詞匯之間的聯(lián)結關系,從而將識別出的詞語最終組合成句[13]。為提高該模型的適用性,前期導入了醫(yī)技報告數(shù)據(jù)進行訓練,以使其返回結果時能夠優(yōu)先輸出專業(yè)相關結果。
經(jīng)過識別引擎處理后的數(shù)據(jù)將傳入語義理解模塊,該模塊是基于醫(yī)技科室報告錄入場景進行語義定制,能夠根據(jù)實際應用場景及內置醫(yī)學知識庫對結果進行語義分析,從而理解醫(yī)生意圖,以達到優(yōu)化識別結果的目的。至此,系統(tǒng)完成所有語音識別處理步驟,輸出最終結果。
基于系統(tǒng)中預設的指令動作庫,通過語音代替鼠標,與醫(yī)技報告系統(tǒng)實現(xiàn)人機交互。當語音通過識別引擎轉化成文本以后,系統(tǒng)根據(jù)上下文語境、關鍵詞及光標位置等因素,綜合判定是否為文本輸出或執(zhí)行具體操作命令[14]。此外,由于醫(yī)技科室業(yè)務不同,其檢查操作流程也大相徑庭。因此,本系統(tǒng)以科室為單位個性化定制相應的動作類語音操作指令,深度貼合檢查操作場景,實現(xiàn)B超、病理取材等全程非接觸式操作。以病理科為例,針對取材室的重污染環(huán)境,利用支架顯示器及腳踏板開關等設備,使醫(yī)生可以邊取材、邊錄入報告。首先,通過口述住院號檢索并選定患者,接著對該患者的送檢標本進行取材,在操作的同時可口述新增材塊命令在系統(tǒng)中依次添加材塊,再通過語音錄入具體取材描述內容,取材完成后口述打印包埋盒命令,最后將其儲存歸檔。
圖2 結構化報告錄入界面
語音錄入模式與現(xiàn)行結構化報告模板相兼容,實現(xiàn)結構化節(jié)點的語音自動填充,系統(tǒng)界面見圖2。
如圖2所示,醫(yī)生首先通過語音指令調出相應模板,再口述檢查具體數(shù)值,如右腎長徑10 cm,系統(tǒng)會自動將數(shù)值回填至對應的結構化節(jié)點內。該功能使得原有模板可以有效利用,同時也進一步提升了語音錄入模式與現(xiàn)行系統(tǒng)的協(xié)同性。
醫(yī)技報告交互系統(tǒng)自2019年12月在放射科、病理科上線以來,截至2020年1月底累計輸入約24.6萬字,統(tǒng)計情況見圖3。
因考慮到系統(tǒng)對醫(yī)生工作習慣影響較大,為保障科室工作平穩(wěn)運行,采取了逐步推廣模式安排上線,本研究選擇先期上線的放射CT及MR報告、病理冰凍及常規(guī)報告作為應用場景進行統(tǒng)計。由圖3可見,經(jīng)過前兩周的培訓及適應后,從12月16日開始,通過語音輸入的字數(shù)明顯增加,后續(xù)幾周一直保持平穩(wěn)增長態(tài)勢。最后一周該指標下滑,是由于臨近春節(jié)檢查人數(shù)減少,工作量大幅降低所致。
圖3 放射報告及病理報告語音輸入字數(shù)統(tǒng)計
為進一步了解系統(tǒng)具體運行情況,本研究從撰寫冰凍病理報告的應用場景入手,在技術及應用效果兩個層面對相關指標進行深入統(tǒng)計及分析。
語音識別的準確性與系統(tǒng)可用程度密切相關,因此采用識別率作為評價指標,其計算公式為[15]:
利用系統(tǒng)采集的語音數(shù)據(jù),對上線后1個月內每周的識別情況進行統(tǒng)計,見表1。
表1 病理科語音識別率統(tǒng)計
在系統(tǒng)上線之前,先將1年內各類型病理報告導入進行人工智能訓練,以確保系統(tǒng)對病理專業(yè)詞匯的初始識別率。上線第一周識別率較低,僅為74.67%,這是由于該系統(tǒng)對醫(yī)生的工作習慣有較大改變,運行初期尚處于磨合階段。此外,醫(yī)生口音也對識別準確性產(chǎn)生一定影響。從第二周起,識別單詞數(shù)、識別率均逐步上升,最后一周識別率比第一周提高了21.05%,這表明系統(tǒng)通過一段時間的自適應學習后,能夠有效克服病理科醫(yī)生的發(fā)音習慣、說話口音等個性化差異,系統(tǒng)體驗效果得到大幅改善。
為評價醫(yī)技報告交互系統(tǒng)的實際應用效果,對該系統(tǒng)上線前后的相關指標進行統(tǒng)計分析,見表2。
由表2可見,與傳統(tǒng)鍵盤錄入的模式相比,醫(yī)生通過語音錄入報告更為高效,記錄時長有所減少。而在報告審核方面,語音錄入報告所需審核時間則比鍵盤錄入略長,原因是醫(yī)生疲勞時容易產(chǎn)生聲調變化、饒舌等現(xiàn)象,導致語音識別的準確性有所降低,因此在審核階段,需要花費更多時間檢查校正。從整體而言,通過語音錄入的報告周轉時間較短,這是由于該系統(tǒng)的使用實現(xiàn)了病理科醫(yī)生邊取材、邊錄入報告的需求,有效縮短了取材時間,不僅降低了醫(yī)生的工作負荷,也增強了患者獲取報告的及時性。
表2 語音錄入與鍵盤錄入情況對比
本研究將智能語音識別技術與醫(yī)技報告系統(tǒng)相融合,醫(yī)生通過語音即可實現(xiàn)醫(yī)技報告的完整錄入。該系統(tǒng)的應用既有助于提高醫(yī)技科室的工作效率,又減少了病人的等待時間,對檢查醫(yī)療流程的優(yōu)化起到了積極的作用,未來可陸續(xù)推廣到其余醫(yī)技科室全面應用[16-17],但仍存在一定局限性,比如同時有多位醫(yī)生使用語音錄入時,會造成互相干擾,導致識別結果不佳;對于一些未納入系統(tǒng)的醫(yī)學詞匯,容易產(chǎn)生識別錯誤[18-19]。因此,如何有效提高醫(yī)療領域語音識別的準確率將成為后續(xù)探索和研究的重點。