李 娜,郭 磊,王 杰,王玉玲,劉海英
(1.山東第一醫(yī)科大學(xué)第一附屬醫(yī)院/山東省千佛山醫(yī)院口腔醫(yī)學(xué),山東 濟(jì)南 250014;2.山東第一醫(yī)科大學(xué)/山東省醫(yī)學(xué)科學(xué)院現(xiàn)代教育技術(shù)中心,山東 濟(jì)南 250014)
語(yǔ)音交互、圖像識(shí)別、機(jī)器人、專家系統(tǒng)是人工智能(artificial intelligence)領(lǐng)域的研究熱點(diǎn)。矩陣計(jì)算性能的大幅提升及深度學(xué)習(xí)技術(shù)的快速發(fā)展,為人工智能的應(yīng)用奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ),并在醫(yī)學(xué)領(lǐng)域的研究與應(yīng)用進(jìn)展迅速[1,2]??谇徽\療周期長(zhǎng)、復(fù)診次數(shù)多,病歷記錄復(fù)雜,牙齒模型測(cè)量分析、診療方案設(shè)計(jì)、效果模擬與動(dòng)態(tài)調(diào)整專業(yè)性強(qiáng),過(guò)度依賴醫(yī)生直接參與,智慧應(yīng)用水平不高。人工智能在口腔正畸領(lǐng)域廣泛應(yīng)用,可提高正畸診療的效率,提升醫(yī)患交互體驗(yàn),應(yīng)用前景廣闊。本文主要對(duì)智慧口腔正畸助手設(shè)計(jì)與原型實(shí)現(xiàn)進(jìn)行概述,以期為臨床應(yīng)用提供參考。
1.1 應(yīng)用現(xiàn)狀 目前,口腔正畸診療智慧應(yīng)用嚴(yán)重不足,主要表現(xiàn)為:①缺乏正畸專用信息系統(tǒng),導(dǎo)致正畸病歷仍需手工記錄,患者影像、圖片、數(shù)字建模資料及病歷分散存儲(chǔ),查詢分析效率低下;②缺乏智慧正畸方案設(shè)計(jì)與模型可視化應(yīng)用,導(dǎo)致正畸模型測(cè)量、方案設(shè)計(jì)、弓絲彎制等仍需要全手工操作,測(cè)制精度不高,正畸效果可預(yù)見(jiàn)性差;③缺乏智慧醫(yī)患交互體驗(yàn)應(yīng)用,導(dǎo)致患者不能充分參與其診療過(guò)程,不能享有人工智能技術(shù)帶來(lái)的便捷智慧的就診體驗(yàn)。
已有應(yīng)用研究如語(yǔ)音電子病歷在口腔醫(yī)院的應(yīng)用[3-5]、機(jī)器人輔助彎制正畸弓絲[6-8]、基于規(guī)則推理的專家系統(tǒng)用于診療方案設(shè)計(jì)[9]、口腔正畸模型的病歷管理、測(cè)量管理和專家系統(tǒng)[10-12]、具備智能提醒功能的口腔信息管理系統(tǒng)[13,14],口腔修復(fù)全程信息化管理系統(tǒng)[15]等,為提升口腔正畸診療的自動(dòng)化、智慧化水平進(jìn)行了有益探索,但大都聚焦在人工智能技術(shù)應(yīng)用的某一方面,缺乏對(duì)人工智能應(yīng)用的系統(tǒng)性、整體性研究。
1.2 建設(shè)目標(biāo) 近年來(lái),隨著以深度學(xué)習(xí)為代表的人工智能技術(shù)飛速發(fā)展,傳統(tǒng)領(lǐng)域智慧賦能產(chǎn)生了很多創(chuàng)新性應(yīng)用。本文設(shè)計(jì)了一款智慧口腔正畸助手,給出了分層可擴(kuò)展的系統(tǒng)架構(gòu),列出了全應(yīng)用場(chǎng)景,實(shí)現(xiàn)了核心系統(tǒng)原型,對(duì)人工智能技術(shù)在口腔正畸中的應(yīng)用進(jìn)行了全面的探索,以期為工業(yè)級(jí)的系統(tǒng)建設(shè)和應(yīng)用推廣提供借鑒。
此正畸智慧助手具有五層技術(shù)架構(gòu),分別是交互設(shè)備層、智慧應(yīng)用服務(wù)層、語(yǔ)音交互與圖像處理引擎層、人工智能與大數(shù)據(jù)平臺(tái)層和信息技術(shù)基礎(chǔ)設(shè)施層,各層之間協(xié)同工作、輕耦合連接。智慧助手體系架構(gòu)見(jiàn)圖1。
圖1 智慧助手體系架構(gòu)
2.1 交互設(shè)備層 交互設(shè)備層是智慧助手與正畸醫(yī)生和患者溝通的媒介,負(fù)責(zé)文字、語(yǔ)音、圖片與影像信息的交互。智慧機(jī)器人是一個(gè)綜合交互式終端,除了支持語(yǔ)音交互與圖片影像顯示外,還支持隔空手勢(shì)操作,自帶的智能耗材柜可以根據(jù)指令自動(dòng)打開(kāi),最大程度解放正畸醫(yī)生雙手。攝像掃描設(shè)備提供各類正畸圖片如正面像、正面微笑像、側(cè)面像等,也可掃描正畸模型。醫(yī)學(xué)影像采集設(shè)備自動(dòng)采集患者X 光片及CT 片。移動(dòng)終端(手機(jī)、PAD)、智能穿戴設(shè)備(手表、眼鏡等)也可用來(lái)完成語(yǔ)音交互與圖像采集。診室工作站提供診室相關(guān)數(shù)據(jù)快速存取、邊緣計(jì)算、網(wǎng)絡(luò)中繼等功能。
2.2 智慧應(yīng)用服務(wù)層 智慧應(yīng)用服務(wù)層提供智慧助手的核心服務(wù)功能,包括智慧問(wèn)診、正畸方案智慧設(shè)計(jì)、輔助診療、診療周期智慧管理、病歷智慧管理等。
2.2.1 智慧問(wèn)診 采用語(yǔ)音合成技術(shù)可以使智慧助手“克隆”醫(yī)生的音色,代替正畸醫(yī)生進(jìn)行問(wèn)診,在就診前即可完成患者個(gè)人情況、主訴及病史、正畸期望、復(fù)診原因等信息的采集;現(xiàn)場(chǎng)拍攝的X 光片、CT片、面像照片經(jīng)圖像自動(dòng)識(shí)別出圖像類型后存入對(duì)應(yīng)患者的工作站數(shù)據(jù)庫(kù)中,不需手動(dòng)命名分類識(shí)別。
2.2.2 正畸方案智慧設(shè)計(jì) 正畸模型經(jīng)掃描儀、相機(jī)拍攝、三維CT 掃描等手段數(shù)字化,在進(jìn)行圖像矯正與定點(diǎn)后,自動(dòng)進(jìn)行模型測(cè)量,得出牙列擁擠度、Bolton 指數(shù)、牙弓長(zhǎng)度寬度等數(shù)據(jù)。自動(dòng)分析數(shù)字化的X 線頭顱側(cè)位片得出牙頜面軟硬組織結(jié)構(gòu)的角度、線距等測(cè)量值,并對(duì)牙頜面軟硬組織自動(dòng)綜合測(cè)量分析。根據(jù)測(cè)量參數(shù)自動(dòng)調(diào)用Bonwill-Hawley 方法繪制理想牙弓形態(tài)圖并打印,另根據(jù)弓形參數(shù)自動(dòng)彎制特定型號(hào)的弓絲,以及不同正畸方案下牙齒三維動(dòng)態(tài)演變與表征。
2.2.3 輔助診療 診療前同步對(duì)比患者面像和口內(nèi)像,根據(jù)語(yǔ)音指令自動(dòng)檢索患者不同時(shí)期的影像圖片進(jìn)行對(duì)比分析,優(yōu)化復(fù)診方案。此外,診療中智慧助手機(jī)器人可根據(jù)指令,將所需弓絲、鉗子等器械耗材送到醫(yī)生手中。
2.2.4 診療周期智慧管理 根據(jù)正畸方案智慧設(shè)計(jì)結(jié)果,調(diào)用工作流引擎,自動(dòng)生成個(gè)性化正畸診療工作流程圖,每1 個(gè)流程節(jié)點(diǎn)代表一次診療活動(dòng),活動(dòng)列表給出每次診療的日期、預(yù)計(jì)診療的內(nèi)容、所需的正畸工具與耗材、預(yù)計(jì)診療所需時(shí)間與費(fèi)用。預(yù)約管理可以根據(jù)流程執(zhí)行狀態(tài)自動(dòng)生成預(yù)約信息推送給醫(yī)生和患者。
2.2.5 病歷智慧管理 病歷智慧管理負(fù)責(zé)病歷智慧錄入、病歷檢索、病歷分析、病歷歸檔等功能。智慧錄入功能可通過(guò)智慧助手機(jī)器人、醫(yī)生智能手表、移動(dòng)麥克風(fēng)等設(shè)備采集醫(yī)生口述、醫(yī)患對(duì)話、患者自述等語(yǔ)音信息自動(dòng)填充并生成病歷,診療與病歷記錄同步進(jìn)行。病歷檢索、分析可根據(jù)醫(yī)生指令或手勢(shì)操作進(jìn)行病歷檢索和對(duì)比分析。此外,病歷可直接歸檔到工作站與云中心,可自動(dòng)打印生成紙質(zhì)病歷和語(yǔ)音電子病歷。
2.3 語(yǔ)音交互與圖像處理引擎層
2.3.1 語(yǔ)音交互引擎 語(yǔ)音交互引擎可實(shí)現(xiàn)語(yǔ)音識(shí)別、自然語(yǔ)言處理、人機(jī)對(duì)話、語(yǔ)音合成等功能,且可通過(guò)口述指令如“小美、小美”喚醒智慧助手,醫(yī)生患者的語(yǔ)音數(shù)據(jù)首先通過(guò)語(yǔ)音識(shí)別模塊處理成文字;文字再經(jīng)自然語(yǔ)言處理模塊識(shí)別成真實(shí)語(yǔ)義被智慧助手所理解,可以記錄成病歷,也可以作為醫(yī)生的某項(xiàng)指令執(zhí)行。人機(jī)對(duì)話可以支持醫(yī)生與智慧助手之間的指令交互與病歷記錄,支持患者與智慧助手之間的自動(dòng)問(wèn)診、病歷查詢、診療效果互動(dòng)展示等。同時(shí),語(yǔ)音合成可以對(duì)特定醫(yī)生音色進(jìn)行學(xué)習(xí)“克隆”,增強(qiáng)患者與智慧助手交互的真實(shí)情感。
2.3.2 圖像處理引擎 圖像處理引擎可實(shí)現(xiàn)人臉識(shí)別、圖像分類、參數(shù)測(cè)量、三維模擬等。人臉識(shí)別可根據(jù)初診采集的患者面部圖片信息實(shí)現(xiàn)患者自動(dòng)識(shí)別,患者可“人臉”掛號(hào)復(fù)診、支付及與智慧助手交互。圖像分類可自動(dòng)實(shí)現(xiàn)采集圖像的類型,如頭顱側(cè)位片、曲面斷層片、正面像、下頜像等的自動(dòng)標(biāo)簽分類。參數(shù)測(cè)量可根據(jù)三維模型、影像資料為正畸方案設(shè)計(jì)提供相關(guān)參數(shù),也可根據(jù)側(cè)位片的脊柱關(guān)節(jié)形態(tài)確定骨齡。三維模擬可實(shí)現(xiàn)全診療周期牙齒三維模型動(dòng)態(tài)可視化,提供給醫(yī)生、患者虛擬現(xiàn)實(shí)交互體驗(yàn),也可根據(jù)正畸方案參數(shù)調(diào)整實(shí)時(shí)模擬診療效果變化。
2.3.3 工作流引擎 流程設(shè)計(jì)可以自動(dòng)生成診療流程圖、診療活動(dòng)清單、定義活動(dòng)輸入與約束;流程管控可實(shí)現(xiàn)對(duì)整個(gè)正畸過(guò)程的自動(dòng)管理,正畸醫(yī)生可根據(jù)診療需要進(jìn)行流程啟動(dòng)、掛起、變更等操作;表單設(shè)計(jì)可根據(jù)每次診療活動(dòng)的特點(diǎn)設(shè)計(jì)通用或個(gè)性化的病歷內(nèi)容。流程交互支持主流程與子流程的協(xié)同,以及不同流程間的數(shù)據(jù)與任務(wù)共享。
2.4 人工智能與大數(shù)據(jù)處理平臺(tái)
2.4.1 深度學(xué)習(xí) 利用PaddlePaddle、TensorFlow、Pytorch 等開(kāi)源平臺(tái),為引擎層提供深度學(xué)習(xí)算法支持、模型訓(xùn)練以及推理框架和基礎(chǔ)模型庫(kù)。在此基礎(chǔ)上,針對(duì)正畸專業(yè)和圖像影像特點(diǎn),優(yōu)化生成正畸專業(yè)模型庫(kù),提高語(yǔ)音與圖像識(shí)別準(zhǔn)確度。
2.4.2 大數(shù)據(jù)存儲(chǔ)與檢索 支持患者信息、診療信息、設(shè)備與耗材信息等結(jié)構(gòu)化數(shù)據(jù),電子病歷、面部照片、口腔影像等非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ),同時(shí)也支持診室工作站快速緩存檢索與云中心檢索,以及支持面向語(yǔ)音與圖片的智慧檢索。
2.4.3 云邊計(jì)算 支持邊緣計(jì)算和云計(jì)算雙模計(jì)算方式,部分輕量化圖像識(shí)別與語(yǔ)音計(jì)算模型部署在智慧助手機(jī)器人等終端設(shè)備上,提高系統(tǒng)響應(yīng)速度,發(fā)揮終端設(shè)備計(jì)算能力,降低云中心負(fù)載。
2.5 信息技術(shù)基礎(chǔ)設(shè)施 信息技術(shù)基礎(chǔ)設(shè)施為系統(tǒng)提供計(jì)算與數(shù)據(jù)存儲(chǔ)功能,包括高性能GPU 集群,分布式數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),高速存儲(chǔ)與容災(zāi)備份系統(tǒng)。
本研究實(shí)現(xiàn)了智慧助手的系統(tǒng)原型,包括多終端信息系統(tǒng)、語(yǔ)音識(shí)別引擎、人臉識(shí)別引擎。
3.1 多終端信息系統(tǒng) 實(shí)現(xiàn)多終端信息系統(tǒng)是智慧助手的基礎(chǔ)與核心。客戶端采用Python3.9 開(kāi)發(fā)、PyQt5 渲染GUI 界面,移動(dòng)端采用Android Studio 開(kāi)發(fā),后臺(tái)數(shù)據(jù)庫(kù)采用開(kāi)源分布式MySQL 實(shí)現(xiàn),見(jiàn)圖2。多終端信息系統(tǒng)主要功能包括患者管理、診斷與治療、病歷記錄與查詢、材料使用與庫(kù)存、系統(tǒng)管理等模塊,實(shí)現(xiàn)患者信息與口腔檢查結(jié)果采集與錄入、模型分析與影像測(cè)量結(jié)果采集與錄入、診斷與矯治計(jì)劃生成、病歷一鍵生成與打印、自動(dòng)繪制Bonwill-Hawley 弓形圖等功能,見(jiàn)圖3。
圖2 智慧助手多終端信息系統(tǒng)
圖3 智慧助手自動(dòng)繪制Bonwill-Hawley 弓形圖
3.2 語(yǔ)音識(shí)別引擎 實(shí)現(xiàn)語(yǔ)音識(shí)別采用基于深度學(xué)習(xí)平臺(tái)PaddlePaddle 的Deep Speech 2[16],實(shí)現(xiàn)端到端自動(dòng)語(yǔ)音識(shí)別[17]。計(jì)算采用NVIDIA CUDA[18]10.2平臺(tái),訓(xùn)練數(shù)據(jù)集分兩種,一種為openSLR 共享的Free ST American English Corpus、Free STChinese-MandarinCorpus、THCHS-30[19]、Aishell[20]等4 個(gè)通用數(shù)據(jù)集;一種為正畸專業(yè)數(shù)據(jù)集,選取10 份完整正畸病歷,由3 位正畸醫(yī)生在安靜房間內(nèi),分別閱讀病歷,同時(shí)使用Android 手機(jī),以頻率16 kHz 錄制,每個(gè)短句生成一個(gè)音頻文件和一個(gè)腳本,每個(gè)病歷生成約150 個(gè)音頻文件和腳本文件。采用數(shù)據(jù)增強(qiáng)方法進(jìn)行模型訓(xùn)練,首先得到一個(gè)初步通用模型,然后用正畸專業(yè)數(shù)據(jù)集對(duì)初步模型進(jìn)行遷移學(xué)習(xí),最終生成正畸專業(yè)預(yù)測(cè)模型。最后進(jìn)行模型驗(yàn)證,由第4位醫(yī)生,在同樣條件下閱讀第11 份病歷,生成152個(gè)音頻文件和腳本文件,將音頻文件逐一導(dǎo)入預(yù)測(cè)模型輸出文本結(jié)果,對(duì)比對(duì)應(yīng)的腳本文件,用字符錯(cuò)誤率來(lái)評(píng)價(jià)模型的性能。
3.3 人臉識(shí)別引擎 實(shí)現(xiàn)人臉識(shí)別基于深度學(xué)習(xí)平臺(tái)PaddlePaddle 實(shí)現(xiàn),計(jì)算采用NVIDIA CUDA[18]10.2 平臺(tái)。采用數(shù)據(jù)集包括CASIA-WebFace 基礎(chǔ)數(shù)據(jù)集和200 名患者的正面像和正面微笑像作為補(bǔ)充數(shù)據(jù)集,同時(shí)所有患者的正面像作為患者身份照存入注冊(cè)庫(kù)。首先對(duì)所有圖像進(jìn)行裁剪、對(duì)齊、數(shù)據(jù)增強(qiáng)處理,然后采用殘差神經(jīng)網(wǎng)絡(luò)[21]Resnet-101 進(jìn)行模型訓(xùn)練,模型輸出為人臉特征向量,同時(shí)將該特征向量存入對(duì)應(yīng)的患者圖像注冊(cè)庫(kù)。當(dāng)患者來(lái)就診時(shí),通過(guò)智慧助手自動(dòng)采集患者人臉圖像,調(diào)用預(yù)訓(xùn)練模型得出人臉特征向量,逐一與注冊(cè)庫(kù)中患者特征向量進(jìn)行比對(duì),計(jì)算余弦相似度,余弦相似度大于0.9 視為同一患者。
系統(tǒng)實(shí)現(xiàn)的語(yǔ)音識(shí)別與人臉識(shí)別兩大人工智能基礎(chǔ)引擎,識(shí)別成功率分別為91.5%、94.5%,可為人工智能技術(shù)全面應(yīng)用提供基礎(chǔ)支撐。應(yīng)用智慧病歷管理服務(wù),醫(yī)生可快速查找患者診療記錄、綜合分析分析各類影像資料,動(dòng)態(tài)調(diào)整診療方案,提高診療效果。應(yīng)用輔助弓絲彎制服務(wù)可提高弓絲彎制精度,減少醫(yī)生測(cè)量耗時(shí)。采用多終端信息系統(tǒng),就診患者進(jìn)入診室就可在移動(dòng)終端上交互式完成身份識(shí)別、基本信息與面部照片等信息錄入,大幅降低醫(yī)生問(wèn)診時(shí)間,提升醫(yī)患交互體驗(yàn)。
本研究設(shè)計(jì)了一款正畸智慧助手,給出了其分層技術(shù)架構(gòu),詳細(xì)闡述了各層架構(gòu)應(yīng)提供的服務(wù),同層之間內(nèi)聚性強(qiáng)、相鄰層間松散耦合,設(shè)計(jì)合理便于擴(kuò)展,同時(shí)實(shí)現(xiàn)了多終端信息系統(tǒng)、語(yǔ)音識(shí)別引擎、人臉識(shí)別引擎等技術(shù)架構(gòu)部分核心系統(tǒng)原型。因?qū)嶒?yàn)計(jì)算平臺(tái)性能限制,系統(tǒng)響應(yīng)時(shí)間略長(zhǎng),但系統(tǒng)語(yǔ)音識(shí)別和人臉識(shí)別成功率高,能滿足實(shí)際業(yè)務(wù)需要。為進(jìn)一步提升自動(dòng)識(shí)別成功率和響應(yīng)速度,設(shè)計(jì)并實(shí)現(xiàn)產(chǎn)品級(jí)的實(shí)體智慧助手機(jī)器人和可穿戴設(shè)備是下一步工作方向。