李丹蓉
常州市衛(wèi)生信息中心,江蘇 常州 213000
調(diào)查顯示,我國(guó)目前50%的住院醫(yī)生平均每天用于寫病歷的時(shí)間超過4小時(shí),其中相當(dāng)一部分醫(yī)生寫病歷的時(shí)間超過7小時(shí);還有部分專家配有專門記錄員記錄醫(yī)生主訴內(nèi)容,而后轉(zhuǎn)錄入電腦中,對(duì)于社區(qū)醫(yī)院,醫(yī)生信息化水平較弱,這種問題更為突出。這種錄入病歷方式的弊端在于輸入效率較低,錯(cuò)誤高;然而主流通過模板復(fù)制粘貼的方式,導(dǎo)致千篇一律的漏洞百出的病歷。這種錄入電子病歷的模式,使得個(gè)性化病歷錄入較少,病歷數(shù)據(jù)分析變得沒有價(jià)值。
隨著語音識(shí)別系統(tǒng)在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得較大發(fā)展,使得這項(xiàng)技術(shù)與其他領(lǐng)域相關(guān)技術(shù)進(jìn)行結(jié)合,可以提高錄入的效率。而語音識(shí)別技術(shù)正是解決電子病歷的信息采集和輸入問題的最好解決方式,從而有效提高醫(yī)生錄入效率和病歷質(zhì)量安全,實(shí)現(xiàn)個(gè)性化錄入。
語音識(shí)別采用模式識(shí)別,基本框架分為:數(shù)據(jù)準(zhǔn)備、特征提取、模型訓(xùn)練、測(cè)試應(yīng)用這4個(gè)步驟。
2.1 模型訓(xùn)練原理 首先,對(duì)輸入的語音進(jìn)行信號(hào)處理和特征提取,通過分析產(chǎn)生特征向量,建立聲學(xué)模型,然后對(duì)模型進(jìn)行不斷訓(xùn)練,再根據(jù)聲學(xué)特征值計(jì)算特征向量在聲學(xué)特征上的得分。根據(jù)語音建立語言文本庫模型,對(duì)計(jì)算出的聲音信號(hào)排列對(duì)于詞組序列,在根據(jù)已建立的語音字典庫對(duì)詞組進(jìn)行解碼處理,最后得出語言識(shí)別的結(jié)果。
2.2 語言模型 語言模型是用于反映字詞出現(xiàn)的先驗(yàn)概率和詞順序是否符合語言習(xí)慣和詞的語義信息的。例如“郝”和“好”,這兩個(gè)字發(fā)音相同,“好”相對(duì)于“郝”來說,出現(xiàn)的概率較高,但“郝”“好”相對(duì)于“好”來說一般出現(xiàn)在姓氏里較頻繁。
傳統(tǒng)語言模型N-gram的方法是一種基于概率的判別模型,它輸入的是語音序列,輸出的語音的概率。利用公式表示:
其中,S=( w1, w2,…,wn) ,表示那個(gè)輸入語音詞組,每個(gè)單詞wi,p(s)可以表示為第一個(gè)詞出現(xiàn)的概率p(w1)乘以第二個(gè)詞的概率p(w2│w1),以此類推一直到第n個(gè)詞。
語言模型:反映字詞出現(xiàn)的先驗(yàn)概率
挫——錯(cuò)
出心——初心
反映詞順序是否符合語音習(xí)慣
外出參觀——參觀外出
反映詞的語義信息
烏云-雷電-雨傘=下雨
為解決參數(shù)空間過大,數(shù)據(jù)稀疏等問題,我們對(duì)它進(jìn)行進(jìn)一步N-階馬爾科夫假設(shè),即一個(gè)詞的出現(xiàn)僅與它之前的若干個(gè)詞有關(guān)。上面表示先驗(yàn)概率中的每一項(xiàng)都可以做下列這樣一個(gè)近似。
RNNLM語言模型是基于循環(huán)神經(jīng)網(wǎng)絡(luò),其特點(diǎn)是將上一次的輸出作為本次的輸入,可以利用上一次信息來預(yù)測(cè)下一個(gè)詞,所以我們對(duì)公式中間的每一項(xiàng)都采用同一種深度學(xué)習(xí)模型,就可以表達(dá)成如下結(jié)構(gòu):
2.3 聲學(xué)模型建模 通過給定了相應(yīng)的文本序列之后,生成相應(yīng)的語音,這是語音識(shí)別技術(shù)中最核心的也是最復(fù)雜的部分。
為了減少同音詞的數(shù)據(jù)共享問題,首先我們會(huì)將文本序列轉(zhuǎn)化成它的發(fā)音序列,我們的語音具有不定長(zhǎng)的特性,我們說的快和說的慢的時(shí)候,語音幀的時(shí)長(zhǎng)是不一樣的,對(duì)于這種不定長(zhǎng)的語音建模,這個(gè)時(shí)候就需要引入HMM模型。
HMM模型每一個(gè)語音幀讓我們的每一個(gè)語音幀都對(duì)應(yīng)到HMM模型中的每一個(gè)狀態(tài),不論多長(zhǎng)的語音都能夠表達(dá)為HMM模型的一個(gè)狀態(tài)序列。
最后將HMM模型中的序列和語音中的每一幀進(jìn)行對(duì)應(yīng)。再利用概率將這個(gè)對(duì)應(yīng)關(guān)系表達(dá)即可。
需通過大量病歷、患者信息等文本的錄入,反復(fù)校驗(yàn)臨床醫(yī)生使用的智能語音識(shí)別系統(tǒng),從而達(dá)到通過語音查詢、調(diào)取患者病歷、影像等數(shù)據(jù),方便醫(yī)生使用,形成高效的智能語音識(shí)別的應(yīng)用系統(tǒng)。
3.1 系統(tǒng)功能 本系統(tǒng)采用B/S架構(gòu),語音應(yīng)用服務(wù)器和語音數(shù)據(jù)庫服務(wù)器之間通過光纖交換機(jī)與機(jī)房主存儲(chǔ)數(shù)據(jù)庫進(jìn)行交互,從而實(shí)現(xiàn)性能的高效穩(wěn)定。
系統(tǒng)前端集成在HIS系統(tǒng)的醫(yī)生工作站中,實(shí)時(shí)的將醫(yī)生說話內(nèi)容通過識(shí)別系統(tǒng)轉(zhuǎn)錄成文字信息,并直接錄入醫(yī)生工作站中的門診、住院病歷及檢查報(bào)告等文本輸入位置,并完成了文本插入后的修改、刪除和增加等功能模塊。
3.2 業(yè)務(wù)流程 本系統(tǒng)需在醫(yī)生工作站處安裝麥克風(fēng)硬件采集設(shè)備;將當(dāng)醫(yī)生進(jìn)行語音錄入時(shí),系統(tǒng)識(shí)別該段語音,首先發(fā)出語音識(shí)別請(qǐng)求,并進(jìn)行語音端點(diǎn)檢測(cè)、降噪及特征提取等前端處理后,發(fā)送到后端,通過建立的聲學(xué)模型和語音模型進(jìn)行解碼處理,最終識(shí)別出該語音,并輸入前端進(jìn)行文本輸出。
3.3 構(gòu)建語音資料包 先對(duì)海量樣本語音信號(hào)進(jìn)行采樣、去除混疊濾波和其它噪音影響,然后進(jìn)行語音識(shí)別基本單元的選取并提取信號(hào)特征參數(shù),進(jìn)行反復(fù)訓(xùn)練,構(gòu)建符合電子病歷的醫(yī)學(xué)語音資料庫,包括醫(yī)療語音模型的建立和語義理解規(guī)則的構(gòu)建兩個(gè)步驟。這是整個(gè)系統(tǒng)的核心部分。其中,醫(yī)療語音模型是基于HMM模型對(duì)語音資料庫進(jìn)行語音訓(xùn)練,從而形成符合醫(yī)生經(jīng)常錄入的信息語音模型;而語義理解規(guī)則是通過一定規(guī)則將海量通用文本數(shù)據(jù)與計(jì)算輸出的特征值相似度匹配,最終判斷出輸入語音的含義。
智能語音識(shí)別功能模塊在醫(yī)生端使用后,錄入的速度,除了醫(yī)生工作站文本框選取時(shí)間外,大大縮短了醫(yī)生的錄入時(shí)間,準(zhǔn)確率超過90%,改善了社區(qū)醫(yī)護(hù)人員使用電腦錄入效率及準(zhǔn)確率不高的現(xiàn)狀,并在推廣使用過程中,不斷優(yōu)化語音庫,進(jìn)一步提高識(shí)別效率。