任芳慧,郭熙銅,彭 昕,楊錦鋒,3
(1.哈爾濱工業(yè)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,黑龍江 哈爾濱 150001;2. 寧波市中醫(yī)藥研究院,浙江 寧波 315000;3.哈爾濱理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150080)
作為任務(wù)型對(duì)話系統(tǒng)(Task-oriented Dialogue System, TOD)的重要組成部分,口語(yǔ)理解(Spoken Language Understanding,SLU)負(fù)責(zé)接收用戶的語(yǔ)音或文本作為輸入,并解析出用戶的意圖。廣義的口語(yǔ)理解等同于自然語(yǔ)言理解,即不僅局限于口頭語(yǔ),還包括對(duì)書面語(yǔ)的理解。而狹義的口語(yǔ)理解則只針對(duì)日??陬^交談時(shí)所使用的語(yǔ)言(Spoken Language)??谡Z(yǔ)重在表意,主要關(guān)注音韻、語(yǔ)法、語(yǔ)義和語(yǔ)用。與之相對(duì)的,書面語(yǔ)對(duì)拼寫正確和可讀性有更高的要求。受限于環(huán)境和設(shè)備,以音頻形式存在的口語(yǔ)還可能摻雜環(huán)境噪聲。因此,相較于書面語(yǔ),口語(yǔ)往往有模糊性強(qiáng)、噪聲多、注重表意而輕邏輯等特點(diǎn),不可以簡(jiǎn)單地套用對(duì)書面語(yǔ)的理解來解決。
與此同時(shí),隨著移動(dòng)互聯(lián)網(wǎng)的普及,在線醫(yī)療咨詢蓬勃發(fā)展。它不僅具有成本低、更加便捷的特點(diǎn),還可以有效解決醫(yī)療資源不均衡的問題。目前在線醫(yī)療的開展方式大多為醫(yī)患對(duì)話,即患者向醫(yī)生描述自己的癥狀,醫(yī)生進(jìn)行問診和解答。毫無疑問,口語(yǔ)理解的引入可以提高這一過程的效率。此外,隨著智慧醫(yī)療的不斷推廣,借助人工智能技術(shù)的智能導(dǎo)診、預(yù)檢分診等場(chǎng)景同樣需要對(duì)患者的口語(yǔ)進(jìn)行理解,從而識(shí)別出患者的意圖和癥狀。因此,醫(yī)療領(lǐng)域的口語(yǔ)理解具備較大的發(fā)展?jié)摿Α?/p>
目前領(lǐng)域內(nèi)對(duì)醫(yī)療口語(yǔ)理解的綜述研究還很少,大多并未對(duì)口語(yǔ)和書面語(yǔ)加以區(qū)分,且所述技術(shù)稍有滯后。故本文對(duì)醫(yī)療口語(yǔ)理解進(jìn)行了較為全面的綜述,比對(duì)了其與通用領(lǐng)域口語(yǔ)理解的區(qū)別,并重點(diǎn)闡述如何在大模型的背景下開展相關(guān)研究,以期對(duì)智慧醫(yī)療領(lǐng)域做出貢獻(xiàn)。
本文的組織結(jié)構(gòu)如下: 引言部分介紹醫(yī)療口語(yǔ)理解的研究背景和重要意義;第1節(jié)對(duì)通用領(lǐng)域的口語(yǔ)理解問題進(jìn)行闡述,并介紹常用數(shù)據(jù)集、評(píng)價(jià)指標(biāo)和模型;第2節(jié)對(duì)醫(yī)療領(lǐng)域口語(yǔ)理解進(jìn)行介紹,重點(diǎn)說明其與一般口語(yǔ)理解問題的區(qū)別,以及研究的難點(diǎn)所在;第3節(jié)則重點(diǎn)探討醫(yī)療口語(yǔ)理解的研究現(xiàn)狀及存在的不足之處;第4節(jié)討論未來研究方向,特別是如何利用大模型的能力助推醫(yī)療口語(yǔ)理解研究;最后第5節(jié)進(jìn)行總結(jié)與展望。
一般被認(rèn)為,任務(wù)型對(duì)話系統(tǒng)包含口語(yǔ)理解、對(duì)話管理(Dialogue Management)和自然語(yǔ)言生成(Natural Language Generation)三大模塊。如圖1所示,任務(wù)型對(duì)話系統(tǒng)的對(duì)話過程如下: 經(jīng)過口語(yǔ)理解模塊,用戶的語(yǔ)言會(huì)被轉(zhuǎn)換為對(duì)話行為四元組,即“領(lǐng)域-意圖-槽位-槽值”(Domain-Intent-Slot-Value)的形式。對(duì)話管理模塊將對(duì)話行為解析為對(duì)話狀態(tài),并通過對(duì)話策略的制定,得到系統(tǒng)行為(System Act)。自然語(yǔ)言生成模塊則將其轉(zhuǎn)化為自然語(yǔ)言進(jìn)行輸出。毫無疑問,作為整個(gè)TOD的開端,口語(yǔ)理解任務(wù)的性能影響著TOD的整體性能。
圖1 任務(wù)型對(duì)話系統(tǒng)流程圖
為了預(yù)測(cè)“Domain-Intent-Slot-Value”四元組,口語(yǔ)理解任務(wù)可以被分解為領(lǐng)域分類(Domain Classification,DC)、意圖識(shí)別(Intent Detection,ID)和槽位填充(Slot Filling,SF)三個(gè)子任務(wù)。
(1) 領(lǐng)域分類: TOD往往面向某個(gè)或某些特定的領(lǐng)域而設(shè)計(jì)。對(duì)于多領(lǐng)域問題,若將口語(yǔ)音頻或口語(yǔ)文本經(jīng)過編碼后形成的序列記作S=(e1,e2,…,en),領(lǐng)域分類任務(wù)旨在預(yù)測(cè)出序列S所涉及的領(lǐng)域,故形式化定義如式(1)所示。
Domain=Classification(S)
(1)
(2) 意圖識(shí)別: 由于一句話中可能包含多個(gè)意圖,意圖識(shí)別任務(wù)通常采用多個(gè)二分類器或多標(biāo)簽分類實(shí)現(xiàn),故形式化定義如式(2)、式(3)所示。
(3) 槽位填充: 槽位(Slot)通常有告知型(Inform)和問詢型(Request)之分。對(duì)于告知型槽位,其槽值往往來自于對(duì)話內(nèi)容,可以通過預(yù)測(cè)序列的BIO標(biāo)注來定位槽位和槽值,如圖2所示。與之相反,問詢型槽位表示用戶向?qū)υ捪到y(tǒng)尋求信息(如某餐廳的電話號(hào)碼),因而無法從用戶輸入中提取信息,對(duì)應(yīng)槽值通常為空。
對(duì)Inform型槽位的預(yù)測(cè)可通過序列標(biāo)注任務(wù)實(shí)現(xiàn)。給定輸入序列,槽位填充任務(wù)返回標(biāo)簽序列L=(l1,l2,…,ln)。
L=Sequence-label(S)
(4)
對(duì)Request型槽位的預(yù)測(cè)則可以轉(zhuǎn)換為分類任務(wù)實(shí)現(xiàn)。
Slot=Classification(S)
(5)
口語(yǔ)理解領(lǐng)域較為常用的數(shù)據(jù)集有ATIS[1]、SNIPS[2]、FSC[3]、SLURP[4]以及中文數(shù)據(jù)集CATSLU[5]。此外,對(duì)話狀態(tài)跟蹤任務(wù)中的經(jīng)典數(shù)據(jù)集DSTC2[6]、DSTC10[7]也是基于口語(yǔ)而非書面語(yǔ)構(gòu)造的。
然而,與書面語(yǔ)數(shù)據(jù)集MultiWOZ[8]、CrossWOZ[9]、DSTC8[10]、NLU++[11]等相比,上述數(shù)據(jù)集在數(shù)量和質(zhì)量上都相差甚遠(yuǎn),如表1、表2 所示。不過,近期有些工作充分調(diào)研了口語(yǔ)對(duì)話的特點(diǎn),并制作了較大規(guī)模的數(shù)據(jù)集[12],感興趣的讀者可以查閱相關(guān)文獻(xiàn)。
表1 對(duì)話數(shù)據(jù)集對(duì)比
表2 口語(yǔ)理解數(shù)據(jù)集對(duì)比
在評(píng)價(jià)指標(biāo)上,針對(duì)“Domain-Intent-Slot-Value”四元組的預(yù)測(cè),口語(yǔ)理解任務(wù)重點(diǎn)關(guān)注意圖準(zhǔn)確率(Intent Accuracy)和整體準(zhǔn)確率(Overall Accuracy)。前者僅關(guān)心意圖的預(yù)測(cè)是否正確,而后者則需要將領(lǐng)域、意圖、槽位和槽值全部預(yù)測(cè)正確。此外,F1值也常被用于評(píng)估模型性能。
根據(jù)Bastianelli等的觀點(diǎn)[4],上述評(píng)估方法存在如下弊端: 當(dāng)語(yǔ)音辨識(shí)出現(xiàn)錯(cuò)誤時(shí),所預(yù)測(cè)的槽值會(huì)與真實(shí)標(biāo)簽不同。面對(duì)這種情況,“一刀切”地將其記為預(yù)測(cè)錯(cuò)誤顯然是不合理的。因此,改進(jìn)評(píng)估準(zhǔn)則SLU-F1被提出: 它不會(huì)過度懲罰由自動(dòng)語(yǔ)音識(shí)別所引起的不對(duì)齊,并可以同時(shí)捕獲語(yǔ)音轉(zhuǎn)換的質(zhì)量和實(shí)體標(biāo)注的質(zhì)量。
此外,現(xiàn)有評(píng)價(jià)指標(biāo)未能考慮到同義詞帶來的誤判,因而在使用大模型實(shí)現(xiàn)口語(yǔ)理解任務(wù)時(shí),需要對(duì)標(biāo)簽進(jìn)行調(diào)整,從而減少第一類錯(cuò)誤的發(fā)生。
本節(jié)將口語(yǔ)理解模型分為三大類,分別是流水線式(Pipeline)、端到端式(E2E)和生成式大模型(Generative LLM),如圖3和表3所示。
表3 口語(yǔ)理解代表性工作的分類梳理
圖3 模型分類
(1)流水線式: 模型接收語(yǔ)音作為輸入,通過自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)模塊將其轉(zhuǎn)化為文字,并借助對(duì)書面語(yǔ)的理解預(yù)測(cè)出“領(lǐng)域-意圖-槽位-槽值”四元組。
不過,由于語(yǔ)音信號(hào)的高維可變性,在缺乏大量訓(xùn)練數(shù)據(jù)的情況下,完成自動(dòng)語(yǔ)音識(shí)別中的“波形→音素→語(yǔ)素→單詞→概念→意義”的過程是極為困難的[3]。盡管低資源語(yǔ)音識(shí)別領(lǐng)域涌現(xiàn)出了許多優(yōu)秀的工作[13-14],但這一局限性還是影響了流水線式口語(yǔ)理解的發(fā)展。
此外,盡管流水線式架構(gòu)具備更強(qiáng)的可解釋性,但它依然存在三個(gè)主要問題: ①語(yǔ)音信號(hào)的特性給ASR模塊帶來了不小的挑戰(zhàn),而這一階段的錯(cuò)誤會(huì)造成口語(yǔ)理解整體性能的降低。②由于語(yǔ)音識(shí)別和文本理解分開訓(xùn)練時(shí)的損失函數(shù)不同,單一模塊的性能提高并不意味著系統(tǒng)整體性能提高。③誤差會(huì)在不同模塊間傳遞和累積,從而影響系統(tǒng)整體精度。為了解決這些問題,端到端架構(gòu)應(yīng)運(yùn)而生。
(2)端到端式: 模型從聲音信號(hào)中直接預(yù)測(cè)領(lǐng)域、意圖和槽位槽值,無需顯式生成文本。根據(jù)Lugosch等的研究,端到端范式具有如下優(yōu)點(diǎn): ①可以直接優(yōu)化最終的評(píng)價(jià)目標(biāo),如意圖識(shí)別準(zhǔn)確性;②無需顯式生成文本,從而避免中間步驟出錯(cuò);③某些與意圖識(shí)別相關(guān)的特征(如韻律)僅存在于語(yǔ)音中,端到端范式有助于充分利用這些特征[3]。
Serdyuk等首次探索從音頻特征直接訓(xùn)練口語(yǔ)理解模型的可能性[25]。隨后,預(yù)訓(xùn)練范式逐漸被引入端到端口語(yǔ)理解。根據(jù)Seo等的研究[21],基于預(yù)訓(xùn)練的端到端模型可以分成知識(shí)蒸餾、跨模態(tài)共享編碼、帶接口的網(wǎng)絡(luò)集成三大類。隨著GPT等生成式語(yǔ)言模型的興起,口語(yǔ)理解領(lǐng)域有了新的研究范式,即依托生成式大模型實(shí)現(xiàn)意圖識(shí)別、槽位填充等任務(wù)。
(3)生成式大模型: 區(qū)別于普通的端到端架構(gòu),口語(yǔ)理解任務(wù)可以采用生成式大模型的范式加以解決。類似于文本領(lǐng)域的GPT基礎(chǔ)模型[26],語(yǔ)音領(lǐng)域也有自己的生成式大模型GSLM[27]和pGSLM[28]。結(jié)合文本領(lǐng)域的提示微調(diào)(Prompt Tuning)方法,Chang等對(duì)生成式語(yǔ)音模型做了進(jìn)一步擴(kuò)展,提出了SpeechPrompt[22]和SpeechPrompt v2[23],在意圖識(shí)別、口音檢測(cè)等分類任務(wù)和槽位填充、自動(dòng)語(yǔ)音識(shí)別等序列生成任務(wù)上均取得了不錯(cuò)的表現(xiàn)。
除了基于無文本的生成式語(yǔ)音模型外,還可以利用文本領(lǐng)域的生成式語(yǔ)言模型來完成口語(yǔ)理解。例如,Gao等提出了一個(gè)框架WAVPROMPT,通過將語(yǔ)音轉(zhuǎn)換為語(yǔ)言模型可以理解的形式,并設(shè)置相應(yīng)提示,利用開源生成式大語(yǔ)言模型GPT-2的少樣本學(xué)習(xí)能力(Few-shot Learning)來完成口語(yǔ)理解任務(wù)[24]。
前文介紹了通用領(lǐng)域任務(wù)型對(duì)話系統(tǒng)及其口語(yǔ)理解任務(wù),第2節(jié)則重點(diǎn)闡述醫(yī)療領(lǐng)域?qū)υ捪到y(tǒng)研究的難點(diǎn),并進(jìn)一步解釋醫(yī)療SLU所面臨的挑戰(zhàn)。與通用領(lǐng)域?qū)υ捪到y(tǒng)相比,醫(yī)療健康領(lǐng)域?qū)υ捪到y(tǒng)的研究仍處于萌芽期[29]。醫(yī)療TOD具備如下難點(diǎn):
(1) 從數(shù)據(jù)集角度,通用領(lǐng)域數(shù)據(jù)集一般采用眾包方式人工構(gòu)建,而醫(yī)療數(shù)據(jù)集則大多來源于網(wǎng)站數(shù)據(jù)的爬取。具體地,通用領(lǐng)域數(shù)據(jù)集大多基于人-人對(duì)話(Human-to-Human, H2H)或人-機(jī)對(duì)話(Human-to-Machine, H2M)的方式構(gòu)建。然而,受限于醫(yī)療領(lǐng)域的專業(yè)性,人工構(gòu)建大規(guī)模數(shù)據(jù)集的方法實(shí)現(xiàn)難度較大。故現(xiàn)有工作大多來自在線醫(yī)療平臺(tái)的醫(yī)患對(duì)話數(shù)據(jù),或醫(yī)療短視頻數(shù)據(jù),抑或是設(shè)計(jì)模板讓模型生成數(shù)據(jù),如表4所示。例如,中文醫(yī)療數(shù)據(jù)集MedDG來源于春雨醫(yī)生[31];Zeng等則爬取了國(guó)外醫(yī)療網(wǎng)站iclinic.com和healthcaremagic.com上的數(shù)據(jù),構(gòu)建了MedDialog-EN數(shù)據(jù)集[32]。然而,Shim等指出,使用這些爬取的數(shù)據(jù)存在較大的隱私安全問題,特別是具有《通用數(shù)據(jù)保護(hù)條例》的歐盟地區(qū)[29]。
表4 醫(yī)療對(duì)話數(shù)據(jù)集對(duì)比
(2) 從對(duì)話決策角度,與通用場(chǎng)景(如選擇航班、篩選符合條件的餐館)不同,醫(yī)療決策過程更為復(fù)雜,往往需要更多的專業(yè)知識(shí)和額外信息。醫(yī)療TOD的模式(Schema)具備更多本體和屬性,且本體-本體之間、本體-屬性之間、屬性-屬性之間相關(guān)性極強(qiáng)[36-37]。因此,為了解用戶狀態(tài),醫(yī)生需要結(jié)合自身專業(yè)知識(shí),對(duì)用戶進(jìn)行有針對(duì)性的追問,以獲得更多輔助決策的關(guān)鍵信息,然后給出合適的建議。這一過程不僅涉及對(duì)話行為的決策,還涉及專業(yè)知識(shí)的推理,簡(jiǎn)單的知識(shí)查詢或者基于對(duì)話歷史的生成方法難以形成有效決策。
(3) 從對(duì)話評(píng)估角度,醫(yī)療對(duì)話系統(tǒng)的評(píng)估更為復(fù)雜,且需要具備較高的專業(yè)知識(shí)。例如,為判斷醫(yī)療對(duì)話系統(tǒng)的生成是否正確,醫(yī)學(xué)專家的引入是必備的。與此同時(shí),患者滿意度對(duì)醫(yī)療對(duì)話系統(tǒng)的應(yīng)用至關(guān)重要,故需要加入患者視角的評(píng)估。詳細(xì)內(nèi)容請(qǐng)參考文獻(xiàn)[29]。
作為醫(yī)療對(duì)話系統(tǒng)的第一步,醫(yī)療SLU同樣具備自己的特點(diǎn),從而使得槽位填充和意圖識(shí)別這兩個(gè)子任務(wù)面臨著不小的挑戰(zhàn)。
(1)槽位填充任務(wù): 患者大多不了解醫(yī)學(xué)知識(shí)和術(shù)語(yǔ),在給醫(yī)生描述自己的癥狀時(shí),往往會(huì)出現(xiàn)不準(zhǔn)確且關(guān)鍵詞分散的特點(diǎn)。Shi等指出,患者總是以無序的語(yǔ)言描述自己的癥狀(如“腹痛”拆成“肚子”和“痛”),同時(shí)不可避免地具有方言和個(gè)人表達(dá)習(xí)慣的差異[38]。這些特點(diǎn)給槽位填充任務(wù)造成了困難。
(2)意圖識(shí)別任務(wù): 由于領(lǐng)域內(nèi)缺乏像ATIS[1]、MultiWOZ[8]等具備極高影響力的數(shù)據(jù)集,醫(yī)療口語(yǔ)理解數(shù)據(jù)集的標(biāo)注范式(Schema)差異較大。例如,醫(yī)療搜索檢索詞意圖分類數(shù)據(jù)集(KUAKE-QIC)將醫(yī)學(xué)問題分為病情診斷、病因分析、治療方案、醫(yī)療費(fèi)用等11種類型[39]。而IMCS-V2[36,40-43]則遵循Inform和Request經(jīng)典分類,將醫(yī)療文本的意圖分為告知-癥狀、提問-已有檢查和治療、提問-病因、告知-就醫(yī)建議等16類??梢钥吹?不同標(biāo)注規(guī)范下的數(shù)據(jù)集難以合并。同樣,依托于某一數(shù)據(jù)集構(gòu)建的算法可能對(duì)其他數(shù)據(jù)集不適用,這降低了意圖識(shí)別模型的泛化性。
盡管醫(yī)療SLU研究存在眾多難點(diǎn)和挑戰(zhàn),但學(xué)者們?nèi)匀〉昧艘欢ǖ某晒R虼?本節(jié)將從數(shù)據(jù)集構(gòu)建、算法設(shè)計(jì)和應(yīng)用三個(gè)維度,對(duì)已經(jīng)取得的成果進(jìn)行介紹,并說明現(xiàn)有研究存在的不足之處,以期讀者快速了解這一領(lǐng)域的研究動(dòng)態(tài)。
如前所述,盡管醫(yī)療領(lǐng)域數(shù)據(jù)集構(gòu)建不易,醫(yī)療口語(yǔ)理解領(lǐng)域近些年來也出現(xiàn)了許多優(yōu)秀的數(shù)據(jù)集,如表5所示。根據(jù)SLU的任務(wù)劃分,本文將醫(yī)療口語(yǔ)理解數(shù)據(jù)集分為以下三類: ①僅面向意圖識(shí)別;②僅面向槽位填充(即醫(yī)療命名實(shí)體的識(shí)別);③面向SLU。
表5 醫(yī)療口語(yǔ)理解數(shù)據(jù)集
(1)僅面向意圖識(shí)別: 除了上一小節(jié)提到的KUAKE-QIC[39]外,Chen等構(gòu)建了中文醫(yī)療意圖識(shí)別數(shù)據(jù)集CMID[44]。該數(shù)據(jù)集收集自20個(gè)專業(yè)在線醫(yī)療問答網(wǎng)站,通過眾包方式標(biāo)注意圖,共有12 000個(gè)問題。該數(shù)據(jù)集涵蓋兩類意圖標(biāo)注,分別是4種類型(如病癥、藥物)和36種亞型(如治療方法、副作用)。盡管該數(shù)據(jù)集也對(duì)命名實(shí)體進(jìn)行了標(biāo)注,但因其主要用于意圖識(shí)別,且命名實(shí)體標(biāo)注的目的是輔助意圖識(shí)別,故本文將其劃分至意圖識(shí)別類。
(2)僅面向槽位填充: 這一類別的數(shù)據(jù)集大多對(duì)應(yīng)命名實(shí)體識(shí)別任務(wù)。例如,CMeEE-V2數(shù)據(jù)集標(biāo)注了疾病、臨床表現(xiàn)、醫(yī)療設(shè)備、醫(yī)療程序等9大類實(shí)體,其訓(xùn)練集包含15 000條數(shù)據(jù)[45];CMeIE-V2數(shù)據(jù)集則利用諸如疾病-藥物治療-藥物這樣的層級(jí)關(guān)系進(jìn)行標(biāo)注[48];Varshney等構(gòu)建了一個(gè)多輪次新冠肺炎對(duì)話數(shù)據(jù)集,對(duì)疾病、癥狀、醫(yī)療歷史、藥物、療法等7大類實(shí)體進(jìn)行標(biāo)注,共有1 012個(gè)對(duì)話[46]。
(3)面向SLU: 這一類型的典型數(shù)據(jù)集是IMCS-V2[36,40-43]。該數(shù)據(jù)集不僅標(biāo)注了命名實(shí)體、對(duì)話意圖等與SLU有關(guān)的信息,還包括癥狀標(biāo)簽、醫(yī)療報(bào)告等其他信息,共包含4 116個(gè)對(duì)話,164 731條句子。
總體上看,現(xiàn)有的醫(yī)療口語(yǔ)理解數(shù)據(jù)集存在如下幾點(diǎn)不足: ①大部分?jǐn)?shù)據(jù)集都是從在線醫(yī)療平臺(tái)(如春雨醫(yī)生、丁香園等)上爬取得到的,可能存在隱私問題。②現(xiàn)有醫(yī)療口語(yǔ)理解數(shù)據(jù)集大多為書面語(yǔ)而非口語(yǔ),且缺乏音頻。例如,權(quán)威榜單CBLUE(中文醫(yī)療信息處理評(píng)測(cè)基準(zhǔn))中,與醫(yī)療口語(yǔ)理解相關(guān)的數(shù)據(jù)集(如意圖識(shí)別、實(shí)體識(shí)別、信息抽取等)幾乎都是書面語(yǔ)文本,且不存在音頻形式的醫(yī)療口語(yǔ)數(shù)據(jù)集[39]。③現(xiàn)有數(shù)據(jù)集覆蓋的病種有限,部分病種缺乏數(shù)據(jù),且標(biāo)簽分布不平衡。例如,標(biāo)注最為完善的數(shù)據(jù)集IMCS-V2[36,40-43]僅覆蓋了10種兒科疾病;④目前業(yè)內(nèi)缺乏統(tǒng)一標(biāo)注范式,不同數(shù)據(jù)集的標(biāo)注方法不同、側(cè)重點(diǎn)差異明顯,這給數(shù)據(jù)集的整合帶來困難。
基于以上幾點(diǎn)不足,大規(guī)模有標(biāo)注的醫(yī)療口語(yǔ)數(shù)據(jù)集難以獲取,這極大地限制了醫(yī)療SLU的發(fā)展。
由第2節(jié)可知,醫(yī)療SLU存在眾多難點(diǎn)。近些年來,不少學(xué)者針對(duì)醫(yī)療SLU的特點(diǎn),設(shè)計(jì)出優(yōu)秀的算法,取得了不錯(cuò)的效果。例如,Lin等采用圖來模擬癥狀之間的共現(xiàn)關(guān)系,提高了癥狀推斷的精度[36];Shi等將槽值對(duì)視為預(yù)定義的類別,從而把槽位填充任務(wù)轉(zhuǎn)化為多標(biāo)簽分類問題,并創(chuàng)新性地針對(duì)癥狀描述較為分散的特點(diǎn)設(shè)置了標(biāo)簽嵌入注意力模型,針對(duì)缺乏高質(zhì)量有標(biāo)注數(shù)據(jù)的特點(diǎn)設(shè)置了特殊的弱監(jiān)督機(jī)制[38];Lin等則提出了圖進(jìn)化元學(xué)習(xí)(Graph-Evolving Meta-Learning,GEML)框架,通過在新的疾病-癥狀相關(guān)性推理中學(xué)習(xí)進(jìn)化知識(shí)圖譜,來動(dòng)態(tài)調(diào)整疾病和癥狀的關(guān)系[37]。
分析現(xiàn)有研究,還存在以下問題: ①現(xiàn)有方法顯然無法覆蓋醫(yī)療口語(yǔ)理解的全部任務(wù)。例如,現(xiàn)有研究大多針對(duì)文本模態(tài),缺乏對(duì)口語(yǔ)音頻的研究,可以結(jié)合多模態(tài)技術(shù)加以改善;②主流方法仍存在一定的提升空間,可以考慮利用大模型相關(guān)的最新技術(shù),如思維鏈、基于人類反饋的強(qiáng)化學(xué)習(xí)、高效參數(shù)微調(diào)等方法,提升現(xiàn)有方法的性能。
醫(yī)療口語(yǔ)理解應(yīng)用廣泛。在就診前,SLU系統(tǒng)可以預(yù)測(cè)患者的癥狀,從而實(shí)現(xiàn)智能導(dǎo)診和預(yù)檢分診。例如,Macherla等面向端到端對(duì)話診療系統(tǒng),構(gòu)建了首個(gè)相關(guān)的英文數(shù)據(jù)集MDDial,并綜合考慮癥狀和疾病預(yù)測(cè)之間的關(guān)系,改進(jìn)現(xiàn)有評(píng)估方法,從而提升系統(tǒng)的可靠性[35]。
在診斷過程中,SLU系統(tǒng)同樣可以輔助醫(yī)生診療,提升診斷效率。例如,Kocabiyikoglu等將口語(yǔ)理解模塊引入處方管理系統(tǒng),使得醫(yī)生可以在移動(dòng)設(shè)備上口頭記錄他們的處方[47,49];Zhang等設(shè)計(jì)了醫(yī)學(xué)信息提取器MIE,可應(yīng)用于電子病歷的書寫,減輕醫(yī)生的負(fù)擔(dān)[50]。
在診斷完成后,SLU系統(tǒng)可以用于患者的自我管理。例如,為便于患者理解醫(yī)生開具的出院材料,Cai等構(gòu)建了PaniniQA交互式問答系統(tǒng),以幫助患者更好地恢復(fù)健康、實(shí)現(xiàn)自我管理[51];Narynov等則設(shè)計(jì)了心理學(xué)聊天機(jī)器人,幫助人們釋放壓力,保持心理健康[52]。
隨著信息化的不斷進(jìn)行,特別是諸如ChatGPT等生成式大模型給產(chǎn)業(yè)帶來的變革,在未來,醫(yī)療口語(yǔ)理解勢(shì)必會(huì)有更多的落地之處。
基于上述分析,加之ChatGPT等生成式大模型給自然語(yǔ)言處理領(lǐng)域帶來的巨大技術(shù)革新,本文認(rèn)為,未來的醫(yī)療口語(yǔ)理解研究需要同生成式大模型緊密結(jié)合,將其蘊(yùn)含的豐富知識(shí)和生成能力應(yīng)用于醫(yī)療場(chǎng)景,并借鑒其先進(jìn)技術(shù)助推相關(guān)研究。
由于ChatGPT等生成式大語(yǔ)言模型表現(xiàn)出的強(qiáng)大性能,以及指令微調(diào)技術(shù)的成熟,醫(yī)療大語(yǔ)言模型被不斷提出。例如,谷歌的Med-PaLM[53],哈工大的本草[54],仲景醫(yī)療大模型[55]等。在醫(yī)療大語(yǔ)言模型取得優(yōu)異成果的同時(shí),人們不禁思考,諸如醫(yī)療口語(yǔ)理解等傳統(tǒng)對(duì)話系統(tǒng)的模塊是否有必要存在?
針對(duì)這一問題,本文的觀點(diǎn)是,就目前大模型的技術(shù)水平來看,傳統(tǒng)醫(yī)療口語(yǔ)理解仍然是無法取代的。原因如下:
(1)大模型難以處理復(fù)雜的醫(yī)學(xué)關(guān)系醫(yī)學(xué)專業(yè)知識(shí)過于復(fù)雜,疾病與疾病、癥狀與癥狀、診療與癥狀之間存在相關(guān)和因果關(guān)系。例如,李子昊等專門構(gòu)建了醫(yī)學(xué)因果關(guān)系抽取數(shù)據(jù)集CMedCausal,對(duì)醫(yī)學(xué)概念間的因果、條件和上下位關(guān)系進(jìn)行刻畫[56]。毫無疑問,依賴概率原理的生成式大模型在處理這些復(fù)雜的邏輯推理問題時(shí)會(huì)遇到不小的挑戰(zhàn)。盡管編程鏈和思維鏈能夠在一定程度上提高推理能力,但短時(shí)間內(nèi)大模型處理這類問題的精度仍有待加強(qiáng)。
(2)大模型傾向于直接給出診斷建議醫(yī)療診斷對(duì)嚴(yán)謹(jǐn)性有極高的要求,因而醫(yī)生會(huì)主動(dòng)詢問患者癥狀,通過一系列檢查佐證后才能判斷患者所患病癥,并給出治療方案。然而,大模型則更傾向于直接給出診斷建議,很少主動(dòng)詢問患者情況[55,57]。
(3)大模型在可控生成方面仍受到質(zhì)疑大模型最為人詬病的是較差的可控生成能力,以及容易產(chǎn)生“幻覺”。根據(jù)Pan等的評(píng)測(cè),大模型會(huì)生成未定義的槽值和錯(cuò)誤的格式,且更傾向于生成詳細(xì)文本,而非SLU需要的四元組形式[58]。
盡管醫(yī)療LLM暫時(shí)無法全面取代醫(yī)療口語(yǔ)理解研究,但其可以被視為一個(gè)有效的輔助工具,通過龐大的知識(shí)存儲(chǔ)和生成能力,不斷提升醫(yī)療SLU的性能。在此背景下,本文給出了幾個(gè)醫(yī)療口語(yǔ)理解未來可能的研究方向。
(1)數(shù)據(jù)集層面: ①大模型強(qiáng)大的生成能力降低了構(gòu)建醫(yī)療數(shù)據(jù)集的難度。例如,Wang等基于醫(yī)學(xué)知識(shí)圖譜CMeKG,利用ChatGPT接口構(gòu)建了8 000余條指令數(shù)據(jù)[54]。②大模型同樣可以用于標(biāo)注數(shù)據(jù),減少眾包收集的成本。例如,He等根據(jù)“先解釋后注釋”的思想,提出Annollm標(biāo)注系統(tǒng),并成功證實(shí)其有效性[59]。此外,也可以借鑒MetaAI新提出的“指令回譯”思想,進(jìn)行數(shù)據(jù)的自我增強(qiáng),生成指令數(shù)據(jù)集,并通過反復(fù)迭代,對(duì)數(shù)據(jù)進(jìn)行自我管理,從而獲得高質(zhì)量指令數(shù)據(jù)集[60]。③對(duì)于口語(yǔ)音頻數(shù)據(jù)集缺失的問題,可以利用大模型生成口語(yǔ)化、方言化的文本,并利用語(yǔ)音合成技術(shù),得到對(duì)應(yīng)的音頻。
(2)算法層面: ①發(fā)掘更多的醫(yī)療口語(yǔ)特點(diǎn),并針對(duì)性地設(shè)計(jì)算法。近期,口語(yǔ)數(shù)據(jù)的特點(diǎn)開始被學(xué)界關(guān)注。例如,Si等效仿MultiWOZ數(shù)據(jù)集,結(jié)合口語(yǔ)特點(diǎn),構(gòu)建了一個(gè)大規(guī)模口語(yǔ)數(shù)據(jù)集SpokenWOZ[12]。該數(shù)據(jù)集在數(shù)量和質(zhì)量上遠(yuǎn)超此前的研究,為口語(yǔ)理解模型的訓(xùn)練打下了良好的基礎(chǔ)。②生成式語(yǔ)音模型的研究方興未艾。相較于文本領(lǐng)域的大模型,生成式語(yǔ)音模型的發(fā)展尚處于起步階段,亟需將文本領(lǐng)域的先進(jìn)經(jīng)驗(yàn)(如有監(jiān)督訓(xùn)練、RLHF等)引入。③探索如何讓大語(yǔ)言模型具備理解口語(yǔ)音頻的能力,進(jìn)而充分利用其性能解決口語(yǔ)理解問題。例如,Wadhwa等將思維鏈技術(shù)引入,使得Flan-T5在關(guān)系抽取任務(wù)上取得了SOTA性能[61]。④大語(yǔ)言模型可以有效解決模型評(píng)估的問題。根據(jù)Chan等的研究,讓大模型扮演不同角色,互相“辯論”,能夠取得更好的評(píng)估效果,縮小其與人類評(píng)估之間的差距[62]??梢詫⑦@一思想用于醫(yī)療SLU領(lǐng)域,如用大模型扮演醫(yī)生和患者的角色,從而得到既符合醫(yī)學(xué)規(guī)范,又滿足患者訴求的意圖。
(3)應(yīng)用層面: 生成式大模型的研究處于蓬勃發(fā)展階段,借助這股東風(fēng),用新技術(shù)解決老問題,探尋更多可能的醫(yī)療應(yīng)用場(chǎng)景,開展更廣泛的醫(yī)療SLU應(yīng)用研究。例如,通過構(gòu)建醫(yī)療AI agent,利用大模型調(diào)用知識(shí)向量數(shù)據(jù)庫(kù)、外部工具和API接口,長(zhǎng)期跟蹤患者,作為專屬醫(yī)療管家,在預(yù)防、診前、診中、診后的全流程中給予患者幫助。
本文對(duì)口語(yǔ)理解進(jìn)行了較為全面的綜述,調(diào)研了常用數(shù)據(jù)集和評(píng)價(jià)指標(biāo),并對(duì)模型方法做了極為細(xì)致的總結(jié),分為流水線、端到端和生成式大模型三大類別對(duì)模型進(jìn)行概括。同時(shí),本文又聚焦于醫(yī)療領(lǐng)域的口語(yǔ)理解,從醫(yī)療口語(yǔ)理解數(shù)據(jù)集的開發(fā)、醫(yī)療口語(yǔ)理解的算法改進(jìn)以及實(shí)際應(yīng)用3個(gè)維度,對(duì)相關(guān)文獻(xiàn)進(jìn)行梳理。最后,針對(duì)于現(xiàn)有工作的不足,本文給出未來可能的研究方向。
在過去,Louvan和Magnini[63]、Qin等[64]和Weld等[65]都對(duì)口語(yǔ)理解領(lǐng)域做了較為系統(tǒng)的綜述。與這些工作相比,本文具有如下優(yōu)勢(shì): ①調(diào)研的主題更為明確,針對(duì)與書面語(yǔ)區(qū)分的口語(yǔ)進(jìn)行研究,而并非廣義的自然語(yǔ)言理解。②涵蓋的范圍更廣,除了包含聯(lián)合模型,還包括端到端模型等其他范式。③追蹤領(lǐng)域動(dòng)態(tài)介紹最新成果,如生成式大模型。④重點(diǎn)關(guān)注醫(yī)療領(lǐng)域,對(duì)該領(lǐng)域做了詳細(xì)的調(diào)研。
此外,Valizadeh和Parde[66]也對(duì)醫(yī)療領(lǐng)域的對(duì)話系統(tǒng)研究做了綜述。與其相比,本文具有如下優(yōu)勢(shì): ①專注于口語(yǔ)理解任務(wù),進(jìn)行了全面的調(diào)研,更為聚焦;②納入的技術(shù)更為前沿,包含了諸如深度學(xué)習(xí)、生成式大模型等內(nèi)容。③結(jié)合當(dāng)下NLP技術(shù)飛速發(fā)展的背景,從數(shù)據(jù)集、算法和應(yīng)用層面進(jìn)行展望,給出醫(yī)療口語(yǔ)理解未來可能的研究方向。