冷 冰
(安徽醫(yī)科大學(xué),安徽 合肥 230601)
近二十年來,語料庫相關(guān)研究發(fā)展迅速,已成為語言學(xué)界重要的科研方向之一。許家金指出當(dāng)今語言研究中,語料庫相關(guān)的研究與應(yīng)用已引起了學(xué)界的廣泛關(guān)注[1]。醫(yī)藥相關(guān)語料庫指以醫(yī)藥相關(guān)話題為主題的語料信息集合,是專門化語料庫的重要分支之一。2022年,教育部高等教育司繼續(xù)提出高質(zhì)量高等教育體系建設(shè),深化“四新”建設(shè),積極探索醫(yī)文融合的健康學(xué)科體系,啟動學(xué)科交叉的創(chuàng)新性研究。醫(yī)藥相關(guān)語料庫建設(shè)作為重要一環(huán),可為醫(yī)藥相關(guān)研究的縱深發(fā)展提供新的數(shù)據(jù)發(fā)現(xiàn)點(diǎn)。然而,目前針對醫(yī)藥相關(guān)語料庫建設(shè)的研究分散在不同領(lǐng)域,采用的語料類型、標(biāo)注方法,乃至以后的發(fā)展趨勢也尚不明確。
鑒于此,本文以中國知網(wǎng)、萬方、維普的期刊論文為數(shù)據(jù)來源,在CiteSpace的支持下,采用文獻(xiàn)綜述法總結(jié)國內(nèi)2002年至2022年藥相關(guān)語料庫建設(shè)的特點(diǎn)與趨向,并提出些許建議。
本文采用系統(tǒng)文獻(xiàn)綜述與文獻(xiàn)計量分析結(jié)合的方法展現(xiàn)近二十年國內(nèi)醫(yī)藥語料庫建設(shè)的研究現(xiàn)狀,采用CiteSpace計量分析工具整合文獻(xiàn)信息,客觀呈現(xiàn)領(lǐng)域內(nèi)知識結(jié)構(gòu)的發(fā)展進(jìn)程。擬回答3個問題:
(1)語料采集的類型有何特點(diǎn)?
(2)語料標(biāo)注的方法是什么?
(3)語料建設(shè)的發(fā)展有何趨勢?
文獻(xiàn)篩選自中國知網(wǎng)(CNKI)、萬方數(shù)據(jù)(Wan-Fang)、維普數(shù)據(jù)庫(VIP)。由于醫(yī)藥相關(guān)語料庫建設(shè)相關(guān)信息可能存在于以語料庫為研究方法的文獻(xiàn)中,因此以“語料”和“醫(yī)”相關(guān)的表達(dá)作為檢索詞,具體檢索篇名包含“語料”,且篇關(guān)摘含有“醫(yī)”或“藥”“病”“癥”“患”“診”“護(hù)理”的學(xué)術(shù)期刊,檢索式為TI=語料AND(TKA%‘醫(yī)’OR TKA%‘藥’OR TKA%‘癥’OR TKA%‘病’OR TKA%‘患’OR TKA%‘護(hù)理’OR TKA%‘診’)。檢索時限為2002-01-01至2022-12-31。初步檢索到498條相關(guān)期刊,經(jīng)過NoteExpress軟件刪除重復(fù)文獻(xiàn)及不相關(guān)題錄175篇,剩余323篇。
本文對2002~2022年所發(fā)表的323篇文獻(xiàn)進(jìn)行關(guān)鍵詞共現(xiàn)分析(圖1),按照話題中心度排名,前十名關(guān)鍵詞分別是:醫(yī)學(xué)英語、中醫(yī)英語、中醫(yī)藥、翻譯、中醫(yī)、醫(yī)患會話、教學(xué)、英譯、會話分析、詞匯教學(xué),表明該領(lǐng)域的研究主題包括醫(yī)學(xué)英語教學(xué)、(中)醫(yī)藥翻譯及醫(yī)患話語分析。對所得文獻(xiàn)進(jìn)行人工梳理,從語料類型、語料標(biāo)注、發(fā)展趨勢三個方面進(jìn)行綜述。
圖1 關(guān)鍵詞共現(xiàn)圖譜
1.語料類型:從單模轉(zhuǎn)向多模態(tài)語料
醫(yī)藥語料庫材語料選擇與研究主題息息相關(guān),醫(yī)學(xué)英語教學(xué)與(中)醫(yī)藥翻譯相關(guān)主題往往采用傳統(tǒng)單模文本語料,而醫(yī)患話語分析主題則多采用多模態(tài)語料。
單模文本語料是指以文本為主要表現(xiàn)形式的材料。以醫(yī)學(xué)英語教學(xué)為研究主題的語料庫建設(shè)以學(xué)術(shù)期刊為主,如中美醫(yī)學(xué)論文英文標(biāo)題語料庫[2]、國際醫(yī)學(xué)論文摘要語料庫[3]。(中)醫(yī)藥翻譯為主題的語料庫通常以雙語平行語料庫的形式出現(xiàn),語料選自漢英對照叢書、經(jīng)典原文及權(quán)威譯文,如英語叢書、教科書、工具書[4]、涵蓋多種醫(yī)藥學(xué)科的文庫[5]、《黃帝內(nèi)經(jīng)》等典籍漢英雙語書籍[6]。
多模態(tài)語料是指以音頻、視頻等多種信息整合的材料。目前,語料庫建設(shè)逐漸涉及醫(yī)療場域下的語言,包含醫(yī)患會話、特殊人群話語、電子病歷及醫(yī)學(xué)影像等。醫(yī)患會話以醫(yī)生或患者為話語主體,是醫(yī)患社會關(guān)系的重要參考,語料收集注重客觀性和多元性。學(xué)者通常整合不同級別下醫(yī)院的多個科室的真實醫(yī)患即時會話,采用多模態(tài)會話標(biāo)注方法,如標(biāo)注音律、體態(tài)語等人際交互要素,分析發(fā)現(xiàn)醫(yī)生會靈活使用人稱[7]、調(diào)整言語行為[8],以緩解患者的憂慮。特殊人群話語以特定疾病患者為話語主體,采用即席自然話語或任務(wù)誘導(dǎo)話語,如智力退化老人言語表現(xiàn)[9]、中國失語患者任務(wù)話語表現(xiàn)等[10]。此外,電子病例及其醫(yī)學(xué)影像話語,是生物醫(yī)學(xué)文本挖掘的重要資源,具有多模態(tài)實體對應(yīng)的特點(diǎn)。一些學(xué)者分別就心血管疾病[11]、兒科疾病[12]以及甲狀腺結(jié)節(jié)[13]患者電子病歷及相關(guān)影像資料,構(gòu)建相應(yīng)疾病多模態(tài)語料庫。
就目前檢索到的文獻(xiàn)來看,多模態(tài)語料庫是語料庫建設(shè)的新起之秀,不僅能夠調(diào)用視覺、聽覺等感官信息,還能夠?qū)崿F(xiàn)多模態(tài)語料與檢索及實體對應(yīng),后續(xù)可應(yīng)用于多模態(tài)翻譯研究、多模態(tài)醫(yī)藥教學(xué)等。因此,醫(yī)藥相關(guān)語料庫建設(shè)應(yīng)進(jìn)一步挖掘多模態(tài)語料的深度和外延。
2.語料標(biāo)注:從重復(fù)人工到智能識別
語料標(biāo)注是指對語言樣本的屬性和特征所做的描述。語料標(biāo)注方法因語料類型而各異。單模文本語料標(biāo)注與雙語平行語料庫標(biāo)注方法差異不大。目前,軟件輔助的文本標(biāo)注方法成為主流,減少了人工標(biāo)注的成本。劉建鵬通過UAM CorpusTool以及LIWC軟件對阿爾茨海默病患者話語進(jìn)行功能詞和實體詞角度的跨語篇的特征描寫。李文通過EmEditor軟件去除信息雜質(zhì),再借助UAM CorpusTool中的TreeTagger軟件對收集的以XML為格式的現(xiàn)代醫(yī)學(xué)英語書面語語料進(jìn)行詞性賦碼。
多模態(tài)語料標(biāo)注涉及電子病歷、醫(yī)學(xué)影像以及特定疾病患者數(shù)據(jù)。電子病歷(electric medical record)是指醫(yī)療活動中產(chǎn)生的文字、符號等診療記錄。曲春燕開發(fā)實體標(biāo)注工具,參照i2b2 2010(Informatics for Integrating Biology&the Bedside)評測數(shù)據(jù)構(gòu)建規(guī)范進(jìn)行標(biāo)注,最終結(jié)果由IAA評價體系檢驗[14]。昝紅英采用最大雙向匹配對標(biāo)注語料進(jìn)行預(yù)標(biāo)注,并采用專家多輪標(biāo)注及協(xié)定的方式明確結(jié)果。此外,患者多模態(tài)數(shù)據(jù)標(biāo)注也是重要內(nèi)容。比如,陳珍珍采集命名性失語患者會話內(nèi)容,通過CLAN(Computerized Language Analysis)計算語言分析軟件將會話、動作、表情等語料轉(zhuǎn)換為CHAT(Codes for the Human Analysis of Transcript)格式并進(jìn)行自動標(biāo)注,最終結(jié)果由MOR(Morphology)語法檢驗[15]。
當(dāng)下語料標(biāo)注技術(shù)吸收計算機(jī)技術(shù)已取得不小進(jìn)展,但標(biāo)注層級構(gòu)建因研究視角及內(nèi)容載體不同而雜亂無序,也無統(tǒng)一的建設(shè)與檢驗標(biāo)準(zhǔn)。以電子病歷標(biāo)注為例,雖然腦卒中與甲狀腺疾病都能夠通過醫(yī)學(xué)影像體現(xiàn),但因表征不同以及人們對素材的理解和分析遵循不同路徑,語料標(biāo)注層級差異較大。因此,后續(xù)醫(yī)藥相關(guān)多模態(tài)語料庫建設(shè)應(yīng)嘗試建設(shè)統(tǒng)一的檢驗標(biāo)準(zhǔn),以保障后續(xù)語料庫信息化數(shù)據(jù)的延續(xù)使用。
3.發(fā)展趨勢:“醫(yī)+文”交叉成為主流
突現(xiàn)詞是指在一定時間范圍內(nèi)使用頻次顯著上升的詞,體現(xiàn)該領(lǐng)域在一定時間范圍內(nèi)的研究熱點(diǎn)以及未來研究趨勢。由圖2可見,2009年以前,醫(yī)藥相關(guān)語料庫建相關(guān)突現(xiàn)詞為教學(xué)、英語、詞匯教學(xué)、錯誤分析,表明早期專注(中)醫(yī)學(xué)語言教學(xué),關(guān)注語言表層信息,可稱為語言教學(xué)研究期。2010年至2017年,突現(xiàn)詞有醫(yī)患會話、指示語、語步、醫(yī)學(xué)期刊、醫(yī)學(xué)英語、詞塊、英文摘要、護(hù)理英語、醫(yī)學(xué)論文、搭配、對比研究、英譯、翻譯、中醫(yī)英語,表明該段時間以醫(yī)學(xué)學(xué)術(shù)文本、醫(yī)患診療會話、中醫(yī)藥翻譯為重點(diǎn),研究內(nèi)容得到拓展和豐富,可稱為多體裁文本研究期。2018年以來,突現(xiàn)詞包含精準(zhǔn)醫(yī)學(xué)、中醫(yī)、深度學(xué)習(xí)、自閉癥、自主學(xué)習(xí)、中醫(yī)藥、人際意義,表明該時期語料庫建設(shè)突破學(xué)科限制,運(yùn)用計算機(jī)技術(shù)將語料庫應(yīng)用于醫(yī)學(xué)實踐等領(lǐng)域,可稱為交叉實踐研究期。
圖2 突現(xiàn)詞演變
就當(dāng)下而言,醫(yī)藥相關(guān)語料庫建設(shè)應(yīng)用于精準(zhǔn)醫(yī)學(xué)領(lǐng)域,體現(xiàn)在將醫(yī)藥相關(guān)文字信息化,關(guān)聯(lián)實體工具,用于臨床診治工作。醫(yī)學(xué)影像及其電子病歷的識別與標(biāo)注是重要研究領(lǐng)域。蘇嘉提出適應(yīng)中文特點(diǎn)的心血管疾病風(fēng)險因素標(biāo)注體系,構(gòu)建了第一個中文心血管疾病因素的語料庫。昝紅英融合國內(nèi)外醫(yī)學(xué)標(biāo)準(zhǔn)資源,構(gòu)建了面向兒科疾病的醫(yī)學(xué)實體及關(guān)系語料庫與兒科醫(yī)學(xué)問答系統(tǒng)。此外,計算機(jī)輔助新視角給傳統(tǒng)醫(yī)學(xué)英語教學(xué)研究提供了新思路。比如蔡瑩基于ELAN構(gòu)建小型醫(yī)護(hù)英語教學(xué)多模態(tài)語料庫,對師生話語、行為互動等進(jìn)行反思,改變學(xué)習(xí)者被動聆聽的角色。周旭通過循證醫(yī)學(xué)專業(yè)語料庫,提升中醫(yī)藥本科生循證醫(yī)學(xué)英文寫作能力。
由此可見,醫(yī)藥相關(guān)語料庫建設(shè)逐漸向“醫(yī)+文”的學(xué)科交叉方向發(fā)展。但所建設(shè)的語料庫多局限于研究者使用,建設(shè)成果很少公開。實踐于臨床領(lǐng)域的醫(yī)藥相關(guān)語料庫以臨床診斷作為分類依據(jù),建設(shè)主題多樣,需要多領(lǐng)域?qū)I(yè)人士支持。然而,建設(shè)方法和程序未能公開闡述,給未來語料庫升級帶來不少困難。因此,后續(xù)醫(yī)藥相關(guān)語料庫建設(shè),尤其是針對“醫(yī)+文”交叉領(lǐng)域,應(yīng)相應(yīng)地公開提供語料庫建設(shè)方法細(xì)則,持續(xù)更新語料庫資源,確保數(shù)據(jù)的適時性。
借助CiteSpace技術(shù),本文梳理了近20年國內(nèi)有關(guān)醫(yī)藥相關(guān)語料庫建設(shè),發(fā)現(xiàn):①多模態(tài)語料成為新的建設(shè)主體,但深度與廣度還需進(jìn)一步拓展。醫(yī)藥多模態(tài)語料引起實體對應(yīng)特性,逐漸成為多領(lǐng)域研究的重要載體,后續(xù)可對醫(yī)藥圖畫、醫(yī)學(xué)形象、臨床教學(xué)等語料進(jìn)行分析。②計算機(jī)輔助標(biāo)注與人工檢驗結(jié)合成為主流,但標(biāo)注層級需標(biāo)準(zhǔn)化可檢驗。醫(yī)藥相關(guān)語料庫建設(shè)在計算機(jī)學(xué)科的支持下已取得提高效率和豐富內(nèi)容的進(jìn)展,但學(xué)者間研究視角及模態(tài)間內(nèi)容差異導(dǎo)致標(biāo)注層級紛繁復(fù)雜,后續(xù)研究亟須語料庫建設(shè)專家與醫(yī)藥領(lǐng)域?qū)<衣?lián)手建設(shè)統(tǒng)一檢驗標(biāo)準(zhǔn)。③側(cè)重應(yīng)用的“醫(yī)+文”交叉領(lǐng)域成為新的研究熱點(diǎn),但其研究成果有待公開化。醫(yī)藥相關(guān)語料庫建設(shè)應(yīng)用于精準(zhǔn)醫(yī)學(xué)應(yīng)用不僅推動臨床診治工作發(fā)展,而且賦予傳統(tǒng)研究新的活力,后續(xù)研究者應(yīng)公開語料庫建設(shè)細(xì)則并持續(xù)更新。面對新醫(yī)科、新文科建設(shè)的訴求,醫(yī)藥相關(guān)語料庫建設(shè)不僅可以充分發(fā)揮語言學(xué)相關(guān)學(xué)科的效用,也能推動臨床相關(guān)學(xué)科及研究發(fā)展,值得關(guān)注。