文/于越 董曉睿
基于自然語言算法(NLP)這一智能分析工具,可實(shí)現(xiàn)投訴件的快速分類,未來還可生成匹配回復(fù)模板,提高工作效率的同時(shí)可標(biāo)準(zhǔn)化回復(fù)內(nèi)容。
近年來,醫(yī)患關(guān)系成為焦點(diǎn)與熱點(diǎn),逐年增加的投訴事件使醫(yī)患溝通辦公室壓力倍增,如何快速高效地辨識(shí)糾紛類型并給予滿意回復(fù),成為提高醫(yī)院服務(wù)滿意度與緩解矛盾的主要途徑之一。然而,目前在這類事件處理中卻存在從事醫(yī)療糾紛解決的溝通人員總量不足、專業(yè)不夠、問題類型繁雜、回復(fù)內(nèi)容有待規(guī)范等諸多問題。
人工智能領(lǐng)域中的自然語言處理技術(shù)(Natural Language Processing,NLP),可自動(dòng)解析語義信息,現(xiàn)已廣泛應(yīng)用于各行各業(yè),同時(shí)也為醫(yī)院業(yè)務(wù)處理帶來了便利。通過模型訓(xùn)練發(fā)現(xiàn),自然語言處理算法不僅可以對(duì)投訴件進(jìn)行分類、分析和搜索,還可生成匹配的標(biāo)準(zhǔn)化回復(fù)模板。
微軟創(chuàng)始人比爾·蓋茨曾說過,“自然語言處理是人工智能領(lǐng)域皇冠上的明珠”。該技術(shù)是由計(jì)算機(jī)科學(xué)、語言學(xué)、心理認(rèn)知學(xué)等一系列學(xué)科構(gòu)成的一門交叉學(xué)科。自然語言處理技術(shù)在醫(yī)院業(yè)務(wù)中已經(jīng)得到廣泛應(yīng)用,其中最重要的是針對(duì)電子病歷(Electronic Medical Record,EMR)的文本處理應(yīng)用,海量病歷中蘊(yùn)含了大量信息,電子病歷已成為醫(yī)學(xué)研究獲取數(shù)據(jù)的重要來源之一,自然語言處理算法不僅為研究人員節(jié)省了結(jié)構(gòu)化病例的時(shí)間,還可以“讀懂”病歷數(shù)據(jù),提高臨床科研效率的同時(shí)也能深度挖掘其隱含信息。
IBM在過去6年以來收集了超過100萬名患者近2000萬的病例數(shù)據(jù),包含了超過200個(gè)參數(shù),通過對(duì)電子病歷進(jìn)行梳理分析,還發(fā)現(xiàn)與疾病發(fā)生十分相關(guān)但未在醫(yī)療記錄中輸入的信息,包括患者吸煙盒數(shù)、處方藥服用形式、心臟的供血能力等。這些隱含信息可能被醫(yī)生所忽視,但卻無法逃脫自然語言處理技術(shù)的分析,其預(yù)測算法在一年內(nèi)發(fā)現(xiàn)了8500名有心力衰竭風(fēng)險(xiǎn)的患者。
自然語言處理不僅可以解析電子病歷,還可處理醫(yī)療糾紛投訴件,協(xié)助答復(fù)人員標(biāo)注內(nèi)容中的關(guān)鍵信息、分類投訴件、自動(dòng)識(shí)別所涉及科室(內(nèi)科、外科、門急診等)、推薦標(biāo)準(zhǔn)化回復(fù)模板等,提高重復(fù)和相似投訴的處理速度,完善回復(fù)的標(biāo)準(zhǔn)化水平。隨著投訴渠道的完善,近幾年投訴事件逐年提升,以杭州為例,2017—2019年杭州總共受理各類醫(yī)療投訴3155件,并以每年20%的速度增加。北京某三甲醫(yī)院2009—2018年共有5598人次患者進(jìn)行投訴,也呈現(xiàn)增長態(tài)勢(shì)。
第一個(gè)醫(yī)療投訴的標(biāo)準(zhǔn)化分析工具(The healthcare complaint analysis tool,HCAT)于2016年誕生,該工具常被用于編纂和評(píng)估投訴件中所反映的問題,根據(jù)內(nèi)容進(jìn)行分類問題、評(píng)估嚴(yán)重程度、判斷問題所在階段等以便確定對(duì)患者的傷害程度,并對(duì)問題進(jìn)行編碼,協(xié)助管理者發(fā)現(xiàn)服務(wù)漏洞和管理缺失等。
目前國內(nèi)對(duì)患者投訴分類沒有統(tǒng)一標(biāo)準(zhǔn),一般將投訴分為臨床診療、醫(yī)院管理和醫(yī)患關(guān)系3大類。臨床診療細(xì)分為檢查、診斷、治療和護(hù)理等小類,醫(yī)院管理細(xì)分為就診流程、醫(yī)院環(huán)境、診療費(fèi)用等小類,醫(yī)患關(guān)系細(xì)分為溝通交流、患者權(quán)利保障等小類。投訴主體有患者本人、患者家屬、患者朋友或其他關(guān)系人。投訴對(duì)象有醫(yī)生、醫(yī)技、護(hù)士等。
為構(gòu)建預(yù)防為主且標(biāo)準(zhǔn)化的投訴管理體系,無論在處理投訴件中還是事后統(tǒng)計(jì)分析,投訴件的快速準(zhǔn)確分類都十分必要,門急診投訴的處理速度和方式直接決定患者對(duì)醫(yī)院的滿意度,面對(duì)繁多的分類元素,內(nèi)容解讀耗時(shí)耗力,也不利于結(jié)構(gòu)化分析。因此,基于自然語言算法的智能分析工具變得必不可少,本文利用成熟的人工智能算法實(shí)現(xiàn)了對(duì)投訴件的快速分類,未來還可增加對(duì)投訴件嚴(yán)重性的分析功能。
投訴件屬于非結(jié)構(gòu)化文字信息,在訓(xùn)練模型前必須對(duì)其進(jìn)行預(yù)處理,這也是文本數(shù)據(jù)分析的重點(diǎn)和難點(diǎn)。隨著醫(yī)院信息化的迅速發(fā)展,投訴件大多以電子文檔形式提交并儲(chǔ)存,這為數(shù)據(jù)預(yù)處理提供了便利的條件,醫(yī)患溝通部門在過去累積了大量的電子版投訴件,為模型訓(xùn)練提供了充足的語料資源。
收集到充足的數(shù)據(jù)后,預(yù)處理任務(wù)分四步展開:第一步,先將投訴文本進(jìn)行分詞處理,在對(duì)比jieba(結(jié)巴)、THULAC、FoolNLTK及HanLP后,本文采用較為成熟的HanLP工具,在文本分詞時(shí),為實(shí)現(xiàn)速度與精度的最佳平衡,采用HMM-Bigram算法和N-最短路分詞。分詞的同時(shí)進(jìn)行詞性標(biāo)注,給字詞打上標(biāo)簽,如形容詞、動(dòng)詞、名詞等,詞性標(biāo)注基于最大熵和最大概率。
第二步,語料清洗將視為噪音的內(nèi)容剔除,僅保留主要內(nèi)容,去除的部分包含人稱、代詞、日期、停詞、語氣詞、標(biāo)點(diǎn)等內(nèi)容,例如“綜上所述”“總的來說”和“由此可見”等。投訴件中最常見的停詞有“某某先生”“某某女士”以及電話號(hào)碼等聯(lián)系信息。清洗方式主要分為兩種,分別是人工處理和代碼腳本。人工處理方式較為靈活且準(zhǔn)確度高,缺點(diǎn)是耗時(shí)且成本高。腳本代碼則根據(jù)規(guī)則自動(dòng)運(yùn)行,快速剔除無關(guān)內(nèi)容,但缺點(diǎn)是靈活度不夠且準(zhǔn)確度較低。
經(jīng)過前兩步處理,投訴件A“自己母親胡某2018年12月15日在心理科住院,在走廊走動(dòng)時(shí)被醫(yī)生撞倒導(dǎo)致右上臂骨折,當(dāng)日轉(zhuǎn)入骨科治療,其認(rèn)為責(zé)任完全在醫(yī)院,要求醫(yī)院給予解決住院費(fèi)用”。投訴件B“王某2018年6月17日在我院看病,發(fā)現(xiàn)多位醫(yī)生要求病人從醫(yī)院內(nèi)的醫(yī)藥連鎖店買藥,不允許使用社??ǎ瑢?duì)此表示不滿,現(xiàn)要求給予自己一個(gè)合理說法”。投訴件C“因心梗2018年11月13日在心內(nèi)科搶救,情況穩(wěn)定后等待搭橋手術(shù),護(hù)士將其他患者降壓藥給予服用,身體出現(xiàn)食欲不振、憋氣、腹瀉、心率加快等不良反映,家屬認(rèn)為醫(yī)院存在藥物錯(cuò)用情況”轉(zhuǎn)換為字詞組。
投訴件A“費(fèi)用問題,相關(guān)答復(fù),心理科,住院,在走廊,走動(dòng),醫(yī)生,撞倒,導(dǎo)致,右上臂,骨折,骨科,治療,責(zé)任,醫(yī)院,住院,費(fèi)用”。投訴件B“流程問題,相關(guān)答復(fù),我院,看病,醫(yī)生,病人,醫(yī)院,醫(yī)藥,連鎖店,買藥,不允許,使用,社保卡,表示,不滿,要求,給予,說法”。投訴件C“醫(yī)療事故問題,相關(guān)答復(fù),心梗,心內(nèi)科,搶救,搭橋手術(shù),護(hù)士,患者,降壓藥,服用,身體,食欲不振,憋氣,腹瀉,心率加快,不良反應(yīng),家屬,醫(yī)院,藥物,錯(cuò)用”。
第三步,在分詞結(jié)果中剔除重復(fù)部分,確保每個(gè)詞語僅出現(xiàn)一次,生成總詞表。
第四步,遍歷所有投訴件,若總詞表中的詞出現(xiàn)在某一投訴文本中,則對(duì)應(yīng)位置標(biāo)1,沒出現(xiàn)則為0,構(gòu)成以字詞為橫坐標(biāo)以文本號(hào)為縱坐標(biāo)的矩陣,每件投訴文本可看作是由1和0構(gòu)成的向量。
預(yù)處理之后,特征提取是模型訓(xùn)練的重要步驟,特征以文本形式表現(xiàn),將具有較強(qiáng)語義的字詞納入為一個(gè)特征集,特征集可以保留全文大部分信息,有利于分類文章,未納入特征集的內(nèi)容可導(dǎo)致部分語義信息的丟失,但對(duì)分類問題影響較小。投訴件字?jǐn)?shù)通常在100字到500字間,屬于較短的文本,為實(shí)現(xiàn)相對(duì)準(zhǔn)確的分類,本文采用詞袋模型提取文本特征,每個(gè)不同的詞都被收入詞庫,且記錄出現(xiàn)頻率,例如投訴件D“許先生反映:2018年6月6日下午5點(diǎn)半左右自己帶孩子到醫(yī)院看鼻子,掛號(hào)耳鼻喉科,醫(yī)生只是用鑷子檢查了一下,就收取前鼻鏡檢查15元,醫(yī)生稱是鑷子消毒費(fèi),對(duì)此不滿,認(rèn)為醫(yī)院存在亂收費(fèi)現(xiàn)象,要求投訴該醫(yī)院亂收費(fèi)”,該件中多次出現(xiàn)包含“鼻”,如“鼻子”“耳鼻喉科”“前鼻鏡”,“收費(fèi)”也多次出現(xiàn),某一字詞超過頻率閾值都可被認(rèn)定特征,詞袋特征將文本視為一個(gè)無序集合,文本分類基于特定字詞出現(xiàn)的頻率,上述投訴件的詞袋特征如表1所示。
表1 特征詞歸納
經(jīng)過文本數(shù)據(jù)預(yù)處理步驟,文本中還存在大量的無語義助詞或字,例如,“的”在文本中出現(xiàn)的次數(shù)較多,但其對(duì)文本分類的貢獻(xiàn)價(jià)值卻很低,為了避免此類字詞的干擾,本文還使用了TF-IDF特征選擇算法進(jìn)一步過濾特征,TF是詞頻Term Frequency,代表某個(gè)詞在當(dāng)前文本中出現(xiàn)的頻率。IDF是逆文本頻率指數(shù)Inverse Document Frequency,其計(jì)算方式為文本總件數(shù)除以包括該詞條的文本件數(shù)。
經(jīng)過TF-IDF處理,特征的重要性與其在當(dāng)前文本中出現(xiàn)次數(shù)成正比,同時(shí)其重要性隨著它在所有文本中出現(xiàn)的頻率成反比。字詞在某種類別的文本中出現(xiàn)的次數(shù)越多,表示該詞條與該種文本類型的相關(guān)性越高。若該詞或字在其他文本中出現(xiàn)的次數(shù)越少,則表示其對(duì)于分類的重要性是真正的高,因?yàn)樵撟衷~僅與某一類型的文本相關(guān)性強(qiáng)。經(jīng)過TF-IDF處理,諸如“的”的問題就可被緩解,過濾后的特征文本更有利于分類投訴件,表2以收費(fèi)問題為例,列舉了比較重要的特征文本。
表2 收費(fèi)問題特征值列表
數(shù)據(jù)源包含2000余條投訴件,并已被人工標(biāo)注10類,本文采用監(jiān)督式機(jī)器學(xué)習(xí)的模型訓(xùn)練算法,為保證每種投訴類型都有充足的訓(xùn)練數(shù)據(jù),選取樣本總數(shù)前6的類型進(jìn)行訓(xùn)練,投訴類型分別為“收費(fèi)問題”“就診流程”“設(shè)施環(huán)境”“醫(yī)療事故”“服務(wù)態(tài)度”和“紀(jì)檢”,樣本數(shù)如表3所示。
表3 樣本數(shù)量
分類算法采用多類文本分類支持向量機(jī)算法(Support Vector Machine,SVM),其在解決小樣本、非線性及高維模式識(shí)別中具有優(yōu)勢(shì)。SVM本為二分類算法,在處理多分類問題時(shí),需要構(gòu)造多類分類器。在訓(xùn)練時(shí)依次把某類投訴歸為正集,其余幾類投訴歸為負(fù)集,6類源數(shù)據(jù)構(gòu)造出6個(gè)SVM,分類時(shí)將未知類型的新投訴件劃分為具有最大分類函數(shù)值的那類。
“收費(fèi)問題”“就診流程”“設(shè)施環(huán)境”“醫(yī)療事故”“服務(wù)態(tài)度”“紀(jì)檢”簡稱為A、B、C、D、E、F,訓(xùn)練過程如下:(1)A為正集,B、C、D、E、F為負(fù)集;(2)B為正集,A、C、D、E、F為負(fù)集;(3)C為正集,A、B、D、E、F為負(fù)集;(4)D為正集,A、B、C、E、F為負(fù)集;(5)E為正集,A、B、C、D、F為負(fù)集;(6)F為正集,A、B、C、D、E為負(fù)集。使用這6個(gè)訓(xùn)練集分別進(jìn)行訓(xùn)練,然后得到6個(gè)結(jié)果文件。在分類新投訴件時(shí),把測試向量分別通過6個(gè)訓(xùn)練結(jié)果文件進(jìn)行計(jì)算,得到f1(x)、f2(x)、f3(x)、f4(x)、f5(x)、f6(x),最終以值最大的一個(gè)作為分類結(jié)果。
源數(shù)據(jù)分3個(gè)集合,分別為訓(xùn)練集、驗(yàn)證集和測試集。訓(xùn)練集用于擬合源數(shù)據(jù)樣本。驗(yàn)證集用于調(diào)整模型參數(shù),并對(duì)模型分類的能力進(jìn)行初步評(píng)估,驗(yàn)證數(shù)據(jù)集可以幫助尋找最優(yōu)的網(wǎng)絡(luò)深度,并決定反向傳播算法的停止點(diǎn)。測試集用于來評(píng)估模模型的泛化能力,但不能作為調(diào)參、選擇特征等算法相關(guān)的選擇的依據(jù)。
2000余條投訴件在數(shù)據(jù)規(guī)模上不算充足,為了得到更可靠穩(wěn)定的模型,防止某類投訴件在訓(xùn)練集、驗(yàn)證集或測試集中扎堆出現(xiàn),使得其他集合中缺乏該類投訴,本文加入交叉驗(yàn)證環(huán)節(jié),采用10折交叉驗(yàn)證法,將樣本數(shù)據(jù)分割成10個(gè)子集,1個(gè)子樣本作為驗(yàn)證集,1個(gè)子集作為測試集,其他8個(gè)子集用來訓(xùn)練。交叉驗(yàn)證重復(fù)10次后,每個(gè)子樣本都被驗(yàn)證且測試過1次,最后平均10次的結(jié)果,在不同集合組合中得到了相似的分類效果,分類準(zhǔn)確度達(dá)到了78%。
為促進(jìn)醫(yī)院信息化建設(shè),規(guī)范醫(yī)療糾紛標(biāo)準(zhǔn)化處理,結(jié)合新興技術(shù)落地,2018年4月,國家衛(wèi)生健康委印發(fā)《全國醫(yī)院信息化建設(shè)標(biāo)準(zhǔn)與規(guī)范(試行)》,同年7月國務(wù)院頒布《醫(yī)療糾紛預(yù)防和處理?xiàng)l例》。隨著信息化發(fā)展和人工智能技術(shù)普及,在投訴件逐年增長的壓力下,事件處理工作在自然語言處理算法和大數(shù)據(jù)技術(shù)的支撐下,不僅可實(shí)現(xiàn)投訴件的自動(dòng)分類,還可生成匹配回復(fù)模板,提高工作效率的同時(shí)可標(biāo)準(zhǔn)化回復(fù)內(nèi)容。隨著數(shù)據(jù)的積累,可形成投訴件數(shù)據(jù)庫,方便查找類似事件的歷史記錄,還可通過自然語言處理技術(shù)進(jìn)行階段性服務(wù)質(zhì)量分析,優(yōu)化醫(yī)務(wù)管理,改善醫(yī)療服務(wù)??傊?,自然語言處理作為人工智能領(lǐng)域的重要方向,必然會(huì)為醫(yī)療糾紛的預(yù)防和處理做出重大貢獻(xiàn)。