林雪云
(福建師范大學(xué)福清分校電信學(xué)院,福建 福清 350300)
醫(yī)院客戶關(guān)系信息系統(tǒng)(HCRM)[1]是指以數(shù)據(jù)以及醫(yī)療服務(wù)流程為基礎(chǔ),結(jié)合醫(yī)患溝通策略以及醫(yī)療服務(wù)營銷策略,結(jié)合醫(yī)學(xué)和信息技術(shù),將企業(yè)與客戶之間的關(guān)系管理經(jīng)驗融入到醫(yī)院日常的管理和服務(wù)理念中來,建立起以醫(yī)患關(guān)系管理和患者醫(yī)療服務(wù)為中心的信息管理系統(tǒng)。HCRM的構(gòu)建能夠使醫(yī)院的醫(yī)療信息化水平得到更大程度地提升,醫(yī)院中的醫(yī)患關(guān)系得到改善,能夠使患者對醫(yī)院醫(yī)療服務(wù)的滿意程度得到顯著提升,最終建立起醫(yī)院和患者之間的一種互信關(guān)系,創(chuàng)造并且提升醫(yī)院在品牌上的優(yōu)勢。其核心是醫(yī)療知識庫的自動化答復(fù),而對用戶輸入的文本進行處理是HCRM的重要前提。
當(dāng)前HCRM構(gòu)建的研究重心主要是在對醫(yī)院信息系統(tǒng)(HIS)、臨床信息系統(tǒng)(CIS)以及電子病歷系統(tǒng)(EMR)的研究[2],主要目標是如何高效地讓患者接受診療。目前現(xiàn)有的HCRM系統(tǒng)存在很多缺點,表現(xiàn)在:(1)對患者診療后的回訪欠缺相應(yīng)的管理體系;(2)在健康關(guān)懷管理上“一對一的對患者服務(wù)”過于耗費精力、物力;(3)對患者滿意度的識別和測度體系欠缺。
筆者研究的HCRM系統(tǒng)首先通過文本分類,建立數(shù)據(jù)倉庫中相對應(yīng)的數(shù)據(jù)表來管理醫(yī)院客戶信息;然后使用基于樸素貝葉斯算法[3]的文本分類來對文本進行分類處理。文本分類能夠通過對患者提問的內(nèi)容進行特征詞的抓取,很好地解決患者提問答復(fù)的問題。
文本分類是通過計算機對文本集等按照一定的分類標準進行自動化的分類標記,是基于分類體系的一種自動分類,也是一種基于資訊過濾以及用戶興趣的自動分類[4]。
分類體系是以詞的統(tǒng)計為標準來對關(guān)鍵字進行分類,通過人對文本以及類別關(guān)聯(lián)度判定來學(xué)習(xí)文件的用字和所標記的類別之間的關(guān)聯(lián)[5]。
一般情況下,文本分類的過程包括對文本的預(yù)處理、對文本的表達、對分類器的選取與訓(xùn)練、對分類結(jié)果的評判以及反饋等過程,其中對文本的表達過程又可以被細分為對文本進行預(yù)處理、索引以及統(tǒng)計等步驟[6]。
一般而言,文本分類的系統(tǒng)有6個功能模塊。(1)預(yù)處理模塊:格式化原始語料為同一種格式,以便在后續(xù)的操作中對其做統(tǒng)一的處理;(2)索引模塊:分解文檔為基本的處理單元,在分解的過程中同時降低在后續(xù)步驟中處理的開銷;(3)統(tǒng)計模塊:通常即指對詞頻的統(tǒng)計,統(tǒng)計主要針對項(概念、單詞)與分類之間相關(guān)聯(lián)的概率;(4)特征抽取模塊:抽取反映文檔主要特征的內(nèi)容;(5)分類器模塊:對于分類器的訓(xùn)練,筆者在這一過程中增加了機器自主學(xué)習(xí)的過程;(6)評價模塊:對分類器所得到的測試結(jié)果進行分析。
文本分類的主要難點是分類器的構(gòu)建。因為對于一個文本是否能夠準確的分類至一個文檔中,至關(guān)重要的一步就是對訓(xùn)練集的處理,即運用何種算法進行分類操作。此外還有一個技術(shù)難點是源于中國文字的博大精深,因為許多詞語很容易被誤判成語氣詞以及停用詞,從而導(dǎo)致文本的預(yù)處理經(jīng)常出錯。
筆者認為文本分類未來的改進方向主要就是解決以上難點,該難點對于分類器的構(gòu)建始終是優(yōu)化文本分類的重中之重。
文本分類在很多領(lǐng)域都扮演著不可或缺的作用,在HCRM系統(tǒng)的構(gòu)建中也起著關(guān)鍵性的作用。
文中HCRM系統(tǒng)的主體框架如圖1所示:從用戶中獲得數(shù)據(jù)(關(guān)于要查詢內(nèi)容的語句),通過在醫(yī)療知識庫已經(jīng)用文本分類預(yù)先建立起來的文本分類模型對用戶的查詢文本進行分類,得到用戶所查詢的病的病根如感冒后,再返回數(shù)據(jù)庫中調(diào)用與感冒相關(guān)的知識內(nèi)容,將得到的內(nèi)容通過醫(yī)患交互界面呈現(xiàn)給用戶。從而得到用戶的滿意度信息,將這一信息中滿意度較高的文本直接加入分類模型中,而對較低者再指定醫(yī)護人員解決。這樣便能大大減輕醫(yī)院工作負擔(dān),提高工作效率。
圖1 HCRM系統(tǒng)的主體框架圖
HCRM系統(tǒng)中幾乎所有的功能都是圍繞著文本分類展開的,因此對基于文本分類的醫(yī)療知識庫進行分析。
2.2.1 實現(xiàn)流程
文本分類系統(tǒng)在HCRM中應(yīng)用的框架圖,主要用到的數(shù)據(jù)庫為資料中心以及信息管理。文本分類應(yīng)用流程圖見圖2:通過對客戶在醫(yī)療知識庫中查詢信息的文本分類得到其中的關(guān)鍵詞;通過對關(guān)鍵詞的詞頻分析,對文本類別進行區(qū)分;再從后臺數(shù)據(jù)庫中調(diào)用相應(yīng)文本類別的數(shù)據(jù),即患者所得病癥以及日常所需注意的醫(yī)療保健方法的簡單判斷;最后回收判定結(jié)果滿意度信息,并加入后臺數(shù)據(jù)庫中。如果數(shù)據(jù)中滿意度較高,則可將這一判斷作為一個新的分類規(guī)則加入已有模型中,這樣的判定系統(tǒng)會隨著使用次數(shù)的增加而更加地準確。
圖2 文本分類應(yīng)用流程圖
2.2.2 關(guān)鍵節(jié)點實現(xiàn)
在醫(yī)療知識庫中,因為要對用戶所提出的或者想了解的病癥信息進行回答,而專門聘用醫(yī)生對醫(yī)療知識庫中病癥原因以及相應(yīng)的養(yǎng)生保健知識進行回答。不僅耗費人力物力,也可能因為醫(yī)生一時地疏漏造成用戶對醫(yī)院形象不可挽回的后果。而HCRM系統(tǒng)就能很好地解決這一問題。針對用戶的問題,計算機能夠運用文本分類給予用戶及時準確的答復(fù),在提高效率的同時也增加了用戶對院方的滿意度。
文本分類在醫(yī)療知識庫中應(yīng)用時主要是對患者輸入的病癥進行判定,得到病因,將病因反饋回數(shù)據(jù)庫中以便數(shù)據(jù)庫調(diào)用與病因相關(guān)的食療等醫(yī)療保健方法。
在進行模型訓(xùn)練與模型測試時將所有文本隨機分成2部分:70%的數(shù)據(jù)用于模型訓(xùn)練,30%的數(shù)據(jù)用于模型測試。
2.2.3 模型訓(xùn)練
通過案例對上述分詞、文本特征提取過程、分類算法來具體說明文本分類在HCRM中的應(yīng)用。僅以對一個文本的處理為例,在實際建立分類模型時其實是對大量這種文本的處理。
案例語料庫:“我最近感覺發(fā)燒、流涕、四肢無力”。
初步分詞后的結(jié)果為“我”、“最近”、“感覺”、“發(fā)燒”、“流涕”、“四肢無力”。之后再剔除單詞“我”、無用詞“最近”、“感覺”。最后得到的結(jié)果即為“發(fā)燒”、“流涕”、“四肢無力”。
文本特征提取結(jié)果為“發(fā)燒”、“流涕”、“四肢無力”。
通過樸素貝葉斯算法計算詞頻,得出權(quán)重后將其記錄在一個類下。在模型訓(xùn)練中類的初始分類是通過醫(yī)生判定,上述癥狀為感冒癥狀,所以歸為感冒類。輸出結(jié)果為感冒類:“發(fā)燒”0.4、“流涕”0.3、“四肢無力”0.3。處理后的文本中出現(xiàn)上述情況的即可判定為感冒,再從后臺調(diào)用相關(guān)感冒的醫(yī)療方法等的介紹內(nèi)容,最后通過用戶評價反饋對已有的分類模型進行修繕,即把用戶滿意度高的結(jié)果直接加入模型中,作為文本分類的一個標準。而對其中準確度評價較低的需要指派醫(yī)生作出正確答復(fù)的也加入到模型當(dāng)中去。這就是一個自主學(xué)習(xí)的過程,且隨著模型對大量數(shù)據(jù)的分類判斷后,模型判斷的準確性將不斷被提高。
2.2.4 模型測試
讓用戶在已經(jīng)建立好的醫(yī)患交互平臺中輸入想要查詢的內(nèi)容,通過已經(jīng)建立的文本分類模型對文本進行分類,得到患者想要查詢的病癥、病因。然后讓醫(yī)生針對該文本中的病癥情況判定病因,將兩者的結(jié)果進行對比,如表1所示。
表1 模型判定與醫(yī)生判定結(jié)果對比表
模型測試是針對模型訓(xùn)練以外的文本,因為此類文本并未進入模型訓(xùn)練中,所以對計算機而言,這30%的文本都是新文本。測試結(jié)果即分類器的性能評價如表2所示。樸素貝葉斯分類器的判定準確率高達94%,而這一數(shù)據(jù)將會隨著之后不斷對于新文本的處理而提高,這說明本方法在HCRM系統(tǒng)應(yīng)用中的有效性。
表2 病因結(jié)果自動分類判定鄰接表 %
針對傳統(tǒng)的醫(yī)院客戶關(guān)系管理系統(tǒng)在對客戶信息回訪欠缺以及對客戶滿意度重視不足等問題上提出改進的醫(yī)院客戶關(guān)系管理系統(tǒng),提高醫(yī)院和客戶交互信息的處理速度。但本HCRM系統(tǒng)的不足之處在于如果初始語料庫不夠大,用戶的部分檢索將得不到相應(yīng)的回復(fù),這樣的查詢和回復(fù)結(jié)果將無法進入機器的自主學(xué)習(xí)過程。例如:用戶搜索“傳染病”等字眼,假設(shè)這些字眼未被收入在初始模型中,那么用戶得不到結(jié)果,則滿意度不會高甚至于沒有滿意度反饋,這類結(jié)果將永遠進不到機器自主學(xué)習(xí)的過程中。
因此,筆者認為HCRM系統(tǒng)未來的一個改進方向是對初始語料庫的增加,選取更加完備的醫(yī)療初始語料庫。除此之外,找到一種優(yōu)于樸素貝葉斯算法的算法亦是系統(tǒng)的改進方向之一,因為HCRM系統(tǒng)數(shù)據(jù)挖掘中文本分類的準確性和效率的關(guān)鍵是所運用的算法的優(yōu)劣。
[1]何榮勤.CRM原理·設(shè)計·實踐[M].第2版.北京:電子工業(yè)出版社,2006:426-429.
[2]王永貴.客戶關(guān)系管理[M].北京:清華大學(xué)出版社,2007:70.
[3]馬剛,李洪心,楊興帆.客戶關(guān)系管理[M].大連:東北財經(jīng)大學(xué)出版社,2005:137.
[4]羅納德·S·史威福特.客戶關(guān)系管理 — 加速利潤和優(yōu)勢提升[M].楊東,譯.第2版.北京:中國經(jīng)濟出版社,2004:5.
[5]范云峰.客戶管理營銷[M].北京:中國經(jīng)濟出版社,2003:400.
[6]格哈德·拉普,霍佳震,妮可·維爾納.客戶關(guān)系管理:一個整體方案[M].上海:上海社會科學(xué)院出版社,2012:124-127.