高慧穎,公孟秋,于思佳
(北京理工大學(xué) 管理與經(jīng)濟(jì)學(xué)院,北京 100081)
隨著在線(xiàn)醫(yī)療平臺(tái)和網(wǎng)絡(luò)健康社區(qū)的發(fā)展,眾多在線(xiàn)的醫(yī)療評(píng)論語(yǔ)料成為知識(shí)的重要來(lái)源,許多學(xué)者對(duì)醫(yī)療評(píng)論語(yǔ)料展開(kāi)了特征挖掘研究. 網(wǎng)絡(luò)在線(xiàn)評(píng)論特征挖掘是指從大量的在線(xiàn)用戶(hù)評(píng)論中自動(dòng)地獲取其關(guān)注的重要對(duì)象特征,挖掘方法主要分為有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)算法. 基于無(wú)監(jiān)督學(xué)習(xí)算法的特征挖掘是利用算法自動(dòng)識(shí)別評(píng)論文本特征,再進(jìn)行篩選的過(guò)程,此方法不需要人工標(biāo)注,省時(shí)省力且效率較高,其應(yīng)用較為廣泛的算法代表是主題模型. BLEI 等[1]提出利用LDA 主題模型進(jìn)行主題特征提??;佘維軍等[2]基于句法分析結(jié)合LDA 進(jìn)行特征挖掘;PEROTTE[3]提出了自動(dòng)決定層次主題數(shù)的LDA 模型;在醫(yī)療領(lǐng)域,HAO 等[4]使用LDA 主題模型對(duì)在線(xiàn)醫(yī)療評(píng)論進(jìn)行挖掘以了解中國(guó)健康消費(fèi)者的看法;高慧穎等[5]基于詞共現(xiàn)分析改進(jìn)LDA 模型進(jìn)行醫(yī)療評(píng)論主題特征的挖掘;WU 等[6]考慮到從用戶(hù)文本轉(zhuǎn)換而來(lái)的向量空間模型的高維性,提出了一種基于LDA 的新方法挖掘在線(xiàn)健康社區(qū)的主題特征;YAN 等[7]為了解決短文本稀疏的問(wèn)題,提出了BTM 主題模型.
雖然評(píng)論挖掘中基于無(wú)監(jiān)督學(xué)習(xí)的特征提取自動(dòng)化程度高且更為客觀(guān),但由于特征的挖掘有較強(qiáng)的領(lǐng)域針對(duì)性,且醫(yī)療評(píng)論文本存在其特殊性,如評(píng)論長(zhǎng)度較短、規(guī)范性較差、語(yǔ)義較稀疏等,因此在主題挖掘方法上需要更多的探索. 針對(duì)在線(xiàn)醫(yī)療評(píng)論文本的特點(diǎn),提出一種改進(jìn)的BTM 模型進(jìn)行醫(yī)療評(píng)論主題挖掘,提高主題挖掘的質(zhì)量,并結(jié)合服務(wù)質(zhì)量SERVQUAL 模型的五性,在前人研究的基礎(chǔ)上,更全面地識(shí)別醫(yī)療服務(wù)質(zhì)量影響因素.
患者在網(wǎng)絡(luò)平臺(tái)中發(fā)表的醫(yī)療評(píng)論,往往以短文本的形式呈現(xiàn). 針對(duì)短文本的挖掘,目前已有學(xué)者研究出專(zhuān)門(mén)處理短文本的主題模型,如BTM 主題模型. BTM 模型通過(guò)整個(gè)語(yǔ)料庫(kù)建立BTM 語(yǔ)料庫(kù),不是利用簡(jiǎn)單的詞頻進(jìn)行建模,而是挖掘短文本深層的語(yǔ)義關(guān)系. BTM 主題模型與傳統(tǒng)主題模型的代表LDA 主題模型不同的地方在于,它是通過(guò)將文本中的詞語(yǔ)排列組合成詞對(duì)進(jìn)行訓(xùn)練,擴(kuò)展了訓(xùn)練的詞語(yǔ)數(shù)量,如原評(píng)論包含{醫(yī)生}、{態(tài)度}、{非常}、{和藹}四個(gè)單詞,BTM 會(huì)首先抽取Biterm 詞對(duì),構(gòu)造{醫(yī)生,態(tài)度}、{醫(yī)生,非常}、{醫(yī)生,和藹}、{態(tài)度,非常}、{態(tài)度,和藹}、{非常,和藹}六個(gè)詞對(duì)來(lái)參與訓(xùn)練.
然而由于未考慮語(yǔ)義相關(guān)性,BTM 主題模型仍存在一些不足之處,它往往假設(shè)出現(xiàn)在同一條評(píng)論的詞對(duì)中的兩個(gè)詞語(yǔ)具有一定的相關(guān)性,但是并未考慮詞對(duì)語(yǔ)義相關(guān)性大小對(duì)主題特征挖掘效果的影響,如有些詞對(duì)雖然在一條評(píng)論中出現(xiàn),但共現(xiàn)信息差,語(yǔ)義相關(guān)性較小,將這些相關(guān)性較小的詞對(duì)導(dǎo)入訓(xùn)練,可能會(huì)導(dǎo)致挖掘出來(lái)的主題質(zhì)量并不理想. 由于醫(yī)療評(píng)論短文本包含的詞語(yǔ)數(shù)量較少,語(yǔ)義比較稀疏和分散,直接將傳統(tǒng)的主題模型應(yīng)用到短文本中,會(huì)面臨主題特征單詞共現(xiàn)信息少,無(wú)豐富的上下文等問(wèn)題,使得文本特征高維稀疏,難以有效提取短文本的信息,導(dǎo)致無(wú)法挖掘出理想的醫(yī)療服務(wù)質(zhì)量影響因素. 因此,本文基于這個(gè)問(wèn)題,改進(jìn)BTM 主題模型中詞對(duì)的篩選方式,利用詞共現(xiàn)分析方法計(jì)算詞對(duì)的語(yǔ)義相關(guān)性,使其更適用于在線(xiàn)醫(yī)療評(píng)論短文本挖掘.
已有的國(guó)內(nèi)醫(yī)療服務(wù)質(zhì)量影響因素的識(shí)別大多依靠文獻(xiàn)資料和臨床指標(biāo),忽略了在線(xiàn)醫(yī)療評(píng)論中患者的真實(shí)感受. 一些學(xué)者針對(duì)在線(xiàn)醫(yī)療評(píng)論提出一種基于特征加權(quán)詞向量的在線(xiàn)醫(yī)療評(píng)論情感分析方法[8],取得了一定的成果. 一些學(xué)者研究了中文文本及短文本特征提取的方法,例如基于主題和預(yù)防模型進(jìn)行主題特征提取[9]、利用BTM 模型進(jìn)行文本挖掘,然而由于醫(yī)療評(píng)論長(zhǎng)度短,同一評(píng)論中的詞量少且相關(guān)性不一定高,所以單純采用以上方法無(wú)法得到理想效果.
根據(jù)在線(xiàn)醫(yī)療評(píng)論長(zhǎng)度短、語(yǔ)義稀疏的特點(diǎn),提出一種基于詞共現(xiàn)分析的雙詞主題模型(co-occurrence analysis biterm topic model,COA-BTM). 研究方法如圖1 所示,具體分為3 個(gè)步驟:①爬取在線(xiàn)醫(yī)療評(píng)論,通過(guò)篩選、分詞、去停用詞等預(yù)處理建立規(guī)范的醫(yī)療評(píng)論語(yǔ)料庫(kù). ②將規(guī)范的評(píng)論語(yǔ)料庫(kù)中的文本詞語(yǔ)進(jìn)行兩兩組合,生成詞對(duì),利用詞共現(xiàn)分析計(jì)算共現(xiàn)詞對(duì)之間的相關(guān)性,通過(guò)設(shè)置共現(xiàn)閾值,篩選參與訓(xùn)練的詞對(duì). ③設(shè)置參數(shù)并進(jìn)行吉布斯采樣,更新每個(gè)詞對(duì)所對(duì)應(yīng)的主題,重復(fù)操作直到吉布斯采樣收斂.
圖1 基于COA-BTM 模型的在線(xiàn)醫(yī)療評(píng)論主題挖掘方法Fig. 1 Topic mining method of online medical reviews based on COA-BTM model
在BTM 主題模型詞對(duì)的選擇過(guò)程中,引入詞共現(xiàn)分析計(jì)算語(yǔ)義相關(guān)性,通過(guò)設(shè)定閾值,篩選參與訓(xùn)練的詞對(duì),最終提高生成的主題質(zhì)量,COA-BTM 算法模型圖如圖2 所示.
圖2 COA-BTM 算法模型圖Fig. 2 COA-BTM algorithm model diagram
圖2 中各個(gè)參數(shù)的含義分別是:NB是規(guī)范語(yǔ)料庫(kù)中詞對(duì)的集合,集合中包含文本中詞語(yǔ)排列組合得到的所有詞對(duì)(wi,wj),wi、wj是一組詞對(duì)中的兩個(gè)詞 語(yǔ),z表示 詞對(duì)的主題,k表 示主題的維 度, θ 和 ?為文檔主題和主題詞語(yǔ)的分布, α 和 β為 參數(shù), ω為詞語(yǔ)共現(xiàn)閾值. 所提出的COA-BTM 算法具體的步驟如下.
步驟1 生成詞對(duì). 首先獲取規(guī)范評(píng)論語(yǔ)料庫(kù)中的文檔,將每條文本中的詞語(yǔ)進(jìn)行兩兩組合,生成Biterm 詞對(duì)(wi,wj),得到初始文檔-詞對(duì)列表.
步驟2 基于詞共現(xiàn)分析篩選詞對(duì). 提取評(píng)論詞匯表,計(jì)算共現(xiàn)詞對(duì)之間的相關(guān)性,通過(guò)設(shè)置共現(xiàn)閾值ε,篩選掉語(yǔ)義相關(guān)性較低的詞對(duì),得到篩選后的文檔-詞對(duì)列表.
利用點(diǎn)互信息(pointwise mutual information,PMI)來(lái)判斷詞對(duì)中兩個(gè)詞語(yǔ)的語(yǔ)義相關(guān)性,統(tǒng)計(jì)兩詞在文本中同時(shí)出現(xiàn)的概率,越大表示詞語(yǔ)的語(yǔ)義相關(guān)性越大. 計(jì)算公式如(1)所示,其中p(w1,w2)代表詞語(yǔ)w1和w2共同出現(xiàn)的概率,p(w1)和p(w2)分別表示詞語(yǔ)w1和w2單獨(dú)出現(xiàn)的概率;為了判斷詞語(yǔ)共現(xiàn)的質(zhì)量,選擇歸一化互信息(normalized pointwise mutual information, NPMI)來(lái)篩選詞對(duì),公式如(2)所示.
步驟3 參數(shù)設(shè)置. 在吉布斯采樣之前,需要設(shè)置參數(shù),根據(jù)經(jīng)驗(yàn)值設(shè)置參數(shù) α 和 β,利用困惑度Pp確定主題數(shù)k,如公式(3)所示,它表明預(yù)測(cè)的不確定度,該值越小表示性能越好,但主題過(guò)多可能會(huì)導(dǎo)致過(guò)擬合.
評(píng)價(jià)主題挖掘效果的兩個(gè)常用標(biāo)準(zhǔn)是主題一致性(topic coherence,TC)和JS 散度(Jensen-Shannon divergence). 主題一致性是通過(guò)測(cè)量主題中出現(xiàn)頻率高的詞語(yǔ)之間的語(yǔ)義相關(guān)度來(lái)衡量主題好壞,在之前的研究中,主題詞分布的差異性通常采用KL 距離(Kullback-Leibler divergence) 來(lái)度量. 由于KL 距離是不對(duì)稱(chēng)的,而通常兩個(gè)主題詞具有語(yǔ)義相關(guān)性,因此采用具有對(duì)稱(chēng)性的JS 散度[10].
TC 值反映的是主題內(nèi)的一致性即內(nèi)聚程度,能夠很好地應(yīng)用于主題模型的主題內(nèi)聚效果的對(duì)比,公式如(7)所示.
從公式(7)可以看出,主題中的一個(gè)詞語(yǔ)和其他詞語(yǔ)在文檔集合中共現(xiàn)次數(shù)越多,且這個(gè)詞在文檔集合中出現(xiàn)的次數(shù)越少,主題一致性就越大. TC 值一般小于0,TC 值越高主題的內(nèi)聚程度就越大.
JS 散度體現(xiàn)的是主題之間的差異性即離散程度.JS 散度越大則主題間的差距越大,主題的質(zhì)量越高,公式如(8)所示.
目前國(guó)內(nèi)具有豐富的醫(yī)療評(píng)論信息網(wǎng)站,其中,大眾點(diǎn)評(píng)網(wǎng)(http://www.dianping.com)是中國(guó)知名的第三方綜合服務(wù)評(píng)價(jià)網(wǎng)站,醫(yī)療服務(wù)作為服務(wù)的一種,人們也常在大眾點(diǎn)評(píng)網(wǎng)發(fā)表醫(yī)療服務(wù)的相關(guān)評(píng)論. 相比于一些在線(xiàn)醫(yī)療評(píng)論網(wǎng)站只針對(duì)醫(yī)生進(jìn)行評(píng)價(jià)的特點(diǎn),用戶(hù)在大眾點(diǎn)評(píng)網(wǎng)可以針對(duì)不同醫(yī)療機(jī)構(gòu)做出評(píng)價(jià),尤其是大眾點(diǎn)評(píng)網(wǎng)可以定位到不同的城市,且針對(duì)不同城市的三甲醫(yī)院,均有用戶(hù)發(fā)表一定數(shù)量的評(píng)論. 因此利用Python 爬取大眾點(diǎn)評(píng)網(wǎng)上北京地區(qū)和西部地區(qū)所有省份(或直轄市)的在線(xiàn)醫(yī)療評(píng)論,獲取總計(jì)31 399 條在線(xiàn)評(píng)論信息,隨機(jī)抽取22 000 條評(píng)論作為原始評(píng)論語(yǔ)料庫(kù). 利用Python 程序進(jìn)行評(píng)論文本預(yù)處理后得到最終的規(guī)范語(yǔ)料庫(kù),共18 904 條在線(xiàn)醫(yī)療評(píng)論文本.
3.2.1 詞對(duì)語(yǔ)義相關(guān)性計(jì)算
STUDHOLME[11]等提出基于歸一化互信息的方法,彌補(bǔ)了互信息方法的不足. 歸一化互信息可以有效平滑配準(zhǔn)函數(shù),提高配準(zhǔn)精度,較傳統(tǒng)的互信息具有更強(qiáng)的魯棒性,因此本文采用歸一化互信息作為相似性測(cè)度. 從規(guī)范評(píng)論語(yǔ)料庫(kù)中隨機(jī)抽取10 000 條評(píng)論數(shù)據(jù)進(jìn)行實(shí)驗(yàn),獲取所有詞對(duì)后,計(jì)算詞對(duì)中兩個(gè)詞語(yǔ)的歸一化互信息NPMI,來(lái)衡量詞語(yǔ)間的語(yǔ)義相關(guān)性,表1 為通過(guò)計(jì)算NPMI 得到的部分詞語(yǔ)間的語(yǔ)義相關(guān)性.
表1 部分詞語(yǔ)間的語(yǔ)義相關(guān)性Tab. 1 Semantic correlation between some words
從表1 可以看出,詞對(duì)中的兩個(gè)詞語(yǔ)經(jīng)常在一起出現(xiàn)時(shí),會(huì)得到較高的語(yǔ)義相關(guān)性,如“{核酸,檢測(cè)}”這一詞對(duì). 從結(jié)果看,利用詞共現(xiàn)計(jì)算出的語(yǔ)義相關(guān)性和人們的主觀(guān)認(rèn)知基本相同.
3.2.2 閾值選取
主題一致性不僅取決于COA-BTM 主題模型算法本身,還取決于閾值 ε的選擇. 通過(guò)選取不同的閾值 ε來(lái)對(duì)模型進(jìn)行對(duì)比驗(yàn)證,選取最好的TC 值對(duì)應(yīng)的閾值 ε. 根據(jù)計(jì)算所得的語(yǔ)義相關(guān)性的范圍,分別選取閾值 ε為0.1、0.2、0.3、0.4、0.5,選取語(yǔ)義相關(guān)性大于閾值 ε的詞對(duì). 參考經(jīng)驗(yàn)值[12]將參數(shù) α設(shè)置為50/k, β設(shè)置為0.01. 分別設(shè)置主題數(shù)k為5、10、15、20,取3 次實(shí)驗(yàn)的平均值,得到的主題一致性結(jié)果如圖3 所示.
圖3 不同閾值的主題一致性Fig. 3 Topic consistency for different thresholds
根據(jù)圖3 中的數(shù)據(jù)和折線(xiàn)走勢(shì)可以看出,當(dāng)閾值 ε=0.2 時(shí),主題一致性最高,而當(dāng)閾值繼續(xù)上升時(shí),由于醫(yī)療評(píng)論短文本中的詞語(yǔ)數(shù)量較少,內(nèi)容比較稀疏,對(duì)其進(jìn)行詞共現(xiàn)分析時(shí)不會(huì)存在很多的雙詞,且對(duì)于大部分評(píng)論,并不會(huì)存在語(yǔ)義相關(guān)性特別高的詞對(duì),造成采樣時(shí)詞對(duì)更加稀疏,不能得到更高的主題一致性. 而當(dāng)閾值設(shè)置得過(guò)小時(shí),雖然詞對(duì)數(shù)量相對(duì)較多,但詞對(duì)間的語(yǔ)義相關(guān)性不大,也不能獲得良好的挖掘效果. 通過(guò)分析發(fā)現(xiàn),雖然主題數(shù)量的選取不同,但是閾值ε=0.2 時(shí)取得的主題一致性都是最高的,因此選取閾值ε=0.2 來(lái)進(jìn)行詞對(duì)的篩選.
3.2.3 基于COA-BTM 模型的醫(yī)療評(píng)論主題挖掘
為了驗(yàn)證本文提出的COA-BTM 主題模型算法對(duì)在線(xiàn)醫(yī)療評(píng)論文本挖掘的有效性,將本算法與LDA 和BTM 主題模型進(jìn)行對(duì)比. 將參數(shù)統(tǒng)一設(shè)定,并利用主題一致性和JS 散度來(lái)驗(yàn)證主題挖掘效果.首先將參數(shù)統(tǒng)一設(shè)定為 α=50/k, β=0.01,迭代次數(shù)為1 000 次. 然后分別設(shè)置主題數(shù)為5、10、15、20、25,對(duì)于COA-BTM 模型,參考3.2.2 節(jié)的實(shí)驗(yàn)結(jié)果,設(shè)置閾值 ε=0.2 來(lái)篩選語(yǔ)義相關(guān)性大于閾值的詞對(duì),實(shí)驗(yàn)結(jié)果如表2 所示.
表2 不同主題模型實(shí)驗(yàn)結(jié)果Tab. 2 Experimental results of different subject models
從COA-BTM、LDA、BTM 三種主題模型的實(shí)驗(yàn)結(jié)果來(lái)看,所提出的COA-BTM 主題模型算法在醫(yī)療評(píng)論文本上具有更高的主題一致性和JS 散度. 且在不同的主題數(shù)下, COA-BTM 主題模型相較于LDA 和BTM 主題模型均具有更高的主題一致性和JS 散度,說(shuō)明了COA-BTM 主題模型挖掘結(jié)果的主題內(nèi)聚性更高,主題間離散性更大. 因此COA-BTM主題模型在醫(yī)療評(píng)論挖掘中具有更好的效果,因此對(duì)在線(xiàn)醫(yī)療評(píng)論文本有良好的適用性,證明了此算法的有效性.
3.2.4 醫(yī)療評(píng)論主題挖掘
基于3.2.3 節(jié)得知,模型中不同主題數(shù)得到的結(jié)果的主題一致性和JS 散度不同,因此主題數(shù)k直接影響主題挖掘結(jié)果的質(zhì)量. 使用困惑度來(lái)確定最優(yōu)主 題 數(shù)k值,分 別 選 取 主 題 數(shù) 為 5、10、······、150,困惑度計(jì)算結(jié)果如圖4 所示.
圖4 不同主題數(shù)下的COA-BTM 模型困惑度Fig. 4 Confusion degree of coa-btm model under different subject numbers
由圖4 可以得知,困惑度與主題數(shù)量呈反向趨勢(shì),且隨著主題數(shù)增大,困惑度下降的速率逐漸變慢,主題數(shù)再增加時(shí)不會(huì)有明顯的改善效果,而且會(huì)提高模型的復(fù)雜程度,可能會(huì)導(dǎo)致過(guò)擬合. 綜合考慮,困惑度在主題數(shù)為150 時(shí)逐漸趨于平穩(wěn),且此時(shí)的時(shí)間空間成本不會(huì)太大,為了防止出現(xiàn)過(guò)擬合現(xiàn)象,本文選擇主題數(shù)k=150. 并且選取每個(gè)主題中主題-詞分布排名前10 的詞語(yǔ)作為特征描述詞,此時(shí)主題具有較強(qiáng)的可讀性. 同時(shí)根據(jù)上一節(jié)的經(jīng)驗(yàn),設(shè)置參數(shù) α=50/k, β=0.01,使 用COA-BTM 主 題 模型 對(duì) 規(guī)范評(píng)論語(yǔ)料庫(kù)進(jìn)行主題特征挖掘,部分主題特征示例如表3 所示.
表3 部分主題特征示例Tab. 3 Examples of some topic features
基于改進(jìn)的BTM 模型進(jìn)行醫(yī)療評(píng)論主題挖掘,可以提高主題挖掘的質(zhì)量. 在此基礎(chǔ)上將結(jié)合SERVQUAL 模型的五性,識(shí)別醫(yī)療服務(wù)質(zhì)量影響因素.
國(guó)內(nèi)外醫(yī)療服務(wù)質(zhì)量影響因素相關(guān)研究表明在線(xiàn)評(píng)論體現(xiàn)了患者的真實(shí)就醫(yī)體驗(yàn),包含大量有關(guān)醫(yī)療服務(wù)質(zhì)量的信息,直接體現(xiàn)了患者的需求. 張琪運(yùn)用Probit 對(duì)醫(yī)療服務(wù)質(zhì)量影響因素研究得出就醫(yī)體驗(yàn)類(lèi)指標(biāo),如醫(yī)生給予尊重等對(duì)醫(yī)療服務(wù)質(zhì)量影響顯著[13]. 毛瑛通過(guò)患者感知的中介效應(yīng)分析得出,就醫(yī)流程、醫(yī)生技術(shù)水平等因素對(duì)醫(yī)療服務(wù)質(zhì)量具有顯著影響[14]. 基于上述的在線(xiàn)醫(yī)療評(píng)論主題挖掘結(jié)果,結(jié)合服務(wù)質(zhì)量SERVQUAL 模型五性的定義及組成進(jìn)行醫(yī)療服務(wù)質(zhì)量影響因素識(shí)別,識(shí)別流程如圖5 所示.
圖5 醫(yī)療服務(wù)質(zhì)量影響因素識(shí)別流程圖Fig. 5 Construction flow chart of influencing factor model of medical service quality
3.3.1 關(guān)鍵特征詞組選取
SERVQUAL 模型是常用服務(wù)質(zhì)量模型之一.SERVQUAL 為英文“Service Quality”(服務(wù)質(zhì)量)的縮寫(xiě)[15],包括有形性、可靠性、響應(yīng)性、保證性和移情性五個(gè)維度,每一維度又包含多個(gè)問(wèn)題. 根據(jù)SERVQUAL 模型的各維度定義及組成問(wèn)題篩選維度關(guān)鍵特征詞,同時(shí)對(duì)上一節(jié)得到的主題特征集進(jìn)行特征詞頻統(tǒng)計(jì),根據(jù)各維度的定義人工選取符合各維度的高頻詞,從而根據(jù)五性關(guān)鍵特征對(duì)主題詞進(jìn)行分組,由這兩部分組成各維度的關(guān)鍵特征詞組.
以“有形性”維度為例,展示關(guān)鍵特征詞選取的過(guò)程. SERVQUAL 模型的有形性指服務(wù)過(guò)程中的有形部分,包括現(xiàn)代化的設(shè)備等. 首先從SERVQUAL模型的有形性維度定義和組成問(wèn)題中抽取關(guān)鍵特征詞,如“設(shè)備”、“設(shè)施”、“穿著”、“服裝”、“外觀(guān)”,然后從主題特征集高頻詞中抽取符合有形性定義的關(guān)鍵特征詞,如“科室”、“機(jī)器”、“窗口”、“病房”、“床位”等,由這兩部分的關(guān)鍵特征詞取并集組成有形性維度的關(guān)鍵特征詞組,其他維度以同樣的步驟選取關(guān)鍵特征詞組. 最終得到的五性關(guān)鍵特征詞組如表4 所示.
表4 五性關(guān)鍵特征詞組Tab. 4 Five key characteristic phrases
3.3.2 醫(yī)療服務(wù)質(zhì)量因素識(shí)別結(jié)果分析
本文基于文本挖掘的結(jié)果和SERVQUAL 模型,以及上一小節(jié)得到的五性關(guān)鍵特征詞組,依據(jù)醫(yī)療領(lǐng)域相關(guān)特征,識(shí)別并總結(jié)得到五性維度下的42 個(gè)醫(yī)療服務(wù)質(zhì)量影響因素. 為了驗(yàn)證所識(shí)別的醫(yī)療服務(wù)質(zhì)量影響因素的有效性和全面性,查閱相關(guān)的文獻(xiàn)資料,分析以往的文獻(xiàn)中學(xué)者提出的醫(yī)療服務(wù)質(zhì)量影響因素. 例如,林金雄等[16]提出病房情況屬于有形性中的影響因素,羅海波等[17]提出就診等候時(shí)間屬于響應(yīng)性中的影響因素,張慧等[18]、范關(guān)榮等[19]、馬勇[20]提出治療效果屬于保證性中的影響因素,具體如表5 所示.以三甲醫(yī)院為代表,本文基于文本挖掘和SERVQUAL 模型識(shí)別的醫(yī)療服務(wù)質(zhì)量影響因素如圖6所示.
表5 醫(yī)療服務(wù)質(zhì)量影響因素文獻(xiàn)分析Tab. 5 Literature analysis on influencing factors of medical service quality
圖6 三甲醫(yī)院醫(yī)療服務(wù)質(zhì)量影響因素Fig. 6 Influencing factors model of medical service quality in third class hospitals
將表5 文獻(xiàn)資料中已有的醫(yī)療服務(wù)質(zhì)量影響因素與圖6 中因素進(jìn)行對(duì)比發(fā)現(xiàn),基于改進(jìn)BTM 模型進(jìn)行在線(xiàn)醫(yī)療評(píng)論挖掘得到的結(jié)果包含文獻(xiàn)中不存在的醫(yī)療服務(wù)質(zhì)量影響因素,包括“醫(yī)院位置”、“停車(chē)設(shè)施”、“窗口分布”、“履行承諾”、“口碑聲望”、“診療記錄”、“醫(yī)生職稱(chēng)”、“掛號(hào)自助程度”、“預(yù)約平臺(tái)”、“號(hào)源情況”、“藥品種類(lèi)”、“支付渠道”、“共情能力”和“服務(wù)周到”,說(shuō)明利用本文提出的主題模型算法挖掘得到的醫(yī)療服務(wù)質(zhì)量影響因素,具有一定的可靠性和創(chuàng)新性.
根據(jù)在線(xiàn)醫(yī)療評(píng)論長(zhǎng)度短、語(yǔ)義稀疏的特點(diǎn),本文利用詞共現(xiàn)分析方法計(jì)算詞對(duì)的語(yǔ)義相關(guān)性,設(shè)置閾值改進(jìn)BTM 模型中詞對(duì)的篩選方式,提出基于詞共現(xiàn)分析的COA-BTM 主題模型,該算法在醫(yī)療評(píng)論文本上的挖掘結(jié)果相比LDA 主題模型和BTM主題模型具有更高的主題一致性和JS 散度,驗(yàn)證了此方法在醫(yī)療評(píng)論文本挖掘上的有效性和適用性,提高了在線(xiàn)醫(yī)療評(píng)論主題挖掘的質(zhì)量. 基于主題挖掘的結(jié)果,并參考SERVQUAL 模型的五性,通過(guò)關(guān)鍵特征詞組選取等過(guò)程,識(shí)別了三甲醫(yī)院醫(yī)療服務(wù)質(zhì)量的影響因素. 本研究依然存在一些有待改進(jìn)之處,后期實(shí)驗(yàn)可以針對(duì)多個(gè)平臺(tái)的醫(yī)療評(píng)論文本展開(kāi)研究,并可進(jìn)一步分析患者對(duì)醫(yī)療服務(wù)質(zhì)量的滿(mǎn)意度.