張錦紅 張云華
摘要:本文采用CTM主題模型對現(xiàn)有的在線醫(yī)生專家推薦模型進(jìn)行優(yōu)化,首先利用患者提出的健康問題,得到問題-主題概率分布,然后根據(jù)醫(yī)生歷史回答的所有問題得到醫(yī)生-主題概率分布,接著對得到的兩項分布用杰卡德相似系數(shù)計算方法計算相似度,進(jìn)而將主題相似度高的醫(yī)生列表推薦給患者。實驗階段先對好大夫在線輕問診模塊的過敏反應(yīng)科的數(shù)據(jù)進(jìn)行采集和處理,再進(jìn)行建模與測試,結(jié)果證實本文提出的醫(yī)生推薦方法比該科室現(xiàn)存推薦方法更高效。
關(guān)鍵詞:CTM;專家推薦;在線輕問診
【Abstract】ThispaperusestheCTMtopicmodeltooptimizetheexistingonlinedoctorexpertrecommendationmodel.Firstly,thepaperusesthehealthquestionsraisedbythepatienttoobtainthequestion-topicprobabilitydistribution,secondlyobtainsthedoctor-topicprobabilitydistributionbasedonallthequestionsansweredbythedoctor'shistory.ThenthepaperusestheJackardsimilaritycoefficientcalculationmethodtocalculatethesimilarityoftheobtainedtwodistributions,finallyrecommendsalistofdoctorswithhightopicsimilaritytothepatient.Intheexperimentalstage,thedataoftheAllergicReactionsDepartmentoftheDoctorOnlineInquiryModuleiscollectedandprocessed,andmodelingandtestingareperformed.Theresultsconfirmthatthedoctorrecommendationmethodproposedinthisarticleismoreefficientthantheexistingrecommendationmethodinthedepartment.
【Keywords】CTM;expertrecommendation;onlinelightconsultation
作者簡介:張錦紅(1996-),女,碩士研究生,主要研究方向:軟件工程、智能信息處理;張云華(1965-),男,博士,研究員,主要研究方向:軟件工程、系統(tǒng)仿真、智能信息處理。
0引言
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展及廣泛應(yīng)用,醫(yī)療也不再局限于線下看醫(yī)生,很多輕微疾病用戶會選擇在互聯(lián)網(wǎng)上咨詢疾病問題。此時,患者會在就醫(yī)網(wǎng)站上訴說自己的身體狀況,醫(yī)生根據(jù)患者的病情描述回答患者的問題并同步給出健康問題解決方案[1],可以達(dá)到資源合理配置的效果。雖然就目前來講在線醫(yī)療輕問診醫(yī)生推薦研究取得了很大的突破,但有些方面仍然亟待優(yōu)化,主要包括以下3點:
(1)當(dāng)患者根據(jù)自身的健康狀況在網(wǎng)絡(luò)上尋求幫助時,往往因為信息量過大、且在描述上有失精準(zhǔn)而顯得無所適從。再者,部分患者幾乎不了解相關(guān)醫(yī)學(xué)知識,就可能在選擇合適醫(yī)生進(jìn)行輕問診上存在困難,而選定醫(yī)生也因為患者問詢診治領(lǐng)域與自身專業(yè)方向并不匹配,如此就失去了在線醫(yī)療解決身體小疾患的意義。
(2)當(dāng)前已推出不少提供患者和醫(yī)生在線溝通的互聯(lián)網(wǎng)平臺,但醫(yī)生卻要在大量的咨詢中耗費精力篩選自己可以解答的問題,醫(yī)生資源得不到充分利用,大大降低了在線輕問診的效率。
(3)目前在線醫(yī)療輕問診平臺中,用戶不能及時得到解答服務(wù),從尋求幫助到得到方案需要的時間具有不確定性[2]。因此,通過科學(xué)合理的專家推薦方法來充分利用醫(yī)生資源以及提升用戶滿意度就顯得尤為必要[3]。
綜合前面問題所述,本文擬研究面向在線患者輕問診的醫(yī)生推薦主題模型,通過利用患者提出的待匹配健康問題與醫(yī)生專家的歷史回答健康問題的主題提取以及主題相似度的匹配,當(dāng)患者提問時將合適的醫(yī)生推薦給患者,并將患者的病情推送給專業(yè)的醫(yī)生做病理解析,在一定程度上能夠確?;颊呖旖荨⒏咝У孬@得健康問題解決方案,同時提高在線醫(yī)療輕問診服務(wù)的效率和準(zhǔn)確性及有效性[4]。
1研究綜述
與傳統(tǒng)的關(guān)鍵字檢索相比,社區(qū)問答系統(tǒng)能更好地滿足用戶對快速、準(zhǔn)確獲取信息的需求。因此,對問題的精準(zhǔn)處理可以有效幫助社區(qū)問答系統(tǒng)抽取出更好的答案[5]。
主題識別主要通過共詞分析和概率模型來實現(xiàn),并抽取詞匯來對主題進(jìn)行表征[6]。迄今為止,主題模型已經(jīng)發(fā)展了20余年,作為篇章級別文本語義理解的重要工具,pLSA(probabilisticLatentSemanticAnalysis)就成為早期概率主題模型的典型代表。隨后,Blei等人在2003年提出的LDA模型則標(biāo)志著對主題模型的研究進(jìn)入熱潮。
隱含狄利克雷分布(LatentDirichletAllocation,LDA)是常見的主題模型。由于LDA是非監(jiān)督學(xué)習(xí)模型,本身不可直接用于分類,需將其嵌入到適合的分類算法中。許多學(xué)者基于LDA模型建立主題模型,包括Blei和Lafferty提出的相關(guān)主題模型(CTM)[7]、Li和AndrewMcCallum用無向圖表示文檔隱含主題結(jié)構(gòu)的PAM模型[8]以及RosenZvi等人提出的作者主題模型(ATM)[9]等等。
其中,CTM主題模型可以很好地展現(xiàn)主題間的相關(guān)性,并且文本主題數(shù)目對CTM模型的性能相當(dāng)重要。LDA主題模型采用狄利克雷分布(Dirichletdistribution)模擬文檔生成過程,CTM用對數(shù)正態(tài)分布替換LDA的狄利克雷分布對文檔集隱含的主題進(jìn)行提取,并引入?yún)f(xié)方差矩陣來描述主題間的相關(guān)性,解決了LDA主題之間不相關(guān)的問題[10]。
CTM主題模型的框架如圖2所示。此模型假定某個詞匯擁有豐富的語義信息,某個主題的語句會含有和此主題相關(guān)的詞匯。便可以通過探索語料庫中頻繁組合出現(xiàn)的詞匯組來挖掘深層次的主題信息。利用這一方法,把待分析的文檔建模成為擁有潛在主題信息的隨機混合模型,模型中的語句含有的每個主題特征取決于語句中單詞的特定分布,即為主題-詞匯分布。
2基于CTM構(gòu)建在線輕問診醫(yī)生推薦模型
常規(guī)的推薦算法大體上是根據(jù)問題和醫(yī)生的二元關(guān)系來建立推薦模型,與傳統(tǒng)的推薦算法相比,本文擬要建立的是問題-專長-醫(yī)生的三元關(guān)系模型。三元模型能最大化地提高醫(yī)生回答效率以及改善用戶體驗。當(dāng)對文本進(jìn)行提取時,對于健康問題的主題之間則會存在相關(guān)性,語句中包含的每個主題并非是完全獨立的,本文選用的CTM模型就能很好地解決這個問題。本次研究分3個步驟完成在線輕問診醫(yī)生的推薦,整體的步驟流程框架如圖3所示[11]。
2.1醫(yī)生專長信息提取
醫(yī)生專長信息提取主要思想是采集某科室中某醫(yī)生歷史回答問題集合進(jìn)行建模,在此基礎(chǔ)上進(jìn)行監(jiān)督學(xué)習(xí),從而得到該醫(yī)生回答問題的主題信息,對醫(yī)生來說,該主題即是其在某科室的專長。為找到醫(yī)生專長,本文用到的是CTM主題模型,其模型如圖4所示。
圖4中,K表示某科室內(nèi)醫(yī)生以往回答健康問題的集合,D表示某個問題的長度,矩形框表示進(jìn)行迭代的次數(shù),Wd,n表示第d個問題中的第n個詞,問題庫中所有詞構(gòu)成集合V,Wd表示問題d中所有Nd個詞構(gòu)成的Nd維向量,主題β是V上的分布。每個醫(yī)生的過往回答健康問題集合都對應(yīng)一個主題混合比例向量θd,θd是主題上的分布,既反映了問題庫d中單詞取主題集中每個主題的概率,也考慮了使用多項式分布η=log(θi/θk)進(jìn)行自然參數(shù)化處理[12]。
2.2待匹配健康問題主題提取
由于患者的醫(yī)學(xué)涉獵較為有限,一個健康問題的醫(yī)學(xué)專用術(shù)語并不明確,很難清晰地得到含蘊其間的醫(yī)學(xué)主題?;诖?,通過訪問待匹配健康問題科室的問題集合文本,從中提取該科室涉及到的醫(yī)學(xué)主題,可以得到訪問科室健康問題的主題分布,即可推斷待問答健康問題所含有的醫(yī)學(xué)主題。因為健康問題是流動的,即使一句簡單的問題也可能涉及到多個醫(yī)學(xué)主題,為了獲得健康問題主題分布,本文采用增量吉布斯采樣(IncrementalGibbsSample)對訪問科室內(nèi)健康問題集合進(jìn)行參數(shù)估計,獲取健康問題-主題的概率分布θ以及主題-詞項的概率分布β。
2.3醫(yī)生推薦
在線輕問診醫(yī)生推薦的目的是為患者提出的健康問題高效地匹配到專業(yè)的醫(yī)生,當(dāng)提取到科室醫(yī)生的專長信息以及輕問診健康問題的主題時,只需要計算相關(guān)的主題相似度,就能夠為提出問題的患者找到最適宜的醫(yī)生專家。本文采用的是杰卡德相似系數(shù)(JaccardSimilarity)計算方法,系數(shù)越大,表明醫(yī)生專長與待回答輕問診健康問題的內(nèi)容就越相似。主要步驟為:
Step1從科室醫(yī)生名單中獲取某位醫(yī)生的專長關(guān)鍵詞記為U。
Step2選取一個訪問該科室的健康問題,記問題關(guān)鍵詞集合為V。采用杰卡德相似系數(shù)方法計算醫(yī)生回答問題庫與待回答輕問診問題的相似度,即集合U和集合V的交集元素/并集元素。
Step3選取下一個訪問該科室的健康問題,重復(fù)Step1和Step2,直到所有訪問該科室的健康問題遍歷完畢。
Step4選取下一個醫(yī)生,重復(fù)Step1和Step2,直到所有醫(yī)生遍歷完畢。至此,得到了該科室醫(yī)生與健康問題的主題相似度集合,根據(jù)集合中最大的前n個數(shù)給輕問診問題匹配合適的n個醫(yī)生。
3實驗結(jié)果與結(jié)果分析
3.1數(shù)據(jù)收集與處理
考慮到數(shù)據(jù)的真實有效以及規(guī)模性,本文的數(shù)據(jù)來源為知名互聯(lián)網(wǎng)醫(yī)療網(wǎng)站好大夫。皮膚科中的過敏反應(yīng)科是比較常見并且涉及到的健康問題比較輕微的科室,尋求在線輕問診解決健康問題的患者比較普遍。因此本文采用網(wǎng)絡(luò)爬蟲技術(shù)收集該網(wǎng)站截止到2020年11月15日的所有過敏反應(yīng)科醫(yī)生在線輕問診的過往回答問題為研究樣例,其中過敏反應(yīng)科醫(yī)生為235位,健康問題為最新產(chǎn)生的30萬條輕問診問題,問題中的28736條被患者接受。
在好大夫網(wǎng)站采集到的原始數(shù)據(jù)存在著噪聲,需在做處理后才能將其用于分析和主題挖掘。在使用CTM模型對健康問題集合進(jìn)行建模前,通過利用中文分詞、醫(yī)學(xué)專業(yè)詞識別、停用詞過濾等方法對每個健康問題集合進(jìn)行預(yù)處理,這樣就降低了問題集的空間維度,從而提高了建模效率[13]。對于中文分詞,因為健康問題集合數(shù)據(jù)龐大,本文采用的是統(tǒng)計分詞的算法,基于統(tǒng)計學(xué)的機器學(xué)習(xí)模型對數(shù)據(jù)進(jìn)行訓(xùn)練[14]。對于醫(yī)學(xué)專業(yè)詞識別,考慮到健康問題中涉及到例如藥名、疾病名稱等醫(yī)學(xué)健康詞匯,因此就要在用戶詞典中添加從互聯(lián)網(wǎng)收集到的醫(yī)學(xué)詞庫,旨在能夠高效識別涉及到的醫(yī)學(xué)方面用語[15]。對于停用詞過濾,是因為分詞后得到的問題集還是會存在大量的冗余,比如“在”、“的”等詞匯,這些詞匯對于文本語義分析以及主題的提取并無用處,而且還會降低建模效率。針對這個問題,本文使用哈工大停用詞表來篩選語料中的高頻通用詞和低頻詞,以獲得噪聲較小的數(shù)據(jù)集,藉此來提高建模的效率[16]。
3.2模型構(gòu)建
截止到2020年11月15日,好大夫在線過敏反應(yīng)科的235名醫(yī)生全都參與過最新的30萬個問題。選取25萬個健康問題作為訓(xùn)練集,其余的5萬個健康問題作為測試集。好大夫在線從用戶的健康提問和醫(yī)生對問題的解答中自動識別出關(guān)鍵詞來作為主題,這就完善了用戶因為不了解醫(yī)學(xué)專有名詞而導(dǎo)致的健康狀況不明確等問題。對過敏反應(yīng)科以往回答過的過敏反應(yīng)問題集的主題標(biāo)簽進(jìn)行統(tǒng)計,合計獲取了13026個主題標(biāo)簽。使用停用詞過濾后,選取出現(xiàn)頻率最多的前600個主題作為模型訓(xùn)練的主題標(biāo)簽。
把這600個主題分布在235名過敏反應(yīng)科醫(yī)生的健康問題集合上,通過CTM模型訓(xùn)練,獲取到每一位過敏反應(yīng)科醫(yī)生在各個主題上的概率分布,即獲取醫(yī)生專長,部分實驗結(jié)果如圖5所示。
圖5中的每個子圖就是一個過敏反應(yīng)科醫(yī)生的主題分布,其中主題標(biāo)識為橫坐標(biāo),醫(yī)生與主題的分布概率為縱坐標(biāo),每個點的大小反映了分布概率的大小。通過觀測實驗結(jié)果,可以發(fā)現(xiàn)不同的醫(yī)生存在不同的專長分布,并且有些醫(yī)生可以解答多個主題的健康問題,有些醫(yī)生卻僅會解答某個主題的健康問題,還存在一些醫(yī)生對多個主題雖都有涉及,但卻未能提取出特別擅長的主題。
3.3模型測試
使用訓(xùn)練后的模型對600個主題測試集進(jìn)行主題分布預(yù)測,其中主題標(biāo)簽為橫坐標(biāo),測試問題集里面的健康問題為縱坐標(biāo)。經(jīng)過CTM主題模型訓(xùn)練得到每個健康問題在主題標(biāo)簽庫上的概率分布情況,部分實驗結(jié)果如圖6所示。
圖6中的每個子圖反映的是測試集中的一個健康問題在主題上的概率分布情況。從分布情況來看,有些患者提出的健康問題主題特點明確,只涉及少數(shù)的主題,有些患者提出的健康問題涉及到多個主題并且概率都偏高,表明這些醫(yī)學(xué)主題之間都將存在相關(guān)性,而本文采用的CTM模型能有效解決該問題。
3.4結(jié)果分析
對于本文提出的在線醫(yī)生推薦模型的效果測評,先將測試集中的5000個健康問題隨機分成5組,即每1000個為一組,使用本文方法產(chǎn)生醫(yī)生推薦列表,其中限制的在線醫(yī)生數(shù)量為8,對5組問題集分別計算準(zhǔn)確率、召回率和MRR[17]。結(jié)果見表1。
由表1中數(shù)據(jù)可以看到,5個分組的推薦情況都相對穩(wěn)定,準(zhǔn)確率和召回率都在40%左右,變化浮動小,并且兩者相差較小。存在一些組的MRR值變化較大,容易被極端值所影響,經(jīng)分析是由于235名過敏反應(yīng)科醫(yī)生參與網(wǎng)站回答醫(yī)療的時間跨度很大,有些醫(yī)生注冊網(wǎng)站時間久、回答的問題規(guī)模比較大,所以主題分布更高效清晰,還有一些醫(yī)生新近加入網(wǎng)站,在線回答問題量偏少,仍無法完全提取得到其專長。由于新醫(yī)生主題分布不明顯,容易排在推薦醫(yī)生列表的后面,如果某個患者采納的是新加入醫(yī)生的解答,那么就會對MRR值產(chǎn)生影響。
為了驗證本文提出的在線醫(yī)生推薦的有效性,對過敏反應(yīng)科使用該方法與好大夫在線已存在的指標(biāo)展開對比,對比結(jié)果見表2。
由表2中數(shù)據(jù)分析可知,準(zhǔn)確率為過敏反應(yīng)科問題采納次數(shù)/過敏反應(yīng)科問題總數(shù),召回率為過敏反應(yīng)科醫(yī)生回答總次數(shù)/所有醫(yī)生回答總次數(shù),回答采納比為過敏反應(yīng)科問題采納次數(shù)/過敏反應(yīng)科醫(yī)生回答總次數(shù)。結(jié)合好大夫網(wǎng)站現(xiàn)有指標(biāo)對比發(fā)現(xiàn),本文提出的專家推薦系統(tǒng)從準(zhǔn)確率、召回率以及回答采納比都優(yōu)于好大夫在線過敏反應(yīng)科的現(xiàn)有指標(biāo),充分證實了該系統(tǒng)對在線醫(yī)生推薦的高效性。
4結(jié)束語
目前的在線醫(yī)生推薦研究中,現(xiàn)有的一些方法忽略了醫(yī)生專長之間有關(guān)聯(lián)以及描述的健康問題主題之間的關(guān)聯(lián)性,導(dǎo)致獲取的主題分布繁雜且無側(cè)重。對于在線醫(yī)生推薦,不僅要關(guān)注模型的主題詞提取效果和分類準(zhǔn)確性,同時還需要考慮模型能否兼顧主題之間的聯(lián)系。在這種情景下,本文采用的CTM模型可以很好地解決這個問題:先用模型訓(xùn)練患者提出的健康問題,得到問題-主題概率分布,其次利用科室內(nèi)的每個醫(yī)生歷史回答問題集合得到醫(yī)生-主題概率分布,接著對得到的2項分布用杰卡德相似系數(shù)計算方法計算相似度,稍后將杰卡德相似系數(shù)大的、即主題相似度高的醫(yī)生列表推薦給患者。最后,通過對好大夫在線過敏反應(yīng)科的數(shù)據(jù)進(jìn)行建模與測試,實驗結(jié)果充分證明了本文提出的醫(yī)生推薦方法比網(wǎng)站該科室現(xiàn)存推薦方法更高效。
對于本文提出的推薦模型也存在不足,例如有一些醫(yī)生注冊該網(wǎng)站時間不長,回答患者問題的積累量偏少,其專長無法得到完全提取,會導(dǎo)致該新醫(yī)生即便很適合回答某個健康問題,但因為自身的主題分布不明顯,而排在該問題推薦醫(yī)生列表的后面將無法反饋給患者。后續(xù)亟需對這個問題進(jìn)行特殊的處理,即對新加入醫(yī)生的專長進(jìn)行優(yōu)化提取,以此來提高系統(tǒng)整體效率和用戶滿意度。另外,本文提出的方法默認(rèn)患者是知道自己的健康問題屬于哪個科室,在該科室有醫(yī)生能幫助自己,所以針對一些對自身疾病存在盲區(qū)的患者,需要配合健康問題和醫(yī)院科室選擇的系統(tǒng)結(jié)合使用。
參考文獻(xiàn)
[1]林悅.“互聯(lián)網(wǎng)+智慧醫(yī)療”現(xiàn)狀及發(fā)展展望[J].中國醫(yī)療器械信息,2019,25(18):15-16.
[2]刁必頌.基于在線患者咨詢數(shù)據(jù)的在線醫(yī)生推薦系統(tǒng)研究[D].北京:北京理工大學(xué),2016.
[3]朱利,岳愛珍.健康問題和醫(yī)生匹配機制的研究[J].西安交通大學(xué)學(xué)報,2014,48(12):57-62,139.
[4]楊曉夫,秦函書.基于電子病歷利用矩陣乘法構(gòu)建醫(yī)生推薦模型[J].計算機與現(xiàn)代化,2019(06):81-86,97.
[5]朱龍霞.面向中文問答系統(tǒng)問題分析與答案抽取方法研究[D].石家莊:河北科技大學(xué),2018.
[6]張金柱,于文倩.基于短語表示學(xué)習(xí)的主題識別及其表征詞抽取方法研究[J/OL].數(shù)據(jù)分析與知識發(fā)現(xiàn):1-13[2020-10-22].https://kns.cnki.net/kcms/detail/10.1478.g2.20201022.1158.002.html.
[7]JURCZYKP,AGICHTEINE.Discoveringauthoritiesinquestionanswercommunitiesbyusinglinkanalysis[C]//SixteenthACMConferenceonInformationandKnowledgeManagement,CIKM2007.Lisbon,Portugal,November.DBLP,2007:919-922.
[8]BOUGUESSAM,DUMOULINB,WANGShengrui.Identifyingauthoritativeactorsinquestion-answeringforums:thecaseofYahoo!answers[C]//Proceedingsofthe14thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.LasVegas,Nevada,USA:ACM,2008:866-874.
[9]BLEIDM,LAFFERTYJD.Correlatedtopicmodels[C]//AdvancesinNeuralInformationProcessingSystems.Vancouver,BritishColumbia,Canada:dblp,2005,18:147-154.
[10]史盛楠.CTM主題模型在學(xué)科主題識別與學(xué)科文獻(xiàn)分類中的應(yīng)用研究[D].曲阜:曲阜師范大學(xué),2019.
[11]潘有能,倪秀麗.基于Labeled-LDA模型的在線醫(yī)療專家推薦研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(4):34-43.
[12]楊正良.優(yōu)化特征選擇的CTM模型在文本分類中的應(yīng)用研究[D].武漢:華中師范大學(xué),2016.
[13]丁勇,程家橋,蔣翠清,等.基于主題和關(guān)鍵詞特征的比較文本分類方法[J/OL].計算機工程與應(yīng)用:1-9[2020-11-02].http:///KCMS/detail/11.2127.tp.20201026.0911.002.html.
[14]李國壘,陳先來,夏冬,等.中文病歷文本分詞方法研究[J].中國生物醫(yī)學(xué)工程學(xué)報,2016,35(4):477-481.
[15]王月瑤.面向醫(yī)療文本檢索的查詢重構(gòu)技術(shù)研究與實現(xiàn)[D].上海:華東師范大學(xué),2018.
[16]王凡,夏晨曦.中文醫(yī)學(xué)摘要主題建模方法評估[J].醫(yī)學(xué)信息學(xué)雜志,2018,39(2):60-64.
[17]單國棟,肖彥翠,王皓.基于主題模型的中外期刊文獻(xiàn)挖掘?qū)Ρ妊芯縖J].長春大學(xué)學(xué)報(自然科學(xué)版),2019,29(3):23-29.