張玉潔 丁翔宇
摘 ?要:在線健康社區(qū)已成為公民進(jìn)行健康咨詢的重要平臺(tái),研究在線社區(qū)知識(shí)型節(jié)點(diǎn)間的行為路徑,有利于揭露問(wèn)答規(guī)律和事件發(fā)展邏輯,總結(jié)知識(shí)型節(jié)點(diǎn)之間的聯(lián)系,進(jìn)行知識(shí)路徑追蹤,為用戶提供最優(yōu)推送。從用戶交互信息出發(fā)進(jìn)行知識(shí)型節(jié)點(diǎn)的提取,識(shí)別關(guān)鍵知識(shí)型節(jié)點(diǎn)進(jìn)行事理圖譜的構(gòu)建,基于圖譜的邏輯關(guān)系,利用行為路徑融合用戶的協(xié)同過(guò)濾推薦算法識(shí)別關(guān)鍵路徑,將適合用戶需求的內(nèi)容推薦給用戶,有效解決用戶提問(wèn)難和提問(wèn)方法不準(zhǔn)確等問(wèn)題,提高在線健康社區(qū)推送的信息服務(wù)質(zhì)量。
關(guān)鍵詞:在線健康社區(qū);事理圖譜;行為路徑;協(xié)同過(guò)濾;最優(yōu)推送
中圖分類號(hào):TP391.3 ? 文獻(xiàn)標(biāo)識(shí)碼:A ? 文章編號(hào):2096-4706(2023)16-0151-05
Research on Recommendation Algorithm of Serious Diseases Knowledge Behavior in Social Media Based on Event Evolution Graph
ZHANG Yujie, DING Xiangyu
(Business School, Shandong University of Technology, Zibo ?255012, China)
Abstract: Online health community has become an important platform for citizens to conduct health consultation. The study of behavior paths among knowledge nodes in online communities is conducive to revealing the law of question and answer and the logic of event development, summarizing the connections between knowledge nodes, tracing knowledge paths, and providing users with optimal push. It starts from the user interaction information to extract knowledge nodes, identifies key knowledge nodes to construct the event evolution graph. Based on the logical relationship of the graph, it uses the collaborative filtering recommendation algorithm that integrates the user's behavior path to identify the critical path, and recommends the content suitable for user needs to the user, so as to effectively solve the problems such as difficult and inaccurate method to ask questions of user. And it improves the quality of information service pushed by online health communities.
Keywords: online health community; event evolution graph; behavior path; collaborative filtering; optimal push
0 ?引 ?言
隨著“健康中國(guó)2030”規(guī)劃[1]的落地,公民健康意識(shí)與信息素養(yǎng)正不斷提升,同時(shí)人口老齡化問(wèn)題嚴(yán)峻,日益增加的就醫(yī)需求給國(guó)家和社會(huì)的醫(yī)療資源造成了巨大的壓力,于是發(fā)展健康產(chǎn)業(yè)、優(yōu)化多元辦醫(yī)格局、完善健康服務(wù)新業(yè)態(tài)成為新時(shí)代發(fā)展藍(lán)圖?!盎ヂ?lián)網(wǎng)+醫(yī)療” 旨在推廣醫(yī)療衛(wèi)生在線的新模式,公民可以利用各種社交媒體平臺(tái)搜尋疾病相關(guān)癥狀的原因或解決辦法。中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心2023年3月2日在京發(fā)布的第51次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》稱,截至2022年12月互聯(lián)網(wǎng)醫(yī)療用戶規(guī)??蛇_(dá)3.63億,占網(wǎng)民整體的34%,同比增長(zhǎng)21.7%,成為當(dāng)年用戶規(guī)模增長(zhǎng)最快的應(yīng)用[2]。在新冠疫情期間,部分互聯(lián)網(wǎng)醫(yī)療信息服務(wù)平臺(tái)中用戶信息咨詢量同比增長(zhǎng)20多倍,在線醫(yī)療健康平臺(tái)已逐漸成為公民獲取醫(yī)療健康信息的重要途徑。
然而,現(xiàn)有的在線醫(yī)療健康信息平臺(tái)信息與服務(wù)質(zhì)量魚(yú)龍混雜、良莠不齊,并且僅針對(duì)所詢問(wèn)的問(wèn)題進(jìn)行回復(fù),未能考慮用戶查詢的相關(guān)需求信息,缺乏對(duì)事理邏輯這一重要人類知識(shí)的刻畫(huà)。在此背景下,本文提出了一種基于事理圖譜的社交媒體重疾問(wèn)答行為推薦算法研究的方法,針對(duì)在線健康平臺(tái)用戶問(wèn)答行為的過(guò)程進(jìn)行挖掘分析,揭露問(wèn)答規(guī)律和事件發(fā)展邏輯[3],總結(jié)知識(shí)型節(jié)點(diǎn)之間的聯(lián)系,進(jìn)行知識(shí)路徑追蹤。
1 ?文獻(xiàn)綜述
1.1 ?社交媒體問(wèn)答挖掘研究
隨人們生活質(zhì)量的不斷提高,在線醫(yī)療知識(shí)的挖掘在人工智能和大數(shù)據(jù)時(shí)代受到了學(xué)界的極大關(guān)注,已經(jīng)成為信息抽取和文本挖掘中的重要研究方向。但在面向在線社區(qū)社交媒體醫(yī)療問(wèn)答數(shù)據(jù)的挖掘與分析中,研究?jī)?nèi)容主要聚焦在健康社區(qū)信息主題內(nèi)容的挖掘、識(shí)別疾病實(shí)體并構(gòu)建圍繞該實(shí)體的用戶畫(huà)像、關(guān)鍵詞的最優(yōu)推送、研究問(wèn)答行為中用戶數(shù)據(jù)交互網(wǎng)絡(luò)等方面。其中針對(duì)疾病實(shí)體的識(shí)別,如張明淘[4]考慮到傳統(tǒng)的機(jī)器學(xué)習(xí)沒(méi)有涉及深層語(yǔ)義信息,便基于深度學(xué)習(xí)模型開(kāi)展對(duì)在線問(wèn)答社區(qū)醫(yī)療實(shí)體識(shí)別的研究;廖開(kāi)際[5]等提出兩種深度學(xué)習(xí)模型以及條件隨機(jī)場(chǎng)模型進(jìn)行疾病實(shí)體識(shí)別并驗(yàn)證;針對(duì)知識(shí)推送也有較為廣泛的研究,學(xué)者們依據(jù)不同準(zhǔn)則對(duì)用戶進(jìn)行分類分析,如指出社區(qū)內(nèi)存在信息分享者、信息需求者和社區(qū)陪伴者,對(duì)于不同類型的用戶進(jìn)行不同方面的推送;盛姝[6]等提出的利用知識(shí)庫(kù)與案例庫(kù)的半自動(dòng)構(gòu)建,對(duì)患者案例進(jìn)行風(fēng)險(xiǎn)劃分,進(jìn)而自動(dòng)推理診療方案。但以上研究對(duì)知識(shí)類別的推送僅僅考慮了與搜索關(guān)鍵詞一致的結(jié)果,為考慮事理邏輯之間的關(guān)系,如搜索疾病癥狀的用戶可能對(duì)治療方法或者醫(yī)院費(fèi)用等方面的知識(shí)感興趣。
1.2 ?推薦算法研究現(xiàn)狀
針對(duì)知識(shí)行為路徑推薦,常用的推薦算法有內(nèi)容推薦、標(biāo)簽推薦、物品協(xié)同過(guò)濾(Item CF)和用戶協(xié)同過(guò)濾(User CF)等,但是這些算法以及在它們基礎(chǔ)上的改進(jìn)算法大多偏向于關(guān)注用戶的顯性反饋行為(如點(diǎn)贊、標(biāo)簽、評(píng)分等),缺少對(duì)新用戶的識(shí)別推薦及知識(shí)行為順序的利用,導(dǎo)致推薦準(zhǔn)確率不夠高及冷啟動(dòng)等問(wèn)題。為了提高推薦精度,有學(xué)者將虛擬健康社區(qū)用戶生成的關(guān)鍵主題詞用圖譜的形式變現(xiàn)出來(lái),采用事理圖譜可以揭露問(wèn)答規(guī)律及事件發(fā)展邏輯,提出了一種基于圖譜的行為路徑協(xié)同過(guò)濾推薦算法[7],基于該事理圖譜的推薦算法依據(jù)知識(shí)行為之間的鏈接關(guān)系,將適合用戶需求的內(nèi)容推薦給用戶,包含用戶所查詢的內(nèi)容和相關(guān)內(nèi)容,有效解決用戶冷啟動(dòng)和推薦內(nèi)容不準(zhǔn)確等問(wèn)題。
2 ?知識(shí)型識(shí)別及推薦算法分析
2.1 ?知識(shí)型識(shí)別及推薦路徑構(gòu)建
用戶信息知識(shí)型識(shí)別及推薦算法研究的過(guò)程如圖1所示,首先利用獲取的在線健康數(shù)據(jù)構(gòu)建知識(shí)圖譜,明確知識(shí)節(jié)點(diǎn)和知識(shí)鏈接關(guān)系,為重疾知識(shí)推薦算法提供數(shù)據(jù)基礎(chǔ);其次,融合用戶的信息交互行為及對(duì)應(yīng)的文本信息,識(shí)別知識(shí)型種類,對(duì)醫(yī)療健康各方面的知識(shí)進(jìn)行劃分;最后,根據(jù)用戶的知識(shí)行為路徑總結(jié)歸納行為事理邏輯之間的聯(lián)系,根據(jù)用戶的查詢信息,給予最優(yōu)推送。
2.2 ?框架分析
2.2.1 ?事理圖譜構(gòu)建
構(gòu)建知識(shí)圖譜可提供實(shí)體之間更深層次和更長(zhǎng)范圍內(nèi)的關(guān)聯(lián),基于知識(shí)圖譜的社交媒體重疾知識(shí)推薦算法研究需要借助已有的知識(shí)圖譜—CMEKG中文醫(yī)學(xué)知識(shí)圖譜為基礎(chǔ),通過(guò)對(duì)各知識(shí)實(shí)體及相關(guān)屬性的識(shí)別,可以更好地認(rèn)識(shí)實(shí)體。首先,利用數(shù)據(jù)爬取的方式獲取相關(guān)重疾知識(shí)的數(shù)據(jù)(本文以在線社區(qū)膽系疾病QQ群聊天數(shù)據(jù)為例,共識(shí)別群中2 000余名用戶,197 650條交互數(shù)據(jù)),然后運(yùn)用Python+Pandas+NumPy技術(shù)對(duì)獲取數(shù)據(jù)進(jìn)行預(yù)處理,得到膽系疾病交流群中用戶交互的記錄,其中每一條交互信息包含咨詢用戶的昵稱、QQ號(hào)、咨詢問(wèn)題的時(shí)間、咨詢問(wèn)題的內(nèi)容以及需要交互的對(duì)象,將經(jīng)過(guò)預(yù)處理的數(shù)據(jù)存放至.csv文件;最后通過(guò)與詞性的結(jié)合完成知識(shí)圖譜的構(gòu)建。
2.2.2 ?知識(shí)型提取
基于事理圖譜的構(gòu)建的研究基礎(chǔ),本文對(duì)在線健康社區(qū)用戶知識(shí)交互行為進(jìn)行研究分析,使用python語(yǔ)言提取詞云,結(jié)合名醫(yī)百科、百度百科和醫(yī)學(xué)文獻(xiàn)構(gòu)建的詞典(如圖2所示),進(jìn)而歸納知識(shí)型類別,分別是術(shù)前檢查、疾病癥狀、術(shù)前治療、術(shù)后檢查、術(shù)后治療、醫(yī)院費(fèi)用6種知識(shí)型,知識(shí)型類別參數(shù)設(shè)置如表1所示。
在將要構(gòu)建的知識(shí)事理圖譜網(wǎng)絡(luò)中,知識(shí)型節(jié)點(diǎn)的大小代表節(jié)點(diǎn)度的大小,知識(shí)型節(jié)點(diǎn)之間的連接邊粗細(xì)代表知識(shí)型節(jié)點(diǎn)之間連接邊的權(quán)重大小,使用w(ki,kj)表示知識(shí)型ki與知識(shí)型kj之間交互權(quán)重。
2.2.3 ?協(xié)同推薦算法
本文將設(shè)計(jì)一種基于知識(shí)型節(jié)點(diǎn)的行為路徑融合用戶的協(xié)同過(guò)濾推薦算法PersonalRank-Collaborative Filtering,即兩種算法混合使用生成兩種推薦結(jié)果,最后合并,提高推薦的準(zhǔn)確性,擬解決部分用戶冷啟動(dòng)及咨詢方式不清楚問(wèn)題。
混合推薦算法步驟:
1)首先將用戶交互行為數(shù)據(jù)提取關(guān)鍵內(nèi)容,初始化為n個(gè)nodes =(a1,a2,a3,…,an),每個(gè)節(jié)點(diǎn)a存儲(chǔ)該行為的知識(shí)型類別,并在Neo4j中將這些節(jié)點(diǎn)構(gòu)建成初級(jí)知識(shí)型事理圖譜,簡(jiǎn)稱事理圖譜。
2)當(dāng)用戶輸入需要查詢的醫(yī)療健康關(guān)鍵內(nèi)容后,根據(jù)此判斷知識(shí)型類別,再根據(jù)用戶協(xié)同過(guò)濾算法直接生成第一種推薦結(jié)果,然后根據(jù)用戶輸入的知識(shí)型類別在長(zhǎng)周期內(nèi)產(chǎn)生該行為路徑所有類別的有序集合Routepid =(b1,b2,b3,…,bn),并在事理圖譜中根據(jù)行為順序進(jìn)行構(gòu)建行為路徑,pid表示知識(shí)型節(jié)點(diǎn)ID。
3)導(dǎo)出行為路徑進(jìn)行向量化處理。
4)計(jì)算行為路徑之間的相似度,從而得到第二種推薦結(jié)果。
5)將以上生成的兩種推薦結(jié)果合并,得到最終的推薦結(jié)果。
該算法的流程如圖3所示。
1)構(gòu)建知識(shí)型事理圖譜。以每條行為路徑的知識(shí)型為一個(gè)節(jié)點(diǎn),使用Cypher語(yǔ)言將每個(gè)知識(shí)型行為的m個(gè)屬性(a1,a2,a3,…,am)封裝為節(jié)點(diǎn),存入Neo4j數(shù)據(jù)庫(kù)。
2)行為路徑構(gòu)建。首先可以直接根據(jù)基于知識(shí)型節(jié)點(diǎn)的協(xié)同過(guò)濾算法直接向用戶推薦,生成第一種推薦結(jié)果,然后則取出路徑行為節(jié)點(diǎn)根據(jù)行為順序創(chuàng)建行為路徑。
由于事理圖譜中的用戶關(guān)鍵詞和知識(shí)型類別可以映射為推薦系統(tǒng)中用戶期望值較高的推薦類別及結(jié)果,并且可以從事理圖譜中知識(shí)型節(jié)點(diǎn)之間的聯(lián)系得到三個(gè)重要數(shù)據(jù):兩個(gè)節(jié)點(diǎn)之間的路徑數(shù);兩個(gè)節(jié)點(diǎn)之間路徑的長(zhǎng)度;兩個(gè)節(jié)點(diǎn)之間的路徑經(jīng)過(guò)的頂點(diǎn)可以構(gòu)成一個(gè)二分圖。
然后在二分圖中使用PersonalRank算法(隨機(jī)游走算法,實(shí)現(xiàn)基于事理圖譜的推薦,從而對(duì)用戶A進(jìn)行個(gè)性化推薦)可以算出該用戶比較關(guān)注的知識(shí)型內(nèi)容的所有訪問(wèn)概率,而得到的這些概率大小可以作為該用戶每個(gè)行為的優(yōu)先級(jí)大小,如定義行為優(yōu)先級(jí)(b1,b2,b3,…,bn),b代表單個(gè)行為,b1的優(yōu)先級(jí)最低,bn的優(yōu)先級(jí)最高。
PersonalRank算法步驟如下:
1)從用戶A節(jié)點(diǎn)開(kāi)始在用戶-知識(shí)型節(jié)點(diǎn)二分圖隨機(jī)游走,以alpha的概率從A的出邊中,等概率選擇一條游走過(guò)去。
2)到達(dá)該頂點(diǎn)后(舉例頂點(diǎn)a),由alpha的隨機(jī)游走概率繼續(xù)從頂點(diǎn)a的出邊集合out(v)中,等概率選擇一條繼續(xù)游走到下一個(gè)節(jié)點(diǎn),或者(1-alpha)的概率回到頂點(diǎn)a,多次迭代,直到各頂點(diǎn)對(duì)于用戶A的重要度收斂。
3)經(jīng)過(guò)很多次隨機(jī)游走后,每個(gè)相關(guān)知識(shí)型節(jié)點(diǎn)被訪問(wèn)到的概率會(huì)收斂到一個(gè)數(shù),最終的推薦列表中該相關(guān)疾病某知識(shí)型類別文章的權(quán)重就是該用戶行為的訪問(wèn)概率PR(v),概率大小也就是路徑的優(yōu)先級(jí),概率計(jì)算如式(1)所示:
(1)
4)路徑節(jié)點(diǎn)向量化。因?yàn)樯弦徊絼?chuàng)建的行為路徑的數(shù)據(jù)類型是文本類型,而進(jìn)行路徑相似度計(jì)算需要數(shù)字類型的數(shù)據(jù),因此需要對(duì)路徑進(jìn)行向量化和對(duì)齊處理。具體步驟為:導(dǎo)出用戶行為路徑—根據(jù)用戶行為優(yōu)先級(jí)分類—采用Keras的Tokenizer的向量化技術(shù)—利用kps.pad_sequences方法進(jìn)行路徑對(duì)齊。
5)路徑相似度計(jì)算并得出推薦結(jié)果。根據(jù)排列組合原理,進(jìn)行路徑類別組合,確定路徑組合后,計(jì)算路徑相似度。本文采用歐氏距離計(jì)算路徑的相似度,n維空間的歐氏距離的計(jì)算如下:
(2)
其次,根據(jù)式(3)計(jì)算class1類中每條路徑與class2類中所有路徑的距離總和,其中class1和class2代表路徑分類的兩個(gè)類,其他路徑分類情況依次類推。
(3)
最終可得到對(duì)應(yīng)總距離列表,并且選擇距離最小的向用戶生成第二種推薦結(jié)果。
3 ?實(shí)證結(jié)果分析
3.1 ?知識(shí)型分析模型
本文基于事理圖譜的在線醫(yī)療健康知識(shí)型節(jié)點(diǎn)共包括術(shù)前檢查、醫(yī)院費(fèi)用、術(shù)后檢查、術(shù)后治療、疾病癥狀、術(shù)前治療6個(gè)類別,通過(guò)對(duì)2020年7月1日—2022年6月30日期間數(shù)據(jù)進(jìn)行分析,運(yùn)用Python+Pandas+NumPy技術(shù)對(duì)獲取數(shù)據(jù)進(jìn)行預(yù)處理,得到膽系疾病交流群中用戶交互的記錄,總數(shù)據(jù)量達(dá)99.6 MB,原數(shù)據(jù)樣例如表2所示。
通過(guò)對(duì)各搜索文本關(guān)鍵詞的提取識(shí)別,分別對(duì)應(yīng)各知識(shí)型,通過(guò)給關(guān)鍵詞賦予權(quán)值的方法提取出各搜索語(yǔ)句的關(guān)鍵節(jié)點(diǎn),進(jìn)而填充知識(shí)型節(jié)點(diǎn)與對(duì)應(yīng)搜索文本之間的聯(lián)系,并挖掘不同知識(shí)型節(jié)點(diǎn)之間的鏈接方式,其中各知識(shí)型高頻詞匯詳如表3所示。
3.2 ?最優(yōu)路徑推薦
根據(jù)在線社區(qū)膽系疾病QQ群數(shù)據(jù),選擇其關(guān)鍵數(shù)據(jù)記錄,代入?yún)f(xié)同過(guò)濾算法分析,關(guān)鍵路徑如表4所示。
根據(jù)知識(shí)型的評(píng)估結(jié)果,可得最優(yōu)行為路徑,如表5所示。
4 ?結(jié) ?論
本文提出了基于事理圖譜下用戶知識(shí)型節(jié)點(diǎn)推薦算法,用于解決在線社交媒體重疾知識(shí)交互的最優(yōu)推薦問(wèn)題。首先基于用戶的查詢信息提取知識(shí)型節(jié)點(diǎn),并識(shí)別關(guān)鍵知識(shí)型,文中以術(shù)前檢查、醫(yī)院費(fèi)用、術(shù)后檢查、術(shù)后治療、疾病癥狀、術(shù)前檢查為關(guān)鍵知識(shí)型,以關(guān)鍵知識(shí)型為節(jié)點(diǎn)構(gòu)建在線醫(yī)療社區(qū)事理圖譜,融合用戶知識(shí)共享行為和知識(shí)型鏈接關(guān)系,提出知識(shí)路徑推薦算法,對(duì)膽系重疾用戶知識(shí)需求提供預(yù)判。同時(shí),在用戶知識(shí)共享模式基礎(chǔ)上,實(shí)現(xiàn)重疾知識(shí)行為路徑融合協(xié)同過(guò)濾算法,提高在線健康社區(qū)推送的信息服務(wù)質(zhì)量。
參考文獻(xiàn):
[1] 中國(guó)互聯(lián)網(wǎng)信息中心.第51次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》 [EB/OL].[2023-01-02].https://www.cnnic.net.cn/.
[2] 新華社.中共中央 國(guó)務(wù)院印發(fā)《“健康中國(guó)2030”規(guī)劃綱要》 [EB/OL].http://www.gov.cn/zhengce/2016-10/25/content_
5124174.htm.
[3] 張海濤,李佳瑋,劉偉利,等.重大突發(fā)事件事理圖譜構(gòu)建研究 [J].圖書(shū)情報(bào)工作,2021,65(18):133-140.
[4] 張明淘.基于深度學(xué)習(xí)的問(wèn)答社區(qū)中醫(yī)療實(shí)體識(shí)別研究 [D].南京:南京郵電大學(xué),2021.
[5] 廖開(kāi)際,鄒珂欣,席運(yùn)江.一種在線醫(yī)療社區(qū)問(wèn)答文本實(shí)體識(shí)別方法——基于卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò) [J].科技管理研究,2021,41(8):173-179.
[6] 盛姝,黃奇,郭進(jìn)京,等.基于知識(shí)庫(kù)與案例庫(kù)的在線健康社區(qū)診療解決方案自動(dòng)推理模型研究 [J].情報(bào)科學(xué),2022,40(5):161-172.
[7] 陳源毅,馮文龍,黃夢(mèng)醒,等.基于知識(shí)圖譜的行為路徑協(xié)同過(guò)濾推薦算法 [J].計(jì)算機(jī)科學(xué),2021,48(11):176-183.
作者簡(jiǎn)介:張玉潔(2001—),女,漢族,河南商丘人,本科在讀,研究方向:事理圖譜構(gòu)建及推薦算法;丁翔宇(2003—),男,漢族,山東青島人,本科在讀,研究方向:推薦算法。