張巍+陳俊杰
摘要:為了能夠有效地監(jiān)控和預(yù)警醫(yī)療網(wǎng)絡(luò)的輿情,及時(shí)地解決可能出現(xiàn)的醫(yī)療輿情危機(jī),提高醫(yī)院輿情危機(jī)應(yīng)對能力,提升醫(yī)療服務(wù)質(zhì)量,醫(yī)療輿情監(jiān)控和預(yù)警系統(tǒng)顯得尤為重要。該文根據(jù)醫(yī)療網(wǎng)絡(luò)輿情的特點(diǎn),對醫(yī)療網(wǎng)絡(luò)輿情監(jiān)控和預(yù)警的相關(guān)技術(shù)進(jìn)行了研究。主要包括數(shù)據(jù)收集和預(yù)處理、醫(yī)療知識(shí)庫、醫(yī)療事件預(yù)警模塊的設(shè)計(jì),最后實(shí)現(xiàn)了一個(gè)原型系統(tǒng)以驗(yàn)證系統(tǒng)的有效性。
關(guān)鍵詞:Logistic;醫(yī)療輿情;監(jiān)控;預(yù)警
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)04-0010-02
1 背景
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)已成為現(xiàn)代社會(huì)最重要的媒介。CNNIC第40次報(bào)告顯示,截至2017年6月,我國網(wǎng)民規(guī)模達(dá)7.51億,互聯(lián)網(wǎng)普及率為54.3%。其中,即時(shí)通信用戶數(shù)為6.92 億,搜索引擎用戶數(shù)為6.09億,網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模為6.25 億。微信朋友圈、QQ 空間作為即時(shí)通信工具所衍生出來的社交服務(wù),用戶使用率分別為84.3% 和65.8%。海量用戶通過互聯(lián)網(wǎng)獲取最新資訊,互聯(lián)網(wǎng)雖有利于自由表達(dá)自己的思想,也能被一些壞人利用,誤導(dǎo)輿論。
醫(yī)院輿情危機(jī)指能夠?qū)︶t(yī)院正常運(yùn)營,或者聲譽(yù)造成潛在破壞的輿情。在現(xiàn)今醫(yī)患關(guān)系非常緊張的形勢下,本來一個(gè)普通的醫(yī)患糾紛,通過互聯(lián)網(wǎng)的放大作用,很可能形成輿情危機(jī)事件。因此,有必要建設(shè)高效的醫(yī)療網(wǎng)絡(luò)輿情監(jiān)測和預(yù)警系統(tǒng),便于醫(yī)療部門盡早采取應(yīng)對措施,將危機(jī)消滅在初期。
本文基于Logistic模型,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)醫(yī)療輿情監(jiān)控與預(yù)警系統(tǒng)。下面將對本系統(tǒng)的構(gòu)成、功能模塊以及實(shí)現(xiàn)進(jìn)行介紹。
2 系統(tǒng)構(gòu)成
本文提出的系統(tǒng)的結(jié)構(gòu)如圖1所示。
系統(tǒng)主要包括6個(gè)模塊:數(shù)據(jù)采集及預(yù)處理模塊、醫(yī)療輿情常態(tài)監(jiān)控模塊、醫(yī)療敏感知識(shí)庫模塊、輿情危機(jī)預(yù)警指標(biāo)體系模塊、預(yù)警多元回歸模型模塊以及四級(jí)預(yù)警與展示模塊。
3 系統(tǒng)實(shí)現(xiàn)關(guān)鍵技術(shù)
3.1 數(shù)據(jù)采集及處理模塊
本模塊的任務(wù)是負(fù)責(zé)博客、論壇、新聞、微博上關(guān)于醫(yī)療輿情網(wǎng)頁的抓取并存入MYSQL數(shù)據(jù)庫。本模塊的功能有兩個(gè):一是提供對新浪博客、天涯論壇、新浪微博、新浪新聞醫(yī)療輿情網(wǎng)頁抓取的接口。另外可以提供對新浪博客、天涯論壇、新浪微博、新浪新聞實(shí)時(shí)抓取新數(shù)據(jù)的接口。本模塊使用的軟件及工具有:1)Eclipse環(huán)境及jdk 1.8.0_131的java語言。2)WebMagic爬蟲框架,采用其0.7.2開源版本。3)quartz任務(wù)調(diào)度框架,采用其2.2.3開源版本。4)selenium 框架,采用其2.44.0開源版本。5)chrome的自動(dòng)化軟件。
爬蟲爬取具體步驟:
1) 創(chuàng)建詞庫、并且分類。
如圖2所示,創(chuàng)建表。
2) 分析網(wǎng)頁、編寫爬蟲
(1) 根據(jù)關(guān)鍵詞、標(biāo)題、排序等參數(shù)編寫url。
(2) 分析該網(wǎng)頁的文章url的格式、找到規(guī)律,編寫正則表達(dá)式。
(3) 將該網(wǎng)頁中所有符合“文章正則表達(dá)式”的網(wǎng)頁添加到待爬取隊(duì)列當(dāng)中。
(4) 將該頁的分頁也編寫正則表達(dá)式,并且將符合“分頁正則表達(dá)式”的網(wǎng)頁添加到待爬取隊(duì)列當(dāng)中。
(5) 將文章的網(wǎng)頁中的標(biāo)題、正文、日期、作者等相關(guān)信息通過webmagic框架中的方法提取出來,并且存到數(shù)據(jù)庫中。
3) 根據(jù)需要、實(shí)時(shí)抓取
可以將以上爬蟲簡寫成只爬取前兩頁的內(nèi)容,但是獲取到的結(jié)果都要經(jīng)過時(shí)間優(yōu)先,且結(jié)果都要根據(jù)標(biāo)題檢索。
3.2 醫(yī)療輿情知識(shí)庫模塊
醫(yī)療輿情知識(shí)庫模塊由醫(yī)療事件庫、醫(yī)療關(guān)鍵詞庫、關(guān)注站點(diǎn)庫和微博虛擬身份庫組成。醫(yī)療事件庫收集了近年來具有較大社會(huì)影響力的50多個(gè)涉及醫(yī)療糾紛、醫(yī)患關(guān)系、醫(yī)療事故等的醫(yī)療領(lǐng)域事件。醫(yī)療關(guān)鍵詞庫收集了200多個(gè)醫(yī)療關(guān)鍵詞組,為識(shí)別醫(yī)療信息提供幫助。微博虛擬身份庫包含兩百多個(gè)重點(diǎn)關(guān)注用戶,有助于提高數(shù)據(jù)抓取的目標(biāo)性。
3.3 醫(yī)療事件預(yù)警模塊
3.3.1 預(yù)警系數(shù)構(gòu)成
根據(jù)系統(tǒng)采集到的數(shù)據(jù),制定了輿情發(fā)布、輿情發(fā)布者兩個(gè)一級(jí)系數(shù),輿情發(fā)布廣度、輿情發(fā)布活速率、輿情發(fā)布者具有的影響力、輿情發(fā)布者活躍程度四個(gè)二級(jí)系數(shù),以及六個(gè)三級(jí)系數(shù),如表1所示。
3.3.2 預(yù)警模型構(gòu)造
根據(jù)前期采集到的醫(yī)療事件,采用多元Logistic回歸訓(xùn)練模型,可判別出對醫(yī)療事件預(yù)警起關(guān)鍵作用的指數(shù),同時(shí)訓(xùn)練出各個(gè)指數(shù)的權(quán)重值。
醫(yī)療輿情事件的預(yù)警可以認(rèn)為是一個(gè)具有兩個(gè)值的因變量的Logistic回歸模型,研究因變量y取值為1(預(yù)警)的概率p與自變量x之間的關(guān)系。自變量x是一個(gè)向量,它是影響y的因素。設(shè)在向量x條件下y=1的概率是p=p(y=1|x),那么所得出的公式(1)就是此條件下的多元Logistic回歸模型。
(1)
以某個(gè)醫(yī)療輿情事件的預(yù)警系數(shù)為識(shí)別變量,對此事件對應(yīng)的六個(gè)預(yù)警系數(shù)作為模型擬合數(shù)據(jù),構(gòu)建Logistic回歸分析模型,從而可獲得該事件未來輿情危機(jī)爆發(fā)的預(yù)警級(jí)別。預(yù)警機(jī)制可根據(jù)嚴(yán)重程度的不同,分為輕度危機(jī),普通危機(jī),重大危機(jī)以及特大危機(jī)等,最后可對重大危急事件進(jìn)行預(yù)警。
根據(jù)已建立的醫(yī)療輿情知識(shí)庫中近期的50個(gè)醫(yī)療事件的六個(gè)醫(yī)療輿情預(yù)警系數(shù)統(tǒng)計(jì)計(jì)算的值,經(jīng)過歸一處理后作為輸入,使用軟件SPSS 24.0中的向前逐步回歸法選擇變量,經(jīng)過10次迭代可獲取預(yù)警模型,最后一次迭代結(jié)果如下表所示。
如果p>0.5,則進(jìn)行預(yù)警,否則,不進(jìn)行預(yù)警。
4 結(jié)束語
總之,基于Logistic回歸模型,通過對爬取下來的有關(guān)醫(yī)療網(wǎng)絡(luò)輿情信息進(jìn)行處理、統(tǒng)計(jì)、計(jì)算和分析,得到了p值作為預(yù)警指標(biāo),從而可對重大危急事件進(jìn)行預(yù)警,便于醫(yī)院管理部門采取必要措施將醫(yī)療輿情危機(jī)消滅在初始狀態(tài)。但此模型的精度還不是很高,下一步,需增加更多的醫(yī)療輿情預(yù)警系數(shù)來調(diào)整此模型的建模。
參考文獻(xiàn):
[1] China Internet Network Information Center. 第40次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL]. http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201708/P020170807351923262153.pdf.
[2] 錢海峰. 公立醫(yī)院危機(jī)成因與應(yīng)對[D]. 上海: 復(fù)旦大學(xué), 2011.
[3] 張寅榮, 王超超. 醫(yī)療機(jī)構(gòu)網(wǎng)絡(luò)輿情的應(yīng)對策略[J]. 中國醫(yī)院, 2010, 14(7):41-42.
[4] 溫舟, 婁芳蕾, 史虹婷, 等. 錦州市綜合氣象預(yù)報(bào)預(yù)警服務(wù)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J]. 電腦知識(shí)與技術(shù), 2017, 13(7):74-76.
[5] 趙軍, 趙玉玲, 段琪慶. 基于logistic回歸的區(qū)域房地產(chǎn)預(yù)警模型[J]. 中國人口·資源與環(huán)境, 2013, 23(11):454-457.
[6] 方匡南, 章貴軍, 張惠穎. 基于Lasso-logistic模型的個(gè)人信用風(fēng)險(xiǎn)預(yù)警方法[J]. 數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究, 2014(2):125-136.