曹煜隆,單 嬌,包小源,金 夢,周 璐,張 超,孫慶芬,韓玲樣,高 燕,胡必杰
(1.北京大學人民醫(yī)院醫(yī)院感染管理辦公室,北京 100044;2.北京積水潭醫(yī)院疾病預防控制處,北京 100035;3.北京大學醫(yī)學信息學中心,北京 100191;4.北京中醫(yī)藥大學中醫(yī)學院,北京 100029;5.北京左醫(yī)科技有限公司,北京 100044;6.赤峰學院附屬醫(yī)院感染管理科,內蒙古 赤峰 024000;7.銅川市婦幼保健院醫(yī)院感染管理科,陜西 銅川 727007;8.復旦大學附屬中山醫(yī)院感染管理科,上海 200032)
近年來,互聯(lián)網(wǎng)技術的進步使人們的工作方式逐漸發(fā)生改變,人們通過網(wǎng)絡平臺更便捷的學習到新的知識,發(fā)表自己的觀點。在醫(yī)院感染管理領域中,上海國際醫(yī)院感染控制論壇(Shanghai International Forum for Infection Control, SIFIC)就是一個非常突出的例子,該論壇成立十余年來,越來越多的醫(yī)院感染控制專(兼)職人員參與到論壇中,與他人互動、分享各種內容。SIFIC論壇給全國醫(yī)院感染管理人員提供了高效的知識共享和交流平臺,同時也吸引了大量的醫(yī)院感染管理人員參與到相關內容的研究。網(wǎng)絡爬蟲被廣泛用于互聯(lián)網(wǎng)搜索引擎和其他類似的網(wǎng)站,通過代碼可以讓程序自動采集所有能夠訪問到的頁面內容,最終獲取或更新這些網(wǎng)站的內容和檢索方式。近年來人們利用Python對Twitter、Facebook 等知名社交平臺展開了一系列的分析[1-3], 但是目前尚無利用Python技術對醫(yī)學相關網(wǎng)站及論壇的研究,因為對不熟悉爬蟲技術的醫(yī)學研究人員而言這無疑是一個極大的挑戰(zhàn)。本文基于Python語言的scrapy(爬蟲框架)獲取SIFIC論壇的各板塊數(shù)據(jù),并進行分析,以期回顧近十年來我國醫(yī)院感染控制電子信息服務系統(tǒng)的熱點,總結醫(yī)院感染管理人員關注熱點的趨勢變化,從而進一步提高對熱點問題的關注度,不斷提高醫(yī)院感染控制能力。
1.1 數(shù)據(jù)來源 選取SIFIC論壇2007年4月6日—2017年12月31日的數(shù)據(jù)作為此次數(shù)據(jù)來源。SIFIC論壇于2007年4月6日創(chuàng)建,論壇會員遍及國內幾十個省市,多個專業(yè);現(xiàn)注冊會員近13萬人,專業(yè)版塊155個,是目前中國規(guī)模最大、原創(chuàng)資料最多、專家隊伍最強的醫(yī)院感染預防與控制論壇。
1.2 數(shù)據(jù)獲取 通過Python語言的scrapy獲取主題網(wǎng)絡,爬蟲從論壇某一個頁面開始,讀取標題內容,找到在網(wǎng)頁中的其他鏈接地址,然后通過鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)將2007年4月6日—2017年12月31日SIFIC論壇上所有的網(wǎng)頁標題進行抓取,將所提取的信息組合成DataFrame格式,自此完成所有數(shù)據(jù)的采集工作。
1.3 中文分詞及詞頻統(tǒng)計 為進行熱點詞的統(tǒng)計與分析,本研究使用基于Python Jieba(Chinese for “to stutter”,0.38版本)軟件包對爬取的發(fā)帖標題文本串進行分詞,分詞時利用停詞表對諸如 “的、嗎、和”非實意詞進行剔出,最后利用Python的Collections.Counter功能對分詞結果進行詞頻統(tǒng)計,并在此基礎上進行綜合分析。
2.1 基本概況 共爬取SIFIC論壇93個板塊共3 112 840條數(shù)據(jù),其中主題帖155 576條,平均每個主題回帖19.01次,平均每日新增794帖;累計注冊會員共151 471名,其中管理員和超級版主131名,平均每人發(fā)帖20.55條。
2.2 年度熱點分析 按照發(fā)帖的時間逐年篩選每一年中出現(xiàn)次數(shù)位于前五的高頻詞頻進行分析,見表1。從年度發(fā)帖數(shù)量上看,2007—2013年呈逐年遞增的趨勢,2013年后論壇發(fā)帖數(shù)量有所下降,這與2013年底SIFIC論壇籌備開通官方微信有著極為密切的關系。從年度高頻熱詞來看,“消毒”、“監(jiān)測”、“培訓”、“手術”、“手衛(wèi)生”、“耐藥”等詞是醫(yī)院感染管理人員關注的永恒主題。2009年全球暴發(fā)新甲型H1N1流感,“甲型流感”成為年度第一熱詞;2017年10個醫(yī)院感染管理新規(guī)范正式施行,“規(guī)范”成為年度第二熱詞。
2.3 重點版塊熱點分析 在排除類似于“新手集結號”、“商城”、“休閑時光”等與醫(yī)院感染管理工作不相關的版塊和發(fā)帖數(shù)較少的冷門版塊后,對關注較多的8大重點熱門版塊中的31個子版塊進行高頻熱詞分析。對于每一版塊的熱詞篩選,排除該版塊或子版塊的題目詞及相關詞匯,如“重點部位—血流感染BSI”版塊,高頻詞匯則排除“中心”、“靜脈”、“導管”、“血流”、“感染”及“BSI”等詞,僅對有可能表現(xiàn)版塊關注方向的詞進行歸納整理,并合并類似于“洗手液”、“手消劑”等詞義相近的詞匯。從重點版塊橫向來看,每一專業(yè)版塊均有自己不同的側重方向,表現(xiàn)出醫(yī)院感染管理學科的復雜性與多樣性,見表2。
表12007—2017年SIFIC論壇年度前5位高頻熱詞分析
Table1Annual top 5 high frequency words in SIFIC in 2007-2017
年份總帖數(shù)熱點詞匯第1位第2位第3位第4位第5位20073 594消毒監(jiān)測藥物標準預防微生物20086 540消毒監(jiān)測抗菌藥物預防耐藥200911 391甲型流感消毒衛(wèi)生部監(jiān)測標準201015 582消毒監(jiān)測手術滅菌預防201122 338消毒監(jiān)測手術抗菌藥物培訓201233 909消毒監(jiān)測手術培訓耐藥201337 466消毒監(jiān)測培訓手術耐藥201427 291消毒監(jiān)測培訓手術耐藥201526 290消毒監(jiān)測培訓手衛(wèi)生手術201626 825消毒監(jiān)測培訓手衛(wèi)生手術201728 101消毒規(guī)范監(jiān)測培訓醫(yī)療廢物
表2 2007—2017年SIFIC論壇版塊前5位高頻熱詞分析
續(xù)表2 (Table 2,Continued)
MRSA:耐甲氧西林金黃色葡萄球菌(methicillin-resistantStaphylococcusaureus, MRSA); Ab:鮑曼不動桿菌(Acinetobacterbaumannii, Ab)
醫(yī)院感染與醫(yī)院的建立相依并存,是當前公共衛(wèi)生領域的一個重要問題,并直接影響著醫(yī)療質量和患者的安全。醫(yī)院感染管理是一項復雜而龐大的系統(tǒng)工程,政策性、學術性及專業(yè)性均較強。專業(yè)方面既涉及衛(wèi)生統(tǒng)計學和流行病學的知識,又涵蓋臨床醫(yī)學、微生物學、免疫學、藥學和護理學等諸多學科的知識。隨著醫(yī)學科學的進步與發(fā)展,尤其是日新月異的治療方法的開展,抗菌藥物的廣泛應用,新的演變趨勢使醫(yī)院感染管理變得越來越復雜化與多樣化[4],對從事醫(yī)院感染監(jiān)控工作的專(兼)職人員知識更新的要求也變得越來越高。目前,醫(yī)院感染管理專業(yè)隊伍建設較為薄弱[2],從基層醫(yī)療機構到三級醫(yī)院,醫(yī)院感染管理人員隊伍很不穩(wěn)定,多以兼職人員為主,工作強度較大,故醫(yī)院感染管理人員如何在緊張的工作中獲取、更新最有價值的知識內容便顯得尤為重要。
互聯(lián)網(wǎng)的持續(xù)發(fā)展將信息爆炸時代的知識交互帶入了一個全新的階段,使得溝通擺脫了空間的束縛,利用論壇這一渠道進行即時信息的傳遞與交流,實現(xiàn)高效率協(xié)作,強調人與人相互連接。SIFIC為中國醫(yī)院感染監(jiān)控工作人員搭建了良好的交流平臺,使中國醫(yī)院感染預防與控制水平與國際接軌,其會員來自醫(yī)療領域的各個部門與專業(yè),擁有旺盛的人氣、良好的交流氛圍及廣闊的交流空間。
以2009年為例,全球超過207個國家和地區(qū)報告了新甲型H1Nl流感實驗室確診病例,總數(shù)超過62萬例,包括7 820余例死亡病例,世界衛(wèi)生組織將預警級別升至最高級別6級[5],2009年SIFIC論壇關注的熱點也隨之變?yōu)榱恕凹仔土鞲小?;而針對全球流感背景下,環(huán)境、物體表面如何進行清潔“消毒”;流感的“監(jiān)測”與上報;醫(yī)護人員如何在流感大暴發(fā)的環(huán)境中采取“標準”預防的措施與應對這種緊急情況醫(yī)院感染專業(yè)人員采取什么樣的強化“培訓”則變?yōu)榱嗽撃觋P注頻次位于前5位的詞匯,較好的體現(xiàn)了論壇緊貼國際熱點變化的時效性。
從重點版塊橫向來看,每一版塊均有自己不同的側重方向,表現(xiàn)出醫(yī)院感染管理學科的復雜性與多樣性。以“重點部位—手術部位感染SSI”中的熱點詞匯為例,“切口類型”、“目標監(jiān)測”、“術后預防SSI”、“剖宮產(chǎn)”等為SSI關注的熱點,關于手術后切口感染影響因素的研究較多,由于發(fā)生切口感染不僅給患者帶來身體的痛苦,也會對其心理造成不良影響,對治療失去信心,降低治療的依從性,更嚴重者會出現(xiàn)血液系統(tǒng)感染疾病,甚至增加死亡風險[6-7]。所以,醫(yī)院感染監(jiān)控人員的關注點更多在如何預防手術切口感染的發(fā)生,對手術部位感染的切口類型和常發(fā)生手術部位感染的手術類型進行探討分析是極為必要的。
本研究將大數(shù)據(jù)的理念成功應用在爬蟲分析中,高效的識別出以往關注的熱點,對今后的研究提供了參考性的建議。但同時本研究也存在一定的局限性,由于數(shù)據(jù)所限,未能考慮使用和未使用本論壇的醫(yī)院感染管理相關人員的差異,因此分析出的結果可能存在一定的偏倚。此外由于本研究納入分析的數(shù)據(jù)量較大,涉及面較廣,不能對每一版塊的高頻詞匯逐一進行分析,僅為醫(yī)院感染管理工作人員描繪近年來國內醫(yī)院感染監(jiān)控關注的方向,發(fā)現(xiàn)廣泛關注點在哪里,為日后研究提供新思路,每一版塊相對應的工作人員也可根據(jù)本研究所示的熱點結果找尋自己的研究方向[8-9]。SIFIC論壇創(chuàng)辦至今已十年余,標志著中國醫(yī)院感染管理已進入科學化、信息化的階段,本研究以實例說明爬蟲數(shù)據(jù)挖掘的研究意義,今后可以以大數(shù)據(jù)為基礎,探索更多的研究方向。
致謝:感謝上海國際醫(yī)院感染控制論壇(SIFIC)提供相關數(shù)據(jù)。