摘要:在互聯(lián)網(wǎng)時(shí)代,藥品網(wǎng)絡(luò)輿情監(jiān)測(cè)是保障公眾藥品安全的重要手段之一。傳統(tǒng)的監(jiān)測(cè)手段主要依賴醫(yī)療機(jī)構(gòu)和監(jiān)管機(jī)構(gòu)的有限數(shù)據(jù)源,但在面對(duì)龐大的網(wǎng)絡(luò)輿情數(shù)據(jù)時(shí)有些“力不從心”,應(yīng)用藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)來監(jiān)測(cè)是首要選擇。本文主要探討了藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的主要技術(shù),對(duì)該系統(tǒng)的實(shí)施和評(píng)估進(jìn)行了分析,旨在為相關(guān)部門和企業(yè)提供一個(gè)高效、準(zhǔn)確的藥品安全監(jiān)測(cè)工具,以及時(shí)發(fā)現(xiàn)和處理藥品安全問題,保障公眾的健康和安全。
關(guān)鍵詞: 大數(shù)據(jù);藥品安全;網(wǎng)絡(luò)輿情;監(jiān)測(cè);系統(tǒng)設(shè)計(jì)
一、引言
藥品安全是人們關(guān)注的一個(gè)重要問題,且藥品安全問題的發(fā)生會(huì)對(duì)公眾健康和社會(huì)穩(wěn)定產(chǎn)生一定的影響。隨著社交媒體和網(wǎng)絡(luò)論壇的普及,越來越多的人通過網(wǎng)絡(luò)平臺(tái)表達(dá)他們對(duì)藥品的看法和經(jīng)歷。因此,基于大數(shù)據(jù)的藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的研發(fā)變得尤為重要,如何設(shè)計(jì)能夠?qū)崟r(shí)監(jiān)測(cè)藥品安全網(wǎng)絡(luò)輿情信息的系統(tǒng),實(shí)現(xiàn)從海量數(shù)據(jù)中挖掘出藥品安全相關(guān)的信息和趨勢(shì),也成為當(dāng)前研究的重點(diǎn)內(nèi)容。
二、當(dāng)前藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的局限性
當(dāng)前藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)存在的局限性主要體現(xiàn)在數(shù)據(jù)來源不全、難以評(píng)估輿情影響力、適應(yīng)性不足以及預(yù)警能力不足等方面。其中,數(shù)據(jù)來源不全是因?yàn)橹饕蕾嚿缃幻襟w平臺(tái)、論壇和新聞網(wǎng)站等獲取數(shù)據(jù),而這些信息可能存在不完整、不準(zhǔn)確或虛假的情況,從而影響了監(jiān)測(cè)結(jié)果的可信度[1]。
例如,某藥品在社交媒體上出現(xiàn)大量負(fù)面評(píng)論,但這并不一定代表該藥品存在安全問題,可能只是個(gè)別用戶的個(gè)人經(jīng)歷或主觀看法。難以評(píng)估輿情影響力的原因在于雖然監(jiān)測(cè)系統(tǒng)可以獲取大量的輿情信息,但很難客觀評(píng)估和分析這些信息。例如,某條在社交媒體上廣泛傳播的藥品安全問題言論可能因?yàn)槟承┰虮豢浯罅?,而?shí)際上對(duì)廣大公眾的影響可能不大。為了更全面地了解和應(yīng)對(duì)藥品安全問題,監(jiān)測(cè)系統(tǒng)應(yīng)適應(yīng)不同語言和文化背景下的輿情,因?yàn)槭澜绺鞯氐乃幤钒踩珕栴}存在一定的語言和文化差異。然而,當(dāng)前系統(tǒng)主要以中文為監(jiān)測(cè)語言,缺乏對(duì)其他語言的監(jiān)測(cè)能力。最后,預(yù)警能力不足表現(xiàn)在當(dāng)前系統(tǒng)主要是對(duì)已經(jīng)發(fā)生的輿情進(jìn)行監(jiān)測(cè)和分析,雖然系統(tǒng)可以通過實(shí)時(shí)監(jiān)測(cè)和分析輿情,但缺乏對(duì)未來可能發(fā)生問題的預(yù)測(cè)能力,這限制了系統(tǒng)的實(shí)用性和預(yù)防性。
三、基于大數(shù)據(jù)的藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)使用的主要技術(shù)
(一)數(shù)據(jù)采集與預(yù)處理
在基于大數(shù)據(jù)的藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)中,數(shù)據(jù)采集與預(yù)處理環(huán)節(jié)非常重要。它主要包括從不同來源獲取輿情數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行清洗、篩選和整理,以便后續(xù)的分析和挖掘。數(shù)據(jù)采集是指從各種網(wǎng)絡(luò)平臺(tái)和數(shù)據(jù)源收集與藥品安全相關(guān)的輿情數(shù)據(jù)。該系統(tǒng)可以通過API接口從社交媒體平臺(tái)(如微博、微信、Twitter等)獲取用戶發(fā)布的與藥品安全有關(guān)的評(píng)論和帖子;也可以通過爬蟲技術(shù)從論壇、新聞網(wǎng)站等獲取相關(guān)數(shù)據(jù)。這些數(shù)據(jù)來源廣泛,涵蓋了多個(gè)渠道的用戶反饋和舉報(bào)。為了確保數(shù)據(jù)采集的高質(zhì)量,相關(guān)人員可以根據(jù)多樣化、全面的輿情信息建立關(guān)鍵詞信息庫。在進(jìn)行數(shù)據(jù)采集的過程中,系統(tǒng)可以根據(jù)關(guān)鍵詞進(jìn)行快速檢索,將無關(guān)的數(shù)據(jù)清除,保留有效數(shù)據(jù)。此外,系統(tǒng)可以通過技術(shù)手段過濾掉垃圾信息、重復(fù)信息和無關(guān)信息,只保留與藥品安全相關(guān)的有效數(shù)據(jù)[2]。
數(shù)據(jù)預(yù)處理還包括數(shù)據(jù)的清洗、整理和格式化。系統(tǒng)可以對(duì)采集到的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù)形式。例如,可以將輿情數(shù)據(jù)轉(zhuǎn)換為文本、日期、發(fā)布者和來源等字段,并為數(shù)據(jù)添加標(biāo)簽或分類信息,以便后續(xù)的分類統(tǒng)計(jì)和預(yù)測(cè)分析。通過數(shù)據(jù)采集和預(yù)處理,基于大數(shù)據(jù)的藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)可以獲得高質(zhì)量且結(jié)構(gòu)化的數(shù)據(jù),為后續(xù)的分析和挖掘提供可靠的基礎(chǔ)。
(二)情感分析與主題識(shí)別
情感分析和主題識(shí)別在基于大數(shù)據(jù)的藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)中發(fā)揮著重要作用,可用于深入分析和挖掘輿情數(shù)據(jù),以獲取關(guān)于藥品安全的情感傾向和熱點(diǎn)主題的信息。情感分析是指對(duì)文本數(shù)據(jù)中表達(dá)的情感和情緒進(jìn)行識(shí)別和分類的技術(shù)。在藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)中,情感分析能夠幫助識(shí)別輿情中的情感傾向,即判斷用戶對(duì)藥品的態(tài)度是積極、消極還是中立。
例如,對(duì)于評(píng)論“這種藥品太好了,完全治好了我的疾病”,情感分析會(huì)將其識(shí)別為積極情感;而對(duì)于“這種藥品效果太差了,完全沒有起到作用”的評(píng)論,則識(shí)別為消極情感。情感分析可以幫助系統(tǒng)更準(zhǔn)確地了解用戶對(duì)藥品的評(píng)價(jià)和反饋,及時(shí)發(fā)現(xiàn)可能存在的安全問題。而主題識(shí)別則是指對(duì)文本數(shù)據(jù)中的主要話題或主題領(lǐng)域進(jìn)行識(shí)別和分類的技術(shù),可以幫助系統(tǒng)發(fā)現(xiàn)輿情中的熱點(diǎn)話題和關(guān)注領(lǐng)域。通過對(duì)大量輿情數(shù)據(jù)進(jìn)行主題識(shí)別,系統(tǒng)可以發(fā)現(xiàn)某種藥品被頻繁提及和討論,從而推斷該藥品可能存在安全問題。
此外,主題識(shí)別還可對(duì)輿情數(shù)據(jù)進(jìn)行分類,如按照藥品類別、副作用、療效等主題進(jìn)行歸類,以便進(jìn)行后續(xù)的分析和挖掘。系統(tǒng)可以建立情感詞典和主題模型(例如Latent Dirichlet Allocation),通過對(duì)輿情文本進(jìn)行特征提取和分類訓(xùn)練,以實(shí)現(xiàn)情感分析和主題識(shí)別的功能。這種方法能夠幫助系統(tǒng)自動(dòng)、高效地處理大量的輿情數(shù)據(jù),提取其中有用的信息,為藥品安全問題的監(jiān)測(cè)和預(yù)警提供支持[3]。
(三)實(shí)體識(shí)別與關(guān)系抽取
實(shí)體識(shí)別與關(guān)系抽取是一項(xiàng)重要技術(shù),用于從輿情數(shù)據(jù)中識(shí)別和提取相關(guān)實(shí)體(如藥品名稱、疾病名稱、副作用等)以及它們之間的關(guān)系。實(shí)體識(shí)別是指從文本數(shù)據(jù)中自動(dòng)識(shí)別出具有特定意義的實(shí)體的技術(shù)。在藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)中,實(shí)體識(shí)別可以幫助系統(tǒng)準(zhǔn)確地識(shí)別與藥品安全相關(guān)的實(shí)體,如藥品名稱、疾病名稱、副作用名稱等。
比如對(duì)于評(píng)論“服用藥品A后出現(xiàn)了嚴(yán)重的頭暈癥狀”,實(shí)體識(shí)別可以將“藥品A”和“頭暈癥狀”作為重要實(shí)體進(jìn)行識(shí)別。實(shí)體識(shí)別可以幫助系統(tǒng)更精確地定位和分析與藥品安全相關(guān)的信息。而關(guān)系抽取是指從文本數(shù)據(jù)中識(shí)別和提取出實(shí)體之間的關(guān)系的技術(shù)。在藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)中,關(guān)系抽取可以幫助系統(tǒng)發(fā)現(xiàn)和分析藥品、副作用、疾病等實(shí)體之間的關(guān)聯(lián)關(guān)系。比如對(duì)于評(píng)論“服用藥品B后出現(xiàn)了嚴(yán)重的皮疹癥狀”,關(guān)系抽取可以將“藥品B”和“皮疹癥狀”之間的關(guān)系識(shí)別為“引起”或“導(dǎo)致”。關(guān)系抽取可以幫助系統(tǒng)深入了解實(shí)體之間的相互作用和影響,使其更好地分析和預(yù)測(cè)藥品安全問題。系統(tǒng)通過建立實(shí)體識(shí)別模型和關(guān)系抽取模型,對(duì)輿情文本進(jìn)行特征提取和訓(xùn)練,能夠?qū)崿F(xiàn)實(shí)體識(shí)別和關(guān)系抽取的功能。這些技術(shù)可以幫助系統(tǒng)自動(dòng)、準(zhǔn)確地處理大量的輿情數(shù)據(jù),提取其中的實(shí)體和關(guān)系信息,為藥品安全問題的監(jiān)測(cè)和預(yù)警提供支持,從而提高藥品安全監(jiān)測(cè)的準(zhǔn)確性和效率。
(四)可視化與分析
在基于大數(shù)據(jù)的藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)中,可視化和數(shù)據(jù)分析是兩個(gè)重要的功能。可視化將復(fù)雜的數(shù)據(jù)用圖表、地圖、詞云等形式呈現(xiàn)給用戶,幫助他們快速了解藥品安全問題的整體情況和趨勢(shì)。通過詞云圖可以展示用戶對(duì)某種藥品的關(guān)鍵詞頻率,突出用戶的關(guān)注點(diǎn)和熱點(diǎn)話題。利用地圖和熱力圖可以展示不同地區(qū)的藥品安全輿情分布,幫助用戶了解地域差異和熱點(diǎn)區(qū)域。而數(shù)據(jù)分析則是指對(duì)輿情數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和深入分析的過程,以發(fā)現(xiàn)潛在的規(guī)律和趨勢(shì)[4]。在藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)中,數(shù)據(jù)分析可以幫助用戶發(fā)現(xiàn)藥品安全問題的關(guān)聯(lián)因素和影響因素。
例如,系統(tǒng)可以進(jìn)行時(shí)序分析,以及分析不同時(shí)間段輿情的變化趨勢(shì),同時(shí)還可以研究輿情數(shù)據(jù)與藥品銷售數(shù)據(jù)之間的關(guān)系。此外,還可以進(jìn)行情感分析,統(tǒng)計(jì)正面、負(fù)面和中性輿情的比例,從而幫助用戶了解用戶對(duì)藥品的整體評(píng)價(jià)??梢暬蛿?shù)據(jù)分析通常使用圖表庫、數(shù)據(jù)可視化工具和統(tǒng)計(jì)分析工具等技術(shù)來實(shí)現(xiàn)。通過將輿情數(shù)據(jù)進(jìn)行可視化展示,并進(jìn)行深入的數(shù)據(jù)分析,藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)可以幫助用戶更好地理解和應(yīng)對(duì)藥品安全問題。
四、基于大數(shù)據(jù)的藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的實(shí)現(xiàn)與評(píng)估
(一)數(shù)據(jù)集選擇與獲取
在基于大數(shù)據(jù)的藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的實(shí)現(xiàn)與評(píng)估過程中,數(shù)據(jù)集選擇是關(guān)鍵步驟。首先,需要確定監(jiān)測(cè)的藥品安全相關(guān)輿情數(shù)據(jù)的范圍和領(lǐng)域。根據(jù)監(jiān)測(cè)目標(biāo)的需求和可行性,選擇合適的關(guān)鍵詞作為監(jiān)測(cè)目標(biāo),如“藥品副作用”“藥物過期”“藥品召回”等。接下來,選擇適當(dāng)?shù)臄?shù)據(jù)源來獲取相關(guān)輿情數(shù)據(jù)。根據(jù)關(guān)鍵詞,可以使用API接口通過關(guān)鍵詞檢索社交媒體平臺(tái)(如微博、微信公眾號(hào)、Twitter等),或者使用爬蟲技術(shù)從新聞網(wǎng)站、醫(yī)藥網(wǎng)站或醫(yī)療健康平臺(tái)上獲取醫(yī)生和用戶的反饋和經(jīng)驗(yàn)分享。
在數(shù)據(jù)獲取過程中,需要確保合法性和隱私保護(hù)。必須從合法渠道獲得數(shù)據(jù),并采取相應(yīng)措施保護(hù)用戶隱私。完成數(shù)據(jù)集的選擇和獲取后,需要對(duì)其進(jìn)行評(píng)估??梢匀斯?biāo)注一部分?jǐn)?shù)據(jù),并將其與系統(tǒng)生成的結(jié)果進(jìn)行對(duì)比,評(píng)估準(zhǔn)確性。同時(shí),可以使用傳統(tǒng)的評(píng)估指標(biāo)如準(zhǔn)確率、召回率和F1值等,以確保監(jiān)測(cè)目標(biāo)的準(zhǔn)確性和全面性。評(píng)估過程要根據(jù)系統(tǒng)的具體需求,設(shè)計(jì)和選擇適合的評(píng)估指標(biāo)。
(二)系統(tǒng)實(shí)現(xiàn)
系統(tǒng)實(shí)現(xiàn)是指通過構(gòu)建系統(tǒng)的基礎(chǔ)架構(gòu)、開發(fā)相關(guān)模塊和功能,確保系統(tǒng)的可靠性和高效性,以實(shí)現(xiàn)對(duì)輿情數(shù)據(jù)的采集、處理和分析,并將結(jié)果以可視化形式展示給用戶。這樣的實(shí)現(xiàn)可以為藥品安全問題的監(jiān)測(cè)和評(píng)估提供有效的工具和支持[5]。
其中,系統(tǒng)實(shí)現(xiàn)需要構(gòu)建系統(tǒng)的基礎(chǔ)架構(gòu),包括前端界面、后端服務(wù)器和數(shù)據(jù)庫等。前端界面是用戶與系統(tǒng)交互的窗口,可以通過網(wǎng)頁或移動(dòng)應(yīng)用的形式展示輿情數(shù)據(jù)分析結(jié)果和可視化圖表。后端服務(wù)器負(fù)責(zé)處理用戶請(qǐng)求、執(zhí)行數(shù)據(jù)分析和挖掘算法,并將結(jié)果返回給前端界面。
數(shù)據(jù)庫用于存儲(chǔ)輿情數(shù)據(jù)、用戶信息和系統(tǒng)配置等;需要開發(fā)相關(guān)的模塊和功能,以支持輿情數(shù)據(jù)的采集、處理和分析,包括數(shù)據(jù)采集模塊、數(shù)據(jù)存儲(chǔ)模塊、輿情分析模塊、數(shù)據(jù)可視化模塊等;需要確保系統(tǒng)的可靠性和高效性,包括系統(tǒng)的性能優(yōu)化、容錯(cuò)機(jī)制、數(shù)據(jù)安全和隱私保護(hù)等;需要進(jìn)行必要的系統(tǒng)測(cè)試和調(diào)優(yōu),以確保系統(tǒng)的穩(wěn)定性和性能,如進(jìn)行功能測(cè)試,驗(yàn)證系統(tǒng)的各項(xiàng)功能是否正常運(yùn)行;需要進(jìn)行負(fù)載測(cè)試,評(píng)估系統(tǒng)在大數(shù)據(jù)量和高并發(fā)訪問下的性能表現(xiàn);需要進(jìn)行安全測(cè)試,檢查系統(tǒng)的安全性和漏洞。
(三)系統(tǒng)性能評(píng)估
系統(tǒng)性能評(píng)估是通過對(duì)系統(tǒng)的穩(wěn)定性、可擴(kuò)展性、響應(yīng)速度等方面進(jìn)行評(píng)估和測(cè)試,提供有關(guān)系統(tǒng)性能和效果的定量和定性指標(biāo),為系統(tǒng)的優(yōu)化和改進(jìn)提供依據(jù)。其中對(duì)系統(tǒng)的穩(wěn)定性評(píng)估,可以通過模擬真實(shí)的使用場(chǎng)景,對(duì)系統(tǒng)進(jìn)行長時(shí)間運(yùn)行和負(fù)載測(cè)試。如使用自動(dòng)化測(cè)試工具模擬多個(gè)用戶同時(shí)訪問系統(tǒng),并觀察系統(tǒng)的響應(yīng)時(shí)間、資源利用率和錯(cuò)誤率等指標(biāo);對(duì)系統(tǒng)的可擴(kuò)展性評(píng)估可以通過增加系統(tǒng)的負(fù)載和數(shù)據(jù)量,評(píng)估系統(tǒng)在不同規(guī)模和復(fù)雜度下的性能表現(xiàn),包括增加數(shù)據(jù)采集的速度和頻率,增加數(shù)據(jù)存儲(chǔ)和處理的容量等;對(duì)系統(tǒng)的響應(yīng)速度評(píng)估,可以通過測(cè)試系統(tǒng)的數(shù)據(jù)處理和分析功能的響應(yīng)時(shí)間,評(píng)估系統(tǒng)在處理大規(guī)模數(shù)據(jù)時(shí)的效率??梢詼y(cè)量從數(shù)據(jù)采集到數(shù)據(jù)處理和分析的整個(gè)流程所需的時(shí)間,以及從用戶請(qǐng)求到返回結(jié)果的響應(yīng)時(shí)間。通過對(duì)系統(tǒng)的響應(yīng)速度進(jìn)行評(píng)估,可以確定系統(tǒng)是否滿足用戶需求并提供及時(shí)的輿情分析結(jié)果。
五、結(jié)束語
綜上所述,通過設(shè)計(jì)基于大數(shù)據(jù)的藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),能夠?qū)崿F(xiàn)對(duì)藥品安全問題的及時(shí)監(jiān)測(cè)和分析。該系統(tǒng)利用數(shù)據(jù)采集與預(yù)處理、情感分析與主題識(shí)別、實(shí)體識(shí)別與關(guān)系抽取等技術(shù),能夠從多個(gè)數(shù)據(jù)源中獲取輿情數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行深入分析和挖掘。通過該系統(tǒng),相關(guān)部門和企業(yè)能夠更好地了解和應(yīng)對(duì)藥品安全問題,提高藥品安全監(jiān)測(cè)的準(zhǔn)確性和效率。這對(duì)保障公眾的健康和安全具有重要意義。同時(shí),系統(tǒng)的研發(fā)還有助于探索和改進(jìn)藥品安全領(lǐng)域的監(jiān)測(cè)和預(yù)警機(jī)制,為相關(guān)政策制定和管理決策提供科學(xué)依據(jù),提升社會(huì)對(duì)藥品安全的信任和滿意度。
作者單位:張弘 福建省藥品科普與監(jiān)管數(shù)據(jù)中心
參考文獻(xiàn)
[1]王建藝,張文學(xué).藥品安全輿情治理研究[J].中國公共衛(wèi)生管理,2021,37(03): 288-290.
[2]盛夏,宋金濤.大數(shù)據(jù)經(jīng)濟(jì)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)構(gòu)建研究[J].軟件,2022,43(06): 94-96.
[3]吳文慧,李亮,葛渟等.基于大數(shù)據(jù)的藥品安全網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2021,17(05):86-88.
[4]曾宇.基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情實(shí)時(shí)監(jiān)測(cè)系統(tǒng)的構(gòu)建[J].漳州職業(yè)技術(shù)學(xué)院學(xué)報(bào),2020,22(02):92-99.
[5]李洋.基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].科技與創(chuàng)新, 2023(08):146-148.