• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      食源性疾病事件智能探測(cè)與預(yù)警平臺(tái)①

      2019-09-24 06:20:44王德強(qiáng)郭旦懷曹榮強(qiáng)王彥棡
      關(guān)鍵詞:食源性可視化社交

      王德強(qiáng),郭旦懷,張 舒,曹榮強(qiáng),王彥棡

      1(中國(guó)科學(xué)院 計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190)

      2(中國(guó)科學(xué)院大學(xué),北京 100049)

      食源性疾病是當(dāng)今世界普遍存在的問題,過去的幾十年里世界各大洲均有食源性疾病的暴發(fā).由于食源性疾病本身的特點(diǎn)(就醫(yī)比例低),其漏報(bào)率相當(dāng)高,目前的監(jiān)測(cè)系統(tǒng)監(jiān)測(cè)到的病例僅僅是實(shí)際發(fā)病病例的冰山一角.隨著大數(shù)據(jù)時(shí)代的到來[1],給食源性疾病的探測(cè)和預(yù)警帶來了新的思路.基于用戶行為對(duì)疾病的區(qū)域風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)成為了可能.基于用戶行為的疾病預(yù)測(cè)主要分為使用搜索數(shù)據(jù)和社交媒體數(shù)據(jù).在搜索數(shù)據(jù)方面,2008年Google 提出Google Flu 平臺(tái)對(duì)全球的流感疫情進(jìn)行估測(cè)[2],2014年百度上線百度預(yù)測(cè)平臺(tái),其中也包括疾病預(yù)測(cè)[3].使用搜索數(shù)據(jù)進(jìn)行公共衛(wèi)生事件的探測(cè),由于其定位依據(jù)是用戶使用的IP 地址,其空間精度較低.比較適合于對(duì)空間精度要求不高的群體性分析[4].基于社交媒體方面的研究較少,芝加哥政府利用監(jiān)督學(xué)習(xí)算法監(jiān)測(cè)識(shí)別twitter 中關(guān)于可能的食源性疾病的內(nèi)容,并通過twitter 做出相應(yīng)的響應(yīng)[5].郭旦懷等人通過社交媒體數(shù)據(jù)對(duì)食源性疾病事件進(jìn)行聚類分析和風(fēng)險(xiǎn)評(píng)估[6].如何從社交媒體中快速識(shí)別出由于食源性疾病事件,并且推測(cè)出事件的關(guān)鍵信息,如地理坐標(biāo)等,成為一個(gè)非常關(guān)鍵的問題.Chandra 等人利用概率模型等利用Twitter 用戶常用的關(guān)鍵詞構(gòu)建了city 級(jí)別的twitter 用戶的位置推測(cè)模型[7].祝天剛等使用TextRank 以及動(dòng)態(tài)上下文推斷算法對(duì)社交媒體中的食源性疾病事件進(jìn)行探測(cè)[8].在食源性疾病風(fēng)險(xiǎn)預(yù)測(cè)方面,郭旦懷[6]等使用多源大數(shù)據(jù)對(duì)食源性疾病風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),但并未構(gòu)建一個(gè)完整的系統(tǒng)平臺(tái).蔡皎潔等[9]基于語義挖掘構(gòu)建了食源性疾病安全預(yù)警系統(tǒng),但只使用了食品檢測(cè)數(shù)據(jù),未能使用多源大數(shù)據(jù).本文基于多源大數(shù)據(jù),面向食源性疾病事件的數(shù)據(jù)獲取、數(shù)據(jù)分析、數(shù)據(jù)可視化整個(gè)過程,構(gòu)建了一個(gè)完整的大數(shù)據(jù)系統(tǒng).

      1 系統(tǒng)概述

      食源性疾病由于其成因的多樣性以及不確定性,每年都會(huì)造成巨大的社會(huì)經(jīng)濟(jì)損失.由于其成因復(fù)雜,需要使用多種數(shù)據(jù)進(jìn)行分析,因此需要平臺(tái)能夠快速的從互聯(lián)網(wǎng)中獲取到食源性疾病事件的相關(guān)信息,并且準(zhǔn)確的識(shí)別食源性疾病事件,推斷出其關(guān)鍵信息.互聯(lián)網(wǎng)中雖然包含著海量數(shù)據(jù),但是由于數(shù)據(jù)的來源不同,結(jié)構(gòu)也不盡相同,需要對(duì)數(shù)據(jù)進(jìn)行有效融合.對(duì)于多源數(shù)據(jù),數(shù)據(jù)之間的關(guān)聯(lián)變的不易被發(fā)現(xiàn),通過數(shù)據(jù)挖掘的方法能夠有效找出數(shù)據(jù)之間潛在的關(guān)聯(lián),對(duì)食源性疾病進(jìn)行有效預(yù)測(cè),同時(shí)對(duì)于預(yù)測(cè)的結(jié)果,以及獲取的數(shù)據(jù),平臺(tái)需要提供高效的可視化方法和交互方式.基于以上需求,本文開發(fā)了食源性疾病事件智能探測(cè)與預(yù)警平臺(tái).

      1.1 系統(tǒng)結(jié)構(gòu)

      在本文中,我們關(guān)注于搭建一整套面向食源性疾病事件探測(cè)與風(fēng)險(xiǎn)預(yù)警的原型系統(tǒng).系統(tǒng)整合針對(duì)食源性疾病的多源數(shù)據(jù)獲取,數(shù)據(jù)融合,事件探測(cè)與關(guān)鍵信息推斷,風(fēng)險(xiǎn)預(yù)測(cè)與模型評(píng)價(jià).系統(tǒng)采用分層的方式進(jìn)行開發(fā),主要分為數(shù)據(jù)(Data),模型 (Model),可視化(Visualization)三層,系統(tǒng)結(jié)構(gòu)如圖1.

      圖1 平臺(tái)系統(tǒng)結(jié)構(gòu)

      1.2 系統(tǒng)主要模塊

      本文將系統(tǒng)劃分大數(shù)據(jù)采集模塊,數(shù)據(jù)融合與存儲(chǔ)模塊,事件探測(cè)與信息推斷模塊,模型自適應(yīng)選擇模塊以及可視化與交互模塊.

      大數(shù)據(jù)采集模塊主要集成了分布式爬蟲系統(tǒng),由于影響食源性疾病的因素眾多且機(jī)理復(fù)雜,所以需要多種數(shù)據(jù)進(jìn)行分析,互聯(lián)網(wǎng)中包含官方統(tǒng)計(jì)數(shù)據(jù)、社交媒體數(shù)據(jù)等海量數(shù)據(jù),官方統(tǒng)計(jì)數(shù)據(jù)格式清晰,可信度高.社交媒體中包含大量信息,其中也包括著食源性疾病事件的相關(guān)信息.大數(shù)據(jù)采集模塊能夠快速地從互聯(lián)網(wǎng)中獲取環(huán)境數(shù)據(jù)、社會(huì)經(jīng)濟(jì)數(shù)據(jù)、基礎(chǔ)地理數(shù)據(jù)、出行數(shù)據(jù)、社交媒體等數(shù)據(jù),并且將獲取到的數(shù)據(jù)存儲(chǔ)在分布式數(shù)據(jù)庫中;數(shù)據(jù)融合與存儲(chǔ)模塊主要包括多源異構(gòu)的數(shù)據(jù)融合與時(shí)空數(shù)據(jù)的存儲(chǔ),由于本文使用的數(shù)據(jù)來源很多,面對(duì)多源異構(gòu)數(shù)據(jù),本文開發(fā)了基于時(shí)空索引的數(shù)據(jù)融合算法,并且根據(jù)時(shí)空索引建立時(shí)空數(shù)據(jù)庫,能夠高效讀取數(shù)據(jù);事件探測(cè)與信息推斷模塊主要針對(duì)社交媒體數(shù)據(jù)中的食源性疾病事件,由于社交媒體中雖然富含大量信息,但同時(shí)也包含著大量噪聲.以微博為例,即便是微博中包含食源性疾病的關(guān)鍵字,也未必是一個(gè)食源性疾病事件.對(duì)于社交媒體中食源性疾病事件的識(shí)別,本文開發(fā)了基于短文本分類的事件探測(cè)算法.一條微博包含的信息十分有限,很多關(guān)鍵信息,如地理坐標(biāo)信息,并不能包含在單條微博當(dāng)中,本文采用動(dòng)態(tài)上下文的推斷策略推測(cè)食源性疾病事件的地理位置信息;自適應(yīng)模型選擇模塊中集成了多種風(fēng)險(xiǎn)預(yù)測(cè)模型,由于不同地區(qū)爆發(fā)的食源性疾病可能表現(xiàn)出不同的特點(diǎn),需要使用多種模型進(jìn)行預(yù)測(cè).預(yù)測(cè)結(jié)果通過統(tǒng)一的模型選擇指標(biāo),對(duì)模型進(jìn)行自適應(yīng)選擇;可視化與交互模塊主要對(duì)多源數(shù)據(jù)以及風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果進(jìn)行可視化,以及整合平臺(tái)與用戶之間的交互功能.

      2 關(guān)鍵技術(shù)

      2.1 基于D-M-V 的分層結(jié)構(gòu)

      傳統(tǒng)的的數(shù)據(jù)分析系統(tǒng)通常是集成數(shù)據(jù)處理、計(jì)算、可視化在一臺(tái)服務(wù)器上或者一個(gè)計(jì)算節(jié)點(diǎn)上,當(dāng)數(shù)據(jù)量較小時(shí),這樣的系統(tǒng)結(jié)構(gòu)可以充分的勝任.當(dāng)數(shù)據(jù)規(guī)模逐漸增大,尤其當(dāng)數(shù)據(jù)源有多個(gè)時(shí),單機(jī)的性能往往不能同時(shí)勝任大規(guī)模、多源數(shù)據(jù)的計(jì)算和可視化任務(wù).通過將數(shù)據(jù)處理(Data)、模型計(jì)算(Model)、可視化計(jì)算(Visualization)分離的方式來解決性能瓶頸的問題[10],本文系統(tǒng)也基于D-M-V 分層架構(gòu)進(jìn)行開發(fā),系統(tǒng)結(jié)構(gòu)如圖2所示.

      圖2 系統(tǒng)主要模塊

      2.2 基于SOA 的開發(fā)方式

      面向服務(wù)的體系結(jié)構(gòu)(Service-Oriented Architecture,SOA),是一個(gè)組件模型,它將應(yīng)用程序的不同功能單元(稱為服務(wù))通過這些服務(wù)之間定義良好的接口和契約聯(lián)系起來.通過SOA 的設(shè)計(jì)模式,可以將D-MV 的三層結(jié)構(gòu)中每層結(jié)構(gòu)分離開來,降低系統(tǒng)耦合程度,將系統(tǒng)入口統(tǒng)一到Web 頁面進(jìn)行管理.使用這樣的設(shè)計(jì)模式,可以將系統(tǒng)的不同組件(例如數(shù)據(jù)存儲(chǔ),數(shù)據(jù)建模和數(shù)據(jù)可視化)分發(fā)到不同的計(jì)算機(jī)中.基于分布和松散耦合的特性,分析任務(wù)可以利用并行計(jì)算資源統(tǒng)一的服務(wù)接口使得用戶使用系統(tǒng)更加靈活,基于Web 的形式,將復(fù)雜的原始數(shù)據(jù)、多樣的模型和操作系統(tǒng)與用戶隔離開來,同時(shí),使用基于Web 的形式更有利于集成其他基于Web 的服務(wù),如風(fēng)險(xiǎn)地圖等.

      2.3 基于TextCNN 的短文本分類算法

      TextCNN 是Yoon Kim 在2014年提出的一種用于文本分類的算法[11],主要思路是將CNN (Convolutional Neural Networks)的技術(shù)用于文本分類,通過利用多個(gè)不同大小的卷積核(kernel)來提取相關(guān)句子里的關(guān)鍵信息(與多窗口大小的n-gram 模型類似),從而可以更好地捕捉文本的局部相關(guān)性.網(wǎng)絡(luò)結(jié)構(gòu)主要包括輸入層(input layer)、嵌入層(embedding layer)、卷基層(convolutional layer)、池化層(pooling layer)和輸入層(output layer).

      在本平臺(tái)的實(shí)驗(yàn)數(shù)據(jù)集上,使用TextCNN 對(duì)含有食源性關(guān)鍵字的微博進(jìn)行事件探測(cè),可以達(dá)到最好的分類效果.

      2.4 模型自適應(yīng)選擇

      模型的自適應(yīng)選擇主要包括兩個(gè)部分,包括對(duì)于特征的選擇和對(duì)于預(yù)測(cè)模型的輔助選擇,本文通過對(duì)Xgboost 對(duì)特征的貢獻(xiàn)進(jìn)行計(jì)算,減去無效的特征,對(duì)于模型的選擇,系統(tǒng)提供多種評(píng)價(jià)指標(biāo),包括AUC(Area Under Curve),即受試者工作特征曲線(ROC)下方的面積,精準(zhǔn)率(Precision),召回率(Recall),F1 值(F1 Score)等作為模型的評(píng)價(jià)指標(biāo),輔助用戶進(jìn)行模型選擇.

      3 系統(tǒng)實(shí)現(xiàn)

      3.1 分布式爬蟲

      面向多源網(wǎng)絡(luò)數(shù)據(jù),平臺(tái)集成了分布式爬蟲系統(tǒng),并基于分布式爬蟲系統(tǒng)開發(fā)了多種爬蟲程序,能夠自動(dòng)抓取社交媒體數(shù)據(jù),如微博、美團(tuán)網(wǎng)評(píng)論數(shù)據(jù),出行數(shù)據(jù)如共享單車出行數(shù)據(jù),官方統(tǒng)計(jì)數(shù)據(jù),如國(guó)家統(tǒng)計(jì)局相關(guān)統(tǒng)計(jì)數(shù)據(jù).

      自動(dòng)數(shù)據(jù)收集是整個(gè)系統(tǒng)的基礎(chǔ).具體包括自動(dòng)數(shù)據(jù)采集和原始數(shù)據(jù)的存儲(chǔ).分析所需的數(shù)據(jù)可以分為靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)兩類.靜態(tài)數(shù)據(jù)是主要在官方網(wǎng)站上發(fā)布的數(shù)據(jù)更新頻率較低或經(jīng)常更新的政府或機(jī)構(gòu).靜態(tài)數(shù)據(jù)提供基本信息,包括數(shù)字地圖和其他地理數(shù)據(jù),氣候數(shù)據(jù),記錄環(huán)境特征的遙感數(shù)據(jù)和社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù).動(dòng)態(tài)數(shù)據(jù)是從動(dòng)態(tài)更新的網(wǎng)絡(luò)媒體和社交網(wǎng)絡(luò)收集的數(shù)據(jù).微博、美團(tuán)網(wǎng)評(píng)論數(shù)據(jù)被設(shè)置為自動(dòng)爬蟲的目標(biāo).為此我們?yōu)椴煌臄?shù)據(jù)源部署自動(dòng)爬蟲,完全不同的數(shù)據(jù)結(jié)構(gòu),并保持最新信息被及時(shí)檢測(cè)和存儲(chǔ).

      靜態(tài)數(shù)據(jù)源提供具有明確地理坐標(biāo)或位置的結(jié)構(gòu)良好的數(shù)據(jù).官方網(wǎng)站通常會(huì)定期發(fā)布數(shù)據(jù).為了接收這些具有可控開銷的靜態(tài)數(shù)據(jù),收集靜態(tài)數(shù)據(jù)的搜索器被分配定時(shí)任務(wù)以檢查網(wǎng)站的更新并請(qǐng)求最新發(fā)布的數(shù)據(jù).由于結(jié)構(gòu)不變,地理標(biāo)簽明確,所收集的數(shù)據(jù)在存儲(chǔ)之前不需要太復(fù)雜的處理.對(duì)于動(dòng)態(tài)數(shù)據(jù),自動(dòng)收集更復(fù)雜.為了獲得實(shí)時(shí)的信息,爬蟲必須不斷地監(jiān)控新聞和社交媒體的網(wǎng)頁,尋找特殊的關(guān)鍵詞,包括突發(fā)事件的描述,疾病的名稱等,這些都可以看作是突發(fā)事件的標(biāo)志.

      本文開發(fā)的分布式爬蟲系統(tǒng)采用Celery (http://www.celeryproject.org/)作為分布式任務(wù)隊(duì)列,使用Rides 作為分布式后端,使用MongoDB (https://www.mongodb.com/) 作為分布式數(shù)據(jù)庫,基于Python requests (http://www.python-requests.org/)發(fā)送網(wǎng)絡(luò)請(qǐng)求及下載頁面,使用beautiful soup4 (https://www.crummy.com/software/BeautifulSoup/)解析頁面,基于Flask (http://flask.pocoo.org/)開發(fā)web 界面管理整個(gè)數(shù)據(jù)采集系統(tǒng).系統(tǒng)結(jié)構(gòu)如圖3所示.

      社交媒體網(wǎng)站如微博、美團(tuán)網(wǎng)等對(duì)于爬蟲往往有著嚴(yán)格的限制.為此,爬蟲系統(tǒng)建立了IP 池、賬號(hào)池解決限制訪問的問題,對(duì)于驗(yàn)證碼則通過CNN 進(jìn)行驗(yàn)證碼識(shí)別,多次識(shí)別錯(cuò)誤時(shí)接入人工打碼平臺(tái)進(jìn)行驗(yàn)證碼識(shí)別.

      3.2 多源數(shù)據(jù)融合

      由于影響食源性疾病的因素眾多,本文采用了多種數(shù)據(jù),數(shù)據(jù)格式與來源見表1.面對(duì)多源異構(gòu)數(shù)據(jù),首先要做的是對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,置于統(tǒng)一的時(shí)空坐標(biāo)系中.本文所用數(shù)據(jù)雖然來源眾多,但主要有四種格式,柵格數(shù)據(jù)、矢量數(shù)據(jù)、表結(jié)構(gòu)化數(shù)據(jù)以及文本數(shù)據(jù).對(duì)于柵格數(shù)據(jù)和矢量數(shù)據(jù)主要問題在于不同的數(shù)據(jù)采用的投影坐標(biāo)系以及地理坐標(biāo)系都不盡相同,首先要將其置于統(tǒng)一的時(shí)空坐標(biāo)系當(dāng)中.本文使用Proj4 (https://proj4.org/) 進(jìn)行投影坐標(biāo)轉(zhuǎn)換,GDAL 庫(https://www.gdal.org/)進(jìn)行矢量、柵格數(shù)據(jù)的提取.

      圖3 分布式爬蟲系統(tǒng)

      表1 多源數(shù)據(jù)類型與來源

      由于直接通過gdal 對(duì)時(shí)空數(shù)據(jù)進(jìn)行讀取比較低效的,為此,在提取時(shí)空坐標(biāo)上的不同屬性信息后,基于空間數(shù)據(jù)的最小粒度,建立時(shí)空數(shù)據(jù)庫,以時(shí)空立方體的形式以進(jìn)行高效索引.

      本文采用的文本數(shù)據(jù)主要是微博語料數(shù)據(jù)、美團(tuán)網(wǎng)評(píng)論語料數(shù)據(jù),對(duì)于事件時(shí)間,可以抓取到微博發(fā)博時(shí)間,評(píng)論發(fā)送時(shí)間來確定,地理坐標(biāo)則根據(jù)下文的地理坐標(biāo)推斷算法進(jìn)行推斷.結(jié)構(gòu)化數(shù)據(jù)本身已經(jīng)包含了時(shí)空信息,可以直接進(jìn)行使用.

      3.3 事件探測(cè)與關(guān)鍵信息推斷

      3.3.1 基于短文本分類的時(shí)間探測(cè)算法

      微博等社交媒體數(shù)據(jù)蘊(yùn)含了大量的信息,然而由于其本身的特點(diǎn),其中的噪聲也特別多.為了充分利用微博數(shù)據(jù)進(jìn)行食源性疾病的檢測(cè),首先要對(duì)數(shù)據(jù)進(jìn)行清洗.為了去除干擾的僵尸微博賬戶,本文目前利用用戶的關(guān)注粉絲比、微博總量等作為篩選條件,選出真正有價(jià)值的微博內(nèi)容,同時(shí)基于短文本分類算法開發(fā)了食源性疾病事件探測(cè)算法,對(duì)微博語料中的食源性疾病進(jìn)行探測(cè).

      常見的短文本分類算法流程如圖4所示,主要包括分詞、去停用詞、詞向量的訓(xùn)練以及分類器的訓(xùn)練.傳統(tǒng)的短文本分類算法主要是根據(jù)分詞后計(jì)算的詞組TF-IDF 權(quán)重,然后使用樸素貝葉斯分類器進(jìn)行分類.本文開發(fā)的平臺(tái)采用Jieba (https://github.com/fxsjy/jieba) 分詞庫進(jìn)行分詞,基于sklearn (http://scikit-learn.org/)開發(fā)TF-IDF 算法,基于gensim (https://radimrehurek.com/gensim/)開發(fā)Word2vec[12]算法,基于TensorFlow(https://tensorflow.google.cn/) 開發(fā)Fasttext[13]和Textcnn 算法,平臺(tái)集成多種分類算法,并且展現(xiàn)分類效果,供用戶選擇.

      圖4 短文本分類流程

      3.3.2 基于動(dòng)態(tài)上下文的地理位置推斷算法

      由于新浪微博每條所含字?jǐn)?shù)小于140 個(gè)字,平均微博長(zhǎng)度為30 個(gè)字左右,一條微博很難全面準(zhǔn)確的描述食品安全事件.由于用戶很有可能會(huì)有連續(xù)多條微博涉及食源性疾病問題,而其中只有某一條直接含有食源性疾病關(guān)鍵詞,其他相關(guān)微博可能含有有關(guān)食源性疾病的其他重要信息,如地理位置等.那么,簡(jiǎn)單地根據(jù)關(guān)鍵詞篩選單條微博的方法會(huì)錯(cuò)過許多含有重要信息的微博.本文目前研究采用動(dòng)態(tài)上下文確定事件窗口,根據(jù)事件窗口確定候選微博.動(dòng)態(tài)上下文窗口,是依據(jù)微博之間的語義相似度來確定的,分別向前、向后利用微博間的文本相似性來確定上下文窗口.

      地理位置推斷算法流程如圖5所示,對(duì)于美團(tuán)網(wǎng)評(píng)論數(shù)據(jù),根據(jù)店鋪名稱獲得地理位置坐標(biāo).對(duì)于微博數(shù)據(jù),首先對(duì)微博文本檢測(cè)是否包含地理位置名詞,若包含地理位置名字,則根據(jù)地理名稱的Geocoding 獲取地理坐標(biāo),若單條微博文本中不包含地理位置信息,則在候選微博集中尋找地理位置信息,若微博上下文中也未包含地理位置信息,則根據(jù)用戶注冊(cè)地址確定食源性疾病事件地理位置.

      3.4 基于多源數(shù)據(jù)的風(fēng)險(xiǎn)預(yù)測(cè)算法

      在多源數(shù)據(jù)的基礎(chǔ)上,經(jīng)過豐富的特征工程,開發(fā)了食源性疾病的風(fēng)險(xiǎn)預(yù)測(cè)算法,使用多種機(jī)器學(xué)習(xí)算法,開發(fā)了多種風(fēng)險(xiǎn)預(yù)測(cè)模型,如邏輯回歸、決策樹、梯度提升樹,隨機(jī)森林等,并且提供多種的評(píng)測(cè)標(biāo)準(zhǔn).并將多種模型集成在大數(shù)據(jù)處理平臺(tái)上,使用并行化算法優(yōu)化模型,使得平臺(tái)能夠利用多源大數(shù)據(jù)快速計(jì)算食源性疾病爆發(fā)的區(qū)域風(fēng)險(xiǎn).

      3.5 可視化與交互系統(tǒng)

      對(duì)于模型的結(jié)果的展示,本文基于Echarts (https://echarts.baidu.com/)實(shí)現(xiàn)基于地圖的風(fēng)險(xiǎn)可視化,交互系統(tǒng)采用Web 形式,基于Flask 開發(fā)Web 后臺(tái),前端采用bootstrap UI 以JavaScript 進(jìn)行開發(fā).

      圖5 食源性疾病事件地理位置推斷

      4 平臺(tái)驗(yàn)證與試驗(yàn)結(jié)果

      4.1 系統(tǒng)界面及風(fēng)險(xiǎn)預(yù)測(cè)示意圖

      通過平臺(tái)抓取北京市相關(guān)數(shù)據(jù),獲取食源性疾病相關(guān)微博10 萬條,美團(tuán)網(wǎng)評(píng)論數(shù)據(jù)500 萬條,結(jié)合環(huán)境數(shù)據(jù)、官方統(tǒng)計(jì)數(shù)據(jù)等多源數(shù)據(jù),數(shù)據(jù)來源與格式見表1,系統(tǒng)界面及預(yù)測(cè)風(fēng)險(xiǎn)如圖6所示.

      圖6 2018年6月食源性疾病風(fēng)險(xiǎn)示意圖

      4.2 事件探測(cè)算法實(shí)驗(yàn)結(jié)果

      本文通過人工標(biāo)注了的3 萬條包含食源性疾病關(guān)鍵字的微博進(jìn)行訓(xùn)練,訓(xùn)練集和測(cè)試集的比例為8:2.通過AUC 對(duì)分類結(jié)果進(jìn)行評(píng)價(jià).實(shí)驗(yàn)結(jié)果見表2.

      表2 事件探測(cè)算法實(shí)驗(yàn)結(jié)果

      從實(shí)驗(yàn)結(jié)果可以看出,使用TextCnn 文本分類算法可以達(dá)到最高的分類準(zhǔn)確度,能夠較好的識(shí)別出短文本中的食源性疾病事件.

      4.3 風(fēng)險(xiǎn)預(yù)測(cè)算法實(shí)驗(yàn)結(jié)果

      根據(jù)社交媒體中的病例信息,通過上下文地理位置推斷算法推斷出地理位置后,使用多種模型進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè),在小區(qū)域粒度下,預(yù)測(cè)在給定時(shí)間條件下,一個(gè)地點(diǎn)是否會(huì)發(fā)生食源性疾病,通過AUC 進(jìn)行評(píng)價(jià),實(shí)驗(yàn)結(jié)果見表3.

      表3 風(fēng)險(xiǎn)預(yù)測(cè)算法實(shí)驗(yàn)結(jié)果

      從實(shí)驗(yàn)結(jié)果可以看出,使用XGBOOST[14]對(duì)北京食源性疾病發(fā)生的風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)可以達(dá)到最好效果.

      5 結(jié)論與展望

      本文使用大數(shù)據(jù)與人工智能的方法對(duì)食源性疾病事件進(jìn)行探測(cè)和風(fēng)險(xiǎn)預(yù)警.面向食源性疾病的數(shù)據(jù)獲取、數(shù)據(jù)分析和數(shù)據(jù)可視化的需求開發(fā)了食源性疾病事件智能探測(cè)與預(yù)警平臺(tái),使用多源數(shù)據(jù)對(duì)食源性疾病事件的風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)與評(píng)估,為食源性疾病的管理與防治提供一定的指導(dǎo)作用.

      猜你喜歡
      食源性可視化社交
      社交之城
      英語世界(2023年6期)2023-06-30 06:28:28
      基于CiteSpace的足三里穴研究可視化分析
      秋冬季高發(fā)食源性疾病的危害與預(yù)防
      中老年保健(2022年1期)2022-08-17 06:14:22
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      論食品安全與食源性疾病的控制
      夏季食品安全頭號(hào)殺手——食源性疾病
      中老年保健(2021年6期)2021-08-24 06:54:00
      基于CGAL和OpenGL的海底地形三維可視化
      社交距離
      “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
      河东区| 德安县| 海南省| 铁力市| 峡江县| 四川省| 织金县| 西吉县| 本溪| 新源县| 冀州市| 萝北县| 辽中县| 拜泉县| 苗栗市| 肃北| 久治县| 哈密市| 咸阳市| 元谋县| 丹凤县| 北海市| 双流县| 建瓯市| 香港 | 马公市| 东港市| 和平县| 扬中市| 武清区| 六盘水市| 习水县| 甘肃省| 会宁县| 泊头市| 天全县| 安丘市| 澳门| 白银市| 泰安市| 乌拉特中旗|