◎ 祁海峰,鄭 驥,陶光燦,李 偉
(1.人民網(wǎng)輿情數(shù)據(jù)中心,北京 100026;2.食品安全與營(yíng)養(yǎng)(貴州)信息科技有限公司,貴州 貴陽(yáng) 550014)
2008 年三聚氰胺事件事情經(jīng)過(guò)如下:中國(guó)傳染病疫情和突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)直報(bào)系統(tǒng)(簡(jiǎn)稱網(wǎng)絡(luò)直報(bào)系統(tǒng))收到甘肅、陜西連續(xù)出現(xiàn)嬰兒患有腎結(jié)石這種罕見(jiàn)現(xiàn)象的直報(bào)事件,如此高的比例違背了醫(yī)學(xué)規(guī)律,顯得很不尋常;此后,疾控中心工作人員發(fā)現(xiàn)廣西等地出現(xiàn)有同樣情況;衛(wèi)生系統(tǒng)開(kāi)始排查,通過(guò)就診記錄發(fā)現(xiàn)患兒都有食用三鹿奶粉經(jīng)歷,對(duì)奶粉進(jìn)行理化分析得知其內(nèi)部添加了非法添加劑,期間也有良心企業(yè)老板主動(dòng)爆料,通過(guò)對(duì)供應(yīng)鏈追蹤發(fā)現(xiàn)有生產(chǎn)人員在原奶中添加三聚氰胺,才揭示出問(wèn)題根源。
將以上事件過(guò)程進(jìn)行抽象概括,得到模式如下:①有不同尋常事件發(fā)生,超過(guò)隨機(jī)發(fā)生可能。②在多個(gè)地方發(fā)現(xiàn)同樣類型事件,得到結(jié)論可能有問(wèn)題出現(xiàn)。③根據(jù)可能有問(wèn)題報(bào)道進(jìn)行深挖與食品相關(guān)的因素[1]。④有人員對(duì)這個(gè)事件可能問(wèn)題進(jìn)行爆料。⑤對(duì)可能存在問(wèn)題食品進(jìn)行專業(yè)檢查,科學(xué)分析明確事件原因。在以上過(guò)程中,前4 個(gè)部分都可以以機(jī)器為主通過(guò)算法實(shí)現(xiàn)目的。
通過(guò)以上分析,得到解決問(wèn)題的基本思路,見(jiàn)圖1。
圖1 解決問(wèn)題基本思路圖
在5 個(gè)環(huán)節(jié)中,可以分為3 個(gè)階段:前3 個(gè)環(huán)節(jié)可以認(rèn)為是發(fā)現(xiàn)健康事件階段,第4 個(gè)環(huán)節(jié)判斷健康事件是否與食品相關(guān)階段,最后一個(gè)環(huán)節(jié)是人工處理階段。前兩個(gè)階段共4 個(gè)環(huán)節(jié)均可以通過(guò)機(jī)器自動(dòng)實(shí)現(xiàn),幫助用戶初步篩選出來(lái)后,提交給相關(guān)人員進(jìn)行處理。因此,本研究對(duì)上述4 個(gè)環(huán)節(jié)詳細(xì)進(jìn)行說(shuō)明。
根據(jù)以上分析,在圖1 解決問(wèn)題基本思路的基礎(chǔ)上,拓展后得到圖2 食品安全事件風(fēng)險(xiǎn)預(yù)警模型頂層設(shè)計(jì)。除了直報(bào)數(shù)據(jù)外,網(wǎng)上數(shù)據(jù)也很多,為此,本研究決定直報(bào)數(shù)據(jù)基于規(guī)則選擇結(jié)合輿情數(shù)據(jù)利用算法先篩選出與健康相關(guān)事件,再利用知識(shí)圖譜比對(duì)發(fā)現(xiàn)不同尋常事件。再通過(guò)時(shí)間的集中和地理位置多地同時(shí)出現(xiàn)從而實(shí)現(xiàn)對(duì)事件確認(rèn),找出這些異常健康事件后,提交給人工進(jìn)行專門判斷是否可能與食品相關(guān)。
圖2 食品安全事件風(fēng)險(xiǎn)預(yù)警模型頂層設(shè)計(jì)圖
在整個(gè)解決問(wèn)題過(guò)程中,直報(bào)系統(tǒng)和輿情系統(tǒng)兩個(gè)數(shù)據(jù)來(lái)源,二者在分離環(huán)節(jié)分別進(jìn)行說(shuō)明,相關(guān)環(huán)節(jié)對(duì)二者聯(lián)系進(jìn)行說(shuō)明,一起處理的環(huán)節(jié),只做一個(gè)說(shuō)明。
衛(wèi)生直報(bào)系統(tǒng)包括國(guó)家和省兩個(gè)級(jí)別應(yīng)用系統(tǒng)平臺(tái),原始和統(tǒng)計(jì)數(shù)據(jù)主要是在省級(jí)應(yīng)用系統(tǒng)平臺(tái),因此識(shí)別數(shù)據(jù)是來(lái)自省級(jí)系統(tǒng)。原始數(shù)據(jù)都進(jìn)行了統(tǒng)計(jì),且有描述??赏ㄟ^(guò)設(shè)定一些包括閾值的規(guī)則來(lái)判斷哪些是值得關(guān)注的健康安全事件。
對(duì)于上報(bào)事件,主要是出現(xiàn)在疾病或者癥狀描述中不規(guī)范的用詞,需要將“非標(biāo)準(zhǔn)表述”映射到“標(biāo)準(zhǔn)表述”,這個(gè)過(guò)程需要一個(gè)基于語(yǔ)義的同義詞庫(kù)。
此過(guò)程是一個(gè)文本對(duì)齊,相似度計(jì)算的過(guò)程。相似度計(jì)算在經(jīng)典的信息檢索系統(tǒng)中是基于匹配的,缺少利用詞匯之間的“關(guān)系”??衫脀ord2vec 使用大量數(shù)據(jù),對(duì)上下文信息進(jìn)行訓(xùn)練,將詞匯映射到詞向量空間,“關(guān)系”就對(duì)應(yīng)于詞向量距離,利用詞匯之間的距離進(jìn)行檢索。
根據(jù)以上分析,從輿情數(shù)據(jù)中挖掘發(fā)現(xiàn)特殊事件。方法是通過(guò)對(duì)文本進(jìn)行分類,找到屬于健康類別的文本。
文本分類一般分為分詞、去停用詞、抽取特征和文本分類4 個(gè)環(huán)節(jié)。主要有基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的文本分類兩類方法。
基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類主要有樸素貝葉斯算法、神經(jīng)網(wǎng)絡(luò)算法、KNN 算法及SVM 算法對(duì)Web文本進(jìn)行分類,要經(jīng)歷完全4個(gè)環(huán)節(jié)。機(jī)器學(xué)習(xí)算法中,神經(jīng)網(wǎng)絡(luò)算法的準(zhǔn)確度優(yōu)于其他算法。都是有監(jiān)督學(xué)習(xí)方法。分詞、去停用詞使用jieba 工具。
通過(guò)深度學(xué)習(xí)進(jìn)行的文本分類,利用神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)文本特征,自動(dòng)進(jìn)行分類,如TextRNN + Attentio、TextRCNN(TextRNN + CNN)、bert 等方法。
對(duì)于篩選出的健康相關(guān)事件,進(jìn)一步判斷是否屬于特殊/異常事件,判斷標(biāo)準(zhǔn)為:①主體和客體的組合是否不合常規(guī),如嬰兒得膽結(jié)石。②主體屬性值是否超過(guò)常規(guī)。如果滿足兩個(gè)條件中的一個(gè),即可初步判定這個(gè)事件為特殊事件[2]。而這個(gè)過(guò)程可以通過(guò)知識(shí)圖譜的建構(gòu)和比對(duì)來(lái)實(shí)現(xiàn)。異常健康事件初步發(fā)現(xiàn)流程,見(jiàn)圖3。
圖3 異常健康事件初步發(fā)現(xiàn)圖
常見(jiàn)健康事件中,一般可以歸結(jié)為一個(gè)群體有不常見(jiàn)癥狀出現(xiàn),又可以分為兩種情況:①主體和客體組合特殊,如嬰兒得了腎結(jié)石。②人群一致出現(xiàn)一種不好狀態(tài),如同一批次旅行者出現(xiàn)中毒狀態(tài)。
案例:可以歸結(jié)為有相同行為人群一致出現(xiàn)一種不好狀態(tài)。主體是人群,屬性是健康狀態(tài),屬性值是出現(xiàn)不好的健康狀態(tài)或者疾病。先對(duì)文件提取摘要,然后對(duì)其中進(jìn)行核心詞、關(guān)鍵詞提取,如果關(guān)鍵詞中具備有描述人、疾病、身體狀況不好等情況,通過(guò)語(yǔ)句層面的語(yǔ)義理解判斷語(yǔ)句中主語(yǔ)是否是人,謂語(yǔ)部分是出現(xiàn)/發(fā)生了,賓語(yǔ)是疾病或者描述身體不好癥狀情況。如果符合就可以認(rèn)為是出現(xiàn)了健康事件。
在確定問(wèn)題后,對(duì)此問(wèn)題是否在其他地方也有出現(xiàn),不同數(shù)據(jù)來(lái)源可以進(jìn)行互補(bǔ)比對(duì),如基于地理空間、時(shí)間線,直報(bào)數(shù)據(jù)和輿情數(shù)據(jù)對(duì)同一類事件的報(bào)道。
如果類似事件在全國(guó)多個(gè)地方出現(xiàn),而且事件主要出現(xiàn)在近一年時(shí)間內(nèi),則增加了這類事件是異常事件可能性。如果在直報(bào)系統(tǒng)和輿情系統(tǒng)中都出現(xiàn)了對(duì)同類事件的報(bào)道,尤其是涉事主體分布更廣情況下,則更可以判斷這個(gè)事件為異常健康事件。
通過(guò)對(duì)行為一致性判定,可以判定不同地點(diǎn)、不同時(shí)間中發(fā)生同樣事情,根據(jù)求同法,基本可以判定這是一個(gè)需要引起重視的異常健康事件[3]。
對(duì)于異常健康事件,可將報(bào)道中的文本重新提取出來(lái),尋找事件中是否有與食品相關(guān)事情發(fā)生。如食品品牌、食用時(shí)間等。利用這些特征通過(guò)聚類分析方法尋找同類項(xiàng)。增加了甄別出的異常健康事件屬于食品安全類別證據(jù),從而可以初步判定是一個(gè)食品安全事件[4]。
直報(bào)數(shù)據(jù)或者輿情數(shù)據(jù)中關(guān)于有關(guān)食物相關(guān)的特征抽取可采用有注意力機(jī)制的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)來(lái)進(jìn)行特征學(xué)習(xí),利用同義詞詞典通過(guò)計(jì)算詞向量距離得到相似事件,從而判定是否與食品有關(guān)。
如果判斷出的事件是與食品有關(guān),挑選出來(lái)推送到人工處做進(jìn)一步處理。
基于實(shí)際工作中食品安全事件發(fā)生的一些情況進(jìn)行歸納和總結(jié),形成相應(yīng)研究路線和解決方案有著合理基礎(chǔ),技術(shù)實(shí)現(xiàn)上方法和路徑是成熟的。雖然因?yàn)閿?shù)據(jù)原因暫時(shí)沒(méi)有進(jìn)行實(shí)證研究,但是實(shí)現(xiàn)邏輯是自洽的,通過(guò)異常事件識(shí)別并核對(duì)是否與食品相關(guān)從而實(shí)現(xiàn)通過(guò)機(jī)器預(yù)判食品安全事件方法是可行的。希望在為相關(guān)部門做規(guī)劃時(shí),能得到數(shù)據(jù)進(jìn)行驗(yàn)證分析,在合適情況下推進(jìn)到實(shí)際工作中。