□ 劉 姝 王思宇 王夢可 成都數(shù)之聯(lián)科技有限公司
國以民為本,民以食為天,食以安為先。食品安全關(guān)乎人民健康和生命,“十三五”規(guī)劃建議更是將食品安全問題提到國家戰(zhàn)略高度,提出實(shí)施食品安全戰(zhàn)略。
隨著信息技術(shù)的發(fā)展,有關(guān)食品安全的監(jiān)管工作趨于信息化和網(wǎng)絡(luò)化,累積了海量的食品安全數(shù)據(jù)。食品安全數(shù)據(jù)來源范圍廣泛,涉及多個部門,包含食品生產(chǎn)、加工、餐飲與流通等多個環(huán)節(jié),覆蓋網(wǎng)絡(luò)餐飲、集中配送、食堂等多個業(yè)態(tài)。然而,無論是食品監(jiān)管部門內(nèi)部管理系統(tǒng)的數(shù)據(jù),還是互聯(lián)網(wǎng)等渠道的公開數(shù)據(jù),都呈現(xiàn)出零散、異構(gòu)、低質(zhì)等特征。不同部門的信息數(shù)據(jù)被分割存儲,數(shù)據(jù)組織形式各異,相互獨(dú)立、封閉,無法有效互聯(lián)互通。要實(shí)現(xiàn)對食品安全數(shù)據(jù)的有效管理、充分挖掘數(shù)據(jù)價(jià)值,需要對碎片化的數(shù)據(jù)進(jìn)行有效融合,打破數(shù)據(jù)壁壘,實(shí)現(xiàn)數(shù)據(jù)互聯(lián)互通,釋放數(shù)據(jù)潛在價(jià)值。
食品安全數(shù)據(jù)的重要特點(diǎn)就是數(shù)據(jù)量大、來源分散和格式多樣,包括數(shù)據(jù)庫、文本、圖片、視頻、網(wǎng)頁等各類結(jié)構(gòu)化、非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)?;谑称钒踩珨?shù)據(jù)的特征及問題,不少學(xué)者也都進(jìn)行過有關(guān)食品安全數(shù)據(jù)的采集與融合共享研究。
劉楊、馬東[1]等學(xué)者認(rèn)為需要通過數(shù)據(jù)編碼標(biāo)準(zhǔn),實(shí)現(xiàn)跨部門、跨層級、跨地域的食品安全相關(guān)數(shù)據(jù)的融合與應(yīng)用,研究側(cè)重于食品安全數(shù)據(jù)的分類與編碼,對于數(shù)據(jù)的采集與融合共享缺少系統(tǒng)性描述;張素智、楊芮[2]等闡述了食品安全大數(shù)據(jù)預(yù)處理方法即數(shù)據(jù)融合技術(shù),主要是消去食品安全數(shù)據(jù)中的噪聲和冗余點(diǎn),對從多傳感器中采集到的食品安全數(shù)據(jù)進(jìn)行分散處理后全局融合,所描述的采集方式較為單一,沒有覆蓋到常用的數(shù)據(jù)采集渠道;晏斌、李唯正[3]等認(rèn)為需要對具體的信息進(jìn)行統(tǒng)一規(guī)范的本體轉(zhuǎn)化,實(shí)現(xiàn)對數(shù)據(jù)庫的精準(zhǔn)查詢,從而實(shí)現(xiàn)不同系統(tǒng)之間的數(shù)據(jù)交換和融合,文章中更多的是介紹了一種融合技術(shù),而對于數(shù)據(jù)融合共享的實(shí)現(xiàn)邏輯卻沒有進(jìn)行闡述;陳小妮、李鵬輝[4]等對食品安全數(shù)據(jù)融合的三個層次進(jìn)行分析和對比,認(rèn)為食品安全大數(shù)據(jù)融合方法可以分為經(jīng)典融合方法和現(xiàn)代融合方法,側(cè)重于方法論的講解,針對整個系統(tǒng)的構(gòu)建缺少實(shí)質(zhì)性的建議。
本文結(jié)合目前食品安全數(shù)據(jù)采集與融合共享的研究現(xiàn)狀及存在的問題,在以往學(xué)者研究的基礎(chǔ)上,從數(shù)據(jù)采集的規(guī)范性和一致性入手,以數(shù)據(jù)融合共享為目的,構(gòu)建了集數(shù)據(jù)采集、治理、共享服務(wù)為一體的食品安全數(shù)據(jù)采集與融合共享體系。
本文構(gòu)建的食品安全數(shù)據(jù)采集與融合共享體系包含數(shù)據(jù)的采集、治理和共享交換,利用多種數(shù)據(jù)接入方式實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一匯聚,依據(jù)豐富的數(shù)據(jù)治理規(guī)則和治理規(guī)則集對匯聚進(jìn)來的數(shù)據(jù)進(jìn)行治理,通過共享交換數(shù)據(jù)資源目錄和服務(wù)管理來實(shí)現(xiàn)食品安全監(jiān)管各部門之間數(shù)據(jù)的共享交換,滿足食品安全數(shù)據(jù)融合共享需求。技術(shù)路徑圖如圖1 所示。
圖1 數(shù)據(jù)采集與融合共享體系技術(shù)路徑
鑒于食品安全數(shù)據(jù)的多源性和分散性,本文構(gòu)建的食品安全數(shù)據(jù)采集與融合共享體系采用Kettle、Flume、Sqoop 等技術(shù),實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一匯聚,把原本分散在各個業(yè)務(wù)系統(tǒng)的信息匯集起來?;谑称钒踩珨?shù)據(jù)的不同存儲特征,本文建立了數(shù)據(jù)庫復(fù)制、接口采集、互聯(lián)網(wǎng)采集、離線導(dǎo)入4 種數(shù)據(jù)采集方式。
數(shù)據(jù)庫復(fù)制方式主要適用于食品安全相關(guān)業(yè)務(wù)系統(tǒng)可開放核心數(shù)據(jù)庫訪問權(quán)限的場景,需要對接并匯集食品安全相關(guān)業(yè)務(wù)系統(tǒng)的業(yè)務(wù)信息以及數(shù)據(jù)庫技術(shù)信息(如數(shù)據(jù)庫類型、數(shù)據(jù)庫訪問信息等)。數(shù)據(jù)庫復(fù)制方式下,需要先開展數(shù)據(jù)連接測試,確保數(shù)據(jù)庫遠(yuǎn)程訪問流程通暢、數(shù)據(jù)權(quán)限滿足業(yè)務(wù)需求。進(jìn)一步,利用Kettle 技術(shù)中源表輸入、目標(biāo)表輸入、數(shù)據(jù)比對、分布操作、增加數(shù)據(jù)、更新數(shù)據(jù)和刪除數(shù)據(jù)等配置組件,對食品相關(guān)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫的信息資源進(jìn)行抽取轉(zhuǎn)換,并通過數(shù)據(jù)比對的方式實(shí)現(xiàn)數(shù)據(jù)的增量更新。
接口采集方式主要適用于食品相關(guān)業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)接口的場景。接口采集方式支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)(如Json 格式、Xml 格式的數(shù)據(jù))、非結(jié)構(gòu)化數(shù)據(jù)(如base64 編碼的圖片等)的采集。通過對接并匯集食品安全相關(guān)業(yè)務(wù)系統(tǒng)的業(yè)務(wù)信息以及對應(yīng)接口技術(shù)信息(如接口url、請求參數(shù)、返回參數(shù)等),開展接口連接測試,確保接口遠(yuǎn)程訪問流程通暢,然后利用Web Service技術(shù)和表輸入、輸入?yún)?shù)字段選擇、Web 服務(wù)查詢、輸出參數(shù)字段選擇和表輸出等配置組件,完成對食品相關(guān)業(yè)務(wù)系統(tǒng)數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程,實(shí)現(xiàn)對食品安全相關(guān)業(yè)務(wù)系統(tǒng)數(shù)據(jù)的采集。
互聯(lián)網(wǎng)采集方式采用先進(jìn)的分布式網(wǎng)絡(luò)爬蟲框架,開展食品安全相關(guān)業(yè)務(wù)數(shù)據(jù)采集任務(wù)的統(tǒng)一調(diào)度、管理和維護(hù)工作,并利用Flume 技術(shù)實(shí)現(xiàn)對采集數(shù)據(jù)的統(tǒng)一存儲??苫陉P(guān)鍵字段解析方式、關(guān)鍵字搜索規(guī)則、冗余數(shù)據(jù)過濾規(guī)則等技術(shù)手段,實(shí)現(xiàn)對門戶網(wǎng)站、網(wǎng)絡(luò)社交論壇、微博輿論信息、微信公眾號等互聯(lián)網(wǎng)食品安全相關(guān)數(shù)據(jù)的采集。
離線導(dǎo)入方式適用于相關(guān)食品安全監(jiān)管部門無信息化系統(tǒng)、信息化系統(tǒng)網(wǎng)絡(luò)不可達(dá)、本地電子化文件的二次處理等數(shù)據(jù)采集場景,利用Sqoop技術(shù),實(shí)現(xiàn)對excel等格式數(shù)據(jù)的采集;利用FTP 和CSV 文件數(shù)據(jù)輸入等組件配置,實(shí)現(xiàn)對CSV 等格式數(shù)據(jù)的采集。完成數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程,通過預(yù)先設(shè)置的數(shù)據(jù)模板上傳離線文件。
通過上述4 種數(shù)據(jù)接入方式,可將原本相互獨(dú)立的食品安全數(shù)據(jù)匯聚在一起,采用Hive 存儲結(jié)構(gòu)化數(shù)據(jù),HBase 和HDFS 存儲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)對海量食品安全數(shù)據(jù)的統(tǒng)一采集及存儲,為后續(xù)的融合共享提供基礎(chǔ)支撐。
從各渠道采集而來的食品安全數(shù)據(jù),量大且種類多,避免不了存在數(shù)據(jù)錯誤、數(shù)據(jù)沖突等問題,在開展數(shù)據(jù)的共享交換前,需要對數(shù)據(jù)進(jìn)行融合治理,確保數(shù)據(jù)的規(guī)范性、一致性。
本文研究了基于規(guī)則引擎配置的數(shù)據(jù)融合治理技術(shù),通過管理、配置系列的治理規(guī)則集,實(shí)現(xiàn)對食品安全數(shù)據(jù)的融合治理。首先,依據(jù)食品安全業(yè)務(wù)相關(guān)需求(如業(yè)務(wù)流程、判定規(guī)則)、數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)需求(如數(shù)據(jù)字典、元數(shù)據(jù)、數(shù)據(jù)庫表的技術(shù)標(biāo)準(zhǔn)等),設(shè)定數(shù)據(jù)融合治理規(guī)范。進(jìn)一步考量食品安全數(shù)據(jù)的采集方式(全量/增量)、數(shù)據(jù)更新頻率、數(shù)據(jù)使用場景等,建立數(shù)據(jù)治理規(guī)則,對采集的食品安全相關(guān)數(shù)據(jù)開展融合治理,識別并剔除失真數(shù)據(jù),提升融合后的數(shù)據(jù)質(zhì)量。
對于融合治理好的數(shù)據(jù),本文研究了可配置、高可用的數(shù)據(jù)共享交換技術(shù)。該技術(shù)使用Hadoop 生態(tài)中的Ranger、RangerKMS、Kerberos 進(jìn)行數(shù)據(jù)訪問的權(quán)限控制,實(shí)現(xiàn)對交換資源的目錄劃分和交換資源的共享,并使用Spring Cloud 集群保證共享交換服務(wù)的高可用。服務(wù)統(tǒng)一通過Spring Cloud Gateway 網(wǎng)關(guān),由網(wǎng)關(guān)訪問Eureka 服務(wù)注冊中心調(diào)用可用服務(wù)返回共享數(shù)據(jù),通過RESTful/Web Service 數(shù)據(jù)共享交換服務(wù)集群對共享交換服務(wù)進(jìn)行管理,使用Kafka 作為消息總線保證服務(wù)消息不丟失,并對共享交換內(nèi)容進(jìn)行展示。同時支持?jǐn)?shù)據(jù)同步、歷史數(shù)據(jù)遷移等,為不同系統(tǒng)、數(shù)據(jù)庫和數(shù)據(jù)格式之間數(shù)據(jù)的交換提供服務(wù)。
本文構(gòu)建的食品安全數(shù)據(jù)融合共享技術(shù)路徑,能夠基于統(tǒng)一的規(guī)范和標(biāo)準(zhǔn)提供數(shù)據(jù)融合共享交換服務(wù),消除由于應(yīng)用范圍、構(gòu)建方式、系統(tǒng)結(jié)構(gòu)、數(shù)據(jù)資源等產(chǎn)生的各業(yè)務(wù)系統(tǒng)間的差異,實(shí)現(xiàn)跨系統(tǒng)、跨平臺、跨數(shù)據(jù)庫之間基于不同傳輸協(xié)議的食品安全數(shù)據(jù)的交換和信息共享。各個食品安全相關(guān)單位可以更便捷地共享交換數(shù)據(jù),既能節(jié)約成本,又能在安全可控的前提下提升數(shù)據(jù)資源的利用率,提升信息化建設(shè)對業(yè)務(wù)和管理的支撐作用。
食品安全數(shù)據(jù)的采集與融合共享體系可對原本分散異構(gòu)的信息系統(tǒng)數(shù)據(jù)資源進(jìn)行有效整合,開展多維度數(shù)據(jù)校驗(yàn),搭建數(shù)據(jù)流通渠道,破除數(shù)據(jù)壁壘,實(shí)現(xiàn)不同來源、不同結(jié)構(gòu)、不同類型和不同格式食品安全數(shù)據(jù)的采集、融合治理和共享,靈活實(shí)現(xiàn)不同信息系統(tǒng)間的信息交換、信息共享與業(yè)務(wù)協(xié)同,為食品安全監(jiān)管內(nèi)外部門之間信息共享和公眾的資源公開服務(wù)提供支撐,進(jìn)一步提升政府服務(wù)和監(jiān)管能力,保障食品安全。