付佳潔,謝雨辰,張德林,張 鵬,張海瑜
(1. 中國農(nóng)業(yè)大學煙臺研究院,山東煙臺 264670;2. 中國科學院華南植物園,廣東廣州 510650;3.中國農(nóng)業(yè)大學 建筑規(guī)劃設(shè)計研究院,北京 100083;4. 中國農(nóng)業(yè)大學 工學院,北京 100083)
冷鮮羊肉因其良好的營養(yǎng)價值和食用品質(zhì)已逐漸成為我國廣大民眾羊肉消費的新潮流;與此同時,人們對冷鮮羊肉食品質(zhì)量安全問題的關(guān)注也日益增長。為保障冷鮮羊肉的食用品質(zhì)與安全,加強質(zhì)量安全檢測與完善檢測方法、指標和技術(shù)就成為當務之急。目前,冷鮮羊肉質(zhì)量檢測較多采用化學計量方法、無損檢測技術(shù)、PCR 檢測技術(shù)和色質(zhì)譜聯(lián)用法等,由于缺乏系統(tǒng)的深度知識集成,常導致相關(guān)知識與數(shù)據(jù)存在碎片化、散亂化、利用率低、準確性不高、聚合力差等問題。隨著食品質(zhì)量安全檢測技術(shù)智能化和相關(guān)知識集成化的發(fā)展,社會各界特別是飼養(yǎng)農(nóng)戶、消費者、檢測機構(gòu)工作人員等對冷鮮羊肉品質(zhì)檢測數(shù)據(jù)和知識的需求日益增加,相關(guān)領(lǐng)域的數(shù)據(jù)及知識增長與需求矛盾變得突出起來。解決這一問題,需要構(gòu)建冷鮮羊肉品質(zhì)檢測的智能化知識服務平臺,對相關(guān)數(shù)據(jù)、知識進行有效整合、梳理和集成;為不同用戶提供冷鮮羊肉品質(zhì)安全與檢測知識的智能信息服務。
知識圖譜是近年來興起的智能認知技術(shù),其特點是能夠高效地整合海量數(shù)據(jù)信息,使之組合為一張相互關(guān)聯(lián)的知識網(wǎng)絡(luò)圖,實現(xiàn)知識互聯(lián);并挖掘、梳理出知識點之間的實體聯(lián)系和有價值的信息[1]。目前,知識圖譜技術(shù)迅速發(fā)展且與深度學習、人工智能相結(jié)合,在工業(yè)、醫(yī)學、軍事、農(nóng)業(yè)等領(lǐng)域的應用日新月異,越來越廣泛。其相關(guān)理論的發(fā)展還在不斷持續(xù)深化,基于知識語義圖譜而衍生的智能問答系統(tǒng)、推薦系統(tǒng)等也層出不窮[2]。Hook M[3]指出知識圖譜包含理解交流及在特定領(lǐng)域?qū)崿F(xiàn)微觀展示與宏觀可視化,幫助加速知識傳播等功能。Hu K 等人[4]認為知識圖譜可實現(xiàn)學科知識整體化,幫助把握領(lǐng)域進化情況。也有研究指出將知識圖譜構(gòu)建技術(shù)總結(jié)為知識抽取、知識融合、知識推理與加工等相互聯(lián)系的組成部分。將知識圖譜細分為通用和領(lǐng)域知識圖譜。關(guān)于知識圖譜技術(shù)在食品質(zhì)量安全領(lǐng)域的應用,抓取食品質(zhì)量檢驗數(shù)據(jù)并基于此構(gòu)建知識圖譜,將食品安全問題可視化。Hong R 等人[5]基于Citespace 等軟件,針對可視化紅外探測技術(shù)領(lǐng)域構(gòu)建知識結(jié)構(gòu),探究其演變進程,預測未來熱點。管錚懿等人[6]利用Scrapy 爬蟲框架獲取各級政府文件、檢測報告以及權(quán)威食品論壇的數(shù)據(jù)構(gòu)建了基于Neo4j 的食品安全知識圖譜。對國家食品安全標準(NFSS) 進行了知識抽取與引用關(guān)系挖掘,構(gòu)建NFSS 知識圖譜。
可以看出,知識圖譜技術(shù)在理論方面發(fā)展正在趨于完善成熟,在食品安全領(lǐng)域已應用廣泛,但目前還鮮有涉及肉制品檢測方面。鑒于此,以冷鮮羊肉品質(zhì)檢測知識為對象,采用自頂向下和自底向上相結(jié)合的方法對構(gòu)建冷鮮羊肉品質(zhì)檢測知識圖譜,借助Python 語言爬取,整理相關(guān)數(shù)據(jù),并導入Neo4j數(shù)據(jù)庫實現(xiàn)可視化;展示不同羊肉種類、檢測技術(shù)和羊肉品質(zhì)影響因素等知識,以期為后續(xù)建立基于知識圖譜的冷鮮羊肉品質(zhì)檢測智能問答和智能檢索系統(tǒng)等提供數(shù)據(jù)和方法基礎(chǔ)。
相對于Yago、Wikidata、DBPedia、谷歌和百度等使用的通用知識圖譜而言,羊肉品質(zhì)檢測知識圖譜是典型的專業(yè)領(lǐng)域知識圖譜。與通用領(lǐng)域知識圖譜相比,專業(yè)領(lǐng)域知識圖譜的知識來源更龐雜,知識結(jié)構(gòu)更加嚴格,對知識質(zhì)量要求更高,知識應用的形式也更加廣泛。因此,雖然專業(yè)領(lǐng)域知識圖譜規(guī)?;瘮U展正呈現(xiàn)出加速態(tài)勢,但其構(gòu)建過程的難度更大[7-8]。領(lǐng)域知識圖譜構(gòu)建方法通常有自頂向下和自底向上兩種方法。其中,自頂向下構(gòu)建是從頂層開始設(shè)計并構(gòu)建本體概念,通常需要領(lǐng)域知識體系或者經(jīng)行業(yè)專家梳理后從語料中提取本體;形成規(guī)則定義,完成專業(yè)術(shù)語抽取等,即構(gòu)建出知識圖譜的模式層。而自底向上構(gòu)建的方式則要從各類知識源內(nèi)提取實體、關(guān)系和屬性,添加到知識圖譜的數(shù)據(jù)層;隨后將數(shù)據(jù)層的知識抽象成概念并進行歸納,最終構(gòu)建模式層[9]。根據(jù)目前冷鮮羊肉品質(zhì)檢測數(shù)據(jù)結(jié)構(gòu)與特點,選擇自頂向下與自底向上相結(jié)合的方法進行知識圖譜構(gòu)建。
構(gòu)建冷鮮羊肉品質(zhì)檢測知識圖譜面臨著各種龐雜的數(shù)據(jù)分布,從數(shù)據(jù)類型上可劃分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[10],這些不同形式的數(shù)據(jù)是知識圖譜數(shù)據(jù)庫的基礎(chǔ)。其中結(jié)構(gòu)化數(shù)據(jù)主要指已建知識庫中可用二維表結(jié)構(gòu)邏輯來表達的數(shù)據(jù),如中國農(nóng)業(yè)大數(shù)據(jù)中心的谷物及畜牧飼料行業(yè)數(shù)據(jù)庫提供的食品羊肉中25 種以上全氟烷基類物質(zhì)(PFCs)殘留水平數(shù)據(jù)等。此類數(shù)據(jù)資源較少,數(shù)據(jù)搜集來源覆蓋國家農(nóng)業(yè)科學數(shù)據(jù)中心、AGRICOLA、AGRIS、CABI 等世界著名農(nóng)業(yè)數(shù)據(jù)庫,搜集到后轉(zhuǎn)化為RDF 三元組形式并保存。半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)包括網(wǎng)站、圖片、文本文字和相關(guān)報表中的信息。對于專業(yè)性強的實體領(lǐng)域如羊肉檢測技術(shù)與檢測指標,需從相關(guān)權(quán)威學術(shù)期刊、論文及檢測機構(gòu)發(fā)布的數(shù)據(jù)中提取。對于通識性較高的領(lǐng)域,如羊肉品種及加工類型,則可從畜禽網(wǎng)站、食品科學網(wǎng)站和一些新聞網(wǎng)站獲得有關(guān)數(shù)據(jù)。該研究中,在對目前數(shù)據(jù)存在方式和多種獲取方法綜合比較后,選用爬蟲技術(shù)為主從各種網(wǎng)絡(luò)資源獲取信息;再根據(jù)數(shù)據(jù)類型和網(wǎng)站結(jié)構(gòu)的差異,采用不同算法,編寫不同的Python 腳本實現(xiàn)數(shù)據(jù)集成。具體做法以中國知網(wǎng)文獻爬取為例:首先借助Python 語言的selenium 模塊,對Microsoft Edge 瀏覽器的web driver 進行驅(qū)動,借助瀏覽器的自動化測試功能,查詢相應的關(guān)鍵詞與數(shù)據(jù);其次,使用spider 獲取網(wǎng)頁中論文名稱等包含關(guān)鍵信息標簽;然后,接著使用bs4模塊對獲取到的標簽信息進行解析,獲取論文的標題、作者等信息;最后,對于二級頁面的文獻摘要內(nèi)容,通過導入Python 的Parse 包重新解析html 的內(nèi)容,從html 中解析出“羊肉檢測技術(shù)”“檢測指標”“羊肉品種”等信息。對于公司資料和專家經(jīng)驗等數(shù)據(jù),則需人工查詢并刪除無效或錯誤信息,然后將人工處理后的資料存儲到文本語料內(nèi)。
數(shù)據(jù)獲取流程圖見圖1。
圖1 數(shù)據(jù)獲取流程圖
根據(jù)研究需要,從獲取到的冷鮮羊肉品質(zhì)檢測相關(guān)數(shù)據(jù)中提煉出了羊肉種類、檢測技術(shù)和羊肉品質(zhì)影響因素等方面的知識;進而在語義層面利用現(xiàn)代計算分析技術(shù)對領(lǐng)域知識進行整合,將這些知識以知識圖譜的形式關(guān)聯(lián)起來,形成冷鮮羊肉品質(zhì)檢測知識網(wǎng)絡(luò)。在構(gòu)建知識圖譜時,需要完成對信息的實體、關(guān)系及屬性定義。RDF 是一種經(jīng)典的描述網(wǎng)絡(luò)資源的標記方式,即以資源- 屬性- 值三元素的方式來表示獲取到的信息與數(shù)據(jù),具有通用性強、辨識度高、結(jié)構(gòu)清晰、便于存儲等諸多優(yōu)點。
從羊肉種類、檢測方法與品質(zhì)影響因素三大方面入手,結(jié)合若干相關(guān)屬性,定義實體、關(guān)系與屬性,并采用RDF 三元組方式表達。根據(jù)所獲得的數(shù)據(jù),并從有關(guān)冷鮮羊肉品質(zhì)方面的研究論文和各種資源中整理出對應研究主題的相關(guān)概念。例如,羊肉種類這一概念就分別劃分出品種名稱、品種產(chǎn)地、取樣部位、肉質(zhì)類型4 類概念;羊肉品質(zhì)檢測技術(shù)劃分為方法名稱、檢測指標2 類;羊肉品質(zhì)影響因素細分為飼料種類、飼養(yǎng)方式、性別及處理、年齡、屠宰性能5 類等。由于每個概念所具有的屬性特征不同,數(shù)據(jù)結(jié)構(gòu)不同,因此需根據(jù)不同類別的特征對屬性進行分類定義。在羊肉種類標簽下,爬取蘇尼特羊、寧夏灘羊、小尾寒羊等11 個品種及其相應產(chǎn)地;在羊肉品質(zhì)檢測技術(shù)標簽下,爬取部位信息(如羊里脊、羊腿、羊內(nèi)臟、羊背最長肌等);還包括肉質(zhì)類型(如冷鮮肉、凍肉) 及相應的檢測方法技術(shù)名稱與檢測指標。在羊肉品質(zhì)影響因素標簽下,爬取與之相關(guān)的飼料種類與喂養(yǎng)方式,檢測所用羊的屠宰方式與年齡等屬性,并建立起不同標簽下節(jié)點之間的關(guān)系,設(shè)置關(guān)系指向與關(guān)系名稱。
節(jié)點標簽與屬性設(shè)置見表1。
表1 節(jié)點標簽與屬性設(shè)置
知識融合是為了對來自不同方面且結(jié)構(gòu)類型有所差異的數(shù)據(jù)進行清洗、整理和集成的過程。面對來自不同來源且結(jié)構(gòu)差異較大數(shù)據(jù),采用了清洗和實體消歧兩大步驟進行知識融合,以便規(guī)避重復和異名同義現(xiàn)象。
對于與羊肉檢測或羊肉品質(zhì)無關(guān)的無效信息,通過設(shè)置停用詞表來過濾文本中不相干的數(shù)據(jù)。具體操作包括,將所有需清理的無效文本表述整合到單獨的文件或記事本內(nèi),保存后通過下載Python 中的停用詞表以及編寫腳本命令對目標文本進行文字信息清理。
實體消歧又稱語義消歧、實體對齊,是一種解決相同名字的實體卻產(chǎn)生不同含義問題的方法。該方法的核心思想是通過計算不同實體之間的相似程度來判斷二者是否指向同一事物。例如,在羊肉檢測領(lǐng)域,液相色譜質(zhì)譜法與HPLC-FLD 同HPLCMS/MS 其實指向的是同一種檢測技術(shù),只不過不同作者有不同的中英文表達習慣。計算實體之間相似程度有多種數(shù)學方法,如層次聚類法、K 均值法等等,采用杰卡德相似度函數(shù)法來進行計算。該函數(shù)選用兩集合重復的元素作為權(quán)重,將二者交集的大小與并集的大小相除來衡量相似度。基礎(chǔ)數(shù)學公式如下:
該計算結(jié)果為0~1 的數(shù)值,該值越大證明二者之間相似度越高,反之則越低。為了實現(xiàn)快速計算,借助Neo4j 數(shù)據(jù)庫自帶插件GDS 來進行相似度的評判。做法是在Cypher 框中調(diào)用similarity 函數(shù),計算兩實體之間相似度,并識別實體之間文本文字包含信息的相似度;再輔之以人工知識融合可以顯著提高判別效率。
此外,還通過上述方式對多種不同的羊肉檢測技術(shù)進行了相似度計算。在冷鮮羊肉品質(zhì)檢測過程中,利用這些計算結(jié)果可以分析出能夠互相替代和補充的檢測技術(shù),并為構(gòu)建全面的測量方法所需數(shù)據(jù)提供經(jīng)驗參考。
Jaccard 相似度計算頁面見圖2。
圖2 Jaccard 相似度計算頁面
例如,若以羊肉品質(zhì)檢測指標為判斷標準,對羊肉檢測技術(shù)的相似性進行評判。由圖2 可知,高光譜成像技術(shù)與機器學習相結(jié)合的檢測方法既精準又智能;但在檢測條件不滿足的情況下,僅使用高光譜成像技術(shù)也可以實現(xiàn)前者50%的羊肉檢測指標項目。
對領(lǐng)域知識的相互關(guān)系進行可視化展示是知識圖譜技術(shù)的一大優(yōu)勢。實現(xiàn)所需要的可視化展示須將從文本數(shù)據(jù)中抽取出來的實體、關(guān)系和屬性按照設(shè)計好的范式以“實體- 關(guān)系- 實體”的形式存儲于Neo4j 圖數(shù)據(jù)庫。相比于傳統(tǒng)數(shù)據(jù)庫,Neo4j 圖數(shù)據(jù)庫具有易操作、高性能、速度快等優(yōu)點。結(jié)合搜集到的羊肉品質(zhì)檢測領(lǐng)域數(shù)據(jù)的相關(guān)特征,將處理好的數(shù)據(jù)保存為CSV 格式,以utf-8 編碼形式存儲,并按規(guī)則分批導入Neo4j 數(shù)據(jù)庫中。通過將之前確定的實體、關(guān)聯(lián)與屬性進行定義,該研究所構(gòu)建的冷鮮羊肉品質(zhì)檢測知識圖譜選擇以羊肉種類、檢測方法與品質(zhì)影響因素為核心點。研究過程中共抽取4 136 個,18 104 條三元組數(shù)據(jù)集合,由此生成可視化知識圖譜。
羊肉品質(zhì)檢測知識圖譜局部結(jié)構(gòu)見圖3。
由圖3 可知,構(gòu)建完的知識圖譜與知識框架可清晰表達所有設(shè)置的羊肉品質(zhì)檢測節(jié)點,以及節(jié)點之間關(guān)聯(lián)的屬性;也能夠借助Neo4j 的指令實現(xiàn)指定節(jié)點、節(jié)點屬性、節(jié)點對外關(guān)系的快速查詢與篩選。
圖3 羊肉品質(zhì)檢測知識圖譜局部結(jié)構(gòu)
為驗證所構(gòu)建的知識圖譜有效性,該研究邀請了不同機構(gòu)的部分檢測研究人員和冷鮮羊肉消費用戶做了相關(guān)調(diào)查與測試。92%以上的測試者認為,該知識圖譜具有響應速度快、查詢時間短、專業(yè)性強、內(nèi)容詳細等優(yōu)勢,可滿足冷鮮羊肉品質(zhì)檢測的功能需求。該知識庫和圖譜還可為冷鮮羊肉品質(zhì)檢測技術(shù)科普、知識管理及技術(shù)研發(fā)提供了相關(guān)幫助和數(shù)據(jù)支持。但對普通用戶而言,面對編程語言學習和認知計算等方面的困難,還需要對模型系統(tǒng)做進一步應用上的簡化與完善。
領(lǐng)域知識圖譜本身具有較強的數(shù)據(jù)集成和提升數(shù)據(jù)可讀性、可用性的功能,因此,在人工智能領(lǐng)域有著廣闊的應用前景;如智能問答系統(tǒng)、追溯系統(tǒng)、智能推薦系統(tǒng)等。以羊肉品質(zhì)檢測知識圖譜的具體應用為例展開初步分析與探討。
各種專業(yè)的智能問答系統(tǒng)是當下蓬勃發(fā)展的人工智能應用領(lǐng)域,而且,正隨著不同行業(yè)用戶需求的多元化向著更為專業(yè)和精準的方向發(fā)展。通常,其功能的實現(xiàn)在一定程度上要求海量且規(guī)范的數(shù)據(jù)庫與知識庫支撐;因此,基于Neo4j 的羊肉品質(zhì)檢測知識圖譜可以幫助在羊肉制品加工與促進消費等方面,為用戶提供品質(zhì)檢測、等級評價環(huán)節(jié)的信息與知識服務,有效降低無關(guān)信息的擾亂,縮短相關(guān)知識獲取的成本與時間。
質(zhì)量追溯系統(tǒng)已在農(nóng)產(chǎn)品質(zhì)量安全、金融風險防范、銀行信用、疫情流調(diào)、食品監(jiān)管等行業(yè)廣泛應用,并已取得巨大進展。建立在基于羊肉品質(zhì)檢測知識圖譜之上的羊肉質(zhì)量追溯系統(tǒng)可以在原有追溯功能的基礎(chǔ)上實現(xiàn)對羊只生產(chǎn)管理、羊肉加工貯存、銷售貨運等環(huán)節(jié)的有效監(jiān)管;若與其他智能感知和認知工具相結(jié)合,還可以幫助消費者與監(jiān)督管理部門實時查看各個環(huán)節(jié)的運轉(zhuǎn)情況,完成對羊肉制品質(zhì)量與安全問題的全景追溯與節(jié)點分析。
已有相關(guān)研究證明,基于知識圖譜技術(shù)衍生的智能食品推薦應用,可以很好地幫助追求食品安全和健康飲食的消費者,為其提供綜合的飲食服務建議[11]。因此,基于知識圖譜技術(shù)衍生的羊肉品質(zhì)檢測方法、飼養(yǎng)方法的推薦系統(tǒng),將為消費者、飼養(yǎng)農(nóng)戶等提供智能化推薦,更好地滿足不同消費者和養(yǎng)殖戶對特定功能的個性化需求。
Neo4j 圖知識庫一個重要功能是可以提供相關(guān)領(lǐng)域知識的關(guān)聯(lián)節(jié)點、屬性與關(guān)系的查找功能,因此基于Neo4j 的羊肉品質(zhì)檢測知識圖譜可為相關(guān)人員從事專業(yè)研究提供較大范圍內(nèi)數(shù)據(jù)的快速查詢與篩選功能,大大提升信息與知識查詢的效率。
結(jié)合冷鮮羊肉品質(zhì)檢測的特點,采用自頂向下和自底向上相結(jié)合的構(gòu)建方法,從知識抽取、知識表示、知識融合等方面詳細闡述了羊肉品質(zhì)檢測知識圖譜的構(gòu)建流程。研究使用不同的Python 爬蟲技術(shù)面向不同羊肉種類、檢測技術(shù)和羊肉品質(zhì)影響因素等,進行數(shù)據(jù)爬取。由于領(lǐng)域內(nèi)存在不同類型與結(jié)構(gòu)的數(shù)據(jù)來源,采用RDF 三元組形式表示對信息的實體、關(guān)系及屬性定義;基于杰卡德相似度函數(shù)法對于抽取后的數(shù)據(jù)進行實體消歧和數(shù)據(jù)清洗以實現(xiàn)知識融合。在獲得大量不同來源的數(shù)據(jù)后,將其導入Neo4j 數(shù)據(jù)庫,實現(xiàn)了羊肉品質(zhì)檢測專業(yè)知識圖譜的構(gòu)建,并構(gòu)建了數(shù)據(jù)可視化模型。己完成的數(shù)據(jù)庫可為羊肉品質(zhì)檢測技術(shù)研究人員提供對樣檢種類、樣檢部位、樣檢方式與樣檢指標等多種信息的快速查詢,輔助其在不同檢測條件下選擇合適的檢測方法。其次,該知識圖譜還可提供不同年齡、種類羊群的的飼養(yǎng)與屠宰信息等,為養(yǎng)殖農(nóng)戶提供羊只飼養(yǎng)指導。該研究面向不同用戶提供了更簡潔有效的數(shù)據(jù)支持服務平臺,利用這個平臺可進一步建立基于該知識圖譜而衍生的冷鮮羊肉品質(zhì)檢測智能問答、飼養(yǎng)方式推薦系統(tǒng)等。