穆維松,劉天琪,苗子溦,馮建英
(中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083)
知識圖譜可以把復(fù)雜的知識領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制顯示出來,揭示知識領(lǐng)域的動態(tài)發(fā)展規(guī)律,為復(fù)雜問題的研究提供切實(shí)的、有價值的參考。知識圖譜的構(gòu)建技術(shù)已經(jīng)在各個領(lǐng)域得到廣泛應(yīng)用并取得了較好的效果,如航空系統(tǒng)故障診斷[1]、地質(zhì)災(zāi)害應(yīng)急決策[2]、網(wǎng)絡(luò)安全[3]等。隨著現(xiàn)代信息技術(shù)的不斷發(fā)展,知識圖譜的規(guī)模也在進(jìn)一步擴(kuò)大,在智能搜索、智能問答、推薦算法等領(lǐng)域都得到了廣泛應(yīng)用[4]。在農(nóng)業(yè)領(lǐng)域數(shù)據(jù)量積累越來越大、結(jié)構(gòu)越來越復(fù)雜的大背景下,將知識圖譜技術(shù)與農(nóng)業(yè)相結(jié)合,可以將農(nóng)業(yè)領(lǐng)域復(fù)雜的數(shù)據(jù)直觀化,有助于對農(nóng)業(yè)大數(shù)據(jù)進(jìn)行深入的關(guān)聯(lián)分析,解決農(nóng)業(yè)領(lǐng)域內(nèi)數(shù)據(jù)分散、多樣、孤島化、數(shù)據(jù)價值利用不高的問題。知識圖譜把領(lǐng)域知識做了顯性化沉淀和關(guān)聯(lián),利用原生圖的特征支撐數(shù)據(jù)的價值挖掘與分析。
知識圖譜構(gòu)建關(guān)鍵技術(shù)是農(nóng)業(yè)領(lǐng)域知識圖譜研究的基礎(chǔ),農(nóng)業(yè)知識圖譜構(gòu)建既須遵循知識圖譜構(gòu)建的通用技術(shù),也須具有農(nóng)業(yè)的特殊性。目前知識圖譜在農(nóng)業(yè)領(lǐng)域的應(yīng)用尚不廣泛,主要在農(nóng)業(yè)專題文獻(xiàn)計量研究、農(nóng)業(yè)知識問答等方面,可拓展的方向仍有待挖掘,因此本文首先對知識圖譜及其構(gòu)建技術(shù)進(jìn)行梳理,然后綜述知識圖譜在農(nóng)業(yè)領(lǐng)域的應(yīng)用方向,最后分析知識圖譜在農(nóng)業(yè)領(lǐng)域的研究趨勢,以期為今后知識圖譜在農(nóng)業(yè)領(lǐng)域的研究方向提供參考。
知識圖譜是一種含有豐富語義信息的網(wǎng)絡(luò)圖,早在2012 年,為使搜索引擎更加精準(zhǔn)和智能,Google 公司提出了知識圖譜的概念及其含義,此后知識圖譜成為了一大研究熱點(diǎn)。知識圖譜的構(gòu)建模式主要有自頂向下、自底向上和自頂向下與自底向上結(jié)合3 種[5]。
自頂向下的構(gòu)建模式需要先創(chuàng)建頂層知識庫,然后從海量數(shù)據(jù)中抽取本體和實(shí)體信息,并將它們添加到最初創(chuàng)建的頂層知識庫中。
自底向上的構(gòu)建模式需要先對數(shù)據(jù)進(jìn)行知識抽取,然后再將得到的實(shí)體、關(guān)系和屬性經(jīng)過實(shí)體對齊、語義融合、信息合并和知識加工等處理后,添加到知識圖譜中[6-7]。以這兩種模式構(gòu)建知識圖譜的流程如圖1 所示。
圖1 知識圖譜的構(gòu)建過程Fig.1 The construction process of knowledge graph
除了上述兩種常用的知識圖譜構(gòu)建模式外,近年來有不少學(xué)者采用將二者結(jié)合的方式構(gòu)建知識圖譜,這種構(gòu)建模式需要先在大量數(shù)據(jù)中構(gòu)建出最基本的模式層,然后通過不斷挖掘更有價值的知識更新模式層,最后設(shè)計模式層到數(shù)據(jù)層的映射,對實(shí)體進(jìn)行填充,形成較為完整的知識圖譜[8-9]。
表1 從知識圖譜的構(gòu)建模式、常用的應(yīng)用領(lǐng)域、適用的數(shù)據(jù)量以及優(yōu)缺點(diǎn)5 個方面歸納了知識圖譜3 種構(gòu)建模式。
表1 知識圖譜構(gòu)建模式的比較Table 1 Comparison of knowledge graph construction modes
農(nóng)業(yè)知識圖譜的構(gòu)建由于其領(lǐng)域的特殊性與較強(qiáng)的專業(yè)性常常采用自頂向下與自底向上結(jié)合的構(gòu)建模式,其中涉及到的關(guān)鍵技術(shù)主要有本體構(gòu)建、知識抽取、知識融合、知識推理和知識圖譜存儲及可視化,因此本文重點(diǎn)對這5 種技術(shù)進(jìn)行綜述,旨在為農(nóng)業(yè)知識圖譜的構(gòu)建研究提供有效參考。
農(nóng)業(yè)知識圖譜對農(nóng)業(yè)知識的專業(yè)度和精確度要求較高,需要在構(gòu)建知識圖譜時構(gòu)建抽象的模式層,因此本體的構(gòu)建對于農(nóng)業(yè)知識圖譜尤為重要[12]。本體的構(gòu)建方法主要有兩種,分別是人工構(gòu)建方法和使用計算機(jī)輔助的半自動構(gòu)建方法,其中人工構(gòu)建方法中典型的構(gòu)建方法主要有Uschold 法、多倫多虛擬企業(yè)本體評價法(toronto virtual enterprise,TOVE)、集成化計算機(jī)輔助制造定義方法(integrated computer-aided manufacturing definition,IDEF)、Methontology 法,半自動構(gòu)建方法中典型的構(gòu)建方法主要有七步法、五步循環(huán)法和循環(huán)獲取法[13]。
人工構(gòu)建方法由于其構(gòu)建過程存在很大的主觀性,本體之間容易出現(xiàn)概念偏差,不完全適用于知識結(jié)構(gòu)復(fù)雜的農(nóng)業(yè)領(lǐng)域,因此在進(jìn)行農(nóng)業(yè)本體構(gòu)建時,半自動構(gòu)建方法受到了許多研究者的關(guān)注[14]。以常用的七步法為例,構(gòu)建領(lǐng)域本體時需要經(jīng)過確定領(lǐng)域和范圍、復(fù)用現(xiàn)有本體、列舉專業(yè)術(shù)語、定義類和類層次結(jié)構(gòu)、定義屬性、定義約束、創(chuàng)建實(shí)例7 個步驟,清晰地規(guī)范了本體的構(gòu)建流程。該方法在構(gòu)建花卉病蟲害[15]、茶葉[16]、農(nóng)村金融[17]等農(nóng)業(yè)領(lǐng)域本體時發(fā)揮了較好的作用。此外,農(nóng)業(yè)本體構(gòu)建技術(shù)的發(fā)展離不開強(qiáng)大的構(gòu)建工具,Protégé軟件[18]和OWL(ontology web language)本體描述語言[19]在農(nóng)業(yè)領(lǐng)域最受歡迎。
知識抽取指的是從大量的數(shù)據(jù)中提取有用的知識并存儲到知識圖譜中,是構(gòu)建知識圖譜的前提。知識抽取的對象主要有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)3 種,目前研究的重點(diǎn)是針對結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識抽取[20]。知識抽取主要分為實(shí)體抽取、關(guān)系抽取和屬性抽取3 個方面,早期知識抽取技術(shù)發(fā)展不成熟,人們主要采用人工編寫的規(guī)則將農(nóng)業(yè)實(shí)體存儲到數(shù)據(jù)庫中來實(shí)現(xiàn)農(nóng)業(yè)知識的抽取,但這樣基于規(guī)則的抽取方法對于本體關(guān)系復(fù)雜、知識結(jié)構(gòu)不統(tǒng)一且數(shù)據(jù)種類龐大的農(nóng)業(yè)知識來說效率低下,而且要求規(guī)則的制定人員具備較高的語言學(xué)知識水平。
針對上述問題,許多學(xué)者在進(jìn)行農(nóng)業(yè)知識抽取時融入了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,它們比基于規(guī)則的知識抽取方法表現(xiàn)出更好的性能?;跈C(jī)器學(xué)習(xí)的知識抽取最早在2008 年應(yīng)用到農(nóng)業(yè)中,作者使用決策樹學(xué)習(xí)并建立一套有效規(guī)則,實(shí)時抽取農(nóng)田的作物、氣候等信息,用于預(yù)測植物的狀態(tài)[21]。但這種使用機(jī)器學(xué)習(xí)模型建立的規(guī)則仍需人工決策,于是研究者們把目光轉(zhuǎn)向文本本身的機(jī)器學(xué)習(xí)模型,如最大熵模型[22](max entropy model,MEM)、隱馬爾可夫模型[23](hidden Markov model,HMM)、支持向量機(jī)[24](support vector machine,SVM)和條件隨機(jī)場模型[25](conditional random field,CRF)。目前應(yīng)用最為廣泛的是綜合了MEM 和HMM 優(yōu)點(diǎn)的CRF 模型[26]。但是只使用單一的機(jī)器學(xué)習(xí)模型進(jìn)行知識抽取時需要研究者根據(jù)不同的領(lǐng)域為數(shù)據(jù)設(shè)計不同的特征,模型的性能并不理想,因此不少學(xué)者開始將深度學(xué)習(xí)與上述模型進(jìn)行結(jié)合。
BiLSTM(bidirectional long short-term memory)結(jié)合了向前和向后的LSTM,能夠充分利用句子的上下文特征,提高標(biāo)注的準(zhǔn)確性,因此許多研究人員將其與CRF 模型進(jìn)行結(jié)合,并在農(nóng)業(yè)知識抽取領(lǐng)域取得了不錯的成果。張海瑜等[27]使用BiLSTM-CRF 模型進(jìn)行了糧食作物知識的抽取,解決了農(nóng)業(yè)知識表達(dá)不規(guī)范和一物多詞與多解的問題;于合龍等[28]使用BiLSTM-CRF 模型進(jìn)行了水稻病蟲害知識的抽取,解決了水稻病蟲害知識檢索的不確定性。由此可見,BiLSTM-CRF 模型較適用于結(jié)構(gòu)復(fù)雜且命名難統(tǒng)一的農(nóng)業(yè)知識提取任務(wù);為解決知識抽取過程中長序列的語義稀釋問題,程名等[29]在BiLSTM-CRF 模型的基礎(chǔ)上融合了注意力機(jī)制,提高了漁業(yè)標(biāo)準(zhǔn)知識抽取的性能。
BiLSTM-CRF 模型對詞嵌入的依賴較小,但無法表示多義詞,因此部分學(xué)者開始在此基礎(chǔ)上引入BERT(bidirectional encoder representations from transformers)模型。該模型能夠?qū)⒆址途渥舆M(jìn)行預(yù)訓(xùn)練得到字向量,不僅包含了上下文信息,還能夠很好地表征字句的含義,可以較好地解決農(nóng)業(yè)文本中的一詞多義問題,隨后BERT-BiLSTM-CRF 模型成為了農(nóng)業(yè)知識抽取領(lǐng)域的熱門方向[30]。使用BERT-BiLSTM-CRF 模型進(jìn)行農(nóng)業(yè)知識抽取的流程是:首先通過BERT 獲得輸入語句的語義表示,生成字向量,然后通過BiLSTM 對字向量進(jìn)行進(jìn)一步的語義編碼,最后通過CRF 輸出最大概率標(biāo)簽序列。該模型于2020 年由吳賽賽等[31]用于作物病蟲害知識抽??;任媛等[32]在該模型的基礎(chǔ)上融合了注意力機(jī)制,實(shí)現(xiàn)了漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)知識抽取。目前,學(xué)者們將農(nóng)業(yè)知識抽取的重點(diǎn)放在了如何更好地結(jié)合農(nóng)業(yè)知識的特點(diǎn)上,韋紫君等[33]為解決農(nóng)業(yè)實(shí)體名稱較長導(dǎo)致的識別效果不理想的問題,在BERT-BiLSTM-CRF 模型的基礎(chǔ)上引入實(shí)體級遮蔽策略,提高了農(nóng)業(yè)知識抽取的性能;劉永波等[34]為解決茶葉語料庫不完善、多源異構(gòu)數(shù)據(jù)缺乏聚合能力的問題,使用全詞掩碼的BERT-WWM(whole word masking)替代原來的隨機(jī)掩碼BERT,提高了茶葉知識抽取的準(zhǔn)確率;劉巨升等[35]提出的BERTCaBiLSTM 模型解決了水產(chǎn)動物疾病診治實(shí)體嵌套問題,提高了知識抽取的質(zhì)量。知識抽取技術(shù)在農(nóng)業(yè)領(lǐng)域的發(fā)展如圖2 所示。
圖2 知識抽取技術(shù)在農(nóng)業(yè)領(lǐng)域的發(fā)展Fig.2 Development of knowledge extraction technology in agriculture
知識融合建立在知識抽取的基礎(chǔ)之上,指的是將不同來源、異構(gòu)的數(shù)據(jù)在統(tǒng)一框架下進(jìn)行整合,使其能夠互相連通,目的是提高知識圖譜的質(zhì)量。由于領(lǐng)域的特殊性,農(nóng)業(yè)知識的來源較為復(fù)雜且命名較難統(tǒng)一,因此存在質(zhì)量參差不齊、一物多詞等問題,所以對農(nóng)業(yè)知識進(jìn)行有機(jī)整合,判斷實(shí)體的重復(fù)性是農(nóng)業(yè)知識融合中的重難點(diǎn)。知識融合的關(guān)鍵技術(shù)主要有實(shí)體對齊、語義融合和信息合并3 個方面,其中實(shí)體對齊技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用最廣。
在農(nóng)業(yè)知識融合過程中,為消除農(nóng)業(yè)實(shí)體名稱不一致或數(shù)據(jù)類型不同造成的沖突,早期研究者們通常會選擇基于傳統(tǒng)概率模型的對齊方法,即計算向量相似度的方法進(jìn)行實(shí)體對齊研究。曹雨晴等[36]首先對不同來源的知識進(jìn)行人工合并,然后再結(jié)合相似度對水稻粒型基因進(jìn)行了實(shí)體對齊;陳瑞[37]使用索俊鋒等[38]提出的農(nóng)產(chǎn)品語義相似度計算方法對不同來源的網(wǎng)絡(luò)農(nóng)產(chǎn)品進(jìn)行實(shí)體對齊。
雖然基于傳統(tǒng)概率模型的實(shí)體對齊方法在農(nóng)業(yè)知識融合中較為常見,但這類方法需要預(yù)先對大量的數(shù)據(jù)進(jìn)行標(biāo)記,處理大型數(shù)據(jù)時性能低下。有學(xué)者指出,實(shí)體對的匹配問題也可以轉(zhuǎn)換為分類問題[39],因此在理論上機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法可以提高農(nóng)業(yè)知識融合的效率。隨后在其他領(lǐng)域,使用決策樹、樸素貝葉斯、支持向量機(jī)等進(jìn)行實(shí)體對齊研究的學(xué)者越來越多且取得了不錯的成果[40-43]。目前使用深度學(xué)習(xí)方法中的詞向量進(jìn)行農(nóng)業(yè)知識融合是最新的研究趨勢。MOSHOU 等[44]提出一種融合詞向量與語義余弦相似度的多模態(tài)農(nóng)業(yè)實(shí)體對齊方法,可以將不同數(shù)據(jù)源中的實(shí)體對齊;QIN 等[45]提出一種融合TF-IDF 和余弦相似度的農(nóng)業(yè)實(shí)體對齊方法,提升了農(nóng)業(yè)知識檢索的效率;鄭泳智等[46]使用BERT 得到詞向量并計算它們之間的余弦相似度,對荔枝和龍眼病蟲害實(shí)體進(jìn)行了對齊。但基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的實(shí)體對齊方法往往忽略了實(shí)體之間隱含的語義特征,有時效果并不十分理想,因此不斷有學(xué)者開始提出基于新技術(shù)的實(shí)體對齊方法。
知識表示學(xué)習(xí)可以將知識圖譜中的實(shí)體進(jìn)行低維的向量表示,然后把不同知識圖譜的嵌入空間映射到同一個向量空間中,最后通過計算向量空間中實(shí)體間的距離進(jìn)行實(shí)體對齊,相關(guān)技術(shù)主要有翻譯模型[47]、圖卷積網(wǎng)絡(luò)[48]、圖注意力網(wǎng)絡(luò)[49]等。目前基于知識表示學(xué)習(xí)的實(shí)體對齊技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用較少,因此未來農(nóng)業(yè)知識融合相關(guān)的研究需要密切關(guān)注最前沿的新技術(shù)和新方法。
知識推理指的是在已經(jīng)抽取的實(shí)體和關(guān)系中去發(fā)現(xiàn)新的知識,從而豐富和擴(kuò)充知識圖譜。知識推理包括基于規(guī)則的知識推理、基于分布式表示特征的知識推理和基于深度學(xué)習(xí)的知識推理,起初基于規(guī)則的知識推理在農(nóng)業(yè)領(lǐng)域中應(yīng)用較為廣泛,于2016 年由牟向偉等[50]應(yīng)用到農(nóng)業(yè)領(lǐng)域中,作者提出的基于描述邏輯的CC-HACCP模型,實(shí)現(xiàn)了農(nóng)產(chǎn)品冷鏈知識推理;黃利斌[51]使用領(lǐng)域詞匯的統(tǒng)計特征量化了農(nóng)業(yè)詞匯的相關(guān)性,并結(jié)合互信息法完成了農(nóng)業(yè)語義推理;LIU 等[52]根據(jù)專家經(jīng)驗制定了番茄病害診斷規(guī)則庫,并結(jié)合正向表示和推理模型完成了番茄病害的診斷。盡管基于規(guī)則的知識推理在農(nóng)業(yè)領(lǐng)域中已有應(yīng)用,但仍存在推理結(jié)果可解釋性弱的問題,為了改進(jìn)這一點(diǎn),于合龍等[28]開創(chuàng)性地將專家置信度確定性因子CF 融合到農(nóng)業(yè)知識推理中,提高了水稻病蟲害診斷的確定性。
雖然知識推理技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用已有一定的成效,但不可否認(rèn)的是,對農(nóng)業(yè)產(chǎn)生影響的因素較為復(fù)雜,在制定推理規(guī)則時困難較大,必要時需要考慮自然環(huán)境變化與氣候?qū)r(nóng)作物的影響,若溫度、光照或濕度稍有變化都可能導(dǎo)致推理結(jié)果出現(xiàn)較大的偏差,因此基于規(guī)則的知識推理只能在小范圍內(nèi)使用,難以進(jìn)行擴(kuò)展。相較之下基于分布式表示特征的知識推理和基于深度學(xué)習(xí)的知識推理更具優(yōu)勢,未來有望在農(nóng)業(yè)知識推理這一構(gòu)建環(huán)節(jié)得到廣泛應(yīng)用[53]。
基于分布式表示特征的知識推理主要包括翻譯模型和語義匹配模型兩個方面?;诜g模型的知識推理使用基于距離的評分方法,在稀疏知識圖譜上的推理結(jié)果表現(xiàn)較好,但這類模型往往容易忽略多跳知識,語義解釋性較弱[54],最具代表性的就是基于Trans 系列的TransE[55]、TransH[56]、TransR[57]和TransD[58]模型,它們在原理上依次遞進(jìn)。目前,基于翻譯模型的知識推理在農(nóng)業(yè)領(lǐng)域的應(yīng)用剛剛起步,于2021 年GUAN 等[59]將這一技術(shù)引入農(nóng)業(yè)領(lǐng)域,作者使用TransR 對果樹病蟲害文本進(jìn)行編碼,提高了預(yù)測蘋果樹病蟲害的準(zhǔn)確率?;谡Z義匹配模型的知識推理使用基于相似度的評分方法,該方法通過匹配實(shí)體的潛在語義和向量空間表示中體現(xiàn)的關(guān)系來判斷事實(shí)的合理性,語義解釋性與翻譯模型相比較強(qiáng),但模型的復(fù)雜度較高[60],代表性模型有RESCAL[61]、DistMult[62]和HolE[63]等。
基于深度學(xué)習(xí)的知識推理可以自動獲取特征,并將數(shù)據(jù)特征從原始空間映射到特征空間,進(jìn)而實(shí)現(xiàn)知識推理,這種方法對特征較為敏感,能夠很好地進(jìn)行特征捕捉[64],常用的技術(shù)主要有圖卷積模型[65]、循環(huán)神經(jīng)網(wǎng)絡(luò)[66](recurrent neural network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)[67](convolutional neural network,CNN)、Transformer[68]等。
知識圖譜只是對實(shí)體和關(guān)系進(jìn)行了最基本的描述和存儲,若要觀察知識圖譜中實(shí)體間的關(guān)系和變化規(guī)律則需要對知識圖譜進(jìn)行存儲并可視化,幫助用戶從不同的角度分析數(shù)據(jù)[69]。目前主流的可視化工具主要有Neo4j[70]、D3.js[71]、Gephi[72]、Echarts[73]、Cytoscape[74]、CiteSpace[75]等,其中CiteSpace 常用于農(nóng)業(yè)專題文獻(xiàn)計量研究,Neo4j在農(nóng)業(yè)知識問答、農(nóng)業(yè)資源推薦以及農(nóng)業(yè)信息檢索等方面的應(yīng)用較多。
通過對農(nóng)業(yè)知識圖譜構(gòu)建技術(shù)的梳理可以發(fā)現(xiàn),本體構(gòu)建和知識抽取在農(nóng)業(yè)領(lǐng)域的研究較多且技術(shù)先進(jìn),而農(nóng)業(yè)知識融合與農(nóng)業(yè)知識推理環(huán)節(jié)的技術(shù)研究沒有得到足夠的重視,導(dǎo)致這兩方面的技術(shù)發(fā)展缺乏創(chuàng)新性。隨著農(nóng)業(yè)知識量的增長,農(nóng)業(yè)知識圖譜也在不斷膨脹,未來農(nóng)業(yè)數(shù)據(jù)會更加復(fù)雜,如何發(fā)展農(nóng)業(yè)知識圖譜的構(gòu)建技術(shù)以提升構(gòu)建效率將會是該領(lǐng)域的一大挑戰(zhàn)。本文將農(nóng)業(yè)知識圖譜構(gòu)建過程中使用的關(guān)鍵技術(shù)及其未來的可發(fā)展方向總結(jié)如表2 所示。
表2 農(nóng)業(yè)知識圖譜構(gòu)建關(guān)鍵技術(shù)及其發(fā)展難點(diǎn)Table 2 Key technologies and development difficulties of agricultural knowledge graph
知識圖譜在電商產(chǎn)品推薦、圖書情報和搜索引擎等領(lǐng)域得到了廣泛應(yīng)用,但在農(nóng)業(yè)領(lǐng)域的研究相對滯后,現(xiàn)有研究主要集中于農(nóng)業(yè)專題文獻(xiàn)計量研究、農(nóng)業(yè)信息檢索、農(nóng)業(yè)知識問答和農(nóng)業(yè)信息資源推薦4 個方面,如圖3 所示。
圖3 知識圖譜在農(nóng)業(yè)領(lǐng)域的應(yīng)用Fig.3 Application of knowledge graph in agriculture
在知識圖譜最初興起之時,學(xué)者們專注于將知識圖譜作為分析農(nóng)業(yè)專題文獻(xiàn)的工具,用它來發(fā)現(xiàn)農(nóng)業(yè)領(lǐng)域的研究主題和技術(shù)熱點(diǎn),便于為農(nóng)業(yè)發(fā)展方向的實(shí)踐和探索提供參考和指導(dǎo)意見。周麗霞[81]用CiteSpace 對CSSCI 數(shù)據(jù)庫中與農(nóng)業(yè)規(guī)模經(jīng)營領(lǐng)域的發(fā)展歷史相關(guān)的文獻(xiàn)進(jìn)行了分析并發(fā)現(xiàn),適度規(guī)模經(jīng)營有助于農(nóng)業(yè)持續(xù)發(fā)展,誰來經(jīng)營、經(jīng)營多少以及如何實(shí)現(xiàn)是農(nóng)業(yè)規(guī)模經(jīng)營領(lǐng)域的三大要點(diǎn)。林偉君等[82]使用CiteSpace 對中國知網(wǎng)數(shù)據(jù)庫中與智慧農(nóng)業(yè)相關(guān)的文獻(xiàn)進(jìn)行分析,發(fā)現(xiàn)我國智慧農(nóng)業(yè)的前沿研究熱點(diǎn)是無線傳感器網(wǎng)絡(luò)、互聯(lián)網(wǎng)+以及物聯(lián)網(wǎng)等,這些技術(shù)已經(jīng)應(yīng)用到病蟲害防控、農(nóng)業(yè)遙感等領(lǐng)域。SONG 等[83]使用CiteSpace 對Web of Science數(shù)據(jù)庫中與農(nóng)業(yè)電子商務(wù)研究現(xiàn)狀相關(guān)的文獻(xiàn)進(jìn)行了分析,認(rèn)為農(nóng)業(yè)電子商務(wù)的模式和用戶滿意度在農(nóng)業(yè)電子商務(wù)未來的研究中需要重視。在農(nóng)業(yè)專題文獻(xiàn)計量分析中,CiteSpace 常被用來實(shí)現(xiàn)學(xué)科領(lǐng)域的共現(xiàn)分析,梳理領(lǐng)域發(fā)展態(tài)勢。
隨著知識圖譜構(gòu)建技術(shù)的不斷進(jìn)步,以信息搜索為主的普惠型信息服務(wù)開始逐漸面向農(nóng)業(yè)經(jīng)營主體,包括農(nóng)業(yè)信息檢索、農(nóng)業(yè)知識問答、農(nóng)業(yè)信息資源推薦等。使用知識圖譜構(gòu)建的農(nóng)業(yè)領(lǐng)域信息檢索系統(tǒng)可以將農(nóng)業(yè)知識規(guī)范化,避免知識零散和歧義帶來的問題。早期的農(nóng)業(yè)信息檢索研究嚴(yán)重依賴于人工數(shù)據(jù)標(biāo)注,現(xiàn)在則多采用深度學(xué)習(xí)方法識別農(nóng)業(yè)實(shí)體,如張海瑜等[27]提出一種基于語義知識圖譜的農(nóng)業(yè)知識智能檢索方法,首先人工構(gòu)建農(nóng)業(yè)本體,然后使用BiLSTM-CRF 模型抽取農(nóng)作物別名,最后使用Neo4j 進(jìn)行知識存儲,實(shí)現(xiàn)了農(nóng)業(yè)知識的規(guī)范分類,解決了農(nóng)業(yè)知識一物多詞的問題;于婷婷[84]為實(shí)現(xiàn)農(nóng)作物信息的存儲檢索設(shè)計了農(nóng)作物知識圖譜,作者首先實(shí)現(xiàn)了從農(nóng)業(yè)科學(xué)敘詞表到農(nóng)作物本體的轉(zhuǎn)換,然后使用BERT-BiLSTM-CRF 模型進(jìn)行農(nóng)作物知識抽取,最后用Neo4j 進(jìn)行知識存儲;沈利言[85]為提高水稻栽培技術(shù)的傳播效率構(gòu)建了水稻栽培方案知識圖譜,作者首先參考多種數(shù)據(jù)來源人工構(gòu)建了草莓知識本體,然后融合注意力機(jī)制和BiLSTM 模型進(jìn)行知識抽取,最后用Neo4j 圖數(shù)據(jù)庫存儲水稻知識圖譜并實(shí)現(xiàn)了可視化水稻栽培方案檢索。
使用知識圖譜技術(shù)構(gòu)建面向具體農(nóng)業(yè)任務(wù)的問答系統(tǒng)有助于幫助農(nóng)戶快速、精準(zhǔn)地解決某些領(lǐng)域內(nèi)的專業(yè)問題。最初農(nóng)業(yè)知識問答系統(tǒng)通過計算實(shí)體相似度實(shí)現(xiàn),需要匹配大量的農(nóng)業(yè)知識問答庫,效率較低。現(xiàn)在隨著知識融合與知識推理技術(shù)在農(nóng)業(yè)中的不斷發(fā)展,農(nóng)業(yè)知識問答系統(tǒng)具有了一定的擴(kuò)展能力。李巖[86]首先使用Protégé工具構(gòu)建了禽畜疾病防治本體,然后使用基于規(guī)則的知識抽取方法從網(wǎng)頁中人工抽取知識并使用Neo4j對知識進(jìn)行存儲,最后設(shè)計并實(shí)現(xiàn)了禽畜疾病領(lǐng)域問答系統(tǒng)使用,為禽畜疾病的重要技術(shù)提供了支撐;周子豪[87]提出了一種實(shí)體關(guān)系聯(lián)合抽取模型BERT-LCM-Tea 用于進(jìn)行茶葉知識抽取,解決了茶葉實(shí)體間關(guān)系重疊問題,然后作者又提出了CBOW-TransE 模型用于茶葉知識融合,最后使用Neo4j 存儲茶葉知識,實(shí)現(xiàn)了茶葉知識問答系統(tǒng),該系統(tǒng)能夠幫助茶農(nóng)梳理茶葉種植和培育的專業(yè)知識,為制茶企業(yè)提供輔助決策。王宇航等[76]將文本轉(zhuǎn)換為字符和詞對的序列,在此基礎(chǔ)上改進(jìn)了BERTBiLSTM-CRF 模型并進(jìn)行農(nóng)業(yè)知識抽取,然后用Neo4j存儲,實(shí)現(xiàn)了農(nóng)業(yè)自動問答系統(tǒng),該系統(tǒng)能夠高效高質(zhì)量地整合農(nóng)業(yè)知識應(yīng)用。在農(nóng)業(yè)知識問答中,知識抽取作為構(gòu)建知識圖譜必不可少的步驟在該應(yīng)用領(lǐng)域最為常用,Neo4j 圖數(shù)據(jù)庫由于其查詢高效的優(yōu)勢常被用作存儲知識。
基于知識圖譜進(jìn)行農(nóng)業(yè)領(lǐng)域的信息資源推薦可以有效篩選冗余信息,為用戶快速推薦符合其個性化需求的產(chǎn)品。最初的農(nóng)業(yè)信息資源推薦以分析語義為主,如郭偉光[69]針對用戶難以快速找到其偏好農(nóng)產(chǎn)品的問題設(shè)計了農(nóng)產(chǎn)品推薦系統(tǒng),作者首先使用Protégé工具構(gòu)建了農(nóng)產(chǎn)品本體,然后經(jīng)過語義查詢和分析為用戶推薦其感興趣的農(nóng)產(chǎn)品。后來隨著基于知識圖譜的個性化推薦算法的發(fā)展,學(xué)者們開始根據(jù)用戶的個性化需求、偏好和個人特征為其進(jìn)行推薦,如孫琳[88]針對農(nóng)戶搜尋有效信息效率底下的問題設(shè)計了基于知識圖譜的農(nóng)業(yè)在線信息資源推薦系統(tǒng),使用融合注意力機(jī)制的BiLSTM 模型抽取非結(jié)構(gòu)化農(nóng)業(yè)知識,并將用戶對知識圖譜中實(shí)體的偏好程度融合到推薦算法中,實(shí)現(xiàn)農(nóng)業(yè)信息的個性化推薦;戈為溪等[89]首先使用PairRE 模型獲取實(shí)體和關(guān)系的向量表示,然后通過知識推理得到具體的施肥方案,最后根據(jù)相似的方案為農(nóng)戶推薦精確的施肥量。
知識圖譜在農(nóng)業(yè)領(lǐng)域應(yīng)用的比較如表3 所示,可以看出,本體構(gòu)建、知識抽取和知識圖譜存儲及可視化技術(shù)最為常用,但知識融合、知識推理在農(nóng)業(yè)應(yīng)用領(lǐng)域使用較少,這表明農(nóng)業(yè)知識圖譜在構(gòu)建過程中不夠規(guī)范、完整,因此農(nóng)業(yè)知識圖譜應(yīng)結(jié)合農(nóng)業(yè)知識特點(diǎn)重點(diǎn)關(guān)注構(gòu)建技術(shù)的發(fā)展與創(chuàng)新。
表3 知識圖譜在農(nóng)業(yè)領(lǐng)域應(yīng)用的比較Table 3 Comparison of knowledge graph applications in agriculture
本文通過梳理知識圖譜技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用研究進(jìn)展,總結(jié)了知識圖譜的構(gòu)建模式、農(nóng)業(yè)知識圖譜構(gòu)建的核心技術(shù)的發(fā)展過程、現(xiàn)狀和局限性,并綜述了當(dāng)前知識圖譜在農(nóng)業(yè)領(lǐng)域的應(yīng)用場景。主要結(jié)論如下:
1)在農(nóng)業(yè)知識圖譜的構(gòu)建技術(shù)中,知識抽取技術(shù)已經(jīng)發(fā)展較為成熟,以BERT-BiLSTM-CRF 為代表的模型得到了廣泛應(yīng)用,然而知識融合與知識推理在農(nóng)業(yè)知識圖譜的構(gòu)建過程中缺乏重視,使用的方法較為落后。隨著農(nóng)業(yè)知識數(shù)據(jù)量的增長,未來的農(nóng)業(yè)數(shù)據(jù)會更加復(fù)雜,為了提升農(nóng)業(yè)知識圖譜構(gòu)建的效率,在農(nóng)業(yè)知識融合階段可以參考知識表示學(xué)習(xí)方法,豐富農(nóng)業(yè)實(shí)體之間隱含的語義特征;在農(nóng)業(yè)知識推理階段可以參考基于分布式表示特征的方法和基于深度學(xué)習(xí)的方法,挖掘隱藏的農(nóng)業(yè)實(shí)體間的關(guān)系。
2)目前知識圖譜在農(nóng)業(yè)領(lǐng)域的應(yīng)用場景主要集中于農(nóng)業(yè)專題文獻(xiàn)計量研究、農(nóng)業(yè)知識問答、農(nóng)業(yè)信息資源推薦和農(nóng)業(yè)信息檢索等方面,但知識圖譜在這些場景中的應(yīng)用仍存在一些不足,表現(xiàn)為:農(nóng)業(yè)專題文獻(xiàn)計量研究的范圍較窄,無法從多個數(shù)據(jù)源同時獲取信息;農(nóng)業(yè)信息檢索的效果不夠理想,對于農(nóng)業(yè)工作人員來說使用的便利度不夠;農(nóng)業(yè)知識問答無法對復(fù)雜問題進(jìn)行實(shí)際推理,難以滿足實(shí)際需要;農(nóng)業(yè)信息資源推薦使用的算法較為落后,推薦精度較低。這些實(shí)際應(yīng)用上的缺陷仍需改進(jìn),知識圖譜技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用還有很大發(fā)展空間。
知識圖譜中包含的信息形式多樣且多源異構(gòu),含有豐富的語義關(guān)系,將知識圖譜相關(guān)技術(shù)應(yīng)用于農(nóng)業(yè)領(lǐng)域,有助于更深入地挖掘和表示農(nóng)業(yè)領(lǐng)域的知識關(guān)聯(lián)和規(guī)律。結(jié)合知識圖譜技術(shù)的發(fā)展趨勢、目前知識圖譜農(nóng)業(yè)應(yīng)用的不足和未來農(nóng)業(yè)發(fā)展對知識圖譜技術(shù)的要求,本文認(rèn)為未來應(yīng)關(guān)注以下幾方面的研究。
1)基于知識圖譜的農(nóng)產(chǎn)品電商推薦
目前,推薦算法已經(jīng)在各類電商平臺廣泛應(yīng)用,但這些推薦算法大多基于用戶的瀏覽、購買等歷史記錄進(jìn)行相似性推薦,面臨用戶-物品評分矩陣稀疏性和冷啟動等問題,導(dǎo)致推薦結(jié)果不準(zhǔn)確,為解決上述問題,研究者們嘗試將知識圖譜作為輔助信息融入到傳統(tǒng)推薦算法中從而提升算法的性能,知識圖譜可以在不受用戶-物品評分矩陣稀疏性影響的同時,為傳統(tǒng)推薦算法的結(jié)果提供可解釋性。
但當(dāng)考慮將基于知識圖譜的推薦算法應(yīng)用于農(nóng)產(chǎn)品電商推薦時,難度仍然較大。目前針對農(nóng)產(chǎn)品知識圖譜的研究較為匱乏,農(nóng)產(chǎn)品的品種較為多樣且特征區(qū)分度不夠明顯,許多新品種對于多數(shù)消費(fèi)者來說更是聞所未聞,直接將推薦算法用于農(nóng)產(chǎn)品推薦難以滿足農(nóng)業(yè)工作者的需求。電商農(nóng)產(chǎn)品知識圖譜構(gòu)建中的實(shí)體和關(guān)系抽取都需要考慮農(nóng)產(chǎn)品的特殊性,電商農(nóng)產(chǎn)品推薦算法的精準(zhǔn)性也會是研究的難點(diǎn)。
2)動態(tài)農(nóng)業(yè)知識圖譜的構(gòu)建
知識圖譜中的實(shí)體和關(guān)系在現(xiàn)實(shí)世界中具有時效性,構(gòu)建動態(tài)的知識圖譜有利于根據(jù)真實(shí)環(huán)境的變化實(shí)時更新知識挖掘的結(jié)果,實(shí)現(xiàn)更為精準(zhǔn)的推薦或檢索。動態(tài)農(nóng)業(yè)知識圖譜可以為農(nóng)戶提供最新的技術(shù)和相關(guān)信息,有助于農(nóng)戶和農(nóng)業(yè)相關(guān)技術(shù)人員對農(nóng)業(yè)任務(wù)進(jìn)行及時調(diào)整。但是構(gòu)建動態(tài)農(nóng)業(yè)知識圖譜的過程中必須考慮到農(nóng)業(yè)實(shí)體的特殊性,在這類知識圖譜中不僅知識是變化的,甚至節(jié)點(diǎn)的數(shù)量也會根據(jù)實(shí)際情況(如農(nóng)作物不同生長期等)有所變化,因此時序動態(tài)知識表示學(xué)習(xí)相關(guān)算法如何去適應(yīng)農(nóng)業(yè)實(shí)體特點(diǎn)將會是構(gòu)建動態(tài)農(nóng)業(yè)知識圖譜的一大挑戰(zhàn)。
3)跨領(lǐng)域知識圖譜的構(gòu)建與關(guān)聯(lián)
目前知識圖譜在構(gòu)建過程中往往抽取的是同一領(lǐng)域中的實(shí)體信息,如何實(shí)現(xiàn)跨領(lǐng)域、跨來源的實(shí)體抽取成為了一大難題。構(gòu)建農(nóng)業(yè)范圍內(nèi)的跨領(lǐng)域知識圖譜可以將育種、種植、澆灌、病蟲害防治、物流、銷售等過程融合在一起,避免單一領(lǐng)域知識圖譜的局限性,考慮不同流程之間的影響和相互關(guān)系,實(shí)現(xiàn)多維度的推薦和檢索任務(wù),提供更全面的推薦和檢索結(jié)果。但是目前跨領(lǐng)域知識圖譜的研究尚未成熟,如何應(yīng)用到農(nóng)業(yè)領(lǐng)域也是將來一個較大的挑戰(zhàn)。