• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      小麥品種知識圖譜構(gòu)建與可視化研究①

      2021-06-28 06:28:22岳金釗趙錦鵬王亞坤馬新明錢學(xué)霖
      關(guān)鍵詞:百科結(jié)構(gòu)化圖譜

      許 鑫,岳金釗,趙錦鵬,王亞坤,馬新明,錢學(xué)霖

      1(河南農(nóng)業(yè)大學(xué) 信息與管理科學(xué)學(xué)院,鄭州 450002)

      2(河南糧食作物協(xié)同創(chuàng)新中心,鄭州 450002)

      3(河南農(nóng)業(yè)大學(xué) 農(nóng)學(xué)院,鄭州 450002)

      信息化已成為農(nóng)業(yè)現(xiàn)代化的重要組成部分[1],生產(chǎn)數(shù)據(jù)結(jié)構(gòu)復(fù)雜且類型多樣,數(shù)據(jù)可視化技術(shù)可以實現(xiàn)復(fù)雜的數(shù)據(jù)直觀化、量化和簡化,能大力的推動農(nóng)業(yè)信息化的發(fā)展[2].

      知識圖譜作為大數(shù)據(jù)可視化和人工智能的重要組成部分被廣泛應(yīng)用[3].Google 將知識圖譜應(yīng)用在搜索引擎上[4],百度和搜狗相繼推出了“知心”和“知立方”[5],蘇寧易購發(fā)布金融企業(yè)知識圖譜系統(tǒng).蔣秉川等[6]利用地理知識圖譜結(jié)合交互式可視化分析COVID-19 疫情態(tài)勢;車金立等[7]構(gòu)建了軍事裝備知識圖譜,實現(xiàn)了軍事裝備領(lǐng)域的知識問答;李曉雪等[8]利用領(lǐng)域知識圖譜技術(shù)進(jìn)行了農(nóng)作物病蟲害分析和分類;張善文等[9]提出了一種基于知識圖譜與Bi-LSTM 結(jié)合的小麥條銹病預(yù)測方法;華東師范大學(xué)[10]利用深度學(xué)習(xí)和自然語言處理構(gòu)建了農(nóng)業(yè)知識圖譜;葉帥[11]將知識圖譜引入到煤礦領(lǐng)域.知識圖譜在各個領(lǐng)域都有應(yīng)用,但在農(nóng)業(yè)領(lǐng)域的應(yīng)用和技術(shù)體系尚待研究[12].

      目前的農(nóng)業(yè)數(shù)據(jù)分散化、種類多、連貫性差,挖掘有價值的信息是未來研究的重點[13].知識圖譜技術(shù)可以將離散的、不集中的信息與可視語義網(wǎng)絡(luò)關(guān)聯(lián)[14],便于通過圖的形式直觀地掌握和分析關(guān)系錯綜復(fù)雜的領(lǐng)域知識,實現(xiàn)精確查詢[12].

      本研究以小麥生產(chǎn)知識為研究對象,獲取網(wǎng)絡(luò)中現(xiàn)存的凌亂復(fù)雜的知識,探索農(nóng)業(yè)領(lǐng)域知識圖譜的構(gòu)建方法,設(shè)計小麥品種圖譜實體和關(guān)系,通過知識圖譜直觀、清晰地展示錯綜復(fù)雜的品種知識,以期為小麥生產(chǎn)知識的精準(zhǔn)推薦,農(nóng)業(yè)知識圖譜的構(gòu)建提供技術(shù)方案依據(jù).

      1 小麥品種知識圖譜框架設(shè)計

      知識圖譜可分為通用知識圖譜和行業(yè)知識圖譜[15].通用知識圖譜都是常識性的知識,面向全領(lǐng)域,覆蓋面較廣,但深度不足,主要應(yīng)用于互聯(lián)網(wǎng)的搜索、推薦等業(yè)務(wù)場景,如:FreeBase[16]、DBpedia[17].行業(yè)知識圖譜覆蓋特定領(lǐng)域的知識,知識的深度相比通用知識圖譜較深,行業(yè)知識圖譜需要收集特定領(lǐng)域的數(shù)據(jù),結(jié)合業(yè)務(wù)流程在領(lǐng)域?qū)<业闹笇?dǎo)下來構(gòu)建知識圖譜模式之后構(gòu)建數(shù)據(jù)層[18].本研究結(jié)合互動百科通用知識圖譜和小麥生產(chǎn)行業(yè)知識圖譜,通過獲取小麥品種等生產(chǎn)數(shù)據(jù),經(jīng)過清洗、整理、知識抽取等步驟,構(gòu)建小麥生產(chǎn)領(lǐng)域知識圖譜,如圖1所示.

      圖1 圖譜構(gòu)建流程圖

      (1) 數(shù)據(jù)獲取、存儲與處理:數(shù)據(jù)獲取之后需要對數(shù)據(jù)進(jìn)行清洗、預(yù)處理,提高數(shù)據(jù)的利用率,增強(qiáng)知識圖譜的準(zhǔn)確性.本研究選取行業(yè)垂直網(wǎng)站、在線百科、開放知識庫等多個源頭獲取數(shù)據(jù),提升知識圖譜的豐富性和有效性.對于不同源頭的不同類型數(shù)據(jù),進(jìn)行分別存儲.結(jié)構(gòu)化數(shù)據(jù)存儲在MySQL 數(shù)據(jù)庫中,非結(jié)構(gòu)化數(shù)據(jù)存儲在MongoDB 數(shù)據(jù)庫中.獲取到的數(shù)據(jù)往往會存在殘缺、錯誤、重復(fù)等問題,需要對數(shù)據(jù)進(jìn)行計量單位統(tǒng)一、處理缺失值等處理.

      (2) 知識獲取:針對不同類型數(shù)據(jù)采用不同的知識獲取方式,對于結(jié)構(gòu)化數(shù)據(jù),各項之間存在明確的對應(yīng)關(guān)系,可以直接構(gòu)建三元組;而半結(jié)構(gòu)化數(shù)據(jù),存在一定的結(jié)構(gòu),需要進(jìn)一步提取,將半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù).非結(jié)構(gòu)化數(shù)據(jù),利用自然語言處理(Natural Language Processing,NLP)技術(shù)對文本進(jìn)行分段、分句、分詞、去除停用詞等處理,進(jìn)而進(jìn)行命名實體識別和關(guān)系抽取.

      (3) 知識融合:不同來源數(shù)據(jù)會導(dǎo)致整體數(shù)據(jù)格式復(fù)雜,出現(xiàn)實體屬性名稱不一致,數(shù)據(jù)類型沖突等情況.所以需要把將要抽取的知識和知識圖譜現(xiàn)有的知識做融合處理,以消除矛盾和歧義.選取實體的屬性作為特征,構(gòu)建特征向量,利用相似度計算,將新的實體與知識圖譜中現(xiàn)有的實體進(jìn)行鏈接[19].

      (4) 知識存儲與更新:在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫存儲中,存儲大量關(guān)系復(fù)雜的數(shù)據(jù)之后,難以直觀的描述實體與實體之間的關(guān)系,每次查詢都需要聯(lián)結(jié)大量表,造成查詢效率低.而基于屬性圖形模型的Neo4j 數(shù)據(jù)庫不僅能夠直觀的反應(yīng)實體之間的關(guān)系,還能夠大大地提高查詢效率[18].利用Cypher 圖數(shù)據(jù)庫查詢語言來解決知識更新問題,易于理解,方便用戶對不合理的圖數(shù)據(jù)進(jìn)行更新操作.

      (5) 小麥領(lǐng)域知識圖譜的構(gòu)建與應(yīng)用.將收集和整理好的數(shù)據(jù),結(jié)合小麥領(lǐng)域知識的特點,構(gòu)建知識圖譜.利用Neo4j 來負(fù)責(zé)小麥知識圖譜的存儲,將構(gòu)造好的三元組——“實體-關(guān)系-實體”,利用Cypher 語言存儲到數(shù)據(jù)庫中.從用戶自然語句中提取實體和屬性,將實體和屬性注入到Cypher 查詢模板中,實現(xiàn)在小麥知識圖譜中進(jìn)行查詢,在此基礎(chǔ)上,研究開發(fā)小麥知識圖譜查詢系統(tǒng),實現(xiàn)了品種推薦、實體查詢、關(guān)系查詢、可視化查詢等功能.

      2 關(guān)鍵技術(shù)設(shè)計

      2.1 多源異構(gòu)數(shù)據(jù)的獲取與處理

      數(shù)據(jù)來源主要包括3 個部分:從小麥行業(yè)垂直網(wǎng)站上得到小麥品種數(shù)據(jù)、在線百科獲取百科數(shù)據(jù)、開放知識庫獲取領(lǐng)域?qū)嶓w及實體之間的關(guān)系數(shù)據(jù).

      品種數(shù)據(jù)作為小麥生產(chǎn)行業(yè)知識主要針對于某一特定領(lǐng)域的專業(yè)性網(wǎng)站或數(shù)據(jù)庫,內(nèi)容集中,專一,內(nèi)容數(shù)據(jù)多偏半結(jié)構(gòu)化數(shù)據(jù),但在數(shù)據(jù)一致性和完整性方面與通用的知識庫相比更加完善,通常需要先分析數(shù)據(jù)結(jié)構(gòu),獲取數(shù)據(jù)后按照其結(jié)構(gòu)解析[15];利用互動百科[20]中的微百科(category system)和詞條信息模塊構(gòu)建本體;目前已有很多開放知識庫,如德國馬普研究所開發(fā)的Yago[21]、復(fù)旦大學(xué)開發(fā)的CN-DBPedia[22]、多語言并存的DBpedia[17]等.也有垂直領(lǐng)域的知識庫,如浙江大學(xué)維護(hù)的新冠開放知識圖譜、清華大學(xué)的影視雙語知識圖譜[23].本研究利用Wikidata[24]完善本地知識庫中節(jié)點關(guān)系,以便構(gòu)造“實體-關(guān)系-實體”三元組.

      獲取到的數(shù)據(jù)往往會存在殘缺、錯誤、重復(fù)等問題.需要對數(shù)據(jù)進(jìn)行清洗,剔除無用數(shù)據(jù).數(shù)據(jù)清洗融合主要包含數(shù)據(jù)中含有干擾字符、字段冗余、非結(jié)構(gòu)化文本處理、計量單位不統(tǒng)一等,按照不同的類型進(jìn)行單獨的處理與轉(zhuǎn)換.

      2.2 知識圖譜的表示和存儲

      知識圖譜的表示和存儲是將學(xué)術(shù)實體以及實體之間的關(guān)系按照一定的數(shù)據(jù)描述模型,進(jìn)行存儲的過程[25].知識圖譜中的知識表示方法是以本體為核心,以RDF的三元組模式為基礎(chǔ)框架,但更多的體現(xiàn)實體、類別、屬性、關(guān)系等多顆粒度多層次的語義關(guān)系.

      知識圖譜的表示和存儲方法使用較廣泛的有RDF存儲、圖數(shù)據(jù)庫存儲、關(guān)系型數(shù)據(jù)庫存儲3 種.國內(nèi)的一些學(xué)者已將其成功的用于醫(yī)學(xué)領(lǐng)域知識圖譜的存儲中[26,27].但由于RDF 存儲模型設(shè)計上不夠靈活,且查詢時間復(fù)雜度高,所以不適合作為知識圖譜的表示工具.Neo4j是一個圖數(shù)據(jù)庫,屬于非關(guān)系型數(shù)據(jù)庫,它具有高性能、嵌入式、輕量級的優(yōu)勢.Neo4j 以邊、節(jié)點或?qū)傩缘男问酱鎯?而不是以表的形式存儲,對于處理具有復(fù)雜關(guān)系的海量的知識數(shù)據(jù)來說是一個利器[28].Fatima 等[29]在社交網(wǎng)絡(luò)場景下,比較了Neo4j 圖數(shù)據(jù)庫和MySQL 數(shù)據(jù)庫的表現(xiàn)力.Neo4j 數(shù)據(jù)庫的關(guān)系模型可以表達(dá)面向網(wǎng)絡(luò)的數(shù)據(jù),與關(guān)系數(shù)據(jù)庫相比,Neo4j 可以在存儲數(shù)據(jù)時連接數(shù)據(jù),使其能夠更快地遍歷關(guān)聯(lián)數(shù)據(jù),從而存儲數(shù)以萬計的節(jié)點和關(guān)系,且隨著圖譜數(shù)據(jù)量的不斷增大,關(guān)聯(lián)查詢的效率遠(yuǎn)高于關(guān)系型數(shù)據(jù)庫,因此利用Neo4j 實現(xiàn)知識圖譜表示和存儲是較便捷、高效的方法.

      2.3 知識圖譜設(shè)計

      知識圖譜是一種對于事實的結(jié)構(gòu)化表征,主要由實體、關(guān)系、語義3 部分組成.當(dāng)數(shù)據(jù)量大,結(jié)構(gòu)和來源復(fù)雜時,用知識圖譜將結(jié)構(gòu)復(fù)雜、碎片化數(shù)據(jù)關(guān)聯(lián)的方式來表示知識會更加清晰準(zhǔn)確.目前,通用知識圖譜構(gòu)建主要包含數(shù)據(jù)獲取與處理、知識抽取、知識融合和圖譜應(yīng)用4 個階段[30],如圖2所示.

      圖2 知識圖譜處理流程

      數(shù)據(jù)是知識圖譜的基礎(chǔ),從不同結(jié)構(gòu)數(shù)據(jù)源獲取到的領(lǐng)域相關(guān)知識做預(yù)處理,對不同來源不同類型的數(shù)據(jù)進(jìn)行清洗和入庫處理,目前有很多相關(guān)工具,如清華大學(xué)開發(fā)的THULAC[31].

      知識抽取是從預(yù)處理后的數(shù)據(jù)中自動創(chuàng)建實體和實體關(guān)系的技術(shù)[32],是知識組織和信息融合的跨學(xué)科技術(shù),根據(jù)數(shù)據(jù)結(jié)構(gòu)的不同分為結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的知識抽取.對于結(jié)構(gòu)化數(shù)據(jù),有明確的對應(yīng)關(guān)系,可以直接構(gòu)建.而半結(jié)構(gòu)化數(shù)據(jù)是指存在一定結(jié)構(gòu)但還需要加工整理的數(shù)據(jù),抽取時可采用構(gòu)建包裝器的方式.非結(jié)構(gòu)化數(shù)據(jù)處理起來較麻煩,所使用的方法有基于模板、基于監(jiān)督學(xué)習(xí)等[19].

      經(jīng)過知識抽取后,根據(jù)表1設(shè)計小麥的實體類型和關(guān)系模型,從而構(gòu)建“實體-關(guān)系-實體”三元組,實體設(shè)計如表2所示,關(guān)系設(shè)計如表3所示.

      表1 實體、關(guān)系模型

      表2 小麥知識圖譜實體設(shè)計

      表3 小麥知識圖譜關(guān)系設(shè)計

      基于實體和關(guān)系的設(shè)計,將數(shù)據(jù)取出,通過Cypher語句存入Neo4j 數(shù)據(jù)庫中,實體和關(guān)系都能擁有特定的標(biāo)簽,有利于節(jié)點和關(guān)系的分類,也方便后期查詢系統(tǒng)進(jìn)行查詢.

      在獲得新知識之后,需要對其進(jìn)行整合,以消除矛盾和歧義,采用余弦相似度的方式表示兩個實體對象的相似程度,相似度介于?1和1 之間,其中?1 表示兩個對象完全不同,1 表示完全相似.例如,比較兩個小麥品種時,選取小麥的重要特性(產(chǎn)量、特征特性、抗性等)作為特征值,接著將特征向量化,最后帶入式(1)進(jìn)行計算.

      經(jīng)過知識融合的處理,形成較為標(biāo)準(zhǔn)知識圖譜,在知識圖譜的基礎(chǔ)上開發(fā)語義搜索、可視化管理等應(yīng)用.

      2.4 知識圖譜數(shù)據(jù)物理存儲設(shè)計

      知識圖譜數(shù)據(jù)類型多樣化,為了提高效率,針對不同數(shù)據(jù)進(jìn)行合理存儲設(shè)計,數(shù)據(jù)的存儲架構(gòu)如圖3所示.

      圖3 數(shù)據(jù)庫物理架構(gòu)

      在數(shù)據(jù)獲取階段,品種數(shù)據(jù)存儲在MySQL 結(jié)構(gòu)化數(shù)據(jù)庫中,而Wikidata 數(shù)據(jù)和百度百科詞條數(shù)據(jù)存儲在MongoDB 非結(jié)構(gòu)化數(shù)據(jù)庫中.

      在數(shù)據(jù)清洗階段,處理品種數(shù)據(jù)中存在的字段冗余等問題后,品種數(shù)據(jù)含有的屬性個數(shù)不一致,選取MongoDB 來存儲處理后的數(shù)據(jù),以減少冗余數(shù)據(jù),提升空間利用率.處理后的Wikidata 數(shù)據(jù)和百度百科詞條數(shù)據(jù)仍然存儲在MongoDB 中,對處理后的實體、關(guān)系和屬性數(shù)據(jù)存儲在Neo4j 數(shù)據(jù)庫中.

      3 知識圖譜系統(tǒng)構(gòu)建與應(yīng)用

      3.1 品種知識圖譜的構(gòu)建與實現(xiàn)

      選取“種業(yè)商務(wù)網(wǎng)”[33]來獲取關(guān)于小麥品種的數(shù)據(jù),用BJSON 的格式存儲在MongoDB 數(shù)據(jù)庫.MongoDB數(shù)據(jù)庫采用,便于保存不同的屬性數(shù)據(jù),共獲取1852條品種數(shù)據(jù),品種類型豐富,包括冬性小麥、半冬性小麥、春性小麥、弱春性小麥、弱冬性小麥等多種.品種的信息包括審定編號、選育單位、品種來源、特征特性、抗性鑒定、品質(zhì)分析、產(chǎn)量結(jié)果等多個維度.

      將“農(nóng)業(yè)”的微百科作為種子網(wǎng)站,爬取所有的微百科,然后獲取微百科中的所有詞條,共獲取735 個微百科,詞條數(shù)102 349 個,通過知識抽取出實體和實體與實體之間的關(guān)系,最終構(gòu)建的知識圖譜共有實體258 484 個,關(guān)系 328 933 個,采用圖數(shù)據(jù)庫Neo4j 來存儲實體和關(guān)系,小麥知識圖譜的局部結(jié)構(gòu),如圖4所示,相同顏色的“圓”屬于同一種實體類型,不同“圓”代表不同的實體,“圓”之間的箭頭代表實體與實體之間的關(guān)系.“圓-箭頭-圓”對應(yīng) “實體-關(guān)系-實體”三元組,例如:“徐農(nóng)029–品種來源-淮麥20”表示“淮麥20”是“徐農(nóng)029”的品種來源.并且,每種實體類型都有一個中心節(jié)點,用來描述該類實體,例如圖中的“半冬性小麥”所指向的實體類型都是“半冬性小麥”.

      圖4 小麥品種知識圖譜

      3.2 品種知識精準(zhǔn)查詢與可視化

      由于Neo4j 數(shù)據(jù)庫高查詢性能以及查詢語言可定制化,不僅可以查詢實體與實體之間的關(guān)系,還可以實現(xiàn)品種的精確查詢,以返回快速、精準(zhǔn)、結(jié)構(gòu)化的知識.品種知識的查詢基于Neo4j 圖數(shù)據(jù)庫的可定制化Cypher 查詢語言,將實體和屬性注入到Cypher 查詢模板中查詢出相應(yīng)的節(jié)點數(shù)據(jù),然后將數(shù)據(jù)封裝利用D3.js 可視化框架將數(shù)據(jù)可視化,從而實現(xiàn)圖譜中結(jié)點和有向關(guān)系的直觀展示,如圖5所示,可以實現(xiàn)品種數(shù)據(jù)的實時可視化展示分析.

      圖5 知識圖譜檢索

      4 結(jié)論與展望

      本研究基于爬蟲技術(shù),利用Neo4j、NLP 以及圖譜構(gòu)建技術(shù),經(jīng)過數(shù)據(jù)收集與整理,知識獲取,知識融合,知識存儲等步驟,解決現(xiàn)存的知識重復(fù)、知識間的關(guān)聯(lián)不夠明確等問題.建立了標(biāo)準(zhǔn)的小麥品種知識圖譜體系,在此基礎(chǔ)上,使用Neo4j 圖數(shù)據(jù)庫存儲小麥知識圖譜,建立了小麥品種知識圖譜查詢系統(tǒng),提供品種知識的關(guān)系查詢、實體查詢、品種推薦等功能,實現(xiàn)了品種知識的精準(zhǔn)查詢與可視化分析.

      基于Neo4j 圖數(shù)據(jù)庫的定制化Cypher 查詢,利用D3.j 進(jìn)行數(shù)據(jù)可視化,為農(nóng)業(yè)知識的精確查詢和可視化提供了新的途徑,同時也為知識圖譜技術(shù)在農(nóng)業(yè)生產(chǎn)的應(yīng)用與落地提供了技術(shù)參考.在未來的研究工作中,要不斷的充實建立的知識圖譜體系與系統(tǒng),實現(xiàn)知識的及時更新與充實.此外,利用NLP 技術(shù),結(jié)合知識問答系統(tǒng),實現(xiàn)農(nóng)業(yè)知識的智能問答推薦也是一個很有價值的應(yīng)用方向.

      猜你喜歡
      百科結(jié)構(gòu)化圖譜
      促進(jìn)知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      繪一張成長圖譜
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      樂樂“畫”百科
      百科小知識
      補腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動對接你思維的知識圖譜
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      探索百科
      基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
      河曲县| 天台县| 扶绥县| 江安县| 黄平县| 古蔺县| 磴口县| 体育| 芜湖市| 崇仁县| 鄂托克旗| 石渠县| 雷州市| 云梦县| 灵石县| 万安县| 惠东县| 新平| 磐安县| 上蔡县| 祥云县| 五峰| 宝鸡市| 当涂县| 湘西| 漾濞| 乌苏市| 专栏| 美姑县| 龙门县| 福安市| 海安县| 嘉祥县| 新干县| 海原县| 尚志市| 临颍县| 澄城县| 噶尔县| 华宁县| 丹巴县|