• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)結(jié)構(gòu)的知識圖譜構(gòu)建及可視化研究

      2023-06-25 03:14:57閆藝婷黃文杰
      現(xiàn)代信息科技 2023年4期
      關(guān)鍵詞:知識圖譜數(shù)據(jù)結(jié)構(gòu)

      閆藝婷 黃文杰

      摘? 要:知識圖譜作為一種結(jié)構(gòu)化的組織方式,不僅能夠幫助學(xué)習(xí)者定位所需的信息,還能關(guān)聯(lián)其他信息,提高學(xué)習(xí)效率。文章對構(gòu)建數(shù)據(jù)結(jié)構(gòu)知識圖譜進(jìn)行研究,主要研究內(nèi)容包括通過網(wǎng)絡(luò)爬蟲技術(shù)獲取和處理數(shù)據(jù)集,設(shè)計(jì)以RDF數(shù)據(jù)模型為知識圖譜的建模方法,采用BiLSTM+CRF模型的知識抽取方法,最后通過圖數(shù)據(jù)庫進(jìn)行存儲和可視化,使學(xué)習(xí)者明確學(xué)習(xí)方向,也為后續(xù)該學(xué)科的應(yīng)用提供數(shù)據(jù)基礎(chǔ)。

      關(guān)鍵詞:知識圖譜;數(shù)據(jù)結(jié)構(gòu);知識抽??;圖數(shù)據(jù)庫

      中圖分類號:TP311? ? 文獻(xiàn)標(biāo)識碼:A? ? 文章編號:2096-4706(2023)04-0171-04

      Knowledge Graph Construction and Visualization Research Based on Data Structure

      YAN Yiting, Huang Wenjie

      (Software Engineering Institute of Guangzhou, Guangzhou? 510990, China)

      Abstract: As a structured organization, knowledge map can not only help learners locate the information they need, but also link other information to improve learning efficiency. This paper studies the construction of data structure knowledge graph. The main research contents include acquiring and processing data sets through web crawler technology, designing a modeling method using RDF data model as knowledge graph, using the knowledge extraction method based on BiLSTM+CRF model, finally, the graph database is used for storage and visualization to make learners clear their learning direction and provide a data basis for the subsequent application of this discipline.

      Keywords: Knowledge Graph; data structure; knowledge extraction; graph database

      0? 引? 言

      谷歌提出知識圖譜這一概念,為全球知識領(lǐng)域提出了可參考價(jià)值[1],其基本形式為三元組。目前,知識圖譜的研究應(yīng)用主要包括通用領(lǐng)域和垂直領(lǐng)域。通用的有Google Knowledge Graph、YAGO、DBPedia[2]等。垂直領(lǐng)域各方面優(yōu)于通用,但其構(gòu)建方法為手工,且成本高[3]。

      在知識圖譜概念提出后,已有學(xué)者利用知識庫構(gòu)建各學(xué)科資源,如趙繼春[4]等人構(gòu)建農(nóng)業(yè)在線學(xué)習(xí)知識圖譜,有效提升用戶在線學(xué)習(xí)體驗(yàn)。奧德瑪[5]等學(xué)者構(gòu)建中文醫(yī)學(xué)知識圖譜,為醫(yī)學(xué)領(lǐng)域知識圖譜構(gòu)建提供參考;白文倩[6]等人在教育技術(shù)學(xué)領(lǐng)域?yàn)榇蠹姨峁┮环N新型文獻(xiàn)方法。上述對不同學(xué)科領(lǐng)域進(jìn)行了專業(yè)描述,但不能滿足計(jì)算機(jī)學(xué)科知識描述的結(jié)構(gòu)化的需求。

      鑒于數(shù)據(jù)結(jié)構(gòu)屬于計(jì)算機(jī)學(xué)科的專業(yè)基礎(chǔ)課,其該學(xué)科的知識圖譜在知識點(diǎn)關(guān)聯(lián)查詢、學(xué)科知識資源個(gè)性化推理、學(xué)科知識自動問答、輔助學(xué)習(xí)等應(yīng)用中起到重要作用,已有學(xué)者在開展相關(guān)學(xué)科知識圖譜的構(gòu)建。但并沒有公開的數(shù)據(jù)集來源,現(xiàn)有的知識圖譜從科學(xué)性、準(zhǔn)確性、規(guī)范化等方面仍有較大的提升。如何構(gòu)建高質(zhì)量的學(xué)科領(lǐng)域知識圖譜,仍是具有挑戰(zhàn)的課題。

      文中面向數(shù)據(jù)結(jié)構(gòu)學(xué)科領(lǐng)域,首先通過網(wǎng)絡(luò)爬蟲采集數(shù)據(jù),并對數(shù)據(jù)進(jìn)行分析處理,得到規(guī)范標(biāo)準(zhǔn)化的數(shù)據(jù),再對數(shù)據(jù)進(jìn)行知識抽取,最后將數(shù)據(jù)進(jìn)行可視化顯示。

      1? 數(shù)據(jù)來源及研究方法

      1.1? 數(shù)據(jù)來源

      數(shù)據(jù)獲取是構(gòu)建知識圖譜過程中最重要的環(huán)節(jié),只有收集到正確的數(shù)據(jù),才能構(gòu)建出科學(xué)、準(zhǔn)確、有價(jià)值的知識圖譜。知識圖譜的數(shù)據(jù)源一般分為三類:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)(如圖片、視頻和音頻等)、半結(jié)構(gòu)化數(shù)據(jù)(如JSON和XML格式的數(shù)據(jù)等)。構(gòu)建數(shù)據(jù)結(jié)構(gòu)學(xué)科的知識圖譜,由于數(shù)據(jù)結(jié)構(gòu)課程領(lǐng)域沒有公開的數(shù)據(jù)集,所以,文中的數(shù)據(jù)將分為兩類獲取,其中結(jié)構(gòu)化的數(shù)據(jù)獲取來源自于清華大學(xué)出版社嚴(yán)蔚敏編寫的《數(shù)據(jù)結(jié)構(gòu)》一書,根據(jù)該書手工構(gòu)建最原始的數(shù)據(jù)。嚴(yán)蔚敏教授編著的《數(shù)據(jù)結(jié)構(gòu)》是多所高校用的教學(xué)教材和考研指定教材,學(xué)科領(lǐng)域公認(rèn)度高,根據(jù)教材獲取并整理的原始數(shù)據(jù)具有一定的可靠性和正確性;而非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)則來源于百度百科,根據(jù)原始數(shù)據(jù)網(wǎng)絡(luò)爬蟲方法從百度百科中爬取詞條相關(guān)的內(nèi)容信息。最終將數(shù)據(jù)整合后,加入數(shù)據(jù)集中。

      1.2? 研究方法

      在對網(wǎng)絡(luò)爬取的數(shù)據(jù)進(jìn)行處理和標(biāo)注后,進(jìn)行知識圖譜的建模,使用基于自然語言處理和機(jī)器學(xué)習(xí)的方法抽取知識實(shí)體,將原始數(shù)據(jù)標(biāo)注后進(jìn)行向量化,采用BiLSTM+CRF模型將向量化的原始數(shù)據(jù)源進(jìn)行模型預(yù)訓(xùn)練,使用BiLSTM+CRF模型進(jìn)行評估,其預(yù)測結(jié)果的精確率和召回率的調(diào)和平均數(shù)F1分?jǐn)?shù)為95.3%,能夠?qū)崿F(xiàn)未標(biāo)注數(shù)據(jù)的實(shí)體識別。然后,對已識別的實(shí)體進(jìn)行人工的關(guān)系抽取,從而構(gòu)建知識圖譜。其過程主要采用BeautifulSoup庫進(jìn)行網(wǎng)頁解析、Jieba庫進(jìn)行中文分詞及NumPy庫和Pandas庫進(jìn)行數(shù)據(jù)預(yù)處理,使用BIEOS標(biāo)注策略進(jìn)行數(shù)據(jù)特征標(biāo)注,利用Torch機(jī)器學(xué)習(xí)框架訓(xùn)練模型,最后對數(shù)據(jù)進(jìn)行知識抽取,模型評估合格后再使用Neo4j數(shù)據(jù)庫進(jìn)行知識圖譜的存儲和可視化,其構(gòu)建流程如圖1所示。

      2? 數(shù)據(jù)結(jié)構(gòu)學(xué)科知識圖譜的構(gòu)建

      2.1? 數(shù)據(jù)處理

      2.1.1? 數(shù)據(jù)預(yù)處理

      為了獲得高質(zhì)量的數(shù)據(jù)集,通過NumPy、Pandas庫等,將干擾數(shù)據(jù)、停用詞、重復(fù)數(shù)據(jù)等進(jìn)行數(shù)據(jù)篩選并刪除,數(shù)據(jù)清洗處理后的按字分行,如圖2所示。

      2.1.2? 數(shù)據(jù)標(biāo)注

      數(shù)據(jù)進(jìn)行特征標(biāo)注處理,即采用BIEOS標(biāo)注策略,將數(shù)據(jù)集以字或者標(biāo)點(diǎn)符號作為標(biāo)注單位,B-POINT表示知識點(diǎn)實(shí)體開始,I-POINT表示知識點(diǎn)實(shí)體中間位置,E-POINT表示知識點(diǎn)實(shí)體結(jié)束,O表示屬于無關(guān)實(shí)體,S-POINT表示單個(gè)字知識點(diǎn)的實(shí)體,如圖3所示。

      通過標(biāo)注處理,能夠?qū)⒆值奶卣鳂?biāo)注出來,再進(jìn)行向量化,模型訓(xùn)練后能夠體現(xiàn)出向量化后的數(shù)據(jù)與特征的關(guān)系,提高實(shí)體識別的準(zhǔn)確率。

      2.2? 知識圖譜的知識建模

      知識建模,使用一定的知識表示語言將實(shí)體規(guī)范起來,為方便知識圖譜的存儲,本次知識圖譜的知識建模采用RDF(Resource Description Frame-work)的方法。RDF的基本組成單元三元組即S,P,O(subject(主),predicate(謂),object(賓)),例如:用一條三元組描述,線性表包括單鏈表(subject(線性表),predicate(包括),object(單鏈表))。一條三元組代表關(guān)于客觀世界的邏輯描述和客觀事實(shí),多個(gè)三元組頭尾相互連接就形成了一個(gè)RDF圖,部分知識圖譜的知識建模如表1所示。

      2.3? 知識抽取

      對于半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),需要進(jìn)行知識抽取轉(zhuǎn)化為三元組。知識抽取分為實(shí)體識別和關(guān)系抽取兩個(gè)部分。

      2.3.1? 基于機(jī)器學(xué)習(xí)的實(shí)體識別

      采用BiLSTM模型和CRF模型相結(jié)合,基于機(jī)器學(xué)習(xí)的實(shí)體識別,能夠快速高效地構(gòu)建涉及數(shù)據(jù)量較大的知識圖譜。而采用BiLSTM+CRF模型其優(yōu)點(diǎn)在于不僅可以擁有LSTM模型的特征抽取及擬合能力,并且在BiLSTM模型的基礎(chǔ)上疊加的CRF層能夠考慮到預(yù)測序列前后之間的關(guān)聯(lián)性,使預(yù)測結(jié)果具有邏輯性,更加符合構(gòu)建知識圖譜的需求。

      BiLSTM+CRF模型實(shí)現(xiàn)實(shí)體識別的原理是將模型預(yù)訓(xùn)練好后,未識別的實(shí)體通過兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)層生成前向和后向兩個(gè)隱藏序列,由于待識別的實(shí)體在句子中分布不同,其上下文的信息也會有所不同。BiLSTM模型通過生成前向和后向兩個(gè)序列,能夠?qū)W習(xí)待識別的實(shí)體在句子中的上下文信息。然后,得到輸出每個(gè)字向量化后的向量數(shù)值,根據(jù)其向量數(shù)值與標(biāo)注特征數(shù)值相似的得分率,輸出每個(gè)字對應(yīng)每個(gè)標(biāo)簽的得分率,其得分率高的結(jié)果則表明字與標(biāo)注特征的相關(guān)性大,預(yù)測出來的結(jié)果與實(shí)際結(jié)果有很大概率相同。最后,由于BiLSTM只考慮了單個(gè)字本身的標(biāo)注特征,并沒有考慮到最終的實(shí)體標(biāo)簽還會受到前后標(biāo)簽的影響,例如:B-POINT標(biāo)簽下一個(gè)標(biāo)簽不可能會是B-POINT,所以還會在BiLSTM模型的基礎(chǔ)上疊加一個(gè)CRF層,通過學(xué)習(xí)標(biāo)簽之間的依賴關(guān)系,如:B-POINT標(biāo)簽與I-POINT標(biāo)簽相互依賴、I-POINT標(biāo)簽與E-POINT標(biāo)簽相互依賴。最后,得到具有邏輯關(guān)系的標(biāo)注結(jié)果,其過程如圖4所示。

      通過BiLSTM+CRF算法,將得到數(shù)據(jù)結(jié)構(gòu)的標(biāo)注結(jié)果(數(shù)B-POINT據(jù)I-POINT結(jié)I-POINT構(gòu)E-POINT),根據(jù)預(yù)測的標(biāo)注結(jié)果,就可以識別出數(shù)據(jù)結(jié)構(gòu)是實(shí)體。最后,根據(jù)對比實(shí)驗(yàn)驗(yàn)證,以6:2:2的比例分配訓(xùn)練集、測試集和驗(yàn)證集數(shù)據(jù),經(jīng)過10輪的訓(xùn)練,用F1分?jǐn)?shù)對該模型的精確率和召回率進(jìn)行評估,其F1分?jǐn)?shù)接近95.3%,如圖5所示。

      經(jīng)過10個(gè)Epoch的訓(xùn)練,驗(yàn)證損失和訓(xùn)練損失都降低到0.2%以下,而代表精確率和召回率的F1分?jǐn)?shù)接近95.3%,預(yù)測出來的標(biāo)注結(jié)果比較理想。最終,將未標(biāo)注的數(shù)據(jù)集通過訓(xùn)練完成的BiLSTM+CRF模型,輸出標(biāo)注結(jié)果,根據(jù)標(biāo)注結(jié)果確定數(shù)據(jù)中的實(shí)體,實(shí)現(xiàn)知識抽取中的實(shí)體識別部分。

      2.3.2? 關(guān)系抽取

      在已經(jīng)將數(shù)據(jù)集中的實(shí)體識別出來的基礎(chǔ)上,將識別后的實(shí)體返回?cái)?shù)據(jù)集中,從數(shù)據(jù)集中的句子確定已識別的實(shí)體關(guān)系。如果兩個(gè)實(shí)體確實(shí)存在某種關(guān)系,那至少存在一個(gè)句子描述這種關(guān)系,基于這個(gè)假設(shè),將存在兩個(gè)或多個(gè)實(shí)體的句子識別出來,對其關(guān)系做進(jìn)一步判斷,人工從句子中抽取實(shí)體之間的關(guān)系,從而完成關(guān)系抽取。例如:數(shù)據(jù)結(jié)構(gòu)包括集合、線性結(jié)構(gòu)、樹形結(jié)構(gòu)和圖圖形結(jié)構(gòu),關(guān)系抽取結(jié)果為表2。

      2.4? 知識存儲與可視化

      通過數(shù)據(jù)處理和知識抽取,將原始數(shù)據(jù)集全部轉(zhuǎn)化為三元組,其最終效果如圖6所示。

      將獲取的三元組數(shù)據(jù)進(jìn)行人工校對并整理,將不合理和重復(fù)的三元組進(jìn)行修改或刪除,整理后的三元組數(shù)據(jù)保存為csv文件,通過csv文件導(dǎo)入Neo4j圖數(shù)據(jù)庫中進(jìn)行知識存儲,其中實(shí)體的基本屬性有知識點(diǎn)編號、知識點(diǎn)概念等級和知識點(diǎn)名稱,關(guān)系的基本屬性有關(guān)系編號和關(guān)系名稱,并參考數(shù)據(jù)結(jié)構(gòu)課程知識體系結(jié)構(gòu),對多個(gè)實(shí)體和實(shí)體的關(guān)系進(jìn)行了補(bǔ)充,并添加了概念等級、函數(shù)和分類等作為實(shí)體的屬性,能夠更加直觀的展示復(fù)雜數(shù)據(jù)中包含在其中的邏輯關(guān)系,有效幫助學(xué)習(xí)者提高學(xué)習(xí)思維,提升學(xué)習(xí)興趣。數(shù)據(jù)結(jié)構(gòu)知識圖譜可視化部分是將(實(shí)體1,實(shí)體2,關(guān)系)課程知識點(diǎn)以三元組動態(tài)顯示,通過Cypher操作語言進(jìn)行Neo4j數(shù)據(jù)庫進(jìn)行查詢和可視化,其中實(shí)體節(jié)點(diǎn)是以圓圈表示,實(shí)體之間的關(guān)系用箭頭來連接,最終得到數(shù)據(jù)結(jié)構(gòu)學(xué)科的知識圖譜,其知識圖譜的局部如圖7所示。

      其構(gòu)建出來的數(shù)據(jù)結(jié)構(gòu)學(xué)科知識圖譜,共有235個(gè)實(shí)體,15種關(guān)系,準(zhǔn)確率和覆蓋率都達(dá)到了一定的標(biāo)準(zhǔn),能夠提供基于知識圖譜的智能應(yīng)用的數(shù)據(jù)基礎(chǔ)。

      3? 結(jié)? 論

      文章從知識圖譜構(gòu)建的視角,以數(shù)據(jù)結(jié)構(gòu)學(xué)科為計(jì)算機(jī)學(xué)科代表,詳細(xì)介紹了構(gòu)建數(shù)據(jù)結(jié)構(gòu)學(xué)科知識圖譜的步驟。設(shè)計(jì)了從三元組的知識建模,基于機(jī)器學(xué)習(xí)模型的知識抽取,并通過Neo4j圖數(shù)據(jù)庫實(shí)現(xiàn)知識圖譜的存儲和可視化的具體流程。解決了構(gòu)建實(shí)體數(shù)量較大的知識圖譜時(shí),實(shí)體難以識別、關(guān)系難以提取的問題。并且運(yùn)用圖數(shù)據(jù)庫,能夠動態(tài)地對知識圖譜進(jìn)行完善。構(gòu)建數(shù)據(jù)結(jié)構(gòu)知識圖譜,能夠幫助學(xué)習(xí)者認(rèn)識到數(shù)據(jù)結(jié)構(gòu)學(xué)科當(dāng)中各個(gè)知識點(diǎn)之間的關(guān)系,形成整體的知識網(wǎng)絡(luò),能夠幫助學(xué)習(xí)者對所學(xué)知識的深入思考,同時(shí)提供能夠支撐智能問答和智能搜索等智能應(yīng)用的基礎(chǔ),也為其他的知識圖譜的構(gòu)建提供參考。

      參考文獻(xiàn):

      [1] 劉嶠,李楊,段宏,等.知識圖譜構(gòu)建技術(shù)綜述 [J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.

      [2] 楊玉基,許斌,胡家威,等.一種準(zhǔn)確而高效的領(lǐng)域知識圖譜構(gòu)建方法 [J].軟件學(xué)報(bào),2018,29(10):2931-2947.

      [3] 李艷燕,張香玲,李新,等.面向智慧教育的學(xué)科知識圖譜構(gòu)建與創(chuàng)新應(yīng)用 [J].電化教育研究,2019,40(8):60-69.

      [4] 趙繼春,孫素芬,郭建鑫,等.農(nóng)業(yè)在線學(xué)習(xí)資源知識圖譜構(gòu)建與推薦技術(shù)研究 [J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(8):69-75.

      [5] 奧德瑪,楊云飛,穗志方,等.中文醫(yī)學(xué)知識圖譜CMeKG構(gòu)建初探 [J].中文信息學(xué)報(bào),2019,33(10):1-9.

      [6] 白文倩,李文昊.國際教育技術(shù)學(xué)科學(xué)術(shù)群體知識圖譜構(gòu)建與分析 [J].中國電化教育,2013(6):31-38+66.

      作者簡介:閆藝婷(1994—),女,漢族,河南長葛人,教師,碩士,研究方向:自然語言處理;黃文杰(2000—),男,漢族,廣東汕尾人,本科在讀,研究方向:計(jì)算機(jī)應(yīng)用。收稿日期:2022-09-24

      猜你喜歡
      知識圖譜數(shù)據(jù)結(jié)構(gòu)
      數(shù)據(jù)結(jié)構(gòu)線上線下混合教學(xué)模式探討
      數(shù)據(jù)結(jié)構(gòu)課程教學(xué)網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn)
      電子測試(2018年15期)2018-09-26 06:01:42
      國內(nèi)圖書館嵌入式服務(wù)研究主題分析
      國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
      近十五年我國小學(xué)英語教學(xué)研究的熱點(diǎn)、問題及對策
      基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
      基于知識圖譜的智慧教育研究熱點(diǎn)與趨勢分析
      從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
      “翻轉(zhuǎn)課堂”教學(xué)模式的探討——以《數(shù)據(jù)結(jié)構(gòu)》課程教學(xué)為例
      高職高專數(shù)據(jù)結(jié)構(gòu)教學(xué)改革探討
      中國市場(2016年45期)2016-05-17 05:15:48
      苏州市| 桂林市| 女性| 嘉祥县| 清远市| 东明县| 五台县| 呼伦贝尔市| 湛江市| 和龙市| 安新县| 黄龙县| 莱芜市| 黎城县| 鲁山县| 轮台县| 湛江市| 墨玉县| 凭祥市| 东光县| 虹口区| 永福县| 武宁县| 双桥区| 城步| 弥勒县| 东莞市| 丹寨县| 韶山市| 绥化市| 奉贤区| 万山特区| 潜山县| 门源| 泰和县| 满城县| 崇阳县| 鄂尔多斯市| 贵港市| 边坝县| 循化|