摘要:課程知識圖譜將課程中的知識點、概念、理論等以圖譜形式組織和展示,有助于促進個性化教學、推動課程教學的創(chuàng)新發(fā)展。針對現(xiàn)有課程知識圖譜構建過于依賴數(shù)據(jù)標注和專家知識的問題,文章提出了一種基于 ChatGPT 的課程知識圖譜自動構建與可視化方法。首先,通過課程資料的收集和預處理,歸納總結課程核心概念,構建課程本體模型。然后采用 ChatGPT 實現(xiàn)課程知識點實體、屬性和關系抽取,通過設計多輪問答提示模板,提升課程知識信息抽取的可靠性。最后,采用 Neo4j 圖數(shù)據(jù)庫實現(xiàn)課程知識圖譜的存儲和管理,提供用戶友好的界面與交互方式,直觀地探索與理解課程知識。實驗結果顯示,ChatGPT 在進行課程知識抽取任務上具有一定的可靠性和優(yōu)越性,基于 ChatGPT 的課程知識圖譜構建方法為大語言模型在教育領域的應用提供了新的思路,具有應用前景和推廣價值。
關鍵詞:課程知識圖譜;信息抽取;ChatGPT;Neo4j
中圖分類號:G424 文獻標識碼:A
文章編號:1009-3044(2024)31-0148-04
開放科學(資源服務)標識碼(OSID) :
課程知識圖譜是以課程為核心的系統(tǒng)化、結構化知識網(wǎng)絡。它通過描述課程相關的實體、概念、理論及其之間的復雜關系,揭示課程知識的內(nèi)在聯(lián)系與規(guī)律[1]。在課程教學實踐中,課程知識圖譜有助于教師更好地組織教學內(nèi)容和設計教學方案;這也幫助學生更好地理解和掌握課程知識,形成完整的知識體系,從而促進教學效果的提升。
隨著 ChatGPT[2]的發(fā)布,生成式預訓練語言模型迅速推動了自然語言處理技術的進步,在金融、醫(yī)療、教育等多個領域產(chǎn)生了深遠的影響。已有研究表明,ChatGPT 在中文命名實體識別、關系抽取、事件抽取等信息抽取任務中取得了良好的效果[3-4],這也為知識圖譜技術的創(chuàng)新發(fā)展帶來了新的機遇,為智能化知識圖譜構建、語義理解及可視化提供了新的可能。
數(shù)據(jù)結構課程是電子信息類專業(yè)的重要核心課程,其教學是培養(yǎng)學生扎實專業(yè)理論基礎的關鍵環(huán)節(jié)。因此,結合 ChatGPT 和 Neo4j 圖數(shù)據(jù)庫技術,形成數(shù)據(jù)結構課程知識圖譜自動構建和可視化的方法,對于電子信息類本科人才培養(yǎng)具有重要作用。
1 數(shù)據(jù)結構課程知識圖譜構建策略
構建課程知識圖譜的重點在于快速、準確地抽取課程中的知識點實體、關系以及屬性。本文首先構建數(shù)據(jù)結構課程的本體模型,定義課程概念體系;然后采用基于多輪對話的 ChatGPT 信息抽取方式,實現(xiàn)課程實體、關系以及屬性的抽取。最后,使用 Neo4j 數(shù)據(jù)庫進行知識圖譜的可視化展示。具體流程如圖1所示。
1.1 數(shù)據(jù)結構課程本體模型構建
本體模型[5]是一種領域知識的形式化表示方法,用于描述領域中類、概念、實體及其相互關系的語義關系。根據(jù)數(shù)據(jù)結構課程教學基本要求、權威教材以及課程相關教學名師的意見,歸納總結課程的核心概念,提煉知識實體、屬性及關系,構建課程的本體模型。具體內(nèi)容包括:
1) 課程核心概念體系。課程核心概念體系的提煉涉及課程核心實體。通過收集課程相關數(shù)據(jù)資料,包括教案、教材、習題及各類網(wǎng)絡資源,對數(shù)據(jù)源進行分類匯總,將數(shù)據(jù)結構課程的核心實體分為章節(jié)實體、概念實體和法則實體三類。其中,章節(jié)實體表示課程內(nèi)容的組織結構,例如課程中的各個章節(jié)、主題等。概念實體表示課程中涉及的各種概念,比如隊列、樹、圖等。法則實體表示數(shù)據(jù)結構課程中的各種規(guī)則、定理和操作等。圖2展示了課程中《圖》這一章節(jié)的概念體系。
2) 實體屬性定義。根據(jù)課程核心概念,總結課程實體的相關屬性定義。其中,線性表實體的屬性包括元素集合、元素類型、元素數(shù)量、有序性、增刪改查操作等。棧實體的屬性包括容量、棧頂指針、棧操作等。樹實體的屬性包括根節(jié)點、父節(jié)點、子節(jié)點、深度、類型等。圖實體的屬性包括頂點集合、邊集合、方向性、權重、度數(shù)、連通性等。算法實體的屬性包括穩(wěn)定性、時間復雜度、空間復雜度等。
3) 實體關系定義。基于課程內(nèi)容和知識結構,建立實體之間的關系,包括包含關系、屬于關系、基本概念關系、存儲方式關系和應用關系等。其中基本概念關系描述某個概念實體是否為另一個實體的基本概念。
存儲方式關系描述一個實體在計算機中的存儲方式。同義關系描述具有相同含義的概念實體之間的關系。依賴關系表示某個實體依賴于其他實體。應用關系描述概念實體對應的實際應用。部分數(shù)據(jù)結構課程的實體關系建模如表1所示。
1.2 基于 ChatGPT 的知識圖譜構造
基于 ChatGPT 的課程知識圖譜構建的具體過程包括:數(shù)據(jù)采集與預處理、實體抽取、實體屬性抽取、實體關系抽取,以及基于 Neo4j 的知識圖譜構建與可視化。
本研究采用的課程資料來自多個渠道。其中,數(shù)據(jù)結構課程教案中的知識點被選作重要參考,教案由資深任課教師編寫,內(nèi)容涵蓋數(shù)據(jù)結構的基礎知識和相關應用,具有一定的權威性和可信度。百度百科和維基百科提供了豐富的網(wǎng)絡知識庫資源,包括對數(shù)據(jù)結構相關概念、算法和應用的介紹。百度電子文檔則是從百度文庫等平臺獲取的,其中包含了多篇學術論文和兩本數(shù)據(jù)結構專業(yè)教材,包括嚴蔚敏的《數(shù)據(jù)結構(C語言版)》和李春葆的《數(shù)據(jù)結構》(C語言篇)習題與解析,以及多篇數(shù)據(jù)結構電子文檔。
1.2.1 基于 ChatGPT 的課程知識點實體抽取
使用 ChatGPT 進行信息抽取時,需要用到固定的模板。使用不同的模板,抽取效果可能有所不同。多輪問答模板有助于提升信息抽取的準確性和完整性,通過多輪次的交互問答,ChatGPT 能夠更深入地理解用戶的查詢意圖,并根據(jù)用戶的需求逐步細化和擴展抽取的信息范圍。本文設計了如下幾種不同效果的多輪問答模板:
模板1:“‘數(shù)據(jù)……’請?zhí)崛〕錾鲜鑫谋局械膶嶓w以便構建知識圖譜。”
模板2:“‘數(shù)據(jù)……’請根據(jù)上述文本,抽取出文本涉及的各類實體,包括章節(jié)實體、概念實體、法則實體?!?/p>
模板3:
Q1:“‘數(shù)據(jù)……’請根據(jù)上述文本回答下列問題。請抽取出文本中的各個實體,實體的類型至少包括:章節(jié)實體、概念實體、法則實體等?!?/p>
Q2:“請將文本抽取出來的實體以二元組格式輸出,多個實體用列表存儲。”
采用多輪問答模板進行實體抽取的測試樣例如表2所示。
1.2.2 基于 ChatGPT 的課程知識點實體屬性抽取
用于實體屬性抽取的多輪提示模板如下:
模板1:“‘數(shù)據(jù)……’請?zhí)崛〕錾鲜鑫谋局袌D結構的屬性,以便構建知識圖譜?!?/p>
模板2:“‘數(shù)據(jù)……’請根據(jù)上述文本,抽取出文本中涉及的圖結構屬性,其中包括但不限于:頂點集合、邊集合、方向性、權重、圖的表示方法、算法與應用等?!?/p>
模板3:
Q1:“‘數(shù)據(jù)……’請根據(jù)上述文本回答下列問題。請抽取出文本中關于圖結構的屬性,屬性的類型至少包括:頂點集合、邊集合、方向性、權重、圖的表示方法、算法與應用等。”
Q2:“請將從文本中抽取的屬性以二元組格式輸出,多個屬性用列表存儲?!?/p>
采用多輪問答模板進行實體屬性抽取的測試樣例如表3所示。
1.2.3 基于 ChatGPT 的課程知識點關系抽取
用于實體關系抽取的多輪提示模板如下:
模板1:“‘數(shù)據(jù)……’請?zhí)崛〕錾鲜鑫谋局袑嶓w之間的關系,以便構建知識圖譜?!?/p>
模板2:“‘數(shù)據(jù)……’請根據(jù)上述文本,抽取出文本中涉及的實體之間的關系,其中包括但不限于:包含關系、屬于關系、基本概念關系、存儲方式關系、應用關系、依賴關系、同義關系、關聯(lián)關系等。”
模板3:
Q1:“‘數(shù)據(jù)……’請根據(jù)上述文本回答下列問題。請抽取出文本中各個實體之間的關系,關系的類型至少包括:包含關系、屬于關系、基本概念關系、存儲方式關系、應用關系、依賴關系、同義關系、關聯(lián)關系等?!?/p>
Q2:“請將從文本中抽取的關系以三元組列表格式輸出,多組關系用集合存儲?!?/p>
采用多輪問答模板進行實體關系抽取的測試樣例如表4所示。
2 數(shù)據(jù)結構課程知識圖譜構建實驗
本文將 ChatGPT 進行實體、屬性及關系抽取的結果與當前抽取效果較好的信息抽取模型進行比較,以分析信息抽取的效果。
2.1 評價標準
在知識抽取任務中,準確率(Precision) 、召回率(Recall) 和F1分數(shù)是常用的評價標準,它們用于衡量模型在提取文本信息方面的性能表現(xiàn)。
準確率(Precision) :衡量模型預測為正確的樣本數(shù)量與所有預測為正樣本的樣本數(shù)量之比。公式如下:
Precision = TP/TP + FP (1)
召回率(Recall) :衡量模型成功找到的正樣本數(shù)量與真實正樣本數(shù)量之比。公式如下:
Recall = TP/TP + FN (2)
F1分數(shù):是準確率和召回率的調(diào)和平均,考慮到兩者之間的平衡關系。F1分數(shù)的高低反映了模型在準確率和召回率之間的平衡情況,是綜合評價模型性能的重要指標之一。公式如下:
F1 = 2 × precision × Recall/Precision + Recall (3)
2.2 課程實體抽取結果
針對數(shù)據(jù)結構課程知識點的實體抽取問題,筆者通過使用標注數(shù)據(jù)進行訓練,比較了 ChatGPT 與各類基線模型的抽取效果。實驗中使用的基線模型主要包括:Bi-LSTM [6] 模型、Bi-LSTM-CRF [7] 模型、BERT- CRF [8] 模型以及隱馬爾可夫模型(HMM) [9]。這些模型被廣泛用于命名實體識別和其他序列標注任務。除了傳統(tǒng)的深度學習模型之外,阿里通義千問作為類 ChatGPT 大語言模型,在多項任務中表現(xiàn)出色,顯示出廣泛的應用潛力。
使用基線模型和 ChatGPT 作為工具進行實體抽取的結果如表5所示。實驗結果表明,ChatGPT 在實體抽取任務中表現(xiàn)卓越,準確地捕捉到了數(shù)據(jù)結構課程的關鍵知識點。
根據(jù)實體抽取的實驗數(shù)據(jù)可以看出,在準確率、召回率和 F1 分數(shù)方面,ChatGPT 均表現(xiàn)出色,分別達到了 80.76%、77.77% 和 79.24%。相比之下,其他模型如 BERT-CRF、Bi-LSTM、Bi-LSTM-CRF 等在各項指標上的表現(xiàn)略遜一籌,而 HMM 模型在準確率上表現(xiàn)優(yōu)異,但召回率和 F1 分數(shù)相對較低。阿里通義千問模型在準確率上表現(xiàn)不錯,但召回率和 F1 分數(shù)與 ChatGPT 相比略顯不足。ChatGPT 在抽取數(shù)據(jù)結構課程知識點實體任務中的優(yōu)越性能,為數(shù)據(jù)結構課程知識圖譜的構建提供了可靠的支持和保障。
2.3 課程實體關系抽取結果
在關系抽取實驗中使用的基線模型包括:CASRE 模型[10]、GPLinker 模型[11],以及阿里通義千問大語言模型。使用基線模型和 ChatGPT 進行課程知識關系抽取的結果如表6所示。
根據(jù)關系抽取的實驗結果,ChatGPT 模型在準確率、召回率和 F1 分數(shù)上均表現(xiàn)出較好的結果。然而,相對于 CASREL 和 GPLinker 模型,其在準確率上的提升空間依然存在,這主要是由于課程知識點之間的復雜關系所導致的。ChatGPT 模型具有高召回率和 F1 分數(shù),這意味著它能夠更全面地識別實體之間的各種關系,對于構建準確且全面的知識圖譜至關重要。
2.4 屬性抽取結果展示
采用阿里通義千問大語言模型進行實體屬性抽取,并與 ChatGPT 的抽取效果進行了比較。使用基準模型和 ChatGPT 進行知識點屬性抽取的對比結果如表7所示。
3 數(shù)據(jù)結構課程知識圖譜可視化
在使用 ChatGPT 完成知識點實體、屬性和關系抽取后,需要對抽取到的課程知識進行可視化,以形成課程知識圖譜。本文采用 Neo4j 數(shù)據(jù)庫進行可視化呈現(xiàn)。Neo4j 是一種基于圖形理論的高性能圖數(shù)據(jù)庫,它以節(jié)點和關系的形式組織和存儲數(shù)據(jù),其中節(jié)點表示實體,關系表示實體之間的連接。
Neo4j 采用了針對圖形數(shù)據(jù)庫的優(yōu)化存儲和查詢算法,使其能夠高效處理復雜的圖形結構。通過 Cy? pher 查詢語言,用戶可以輕松執(zhí)行各種圖形查詢操作,如查找節(jié)點、查找與節(jié)點相關聯(lián)的其他節(jié)點、查詢節(jié)點屬性等。
圖3展示了構建的部分知識圖譜的可視化界面。在該界面中,用戶可以查看各章節(jié)知識圖譜的全貌,并通過點擊個別實體節(jié)點來查看其特有的重要屬性。用戶還可以查詢具體的實體、關系以及實體屬性,使得課程知識圖譜的瀏覽直觀且便捷。圖4則展示了單個知識點的可視化結果。
與傳統(tǒng)的知識圖譜構建方法相比,基于 ChatGPT 的課程知識圖譜自動構建方法具備顯著優(yōu)勢,因為它不需要訓練數(shù)據(jù)標注,也無須利用深度學習模型進行訓練,從而節(jié)省了大量的時間和資源。這一方法為大語言模型在智慧教育領域的應用提供了新的思路。
然而,利用 ChatGPT 進行知識圖譜自動構建仍然存在一定的局限性。由于不同課程知識點之間存在復雜的關聯(lián)關系,純粹依賴大語言模型實現(xiàn)零樣本知識抽取的可靠性還有待進一步提高。此外,知識問答的模板也需要進一步提煉和完善。
未來的研究方向之一是深入挖掘 ChatGPT 模型在課程知識圖譜構建中的潛力,探索更加有效的知識表示和關聯(lián)方法,以提高知識圖譜的質(zhì)量和準確性。此外,可以進一步優(yōu)化可視化工具,以提升用戶體驗,并探索更多交互式功能,以滿足不同用戶群體的需求。
基于 ChatGPT 的課程知識圖譜構建與可視化是一個復雜且富有挑戰(zhàn)性的課題。期待未來能夠在這一領域取得更多突破與進步,為教育智能化發(fā)展做出更大的貢獻。
參考文獻:
[1] 施江勇,唐晉韜,王勇軍,等.基于知識圖譜的新興領域課程教學資源建設[J].高等工程教育研究,2022(3):15-20.
[2] OPENAI. ChatGPT:Optimizing Language Models for Dialogue [EB/OL].(2022-11-30)[2023-05-24]. https://openai.com/blog/chatgpt.
[3] 鮑彤,章成志.ChatGPT中文信息抽取能力測評:以三種典型的抽取任務為例[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2023,7(9):1-11.
[4] WEI X,CUI X Y,CHENG N,et al.Zero-shot information extrac?tion via chatting with ChatGPT[EB/OL].[2023-05-24].https://arxiv.org/abs/2302.02005.
[5] 李愛華,徐以則,遲鈺雪.本體構建及應用綜述[J].情報理論與實踐,2023,46(11):189-195.
[6] 陳德鑫,占袁圓,楊兵,等.基于CNN-BiLSTM模型的在線醫(yī)療實體抽取研究[J].圖書情報工作,2019,63(12):105-113.
[7] 翟社平,段宏宇,李兆兆.基于BILSTMCRF的知識圖譜實體抽取方法[J].計算機應用與軟件,2019,36(5):269-274,280.
[8] 田梓函,李欣.基于BERT-CRF模型的中文事件檢測方法研究[J].計算機工程與應用,2021,57(11):135-139.
[9] 沈同平,金力,黃方亮,等.隱馬爾可夫模型的優(yōu)化及其用于多文本實體識別[J].安慶師范大學學報(自然科學版),2022,28(2):31-35.
[10] WEI Z P,SU J L,WANG Y,et al.A novel cascade binary tag?ging framework for relational triple extraction[C]//Proceedings of the 58th Annual Meeting of the Association for Computa?tional Linguistics.Online.Stroudsburg,PA,USA:Association for Computational Linguistics,2020:1476-1488.
[11] WANG J H,YANG J.A three-stage pipeline for conditional en?tity and relation extraction[C]//2023 International Joint Con?ference on Neural Networks (IJCNN).June 18-23,2023,Gold Coast,Australia.IEEE,2023:1-8.
【通聯(lián)編輯:唐一東】
基金項目:湖南省普通高等學校教學改革研究項目(HNJG-2021-0404,HNJG-2023-0795) ;湖南工商大學教學改革研究項目(2023026)