摘 ?要: 教學(xué)資源缺少開發(fā)規(guī)范和語義信息,導(dǎo)致其可共享性差、檢索查全率或查準(zhǔn)率不高。探討教學(xué)資源語義系統(tǒng)的設(shè)計,基于本體實現(xiàn)教學(xué)資源的語義信息,并通過Jena實現(xiàn)語義擴展,結(jié)合語義相關(guān)度和相似度,有效提高教學(xué)資源檢索的有效性和精確度。
關(guān)鍵詞: 本體;Jena;教學(xué)資源;語義
中圖分類號: G633 ? ?文獻標(biāo)識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.04.040
本文著錄格式:黃以寶. 基于本體和Jena模塊的教學(xué)資源語義系統(tǒng)設(shè)計研究[J]. 軟件,2019,40(4):186189
【Abstract】: Lacking development norms and semantic information, teaching resources may have disadvantages of poor sharing and low retrieval accuracy. The paper discusses design of semantic system of teaching resources, improve effectiveness and accuracy of teaching resources retrieval effectively based on noumenon semantic information of teaching resources, and Jena semantic expansion and semantic relevance and similarity.
【Key words】: Noumenon; Jena; Teaching resources; Semantics
0 ?引言
互聯(lián)網(wǎng)技術(shù)的發(fā)展與普及,促使網(wǎng)絡(luò)學(xué)習(xí)成為了一種越來越多人選擇的新型的學(xué)習(xí)方式,因此網(wǎng)絡(luò)教學(xué)資源展開了大規(guī)模的建設(shè)。然而,正是教學(xué)資源量的日益龐大,暴露出了一些亟待解決的問題,主要是:基于關(guān)鍵字匹配的傳統(tǒng)檢索技術(shù)導(dǎo)致查全率和查準(zhǔn)率不高、沒有統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)描述教學(xué)資源導(dǎo)致教學(xué)資源的可共享性差。近年,研究將在語義描述方面有較強能力的本體引入到了教學(xué)資源建設(shè)中,得以提高了教學(xué)資源的統(tǒng)一描述能力和語義檢索能力。本體是實現(xiàn)語義Web的重要基礎(chǔ)和技術(shù),廣泛應(yīng)用于知識表示、知識共享與重用、邏輯推理等領(lǐng)域。本文提出了一個基于本體和Jena模塊技術(shù)的教學(xué)資源語義系統(tǒng)模型,它結(jié)合課程知識點本體和教學(xué)資源元數(shù)據(jù)標(biāo)準(zhǔn)以構(gòu)建教學(xué)資源本體作為資源語義描述基礎(chǔ),并通過Jena模塊技術(shù)進行知識點推理、語義擴展等,為教學(xué)資源的語義檢索提供了語義上的支持,還通過篩選排序返回更合理更有效檢索的教學(xué)資源集[1]。
1 ?系統(tǒng)設(shè)計目標(biāo)
根據(jù)教學(xué)資源語義系統(tǒng)目前面臨的問題,結(jié)合本體技術(shù)和語義檢索技術(shù),在進行本系統(tǒng)問題分析的基礎(chǔ)上,基于本體和Jena模塊技術(shù)的教學(xué)資源語義系統(tǒng)需要實現(xiàn)的設(shè)計目標(biāo)主要包括如下幾個方面:
(1)語義擴展,提高隱性知識的發(fā)現(xiàn)能力。傳統(tǒng)檢索只是以關(guān)鍵詞機械的進行字符串式的擴展,無法表達關(guān)鍵詞的語義信息,所以語義的擴展能力有限。由于本體能全面的、精確地描述和定義概念及概念之間的關(guān)系,具有較強的語義表達能力,能較好的理解用戶的語義意圖。因此,充分利用本體處理相關(guān)技術(shù)對關(guān)鍵詞進行語義擴展[2]。
(2)語義推理,增強系統(tǒng)的智能特性。Jena自身包含了一系列針對本體的特點而定義的默認通用推理規(guī)則,用于檢查概念的可滿足性,不同類之間的關(guān)系,以及屬性的傳遞、互逆、不相交等[3],能運用本體查詢語言進行解析本體庫中的知識概念,并且根據(jù)推理規(guī)則推理出新的概念。
(3)元數(shù)據(jù)標(biāo)注,解決異構(gòu)資源共享問題。元數(shù)據(jù)是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,是描述數(shù)據(jù)屬性的信息,用來支持如指示存儲位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能[4]。
(4)合理有效的語義檢索,提高檢索的查全率和查準(zhǔn)率。
(5)用戶查詢度排序,使檢索結(jié)果符合用戶 ?要求。
(6)常查資源索引庫,提高檢索的效率。
2 ?系統(tǒng)設(shè)計思路
2.1 ?教學(xué)資源語義化
結(jié)合教學(xué)資源元數(shù)據(jù)的統(tǒng)一規(guī)范標(biāo)準(zhǔn)和本體的語義能力,對教學(xué)資源實現(xiàn)語義標(biāo)注及格式化存儲,形式化了教學(xué)資源的語義信息,達成計算機理解的目標(biāo),以實現(xiàn)教學(xué)資源的共享和復(fù)用。
2.2 ?檢索語義化
在本體技術(shù)的基礎(chǔ)上,結(jié)合邏輯推理能力,對用戶的檢索請求加以擴展,既使用戶能清晰的表達檢索需求,又使機器更好的理解用戶檢索需求。
2.3 ?檢索流程
①在結(jié)合了教學(xué)資源元數(shù)據(jù)標(biāo)準(zhǔn)和課程知識點本體的教學(xué)資源本體支持下,對用戶檢索要求進行語義分析的分詞處理和語義擴展的規(guī)則推理得到查詢概念集,使計算機明確用戶檢索內(nèi)容;②根據(jù)查詢概念集進行檢索;③根據(jù)相關(guān)度排序檢索結(jié)構(gòu),返回有效的結(jié)果。
3 ?系統(tǒng)模型設(shè)計
根據(jù)結(jié)合本體技術(shù)和語義檢索技術(shù)而提出的系統(tǒng)設(shè)計目標(biāo)和系統(tǒng)設(shè)計思路,設(shè)計基于本體和Jena模塊技術(shù)的教學(xué)資源語義系統(tǒng)模型共分為三層:查詢應(yīng)用層、檢索處理層、資源本體層,而主要的功能模塊包括有:語義標(biāo)注模塊、語義擴展模塊、檢索操作模塊、排序優(yōu)化模塊、常查資源索引庫模塊,系統(tǒng)模型設(shè)計如圖1所示。
基于本系統(tǒng)模型,語義檢索的流程是:用戶輸入查詢請求的查詢問題,系統(tǒng)判斷查詢問題是否是常查問題,如果是直接從常查資源索引庫中返回檢索結(jié)果;如果不是則需要進行查詢處理。查詢處理,先是根據(jù)核心概念詞庫利用IKAnalyzer對查詢問題進行分詞操作以實現(xiàn)概念的抽取得到查詢概念集,然后將查詢概念集根據(jù)Jena定義的推理規(guī)則進行語義擴展得到擴展查詢概念集,將擴展查詢概念集中每個概念利用SPARQL語言進行教學(xué)資源查詢,將符合要求的元數(shù)據(jù)文檔集排序優(yōu)化返回給用戶,用戶根據(jù)元數(shù)據(jù)文檔查看教學(xué)資源信息,并提供教學(xué)資源下載。語義檢索流程如圖2所示。
4 ?系統(tǒng)模塊功能
4.1 ?語義標(biāo)注模塊
語義標(biāo)注模塊的功能,一方面是利用教學(xué)資源元數(shù)據(jù)規(guī)范對教學(xué)資源進行相關(guān)屬性的描述,有利于擴展到其他標(biāo)準(zhǔn)的學(xué)習(xí)平臺,促進資源的共享和重用;另一方面,在內(nèi)容組合中還存在諸如異構(gòu)資源組合等方面的困難,可借助于本體在語義和知識層次上描述資源[5],將教學(xué)資源與課程本體知識點概念關(guān)聯(lián),可有效的利用本體概念推理出隱含的信息資源,提高教學(xué)資源檢索的高效性、準(zhǔn)確性。
語義標(biāo)注的流程:上傳教學(xué)資源歸入教學(xué)資源文檔集,然后解析課程知識本體供用戶選擇標(biāo)注知識點,再根據(jù)用戶上傳教學(xué)資源提交的教學(xué)資源描述信息表單來進行教學(xué)資源的元數(shù)據(jù)標(biāo)注,根據(jù)標(biāo)注的內(nèi)容生成相對應(yīng)的教學(xué)資源元數(shù)據(jù)文檔,并將相關(guān)元數(shù)據(jù)信息填充到教學(xué)資源本體。由于教學(xué)資源一般是多媒體文檔,目前只能采用人工方式對教學(xué)資源整體標(biāo)注,當(dāng)教學(xué)資源涉及多個知識點時,還不能分割知識點處理,只能使用最大相關(guān)度的知識點進行語義標(biāo)注。語義標(biāo)注流程如圖3所示。
4.2 ?語義擴展模塊
眾所周知,在自然語言中,一個詞語可能表達幾種意義,同樣幾個不同的詞語可能表達相同的意義[6]。使用自然語言作為關(guān)鍵詞進行檢索,常常會遇到兩個問題:①同義詞問題,即一個意思可以有不同的詞語表達;還有多義詞問題,即同一個詞在不同的語境中有不同的含義。②隱含關(guān)系問題,關(guān)鍵詞的查詢無法找到存在語義上或邏輯上的隱含關(guān)系。語義擴展是解決這些問題的一個有效方法,把原查詢看作一系列的概念(而不是一系列字符串),從建好的概念語義結(jié)構(gòu)中提取查詢語義及語義關(guān)聯(lián)關(guān)系,實現(xiàn)語義概念擴展[7]。其中作為語義檢索重要部分的語義擴展主要是通過查詢擴展(Query Expansion)來實現(xiàn),查詢擴展是指利用統(tǒng)計學(xué)、語言學(xué)等方法,找出與原查詢詞的相關(guān)擴展詞并加入原查詢組成新的查詢,使其更清楚地表達用戶的查詢意愿,以改善信息檢索性能[8]。
語義擴展模塊的功能,主要是通過對用戶的查詢問題的基礎(chǔ)上,通過推理機按照同位和下位等邏輯關(guān)系,對建立好的領(lǐng)域本體庫進行語義推理,進而對查詢條件進行語義擴展[9],以此得到更全面、更準(zhǔn)確的查詢概念集,實現(xiàn)查詢既能檢索到字面之間顯式的語義關(guān)系的資源,又能檢索到隱含的語義關(guān)系的資源。
語義擴展的流程:根據(jù)用戶輸入的查詢問題,利用分詞獲得查詢概念集,先對查詢概念集結(jié)合課程本體中概念間的顯性語義聯(lián)系進行直接擴展,再結(jié)合Jena推理規(guī)則推理隱性語義聯(lián)系進行推理擴展,從而實現(xiàn)用戶查詢問題的語義擴展,獲取一組符合用戶查詢需求的具有語義聯(lián)系的查詢概念集。經(jīng)過語義擴展后的查詢概念集,可能涉及到的查詢概念很多,要對查詢概念集進行概念篩選,以防止“概念漂移”,主要工作是將查詢概念集中的概念與用戶查詢進行相似度和相關(guān)度的計算,然后根據(jù)語義相似度計算以排序,以篩選更符合用戶意圖的概念集進行檢索。
4.3 ?排序優(yōu)化模塊
語義擴展在一定程度上解決了用戶查詢表達不明確的問題,使機器更好的理解用戶的查詢意圖,但也帶來了“查詢漂移”問題:語義擴展有可能導(dǎo)致查詢關(guān)鍵詞過多,使得檢索結(jié)果出現(xiàn)大量與查詢無關(guān)的結(jié)果,從而降低了檢索的精度,也就是滿足了查全率而忽略了查準(zhǔn)率。為了有限控制結(jié)果的數(shù)量和質(zhì)量,有必要對語義擴展得到的結(jié)果進行二次篩選。
排序優(yōu)化模塊的功能,是對語義檢索的結(jié)果進行排序和優(yōu)化返回,主要工作是進行檢索結(jié)果的二次處理,目的過濾一些與用戶查詢要求“漂移”過大的結(jié)果,并按查詢相似度由高到低的排序,從而實現(xiàn)檢索結(jié)果在語義上更接近用戶的查詢需求。
排序優(yōu)化主要考慮因素:首先對教學(xué)資源中的關(guān)聯(lián)知識點從相關(guān)度和相似度上執(zhí)行進一步的語義處理,主要對知識點的匹配、包含等關(guān)系推理,如一個教學(xué)資源包含多個知識點,查詢其中一個知識時,根據(jù)語義標(biāo)注中其占用的份量考慮;接著考慮教學(xué)資源的選擇率,即用戶使用相同查詢問題時,選擇檢索結(jié)果中的某教學(xué)資源的次數(shù);國家《網(wǎng)絡(luò)教育資源建設(shè)技術(shù)規(guī)范》規(guī)定網(wǎng)絡(luò)教育資源主要包含以下9類:媒體素材、課件、案例、常見問題、文獻資料、網(wǎng)絡(luò)課程、試卷、試題、資源目錄索引 ? ? 等[10],根據(jù)這些分類以確定其占用權(quán)值,如課件是比較詳細的內(nèi)容可優(yōu)先考慮,而習(xí)題只是輔助教學(xué)資源可相應(yīng)延遲考慮;最后,對教學(xué)資源的文件類型歸類,主要考慮用戶喜好,有些喜歡教學(xué)視頻,也有些喜歡教學(xué)PPT課件等。
4.4 ?常查資源索引庫模塊
常查資源索引庫模塊功能,主要是針對相同查詢問題時直接獲得檢索結(jié)果,避免同一查詢問題多次進行本體解析、語義擴展、檢索操作、排序優(yōu)化等操作,從而減少系統(tǒng)的響應(yīng)時間和提高查詢的效率。所以,常查資源索引庫主要存儲了查詢問題、分詞得到的查詢概念集、語義擴展得到的擴展查詢概念集、排序優(yōu)化后的檢索結(jié)果、用戶選擇次數(shù)。
5 ?結(jié)束語
教學(xué)資源語義系統(tǒng)是利用本體和Jena模塊技術(shù)實現(xiàn)具有語義的教學(xué)資源管理系統(tǒng),從而解決教學(xué)資源標(biāo)準(zhǔn)不統(tǒng)一的異構(gòu)難以共享或互操作問題和基于關(guān)鍵字匹配檢索技術(shù)的誤檢或漏檢問題。本系統(tǒng)主要通過結(jié)合CELTS元數(shù)據(jù)的教學(xué)資源本體的語義表達、Jena推理機自定義規(guī)則的語義推理擴展、基于課程知識本體的語義相似度計算方法、教學(xué)資源實體信息抽取標(biāo)注的元數(shù)據(jù)文檔,從而提高資源的共享性和檢索的查全率、查準(zhǔn)率。但系統(tǒng)還有問題需要進一步的研究解決,如本體構(gòu)建對開發(fā)者的領(lǐng)域?qū)I(yè)性要求過高和語義相似度的主觀性太強等。
參考文獻
[1] 馮瑤, 馮錫煒. 面向教學(xué)資源查詢的語義相似度和相關(guān)度算法[J]. 計算機應(yīng)用與軟件, 2016, 33(10): 275-278.
[2] 曾維明. 基于領(lǐng)域本體的語義檢索及個性化推薦算法研究[D]. 南京理工大學(xué), 2010.
[3] Kim J Y, Jeong D W, Balk D-K. Ontology-based semantic recommendation system in home network environment[J]. IEEE Transactions on Consumer Electronics, 2009, 55 (3) : 1178-1184.
[4] 王小夢, 郭爽. 數(shù)字教學(xué)資源的語義標(biāo)記系統(tǒng)設(shè)計研究[J]. 中國教育信息化, 2017(13): 40-44.
[5] 黃洋, 宋俊德, 宋美娜, 等. 基于本體與SSH架構(gòu)的異構(gòu)數(shù)據(jù)集成框架的研究[J]. 軟件, 2014, 35(11): 36-41.
[6] 劉欣, 席耀一, 王波, 等. WordNet和詞向量相結(jié)合的句子檢索方法[J]. 信息工程大學(xué)學(xué)報, 2017, 18(04): 486-491.
[7] 崔航, 文繼榮, 李敏強. 基于用戶日志的查詢擴展統(tǒng)計模型[J]. 軟件學(xué)報. 2003(09)
[8] 李衛(wèi)疆, 王勝, 余正濤. 基于深度學(xué)習(xí)的概念語義空間查詢擴展研究[J]. 軟件導(dǎo)刊, 2018, 17(05): 26-30.
[9] 于超, 王璐, 程道文. 基于本體的教育資源語義檢索系統(tǒng)研究[J]. 吉林大學(xué)學(xué)報(信息科學(xué)版), 2018, 36(02): 207- 212.
[10] 教育部教育信息化技術(shù)標(biāo)準(zhǔn)委員會. CELTS-41. 1. 網(wǎng)絡(luò)教育資源建設(shè)技術(shù)規(guī)范[EB/OL]. [2018-04-15]. http://www. celtsc.edu.cn/.