倪政林
(馬鞍山職業(yè)技術(shù)學(xué)院 電子信息系,安徽 馬鞍山 243031)
隨著移動(dòng)互聯(lián)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)信息呈指數(shù)級(jí)、爆炸式增長(zhǎng)[1]-[3]。網(wǎng)絡(luò)信息日益超載及數(shù)據(jù)異構(gòu)性增加,導(dǎo)致利用遺傳算法、協(xié)同過(guò)濾、關(guān)聯(lián)挖掘、K-均值聚類(lèi)算法、神經(jīng)網(wǎng)絡(luò)、遺傳算法、深度學(xué)習(xí)或蟻群算法等技術(shù)進(jìn)行知識(shí)挖掘的效率受到嚴(yán)重的影響。2012年,谷哥公司提出知識(shí)圖譜(Knowledge Graph)的概念并實(shí)現(xiàn)了更智能的搜索引擎,大幅提高了知識(shí)搜索的效率,引起學(xué)術(shù)界和工程界的普遍關(guān)注。之后,知識(shí)圖譜在機(jī)器人聊天、大數(shù)據(jù)挖掘與風(fēng)險(xiǎn)管控、證券投資及數(shù)據(jù)分析、智能醫(yī)療專(zhuān)家系統(tǒng)等領(lǐng)域有著廣泛的研究與應(yīng)用。
現(xiàn)有的知識(shí)圖譜主要利用圖結(jié)構(gòu)及資源描述框架(Resource Description Framework)中的描述邏輯(Description Logic,)規(guī)則進(jìn)行確定性推理獲取知識(shí)[4]—[5],缺乏魯棒性和包容性,致使知識(shí)的查全率受到影響。在某些如教育、藝術(shù)文化等領(lǐng)域,信息、資源具備多元化、異構(gòu)性特點(diǎn),不屬于非真即假的二元邏輯,知識(shí)的查全率會(huì)更低。針對(duì)這一不足,在知識(shí)圖譜的推理中引入模糊理論,通過(guò)補(bǔ)充模糊推理實(shí)現(xiàn)更高的知識(shí)查全率。
知識(shí)圖譜通過(guò)利用知識(shí)工程、圖形學(xué)、信息可視化技術(shù)等相關(guān)技術(shù);采用本體(Ontology)理論對(duì)知識(shí)進(jìn)行形式化規(guī)范定義;使用萬(wàn)維網(wǎng)聯(lián)盟(W3C)的資源描述框架規(guī)范建立多維知識(shí)結(jié)構(gòu)圖。知識(shí)圖譜形式化定義為:G={E,R,S},其中:E為實(shí)體、R為實(shí)體間的關(guān)系、S為實(shí)體集[6]。知識(shí)圖譜是一個(gè)由實(shí)體及實(shí)體間聯(lián)系、實(shí)體及屬性間聯(lián)系組成的多邊關(guān)系圖,關(guān)系圖中的結(jié)點(diǎn)為實(shí)體或?qū)傩浴⑦厼椴煌瑢?shí)體或?qū)嶓w屬性間的關(guān)系。知識(shí)推理方法主要基于描述邏輯推理、基于圖結(jié)構(gòu)推理、基于知識(shí)圖譜向量表示學(xué)習(xí)推理等。
Zadeh(扎德)于1965年首次提出模糊集,之后模糊論得到廣泛的研究與應(yīng)用。模糊理論指利用模糊集合或隸屬度函數(shù)對(duì)事物、信息、過(guò)程等進(jìn)行分類(lèi)、管理、控制及推理的理論。模糊論廣泛應(yīng)用于工業(yè)自動(dòng)控制、軍事、醫(yī)療專(zhuān)家系統(tǒng)及人工智能等領(lǐng)域。模糊推理主要包含模糊判斷句的集合表示與邏輯運(yùn)算、同一論域上的模糊邏輯推理句與推理規(guī)則、不同論域上的模糊推邏輯理句與推理規(guī)則、似然推理與條件推理等。其中,條件語(yǔ)推理包含簡(jiǎn)單分支條件、多分支條件、復(fù)合蘊(yùn)涵(多條件組合)模糊推理[7]等。
設(shè)X為知識(shí)圖譜中的知識(shí)判斷論域,(j)是X上的一個(gè)模糊判斷句,則X的模糊子集J(x)定義為式(1),即:
其中,J為(j)的集合表示;T[j(x)]?[0,1],表示(j)對(duì)x 的真值或依賴(lài)程度。若(j)(x)>0.5,則(j)對(duì)x為模糊真();若(j)(x)≤0.5,則(j)對(duì)x為模糊假();若?x?X且(j)(x)>0.5,則(j)為模糊真();若?x?X且(j)(x)≤0.5,則(j)為模糊假()。
設(shè)X為知識(shí)圖譜中的知識(shí)判斷論域,(j)、(k)是X上的模糊判斷句,則(j)、(k)的邏輯與、或、非運(yùn)算分別定義為式(2)、式(3)、式(4):
設(shè)J為(j)集合、K為(k)集合,則邏輯運(yùn)算 (j)?(k)、(j)? (k)、()的集合運(yùn)算分別表示為:J?K、J?K、KC。
(1)同一論域上的推理
設(shè)X為知識(shí)圖譜中的同一知識(shí)判斷論域,(j)、(k)是X上的模糊判斷句,若(x is j)則(x is k),記為“(j)→(k)”??隙ㄇ凹募傺酝评?、否定后件的假言推理、合成推理規(guī)則分別定義為式(5)、式(6)、式(7):
(2)不同論域上的推理
若(x is j)則(y is k),記為“(j(x))→(k(y))”,(j)的真域J?X,(k)的真域K?Y。不同論域上模糊推理真域?yàn)镽=(J×K)? (JC×Y),其隸屬函數(shù)R(x,y)=(J(x)? K(y))? (1-J(x)),其中R(x,y)為推理句(j(x))→(k(y))對(duì)(x,y)的真值()。不同論域上的推理規(guī)則同本節(jié)第1點(diǎn)類(lèi)似(從略)。
(3)似然推理與條件推理
似然推理是一種變換推理,其定義為:設(shè)R是(j(x))→(k(y))的真域,則R∈F(X×Y),R為從X到Y(jié)的模糊(F)變換關(guān)系,R:F(X)→F(Y),J′|→K′=J′○R,其中K′(y)=(J′○R)(y)=Vx∈X(J′(x)?R(x,y)), ○為F變換關(guān)系的合成運(yùn)算。
簡(jiǎn)單分支條件推理描述為“IF(j)THEN(k)ELSE(l)”,其真域R=(J×K)?(JC×L),隸屬函數(shù)為:R(x,y)=(J(x)? K(y))? (1-J(x)?L(y)),若推理規(guī)則為J′,則似然推理結(jié)果為:K′=J′○R。
多分支條件推理描述為“IF(j1)THEN(k1)ELSE IF(j2)THEN(k2)ELSE …”,其真域 R=(J1×K1)?(J2×K2)?…?(Jn×Kn),隸屬函數(shù)為:R(x,y)=Vni=1(Ji(x)?K(y))。
多條件組合推理描述為“IF (j1)and(k1)THEN(l1)”,其真域R=J1×K1×L1,隸屬函數(shù)為:R(x,y,z)=J1(x)?K1(y)?L1(z)。
知識(shí)圖譜中依據(jù)圖結(jié)點(diǎn)類(lèi)型進(jìn)行的推理過(guò)程可分為橫向推理、縱向推理和混合推理三種。即:(1)橫向推理。由一個(gè)或多個(gè)實(shí)體結(jié)點(diǎn)推理出新實(shí)體知識(shí)的過(guò)程為橫向推理。條件橫向推理過(guò)程分為簡(jiǎn)單分支推理過(guò)程、多分支推理過(guò)程、多條件組合推理過(guò)程。其它橫向推理過(guò)程與條件橫向推理類(lèi)似。(2)縱向推理。如果把橫向推理看作在一維平面中進(jìn)行推理與搜索,縱向推理則是向多維空間中推理與搜索。由一個(gè)或多個(gè)實(shí)體推理出新的實(shí)例或?qū)傩缘闹R(shí)推理過(guò)程為縱向推理。(3)混合推理?;旌贤评磉^(guò)程指既有橫向推理又有縱向推理?;旌贤评磉^(guò)程如圖1所示,其中本體(E)層內(nèi)進(jìn)行橫向?qū)嶓w推理,本體→實(shí)例(I)→屬性(A)或本體→屬性進(jìn)行縱向推理,虛線箭頭表示為似然推理。
圖1 混合推理過(guò)程
3.1.1 在線課程資源知識(shí)圖譜構(gòu)建
在線課程資源主要包括課程實(shí)體(c)及資源實(shí)體(rs),其中c=(課程名,包含/具有,實(shí)例/屬性)、rs=(資源名,具有,類(lèi)型)。在線課程資源元信息主要包含:課程大綱(CB)、學(xué)習(xí)目標(biāo)(TO)、課件(CW)、直播或錄播視頻(L|R)、動(dòng)畫(huà)(AM)、微課(MC)、案例(CS)、素材庫(kù)(ML)、試題集(TS)、名詞術(shù)語(yǔ)(TL)、常見(jiàn)問(wèn)題解答(FQ)、在線討論及記錄(OD)、模擬平臺(tái)或共享軟件(P|S)、參與資源或擴(kuò)展學(xué)習(xí)網(wǎng)址(R|E)。課程本體包含若干課程實(shí)體(ci),一個(gè)ci又包含若干課程實(shí)例(cij),每一cij具有若干類(lèi)型資源,資源本體包含若干資源實(shí)體(rsk),每個(gè)rsk具有若干類(lèi)型資源。
在線課程資源知識(shí)圖譜構(gòu)建過(guò)程主要分四步:數(shù)據(jù)獲取、信息抽取、知識(shí)表達(dá)與融合、知識(shí)獲取。構(gòu)建知識(shí)圖譜的技術(shù)模型如圖2所示,其中知識(shí)獲取的推理結(jié)合了確定性推理與模糊推理。
3.1.2 個(gè)性化特征模型及數(shù)據(jù)挖掘
(1)特征模型
個(gè)性化特征主要包含知識(shí)背景或?qū)W習(xí)基礎(chǔ)、能力、興趣、在線學(xué)習(xí)時(shí)間分配等要素。個(gè)性特征模型向量定義如式(8)所示,其中:xi為第i位學(xué)習(xí)者實(shí)例,各分量分別為基礎(chǔ)背景()、學(xué)習(xí)能力()、興趣特征()、學(xué)習(xí)時(shí)間分配特征(),μi、νi、οi、λi為各分量系數(shù);gij為成績(jī),cij為學(xué)分,pij為績(jī)點(diǎn),ai1-ai4分別為注意力、記憶力、理解創(chuàng)建力、語(yǔ)言表達(dá)力,興趣ni1-ni4分別為文本、視頻、練習(xí)、討論,ti1-ti3分別為平均學(xué)習(xí)時(shí)長(zhǎng)、學(xué)習(xí)時(shí)間日分布、學(xué)習(xí)時(shí)間周分布。
(2)數(shù)據(jù)計(jì)算與挖掘
圖2 知識(shí)圖譜構(gòu)建技術(shù)模型
包含了均分及平均總績(jī)點(diǎn)分量,各分量值的計(jì)算如式(8)中第一列所示。ai1-ai4各項(xiàng)能力值評(píng)估見(jiàn)式(9),其中:k=1~4、avgik為個(gè)人均值、normalik為一般均值。、中各分量值通過(guò)對(duì)瀏覽內(nèi)容、瀏覽時(shí)間等數(shù)值的協(xié)同過(guò)濾挖掘與評(píng)估獲得[8]。
3.2.1 個(gè)性特征值單位化處理與模糊判定推理
個(gè)性學(xué)習(xí)特征不是絕對(duì)的,隨著學(xué)習(xí)環(huán)境、個(gè)人成長(zhǎng)及努力程度會(huì)不斷變化。針對(duì)特征模型挖掘出的各特征值先進(jìn)行單位化數(shù)據(jù)處理,即:若是數(shù)值型則通過(guò)數(shù)學(xué)方法縮放至[0,1];若是非數(shù)值型如時(shí)間日分布和周分布則通過(guò)二項(xiàng)概率分布函數(shù),如式(10)所示,建立概率分布值。對(duì)各分量值進(jìn)行模糊化處理,建立個(gè)性化特征值模糊集,再通過(guò)模糊判定推理建立個(gè)性特征庫(kù)。
3.2.2 知識(shí)查詢過(guò)程
第一步:生成課程實(shí)體及所有實(shí)例資源樹(shù)。
依據(jù)個(gè)性化查詢需求,從知識(shí)圖譜中通過(guò)混合模糊推理過(guò)程抽取出相關(guān)課程實(shí)體及其前導(dǎo)與后續(xù)課程實(shí)例集,以及各實(shí)例包含的資源集,然后生成資源樹(shù)。
第二步:剪枝與防過(guò)渡剪枝。
第三步:生成個(gè)性化資源樹(shù)。
經(jīng)過(guò)第二步剪枝后,如果有多實(shí)例、前導(dǎo)或后續(xù),則分別合并成一個(gè)實(shí)例、前導(dǎo)或后續(xù);如果某個(gè)實(shí)例、前導(dǎo)或后續(xù)結(jié)點(diǎn)含有多個(gè)同類(lèi)資源則只保留質(zhì)量或評(píng)價(jià)最優(yōu)的葉子結(jié)點(diǎn);保留所有不重復(fù)的資源結(jié)點(diǎn),最后生成的個(gè)性化查詢資源樹(shù)。
圖3 剪枝算法
為了驗(yàn)證查全率,設(shè)計(jì)了對(duì)比仿真實(shí)驗(yàn)。實(shí)驗(yàn)環(huán)境為:Intel Core i5-8500、主頻 4GHz、內(nèi)存12GB、操作系統(tǒng)64位 Windows 10、語(yǔ)言為Py?thon3.7和Cypher、數(shù)據(jù)庫(kù)管理系統(tǒng)為Neo4j。
首先設(shè)計(jì)了一個(gè)工商管理專(zhuān)業(yè)的知識(shí)圖譜,其中包含35門(mén)課程及437個(gè)不同種類(lèi)學(xué)習(xí)資源,35門(mén)課程中包含了同類(lèi)不完全同名的課程17門(mén),這些課程間具有前導(dǎo)和后續(xù)聯(lián)系。然后分別輸入“管理基礎(chǔ)”“市場(chǎng)營(yíng)銷(xiāo)”“會(huì)計(jì)基礎(chǔ)”“營(yíng)銷(xiāo)心理學(xué)”進(jìn)行確定性與模糊推理查詢,其結(jié)果如圖4所示。
圖4 兩種推理查詢結(jié)果對(duì)比
從圖4可知,管理基礎(chǔ)、市場(chǎng)營(yíng)銷(xiāo)、會(huì)計(jì)基礎(chǔ)課程的資源數(shù)量在兩種推理查詢下結(jié)果不同,這與模糊推理的應(yīng)用有關(guān),提高了查全率;營(yíng)銷(xiāo)心理學(xué)的課程資源量查詢結(jié)果一樣,由于設(shè)計(jì)實(shí)驗(yàn)的時(shí)候沒(méi)有對(duì)這門(mén)課增加不同名課程,這表明在沒(méi)有多樣化實(shí)例背景下,模糊查詢與確定性查詢的查全率沒(méi)有變化。
本文在介紹知識(shí)圖譜及模糊理論之后,將模糊推理技術(shù)引入知識(shí)圖譜的知識(shí)推理中,重點(diǎn)研究了知識(shí)判斷模糊集與邏輯運(yùn)算、模糊推理規(guī)則及推理過(guò)程,并以網(wǎng)絡(luò)課程學(xué)習(xí)資源為例,較詳細(xì)介紹了課程資源知識(shí)圖譜的構(gòu)建、個(gè)性化特征模型與特征挖掘、個(gè)性化知識(shí)推理查詢及剪枝與防過(guò)度剪枝的算法設(shè)計(jì),最后通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了模糊推理技術(shù)在多元化知識(shí)圖譜中進(jìn)行知識(shí)查詢對(duì)查全率的提高是有貢獻(xiàn)作用。盡管如此,但基于知識(shí)圖譜的模糊推理完備性還有待進(jìn)一步的證明,即在多元異構(gòu)的網(wǎng)絡(luò)環(huán)境中如何評(píng)價(jià)和歸并碎片的學(xué)習(xí)資源、如何在學(xué)生信息大數(shù)據(jù)背景下提高個(gè)性化特征挖掘的準(zhǔn)確性是面臨的主要挑戰(zhàn)。未來(lái),對(duì)知識(shí)圖譜的模糊推理完備性、引入深度學(xué)習(xí)等人工智能技術(shù)對(duì)資源識(shí)別及學(xué)生的個(gè)性化特征挖掘等作進(jìn)一步深入的研究。
安徽職業(yè)技術(shù)學(xué)院學(xué)報(bào)2020年4期