李冬
(商丘職業(yè)技術(shù)學(xué)院,河南 商丘 476001)
隨著現(xiàn)代信息技術(shù)的高速發(fā)展,智能化、數(shù)字化技術(shù)相關(guān)應(yīng)用在人們學(xué)習、生活中大量普及,數(shù)字圖書資源在這一時代背景中迅猛發(fā)展,面對豐富多樣的數(shù)字圖書資源,提高讀者粘合度、滿意度,是數(shù)字圖書保持發(fā)展活力的關(guān)鍵;挖掘讀者的隱性偏好,根據(jù)其個性化的需求,通過智能化信息過濾技術(shù)為其推薦相關(guān)資源,是提高數(shù)字圖書服務(wù)效率和質(zhì)量重要舉措。
基于各種算法建立起來的數(shù)字圖書推薦系統(tǒng)是根據(jù)讀者的個人偏好,提供差異化圖書推薦的有效方法,算法是推薦系統(tǒng)高效、準確運行的基礎(chǔ)和關(guān)鍵。基于數(shù)字圖書內(nèi)容的協(xié)同過濾算法推薦給讀者的圖書準確率較好,基于讀者評分推薦算法推薦的圖書質(zhì)量較高,但這些都難以挖掘讀者潛在的、隱性的圖書偏好,推薦結(jié)果難以滿足讀者更廣泛的閱讀需求。關(guān)聯(lián)語義鏈網(wǎng)絡(luò)能夠有效的組織web上松散的數(shù)字圖書資源,結(jié)合協(xié)同過濾算法,構(gòu)造能夠挖掘讀者隱性圖書偏好的推薦系統(tǒng),以達到向讀者更好的推薦數(shù)字圖書的目的。
挖掘讀者的隱性偏好需要將讀者深層次的圖書需求與相關(guān)信息產(chǎn)生關(guān)聯(lián),語義化能夠有效揭示資源之間的關(guān)系,進而提供高層次的自動化、智能化的信息處理服務(wù)。
語義化是一種知識組織的抽象方法,是在資源中建立有針對性的、適宜的語義標簽,通過資源語義標簽的內(nèi)容反映出特定資源的語義特征,從而在一定程度上實現(xiàn)計算機對特定資源特征與內(nèi)容的理解和掌控[1]。
語義關(guān)聯(lián)是指將所有與讀者需求相關(guān)的信息通過一定的規(guī)則進行關(guān)聯(lián),建立數(shù)字圖書資源間的語義聯(lián)系,推薦系統(tǒng)通過算法將關(guān)聯(lián)信息進行過濾和處理,智能化的給出推薦結(jié)果。
關(guān)聯(lián)語義鏈網(wǎng)絡(luò)是一種對網(wǎng)絡(luò)資源進行管理的數(shù)據(jù)模型,可以將具有語義關(guān)系的、松散的語義節(jié)點鏈接起來,語義節(jié)點包含圖片、文字等資源[2]。
本文采用支持度公式(1)與置信度公式(2)的關(guān)聯(lián)規(guī)則篩選方法,公式(1)、(2)如下:
其中,N(ki)為ki出現(xiàn)的次數(shù),N(kikj)為ki和kj共同出現(xiàn)的次數(shù)。這里將語義元素作為關(guān)鍵詞,置信度為規(guī)則的權(quán)值。
關(guān)聯(lián)語義鏈算法構(gòu)造首先通過語義節(jié)點計算語義向量和規(guī)則,找出關(guān)鍵詞;然后計算出兩個語義節(jié)點的關(guān)系語義鏈權(quán)值;然后將語義規(guī)則與語義向量做“與”操作,得出語義節(jié)點之間的權(quán)值,重復(fù)計算,直到構(gòu)造完成[3]。
通過公式(3)計算關(guān)聯(lián)語義鏈值,并將結(jié)果作為權(quán)重,語義鏈值在(0,1)之間。其中(ki→kj)ki和kj為之間的鏈接權(quán)值,(ki→kj)為所有語義節(jié)點語義鏈值的和。
根據(jù)數(shù)據(jù)庫中數(shù)字資源之間的語義節(jié)點關(guān)鍵詞,通過置信度、關(guān)聯(lián)規(guī)則計算,最后計算得出關(guān)聯(lián)語義鏈接權(quán)值,與協(xié)同過濾(Collaborative Filtering,CF)[4]算法相結(jié)合,構(gòu)造能夠挖掘讀者隱性圖書偏好的推薦算法,算法模型如圖1所示:
圖1 本文算法推薦模型
數(shù)字圖書數(shù)據(jù)庫收錄了讀者ID、性別、年齡、專業(yè)以及數(shù)字圖書ID、名稱、作者、出版社、圖書簡介、讀者評論、評分等,并建立數(shù)據(jù)庫;通過數(shù)據(jù)庫收集的讀者信息及相關(guān)數(shù)字資源數(shù)據(jù),進行項目相似性計算,同時根據(jù)數(shù)據(jù)庫中數(shù)字資源之間的語義節(jié)點關(guān)鍵詞,計算得出關(guān)聯(lián)語義鏈接權(quán)值,運用公式(4)[5]計算得分,進行用戶推薦。
(1)關(guān)聯(lián)語義鏈鏈接權(quán)值計算
使用漢語詞法分析系統(tǒng)[6]將圖書數(shù)字資源進行分詞、停用詞過濾,篩選和統(tǒng)計保留下來的詞名,得到關(guān)鍵詞,運用上文提到的公式(3),計算關(guān)聯(lián)語義鏈鏈接權(quán)值,操作如下:
計算數(shù)字圖書資源之間的鏈接權(quán)值Wu;
(2)相似性計算
最近鄰方法可以對一個不知類別的樣本找出最相似的近鄰用戶進行分類,相似性計算是基于讀者評分,建立用戶評分矩陣,找出與目標用戶相似的用戶群體,相似性計算的精準度決定著圖書推薦質(zhì)量,通過Pear-son相似度公式計算,將數(shù)字圖書資源之間的鏈接權(quán)值Wu加入公式中,如公式(5)所示,ru為讀者對圖書資源評分的平均值,U(i)、U(j)分別為數(shù)字圖書資源i、j評分的讀者合集,操作如下:
(3)數(shù)字圖書推薦
圖書推薦通過鄰居集對圖書的評分,通過平均加權(quán)法,運用上文公式(5)來預(yù)測目標用戶u對圖書i的評分,進而產(chǎn)生推薦。
本文采用商丘職業(yè)技術(shù)學(xué)院圖書館數(shù)字圖書資源庫中的數(shù)據(jù)集開展實驗,從數(shù)字圖書資源庫中計算機、經(jīng)濟、政治、建筑等學(xué)科中選取100本數(shù)字圖書信息作為數(shù)據(jù)來源,請商丘職業(yè)技術(shù)學(xué)院不同專業(yè)、不同年級本、??粕?00人對圖書進行評分,收回有效評分9882條,無評分記錄或評分偏離有效評分范圍視為無效評分。圖書資源庫提供的數(shù)據(jù)信息包括數(shù)字圖書名稱、簡介等,包含了圖書的關(guān)鍵詞和簡要介紹,利用關(guān)鍵詞可以建立起圖書之間的關(guān)聯(lián)網(wǎng)絡(luò),在此基礎(chǔ)上,根據(jù)相關(guān)數(shù)據(jù)進行訓(xùn)練和實驗檢驗。
平均絕對偏差MAE(Mean Absolute Error)體現(xiàn)預(yù)測評分與真實評分之間的偏差平均值,計算公式如式(6·)所示:
公式中,n為讀者數(shù)量,Pi為預(yù)測讀者評分集合{P1,P2,…,PN},ri為實際讀者評分集合{r1,r2,…,rN},計算出的MAE值越小,誤差越小,推薦效果越好。
該實驗驗證本文提出的基于關(guān)聯(lián)語義鏈的數(shù)字圖書推薦性能,實驗設(shè)定樣本間隔數(shù)為20,鄰居數(shù)為10,通過計算Top-N推薦結(jié)果與協(xié)同過濾算法CF進行對比,得出的MAE值如圖2所示,圖中為不同樣本數(shù)20-320個運行結(jié)果,實驗考慮了數(shù)據(jù)稀疏性對實驗結(jié)果的影響。
圖2 樣本個數(shù)對應(yīng)模型的MAE
實驗表明,基于關(guān)聯(lián)語義鏈的數(shù)字圖書推薦方法與協(xié)同過濾CF算法相比較,MAE值均最小,表明本文提出的數(shù)字圖書推薦方法的有效性,隨著已知評分數(shù)據(jù)源的增加,MAE值不斷下降,預(yù)測質(zhì)量也越高,實驗證明了該方法能夠有效挖掘讀者圖書隱性偏好,在一定程度上提高了數(shù)字圖書的推薦性能,獲得了較好的推薦效果。
挖掘讀者隱性圖書偏好,從海量的數(shù)字圖書資源中向讀者有效推薦具有重要意義。本文通過對語義化、語義關(guān)聯(lián)、關(guān)聯(lián)語義鏈的介紹,闡明了關(guān)聯(lián)語義鏈在圖書信息鏈接中的作用,結(jié)合協(xié)同過濾算法,給出了基于關(guān)聯(lián)語義鏈的數(shù)字圖書推薦方法,通過實驗驗證了該方法與協(xié)同過濾算法相比較,MAE值均最小,表明該方法優(yōu)于協(xié)同過濾CF算法,具有更好的數(shù)字圖書推薦性能。