李冬
(商丘職業(yè)技術學院,河南 商丘 476001)
伴隨著信息技術的高速發(fā)展,數(shù)字媒體技術日新月異,大量的數(shù)字資源的誕生和普及,對數(shù)字資源服務也提出越來越高的要求,如何從海量的數(shù)字圖書中,根據(jù)相關的數(shù)據(jù)信息,為讀者提供高質量、差異化、個性化的圖書推薦愈發(fā)重要。提高圖書推薦的效率和準確率,提高讀者的滿意度、粘合度是各種數(shù)字圖書平臺努力的目標和方向。
基于各種算法建立起來的數(shù)字圖書推薦系統(tǒng)是根據(jù)讀者的個人偏好,提供差異化圖書推薦的有效方法。算法是推薦系統(tǒng)高效、準確運行的基礎和關鍵,目前推薦系統(tǒng)常用的算法有基于內容的推薦算法、基于知識的推薦算法、基于關聯(lián)規(guī)則的推薦算法、基于協(xié)同過濾推薦算法以及基于模型的各類推薦算法[1]。以這些算法建立起來的推薦系統(tǒng)通過對用戶歷史行為數(shù)據(jù)的分析,得出用戶的真實需求,向用戶推薦相關的產品及信息,隨著正反饋結果的不斷提高,加強了用戶和平臺間的緊密度,實現(xiàn)用戶鏈式反應增值,這些推薦系統(tǒng)在電子商務、音視頻推薦、新聞、圖書等很多領域已經取得的廣泛的應用,產生了很好的經濟效益和社會效益。
數(shù)字圖書和普通圖書相比在數(shù)據(jù)信息和數(shù)據(jù)質量上更加的豐富和準確,讀者對數(shù)字圖書的評價可以更加的便捷、有效,數(shù)字圖書的名稱、簡介、評論、作者、出版社、出版時間、上線時間、搜索量、瀏覽頻次、頁面停留時間等因素都可能會影響讀者的興趣偏好?;谀骋惶卣鹘⑵饋淼耐扑]系統(tǒng),在一定程度上欠缺了對其它影響因素的考慮,在推薦的有效性上略顯不足。因此,本文提出一種融合數(shù)字圖書多項特征的推薦算法,并以此為基礎建立推薦模型。
通過對多個數(shù)字圖書管理系統(tǒng)中的數(shù)據(jù)研究發(fā)現(xiàn),數(shù)字圖書的數(shù)據(jù)屬性主要有名稱、簡介、評論、作者、出版社、出版時間、讀者信息、圖書評分等等。找到合適的方法,融合這些數(shù)據(jù),以此為基礎構建數(shù)字圖書的推薦方法,下面介紹各種數(shù)據(jù)特征的處理和模型構建。
數(shù)字圖書簡介信息主要采用文本展示,基于卷積神經網絡CNN 在文字識別中表現(xiàn)出較好的識別效果,并且對于未知樣本的類標號也具有較好的預測性,本文采用卷積矩陣分解ConvMF 的算法,對數(shù)字圖書簡介信息進行處理,得到數(shù)字圖書預測評分矩陣P1。
忽略標點符號、空格等無效信息,通過Word2Vec模型計算得到數(shù)字圖書簡介信息的詞向量矩陣,輸入CNN 中。每條數(shù)字圖書的最大簡介信息單詞數(shù)為max_lenth=300,超出單詞直接截斷。所有數(shù)字圖書簡介信息單詞形成序列L,基于數(shù)據(jù)庫中數(shù)據(jù)大小的考慮,選取出現(xiàn)最多的前2 000個單詞組成列表Vs,用UNK 對應的詞向量表示僅在L 中出現(xiàn)的單詞。數(shù)字圖書簡介信息組成m × n矩陣,m為簡介信息的單詞序列,n為每個單詞向量維度;如若卷積神經網絡輸出的數(shù)字圖書分類類別為未知,則視未知類別數(shù)字圖書特征向量為V1。
定義讀者數(shù)量為M,數(shù)字圖書數(shù)量為N,Ui表示讀者特征向量,Vj表示數(shù)字圖書特征向量,Rij表示讀者i對數(shù)字圖書j的評分,W為卷積神經網絡中的權重向量,Wk為第k列元素,ε表示讀者整體評分矩陣R與讀者、數(shù)字圖書的特征向量內積之差的方差,εu、εv、εw分別為讀者特征向量矩陣U、數(shù)字圖書特征矩陣V和卷積神經網絡中內部權重W的方差。結合公式(1),利用隨即梯度下降法求解U和V。
卷積矩陣分解算法中引入概率模型優(yōu)化矩陣分解,利用已知數(shù)據(jù)預測評分矩陣中的未知值,將上文得到數(shù)字圖書特征向量V1與矩陣概率分解相結合,能很好地預測讀者對數(shù)字圖書的預測評分P1,P1的取值在[0,5]之間。
讀者對數(shù)字圖書的評論會用許多帶有感情色彩的詞匯,這些詞匯也是讀者對圖書喜愛程度的表達,對圖書推薦具有重要的參考價值。因此,對這些圖書評論中詞匯進行量化處理,得到讀者對數(shù)字圖書的預測評分矩陣P2。
用AFINN 情感詞典對圖書評論中的情感詞匯進行量化,每一個關鍵性詞匯對應一個情感分值,取值范圍在[-5,5]之間,經過處理計算可以得到每條評論的總情感分值[2]。利用Python 自然語言工具包對評論語言進行分詞,并根據(jù)Natural Language Toolkit 中的停用詞表,進行停用詞過濾,建立結構化的評論數(shù)據(jù)[3]。
AFINN 情感取值介于[-5,5]之間,因此可以將正向積極的評論取值為(0,5],負向消極的評論取值為(0,-5],中性評價取值為0,利用公式(2)計算得出總的情感分值。
其中,Qui=(w1,w2,…,wj),Qui表示讀者u對數(shù)字圖書i的結構化評論;wj是第j個單詞或詞匯;W(wj) 是每個單詞或詞匯的情感分值;K為AFINN中的詞匯。
利用公式(3)對G(Qui) 所得結果進行泛化處理,使其結果取值在[0,5]之間,x∈[-5,5],y∈[0,5],得到讀者評論的圖書預測評分矩陣P2。
半個多世紀以來,超高速碰撞不僅在極端條件下的物性與高壓狀態(tài)方程、高溫高壓高應變率下材料動態(tài)響應特性、材料科學、生命起源、行星與地球物理等基礎學科研究中發(fā)揮了重要作用,而且推動了常規(guī)武器與核武器武器物理、慣性約束聚變(ICF)、核反應堆安全防護設計、航天器空間碎片防護、反彈道導彈、輕質裝甲設計、飛機和車輛受撞擊時乘員與貨物的安全防護等工程應用研究的快速發(fā)展。本文在概要介紹超高速碰撞現(xiàn)象及其關鍵科學問題的基礎上,評述了超高速碰撞應用于航天器空間碎片防護、小行星撞擊地球防御研究的若干近期進展, 展望了研究發(fā)展趨勢。
作者、出版社對于數(shù)字圖書的評分也有著較高的影響力,因此將其作為影響圖書最終預測評分的影響因子,賦予一定的權重。
最近鄰方法KNN 可以對一個不知類別的樣本找出最相似的近鄰用戶進行分類,采用此方法求出近鄰讀者對作者ds所有數(shù)字圖書的評分均值,以及近鄰讀者對出版社eo所有數(shù)字圖書的評分均值,利用公式(4)計算出其均值,作為作者、出版社共同影響下,讀者對數(shù)字圖書i綜合評分為P(i)dseo,表示作者為ds,出版社為eo,讀者對圖書i的綜合評分。
根據(jù)P(i)dseo得出的結果,利用公式(5)可以構建讀者u對圖書i的評分預測矩陣P3,P′(ui)為讀者u對圖書i的評分。
基于讀者、圖書、圖書評分矩陣,通過協(xié)同過濾技術進行圖書推薦已相對成熟,無需對數(shù)據(jù)再進行特別的處理。根據(jù)數(shù)據(jù)源D=(U,I,R),結合協(xié)同過濾算法,利用余弦相似度計算,可以得到目標讀者對圖書的預測評分矩陣P4,其中U={User1,User2,…,Useri}為讀者樣本集合,I={Item1,Item2,…,Itemj}為數(shù)字圖書樣本集合,R為i × j階矩陣,是已有讀者對各數(shù)字圖書的實際評分矩陣。
根據(jù)多特征數(shù)字圖書的數(shù)據(jù)處理,重點研究了圖書簡介信息、圖書評論、圖書作者和出版社以及圖書的評分等影響因子,以此為基礎分別構建了讀者對數(shù)字圖書的預測評分矩陣P1、P2、P3、P4,將每個影響因子賦予一定的權重,利用公式(6)融合計算,作為最終預測評分Pui。
其中,α、β、γ、δ為不同預測評分矩陣相應的權重,并且α+β+γ+δ=1,通過問卷調查的方式獲取圖書簡介信息、圖書評論、圖書作者和出版社以及圖書的評分等因素對讀者選擇圖書的直觀影響程度,根據(jù)問卷結果,設定α、β、γ、δ的初始值,不斷調整權重,對不同的權重組合進行比較,取最小的MAE值所對應的α、β、γ、δ值作為公式中的權重值。
Pui為讀者u對圖書i綜合多特征的預測評分,根據(jù)前文所述,P1為讀者u根據(jù)圖書簡介信息對圖書i的預測評分;P2為讀者u根據(jù)圖書評論對圖書i的預測評分;P3為讀者u根據(jù)圖書作者和出版社對圖書i的預測評分;P4為讀者u根據(jù)圖書的評分對圖書i的預測評分,P1,P2,P3,P4∈[0,5]。根據(jù)已經確定的α、β、γ、δ權重值分別賦予P1、P2、P3、P4,αP1+βP2+γP3+δP4所得結果即為Pui,得到目標讀者對未選擇圖書的綜合預測評分后,根據(jù)評分由高到底排序,將評分最高的前k個圖書推薦給該讀者。
平均絕對偏差MAE(Mean Absolute Error)體現(xiàn)預測評分與真實評分之間的偏差平均值,計算公式如式(7)所示:
其中,n為讀者數(shù)量;Pi為預測讀者評分集合{p1,p2,…,pN};ri為實際讀者評分集合{r1,r2,…,rN};計算出的MAE值越小,誤差越小,推薦效果越好。
首先進行權重調整實驗,獲得最佳的權重組合對數(shù)字圖書的評分矩陣P1、P2、P3、P4權重賦值,然后驗證融合多特征數(shù)字圖書推薦性能。
3.3.1 權重調整實驗
權重α、β、γ、δ取值組合范圍較大,通過對50位讀者直觀感受和實際經驗進行的問卷調查顯示,數(shù)字圖書簡介信息、讀者評論、評分對其選擇圖書的影響較大,因此可以假定數(shù)字圖書簡介信息、讀者評論、評分對圖書推薦結果的影響較大,作者、出版社對圖書推薦結果的影響較小,設置初始值α=0.3,β=0.3、γ=0.3、δ=0.1,不斷調整權重進行測試。鄰居數(shù)N在10-50 之間取值,當N取值30時,不同權重對應的MAE值見表1。
表1 N=30時不同權重對應MAE值Tab.1 N=30,Different weights correspond to MAE values
實驗結果如圖1 所示,權重編號為4、12、19時MAE值較小,采用權重編號4 所對應的權重,取值α=0.2、β=0.3、γ=0.1、δ=0.4 進行后續(xù)的數(shù)字圖書推薦實驗。
圖1 N=30時不同權重編號對應的MAE值Fig.1 N=30,Different weights serial number correspond to MAE values
3.3.2 融合多特征數(shù)字圖書推薦性能實驗
該實驗驗證本文提出的融合多特征數(shù)字圖書推薦性能,用協(xié)同過濾算法CF 與本文提出的方法進行對比,比較平均絕對偏差MAE值。協(xié)同過濾算法CF 得到的預測評分矩陣就是目標讀者對圖書的預測評分矩陣P4,得出的MAE值如圖2 所示。
圖2 最近鄰居數(shù)變化時對應的MAE值Fig.2 MAE values of nearest neighbors’ number changes
實驗表明,融合多特征數(shù)字圖書推薦方法與協(xié)同過濾CF 算法相比較,MAE值均最小,表明本文提出的數(shù)字圖書推薦方法的有效性,該方法在一定程度上提高了數(shù)字圖書的推薦性能,獲得了較好的推薦效果。
數(shù)字圖書具有多特征屬性,隨著現(xiàn)代信息技術的發(fā)展,數(shù)字圖書特征數(shù)據(jù)已經極大的豐富,這為融合多特征數(shù)字圖書推薦奠定了基礎。本文通過對數(shù)字圖書特征的分析,考慮圖書簡介、讀者評論、作者、出版社、讀者評分等多種影響因素,分別對圖書評分進行預測,對預測結果加權融合,賦予一定的權重,以此提高圖書的推薦性能。通過實驗證明該方法優(yōu)于協(xié)同過濾CF 算法,具有更好的數(shù)字圖書推薦性能。