溫 雪
(青島酒店管理職業(yè)技術(shù)學(xué)院 山東 青島 266100)
由于流媒體的興起以及數(shù)字媒體的宣傳工作落實不到位,極易導(dǎo)致數(shù)字媒體的宣傳出現(xiàn)閉環(huán)。在這一過程中,對用戶給予個性化信息的主動推薦,不僅可以幫助用戶發(fā)現(xiàn)社會中更有價值的信息,還可以提高數(shù)字媒體的關(guān)注度[1-2]。本文在已有研究的基礎(chǔ)上,對該系統(tǒng)展開進一步設(shè)計,根據(jù)系統(tǒng)功能需求選擇合適的處理服務(wù)器和個性化的推薦引擎,運用大數(shù)據(jù)和關(guān)聯(lián)規(guī)則采集用戶日常行為數(shù)據(jù),然后根據(jù)用戶的行為習慣來實現(xiàn)數(shù)字媒體主動且精準的推薦,滿足受眾群體對數(shù)字媒體資源的需求,以此解決現(xiàn)有數(shù)字媒體推薦不準確的問題,提高推薦資源與用戶需求之間的匹配度。
為確保開發(fā)的系統(tǒng)在應(yīng)用中具有主動推薦數(shù)字資源的良好性能,應(yīng)在設(shè)計系統(tǒng)功能前,進行系統(tǒng)硬件結(jié)構(gòu)的規(guī)劃[3]。具體設(shè)計見圖1。
從圖1可以看出,本次開發(fā)的系統(tǒng)主要由智能化處理端、數(shù)據(jù)源端、個性化推薦引擎、用戶端等部分構(gòu)成,并且每個終端在系統(tǒng)中發(fā)揮的作用是不同的。例如,智能化處理端主要用于處理網(wǎng)絡(luò)信息,通過網(wǎng)絡(luò)爬蟲技術(shù)獲取用戶信息并進行信息積累,當積累到一定程度后,通過對信息的集中整理,掌握用戶瀏覽數(shù)字媒體的行為習慣、用戶檢索數(shù)字媒體網(wǎng)站的偏好度等核心信息。將處理后的信息通過源端進行傳輸,使用個性化推薦引擎進行深度分析,最終實現(xiàn)為用戶推薦個性化的數(shù)字媒體資源。
在規(guī)劃好本文推薦系統(tǒng)的硬件結(jié)構(gòu)后,為了確保系統(tǒng)穩(wěn)定運行,所以選用ST584-89640型號的處理器,該型號處理服務(wù)器的性能參數(shù)見表1。
表1 ST584-89640型號處理器性能參數(shù)對照表
ST584-89640型號處理器不僅空間占用量小,而且運行狀態(tài)下噪音低,非常適用于本文設(shè)計的推薦系統(tǒng)。ST584-89640型號處理器中的CPU采用G5420雙核四線程3.8 G hz,內(nèi)部含有4個內(nèi)存插槽,并且支持DDR4 ECC/8 GB/16 GB,其中DDR4 ECC內(nèi)存能夠在標準的工作負載下有效降低功耗,提升系統(tǒng)整體能效,實現(xiàn)對更多數(shù)字媒體信息的高效存儲[4]。ST584-89640型號處理器支持機械盤和固態(tài)硬盤的多種選擇,是一種能夠適用于企業(yè)的高容量驅(qū)動裝置,同時在該型號處理器上應(yīng)用RID備份功能,能夠進一步提升本文推薦系統(tǒng)對數(shù)字媒體數(shù)據(jù)讀寫的效率和安全。
為了給不同需求的用戶推薦其合適的信息資源,需要對用戶行為進行分析,并應(yīng)用合適的推薦引擎進行信息推薦。此次選用SN74CBTLV3245ADGVR芯片作為推薦引擎。SN74CBTLV3245ADGVR芯片的導(dǎo)通電阻為7O hms;傳播延遲為250 ps;工作電源電壓為2.3~3.6 V;安裝風格為SMD/SMT;工作溫度范圍在-25~85 ℃之間;封裝/箱體為TVSOP-20;運行中的電源電流最大值為20 μA;位數(shù)為8 bit。將該芯片應(yīng)用到本文推薦系統(tǒng)當中,用于實現(xiàn)本文系統(tǒng)為不同用戶的數(shù)字媒體資源個性化推薦提供分析依據(jù)。將該芯片作為個性化推薦引擎能夠進一步提高推薦系統(tǒng)的運行效率,在保證推薦精度的同時,使系統(tǒng)的運行更具時效性。
軟件部分首先進行用戶瀏覽數(shù)據(jù)的導(dǎo)入,輸入用戶的瀏覽請求,Jena API即可根據(jù)持久化功能,將本體瀏覽信息存儲在系統(tǒng)數(shù)據(jù)庫中,并記錄對應(yīng)的數(shù)據(jù)庫訪問接口,便于后期查詢與檢索。Jena API可以有效構(gòu)建語義網(wǎng)應(yīng)用程序,在Java框架下可以為RDF等提供良好的編程環(huán)境,有利于規(guī)則化推理引擎,而API則可以借助應(yīng)用代碼實現(xiàn)不同機制的轉(zhuǎn)換。根據(jù)用戶數(shù)據(jù)性質(zhì)構(gòu)建不同數(shù)據(jù)集,如member.txt、tiezi.txt、bankui.txt等,用于集合用戶的瀏覽信息。部分用戶瀏覽數(shù)據(jù)導(dǎo)入代碼見圖2。
用戶瀏覽數(shù)據(jù)導(dǎo)入后存儲至數(shù)據(jù)庫中,數(shù)據(jù)庫存儲信息不僅包括數(shù)據(jù)信息,還包括節(jié)點、圖像等信息,因此使用Cypher語言對數(shù)據(jù)庫內(nèi)的待存儲信息進行模式匹配。Cypher可以以一種標識符號給數(shù)據(jù)屬性命名,也可同時執(zhí)行查詢、創(chuàng)建、刪除節(jié)點等指令。數(shù)據(jù)庫內(nèi)數(shù)據(jù)類型見表2。
表2 數(shù)據(jù)庫數(shù)據(jù)類型
為實現(xiàn)對數(shù)字媒體資源的智能化推薦,應(yīng)在完成對該系統(tǒng)硬件結(jié)構(gòu)的設(shè)計后,獲取數(shù)字媒體推薦項目分布信息,掌握數(shù)字媒體資源在網(wǎng)絡(luò)中的分布。并且可以使用大數(shù)據(jù)技術(shù)與關(guān)聯(lián)規(guī)則,進行用戶行為與特征的匹配,建立一個數(shù)字媒體資源推薦的訓(xùn)練樣本,根據(jù)樣本在網(wǎng)絡(luò)空間中的分布,將其表示為(x,y),對應(yīng)的樣本表達式:{(x1,y1) ,(x2,y2),L ,(xn,yn)},將現(xiàn)有資源中,與用戶偏好度較為匹配的數(shù)字媒體資源表示為(xi,yi),用(xi,yi)∈Rn代表資源歷史推薦內(nèi)容[5]。
在此基礎(chǔ)上,根據(jù)數(shù)字媒體資源在網(wǎng)絡(luò)中的空間分布,進行資源的語義重構(gòu),得到一個針對資源的個性化演化目標函數(shù),函數(shù)表達式如下。
公式(1)中:min表示為數(shù)字媒體資源的個性化演化目標函數(shù)表達式;w′表示為資源語義偏好度;b表示為語義重構(gòu)與演化過程。
采用對演化信息進行協(xié)同過濾的方式,進行數(shù)字媒體推薦項目分布信息的關(guān)聯(lián),檢測關(guān)聯(lián)信息的特征,建立一個數(shù)字媒體資源在網(wǎng)絡(luò)中分布的核函數(shù),函數(shù)表達式如下。
公式(2)中:Kmin表示為數(shù)字媒體資源在網(wǎng)絡(luò)中分布的核函數(shù)表達式;β表示為演化分布特征;Kpoly表示為用戶歷史檢索行為特征;Krbf表示為用戶對該資源的下載率[6]。通過提取映射函數(shù)中關(guān)聯(lián)信息,按照關(guān)聯(lián)度進行資源類目輸出,以此實現(xiàn)對數(shù)字媒體推薦項目分布信息的采集。
目前,對用戶行為進行建模的技術(shù)已經(jīng)被應(yīng)用到了市場的各個領(lǐng)域,所獲取的用戶行為信息越多就對用戶行為模型的勾勒越清晰??紤]到用戶個人信息中存在隱私信息,因此無法構(gòu)建與用戶100%匹配的行為模型,只能把基礎(chǔ)數(shù)據(jù)與歷史行為數(shù)據(jù)庫中的場景數(shù)據(jù),作為用戶行為基礎(chǔ)模型的基礎(chǔ)數(shù)據(jù),對不同渠道獲取的用戶行為信息進行匯總。這些數(shù)據(jù)大多為顯性數(shù)據(jù),為了對用戶行為模型刻畫得更加精準,因此建立針對用戶行為的隱性數(shù)據(jù)模型,對數(shù)據(jù)進行單維度表示,表達式如下。
公式(3)中:Siuation表示為用戶行為隱性數(shù)據(jù)模型;Sxn表示為隱性行為特性。集成用戶行為數(shù)據(jù)中的隱性數(shù)據(jù)與顯性數(shù)據(jù),對用戶行為進行畫像,按照此種方式,即可構(gòu)建用戶數(shù)字媒體瀏覽行為模型[7-9]。
對數(shù)字媒體資源主動推薦模塊引進LDA技術(shù),并且采用均值聚類的方式,對用戶進行行為特征與資源的匹配。對匹配度較高的數(shù)據(jù)進行聚類,聯(lián)合信息熵值的分布時間序列,進行數(shù)字媒體資源的主動推薦[10]。計算推薦資源在空間中的聯(lián)合分布概率,函數(shù)計算表達式如下。
公式(4)中:E表示為推薦資源在空間中的聯(lián)合分cv布概率; 表示為推薦信息模糊度; 表示為資源隸屬度;Arec表示為資源與用戶行為的關(guān)聯(lián)度。按照上述計算公式,可以掌握用戶偏好資源與其行為的關(guān)聯(lián)度,根據(jù)兩者的關(guān)聯(lián)度系數(shù),即可實現(xiàn)對媒體資源的主動推薦,當兩者的關(guān)聯(lián)度較低時,根據(jù)資源在網(wǎng)絡(luò)中的分布類目,自動進行下一資源的跳轉(zhuǎn),以此完成基于用戶行為的數(shù)字媒體推薦系統(tǒng)設(shè)計。
為保證實驗測試結(jié)果的真實性與可靠性,此次所選的測試集合為國內(nèi)公開研究的Movie-Lens據(jù)庫中的基準數(shù)據(jù)信息。該數(shù)據(jù)庫中的有效存儲數(shù)據(jù)集合的網(wǎng)絡(luò)資源占比為1.0 M,最早由美國蘇達大學(xué)創(chuàng)立,庫內(nèi)的多個集成性表格中存儲了8 000.0多名數(shù)字媒體用戶信息、上萬條數(shù)字媒體行業(yè)發(fā)布的信息與數(shù)10萬條用戶評價數(shù)據(jù)。其中用戶評價數(shù)據(jù)由一星到五星構(gòu)成。實驗將數(shù)據(jù)庫中的數(shù)據(jù)集合按照數(shù)值稀疏度,劃分為5組,每組數(shù)據(jù)都可以作為此次實驗的測試集合,并將剩余數(shù)據(jù)隨機分組,作為實驗過程中的測試集合與訓(xùn)練集合。
實驗前,將本文設(shè)計系統(tǒng)安裝在Windows10系統(tǒng)中,系統(tǒng)處理器為英特爾R酷睿TMI9-8500處理器。為避免單次輸入量過大對終端設(shè)備運行造成負擔,選擇運行內(nèi)存為8.0 GB的CPU,系統(tǒng)中對應(yīng)軟件程序的編譯環(huán)境為MATLAB T2020AV9.8.0。實驗中,選擇基于Apriori改進算法的推薦系統(tǒng)作為傳統(tǒng)系統(tǒng),對同一批用戶,分別使用兩種系統(tǒng)對其進行資源主動推薦。完成對終端用戶數(shù)字媒體資源的推薦后,使用平均絕對值差進行不同用戶群體的推薦內(nèi)容與需求內(nèi)容匹配度的計算,將絕對值平均誤差表示為MAE,對MAE的計算可用下述公式表示。
公式(5)中:MAE表示為系統(tǒng)推薦內(nèi)容與用戶需求內(nèi)容的匹配度;N表示為用戶行為維度;I表示為參與此次實驗的用戶數(shù)量;P表示為用戶對推薦數(shù)字媒體資源的評價;r表示為數(shù)字媒體資源的社會價值度。按照上述公式,計算MAE的具體結(jié)果,設(shè)定MAE的有效取值在1~10之間,MAE的取值越高,說明系統(tǒng)為用戶推薦的資源與用戶需求匹配度越高,MAE的取值越低,說明系統(tǒng)為用戶推薦的資源與用戶需求匹配度越低。
對系統(tǒng)推薦內(nèi)容與用戶需求內(nèi)容進行匹配,將匹配的結(jié)果繪制成圖3。
由圖3可知,本文系統(tǒng)為用戶推薦的數(shù)字媒體資源與用戶需求的匹配度明顯高于傳統(tǒng)系統(tǒng)。由此可以得出實驗結(jié)論:相比傳統(tǒng)系統(tǒng),本文設(shè)計的推薦系統(tǒng)可以為用戶推薦其個人需求的資源,為數(shù)字媒體網(wǎng)站保有更多的用戶。
現(xiàn)代化社會中,數(shù)字化技術(shù)與多媒體技術(shù)高速發(fā)展,信息資源以碎片化方式呈現(xiàn)在網(wǎng)絡(luò)中,越來越多的用戶開始通過互聯(lián)網(wǎng)獲取信息。為了給我國數(shù)字媒體行業(yè)的發(fā)展提供進一步的支撐,本文在完成了對系統(tǒng)硬件設(shè)備的規(guī)劃與部署后,從數(shù)字媒體推薦項目分布信息獲取、建立用戶數(shù)字媒體瀏覽行為模型、基于LDA技術(shù)的數(shù)字媒體資源主動推薦3個方面,對基于用戶行為的數(shù)字媒體推薦系統(tǒng)的軟件功能進行了優(yōu)化。并通過對比實驗證明了此次開發(fā)的系統(tǒng)在實際應(yīng)用中具有一定可行性,可以代替?zhèn)鹘y(tǒng)的推薦系統(tǒng)在數(shù)字媒體行業(yè)中的推廣應(yīng)用。