中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)08-0111-06
Abstract: With the popularity of intermet music services,how to accurately recommend music for users has become an importantresearch topic.This paperaimsattheshortcomingsof theexistingmusicrecommendationsystemindealingwith problemssuchascold-startanddatasparsity.AmusicrecommendationalgorithmbasedonNon-NegativeMatrixFactorization (NMF) is proposedThe studyusesadataset fromacolaborationproject with NetEaseCloud Music,whichcontains more than 57 millon music interactionrecordsofmore than2millonusers.Byintroducinguserbehavior weightsandsparseconstraints, weighted NMFand sparse NMF models are constructed respectively.The experimental results show that the weighted NMF performs best when dealing with high-frequency interactive users,and the F1 score reaches .The sparse NMF has more advantages in dealing withcold-start users.Forusers with fewer than1O interactions,therecommendation accuracy is 1 5 % higher than that of the basic NMF.The research results provide new solutions for the optimization of the music recommendation system.
Keywords:Machine Learning; music recommendation model; NMl
0 引言
隨著互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展,數(shù)字音樂產(chǎn)業(yè)得到了迅猛擴(kuò)展。用戶通過流媒體平臺(tái)能夠隨時(shí)隨地獲取數(shù)百萬首歌曲的服務(wù)。然而,隨著音樂庫規(guī)模的增加,用戶面臨的信息過載問題日益嚴(yán)重,如何為用戶推薦其可能感興趣的音樂成為一個(gè)重要的研究課題[]。推薦系統(tǒng)作為解決此類信息過載問題的核心技術(shù),已經(jīng)在電子商務(wù)、電影、新聞等多個(gè)領(lǐng)域得到了廣泛應(yīng)用[2]。
本研究的主要目標(biāo)是通過研究基于用戶行為數(shù)據(jù)的NMF算法,探討其在音樂推薦系統(tǒng)中的應(yīng)用效果。通過對(duì)比加權(quán)NMF和稀疏NMF兩種算法的性能,揭示它們?cè)谔幚聿煌脩粜袨閿?shù)據(jù)時(shí)的適用場(chǎng)景和優(yōu)勢(shì),旨在為提升音樂推薦系統(tǒng)的精度與個(gè)性化提供有效的解決方案[3]。
1文獻(xiàn)綜述
推薦系統(tǒng)自20世紀(jì)90年代以來,逐漸發(fā)展成為解決信息過載問題的核心技術(shù)。最早的推薦系統(tǒng)主要基于內(nèi)容過濾(Content-based Filtering)[4],然而,內(nèi)容過濾在處理冷啟動(dòng)和數(shù)據(jù)稀疏性問題上存在一定的局限性[5]。為了克服這些問題,協(xié)同過濾(CollaborativeFiltering)逐漸成為主流方法之一,主要分為基于用戶的協(xié)同過濾和基于項(xiàng)目的協(xié)同過濾[7]。近年來,基于深度學(xué)習(xí)的推薦系統(tǒng)也逐漸嶄露頭角,通過結(jié)合神經(jīng)網(wǎng)絡(luò)和矩陣分解,進(jìn)一步提高了推薦精度[8]。
在音樂推薦領(lǐng)域,非負(fù)矩陣分解(NMF)已被證明能夠有效處理用戶的隱式反饋數(shù)據(jù),如點(diǎn)擊、收藏、播放行為等。傳統(tǒng)的奇異值分解(SVD)盡管能夠有效分解用戶和物品的交互矩陣,但由于分解結(jié)果中存在負(fù)值,導(dǎo)致結(jié)果的可解釋性較差[]。Hu等人提出了基于NMF的隱式反饋矩陣分解方法,通過引入置信度參數(shù)來處理用戶隱式行為的不同權(quán)重,從而提高推薦精度[1]。NMF強(qiáng)制分解矩陣中的元素為非負(fù)值,保證了結(jié)果的可解釋性,從而在推薦系統(tǒng)中得到了更廣泛的應(yīng)用。此外,NMF通過提取用戶和物品的隱含特征,能夠處理更復(fù)雜的用戶行為數(shù)據(jù),如用戶的隱式反饋[12]。
盡管NMF在推薦系統(tǒng)中取得了良好的效果,但其在處理稀疏性和冷啟動(dòng)問題上仍存在一定局限性。研究人員提出了多種改進(jìn)模型,如加權(quán)NMF和稀疏NMF,以適應(yīng)不同的推薦場(chǎng)景。加權(quán)NMF通過對(duì)用戶行為數(shù)據(jù)賦予不同的權(quán)重,增強(qiáng)了模型對(duì)關(guān)鍵行為的捕捉能力[13]。稀疏NMF 則通過引入L1正則化項(xiàng),控制分解矩陣的稀疏性,在處理維度高、數(shù)據(jù)稀疏性強(qiáng)的數(shù)據(jù)集時(shí)表現(xiàn)出色[14]。近年來,結(jié)合加權(quán)NMF和稀疏NMF的方法逐漸受到關(guān)注。這些方法在保證稀疏性的同時(shí),對(duì)用戶行為數(shù)據(jù)進(jìn)行加權(quán)處理,從而提高推薦精度和結(jié)果的可解釋性。
2 研究方法與設(shè)計(jì)
本章詳細(xì)介紹了研究的整體方法論設(shè)計(jì)、數(shù)據(jù)處理過程以及模型構(gòu)建方案,為實(shí)現(xiàn)音樂推薦系統(tǒng)的優(yōu)化奠定了理論和技術(shù)基礎(chǔ)。
2.1 研究方法概述
本研究采用定量分析方法,以非負(fù)矩陣分解(NMF)為基礎(chǔ)構(gòu)建音樂推薦系統(tǒng)。研究重點(diǎn)關(guān)注兩種改進(jìn)的NMF模型:加權(quán)NMF和稀疏NMF。這兩種模型分別針對(duì)用戶行為權(quán)重差異化和數(shù)據(jù)稀疏性問題進(jìn)行了優(yōu)化,通過系統(tǒng)的對(duì)比分析驗(yàn)證了其在提升推薦系統(tǒng)準(zhǔn)確性和個(gè)性化程度方面的效果。
遵循數(shù)據(jù)完整性、特征顯著性、模型可解釋性和實(shí)驗(yàn)可重復(fù)性四項(xiàng)原則,確保研究的科學(xué)性和可靠性。本研究采用“數(shù)據(jù)收集一預(yù)處理一建模一驗(yàn)證一優(yōu)化”的技術(shù)路線,如圖1所示。
數(shù)據(jù)收集→數(shù)據(jù)預(yù)處理→模型構(gòu)建 模型驗(yàn)證 模型優(yōu)化
2.2 數(shù)據(jù)集介紹與描述
在開展具體的模型研究之前,首先需要對(duì)研究所使用的數(shù)據(jù)集進(jìn)行全面的了解和分析,以確保后續(xù)建模的科學(xué)性和可靠性。
2.2.1數(shù)據(jù)來源與基本情況
本研究所使用的數(shù)據(jù)集來源于INFORMS與網(wǎng)易云音樂的合作項(xiàng)目,具有全面且豐富的數(shù)據(jù)特征。在時(shí)間維度上,數(shù)據(jù)收集覆蓋了2019年11月1日至30日的完整月度周期,保證了數(shù)據(jù)的時(shí)間連續(xù)性和完整性。在用戶規(guī)模方面,數(shù)據(jù)集包含了2085533名活躍用戶的行為記錄,涵蓋范圍廣泛且具有代表性。數(shù)據(jù)總量達(dá)到5700多萬條音樂內(nèi)容卡片的展示記錄,包括點(diǎn)擊、點(diǎn)贊、收藏、分享等多種用戶行為類型。
每條數(shù)據(jù)記錄都包含用戶ID、音樂ID、行為類型、時(shí)間戳等完整信息。經(jīng)過初步清洗后,已去除明顯異常和重復(fù)數(shù)據(jù),確保了數(shù)據(jù)質(zhì)量的可靠性。數(shù)據(jù)集中各類用戶行為的具體分布情況如表1所示,這種多樣化的行為數(shù)據(jù)為后續(xù)的特征工程和模型構(gòu)建提供了堅(jiān)實(shí)的基礎(chǔ)。
2.2.2 數(shù)據(jù)特征分析
通過深入分析,發(fā)現(xiàn)數(shù)據(jù)集包含三類主要特征,分別從不同角度描述用戶的行為模式。在用戶基礎(chǔ)特征方面,包含了用戶的人口統(tǒng)計(jì)學(xué)特征(如年齡段、性別等)、用戶的注冊(cè)信息(如注冊(cè)時(shí)長(zhǎng)、賬號(hào)狀態(tài)等),以及反映用戶活躍程度的指標(biāo)(如月均訪問頻次、使用時(shí)長(zhǎng)等)。這些基礎(chǔ)特征為理解用戶的基本屬性提供了重要參考。
在內(nèi)容交互特征方面,收集了用戶的顯式反饋(如評(píng)分、評(píng)論等)、隱式反饋(如播放時(shí)長(zhǎng)、跳過次數(shù)等),以及社交行為(如分享、推薦等)。這些交互特征直接反映了用戶對(duì)音樂內(nèi)容的偏好和興趣程度。在時(shí)序特征方面,關(guān)注用戶的行為時(shí)間分布(包括每日、每周的活躍模式)、行為的連續(xù)性指標(biāo)(如訪問間隔、行為序列等),以及時(shí)間衰減特征(體現(xiàn)近期行為的權(quán)重)。
通過對(duì)數(shù)據(jù)的初步分析,發(fā)現(xiàn)了幾個(gè)重要的特征規(guī)律:首先,用戶行為呈現(xiàn)明顯的長(zhǎng)尾分布特征,如圖2所示;其次,不同類型的用戶行為之間存在顯著的相關(guān)性;第三,用戶的活躍度與其行為的多樣性呈現(xiàn)正相關(guān)關(guān)系;最后,時(shí)間特征對(duì)于預(yù)測(cè)用戶興趣具有重要影響。這些發(fā)現(xiàn)為后續(xù)的模型設(shè)計(jì)提供了重要的指導(dǎo)。
2.3數(shù)據(jù)預(yù)處理與特征工程
基于對(duì)數(shù)據(jù)集的深入理解,本研究設(shè)計(jì)了系統(tǒng)的數(shù)據(jù)預(yù)處理流程和特征工程方案,以提升數(shù)據(jù)質(zhì)量并構(gòu)建有效的特征表示。
2.3.1 數(shù)據(jù)預(yù)處理方法
數(shù)據(jù)預(yù)處理主要包括以下幾個(gè)步驟:本研究采用了多階段的數(shù)據(jù)處理策略,確保數(shù)據(jù)質(zhì)量滿足建模需求。在數(shù)據(jù)清洗階段,首先對(duì)完全重復(fù)的記錄進(jìn)行刪除,隨后使用四分位距(IQR)方法識(shí)別和處理異常值,特別是對(duì)播放時(shí)長(zhǎng)等連續(xù)型特征進(jìn)行重點(diǎn)處理。計(jì)算式為:
其中, 和
分別為第一和第三四分位數(shù),IQR為四分位距。
針對(duì)缺失值處理,研究對(duì)不同類型的特征采用了差異化的處理策略。對(duì)于連續(xù)型特征,采用中位數(shù)進(jìn)行填充,這種方法能夠保持?jǐn)?shù)據(jù)的分布特征;對(duì)于類別型特征,則使用眾數(shù)填充,保證填充值的合理性;對(duì)于時(shí)序特征,采用臨近時(shí)間點(diǎn)的數(shù)據(jù)進(jìn)行插值,維持?jǐn)?shù)據(jù)的時(shí)間連續(xù)性;對(duì)于具有關(guān)聯(lián)性的特征,則基于特征間的相關(guān)性進(jìn)行推斷填充,提高填充的準(zhǔn)確性。
在數(shù)據(jù)標(biāo)準(zhǔn)化階段,對(duì)不同類型的特征采用了相應(yīng)的標(biāo)準(zhǔn)化方法。對(duì)于數(shù)值型特征,采用Min-Max標(biāo)準(zhǔn)化使其范圍統(tǒng)一到[0,1]區(qū)間;對(duì)于類別型特征,通過獨(dú)熱編碼轉(zhuǎn)換為數(shù)值表示;對(duì)于時(shí)序特征,則進(jìn)行時(shí)間窗口化處理,便于后續(xù)建模使用。
2.3.2 特征工程
特征工程階段重點(diǎn)構(gòu)建了三個(gè)層面的特征系統(tǒng):用戶行為權(quán)重特征、時(shí)間相關(guān)特征和內(nèi)容交互特征。行為權(quán)重特征包括基于行為類型的靜態(tài)權(quán)重(詳細(xì)權(quán)重設(shè)計(jì)如表2所示)和時(shí)間衰減的動(dòng)態(tài)權(quán)重;時(shí)間相關(guān)特征包含全局時(shí)間特征、周期性特征和序列特征;內(nèi)容交互特征則涵蓋基礎(chǔ)統(tǒng)計(jì)特征和行為類型的交叉特征。時(shí)間衰減特征的計(jì)算采用了指數(shù)衰減函數(shù),其計(jì)算式為:
其中, ω 為衰減系數(shù), k 為潛在特征維度, 為時(shí)間間隔。
2.4模型設(shè)計(jì)與實(shí)現(xiàn)
在完成數(shù)據(jù)準(zhǔn)備和特征工程后,本研究進(jìn)入核心的模型設(shè)計(jì)與實(shí)現(xiàn)階段,重點(diǎn)關(guān)注基礎(chǔ)NMF模型的改進(jìn)和優(yōu)化。
2.4.1 基礎(chǔ)NMF模型
基礎(chǔ)NMF模型為研究奠定了理論基礎(chǔ),其核心是通過分解用戶-物品交互矩陣來發(fā)現(xiàn)隱含的特征模式。模型的目標(biāo)函數(shù)設(shè)計(jì)充分考慮了非負(fù)約束的特點(diǎn),通過最小化重構(gòu)誤差來優(yōu)化模型參數(shù)。具體的目標(biāo)函數(shù)為:
其中, X 為用戶-物品交互矩陣, W 為用戶特征矩陣, W ? 0 , H 為物品特征矩陣, H ? 0 , 為Frobenius范數(shù)。
2.4.2 加權(quán)NMF模型
在基礎(chǔ)NMF模型的基礎(chǔ)上,加權(quán)NMF模型引入了權(quán)重矩陣 V 來區(qū)分不同用戶行為的重要程度。權(quán)重設(shè)計(jì)綜合考慮了三個(gè)關(guān)鍵因素:首先是基于行為類型的基礎(chǔ)權(quán)重,反映不同行為的內(nèi)在重要性;其次是考慮行為時(shí)效性的時(shí)間衰減權(quán)重;最后是根據(jù)用戶參與度設(shè)計(jì)的活躍度權(quán)重。這種多維度的權(quán)重設(shè)計(jì)使模型能夠更準(zhǔn)確地刻畫用戶偏好。模型的目標(biāo)函數(shù)為:
其中, V 為權(quán)重矩陣, ? 為Hadamard積(逐元素相乘)。權(quán)重矩陣的設(shè)計(jì)基于表2中的行為權(quán)重系數(shù)。
2. 4.3 稀疏NMF模型
稀疏NMF模型通過引入 正則化項(xiàng)來增強(qiáng)模型的泛化能力。模型設(shè)計(jì)遵循三個(gè)主要原則:首先是通過參數(shù)λ靈活控制模型的稀疏程度;其次是利用正則化實(shí)現(xiàn)自動(dòng)的特征選擇;最后是通過適當(dāng)?shù)恼齽t化強(qiáng)度來防止模型過擬合。這種設(shè)計(jì)既保持了模型的表達(dá)能力,又提高了其在實(shí)際應(yīng)用中的穩(wěn)定性。模型的目標(biāo)函數(shù)為:
其中,λ為正則化參數(shù),用于控制模型的稀疏程度, 為
范數(shù)。
2.4.4 模型優(yōu)化與訓(xùn)練
模型訓(xùn)練采用多階段優(yōu)化策略。在參數(shù)初始化階段,首先采用均勻分布對(duì) W 和 矩陣進(jìn)行初始化,并引入Xavier初始化方法以提高模型的收斂速度。同時(shí),通過實(shí)驗(yàn)選取了合適的初始學(xué)習(xí)率,為后續(xù)優(yōu)化過程奠定基礎(chǔ)。
在優(yōu)化過程中,本研究采用交替最小二乘法(AltermatingLeastSquares,ALS)作為核心優(yōu)化算法。為了提高優(yōu)化效果,結(jié)合Adam優(yōu)化器進(jìn)行梯度更新,這種優(yōu)化器能夠自適應(yīng)地調(diào)整學(xué)習(xí)率,有效提升了模型的訓(xùn)練效果。此外,采用批量訓(xùn)練的方式進(jìn)行模型訓(xùn)練,通過合理設(shè)置批量大小,顯著提高了計(jì)算效率。
在收斂控制方面,設(shè)置了多重控制機(jī)制以確保模型訓(xùn)練的穩(wěn)定性和效果。具體而言,設(shè)定最大迭代次數(shù)為1000輪,同時(shí)引入早停策略,即當(dāng)連續(xù)5次驗(yàn)證集損失沒有得到改善時(shí),自動(dòng)停止訓(xùn)練過程。另外,設(shè)置了相對(duì)重構(gòu)誤差閾值為 ,當(dāng)模型達(dá)到這一精度時(shí)即認(rèn)為收斂完成。這些策略的組合使用,既保證了模型能夠充分訓(xùn)練,又避免了過度擬合的風(fēng)險(xiǎn)。
實(shí)驗(yàn)觀察表明,加權(quán)NMF模型在處理用戶行為差異性方面表現(xiàn)出色,顯著提升了推薦的準(zhǔn)確度。同時(shí),稀疏NMF模型通過正則化約束有效緩解了數(shù)據(jù)稀疏性帶來的影響。不同模型在訓(xùn)練過程中展現(xiàn)出各自的優(yōu)勢(shì)特點(diǎn),這為實(shí)際應(yīng)用中的模型選擇提供了重要參考。
模型在不同參數(shù)配置下的性能對(duì)比如圖3所示。
3 實(shí)驗(yàn)結(jié)果及分析
本章系統(tǒng)地展示了模型的實(shí)驗(yàn)過程和評(píng)估結(jié)果,通過多個(gè)維度的分析驗(yàn)證了所提出模型的有效性
3.1實(shí)驗(yàn)設(shè)置與評(píng)估指標(biāo)
為了全面評(píng)估模型性能,本研究設(shè)計(jì)了完整的實(shí)驗(yàn)評(píng)估體系。
3.1.1評(píng)估指標(biāo)
本研究采用多個(gè)標(biāo)準(zhǔn)指標(biāo)對(duì)模型性能進(jìn)行評(píng)估。F1值用于綜合評(píng)估推薦的準(zhǔn)確性和完整性,能夠平衡精確率和召回率之間的關(guān)系;均方根誤差 (RMSE)和平均絕對(duì)誤差(MAE)分別從不同角度衡量預(yù)測(cè)評(píng)分的準(zhǔn)確程度;歸一化折扣累計(jì)增益(NDCG)則專門用于評(píng)估推薦結(jié)果的排序質(zhì)量。此外,考慮到實(shí)際應(yīng)用中的效率需求,還對(duì)模型的訓(xùn)練時(shí)間進(jìn)行了記錄和分析。
3.1.2 數(shù)據(jù)集劃分
實(shí)驗(yàn)采用了標(biāo)準(zhǔn)的訓(xùn)練集、驗(yàn)證集和測(cè)試集劃分方式,按照8:1:1的比例進(jìn)行劃分。具體而言,訓(xùn)練集包含1668426名用戶的45600000條交互記錄,驗(yàn)證集和測(cè)試集各包含約20萬用戶的570萬條記錄。這種劃分方式既確保了訓(xùn)練數(shù)據(jù)的充足性,又保證了驗(yàn)證和測(cè)試的可靠性。特別注意的是,劃分過程中確保了每個(gè)用戶在各個(gè)數(shù)據(jù)集中都有對(duì)應(yīng)的行為記錄,避免了數(shù)據(jù)泄露問題,如表3所示。
3.2模型訓(xùn)練與收斂性分析
對(duì)三種NMF模型的訓(xùn)練過程進(jìn)行了詳細(xì)追蹤和分析,重點(diǎn)關(guān)注其收斂特性和性能表現(xiàn)。
3.2.1 訓(xùn)練過程分析
實(shí)驗(yàn)記錄顯示,加權(quán)NMF在前20輪迭代中就達(dá)到了較好效果,展現(xiàn)出快速收斂特性;稀疏NMF因引入正則化約束,收斂較慢但更穩(wěn)定;基礎(chǔ)NMF在后期出現(xiàn)輕微震蕩。三種模型在測(cè)試集上各具特色:加權(quán)NMF獲得最高的F1值(0.9976)和NDCG值(0.6150),表明其在整體推薦質(zhì)量上具有明顯優(yōu)勢(shì);稀疏NMF的F1值達(dá)到0.9954,展現(xiàn)出良好的泛化能力;基礎(chǔ)NMF作為對(duì)照組提供了有效基準(zhǔn)。不同NMF模型訓(xùn)練過程中損失函數(shù)變化趨勢(shì)如圖4所示。
3.2.2 模型性能對(duì)比
在測(cè)試集上的實(shí)驗(yàn)結(jié)果顯示,三種模型各具特色:加權(quán)NMF獲得了最高的F1值(0.9976)和NDCG值(0.6150),同時(shí)具有最小的RMSE(0.1217)和MAE(0.0158),表明其在整體推薦質(zhì)量上具有明顯優(yōu)勢(shì);稀疏NMF雖然在某些指標(biāo)上略遜于加權(quán)NMF,但其F1值仍達(dá)到0.9954,展現(xiàn)出良好的泛化能力;基礎(chǔ)NMF作為對(duì)照組,在各項(xiàng)指標(biāo)上均表現(xiàn)穩(wěn)定,為改進(jìn)模型提供了有效的基準(zhǔn)。三種模型在測(cè)試集上的性能對(duì)比如表4所示。
3.3用戶行為影響分析
基于用戶行為權(quán)重設(shè)計(jì)的實(shí)驗(yàn)結(jié)果表明,不同類型的用戶行為對(duì)推薦效果具有顯著不同的影響。收藏行為(權(quán)重3.0)對(duì)推薦準(zhǔn)確性的貢獻(xiàn)最為顯著,這與其代表用戶強(qiáng)烈興趣的特性相符。分享行為雖然被賦予了較高權(quán)重(4.0),但由于數(shù)據(jù)的稀疏性,其實(shí)際影響相對(duì)有限。點(diǎn)擊行為雖然單次權(quán)重較低(1.0),但由于其高頻特性,累積效應(yīng)顯著提升了推薦效果。圖5展示了各類行為對(duì)推薦準(zhǔn)確性的貢獻(xiàn)度。
3.4冷啟動(dòng)問題分析
在解決冷啟動(dòng)問題方面,不同模型展現(xiàn)出明顯的性能差異。稀疏NMF在處理交互次數(shù)少于10次的新用戶時(shí)表現(xiàn)最為出色,這得益于其在數(shù)據(jù)稀疏情況下的良好泛化能力。加權(quán)NMF則在用戶交互次數(shù)超過20次后表現(xiàn)優(yōu)異,說明隨著用戶行為數(shù)據(jù)的積累,權(quán)重機(jī)制的優(yōu)勢(shì)得到充分發(fā)揮?;A(chǔ)NMF對(duì)數(shù)據(jù)量要求較高,需要較多的用戶交互才能達(dá)到理想的推薦效果。不同模型在處理新用戶時(shí)的表現(xiàn)如圖6所示。
3.5 應(yīng)用場(chǎng)景分析
基于實(shí)驗(yàn)結(jié)果,可以針對(duì)不同應(yīng)用場(chǎng)景推薦最適合的模型配置。在高頻互動(dòng)場(chǎng)景(如音樂APP主頁推薦)中,加權(quán)NMF因其能夠精準(zhǔn)捕捉用戶實(shí)時(shí)偏好而成為最佳選擇。對(duì)于冷啟動(dòng)場(chǎng)景(如新用戶推薦),稀疏NMF憑借其處理數(shù)據(jù)稀疏問題的優(yōu)勢(shì),展現(xiàn)出更好的適用性。
這些發(fā)現(xiàn)為實(shí)際系統(tǒng)的模型選擇和部署提供了重要的參考依據(jù),也為后續(xù)的模型優(yōu)化指明了方向。
4結(jié)論
本文通過分析加權(quán)NMF和稀疏NMF在音樂推薦系統(tǒng)中的應(yīng)用,探討了不同NMF模型在處理用戶行為數(shù)據(jù)時(shí)的表現(xiàn)和適用場(chǎng)景。研究結(jié)果表明,加權(quán)NMF由于賦予不同行為權(quán)重,能夠更好地捕捉用戶的實(shí)際偏好,在處理交互頻繁的用戶時(shí)表現(xiàn)優(yōu)異;而稀疏NMF則通過 正則化控制模型復(fù)雜度,適合處理稀疏性較高的用戶行為數(shù)據(jù),尤其在冷啟動(dòng)情境中具備優(yōu)勢(shì)。
總體來看,結(jié)合用戶行為特點(diǎn)和數(shù)據(jù)規(guī)模,選擇合適的NMF模型可以顯著提升音樂推薦系統(tǒng)的性能。加權(quán)NMF更適合處理頻繁交互數(shù)據(jù),而稀疏NMF更適合用戶行為較少、數(shù)據(jù)稀疏的場(chǎng)景。通過實(shí)驗(yàn)評(píng)估,本文驗(yàn)證了兩種模型在不同應(yīng)用場(chǎng)景下的有效性,為實(shí)際推薦系統(tǒng)的優(yōu)化提供了借鑒。
盡管本研究取得了一定的成果,但仍然存在一些局限性。首先,NMF模型的性能在用戶行為極其稀疏的數(shù)據(jù)集上有所下降。雖然稀疏NMF可以通過正則化改善部分表現(xiàn),但在處理新用戶或交互極少的用戶時(shí),推薦效果仍然不夠理想。此外,研究?jī)H考察了加權(quán)NMF和稀疏NMF兩種模型,未來還可以結(jié)合其他推薦技術(shù)(如深度學(xué)習(xí)模型)進(jìn)一步優(yōu)
化系統(tǒng)性能。
另一個(gè)局限性在于權(quán)重的設(shè)定。加權(quán)NMF模型對(duì)行為的權(quán)重設(shè)置依賴于人為經(jīng)驗(yàn),未能自動(dòng)調(diào)節(jié)權(quán)重,可能會(huì)導(dǎo)致在某些行為下權(quán)重設(shè)置不合理,影響模型的推薦效果。因此,未來研究可以探索如何自動(dòng)化權(quán)重分配,從而提升推薦系統(tǒng)的智能化水平。
參考文獻(xiàn):
[1]BOBADILLAJ,ORTEGAF,HERNANDOA,etal.Recommender Systems Survey[J].Knowledge-Based Systems,2013,46:109-132.
[2]SHIY,LARSONM,HANJALICA.CollaborativeFilteringBeyondtheUser-ItemMatrix:ASurveyoftheStateof the Art and Future Challenges[J].ACM Computing Surveys(CSUR),2014,47(1):1-45.
[3]VARGHESEK,MKOLHEKARMM,HANDES.Denoising ofFacial Images UsingNon-Negative MatrixFactorization with Sparseness Constraint [C]//20183rdInternational Conference for Convergence in Technology (I2CT).Pune:IEEE,2004:1-4.
[4]RICCIF,ROKACHL,SHAPIRAB,etal.Recommender Systems Handbook[M].New York:Springer,2011.
[5]KORENY,BELLR,VOLINSKYC.MatrixFactorization Techniques for Recommender Systems [J].Computer,2009,42(8):30-37.
[6]SUXY,KHOSHGOFTAARTM.A SurveyofCollaborative Filtering Techniques [J].Advances in ArtificialIntelligence,2009,2009(1):1-19.
[7] SCHAFERJB,KONSTANJA,RIEDLJ. E-CommerceRecommendation Applications[J].Data Miningand KnowledgeDiscovery,2001,5(1):115-153. [8] ZHANG S,YAO L,SUNA,et al.Deep LearningBasedRecommender System:A Survey and New Perspectives [J].ACMComputing Surveys,2019,52(1):5.1-5.38.
[9]KIMJ,PARK H.FastNonnegative MatrixFactorization:An Active-Set-Like Method and Comparisons[J].SIAM Journal on Scientific Computing,2011,36(6):3261-3281.
[10]MNIHA,SALAKHUTDINOVRR.ProbabilisticMatrix Factorization [C]//Advancesin Neural InformationProcessing Systems15:Proceedingsof the 2002 Conference.Vancouver:MITPress,2003:1-7.
[11]HUYF,KORENY,VOLINSKYC.CollaborativeFilteringforImplicitFeedbackDatasets[C]//20o8EighthIEEEInternational Conference on Data Mining.Pisa:IEEE,2008:263-272.
[12]ZENGW,F(xiàn)ANG,SUNS,etal.CollaborativeFilteringViaMulti-LayerNeuralNetworks[J/OL].Applied SoftComputing,2021,109:107516[2024-10-05].https://doi.org/10.1016/j.as0c.2021.107516.
[13]FANGH,LIA,XUHX,etal.Sparsity-ConstrainedDeepNonnegative Matrix Factorization for HyperspectralUnmixing [J].IEEE Geoscience and Remote Sensing Letters,2018,15(7):1105-1109.
[14] GUO Z X,ZHANG S H. Sparse Deep NonnegativeMatrix Factorization[J/OL].arXiv:1707.09316 [cs.CV].[2024-09-26].https://doi.org/10.48550/arXiv.1707.09316.
作者簡(jiǎn)介:金龍(2000一),男,漢族,四川廣元人,碩士研究生在讀,研究方向:數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)。