周萌 徐慶 李丹 李崇 齊鵬
【摘要】? ? 隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)學(xué)習(xí)社區(qū)己經(jīng)深入到了廣大互聯(lián)網(wǎng)用戶的生活中,其正在以驚人的速度不斷地影響著互聯(lián)網(wǎng)用戶的學(xué)習(xí)。隨著平臺(tái)使用時(shí)間的積累,許多的平臺(tái)都擁有龐大的閱讀資源,學(xué)習(xí)資源和用戶后臺(tái)數(shù)據(jù)。從而出現(xiàn)了資源過(guò)載、學(xué)習(xí)迷航等新的閱讀和學(xué)習(xí)問(wèn)題。本文通過(guò)ALS矩陣分解算法,實(shí)現(xiàn)了大數(shù)據(jù)平臺(tái)的基于用戶的協(xié)同過(guò)濾推薦算法,從而提升網(wǎng)絡(luò)資源需求的個(gè)性化和細(xì)致化,最終為黨建平臺(tái)的用戶提供個(gè)性化的閱讀和學(xué)習(xí)資源推薦服務(wù),并在一定程度上對(duì)平臺(tái)中的課程教學(xué)起到現(xiàn)實(shí)的指導(dǎo)意義。
【關(guān)鍵詞】? ? 大數(shù)據(jù)? ? 學(xué)習(xí)資源? ? 機(jī)器學(xué)習(xí)? ? 智能推薦系統(tǒng)
緒論
學(xué)習(xí)習(xí)近平關(guān)于大數(shù)據(jù)戰(zhàn)略的要求背景下,深入研究“大數(shù)據(jù)是信息化發(fā)展的新階段”、“要運(yùn)用大數(shù)據(jù)提升國(guó)家治理現(xiàn)代化水平”的指導(dǎo)思想,將黨的建設(shè)工作和經(jīng)濟(jì)社會(huì)的發(fā)展進(jìn)行深度融合,不僅可以提升黨的建設(shè)工作效果還可以幫助社會(huì)經(jīng)濟(jì)的可持續(xù)發(fā)展。因此,在黨建工作的中提出基于大數(shù)據(jù)的推薦系統(tǒng)的設(shè)計(jì),正是在大數(shù)據(jù)戰(zhàn)略背景下,將科學(xué)技術(shù)應(yīng)用到黨的建設(shè)工作中來(lái)的典型課題。本文以基于ALS模型的協(xié)同過(guò)濾算法來(lái)實(shí)現(xiàn)石油黨建APP學(xué)習(xí)資料推薦系統(tǒng),正是基于此課題的研究成果,該系統(tǒng)的實(shí)現(xiàn)可以為黨建工作提升精準(zhǔn)性和實(shí)效性,具有重要的實(shí)踐意義。
一、推薦算法及推薦系統(tǒng)研究現(xiàn)狀
推薦算法是當(dāng)前大數(shù)據(jù)背景下的重要工具,是針對(duì)性解決用戶需求提升數(shù)據(jù)準(zhǔn)確性和效率的重要手段。目前常用的推薦算法有基于人口統(tǒng)計(jì)學(xué)、內(nèi)容協(xié)同過(guò)濾以及混合等的推薦機(jī)制,被廣泛應(yīng)用于各個(gè)領(lǐng)域。其中SPARK是專用為了處理大數(shù)據(jù)而開(kāi)發(fā)的計(jì)算機(jī)引擎,是基于分布式的計(jì)算平臺(tái),與Map Reduce它的優(yōu)勢(shì)是可以將運(yùn)算的結(jié)果保存在內(nèi)存中從而更好的適用于數(shù)據(jù)挖掘和矩陣分解等算法。而在推薦系統(tǒng)中應(yīng)用最為廣泛的為個(gè)性化推薦算法,該算法的概念是上世紀(jì)90年代提出的,是一種可以針對(duì)不同行業(yè)進(jìn)行個(gè)性化計(jì)算而迭代出更加適用的結(jié)果,主要應(yīng)用于電影行業(yè)、新聞推送、音樂(lè)推薦以及媒體廣告等的商業(yè)領(lǐng)域,如Movie Lens、Ad Wards等。
二、基于大數(shù)據(jù)的推薦系統(tǒng)設(shè)計(jì)
2.1大數(shù)據(jù)的基本概念
當(dāng)前對(duì)于數(shù)據(jù)的定義雖然還沒(méi)有統(tǒng)一,但是其涵蓋的內(nèi)容基本一致,通常是指那些包含了有價(jià)值信息的,但無(wú)法通過(guò)常規(guī)的計(jì)算機(jī)工具來(lái)提取、存儲(chǔ)、搜索等處理的龐大信息。其中IDC對(duì)大數(shù)據(jù)的特征進(jìn)行了總結(jié),具備巨大的信息規(guī)模、迅速的數(shù)據(jù)流轉(zhuǎn)性、多樣化的數(shù)據(jù)類型以及準(zhǔn)確性。
2.2大數(shù)據(jù)平臺(tái)架構(gòu)介紹
本文針對(duì)SPARK平臺(tái)來(lái)進(jìn)行展開(kāi)討論,該生態(tài)系統(tǒng)下包含了流計(jì)算、結(jié)構(gòu)化數(shù)據(jù)的處理、圖計(jì)算以及機(jī)器學(xué)習(xí)等子項(xiàng)目,是用以管理大數(shù)據(jù)的重要工具和手段,在此基礎(chǔ)上SPARK還可以提供如Flume、Kafka、HDFS等具有分布式數(shù)據(jù)特性的集成方式,來(lái)實(shí)現(xiàn)大數(shù)據(jù)的管理工作,以及各種算法的應(yīng)用與實(shí)現(xiàn)。
2.3智能推薦算法
1.協(xié)同過(guò)濾算法介紹
基于鄰域和近鄰的內(nèi)存推薦和基于模型的推薦是協(xié)同過(guò)濾推薦算法的兩種基本類型。其中以基于內(nèi)存的推薦算法為例,是通過(guò)相似偏好或者特征的方式來(lái)對(duì)用戶的需求進(jìn)行推薦,因此進(jìn)行實(shí)施推薦前需要先讀取用戶的內(nèi)存信息從而實(shí)現(xiàn)比對(duì)與識(shí)別。而基于模型的算法則是通過(guò)建立的各類用戶的喜好模型來(lái)進(jìn)行推薦。相比而言基于內(nèi)存的算法要更加有效,但是由于運(yùn)算時(shí)需要讀取大量數(shù)據(jù),因此會(huì)造成一定的局限性,冷啟動(dòng)和數(shù)據(jù)稀疏都會(huì)對(duì)其造成一定地影響。
2.基于ALS模型的推薦方法
在模型推薦算法較為流行的是ALS模式算法,該推薦方法是基于評(píng)價(jià)數(shù)據(jù)集而建立的用戶與項(xiàng)目的評(píng)分矩陣,一般表示為N*M,公式中N表示為用戶數(shù)量,M表示為項(xiàng)目數(shù)量。在實(shí)際推薦算法的運(yùn)算過(guò)程中,由于用戶并不會(huì)對(duì)每一個(gè)項(xiàng)目進(jìn)行評(píng)分,因此會(huì)造成項(xiàng)目數(shù)據(jù)集的稀疏性,也就是說(shuō)所形成的矩陣集是非常稀疏的。因此,為了使算法更加趨于準(zhǔn)確,會(huì)在已有數(shù)據(jù)規(guī)律的基礎(chǔ)上進(jìn)行數(shù)據(jù)模擬填充,從而得到任意用戶對(duì)任意項(xiàng)目的評(píng)分,最后獲得預(yù)測(cè)得分,以此來(lái)實(shí)現(xiàn)推薦。
三、基于大數(shù)據(jù)的智能推薦實(shí)現(xiàn)與效果——以石油黨建App為例
3.1石油黨建App的大數(shù)據(jù)架構(gòu)和推薦系統(tǒng)架構(gòu)
本文基于Spark構(gòu)建的石油黨建APP學(xué)習(xí)資料推薦系統(tǒng)主要分為兩個(gè)部分進(jìn)行(如圖1所示):離線計(jì)算部分和實(shí)時(shí)在線計(jì)算部分,該系統(tǒng)是一個(gè)可以結(jié)合離線計(jì)算與在線計(jì)算的架構(gòu),能夠解決一些推薦系統(tǒng)的實(shí)時(shí)性需求,還能利用批量的離線數(shù)據(jù)進(jìn)行推薦。
從架構(gòu)的縱向組織結(jié)構(gòu)分析,整個(gè)系統(tǒng)包括兩個(gè)子系統(tǒng)組成:離線推薦與在線推薦。從數(shù)據(jù)流可以看出,兩個(gè)子系統(tǒng)都按照數(shù)據(jù)輸入、中間處理、結(jié)果數(shù)據(jù)輸出等步驟進(jìn)行,為增加系統(tǒng)實(shí)時(shí)性,從這三個(gè)層面均使用了高性能的設(shè)計(jì)。
3.2石油黨建平臺(tái)學(xué)習(xí)資源的用戶行為現(xiàn)狀
石油黨建平臺(tái)是獲取用戶數(shù)據(jù)的關(guān)鍵來(lái)源,而用戶行為數(shù)據(jù)的收集與整理,從而建立起用戶與項(xiàng)目之間的評(píng)分,可以為其它用戶實(shí)現(xiàn)有效的推薦,并隨著使用用戶的數(shù)量增加而推薦趨于準(zhǔn)確。利用ALS算法來(lái)對(duì)學(xué)習(xí)者的隱性信息進(jìn)行收集,包括用戶的課程互動(dòng)天數(shù)、次數(shù)以及在論壇中的活躍程度等行為數(shù)據(jù)。通過(guò)SPARK平臺(tái)中Ndayact數(shù)據(jù)項(xiàng)來(lái)對(duì)用戶的相關(guān)數(shù)據(jù)進(jìn)行收集,從數(shù)據(jù)庫(kù)統(tǒng)計(jì)結(jié)果來(lái)看共記錄了21234條用戶行為數(shù)據(jù)。其中課程互動(dòng)天數(shù)和人數(shù)的分布數(shù)據(jù),在分析后發(fā)現(xiàn)存在持續(xù)下降的趨勢(shì)。其中互動(dòng)天數(shù)最少的僅為1天,而用戶人數(shù)最多時(shí)達(dá)到了3232人,占到了總用戶人數(shù)的43%左右。互動(dòng)天數(shù)保持時(shí)間最長(zhǎng)的有1人,共持續(xù)了167天,平均互動(dòng)天數(shù)為4.2天。通過(guò)模型的創(chuàng)建發(fā)現(xiàn),第36天和第55天存在顯著差異,也就是說(shuō)36天以內(nèi)保持互動(dòng)的用戶最多且較為頻繁,而大于55天的數(shù)據(jù)顯示,用戶活躍度存在非常明顯的下降。所以石油黨建APP針對(duì)用戶在36天和55天時(shí),采取鼓勵(lì)和監(jiān)督機(jī)制,以促進(jìn)學(xué)習(xí)的持續(xù)性和效果的保證。
3.3大數(shù)據(jù)智能推薦對(duì)石油黨建App學(xué)習(xí)資源的指導(dǎo)
1.充分運(yùn)用大數(shù)據(jù)分析提升黨建學(xué)習(xí)的精準(zhǔn)性
在大數(shù)據(jù)時(shí)代,可以通過(guò)推薦算法將各組織部門對(duì)于石油黨建學(xué)習(xí)的重點(diǎn)內(nèi)容進(jìn)行快速識(shí)別,從而起到快速定位的作用。對(duì)于各地區(qū)學(xué)習(xí)的進(jìn)度和效果進(jìn)行實(shí)時(shí)的采集并分析,從而便于高效的指導(dǎo),促進(jìn)黨建學(xué)習(xí)工作的有效開(kāi)展。同時(shí),通過(guò)對(duì)個(gè)人數(shù)據(jù)的采集與大數(shù)據(jù)的比對(duì),可以為個(gè)人學(xué)習(xí)提供差異性分析,從而為個(gè)體的學(xué)習(xí)計(jì)劃提出建議,并實(shí)現(xiàn)學(xué)習(xí)資料和課程的個(gè)性化推薦,實(shí)現(xiàn)黨建學(xué)習(xí)工作的精準(zhǔn)性。
2.充分運(yùn)用大數(shù)據(jù)分析提升黨的制度建設(shè)的實(shí)效性
通過(guò)石油黨建學(xué)習(xí)工作的內(nèi)容以及學(xué)習(xí)行為分析,可以對(duì)黨建工作的規(guī)劃以及相關(guān)制度建設(shè)進(jìn)行監(jiān)督,并利用大數(shù)據(jù)分析的方式來(lái)識(shí)別當(dāng)前黨建學(xué)習(xí)相關(guān)制度的建設(shè)情況,以及實(shí)施有效性,從而起到發(fā)現(xiàn)問(wèn)題解決問(wèn)題的目的。并依據(jù)當(dāng)前地區(qū)黨建學(xué)習(xí)現(xiàn)狀進(jìn)行基于黨建資料和課程的推薦,從制度建設(shè)和資源精準(zhǔn)推薦的角度來(lái)使問(wèn)題得以快速的解決,從而針對(duì)性的通過(guò)石油黨建APP來(lái)幫助石油黨建學(xué)習(xí)制度的建設(shè)和制度實(shí)施有效性,解決石油黨建最后一公里的問(wèn)題。
四、總結(jié)與展望
本文是基于大數(shù)據(jù)平臺(tái)相關(guān)技術(shù)以及當(dāng)前主流推薦算法和系統(tǒng)的研究為基礎(chǔ),來(lái)對(duì)石油黨建APP學(xué)習(xí)資料的推薦系統(tǒng)進(jìn)行設(shè)計(jì),采用基于ALS模型的協(xié)同過(guò)濾算法優(yōu)化方案,來(lái)實(shí)現(xiàn)石油黨建APP的系統(tǒng)。基于ASPARK大數(shù)據(jù)平臺(tái)的石油黨建APP資料推薦的功能的實(shí)現(xiàn),可以提升黨建學(xué)習(xí)工作的精準(zhǔn)性以及制度建設(shè)的實(shí)效性。但是本系統(tǒng)目前還無(wú)法有效的對(duì)在線推薦的信息進(jìn)行準(zhǔn)確的更新,在系統(tǒng)延遲方面還有待改進(jìn)。此外在數(shù)據(jù)倉(cāng)庫(kù)管理方面,由于對(duì)于大量用戶行為數(shù)據(jù)的分析工作比較粗淺,因此還需要進(jìn)一步引入數(shù)據(jù)挖掘技術(shù)來(lái)進(jìn)行提升,從而建立起高效數(shù)據(jù)倉(cāng)庫(kù)的推薦引擎,為更好的提供學(xué)習(xí)資料的推薦提供支持。
參? 考? 文? 獻(xiàn)
[1]姚敦紅.基于教育大數(shù)據(jù)的課程授課教師推薦系統(tǒng)設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2020,16(26):8-9+22.
[2]胡赫薇.基于大數(shù)據(jù)下的智能推薦系統(tǒng)設(shè)計(jì)[J].電腦編程技巧與維護(hù),2020(07):126-128.
[3]薛琳蘭. 基于大數(shù)據(jù)技術(shù)的電商推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].青島大學(xué),2020.
[4]吳榮,段宏濤.基于Hadoop平臺(tái)的Spark快數(shù)據(jù)推薦算法解析——以其在圖書(shū)推薦系統(tǒng)中的應(yīng)用為例[J].數(shù)字技術(shù)與應(yīng)用,2020,38(06):115-117.
[5]朱麗,付海濤,馮宇軒,裴欣彤,孫宇.基于大數(shù)據(jù)平臺(tái)的課程教學(xué)資源推薦系統(tǒng)應(yīng)用探究[J].計(jì)算機(jī)產(chǎn)品與流通,2020(06):209.
[6]謝路倫. 基于Spark的電商用戶行為分析與研究[D].北方民族大學(xué),2019.