(倫敦大學(xué)國王學(xué)院人文藝術(shù)學(xué)院,倫敦 SE18WA)
在網(wǎng)絡(luò)科技技術(shù)飛速發(fā)展中,以互聯(lián)網(wǎng)平臺(tái)為依據(jù)的信息傳遞方式越發(fā)完善,尤其是在經(jīng)濟(jì)全球化發(fā)展背景下,既豐富了網(wǎng)絡(luò)信息儲(chǔ)備數(shù)量又增加了技術(shù)創(chuàng)新難度,尤其是對(duì)不同類型的用戶群體而言,無法更為準(zhǔn)確和快速地獲取所需信息。而引用推薦系統(tǒng)不僅能向用戶群提供更多新聞?dòng)嵪?,而且可以解決信息過載的發(fā)展難題。簡(jiǎn)單來講,推薦系統(tǒng)是指從用戶的喜好、閱覽行為及所在地區(qū)等信息為依據(jù)構(gòu)建對(duì)應(yīng)模型,而后為用戶提供具有個(gè)性化特征的推薦工作。了解當(dāng)前我國新聞傳播發(fā)展情況可知,數(shù)字化發(fā)展對(duì)全世界文化產(chǎn)生了巨大影響,不管是當(dāng)前發(fā)展還是未來方向都面臨著極大挑戰(zhàn),此時(shí)只有更好掌握新聞傳播的有效途徑,提高新聞傳播的效率和質(zhì)量,才是確保新聞行業(yè)有序發(fā)展的重要舉措。由于我國正處于創(chuàng)新發(fā)展的初級(jí)階段,不管是城市改革還是與國際交流都在結(jié)合實(shí)踐經(jīng)驗(yàn)進(jìn)行不斷優(yōu)化,因此正確認(rèn)識(shí)新聞傳播工作,為實(shí)踐發(fā)展構(gòu)建優(yōu)質(zhì)環(huán)境至關(guān)重要。這一環(huán)境既是我國對(duì)外交流和發(fā)展的基本“形象”,又是國內(nèi)企業(yè)走向世界的影響因素[1]。美國作為全球新聞媒體傳播發(fā)展較快的國家之一,不管是新聞產(chǎn)品還是輿論信息都在影響全世界其他國家,尤其是在新媒體時(shí)代下,美國媒體在快速整合數(shù)字化、互聯(lián)網(wǎng)等內(nèi)容的基礎(chǔ)上,全面優(yōu)化了新聞傳播的速度和質(zhì)量。這是我國在發(fā)展中需要借鑒和學(xué)習(xí)的地方,既能幫助我們更快認(rèn)識(shí)現(xiàn)代先進(jìn)技術(shù)理念和應(yīng)用方向,又能根據(jù)我國基本國情對(duì)新聞傳播工作進(jìn)行革新。通過在國內(nèi)外環(huán)境中尋找發(fā)展機(jī)遇,正確應(yīng)對(duì)不斷創(chuàng)新帶來的挑戰(zhàn),有助于我國新聞傳播工作逐漸突破傳統(tǒng)模式的限制,充分利用現(xiàn)代化技術(shù)理念進(jìn)行優(yōu)化發(fā)展,這樣不僅能傳播弘揚(yáng)我國優(yōu)秀的民族文化,而且可以吸引更多世界先進(jìn)文化成果,促使傳媒市場(chǎng)在打破國家“圍墻”的同時(shí),逐步提高新聞傳播的質(zhì)量和效率,并提出與時(shí)代發(fā)展相符的傳播途徑。
Spark作為現(xiàn)如今較為常見的并行計(jì)算框架,相比Hadoop MapReduce不管是迭代計(jì)算速度還是實(shí)際應(yīng)用范圍都有了明顯提升,因此大部分?jǐn)?shù)據(jù)公司都開始由此入手進(jìn)行技術(shù)革新,見圖1。由于Spark是取代MapReduce的有效方案,其中包含了Hive、HDFS等多個(gè)分布式儲(chǔ)存層,不僅能與Hadoop生態(tài)系統(tǒng)融合運(yùn)行,而且全面處理了以往應(yīng)用系統(tǒng)存在的缺陷,因此在新時(shí)代新聞業(yè)技術(shù)創(chuàng)新發(fā)展中得到了重點(diǎn)關(guān)注。通過運(yùn)用彈性分布式數(shù)據(jù)集RDD儲(chǔ)備所需信息,既能準(zhǔn)確記錄每項(xiàng)數(shù)據(jù)又能作為分布式索引,同時(shí)結(jié)合事件驅(qū)動(dòng)中的類庫來進(jìn)行具體任務(wù),并依據(jù)線程池復(fù)用來降低實(shí)際開銷[2]。
在網(wǎng)絡(luò)技術(shù)全方位推廣的背景下,隨著線上閱讀人數(shù)和數(shù)量的增加,針對(duì)信息搜索和傳播的推薦系統(tǒng)和輿情分析系統(tǒng)得到了“涌現(xiàn)”。對(duì)比兩者分析,前者在市場(chǎng)中并不常見,尤其是現(xiàn)如今的網(wǎng)絡(luò)市場(chǎng)環(huán)境不穩(wěn)定,所以不管是發(fā)現(xiàn)新聞事件還是個(gè)性化推薦等相關(guān)系統(tǒng)設(shè)計(jì)依舊處于發(fā)展的初級(jí)階段。以中文事件為例,Liu Shuwei等人在實(shí)踐探究中研制出以TF密度為依據(jù)的話題識(shí)別和跟蹤調(diào)查系統(tǒng),而孫玲芳等人也在優(yōu)化K-means聚類算法的過程中,控制了算法對(duì)孤立點(diǎn)的影響,有效提高了工作狀態(tài)下的系統(tǒng)效率。
現(xiàn)階段,最有應(yīng)用價(jià)值的個(gè)性化推薦算法主要分為三種:第一,以內(nèi)容為依據(jù)進(jìn)行推薦。通過先對(duì)新聞實(shí)施建模,而后依據(jù)用戶瀏覽新聞信息形成興趣模型,最終將與用戶感興趣的相關(guān)內(nèi)容推薦給該用戶。在這一過程中,構(gòu)建模型和計(jì)算相似度是做好內(nèi)容推薦的重難點(diǎn),也是當(dāng)前科研人員關(guān)注的焦點(diǎn)。第二,協(xié)同過濾推薦。其是指結(jié)合用戶之前提供的瀏覽記錄實(shí)施推薦,通常來講和內(nèi)容沒有關(guān)聯(lián)。Badrul Sarwar等人以項(xiàng)目為依據(jù)設(shè)計(jì)了明確的協(xié)同過濾算法,有效解決了以往計(jì)算效率過低的難題,且保障了實(shí)際應(yīng)用結(jié)構(gòu)的準(zhǔn)確率[3]。第三,混合推薦。由于兩種算法都存在優(yōu)缺點(diǎn),因此有人結(jié)合實(shí)踐應(yīng)用情況提出了有效整合兩種算法的推薦算法,不僅能降低訓(xùn)練集的數(shù)量,而且可以加快程序工作效率。
了解當(dāng)前基于新聞傳播進(jìn)行的推薦算法可知,其并沒有整合研究事件相關(guān)性和用戶興趣等問題,所以本文主要從這一角度入手研究具有高效性和個(gè)性化的推薦算法。
通過運(yùn)用整改后的層次聚類發(fā)現(xiàn)新聞事件,再計(jì)算每個(gè)事件的熱度、簇內(nèi)方差等信息,可以為后續(xù)建模提供有效依據(jù)。以往層次聚類算法一般都會(huì)存在較大的簇,其中包含非常多的數(shù)據(jù)信息,且隨著計(jì)算速度的加快會(huì)持續(xù)合并周邊的小簇,這種現(xiàn)象就是“大簇現(xiàn)象”。整合實(shí)踐案例分析,出現(xiàn)這一現(xiàn)象的原因在于合并過程中出現(xiàn)重疊模糊問題,這是由于算法執(zhí)行后期,簇與簇之間的距離越來越小,且大簇的權(quán)重分布非常均衡,所以大簇在“合并”時(shí)就會(huì)隨著熵的增加而擴(kuò)大范圍,最終形成惡性循環(huán)。
為了有效處理這一問題,工作人員可以科學(xué)調(diào)節(jié)簇與簇之間的距離計(jì)算公式,具體公式如下所示:
公式當(dāng)中的newsk和newsi分別代表不同簇中相對(duì)距離最遠(yuǎn)的新聞事件,而title和content分別表示新聞的標(biāo)題與內(nèi)容的特征向量,cluster代表其中某個(gè)新聞事件[4]。
在調(diào)整好公式之后,為其引入簇與簇之間最遠(yuǎn)的距離,在這個(gè)距離達(dá)到最大的情況下,不同簇間的新聞相同程度會(huì)降低,此時(shí)極容易受大簇所影響降低簇的中心距離,因此整合以往工作經(jīng)驗(yàn)分析需要從中心距離和最遠(yuǎn)間距入手,加權(quán)求和就能有效控制上述現(xiàn)象的發(fā)生。本文設(shè)定權(quán)重α為3/7,在驗(yàn)證實(shí)驗(yàn)當(dāng)中,選用人工標(biāo)注的2000篇新聞對(duì)簇與簇之間的距離和緊密情況實(shí)施判斷,其中有三種聚類算法效果如下表所示。
表1 三種聚類算法的結(jié)果對(duì)比
通過觀察表格可以發(fā)現(xiàn),改進(jìn)之后的算法更加有效,不僅能提高實(shí)際工作的準(zhǔn)確率,而且可以提升整體工作效率和質(zhì)量。
要想快速處理以往個(gè)性化推薦算法在工作中涌現(xiàn)出的問題,如冷啟動(dòng)、矩陣稀疏等,可以通過有效結(jié)合兩種算法實(shí)施個(gè)性化推薦:第一,先做好數(shù)據(jù)集的預(yù)處理工作,根據(jù)收集與用戶和事件相關(guān)信息實(shí)施建模;第二,每位用戶尋找與模型相近的鄰居集;第三,運(yùn)用這一內(nèi)容記錄最近的新聞事件閱覽情況,而后計(jì)算用戶鄰居同樣喜歡但沒有被用戶閱覽的內(nèi)容,記錄成推薦列表;第四,依據(jù)數(shù)量、闕值等對(duì)事件的推薦列表進(jìn)行正確篩選[5]。
一方面,事件模型。通過運(yùn)用向量空間模型實(shí)施建模工作,認(rèn)真計(jì)算每個(gè)事件當(dāng)中不同單詞的權(quán)重,而后按照大小順序來排列,并優(yōu)選出權(quán)重超過闕值的單詞,將其看作事件模型的空間向量模型vsm[6]。由于上述公式計(jì)算中的新聞數(shù)量比較大,所以每個(gè)單詞都會(huì)在每個(gè)事件或只在某個(gè)事件中出現(xiàn)過,所以運(yùn)用總數(shù)除以包含某詞的事件數(shù)時(shí),會(huì)降低IDF的數(shù)值,而運(yùn)用總數(shù)除以包含單詞t的新聞數(shù)時(shí)可以有效解決這一問題[7]。
另一方面,構(gòu)建用戶興趣的模型。通過從時(shí)間衰減函數(shù)、事件的熱度和關(guān)鍵詞入手,這種算法是以用戶興趣及其閱覽事件的行為為依據(jù),為不同類型的用戶構(gòu)建相應(yīng)的興趣模型,整合實(shí)踐應(yīng)用情況分析,新算法的提出有效解決了以往用戶和項(xiàng)目在描述文件中出現(xiàn)的數(shù)據(jù)過少等問題,不僅能全面掌握用戶興趣愛好,而且可以幫助某個(gè)用戶對(duì)其所在群體的共同愛好進(jìn)行判斷。
基于Spark的推薦算法的整體生態(tài)系統(tǒng)都是以RDD為基礎(chǔ)進(jìn)行具體操作的,這一內(nèi)容只用來讀取數(shù)據(jù)塊。RDD也叫做彈性分布式數(shù)據(jù)集,在計(jì)算時(shí)若是內(nèi)部?jī)?chǔ)存出現(xiàn)不夠的問題,能和磁盤實(shí)現(xiàn)數(shù)據(jù)交換。一般來講,Spark推薦算法中的RDD可以選擇兩種方式進(jìn)行構(gòu)建:一種從Hadoop入手,另一種依據(jù)Spark Context中的parallelize方法,并化處理Driver的數(shù)據(jù)集,最終得到分布式的RDD[8]。
本文所選方法為前者,具體步驟如下所示:第一,在HDFS中得到最初的數(shù)據(jù)集,并掌握初期的新聞RDD;第二,通過新聞聚類獲取Cluster RDD;第三,根據(jù)Cluster RDD計(jì)算事件模型,并得到相應(yīng)的RDD;第四,在HDFS中收集與用戶閱覽事件有關(guān)的數(shù)據(jù)信息,并找到用戶——新聞RDD;第五,將Cluster RDD與用戶——新聞RDD兩者融合到一起,獲取用戶——事件RDD;第六,從事件模型和用戶事件RDD入手研究用戶興趣的相關(guān)模型,并獲取用戶——興趣RDD;第七,認(rèn)真計(jì)算用戶之間的距離,并由此獲取用戶——鄰居RDD;第八,尋找用戶和鄰居之間的共同興趣,并在有序過濾后將其排列成正規(guī)的推薦表格[9]。
綜上所述,從分布式混合推薦算法入手全面研究當(dāng)前新聞事件傳播的技術(shù)內(nèi)容,向不同類型的用戶提供有價(jià)值和所喜愛的新聞?dòng)嵪?,不僅能滿足他們提出的個(gè)性需求,而且可以有助于他們更為便捷和快速的掌握新聞事件變化。與此同時(shí),本文研究所實(shí)現(xiàn)的分布式算法能突破傳統(tǒng)網(wǎng)絡(luò)平臺(tái)傳播新聞受到的限制,既符合大數(shù)據(jù)時(shí)代發(fā)展特點(diǎn),又能快速處理新聞數(shù)據(jù)集,促使未來新聞傳播工作得到全方位發(fā)展。