汪 欣 張銘毅 劉亞萍
隨著信息化步伐的加快,海量化的信息內(nèi)容和便捷的獲取方式正在逐漸改變?nèi)藗兊膬?nèi)容閱讀習慣。但是在如此龐大的信息量背后,信息過載帶來的信息龐雜和無序經(jīng)常使得用戶無法快速、準確地獲取個人最關(guān)心的內(nèi)容, 以至于陷入信息焦慮之中。因此如何精準地將內(nèi)容和用戶匹配起來,建立個性化的內(nèi)容推薦系統(tǒng),幫助用戶快速地找到最關(guān)心內(nèi)容,成為媒體行業(yè)亟待解決的問題。個性化的內(nèi)容推薦越來越成為內(nèi)容行業(yè)的共識。
將內(nèi)容和用戶精準匹配的過程主要是將用戶和內(nèi)容看作推薦系統(tǒng)的兩端,通過精確的推薦方法,將內(nèi)容精準匹配用戶,獲得用戶反饋后再進一步完善推薦方法[1]。整個精準推薦的工作邏輯共包含四個步驟(見圖1):
圖1 精準推薦技術(shù)的工作邏輯圖
首先是內(nèi)容分類和結(jié)構(gòu)化處理。內(nèi)容文本通常包含著豐富的信息,但它們并非結(jié)構(gòu)化的文本,因此要進行結(jié)構(gòu)化處理并做好分類,確定好備選的推薦內(nèi)容。其次是用戶分類和畫像建模。用戶是精準匹配的目標,根據(jù)用戶的反饋和興趣進行分類和建模, 形成全面真實的用戶畫像。用戶的反饋包括主動表現(xiàn)的顯性反饋和依據(jù)網(wǎng)絡痕跡建立的隱性反饋,用戶興趣則包括用戶真實的長期興趣以及隨著熱點內(nèi)容不斷變化的短期興趣。 再次是推薦引擎選擇。如果將內(nèi)容和用戶看作精準匹配的兩個端點,推薦引擎就是連接二者的橋梁。它的目標在于將所有備選的內(nèi)容進行符合用戶興趣的排序,進而依次推薦給用戶主體。不同的推薦方式會生成不同的推薦列表,從而直接影響推薦效果。最后是用戶終端設計。在完成內(nèi)容推薦后,還需在用戶終端進行設計以全面完成個性匹配過程。用戶的終端接口承擔著兩個方面的工作,一方面,用戶的接口需要承載推薦的內(nèi)容;另一方面,需要收集用戶的反饋以進一步精進推薦引擎,促進用戶和內(nèi)容更好地精準匹配。
如何對內(nèi)容進行分類處理是推薦技術(shù)的第一步,目前對內(nèi)容的處理包括對純文本內(nèi)容的處理和對圖片、視頻內(nèi)容的處理。
對純文本的處理主要使用的方法是自然語言處理,其本質(zhì)在于試圖讓計算機來分析人類的語言,而這一過程需要輸入與存儲、統(tǒng)計計算、機器學習等技術(shù),實現(xiàn)文本分析、處理等操作。以自然語言處理在文本情感分析領(lǐng)域內(nèi)的應用為例,自然語言處理的流程可以分為以下幾個步驟[2]:
第一步,文本預處理,由分詞和命名體識別組成。在實際應用中很多語氣助詞和人稱代詞是不需要關(guān)心的,需要建立一個停用詞詞典,在最終結(jié)果中將其過濾以降低對內(nèi)容提取的影響。命名體識別是一種信息抽取技術(shù),指在從原始的文本信息當中提煉出結(jié)構(gòu)化信息。
第二步,文本情感分析。通過建立情感詞典,獲取文檔中特定詞匯的情感值,加以公式計算的方式來核定內(nèi)容的情感態(tài)度[3]。這種方式的優(yōu)點非常突出,計算簡單,結(jié)果明確直白。如果詞典足夠豐富,理論上能獲得非常好的分析效果,同時情感詞典本身在不斷更新和進步,除了文本內(nèi)容外,網(wǎng)絡熱詞、顏文字、表情包等等都加入了情感詞典的分析之中,推動了情感詞典分析法的進步。
隨著媒體傳播形式的日漸豐富,除了文本內(nèi)容之外,更為關(guān)鍵的是對視頻和圖片內(nèi)容的處理,主要運用的方法是視頻目標檢測方法。該方法是為了解決在每一個視頻幀中出現(xiàn)的目標定位和識別問題[4]。對于特殊視頻內(nèi)容的識別是視頻目標檢測的重要應用領(lǐng)域。隨著網(wǎng)絡流量的視頻化,網(wǎng)絡視頻內(nèi)容變得魚龍混雜,而想要在源頭控制視頻內(nèi)容難度較大,通過視頻檢測的方式建立內(nèi)容分類過濾系統(tǒng)可能更加有效。盡管針對不同視頻所使用的算法有差異,但是工作邏輯大體相同,主要由視頻內(nèi)容描述模型、算法測試庫、算法評判標準等組成。
繪制用戶畫像指根據(jù)使用者的諸多信息抽象出用戶模型,關(guān)鍵在于給用戶貼上象征不同特征標識的標簽[5]。這是推薦技術(shù)中的關(guān)鍵一步,為精準匹配技術(shù)找到目標用戶奠定基礎(chǔ)。
在給用戶貼標簽之前首先要搜集大量的用戶行為數(shù)據(jù)。目前最重要的三種數(shù)據(jù)來源分別是用戶的顯性數(shù)據(jù)、隱性數(shù)據(jù)和混合數(shù)據(jù)。[6]
最常見的顯性數(shù)據(jù)為用戶注冊賬號時輸入的本人信息。例如當使用者要注冊某APP賬號時,常被問及自己的身份(如職務、工作等)、居住地址和感興趣的內(nèi)容等。但此類信息并不完全準確。導致不準確的原因可能包括用戶出于自我保護的心理而故意填寫錯誤的信息。也可能由于部分軟件設置問題過多,導致用戶隨意作答或直接放棄填寫。這些因素都會導致顯性的用戶數(shù)據(jù)充滿噪音,從而影響用戶畫像的建構(gòu)。
隱性的用戶數(shù)據(jù)恰恰彌補了這一缺憾。完全不同于顯性的數(shù)據(jù),隱性數(shù)據(jù)不需要受眾自己專門填寫,它重視的是用戶的使用行為如信息的搜索、對內(nèi)容的點贊、評論、拉黑,以及在內(nèi)容上的停留時間等。在這些數(shù)據(jù)中隱藏著用戶的使用習慣和興趣愛好。通過對用戶一段時間的隱性數(shù)據(jù)的分析,能夠更加全面真實地了解用戶。目前,獲取用戶隱性數(shù)據(jù)的方式逐步進化到機器學習的階段,獲取到的信息也相對更加客觀準確,能夠有效降低其他干擾因素的影響。
混合型數(shù)據(jù)吸納了顯性數(shù)據(jù)和隱性數(shù)據(jù)的優(yōu)點。它能夠高效地獲得用戶的顯性信息,再通過用戶的隱性數(shù)據(jù)得到客觀準確的用戶信息,并不斷地進行更新迭代。避免了單純依賴用戶顯性數(shù)據(jù)導致的偏差,同時大幅度提高搜集用戶數(shù)據(jù)的效率。目前主流的精準推薦的方式基本都會采用用戶的混合型數(shù)據(jù)。
完成用戶數(shù)據(jù)搜集的目的是為了繪制用戶畫像?,F(xiàn)實生活里每一個用戶的信息都是復雜多樣的,用戶畫像就是要把這些復雜的信息簡單化、抽象化。用戶畫像的本質(zhì)就是貼標簽,其目的就是為了將用戶的標簽和現(xiàn)實的場景結(jié)合起來,因此刻畫用戶畫像一定要有現(xiàn)實意義。用戶畫像的構(gòu)建方法有三種,分別是基于統(tǒng)計學習的用戶畫像構(gòu)建方法、基于加權(quán)關(guān)鍵字的向量空間用戶畫像構(gòu)建方法以及基于神經(jīng)網(wǎng)絡的用戶畫像構(gòu)建方法。[5]
基于統(tǒng)計學習的方法構(gòu)建用戶畫像表示依據(jù)用戶數(shù)據(jù)的分布情況、數(shù)字特點和相關(guān)變量之間的聯(lián)系性,使用數(shù)字統(tǒng)計和數(shù)據(jù)分析來評估并且解釋使用者相關(guān)的行為。例如針對短視頻APP的使用者,統(tǒng)計他的點擊記錄、瀏覽時長、轉(zhuǎn)發(fā)、拉黑、點贊、評論等行為數(shù)據(jù)特點進行分析。統(tǒng)計學習的方式主要是用來調(diào)查用戶的行為軌跡,但并不具備預測用戶未來行為趨勢的能力,僅僅能夠調(diào)查使用者過去的行為。
基于加權(quán)關(guān)鍵字的向量空間用戶畫像構(gòu)建方法是基于二十世紀四五十年代提出的向量空間模型生成的,其核心是根據(jù)文章內(nèi)容中的每個關(guān)鍵詞匯出現(xiàn)的頻率,計算對應的權(quán)重來產(chǎn)生關(guān)于文字內(nèi)容的特征表達公式。這一方法在許多領(lǐng)域中已經(jīng)得到了應用,例如,從某軟件的用戶評論中提取關(guān)鍵詞匯和關(guān)鍵信息,利用這些關(guān)鍵詞匯加權(quán)綜合計算得到該用戶的特征信息,而在這些關(guān)鍵詞匯中通常會隱藏著用戶對軟件的使用興趣,以此來建立軟件內(nèi)容和用戶之間的聯(lián)系,從而繪制用戶畫像。這種方式的優(yōu)點是計算結(jié)果相對準確,可信程度也較高。但是它的缺點也非常明顯,如果建立的模型或者運算所使用的公式過于簡單,則很難充分地利用好關(guān)鍵詞匯中所包含的隱性用戶信息。所以對于加權(quán)關(guān)鍵字來建立用戶模型的方式而言,最重要的是處理好文本特征工程,建立最合適的表達公式。
在大數(shù)據(jù)時代,面對日益增多且復雜的用戶數(shù)據(jù)如何更好地繪制用戶畫像是個難題。使用基于神經(jīng)網(wǎng)絡的用戶畫像構(gòu)建方法優(yōu)勢在于神經(jīng)網(wǎng)絡的記憶功能特別強大,它可以用來表示用戶與內(nèi)容之間復雜的多變關(guān)系。神經(jīng)網(wǎng)絡方法能夠模擬人類生理的神經(jīng)元系統(tǒng),因此具有了一些獨有的特質(zhì),包括分布式存儲、高容錯、并行計算等。由于具備了上述諸多特質(zhì),神經(jīng)網(wǎng)絡的用戶畫像繪制方法在很多領(lǐng)域內(nèi)得到了廣泛的應用。
將處理好的信息和它最適應的受眾連接起來的橋梁就是推薦引擎,因此推薦引擎成了精準匹配流程中的核心部分。傳統(tǒng)的方式有基于內(nèi)容的推薦和協(xié)同過濾推薦,但是在大數(shù)據(jù)時代,為了更好地處理混雜且量大的內(nèi)容信息,基于深度學習的方法開始流行[1]。
基于內(nèi)容的推薦是最常見也是用戶感知度最高的推薦方式,它主要是根據(jù)軟件使用者平常的使用習慣以及瀏覽內(nèi)容的過往行為進行推薦,計算備選的推薦內(nèi)容和使用者瀏覽歷史記錄內(nèi)容兩者之間的關(guān)系和相似程度,進行相似程度的排名,進而得到推薦列表。這種方法通常可以分為兩類,一類是計算問題,一類是分類問題。計算問題是指分別抽取使用者的用戶行為和預備推薦內(nèi)容的特征向量,計算二者之間的相似程度。向每一位使用者推薦相似程度最高的內(nèi)容或大于閾值的內(nèi)容。分類問題是指以該用戶瀏覽內(nèi)容的歷史記錄作為基礎(chǔ)數(shù)據(jù),將精準匹配的推薦轉(zhuǎn)化為二分法:即喜歡或不喜歡?;趦?nèi)容的推薦方法的優(yōu)點是不需要其他人的使用數(shù)據(jù)而且推薦效率和可信度都比較高。缺點包括分析淺顯,無法考慮內(nèi)容的豐富性對結(jié)果的影響;推薦結(jié)果缺乏創(chuàng)新,只能根據(jù)過去的內(nèi)容進行推薦,而無法關(guān)注到用戶可能有興趣的新內(nèi)容。
為了彌補上述方法不足,協(xié)同過濾推薦應運而生。協(xié)同過濾推薦的關(guān)鍵在于用戶的評分數(shù)據(jù),和被推薦的內(nèi)容之間沒有關(guān)系。[7]例如在瀏覽歷史中對所閱讀的內(nèi)容評分相似的軟件用戶,被默認為在將來的打分中也會高度相似。這樣一來就把精準匹配的推薦問題轉(zhuǎn)換為了評分計算的問題。協(xié)同過濾推薦也包括多種實現(xiàn)形式,比如基于記憶的推薦方式或者基于模型的推薦方式。
總體而言,協(xié)同過濾推薦最重要的優(yōu)點在于能夠使用其他人的經(jīng)驗,能夠盡量避免內(nèi)容分析的不完全性,推薦的個性化、自動化程度也更高,更重要的是能夠?qū)崿F(xiàn)對新用戶的推薦。當然,它的缺點也很明顯,存在著內(nèi)容初始推薦效果不好、內(nèi)容和用戶匹配不佳的問題,而且沒有考慮用戶自身的特點,容易推薦熱門內(nèi)容。
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)越來越復雜多樣,傳統(tǒng)的推薦方法所使用的淺層模型的預測方式開始逐漸落伍,因為此類方式太過依賴人工特征的提取。這樣一來很難高效、有價值地學習到深層次的用戶和內(nèi)容的表示。在這種情況下,基于深度學習的推薦方法逐漸被大家所認同?;谏顚由窠?jīng)網(wǎng)絡所構(gòu)建起來的內(nèi)容預測模型能夠非常好地表現(xiàn)出新聞內(nèi)容和讀者用戶之間的關(guān)系,特別是不能用數(shù)學方法描述的結(jié)構(gòu)特征。使用深度學習模型進行推薦的范圍更廣泛,推薦精度也更高。
目前精準匹配的個性化推薦已經(jīng)廣泛應用于移動端的新聞推薦和精準廣告投放等領(lǐng)域之中,在幫助用戶節(jié)省搜索時間的同時,也為內(nèi)容生產(chǎn)端尋求用戶提供了便利。
新聞傳播是互聯(lián)網(wǎng)的經(jīng)典應用,無論在互聯(lián)網(wǎng)時代還是現(xiàn)在的移動互聯(lián)網(wǎng)時代,獲取新聞資訊都是網(wǎng)民的主要需求?;ヂ?lián)網(wǎng)時代下的新聞傳播早已經(jīng)超越了傳統(tǒng)媒體的傳播速度,與此同時海量的新聞來源也將用戶帶入新聞焦慮的泥潭之中。在移動互聯(lián)網(wǎng)時代,隨著移動智能終端的普及,隨時隨地地獲取新聞已經(jīng)成為人們進行新聞閱讀的常態(tài)。因此新聞推薦系統(tǒng)也正式進入了移動新聞推薦時代。相較于傳統(tǒng)PC端的新聞推薦,移動端的新聞推薦限制更多,情況更復雜。移動端的新聞推薦必須考慮不同型號、不同尺寸、不同系統(tǒng)下內(nèi)容呈現(xiàn)的效果,相應的移動新聞推薦也要符合移動性、實時性、個性化的內(nèi)容獲取特點。
總體而言,移動端的新聞推薦和傳統(tǒng)的內(nèi)容推薦算法底層邏輯相似,但是由于移動新聞推薦受到網(wǎng)絡環(huán)境和移動設備自身限制的影響,移動端的新聞推薦思路又有著其自身的特征。目前移動端的新聞推薦方法有基于上下文感知的移動新聞推薦、基于社會化網(wǎng)絡的移動新聞推薦等。盡管目前新聞推薦方法已經(jīng)有了扎實的研究和較為成熟的成果,但目前移動端的新聞推薦作為新聞推薦的前沿應用還存在著眾多亟須解決的難題,如用戶的隱私安全保護、數(shù)據(jù)收集困難、計算難度大等。
推薦系統(tǒng)的算法工作邏輯并不復雜,但是達到的效果是驚人的。隨著算法系統(tǒng)的日益精進,推薦系統(tǒng)日趨完善,人們已經(jīng)越來越習慣依據(jù)算法的推薦做出內(nèi)容的選擇。在新聞推薦、廣告投放等諸多領(lǐng)域之中,算法推薦系統(tǒng)已經(jīng)成為中流砥柱。