閆澤華
摘要:斷物識人,是一切推薦行為的起點。斷物識人可以視為打標(biāo)簽的過程。標(biāo)簽是對高維事物的降維理解,抽象出事物表意性的特點。在不同的業(yè)務(wù)場景下,我們會選擇不同的標(biāo)簽,來對內(nèi)容和用戶進(jìn)行標(biāo)注。內(nèi)容算法沒有價值觀,算法背后的人是有價值觀的。優(yōu)化推薦系統(tǒng),一定會有一個數(shù)值目標(biāo)。
關(guān)鍵詞:內(nèi)容算法 斷物識人 推薦系統(tǒng)
很多人對于內(nèi)容算法有所誤解,會覺得內(nèi)容算法猛如虎,而當(dāng)你走近了內(nèi)容算法,可能會發(fā)現(xiàn)算法如虎,細(xì)嗅薔薇。內(nèi)容算法的基礎(chǔ)是更好地了解待推薦的內(nèi)容,更好地了解要推薦給的人,才能更高效地完成內(nèi)容與人之間的對接。
一、內(nèi)容算法是什么?
斷物識人是一切推薦行為的起點。斷物識人可以視為打標(biāo)簽的過程。標(biāo)簽是對高維事物的降維理解,抽象出事物表意性的特點。在不同的業(yè)務(wù)場景下,我們會選擇不同的標(biāo)簽,來對內(nèi)容和用戶進(jìn)行標(biāo)注。
在內(nèi)容層面,以音樂為例,最典型的兩種標(biāo)簽:專家系統(tǒng)和UGC(User Generated Content,用戶原創(chuàng)內(nèi)容)系統(tǒng)。潘多拉(Pandora)的音樂基因工程(Music Genome Project)是典型的專家系統(tǒng)標(biāo)簽。在這項工程中,抓住音樂本質(zhì)在最基本的層面上使用超過450個標(biāo)簽描述歌曲和組織它們復(fù)雜的數(shù)學(xué)算法,歌曲特征細(xì)化到主唱性別、電吉他失真程度、背景和聲類型等。每一首歌曲有選擇性地標(biāo)注一些標(biāo)簽,每個標(biāo)簽以半整數(shù)增量的方式分配一個0到5的數(shù)字。豆瓣網(wǎng)音樂在專家系統(tǒng)選擇性標(biāo)簽的基礎(chǔ)上,轉(zhuǎn)為UGC系統(tǒng)。網(wǎng)絡(luò)用戶群體的力量為豆瓣積累了大量具有語義表意性的標(biāo)簽。當(dāng)然,由于用戶的多樣性和編輯的開放性,用戶標(biāo)簽系統(tǒng)需要經(jīng)過特定的清洗和歸一化才能投入使用。
一篇文章經(jīng)過文本分析進(jìn)行一級和二級分類,并抽取出文章內(nèi)的關(guān)鍵字、實體詞,專家系統(tǒng)的標(biāo)簽體系通過聚類的方式,將這篇文章與其相似的內(nèi)容聚成一個簇類,從而挖掘出更多的隱含信息。
在用戶層面,分為靜態(tài)和動態(tài)兩部分。用戶中的靜態(tài)部分,即設(shè)備信息、地理位置、注冊信息等,這些與業(yè)務(wù)的相關(guān)性不確定。具體到業(yè)務(wù)場景中,用戶行為生成了業(yè)務(wù)動態(tài)信息,利用人的各種顯式和隱式行為來對用戶的偏好進(jìn)行猜測。以知乎讀書會為例,你的顯式行為是點擊、收聽、評分、評論等;隱式行為則是收聽完成度、拖拽快進(jìn)、頁面停留等。通常,由于顯式行為不夠豐富,往往需要使用隱式行為來擴(kuò)充對用戶的標(biāo)注。完播率、是否快進(jìn)、停留時長等指標(biāo),都會被系統(tǒng)統(tǒng)計,用來判斷你是否真的喜歡某個人的講解,喜歡某本書的內(nèi)容。
今日頭條算法架構(gòu)師曹歡歡博士指出,“今日頭條常用的用戶標(biāo)簽包括用戶感興趣的類別和主題、關(guān)鍵詞、來源、基于興趣的用戶聚類、各種垂直興趣特征,以及性別、年齡、地點等信息。性別信息通過用戶第三方社交賬號登錄得到。年齡信息通常由模型預(yù)測,通過機(jī)型、閱讀時間分布等預(yù)估。常駐地點來自用戶授權(quán)訪問位置信息,在位置信息的基礎(chǔ)上通過傳統(tǒng)聚類的方法拿到常駐點。常駐點結(jié)合其他信息,可以推測用戶的工作地點、出差地點、旅游地點。這些用戶標(biāo)簽非常有助于推薦?!?/p>
內(nèi)容和用戶是一個相互影響的循環(huán)系統(tǒng),可用內(nèi)容判定用戶。在音樂場景下,用戶收聽、收藏、評分了很多爵士類的音樂,那么系統(tǒng)就會判定用戶是喜歡爵士音樂的。在讀書場景下,用戶閱讀、收聽了哪些書籍,哪些書籍聽完了,哪些書籍重復(fù)收聽了很多遍,都會影響系統(tǒng)中用戶的標(biāo)簽。因此,“你的選擇決定你的畫像”。反過來,用戶也會影響內(nèi)容?;谟脩粜袨?,對內(nèi)容做出的投票。在視頻上傳體系里,基本放棄了依賴人工打標(biāo)簽的方式,而利用用戶的播放行為來猜測內(nèi)容屬于哪一類。一個典型的案例:死神來了??礃?biāo)題的文本信息,大概率是一部電影,但事實上觀看這個視頻的是喜歡獵奇類的視頻用戶,深挖內(nèi)容才會知道,這其實是一個車禍視頻集錦。
二、內(nèi)容算法如何運(yùn)轉(zhuǎn)?
(一)協(xié)同過濾:應(yīng)用群體智慧
標(biāo)簽是對事物的抽象理解,有沒有一種方式能夠放棄標(biāo)簽?zāi)??以人的行為來?biāo)記內(nèi)容,是協(xié)同過濾的基礎(chǔ)思想。把用戶的消費行為作為特征,進(jìn)行用戶相似性或物品相似性的計算,然后進(jìn)行信息匹配,這就是協(xié)同過濾(Collaborative Filtering)的基礎(chǔ)思想。協(xié)同過濾分為三類:基于物品(Item-based)的協(xié)同、基于用戶(User-based )的協(xié)同和基于模型(Model-based)的協(xié)同。
1. 基于用戶的協(xié)同。找到那些與你在某一方面口味相似的人群,將這一人群喜歡的新東西推薦給你。
2. 基于物品的協(xié)同。先確定你喜歡物品,再找到與之相似的物品推薦給你。物品與物品間的相似度不是從內(nèi)容屬性的角度衡量的,而是從用戶反饋的角度來衡量的。對于大規(guī)模人群的喜好進(jìn)行內(nèi)容推薦,是各家公司應(yīng)用的主流分發(fā)方式。
3. 基于模型的協(xié)同。應(yīng)用用戶的喜好信息來訓(xùn)練算法模型,實時預(yù)測用戶可能的點擊率。比如,在Netflix的系統(tǒng)中就將RBM(Restricted Boltzmann Machines,局限型波茲曼模型)神經(jīng)網(wǎng)絡(luò)應(yīng)用于協(xié)同過濾。將深度學(xué)習(xí)應(yīng)用基于模型的協(xié)同,也成為業(yè)界廣泛使用的方式。
以協(xié)同的方式,通過用戶行為的聚類,發(fā)現(xiàn)許多隱形的聯(lián)系。
以讀書會的場景為例,我們邀請不同的名家來領(lǐng)讀書籍。從領(lǐng)讀人的角度,更容易直觀地將同一領(lǐng)讀人的作品視作一個聚類,比如馬家輝老師領(lǐng)讀的《對照記》《老人與?!穬杀緯?,通過人工預(yù)判的前置規(guī)則,將這兩本領(lǐng)讀書音頻推薦給同一類用戶。通過協(xié)同的方式,會發(fā)現(xiàn)喜歡馬家輝老師領(lǐng)讀作品的用戶,同時也會喜歡楊照老師領(lǐng)讀的《刺殺騎士團(tuán)長》一書。這種聯(lián)系,是很難通過標(biāo)簽信息發(fā)現(xiàn)的,只有通過用戶的行為選擇,才會建立聯(lián)系,提升內(nèi)容和用戶之間連接與匹配的效率。
(二)從冷到熱:內(nèi)容和用戶在分發(fā)中的生命周期
內(nèi)容和用戶在分發(fā)中,推薦系統(tǒng)無時無刻不在面對著增量的問題:增量內(nèi)容,增量用戶。
新的內(nèi)容、新的用戶對于推薦系統(tǒng)來說都是沒有過往信息量積累的、陌生的,需要累積一定的曝光量和互動量(閱讀、分享等)來收集基礎(chǔ)數(shù)據(jù)。這個從0到1積累基礎(chǔ)數(shù)據(jù)的過程就是冷啟動,其效果的好壞直接關(guān)系到滿意度和留存率。
假設(shè)新的內(nèi)容要經(jīng)過100次閱讀才能夠得到相對可信的內(nèi)容標(biāo)簽,新的用戶同樣需要完成100次閱讀之后才能夠建立起可用的用戶標(biāo)簽。那么一個最直觀的問題就是:怎么樣達(dá)成這100次有效的閱讀?這就是冷啟動面臨的問題。從內(nèi)容和用戶兩個維度來分別論述。
在推薦系統(tǒng)中,通過分析標(biāo)題、關(guān)鍵字來確定要向哪個目標(biāo)人群進(jìn)行探索性展示,借由探索性展示完成了從0到1的用戶反饋積累過程。在這個冷啟動過程中,如果沒能得到足夠正面的用戶反饋(點擊行為和閱讀體驗),系統(tǒng)就會認(rèn)為這篇內(nèi)容是不受歡迎的,為了控制負(fù)面影響,就會逐步降低這篇內(nèi)容的推薦量。
反之,如果內(nèi)容在冷啟動過程中找到了目標(biāo)人群,收獲了很高的點擊率,就有可能被推薦系統(tǒng)快速放大。因此,冷啟動決定內(nèi)容命運(yùn)一點都不為過。
(三)三分天下:編輯、算法與社交
內(nèi)容算法分發(fā)將是未來信息分發(fā)行業(yè)的標(biāo)準(zhǔn)配置。在內(nèi)容展現(xiàn)和推薦的過程當(dāng)中,可以參考下述公式:算法分發(fā)權(quán)重=編輯分發(fā)權(quán)重+社交分發(fā)權(quán)重+各種算法產(chǎn)出權(quán)重。
引入內(nèi)容算法一定是有積極意義的。在有限的貨架里,圍繞用戶展示了無限的貨品。以知乎讀書會為例,將其劃分為內(nèi)容生產(chǎn)、用戶觸達(dá)和反饋改進(jìn)三個環(huán)節(jié)。
在內(nèi)容生產(chǎn)環(huán)節(jié),為了保證調(diào)性,需要引入編輯、專家去選人、選書。選擇的書是否有價值,選擇的人是否是行業(yè)專家,都是體現(xiàn)產(chǎn)品價值觀判斷的事情。
在用戶觸達(dá)環(huán)節(jié),人工干預(yù)的作用就會相對弱化。比如,一本物理學(xué)的書籍,由一位物理學(xué)大家進(jìn)行解讀。從編輯的角度,領(lǐng)讀人是大家,書籍是經(jīng)典,編輯權(quán)重一定非常高。聽上去似乎很合理,當(dāng)進(jìn)入用戶的場景時,就發(fā)現(xiàn)問題。用戶不是每天都來的,如果用戶一周來一次,在用戶沒來的這一周內(nèi)同樣有文學(xué)、互聯(lián)網(wǎng)、藝術(shù)等專業(yè)人士的領(lǐng)讀,該給他的是今日推薦,還是本周推薦呢?進(jìn)一步考慮到用戶偏好問題。
當(dāng)我們收集到了足夠多用戶數(shù)據(jù)的時候,又可以反過來影響內(nèi)容的二次迭代,編輯的作用又凸顯了出來,結(jié)合數(shù)據(jù)的反饋來對內(nèi)容進(jìn)行調(diào)整。內(nèi)容的播放完成率為什么低?是稿件問題,還是領(lǐng)讀人的語音問題,是否需要重新錄制等。
三、內(nèi)容算法背后的價值觀
內(nèi)容算法沒有價值觀,算法背后的人是有價值觀的。優(yōu)化推薦系統(tǒng),一定會有一個數(shù)值目標(biāo)。這個數(shù)值目標(biāo)的合理性決定了整個推薦系統(tǒng)的合理性。單獨以點擊為優(yōu)化目標(biāo),一定會導(dǎo)致標(biāo)題黨泛濫;點擊加時長目標(biāo)能夠一定程度抑制標(biāo)題黨的產(chǎn)生,也有可能導(dǎo)致定義用戶多樣性的喪失。
數(shù)據(jù)分析指導(dǎo)內(nèi)容生產(chǎn)做到非常極致的是Buzz Feed公司。員工總數(shù)逾千人,擁有全球新聞團(tuán)隊、自家視頻制作工作室、尖端數(shù)據(jù)運(yùn)算中心和內(nèi)部創(chuàng)意廣告機(jī)構(gòu),每月全網(wǎng)超過50億次閱讀?!皵?shù)據(jù)驅(qū)動內(nèi)容創(chuàng)作”是Buzz Feed給自己貼上的標(biāo)簽。在這家公司的內(nèi)容創(chuàng)作和分發(fā)過程中,反饋閉環(huán)(Feedback Loop)是出現(xiàn)頻次最高的術(shù)語:通過將市場環(huán)境和讀者反饋數(shù)據(jù)盡可能地量化和結(jié)構(gòu)化,及時反饋給運(yùn)營人員、內(nèi)容編輯,從而構(gòu)成了輔助創(chuàng)作的閉環(huán)。為了更好地理解用戶反饋,BuzzFeed追蹤收集并匯總了各個平臺上的閱讀傳播和互動數(shù)據(jù),比起閱讀量、分享量這些結(jié)果指標(biāo),其更關(guān)心內(nèi)容分發(fā)和傳播的過程。
通過兩個內(nèi)容場景一窺各個內(nèi)容分發(fā)產(chǎn)品的調(diào)性所在。
新用戶冷啟動。以新用戶的身份去嘗試各種內(nèi)容消費服務(wù)。比較之下,就知道各家的價值觀怎樣的了。因為新用戶是通過不同渠道獲取的,基于馬斯洛需求模型,越底層的內(nèi)容越有更廣泛的受眾。
推薦多樣性。多樣性是另一個評估分發(fā)產(chǎn)品調(diào)性好壞的所在。推薦多樣性,深挖用戶的局部興趣點,實現(xiàn)短期收益最大化。比如某用戶喜歡科比,把科比的比賽視頻推送給他,用戶閱讀到深夜兩點;從一個產(chǎn)品的長線來看,需要長期留存用戶,而不是讓用戶短期沉迷。在短期和長期取舍中,依賴于產(chǎn)品設(shè)計者的價值觀判斷。
四、評估內(nèi)容算法
(一)閱讀體驗
閱讀體驗是否促成最終選擇買單。衡量閱讀體驗,內(nèi)容的消費比例是一個重要的指標(biāo)。對于圖文來說這個指標(biāo)是平均閱讀進(jìn)度和閱讀速度。平均消費比例越高,代表用戶的認(rèn)可度越高、消費體驗越好。此外,內(nèi)容是否引發(fā)了讀者互動也是一個考察指標(biāo),如評論、點贊、收藏、轉(zhuǎn)發(fā)等,這些指標(biāo)的橫向?qū)Ρ韧ǔS糜诮M織內(nèi)部考核不同編輯的創(chuàng)作能力。其中,需要額外關(guān)注的是評論和轉(zhuǎn)發(fā)兩個指標(biāo)。
評論擴(kuò)展了內(nèi)容的深度,更多的用戶評論給正文提供了不同的視角分析和信息補(bǔ)充,可以有效地引發(fā)圍觀用戶的閱讀興趣,提升用戶在內(nèi)容頁的整體停留時長。
轉(zhuǎn)發(fā)擴(kuò)展了內(nèi)容的廣度,更多的轉(zhuǎn)發(fā)能夠帶來更多面向潛在受眾的曝光。對于轉(zhuǎn)發(fā)指標(biāo),BuzzFeed的病毒傳播系數(shù)的計算方式:Viral Lift = 1 + 傳播閱讀量/一次閱讀量。
(二)粉絲增長
想要可持續(xù)發(fā)展,只有精準(zhǔn)的粉絲才有價值。粉絲增長引入三個概念:LTV、CAC和ROI。
LTV(Life Time Value):生命周期總價值。即一個粉絲從關(guān)注你的那一天開始到脫離平臺為止,能夠帶來的收益。通常按渠道來計算,如果某個渠道或某個平臺的用戶不精準(zhǔn)、付費意愿差,那么這個渠道的用戶LTV就相對較低。
CAC(Customer Acquisition Cost):用戶獲取成本。同樣跟渠道有關(guān),自媒體需要持續(xù)地發(fā)現(xiàn)低價、優(yōu)質(zhì)的渠道,搶占紅利期。
ROI(Return On Investment):投資回報率。計算公式為(收入-成本)/成本。應(yīng)用于粉絲增長場景就是(LTV-CAC)/CAC,衡量的是:你從一個粉絲身上掙到的錢,是否能夠覆蓋獲取這個粉絲的成本。通常應(yīng)該做ROI>1的事情,這樣才能夠保證業(yè)務(wù)的可持續(xù)發(fā)展。
想要提升用戶增長的ROI,就必須降低新用戶中非精準(zhǔn)用戶的比例,從而拉升渠道用戶的LTV,降低用戶獲取成本CAC。
通過數(shù)據(jù)分析的方式,能夠讓我們更加清醒地審視內(nèi)容創(chuàng)作的消費性好壞以及粉絲積累的性價比高低,從而以更經(jīng)濟(jì)的方式提升自己的增長速度。
(作者系知乎知識市場產(chǎn)品總監(jiān)、簡書簽約作者)