● 王君然
隨著智能算法在各個領(lǐng)域的普及,算法對于我們也不再是“黑箱”一般的存在。盡管算法的種類和應(yīng)用多種多樣, 但其基本的技術(shù)邏輯是樸素的, 都是通過多維擬合來實(shí)現(xiàn)相似性檢索。
1.基于特征向量集合的內(nèi)容推薦機(jī)制?;ヂ?lián)網(wǎng)時代的一個重要特征就是信息過載,這導(dǎo)致了信息內(nèi)容的龐雜和冗余,那么這種情況下如何進(jìn)行信息和需求的分類就顯得尤為重要,不斷進(jìn)行層次的精確和細(xì)分,能夠提升系統(tǒng)的操作效率,也迎合了分眾導(dǎo)向。由于計算機(jī)的本質(zhì)只是在進(jìn)行大量的統(tǒng)計和快速計算,所以就要把信息內(nèi)容和用戶需求量化成可計算的數(shù)字,然后通過算法去歸類這些數(shù)字化的特征并根據(jù)特征數(shù)字進(jìn)行分發(fā),即TF-IDF 模型。TF 就是將關(guān)鍵詞的次數(shù)歸一化,計算關(guān)鍵詞的詞頻,一條信息內(nèi)容的總詞頻就成為此信息的相關(guān)性指標(biāo)之一。而IDF 指的是詞條的權(quán)重。由于不同的詞條對主題的預(yù)測能力和鎖定目標(biāo)的難易程度都不同,所以要將詞條的相關(guān)性權(quán)重引入檢測的標(biāo)準(zhǔn)當(dāng)中。
2.基于用戶與產(chǎn)品二元關(guān)系的協(xié)同過濾機(jī)制。協(xié)同過濾算法的關(guān)鍵在于通過收集已知數(shù)據(jù)來預(yù)測未知數(shù)據(jù),具體又分為三類:基于用戶的過濾、基于項(xiàng)目的過濾和基于模型的過濾。但無論是哪種過濾方式,其技術(shù)邏輯都是在用戶與信息產(chǎn)品之間自動建立了二元的邏輯關(guān)聯(lián),都充分利用了群體智慧和合作機(jī)制,從大量的用戶行為數(shù)據(jù)中挖掘相似性,不斷擬合出用戶的潛在興趣。
協(xié)同過濾機(jī)制的實(shí)現(xiàn)要基于一定的前提假設(shè),即興趣相近的用戶可能會對相同的事物感興趣且用戶會對已關(guān)注的相似事物感興趣。這種假設(shè)就決定了擬合所需的維度。用戶層面的擬合,可以通過皮爾森相關(guān)系數(shù)和上文提到的余弦相似性來測量,找到興趣邏輯上與你距離最近的用戶。這種測量的數(shù)據(jù)來源一般是通過用戶的評分,包括顯性評分和隱形評分。顯性評分即用戶對于信息實(shí)際價值反饋,例如App store 里會讓用戶對應(yīng)用的使用感受進(jìn)行打分;而隱形評分更多地則是通過用戶的行為數(shù)據(jù)來體現(xiàn),對每一個具體用戶進(jìn)行分布式的計算,以形成相關(guān)用戶網(wǎng)絡(luò)?;谟脩舻膮f(xié)同過濾由于要收集實(shí)時的行為數(shù)據(jù),一般都要在線過濾,對算法的要求更高,復(fù)雜性也更高,但能夠給予用戶比較新鮮的體驗(yàn),因?yàn)檫@種過濾選取的是不同用戶興趣的交集,推薦的是用戶彼此的補(bǔ)集,能夠拓寬用戶的視野,不易造成“信息孤島”。而基于項(xiàng)目的過濾往往是相對比較靜態(tài)的,因此可以采用離線過濾,耗費(fèi)成本小,但由于是相同類型內(nèi)容的推薦,可能會產(chǎn)生“信息繭房”現(xiàn)象。
1.算法推薦僅僅根據(jù)用戶點(diǎn)擊率進(jìn)行推薦?在算法時代,大部分人感興趣的東西是高度類似的,如果單單根據(jù)用戶某一時段的點(diǎn)擊率狀況作為信息分析的數(shù)據(jù)庫,恐怕只會造成“火爆的產(chǎn)品持續(xù)火爆”的情況。按照內(nèi)容熱度來進(jìn)行內(nèi)容的分發(fā)和排布是各大門戶網(wǎng)站早就具備的功能,其運(yùn)營目的就是實(shí)現(xiàn)信息內(nèi)容的“極化”,高話題度帶來高收益。隨著算法模型的不斷進(jìn)化,如何運(yùn)用算法挖掘用戶的“長尾需求”以進(jìn)行資源的合理配置成為趨勢。而這種“長尾需求”的挖掘恰恰是反點(diǎn)擊率的,系統(tǒng)要持續(xù)跟進(jìn)用戶的多維信息和行為并根據(jù)算法模型的分發(fā)去激發(fā)其潛在的需求,需要算法模型在資源數(shù)據(jù)庫中尋找到與用戶畫像最匹配的內(nèi)容,并通過持續(xù)試探性的推送做出判斷,整體數(shù)據(jù)來看,這種推薦模式或許更有遠(yuǎn)期優(yōu)勢。另外,現(xiàn)有的算法推薦系統(tǒng)往往是基于移動互聯(lián)網(wǎng)的,必須關(guān)注用戶所處的環(huán)境特征,用戶在不同時間、地點(diǎn)和使用終端“屏”的大小等都影響用戶的信息偏好。隨著移動互聯(lián)技術(shù)的發(fā)展,越來越多的感官體驗(yàn)被嵌入用戶的信息選擇流程中,豐富著用戶的信息接收路徑,技術(shù)的應(yīng)用擴(kuò)展了算法模型的探索能力,因而環(huán)境與技術(shù)維度的偏好也更加不能被忽視。
2.算法推薦是“信息繭房”的最大兇手?我們經(jīng)常會認(rèn)為算法給你推薦的都是你感興趣的內(nèi)容,長時間處于程序化和定制化的信息環(huán)境中,從而讓自己的生活仿佛置于“繭房”之中。然而在大多數(shù)情況下,算法并不能完全決定分發(fā)的內(nèi)容,更何況現(xiàn)階段各類運(yùn)營商通常都會選擇多種算法疊加的形式來為用戶進(jìn)行推薦,很大程度上打破了單一算法導(dǎo)致的信息推送模式固化的壁壘。另外,我們往往認(rèn)為用戶只能夠從算法推薦中進(jìn)行被動選擇。這是因?yàn)槲覀円恢倍冀o自己規(guī)制了兩個預(yù)設(shè),一是用戶的能動性會隨著便捷性的上升而降低。而用戶的主動性檢索行為是認(rèn)知層面的需求,與我們“刷手機(jī)”帶來的休閑娛樂的需求是不同的,不會因?yàn)橐环N需求被滿足就消解了另一種需求。第二個預(yù)設(shè)是在這個循環(huán)中我們很容易忽視了信息的天然穿透性,并不是所有信息只有通過推薦才能被用戶所知,況且算法本身并不是完美和精確的,這種不精確也恰恰成為它的“留白”,提示我們由算法構(gòu)筑的擬態(tài)環(huán)境也需要適當(dāng)?shù)亍伴_天窗”。
3.算法推薦收集的數(shù)據(jù)越多越好?算法本質(zhì)上基于的是數(shù)學(xué)運(yùn)算,是通過特定輸入產(chǎn)生特定輸出。但這里仍然有兩個問題,一是用戶的每一次選擇行為究竟是不是對自我個性的描述,二是算法只能獲取到公開的和局部的特征數(shù)據(jù)。為了實(shí)現(xiàn)更精準(zhǔn)的擬合,算法系統(tǒng)會不斷收集用戶各個行為維度的數(shù)據(jù),然而用它去識別新的樣本時,算法會按照原有的訓(xùn)練模型去嵌套新的樣本,很有可能產(chǎn)生推薦準(zhǔn)確率變低的情況,這就是算法推薦中的過度擬合。在已知數(shù)據(jù)集中表現(xiàn)很好,但在未知數(shù)據(jù)集中表現(xiàn)得很差。
算法的過度擬合會讓算法的性價比變低,前期的巨大的模型容量與后期甚微的推薦效果之間產(chǎn)生了很大的矛盾。我們運(yùn)用算法推薦的目的是要預(yù)測未知數(shù)據(jù),讓未知與已知最大程度地貼合才是性價比最高的做法。
1.建立多指標(biāo)推薦系統(tǒng)以打破用戶的媒介依賴效應(yīng)。媒介依賴?yán)碚撜J(rèn)為整個傳播系統(tǒng)是由媒介、受眾和社會三個有機(jī)部分共同組成的,三者相互影響。媒介依賴效應(yīng)的產(chǎn)生就是受眾對于媒介技術(shù)的使用產(chǎn)生了異化的形態(tài),由此破壞了這一環(huán)節(jié)的平衡。那么用戶真正產(chǎn)生依賴的究竟是內(nèi)容還是算法推薦的形式?自然是內(nèi)容。一方面,快感為王的碎片化傳播切割了用戶的注意力,在信息接受中用戶失去了自己的需求重心和情感偏好,更容易對讓人產(chǎn)生快感的內(nèi)容出現(xiàn)依賴感,具體表現(xiàn)在使用時長及使用頻次上。另一方面,UGC 模式“傳受一體”的信息構(gòu)建方式會很大程度上瓦解精英話語體系,從而使得受眾的批判意識和能力下降,此時媒介對于受眾的影響力就會相應(yīng)地上升,依賴感自然增強(qiáng)。這種基于內(nèi)容的依賴感會流動到負(fù)責(zé)分發(fā)內(nèi)容的算法上,用戶會更加配合和適應(yīng)算法推薦的流程和結(jié)果,并在這種信息的循環(huán)中擔(dān)任一個推動者的角色。
目前推薦系統(tǒng)的主要推送指標(biāo)包括用戶的社交關(guān)系、基本信息以及瀏覽記錄,因此在推薦系統(tǒng)的算法模型中可以加入用戶滿意度、內(nèi)容影響力、專業(yè)品質(zhì)、時效性等指標(biāo),向用戶呈現(xiàn)經(jīng)過重新加權(quán)的復(fù)雜結(jié)果,推送的結(jié)果可能幫助用戶發(fā)掘更多有價值的信息,走出“信息窄化”的困境。要不斷刺激用戶的興趣點(diǎn),利用好算法推薦對產(chǎn)品的各個角度進(jìn)行數(shù)據(jù)埋點(diǎn),檢測用戶對內(nèi)容的“正負(fù)反饋”,給予用戶正確的價值引導(dǎo)。
2.將“用戶認(rèn)知”引入算法推薦以平衡價值理性與工具理性之間的矛盾。韋伯將理性分為了價值理性和工具理性兩個層次,工具理性的本質(zhì)是現(xiàn)代技術(shù)的“計算”功能,具有道德無涉性和結(jié)果效用性,算法推薦作為一種工具理性,受到“技術(shù)中立”的影響,能夠最大限度地刨除掉主觀價值對于結(jié)果的影響并實(shí)現(xiàn)資源最大限度的合理配置,是技術(shù)發(fā)展的必然趨勢。但由于工具理性過分強(qiáng)調(diào)“物化”的功能效用,與關(guān)注行為本身所代表的價值和意義的價值理性產(chǎn)生了矛盾,任何獨(dú)立的價值觀念都會被效益最大化所消解。尤其是在當(dāng)下信息內(nèi)容娛樂化和同質(zhì)化嚴(yán)重,用戶的主體性逐步缺失,越低級趣味的內(nèi)容越容易獲得關(guān)注,把用戶興趣作為標(biāo)準(zhǔn)去衡量內(nèi)容的價值往往很容易形成傳播的“負(fù)效應(yīng)”。
當(dāng)我們了解了算法的基本運(yùn)行機(jī)制,就會降低我們的“技術(shù)崇拜”,技術(shù)本身沒有對錯,算法的功效是非常積極主動的,更重要的是注重平衡算法的黑盒推薦與白盒推薦。黑盒推薦就是我們常說的通過機(jī)器學(xué)習(xí)不斷迭代訓(xùn)練模型,并不需要關(guān)注推薦的具體內(nèi)容。而白盒推薦是深入被推薦的條目內(nèi)容之中,依據(jù)對條目的先驗(yàn)知識和對用戶的理解進(jìn)行相關(guān)匹配的推薦,屬于算法與人工的“耦合”。隨著數(shù)字媒介技術(shù)的應(yīng)用和發(fā)展,算法推薦也在不斷學(xué)習(xí)和更新包括內(nèi)容相關(guān)性、實(shí)時熱度、媒介使用環(huán)境和用戶協(xié)同特征在內(nèi)的更多維度的用戶行為,同時也會加入如過濾噪聲、熱點(diǎn)懲罰和時間衰減等數(shù)據(jù)處理策略來優(yōu)化系統(tǒng)。一個好的算法推薦系統(tǒng)是機(jī)器學(xué)習(xí)和人工管理在多方博弈和協(xié)同的基礎(chǔ)上產(chǎn)生的,無論是用戶還是運(yùn)營商,探索算法的“黑箱”能讓我們更加合理地應(yīng)用算法,獲得信息,實(shí)現(xiàn)收益。