王敬愷
算法推薦是在對海量用戶行為的數據分析與挖掘基礎上,利用計算機通過數學算法,推測出用戶可能喜歡的東西。
目前,算法推薦大致可分為三類:
基于內容。理論依據主要來自于信息檢索和信息過濾,根據用戶過去的瀏覽記錄向用戶推薦其沒有接觸過的推薦項。
基于知識。某種程度上可以看成是一種推理技術,它不是建立在用戶需要和偏好基礎上推薦的,可以是用戶已經規(guī)范化的查詢,也可以是一個更詳細的用戶需要的表示。
基于協(xié)同過濾。它是基于這樣的假設:“跟你喜好相似的人喜歡的東西,你也很有可能喜歡”。所以基于用戶的協(xié)同過濾主要的任務就是找出用戶的最近“鄰居”,從而根據最近“鄰居”的喜好做出未知項的評分預測。
算法內容平臺的推薦個性化主要表現在:一是針對審核通過的文章,智能推薦引擎會根據內容質量、內容特征、首發(fā)情況、互動情況、媒體的歷史表現、媒體訂閱情況,為文章找到感興趣的讀者并推薦;二是針對讀者,根據其閱讀歷史、地理信息、搜索關鍵詞、閱讀習慣等進行推薦。
以今日頭條、一點資訊為代表的智能新聞客戶端,憑借強大的算法、先進的數據抓取技術,能夠精準分析并解讀用戶的閱讀習慣和興趣,從而為用戶提供量身定制的新聞產品,滿足個性化需求。
但隨之帶來的色情、謠言、夸張廣告等低俗內容泛濫,這還只是算法推薦新聞平臺在內容分發(fā)方面所面臨的難題之一。
自9月18日起,人民網連續(xù)三天推出三篇評論文章批評以今日頭條為代表的新聞算法推薦,分別為《不能讓算法決定內容》、《別被算法困在“信息繭房”》、《警惕算法走向創(chuàng)新的反面》。人民網在批評算法推薦的文章中,形象舉例稱:有位網友無意點擊了一條關于花圈的消息,結果今日頭條就連續(xù)推送喪葬用品信息,令人不堪其擾。
歸納起來,公眾對算法推薦新聞爭議主要集中在三點:
首先,技術、代碼、算法替代了傳統(tǒng)內容分發(fā)過程中專門把關內容的編輯。單一的標準不僅容易忽視優(yōu)質內容更為豐富的面向和維度,也增加了把關內容產品的難度和成本。
其次,對于擁有強大算法和技術支撐的信息平臺,一心“取悅”用戶遠遠不夠,更要自覺執(zhí)行有關政策法規(guī),不能有僥幸心理,任憑暴力、色情等不良信息泛濫。
第三,智能信息平臺帶來的最大問題,不僅是侵權,而是可能走向創(chuàng)新的反面,甚至破壞創(chuàng)新的原動力。
9月21日下午,今日頭條正式回應,稱理解媒體的憂慮,將正視機器學習技術目前整體發(fā)展的不足,勉力改進。此前,今日頭條一直表示重視提高分發(fā)效率、滿足用戶的信息需求。創(chuàng)始人張一鳴接受《財經》記者采訪時也曾說,企業(yè)和媒體的區(qū)別在于媒體是要有價值觀的,它要教育人、輸出主張,而頭條不提倡。因為它不是媒體,更關注信息的吞吐量和信息的多元。endprint