快手研究所
1990年,美國未來學家托夫勒提出“數字鴻溝”一詞。他指出,擁有與未擁有信息時代工具的人之間存在鴻溝。中國積極推行的“寬帶中國”、“互聯(lián)網+”戰(zhàn)略、數字中國,乃至接下來的5G戰(zhàn)略,都是消除數字鴻溝的重要戰(zhàn)略舉措?!白⒁饬Α笔菙底著櫆系闹匾M成。在互聯(lián)網上,注意力是非常寶貴的資源,其分配狀況直接影響人們的獲得感和幸福感。
如果可以把注意力的鴻溝填平,讓更多的普通人被關注,增加人與人之間的連接,發(fā)揮更多人的想象力和創(chuàng)造力,則社會會更繁榮,人們生活的幸福感也會更強。
過去幾年,因為中國在互聯(lián)網領域的長期投入,視頻領域的基礎條件快速成熟,促進了視頻時代的到來。很多條件在中國是得天獨厚的。
今天,我們可以在快手上看到很多有意思的視頻,它們鮮活地呈現了普通人的生活。
鴨綠江上的放排人,把高山上的木材順著水流運出來,這種古老的水運方式以前鮮有人知,如今卻被數百萬人關注。
城市建筑工地的潛水員,很小眾的職業(yè),但一二線城市的每一座高樓大廈都需要他們。建高樓打地基時,需要用電鉆挖幾十米的深坑,電鉆頭掉了需要他們潛到幾十米深的渾濁泥水中,把電鉆恢復原位。
時光倒退五六年,大眾是沒有機會看到這些內容,并一鍵下單購買這些商品的。短短幾年內,至少有四個條件具備了。
一是智能手機的普及,現在買一部有內置攝像頭、功能非常完備的智能手機只要1000元左右,甚至幾百元也能買到。
二是4G網絡的普及,普通人都可以負擔得起移動網絡的費用。即使在很偏遠的地區(qū),國家都投入了大量的資金用于電信基礎設施建設。
三是支付的便利。有了智能手機,買東西付錢,隨時隨地就可以實現。
四是物流網絡的發(fā)達。
這四個條件同時具備,并且全民可以享受,為視頻時代的到來奠定了基礎。視頻作為新時代的文本,相比于文字,它有自己的特點。一是視頻比文字在表達上更真切,內容更豐富。二是視頻的拍攝和觀看門檻更低,適合全民參與。人類對視頻信息的接受是最天然的。
正如文字改變了社會的方方面面,視頻也會改變社會的一切。這種改變不是簡簡單單的一個補充,也不是簡簡單單的一個增量,而是徹底的改變。
未來,如果我們的個人設備從手機進化到眼鏡,進化到VR、AR(增強現實)以后,影像化的產品會更大地改變這個世界。所有的應用,都要重新再設計一遍。
攝像頭內置進手機,人人都可以方便地拍視頻,視頻數量暴增。因而,視頻與人之間的精準匹配成了核心問題。
匹配機制最核心的有三件事:一是理解內容;二是理解人;三是將內容和人連接起來,讓它們匹配。門檻在于數據,要有人和內容之間交互的數據去做模型。
首先是理解內容。如果是文本化的內容,理解文本的技術在10年前就已經非常成熟了,可以分詞,做詞性標注、提取標題、關鍵詞、實體,以及重要性、情感等各種各樣的文本分析。
最近10年,學術界又發(fā)展出一整套用于分析圖像、分析文本、分析語音內容的工具。給出一張圖像,可以分析出場景。這是在學校還是酒吧?里面有沒有人或動物?他們高嗎?不管這是對文本還是影像,都可以讓計算機建立對內容的理解。
第二是理解人。首先需要理解一個人長期的靜態(tài)屬性,這叫用戶畫像,包括年齡、性別、身高、出生地等。其次是理解這個人的興趣偏好,比如喜歡什么口味,愛打球還是愛跑步,最近是想旅行還是宅在家里。最后是理解人的意圖。一個人使用你的APP,他當時腦子里在想什么?是在想要用蘋果手機還是三星手機?是在想自己餓不餓嗎?
如果能夠很豐富地在這三個層面建立起對一個用戶的理解,就能在人和內容之間建立很好的匹配關系。
把AR技術應用在用戶拍攝視頻的環(huán)節(jié),給現實生活的畫面加入一些虛擬的元素,這屬于增強現實,使虛擬世界和現實世界更好地互動,使人們在記錄自己生活的時候有更多的新奇體驗。快手之前上線的一款魔法表情叫“快手時光機”,用戶可以在幾十秒內看到自己變老的過程。一個人拍自己的視頻久了會感到乏味,我們希望用戶能夠看到自己變老以后的樣子,從而更加感受到時間的可貴。
在音頻方面,我們也做了非常多的工作。比如之前專業(yè)人士在創(chuàng)作視頻時,編輯字幕是非常痛苦的事情?,F在我們通過語音識別技術,可以幫視頻制作者自動添加、編輯字幕,還可以以各種各樣的形式展示字幕,借助AI技術極大地降低了生成字幕的成本。
音樂在短視頻場景里起了非常重要的作用。據統(tǒng)計,快手的視頻中,有60%~80%的視頻用背景音樂烘托氣氛。如何選擇恰當的音樂表達心情,其實不容易。讓用戶盡量貼合音樂的節(jié)奏創(chuàng)作動作,對于用戶的要求也是非常高的,而具備很強樂感的人其實非常少。
為了降低用戶創(chuàng)作視頻時選擇音樂的門檻,我們開發(fā)了智能配樂及AI生成音樂技術。智能配樂可以根據視頻畫面及用戶畫像為用戶推薦合適的且被用戶喜歡的背景音樂,供用戶選擇。AI生成音樂技術通過AI的分析算法,可以感知視頻畫面中人的動作,然后讓生成的音樂節(jié)奏匹配人的動作,這樣極大地降低了用戶創(chuàng)作視頻時選擇音樂的門檻,讓大家更愿意創(chuàng)作自己的視頻。
快手服務于普通人的記錄與分享,平等普惠是快手的核心價值觀。我們認為每個人都值得被記錄,無論是明星還是大V,不管在城市還是鄉(xiāng)村,每個人都擁有平等分享和被關注的權利,快手不會特殊對待,不捧明星紅人,不進行流量傾斜。
我們保護每一個普通的視頻生產者,帶來了拍攝內容的多樣性,因為拍的人多了,內容自然就越來越豐富了。
我們在觀看需求的多樣性和拍攝內容的多樣性之間做匹配。由于拍攝者拍了很多新鮮的內容被別人看到了,由于觀看者看到了很多他平時看不到的內容,所以最終回到了公平普惠最基本的點上。
如今快手上的視頻總數超過100億,幾乎都是不重復的生活記錄,這在歷史上是前所未有的。如何讓這100億個視頻與觀看視頻的用戶進行匹配是一個巨大的挑戰(zhàn)。
過去,業(yè)內常見的做法是運營好長尾曲線中頭部的“爆款”視頻即可,但快手希望尾部視頻同樣能被感興趣的人看到,真正能夠讓每一個人都得到一些關注。
快手讓每一個生活都可以自我表達,被看見,被欣賞。每一個存在都是獨特的,生活再無高低之分。這是更加真實的世界的鏡像,是一花一世界的境界。在這個基礎上,因為可以相互看見,所以一些社群形成了。
中國有3000萬名開大卡車的司機,他們?yōu)樯嬮L年在外奔波,還可能會遇到車匪路霸,與家人聚少離多,他們有自己的快樂與痛苦,很少被關注,也很難與外人溝通。全世界的海洋上漂著無數的常年不能回家的海員。
而在快手,當一位大卡車司機在駕駛室里不經意間拍下自己工作和生活的場景,被另一位大卡車司機看到時,他們看到了自己的快樂、痛苦和壓力,彼此找到了共鳴,也更加自信了。這是一個社群的形成過程和它的力量。
也許,對外人而言,很多視頻毫無價值,但對拍攝者自己而言,它卻是生活中不可剝離的一部分。這種社會功能,部分可以經由藝術家的創(chuàng)作來實現,但藝術家的創(chuàng)作能力畢竟有限,社群讓很多人獲得新的知識,得到認同,相互支持,提升了幸福感。
當我們把不同的變量輸入“被看見”這個公式時,還可以得到不同的答案。
(摘自中信出版集團《被看見的力量》)