謝 辛
(北京電影學(xué)院,北京 100088)
伴隨媒介技術(shù)與影像制作技術(shù)的發(fā)展,人們對(duì)于真實(shí)度的體驗(yàn)已然常態(tài)化,不僅期待看到流暢、平緩和逼真的視聽作品,對(duì)既往幀率較低的影像作品視效,也產(chǎn)生某種新的需求:是否能夠借助AI技術(shù),完成對(duì)較低幀率的彌補(bǔ),從而實(shí)現(xiàn)幀率與視效更完美的匹配。
幀(Frame),是影響影片流暢度的關(guān)鍵。在電影正式誕生之前,科學(xué)家、研究者已然對(duì)視覺與心理產(chǎn)生興趣。皮特·馬克·羅葛特(Peter Mark Roget)在其論文《通過(guò)垂直孔看到車輪輪輻時(shí)光學(xué)欺騙現(xiàn)象的解釋》(Explanation of an Optical Deception in the Appearance of the Spokes of a Wheel When Seen Through Vertical Apertures,1824)中首次提出視覺暫留(Persistence of Vision)概念,為電影拍攝與放映的幀速率提供理論依據(jù)。從人眼生理角度來(lái)看,“由于人類眼睛的特殊生理結(jié)構(gòu),如果所看畫面之幀率高于每秒約10至12幀的時(shí)候,就會(huì)認(rèn)為是連貫的。”但因?yàn)楫?dāng)時(shí)拍攝所用膠片成本限制等原因,導(dǎo)致拍攝與放映的幀速率直到電影從無(wú)聲進(jìn)入有聲時(shí)期之后,才統(tǒng)一定為我們熟知的標(biāo)準(zhǔn):24fps。
如今,幀已經(jīng)成為電影制作與觀看環(huán)節(jié)常態(tài)化的技術(shù)指標(biāo),幀速率的不斷變化,體現(xiàn)出技術(shù)發(fā)展與觀影效果的革新。更高的幀速率,對(duì)應(yīng)更好的視覺持久性,這一點(diǎn)毋庸置疑。
為何要進(jìn)行補(bǔ)幀的嘗試?答案似乎與人們對(duì)真實(shí)性的不斷切近的心理認(rèn)知有直接的關(guān)聯(lián)。無(wú)論創(chuàng)作者還是觀影者,都希望能夠借助更高的幀速率觀看到更為逼真、自然和流暢的畫面,如此,或?qū)⒋偈闺娪澳軌蛟谙鄬?duì)完美的視效中更好地去完成故事講述,實(shí)現(xiàn)敘事與視聽語(yǔ)言更好的配合??梢哉f(shuō),從“真”到“幀”,成為人們需求與實(shí)踐的焦點(diǎn),也促使補(bǔ)幀技術(shù)逐漸成為現(xiàn)實(shí)。
補(bǔ)幀的一大目的在于將未能拍攝記錄或丟失的動(dòng)作補(bǔ)上,從而實(shí)現(xiàn)物體運(yùn)動(dòng)的順滑流暢。技術(shù)研發(fā)者曾借助AMD、SVP(SmoothVideo Project)、光流法渲染及電視MEMC補(bǔ)幀芯片等計(jì)算畫面中像素的運(yùn)動(dòng)軌跡,以插幀的方式獲得補(bǔ)幀效果,畫面更加流暢和順滑。根據(jù)圖1所示,假設(shè)補(bǔ)幀區(qū)間對(duì)應(yīng)影片前后幀為Frame T、Frame T+1,區(qū)間內(nèi)補(bǔ)幀的畫面均根據(jù)不同幀速率的需求進(jìn)行補(bǔ)幀,從而完成從Frame T到Frame T+1更好的流暢度。
圖1 補(bǔ)幀示意圖(來(lái)自theappliancesreviews.com)
然而,傳統(tǒng)的補(bǔ)幀方法普遍存在一種限制:針對(duì)平面物體的補(bǔ)幀相對(duì)有效。原因在于其計(jì)算的點(diǎn)位較為簡(jiǎn)單,通俗地說(shuō),即為在對(duì)二點(diǎn)進(jìn)行比較之后,取中間點(diǎn)進(jìn)行關(guān)聯(lián)性補(bǔ)幀。因此,面對(duì)影像中越來(lái)越復(fù)雜動(dòng)態(tài)物體的出現(xiàn),比如前方有遮擋的跳躍動(dòng)作或帶轉(zhuǎn)體的跳躍動(dòng)作發(fā)生時(shí),F(xiàn)rame T+1將呈現(xiàn)出與Frame T相異的新元素,而不再是Frame T二維跳躍動(dòng)作的連續(xù),此時(shí)傳統(tǒng)補(bǔ)幀的計(jì)算能力就無(wú)法滿足最終效果的實(shí)現(xiàn)。更符合電影技術(shù)不斷發(fā)展的補(bǔ)幀新技術(shù)的開發(fā)迫在眉睫。
當(dāng)補(bǔ)幀需求與補(bǔ)幀技術(shù)之間出現(xiàn)不對(duì)等時(shí),人們潛意識(shí)中的研習(xí)欲望逐漸促使該技術(shù)的應(yīng)用盡快落地。同時(shí),伴隨AI智能技術(shù)的發(fā)展,AI深度學(xué)習(xí)為補(bǔ)幀提供思路,并形成AI補(bǔ)幀之于慢動(dòng)作影像的應(yīng)用。
2018年,NVIDIA與美國(guó)馬薩諸塞州大學(xué)和加利福尼亞大學(xué)的研究人員,共同開發(fā)出基于深度學(xué)習(xí)系統(tǒng)的路徑,其能夠?qū)?biāo)準(zhǔn)視頻轉(zhuǎn)換為慢動(dòng)作,同時(shí)又不丟失視頻本身的流暢度。研究人員指出,“人的一生中有許多難忘的時(shí)刻,你可能想用慢動(dòng)作鏡頭記錄下來(lái),因?yàn)樗鼈兒茈y用眼睛清晰地看到:嬰兒第一次走路,一個(gè)艱難完成的滑板技巧,一只狗被球擊中……雖然可以用手機(jī)拍攝每秒240幀的視頻,但以高幀速錄制所有內(nèi)容是不切實(shí)際的,因?yàn)樗枰笕萘看鎯?chǔ)空間,并且對(duì)移動(dòng)設(shè)備的功耗很高?!被谏鲜鲆曅С尸F(xiàn)的期望,該團(tuán)隊(duì)借助NVIDIA Tesla V100 GPUs與cuDNN-accelerated PyTorch深度學(xué)習(xí)框架,以每秒240幀的速度拍攝11000多個(gè)日常生活視頻和體育活動(dòng)視頻,為人工智能的卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Networks)提供深度學(xué)習(xí)的基石,進(jìn)而借助這一高效識(shí)別方法預(yù)測(cè)額外幀(Extra Frames),最終完成慢動(dòng)作補(bǔ)幀需求。值得一提,在2015年,Morpho的フレーム補(bǔ)間技術(shù)(Frame Interpolation)出現(xiàn)。作為一種嵌入式軟件程序,其能夠借助對(duì)攝影機(jī)的運(yùn)動(dòng)預(yù)測(cè),在連續(xù)圖像幀之間自動(dòng)生成中間圖像,最終在120fps視頻中生成960fps的極高幀率。這些補(bǔ)幀技術(shù)的出現(xiàn),足見人們?cè)谟跋?、視覺與幀之間的欲望值始終處于高位。
AI以其深度學(xué)習(xí)的能力滿足人們對(duì)于慢動(dòng)作帶來(lái)從“看不清”到“看得清”的視覺快感享受,更拓展了對(duì)全視覺享受追求的維度,因?yàn)槠溲a(bǔ)的并不是單幀,而是經(jīng)過(guò)對(duì)大量影像素材的深度學(xué)習(xí)之后,所生成的“補(bǔ)幀的集合”。這一“集合”的好處在于,能夠規(guī)避對(duì)動(dòng)作流暢度造成影響的非典型性因素。仍以帶轉(zhuǎn)體的跳躍動(dòng)作為例,AI可學(xué)習(xí)《黑天鵝》《芳華》等電影中的舞蹈動(dòng)作,也可學(xué)習(xí)體育比賽、游戲中的轉(zhuǎn)體動(dòng)作,當(dāng)轉(zhuǎn)體跳躍成為一種“集合”之后,在適當(dāng)?shù)挠跋裰羞M(jìn)行精準(zhǔn)、對(duì)位的補(bǔ)幀,或成為AI深度學(xué)習(xí)的成果展示。
2020年,上海交大開源新的插幀算法,即深度感知視頻幀插值(DAIN,Depth-Aware Video Frame Interpolation),其促使補(bǔ)幀真正根植于“補(bǔ)”的價(jià)值最大化,不僅能夠?qū)?0fps插幀至480fps,更將補(bǔ)的“幀”指向了想象界,借助對(duì)深度變化的測(cè)量和估算,進(jìn)行比以往補(bǔ)幀更進(jìn)一步的遮擋檢測(cè)(圖2)。有研究者稱,“給定兩個(gè)時(shí)刻的輸入幀,先估計(jì)光流和深度圖,然后使用建議的深度感知流投影層生成中間流……模型基于光流和局部插值內(nèi)核對(duì)輸入幀、深度圖和上下文特征進(jìn)行扭曲,合成輸出幀。”該應(yīng)用程序更與視聽新媒體發(fā)展對(duì)應(yīng),除了電影,可以廣泛地插值新幀應(yīng)用于動(dòng)漫等領(lǐng)域。
圖2 DAIN補(bǔ)幀的自動(dòng)識(shí)別景深示意圖(來(lái)自互聯(lián)網(wǎng)資訊博主極客灣)
雖然目前DAIN仍需使用支持CUDA的計(jì)算機(jī),補(bǔ)幀的時(shí)長(zhǎng)也可能耗損太久,對(duì)一些偏重藝術(shù)性、實(shí)驗(yàn)性而弱化邏輯關(guān)聯(lián)的影片補(bǔ)幀也存在欠缺,但種種缺陷的出現(xiàn)一方面表明AI深度學(xué)習(xí)對(duì)于影像應(yīng)用的前景來(lái)說(shuō)尤為廣闊,同時(shí)也促使從阿蘭·麥席森·圖靈(Alan Mathison Turing)開始的那種對(duì)于“機(jī)器能否思考”的想象,逐漸從疑問(wèn)變成可以實(shí)現(xiàn)的現(xiàn)實(shí)。這也成為人類在媒介化、智能化生存環(huán)境中,不得不面對(duì)的現(xiàn)實(shí)。
從上文不難看出,對(duì)于深度學(xué)習(xí)補(bǔ)幀的嘗試,只是剛剛開始。AI補(bǔ)幀對(duì)視聽新媒體時(shí)代越來(lái)越創(chuàng)新形態(tài)、越來(lái)越多元內(nèi)容的影像發(fā)展而言,勢(shì)必成為一大利器,激發(fā)受眾更為廣泛的好奇心,也沖擊業(yè)界相關(guān)工作者的工作現(xiàn)狀。但無(wú)論如何,技術(shù)的發(fā)展由人類的欲望決定,機(jī)器深度學(xué)習(xí)的目標(biāo)也更深入和廣泛地指向了更具有想象力的層面。
在DAIN出現(xiàn)之后,對(duì)于動(dòng)漫創(chuàng)作者來(lái)說(shuō),之前可能每秒要畫12張,如今只需要8張,即可借助補(bǔ)幀實(shí)現(xiàn)24fps的效果。但互聯(lián)網(wǎng)資訊博主極客灣也指出,在日本動(dòng)漫中,“24幀8畫的動(dòng)漫比8幀實(shí)拍視頻要更難補(bǔ)幀,因?yàn)閯?dòng)漫雖然24幀,但是不可能1秒24張畫,好一點(diǎn)的12張,大多數(shù)是8張,甚至更少。所以動(dòng)漫補(bǔ)幀往往用在大場(chǎng)景上,人物的補(bǔ)幀很難流暢。”由此,對(duì)于當(dāng)下和未來(lái)一段時(shí)間內(nèi)使用DAIN補(bǔ)幀的用戶而言,進(jìn)行實(shí)拍影像的補(bǔ)幀或許更為可行。
值得一提,雖然與動(dòng)漫同樣受到年輕受眾歡迎的游戲的流暢度主要依靠顯卡,但在某個(gè)應(yīng)用程序無(wú)法產(chǎn)生幀速率進(jìn)而開始丟幀時(shí),也出現(xiàn)對(duì)應(yīng)的補(bǔ)幀方案。比如2018年,Steam VR推出運(yùn)動(dòng)平滑(Motion Smoothing)功能,“它將根據(jù)最后兩個(gè)幀來(lái)估計(jì)運(yùn)動(dòng)和動(dòng)畫,并推斷一個(gè)新幀。合成新幀可以令當(dāng)前應(yīng)用程序保持全幀速率,并且避免抖動(dòng)。這意味著玩家仍然能體驗(yàn)全幀速率(Vive和Vive Pro為90Hz),但應(yīng)用程序只需要每2幀渲染1次,從而大大降低了性能要求?!?/p>
科技媒體36氪與數(shù)據(jù)智能服務(wù)商個(gè)推大數(shù)據(jù)調(diào)查顯示,由于新冠肺炎疫情的影響,致使宅在家的受眾尤其是年輕群體對(duì)游戲依賴度較高,以手游為甚。由此,手機(jī)屏幕刷新率(對(duì)應(yīng)幀速率)的硬件提升,以及智能化補(bǔ)幀或?qū)⒈煌茷榧夹g(shù)領(lǐng)域的焦點(diǎn)。比如2020年3月,OPPO推出的Find X2 Pro系列手機(jī)具備視頻動(dòng)態(tài)插幀技術(shù),可借助算法補(bǔ)幀將30fps的視頻畫面提升至120fps,用戶在觀看愛奇藝、優(yōu)酷、騰訊視頻、Netflix等合作視頻平臺(tái)的視聽內(nèi)容時(shí),均能在手機(jī)終端即可享受舒適的流暢度。
補(bǔ)幀似乎已經(jīng)成為與智能化、網(wǎng)絡(luò)化生存的受眾生活不可分割的部分,其存在越來(lái)越趨于常態(tài)。進(jìn)一步思考和挖掘補(bǔ)幀的功能性,我們會(huì)發(fā)現(xiàn)其不僅滿足人們對(duì)于新生事物的好奇和欣喜,更可以將懷舊、傳統(tǒng)與新技術(shù)結(jié)合,實(shí)現(xiàn)老舊影像的智能化傳承。
2020年3月,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布最新《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2020年3月,我國(guó)網(wǎng)民規(guī)模為9.04億,50歲及以上年齡群體占比16.9%,中老年齡受眾持續(xù)增加。這一方面取決于老齡社會(huì)的不斷加劇,一方面也說(shuō)明新媒體與老年群體之間的“代溝”正在不斷彌合,老年人適應(yīng)新媒體時(shí)代發(fā)展的現(xiàn)實(shí)不容小覷。因此,作為創(chuàng)作者和技術(shù)開發(fā)者,針對(duì)龐大的、不斷增加的老齡受眾,將他們喜愛的傳統(tǒng)影像借助AI補(bǔ)幀的方式重新制作,或可打開某種有針對(duì)性的市場(chǎng)供需新局面。
誠(chéng)然,在AI補(bǔ)幀的同時(shí),還可以借助Gigapixel AI等增強(qiáng)程序?qū)τ跋癞嬅娣直媛?Image resolution)做超分辨率處理。我們?cè)O(shè)想某個(gè)480p的老舊電影補(bǔ)到1080p之后,除了更真實(shí)、清晰和流暢的視覺愉悅,亦能凸顯某種與人文關(guān)懷正相關(guān)的情感,這或許正是人工智能深度學(xué)習(xí)的重要價(jià)值。
經(jīng)過(guò)上文分析,我們發(fā)現(xiàn)AI補(bǔ)幀與影像之間的應(yīng)用存在較好的前瞻性。面對(duì)諸多利好和技術(shù)帶來(lái)的快感,我們更需對(duì)此進(jìn)行反思和自省,力求在AI補(bǔ)幀的既有嘗試中獲得更多、更深層的拓展,并對(duì)其他硬軟件技術(shù)的研發(fā)提供思路。
圖3 畫面撕裂示意圖(來(lái)自easypcmod.com)
第一,需避免畫面撕裂(Screen Tearing)等潛在問(wèn)題。畫面撕裂指的是顯示器將多幀同時(shí)顯示在一個(gè)畫面上的情況(圖3)。如果原視頻幀速率較低,動(dòng)態(tài)畫面又相對(duì)較多,則補(bǔ)至更高幀速率之后出現(xiàn)畫面撕裂的可能性就越大。這就對(duì)顯卡與屏幕更新率之間的對(duì)等性提出了更高的技術(shù)要求。
第二, AI補(bǔ)幀引發(fā)反向思維。如果說(shuō)補(bǔ)幀是將缺失的幀補(bǔ)足,其反向則體現(xiàn)為減幀。比如與動(dòng)態(tài)影像直接相關(guān)的幀間(Inter)壓縮,可以借助前后幀來(lái)推測(cè)該幀(待壓縮幀)的數(shù)據(jù)值。幀間壓縮能夠減小本地磁盤占用空間,對(duì)借助流媒體觀看視頻內(nèi)容的用戶而言,能夠在保證觀影效果的前提下極大程度地保證流暢度。抽幀則是在動(dòng)漫行業(yè)已應(yīng)用的一種技術(shù)手段,如圖4所示,不同幀速率帶來(lái)的視覺“流暢”感也不盡相同,但并非越高的幀率等同于“流暢”,盡可能避免失真才是動(dòng)態(tài)創(chuàng)作與技術(shù)應(yīng)用之間達(dá)到平衡狀態(tài)的理智選擇。
圖4 動(dòng)漫抽幀示意圖(原圖為GIF,來(lái)自zhihu.com)
第三, 激發(fā)更多智能想象。比如2020年5月,華盛頓大學(xué)和Facebook借助單目深度估計(jì)算法,“只需要對(duì)視頻中任意幀進(jìn)行配對(duì)采樣,就可以將這一過(guò)程擴(kuò)展到整個(gè)視頻,對(duì)單目視頻中的所有像素進(jìn)行幾何一致的深度重建”,從而實(shí)現(xiàn)單目視頻(Monocular Videos)重建3D場(chǎng)景的嘗試,如果引入電影領(lǐng)域,或可運(yùn)用至諸多難以實(shí)現(xiàn)的特效場(chǎng)景制作之中。
注釋
①與幀間壓縮相關(guān)的幀內(nèi)(Intra)壓縮概念,更像是圖片壓縮,與該幀的前后幀無(wú)關(guān)。