詹姆斯·凱爾利斯
當(dāng)你思考人工智能(AI),具體地說(shuō)能夠完成歷史上由人類智能完成的自主任務(wù)的軟件時(shí),會(huì)讓人聯(lián)想到天網(wǎng)(Skynet)——電影《終結(jié)者》里一個(gè)人類于20世紀(jì)后期創(chuàng)造的以計(jì)算機(jī)為基礎(chǔ)的人工智能防御系統(tǒng),它最初是研究用于軍事的發(fā)展,后自我意識(shí)覺(jué)醒,視全人類為威脅,以誘發(fā)核彈攻擊為起步發(fā)動(dòng)了將整個(gè)人類置于滅絕邊緣的審判日。
這是虛構(gòu)的。但在現(xiàn)實(shí)生活中,A I正在進(jìn)入工作場(chǎng)所,包括壓縮視頻的編碼、轉(zhuǎn)碼和解碼。利用他們的程序內(nèi)AI的能力,像Bitmovin、Cobalt Digital、MediaKind、Telestream和V-Nova這樣的廠家正在降低帶寬要求的同時(shí)加速他們的編碼程序,從而為其客戶提供更快、更經(jīng)濟(jì)實(shí)惠的產(chǎn)品。
“A I正開(kāi)始在編碼中起重要作用,在此領(lǐng)域它具有顯著改進(jìn)工作流程的巨大潛力,”基于云的媒體流媒體技術(shù)開(kāi)發(fā)商Bitmovin CEO和共同創(chuàng)始人斯蒂芬·萊德?tīng)柋硎?,“隨著新編解碼、新視頻文件格式和分發(fā)方式的涌現(xiàn),電視和媒體業(yè)需要以AI提供的自動(dòng)化、即時(shí)和高效率方式改進(jìn)編碼的解決方案?!?/p>
即便如此,就編碼過(guò)程中AI的限制問(wèn)題,廠家之間意見(jiàn)不一。AI(亦稱為機(jī)器學(xué)習(xí)ML)無(wú)疑能夠加速編碼過(guò)程,但它能夠做人類觀察者能夠做的一切,檢測(cè)和整治壓縮視頻中的人工產(chǎn)物嗎?沒(méi)有人真正知道。
人類無(wú)需參與編碼出現(xiàn)后的復(fù)審階段,因此在這個(gè)階段提高了速度,記住這一點(diǎn)很重要。特納媒體咨詢公司保羅·特納表示:“編碼參數(shù)可設(shè)置為一組預(yù)定義的值,但你依然必須看結(jié)果且評(píng)估編碼輸出是否有足夠好的質(zhì)量。如果沒(méi)有,你必須重復(fù)設(shè)置?!?/p>
(順便說(shuō)明,ML為狹義版AI,其中AI賦能軟件負(fù)責(zé)對(duì)預(yù)定義參數(shù)內(nèi)的特定數(shù)據(jù)做出決定;而不是會(huì)自我感知和選擇毀滅人類。本文章,我們將互換使用這兩個(gè)術(shù)語(yǔ)。)
AI如何能夠改進(jìn)編碼
當(dāng)前的視頻編解碼使用算法分析視頻圖像,決定在不降低觀眾察覺(jué)的主觀圖像質(zhì)量的條件下那些比特可以去除以減少文件尺寸。
把AI注入此編碼過(guò)程讓該處理更進(jìn)一步。A I允許軟件在傳輸前前瞻性地評(píng)估壓縮視頻的質(zhì)量。這讓編碼系統(tǒng)檢測(cè)和糾正任何編解碼器非故意產(chǎn)生的人工產(chǎn)物。在A I做此工作的過(guò)程中,它“學(xué)習(xí)”其行為,用此知識(shí)通過(guò)連續(xù)應(yīng)用提高其性能。
結(jié)果:“通過(guò)使用A I,編碼解決方案能夠做出關(guān)于每幀壓縮設(shè)置和視覺(jué)參數(shù)的智能決定,加速處理和提高編碼效率,”萊德?tīng)栒f(shuō),“訓(xùn)練過(guò)的A I模型甚至能夠預(yù)測(cè)每個(gè)特定源資產(chǎn)的最佳編碼設(shè)置以及處理工具?!?/p>
英國(guó)編解碼開(kāi)發(fā)商V-Nova CEO和共同創(chuàng)始人吉多·梅亞爾迪表示,A I用于編碼還與其它方式。最常見(jiàn)的方式之一是增加現(xiàn)有編解碼的預(yù)測(cè)能力,決定哪些比特可被安全移除。
“你預(yù)測(cè)圖像越好,最后剩下的需編碼的就越少,”梅亞爾迪說(shuō),“因此在保證質(zhì)量的前提下你必須通過(guò)輸送管道發(fā)送的量也越少。”
AI的局限
在每個(gè)例子中,A I正通過(guò)自動(dòng)質(zhì)量控制努力改進(jìn)視頻制作過(guò)程。這意味著減少慢得多(且更昂貴)的人為干預(yù),就能執(zhí)行相同的任務(wù)。
“你從根本上努力要做的是模仿人類評(píng)估,”Telestream CTO肖恩·卡納漢表示,“你正在設(shè)法使用機(jī)器學(xué)習(xí)仿真觀眾感知內(nèi)容質(zhì)量的方式,并用它判斷像‘我能更進(jìn)一步提高碼率或?yàn)楸3种饔^質(zhì)量不變我需要提高碼率嗎?這樣的問(wèn)題?!?/p>
這聽(tīng)起來(lái)是否令人望而生畏?是的。AI軟件確實(shí)經(jīng)過(guò)訓(xùn)練能夠“尋找圖像中人類觀眾會(huì)發(fā)現(xiàn)令人不快的東西,”卡納漢說(shuō),“你正在訓(xùn)練一個(gè)機(jī)器找出不應(yīng)在那里出現(xiàn)的東西?!?/p>
這是A I賦能的視頻編碼局限性所在?!坝密浖荒R粯幽7禄虮M最大努力表現(xiàn)人類視覺(jué)系統(tǒng)幾乎不可能,”MediaKind(前愛(ài)立信媒體解決方案公司)產(chǎn)品管理副總裁卡爾·費(fèi)格森表示,“20或30多年來(lái)人們一直在努力,但始終不成功,我認(rèn)為永遠(yuǎn)沒(méi)有人真的能夠找到一個(gè)模仿得一模一樣的人類視覺(jué)系統(tǒng)?!?/p>
費(fèi)格森說(shuō),問(wèn)題在于相比基于度量的AI觀看模式,人類觀看具有主觀性?!艾F(xiàn)實(shí)中人們認(rèn)為圖像質(zhì)量較好,但測(cè)量工具給出的結(jié)果總是不盡相同,不管AI觀看模型可能有多先進(jìn)?!?/p>
特納說(shuō),質(zhì)量評(píng)價(jià)不僅僅是關(guān)于絕對(duì)的圖像質(zhì)量;還有未經(jīng)訓(xùn)練的人類觀眾意識(shí)不到的失真,“這也得納入AI訓(xùn)練內(nèi)?!?/p>
這意味著A I注定在視頻壓縮中扮演一個(gè)次要角色?V-Nova的吉多·梅亞爾迪不怎么認(rèn)為。即使有其局限,但他預(yù)測(cè)AI將成為“未來(lái)壓縮引擎一個(gè)不可或缺的部分”。
然而,在此技術(shù)能夠真正與人類視覺(jué)系統(tǒng)的復(fù)雜性和精微玄妙性一致之前,人工介入將依然為高質(zhì)量視頻壓縮一個(gè)必要的部分。AI至多不斷降低人類必須介入以保障圖像質(zhì)量的實(shí)例比例。B&P