Joshua Rothman
2011年,照片鑒證專家法里德(Hany Farid)收到一封失去兒子的父親發(fā)來的郵件。3年前,發(fā)件人的兒子因?yàn)檐囎影l(fā)動(dòng)不了站在路邊,幾個(gè)陌生人請(qǐng)他搭順風(fēng)車,他上車幾分鐘后被槍殺,原因未明。一個(gè)監(jiān)控?cái)z像頭拍下了他走向那些人的車的畫面,但畫質(zhì)很差看不清哪些人的臉,沒有這些關(guān)鍵細(xì)節(jié)無法確認(rèn)嫌疑人。嫌疑車輛的車牌號(hào)也分辨不了。父親能看到指向殺害兒子兇手的證據(jù),只是清晰度不夠。
在上世紀(jì)90年代后期,法里德率先對(duì)數(shù)碼照片進(jìn)行鑒證分析,并且擔(dān)任很多刑事案件和民事案件的專家證人,去解釋某個(gè)有爭(zhēng)議的數(shù)碼圖像或視頻到底是真還是假。他現(xiàn)在是達(dá)特茅斯計(jì)算機(jī)科學(xué)的教授,在他位于達(dá)特茅斯的實(shí)驗(yàn)室里,他一遍又一遍地播放著那位父親發(fā)來的視頻,看看能做些什么。在電視劇里,偵探們通常會(huì)“增強(qiáng)”圖片,銳化嫌疑人的臉部像素得到清晰的樣貌。但在實(shí)際生活里這種操作是不可能的。因?yàn)橐曨l在攝像頭成像保存過程中已經(jīng)被壓縮了,最終保留下來的信息量很小,而圖像的壓縮是不可逆的。這個(gè)案子懸而未決。
幾個(gè)月后,法里德想到了一個(gè)解決方案。如果能用同一款監(jiān)控?cái)z像頭拍攝大量的車牌,是否可以算出模糊的像素和特定的車牌號(hào)碼之間的關(guān)系?這種關(guān)聯(lián)會(huì)很細(xì)微,因?yàn)閳D像的模糊還跟光線條件、車牌設(shè)計(jì)以及其他很多因素都有關(guān)系。盡管如此,如果圖像庫足夠大的話,還是可能找出其中關(guān)聯(lián)的。
這種方法原本看起來不切實(shí)際,但是隨著計(jì)算機(jī)圖像和AI融合的“圖像合成”受到關(guān)注,進(jìn)展加快了。在新興的“合成媒體”世界里,數(shù)字圖像變?yōu)榱送ㄟ^專家系統(tǒng)就能自動(dòng)大規(guī)模生成。
法里德先是讓他的研究生在達(dá)特茅斯校園拍攝了幾百個(gè)車牌,根據(jù)這些照片建立了一個(gè)生成模型,能夠合成更多圖片。在幾周的時(shí)間里,他們制造了數(shù)千萬張仿真的車牌照片,每一張都不一樣。接下來,把這些合成照片全部輸入模擬的監(jiān)控?cái)z像頭,讓圖片變得模糊,目的是建立一個(gè)把像素和車牌號(hào)聯(lián)系起來的解讀系統(tǒng)。
而后他們開始訓(xùn)練神經(jīng)網(wǎng)絡(luò)來解讀那些模糊的圖像。現(xiàn)代神經(jīng)網(wǎng)絡(luò)是多層次的,每一個(gè)層級(jí)都有數(shù)百萬個(gè)變量,在這樣一個(gè)網(wǎng)絡(luò)里監(jiān)控?cái)?shù)據(jù)流就好比在瀑布里追蹤一滴水一樣困難。研究人員不確定這個(gè)神經(jīng)網(wǎng)絡(luò)如何運(yùn)行,必需通過反復(fù)測(cè)試來訓(xùn)練。法里德的團(tuán)隊(duì)多次完善這個(gè)神經(jīng)網(wǎng)絡(luò),最后他們把上面提到的案件視頻中一幀靜止圖像輸入了這個(gè)網(wǎng)絡(luò),在圖片上的車牌就像是10個(gè)噪音的像素,但是仍然有信號(hào)。而神經(jīng)網(wǎng)絡(luò)能肯定辨認(rèn)出車牌最后3位。
去年夏天法里德把車牌最后3位發(fā)給了負(fù)責(zé)該案的偵查人員。此前警方把調(diào)查范圍縮小到了一部藍(lán)色雪佛蘭,而根據(jù)神經(jīng)網(wǎng)絡(luò)辨認(rèn)出的車牌后3位鎖定了其中一輛車。跟被鎖定的那輛車的車主竟然也是另一宗案件的涉案人員,因此快10年都尚未偵破的案子又重啟調(diào)查了。與此同時(shí),法里德及其團(tuán)隊(duì)把研究成果發(fā)表在了計(jì)算機(jī)視覺期刊上。在論文里,他們指出這個(gè)系統(tǒng)是對(duì)幾百個(gè)低像素監(jiān)控?cái)z像頭的免費(fèi)升級(jí)。但影像合成也是一把雙刃劍,它可以把假圖像做得像真的一樣。
在充斥著各種假新聞的媒體環(huán)境里,這種新技術(shù)帶來了各種不良影響。早前一位匿名用戶在Redditor上發(fā)布了一個(gè)軟件工具,該軟件利用神經(jīng)網(wǎng)絡(luò)能將一個(gè)人的臉替換成另一個(gè)人的,同時(shí)能保持表情一致,軟件開放給所有人用來合成視頻。與這個(gè)軟件同時(shí)發(fā)布的,還有幾個(gè)色情視頻,主角看似是各種好萊塢女明星,但實(shí)際是偽造的。在華盛頓大學(xué)的一個(gè)研究團(tuán)隊(duì)發(fā)表的論文《合成奧巴馬》指出,神經(jīng)網(wǎng)絡(luò)可以制造出看似真的視頻,視頻里前總統(tǒng)奧巴馬在說著一些話,但那些話實(shí)際上是由另一個(gè)人說出來的。
伯克利校區(qū)北部坐落著世界上最好的圖像合成實(shí)驗(yàn)室之一,該實(shí)驗(yàn)室的負(fù)責(zé)人是阿列克謝·埃弗羅斯。我在前往伯克利之前給他的一個(gè)研究生吉諾薩(Shiry Ginosar)發(fā)郵件詢問如何制作一個(gè)我自己的合成圖像。她在郵件里給了我詳細(xì)指引:為了讓我們能夠生成你的后腦勺圖像,你的輪廓,還有你的手臂上下擺動(dòng)等等,我們需要你錄一段有這些素材的影響。于是我在手機(jī)鏡頭前走來走去,轉(zhuǎn)圈,做各種動(dòng)作,大概錄了10分鐘。之后吉諾薩告訴我,大概需要兩周時(shí)間讓神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)合成我的影像。
在讀博士帕塔克(Deepak Pathak)說,1999年《黑客帝國(guó)》上映的時(shí)候,這種想法的雛形就出現(xiàn)了?,F(xiàn)在計(jì)算機(jī)運(yùn)行速度快了很多,圖形處理能夠?yàn)橛螒蛟O(shè)計(jì)提供很多助力。而且這些軟件都是開源的。現(xiàn)在即便是高中生都能從圖書館里找到并運(yùn)行這些程序代碼。家用計(jì)算機(jī)的升級(jí)和另一趨勢(shì)重合:大量的圖片視頻被上傳到網(wǎng)絡(luò)。
埃弗羅斯說,在2000年的時(shí)候計(jì)算機(jī)圖片數(shù)據(jù)匱乏,盡管3D建模能夠做出逼真的場(chǎng)景,但那些設(shè)計(jì)出來的城市、室內(nèi)和山景看起來有點(diǎn)缺乏生氣。真實(shí)的場(chǎng)景需要大量的數(shù)據(jù),關(guān)于垃圾、灰塵和蕪雜。而收集這些數(shù)據(jù)的最佳方式就是隨機(jī)地記錄日常生活。
比如你有一張晴天拍攝的風(fēng)景照,你可能想知道這個(gè)景觀在雨天看來是什么樣的。而關(guān)于這個(gè)問題,答案不只一個(gè)。一個(gè)真正的有創(chuàng)造力的網(wǎng)絡(luò)能夠合成多種看似真實(shí)的圖像,能綜合很多的可能性,類似法里德生成車牌系統(tǒng)做的那樣,但比那個(gè)復(fù)雜得多。
斯坦福大學(xué)和普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)家共同運(yùn)營(yíng)了一個(gè)叫ImageNet的網(wǎng)站,系統(tǒng)里存有1400萬張普通地點(diǎn)和物品的照片,大部分是來自社交和購物網(wǎng)站上發(fā)布的隨機(jī)快照。最初這些照片需要雇人來整理分類,到了2012年,多倫多大學(xué)的研究人員建立了一個(gè)神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)完成分類工作。近年來,YouTube變成了一個(gè)非官方的ImageNet視頻系統(tǒng)。埃弗羅斯的實(shí)驗(yàn)室則擺脫了這些網(wǎng)站的平臺(tái)偏見——偏愛貓和流行歌星——建立了一個(gè)中立的神經(jīng)網(wǎng)絡(luò),囊括了很多人們?nèi)粘I畹囊曨l,諸如拆快遞、翻冰箱、用毛巾擦干、刷牙之類的。這個(gè)巨大的包含無趣視頻的數(shù)據(jù)庫,把合成現(xiàn)實(shí)帶到了一個(gè)新高度。
埃弗羅斯在電腦上展示了一張從里昂大橋上拍攝的照片,照片上有一大塊缺失。他在電腦上點(diǎn)擊了一下,那張照片缺失的部分就被合成風(fēng)景填滿了,包括建筑和綠植。他解釋說,2007年他設(shè)計(jì)了一個(gè)系統(tǒng),能通過網(wǎng)站搜索類似的照片進(jìn)行采樣。很多照片是在度假時(shí)拍攝上傳的,合成風(fēng)景可能來自另外一個(gè)城市,但是河岸風(fēng)景總有些類似的建筑,合成起來毫無違和感。
合成現(xiàn)實(shí)延伸到了社交媒體上,臉書新聞推送強(qiáng)調(diào)“跟你相似的人在看什么”,而除了尋找相似點(diǎn)之外,社交媒體更是在創(chuàng)造相似點(diǎn)。假如你瀏覽了很多某一類圖片,神經(jīng)網(wǎng)絡(luò)就可以合成那種你會(huì)感興趣的圖片。
伯克利實(shí)驗(yàn)室的門上寫著“小心深網(wǎng)”。剛獲得博士學(xué)位的理查德·張梳理了合成圖像最新的發(fā)展。他說,比如你有一張晴天拍攝的風(fēng)景照,你可能想知道這個(gè)景觀在雨天看來是什么樣的。而關(guān)于這個(gè)問題,答案不只一個(gè)。一個(gè)真正的有創(chuàng)造力的網(wǎng)絡(luò)能夠合成多種看似真實(shí)的圖像,能綜合很多的可能性,類似法里德生成車牌系統(tǒng)做的那樣,但比那個(gè)復(fù)雜得多。
2016年,美國(guó)國(guó)防部高級(jí)研究計(jì)劃局啟動(dòng)了媒體鑒證計(jì)劃MediFor,重點(diǎn)關(guān)注合成媒體對(duì)國(guó)家安全的威脅。該項(xiàng)目的經(jīng)理馬特·圖雷克舉例說明了可能的圖像操縱:圖像里加入別的地方剪切黏貼過來的物體,從場(chǎng)景中刪除對(duì)象,換臉,音頻和視頻不一致,偽造在某個(gè)時(shí)間或地點(diǎn)拍攝的圖片。他指出,在未來幾年我們可能會(huì)看到很多實(shí)際未發(fā)生過的事情的圖像。從不同角度拍攝的圖片或影像會(huì)以某種方式合成,讓他們看起來像是來自不同的拍攝設(shè)備。某些國(guó)家可能會(huì)利用這種合成技術(shù)來達(dá)到某種軍事或政治目的。即便一個(gè)資源匱乏的小集團(tuán)也能做到這一點(diǎn),甚至個(gè)人都可以。
MediFor聚集了來自各大高校、科技公司和政府機(jī)構(gòu)的數(shù)十位科研人員,開發(fā)基于50多項(xiàng)圖像操縱的自動(dòng)化系統(tǒng),目的不止能甄別出偽造圖像。圖雷克說他們希望在找出合成圖像之后還能追蹤到到具體是誰干的,以及他的動(dòng)機(jī)是什么。
理想狀態(tài)下這類系統(tǒng)能植入各大社交平臺(tái),對(duì)合成的內(nèi)容進(jìn)行標(biāo)記。但是問題在于速度。每天都有57.6萬小時(shí)的視頻被上傳到Y(jié)ouTube,MediFor系統(tǒng)的運(yùn)算時(shí)間有限。此外也還存在一些懸而未決的問題,比如如何把無害的操縱和惡意的操縱區(qū)分開來?廣告內(nèi)容會(huì)不會(huì)被標(biāo)記?合成內(nèi)容到底有多少?
法里德在自己家的客廳播放了一個(gè)名為“金雕抓小孩”的視頻,視頻里一只猛禽在蒙特利爾公園撲向一個(gè)幼兒。法里德解釋說,專業(yè)的軟件可以識(shí)別金雕的陰影和幼兒的陰影有細(xì)微的錯(cuò)位。法里德調(diào)出一只灰熊的圖片,指出在高放大倍率下,它的口鼻邊緣呈現(xiàn)藍(lán)色和紅色。當(dāng)光射到鏡頭的表面會(huì)發(fā)生彎曲,彎曲程度和波長(zhǎng)相關(guān),因此你可以看到光的散射現(xiàn)象。這些色差在圖像的中心最小,在邊緣最大。如果一張照片不符合這個(gè)規(guī)律,就表示是由不同的圖像合成的。
有些措施可以讓數(shù)碼圖像比模擬圖像更具防偽性,數(shù)碼相機(jī)成像過程中保存了大量數(shù)據(jù),而且并不均勻, 不可避免產(chǎn)生褶皺,從而導(dǎo)致圖像呈現(xiàn)一些像素點(diǎn)更亮或更暗的模式,而這個(gè)模式每一臺(tái)相機(jī)都不一樣?,F(xiàn)代數(shù)碼相機(jī)通常會(huì)通過猜測(cè)傳感器無法捕捉到的光來實(shí)現(xiàn)更高的分辨率,這就導(dǎo)致在成像過程中圖像有三分之二不是忠實(shí)記錄而是合成,以某種合乎邏輯的方式創(chuàng)造一個(gè)獨(dú)一無二的模式。如果你對(duì)圖像進(jìn)行了后期編輯,這個(gè)模式就會(huì)受到干擾。
Jacob Huh是實(shí)驗(yàn)室的一名研究生,他訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)來發(fā)現(xiàn)色差和其他操縱痕跡,該神經(jīng)網(wǎng)絡(luò)會(huì)生成熱圖,標(biāo)出圖像中可疑的區(qū)域。從理論上講,如果能識(shí)別出偽造的部分,就能設(shè)計(jì)出逃避甄別的對(duì)策。比如說把鑒證神經(jīng)網(wǎng)絡(luò)整合進(jìn)造假神經(jīng)網(wǎng)絡(luò)里,訓(xùn)練造假的神經(jīng)網(wǎng)絡(luò)躲過鑒證。因此,法里德在國(guó)際鑒證科學(xué)上發(fā)布的論文《后真相時(shí)代的數(shù)碼鑒證》中,呼吁研究人員將最新的科技保密一段時(shí)間,他認(rèn)為當(dāng)下應(yīng)該在科學(xué)公開和助長(zhǎng)敵對(duì)勢(shì)力之間找到一個(gè)平衡。
在法里德看來,大量獨(dú)特的操縱指標(biāo)使鑒證專家略勝一籌,正如造假者必須費(fèi)力解決百元美鈔上的每一個(gè)防偽特征,媒體操縱者也需要克服無數(shù)的技術(shù)問題,甚至有些是統(tǒng)計(jì)學(xué)意義上而非肉眼可見的,訓(xùn)練神經(jīng)網(wǎng)絡(luò)來做這件事也有很大難度。
但法里德同時(shí)也指出,造謠比辟謠在傳播上有優(yōu)勢(shì),正如前文提到的金雕抓小孩視頻,雖然已經(jīng)被證實(shí)是偽造的,但它在網(wǎng)絡(luò)上的點(diǎn)擊率達(dá)到了1300萬次。圖雷克推測(cè)說,當(dāng)涉及圖片和影像時(shí),人們的信任度會(huì)降低,不再相信“眼見為實(shí)”了。
馬里蘭大學(xué)法學(xué)教授西特倫(Danielle Citron)和得克薩斯州大學(xué)法學(xué)教授切尼斯(Robert Chesney)聯(lián)合發(fā)表了一篇論文,探討了某些類型合成媒體是否涉嫌違法以及是否需要修法禁止。他們?cè)谡撐睦镞€進(jìn)行了一些猜想,比如出現(xiàn)最糟糕的情況是用合成媒體達(dá)到構(gòu)陷或者勒索的目的,那么人們可能需要不斷地錄制自己,一邊在被構(gòu)陷的時(shí)候證明自己的清白。而提供此類記錄服務(wù)的供應(yīng)商將擁有巨大的權(quán)利,它的數(shù)據(jù)庫對(duì)執(zhí)法機(jī)構(gòu)也很重要。如果讓人們?cè)诒槐O(jiān)視和被合成造謠之間選擇,很多人可能寧愿選擇被監(jiān)視。
周五的早上,我在埃弗羅斯的實(shí)驗(yàn)室看到了自己的合成影像。吉諾薩打開電腦上一段視頻,在屏幕左上方的頁面播放的是火星哥布魯諾·馬爾斯(Bruno Mars)的一段視屏,在他下方的頁面是模仿他動(dòng)作的人形輪廓,吉諾薩解釋說那是動(dòng)作探測(cè)。屏幕右方則是我的圖像,動(dòng)作則跟火星哥的舞蹈動(dòng)作一致。吉諾薩按了一下空格鍵,電腦開始播放火星哥的MV,畫面里他在舞蹈,而我的合成圖像也跟著他在跳舞,甚至連地面的影子也在一致轟動(dòng)。研究人員說他們并沒有教機(jī)器怎么合成圖像,這是機(jī)器自己學(xué)會(huì)的。
雖然仔細(xì)觀察之后,我還是找出了合成影像的一些紕漏,比如襯衫出現(xiàn)多余的扣子,腕表一會(huì)兒出現(xiàn)一會(huì)兒消失。但這個(gè)合成影像還是讓我很震驚,畫面里我們的發(fā)型是如此相似,我們手指打節(jié)拍是如此一致。埃弗羅斯說音樂對(duì)此也有幫助,讓紕漏沒有那么顯眼。
在Photoshop出現(xiàn)之前,大家都相信圖片是真實(shí)的,但實(shí)際上圖片從最開始就不是客觀的,你所拍攝的對(duì)象、角度都是經(jīng)過選擇的。也許這種對(duì)圖像真實(shí)性的質(zhì)疑早該出現(xiàn)了。
(來源:《紐約客》)