文| 馬 迪
每輸入一個驗證碼,你可能都付出了一次義務(wù)勞動,而且是能改變未來的那種。
你是否關(guān)注過我們每天都“破解”好幾次的各類驗證碼,其實它一點都不簡單。
早期的互聯(lián)網(wǎng)是一片蠻荒叢林,黑客編寫的惡意程序橫行霸道。它們偽裝成人類,制造了大量的馬甲用戶、垃圾信息甚至詐騙郵件,網(wǎng)站被惡意灌水,郵箱被塞滿垃圾郵件,人們不勝其擾。那么,該如何把偽裝成人類的程序機器人鑒定出來呢?
2000年,從杜克大學(xué)數(shù)學(xué)系畢業(yè),來到卡內(nèi)基梅隆大學(xué)讀計算機科學(xué)博士的路易斯·馮·安第一次提出了驗證碼的程序概念。該程序是指,向請求的發(fā)起方提出問題,能正確回答的即是人類,反之則為機器,全稱是“全自動區(qū)分計算機和人類的公開圖靈測試”。
這個程序基于一個重要假設(shè):提出的問題要容易被人類解答,且讓機器無法解答。其具體設(shè)計是將隨機生成的字符加上隨機的扭曲、重疊、污染等效果—對人來說只是增加了一點點辨認(rèn)難度,卻足以阻擋當(dāng)時最高級的黑客程序了。飽受困擾的免費郵箱巨頭雅虎第一個應(yīng)用了這個產(chǎn)品,很快解決了垃圾郵件的問題,圖形類驗證碼開始了大發(fā)展時期,國內(nèi)外各大網(wǎng)站紛紛在關(guān)鍵的業(yè)務(wù)點上增加了驗證碼,成為驗證用戶真實性的重要手段。
道高一尺魔高一丈。破解驗證碼的技術(shù)也隨之不斷地進(jìn)化,兩者的戰(zhàn)爭升級,讓驗證碼的花樣越來越多,從最常見的扭曲文字、堆疊文字,到要求用戶識別圖片的物體、把缺失部分拖到正確位置的拼圖、在規(guī)定時間內(nèi)按順序完成多次點擊等等,堪比一場場小型考試,因此也常常遭到用戶的吐槽和抱怨。
你相信嗎?每輸入一個驗證碼,你可能都付出了一次義務(wù)勞動,而且是能改變未來的那種。
2005年,路易斯·馮·安完成了他的博士論文,創(chuàng)造了一個新概念“人本計算”,即把人的腦力和計算機的能力結(jié)合起來,完成兩者都無法單獨完成的工作。
彼時,驗證碼已經(jīng)廣泛普及,每天都會有近億次的海量識別數(shù)據(jù),閑置不用顯然是對人力的巨大浪費;另一方面,當(dāng)時的人們正在試圖將紙質(zhì)資料全部數(shù)字化,卻遇到了程序無法識別老報紙上模糊文字的問題等等。
這不巧了嗎?馮·安團(tuán)隊開發(fā)了reCAPTCHA技術(shù),把老舊文獻(xiàn)中難以識別的詞作為驗證碼,讓全世界用戶一起“幫忙”辨認(rèn)。驗證分為兩步,用戶需要兩次輸入驗證碼,如果第一個詞輸入正確即被判別為人類,而第二次輸入就完全是“義務(wù)勞動”了—如果多名用戶的答案一致,這個詞就算被認(rèn)出來了。
2009年,谷歌收購了reCAPTCHA,不到兩年就完成了超過2500萬本書、《紐約時報》全部1300萬篇文章的數(shù)字化。2012年起,谷歌又推出了reCAPTCHA的圖像識別版本,讓用戶識別街景中的門牌號碼和其他標(biāo)志。對此,官方曾經(jīng)表示這種合作“讓街景地圖更加精確,也讓驗證碼更安全、更有效”。
粗略統(tǒng)計,今天全世界每天都有2 億個字符通過reCAPTCHA錄入,相當(dāng)于一個人15萬小時的工作量。這些數(shù)據(jù)也被不斷地“投喂”給人工智能,幫助機器學(xué)習(xí)系統(tǒng)更精確地辨認(rèn)文字、數(shù)字和圖形,堪稱世界上最大規(guī)模、最成功的眾包項目。
經(jīng)歷過早期12306搶火車票的人可能還記得那些五花八門甚至匪夷所思的圖片驗證碼,尤其是在十萬火急的時候被要求“請點擊下圖中所有的噴氣式飛機”,那一刻的體驗簡直糟糕透頂,有沒有簡單又安全的驗證碼呢?
答案當(dāng)然是肯定的。無知識型驗證碼,顧名思義就是無需思考、判斷,只需要點擊或滑動即可完成驗證的方法。比如,谷歌的新驗證碼系統(tǒng)reCaptcha V3,會自動記錄使用者在網(wǎng)站中瀏覽的行為特征,根據(jù)這些記錄來給用戶打分,只有用戶分?jǐn)?shù)過低時才會被要求識別復(fù)雜的驗證碼,否則不會打擾到用戶,上網(wǎng)體驗很絲滑。
表面上雖然不用再輸入驗證碼,本質(zhì)卻是AI模型時時刻刻地“觀察”用戶的行為,從中尋找自動化的跡象,是一種“持續(xù)身份驗證”。這需要讀取盡可能多的用戶信息,也可能涉及侵犯隱私的問題。
到底應(yīng)該讓渡隱私、節(jié)省時間,還是繼續(xù)一筆一劃地填寫答案呢?人在網(wǎng)絡(luò),身不由己,普通用戶只能接受結(jié)果。只要還有虛假賬戶、垃圾郵件、騷擾信息,我們就必須將人類用戶與機器人分開,某種形式的驗證碼技術(shù)也將始終存在。