□文/李曉曦
圖像識別的三生萬物:打拐、無人車到智能社會
□文/李曉曦
李曉曦
本刊特約撰稿人
猜中了結(jié)尾,卻沒有猜中開頭。一個福建的小伙子找到了失散20多年的親生父母,起因卻是幾年前第一次吃重慶烤魚,感覺“整個人都得到了升華”!從烤魚到發(fā)現(xiàn)自己的真實身份,這不是個段子,也不是韓劇,更不是《舌尖上的打拐》,而是來自基因的信號,最后通過技術(shù)匹配——跨代的人臉識別,有了happy ending。
技術(shù)改變生活,這是最好的注腳。圖像識別,和語音識別、機器翻譯類似,是人工智能(AI)的細(xì)分領(lǐng)域,也是基礎(chǔ)領(lǐng)域。在圖像識別領(lǐng)域,幫助福建小伙子尋親重慶的百度,正體現(xiàn)出技術(shù)和應(yīng)用的領(lǐng)導(dǎo)者地位。在4月中旬的百度技術(shù)開放日上,不僅有科學(xué)家深入講解圖像識別的最新技術(shù)和應(yīng)用基礎(chǔ),而且還對開發(fā)者和技術(shù)人員“開放”了這些能力得以“加持”的基礎(chǔ)。我們離智能社會的距離,似乎又近了一步。
百度研究院院長林元慶
和人工智能類似,圖像識別在學(xué)術(shù)界也不是新概念,大約50年前,有著“人工智能之父”稱號的馬文·明斯基,提出讓計算機外接相機來識別相機看到的東西。這個見地在今天看來稀松平常,但是在那個年代能提出則相當(dāng)不易。
圖像識別最初的發(fā)展與OCR(Optical Character Recognition,光學(xué)字符識別)有一定交集,就是計算機對文字的閱讀??孔V的圖像識別方法是從上個世紀(jì)末SIFT圖像特征的提出開始。在之后的十幾年里,研究者們大多是從特征或模型來攻這個難題。
2012年前后,深度卷積神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域開始應(yīng)用,則是同時去解決模型和特征的問題。從這時開始既可以通過深度學(xué)習(xí)直接從圖像像素開始訓(xùn)練圖像識別模型,也可以通過同樣的訓(xùn)練得到圖像的更有效的特征描述,然后采用傳統(tǒng)的機器學(xué)習(xí)模型來訓(xùn)練識別模型?;旧?,深度學(xué)習(xí)的方法擊敗了所有傳統(tǒng)的方法,使得圖像識別的準(zhǔn)確率向前邁了很大一步。
百度是最早將深度學(xué)習(xí)的方法應(yīng)用于圖像識別領(lǐng)域的企業(yè),并將這些技術(shù)應(yīng)用在手機百度圖像搜索等諸多產(chǎn)品上,但是業(yè)界和用戶對此的了解并不多。直到今年年初《最強大腦4》上,小度在模糊狀態(tài)下的圖像識別、跨年齡人臉識別、跨代人臉識別上的精彩表現(xiàn),讓很多觀眾和網(wǎng)友印象深刻,也第一次感受到了百度在此方面的技術(shù)強大,甚至可以用于“打拐”。
“上《最強大腦4》的歷程,是節(jié)目組找到百度。但是讓我震驚的是,他們之前根本不知道百度在做人臉識別,其實我們的技術(shù)挺好的?!卑俣妊芯吭涸洪L林元慶說。此前,百度超級計算機Minwa在一項以 ImageNet 對象分類為基準(zhǔn)的人工智能測試中,圖像識別的錯誤率僅為4.58%,超越了人類水平,同時也超越了微軟和谷歌。
百度研究院內(nèi)部評估了一下,很希望人工智能能做到極致,和特別強的人類選手來比可以了解技術(shù)到底做到哪個水平,“如果輸了的話,回去還得繼續(xù)做研發(fā),如果贏了的話,也得回去做研發(fā),只是希望我們真正把技術(shù)做到極限,能夠更好地服務(wù)人類。”
以在《最強大腦4》上完成的“跨代人臉識別”為例,小度憑借這個能力在與有著鬼才之眼的“水哥”較量取勝后,今年3月份,百度與全國最大的尋親平臺“寶貝回家”開展合作,首批2萬多條尋親數(shù)據(jù)接入百度跨年齡人臉識別系統(tǒng)對比評測,并篩選出部分疑似案例。
“人臉識別基本上有兩個技術(shù),一個是檢測,還有一個是識別,我可以很自信地說,在這一塊現(xiàn)在沒有人能做得比我們好?!绷衷獞c說,那為什么百度圖像識別能做到如此好呢?因為其人工技能技術(shù)上的領(lǐng)先,加上其積累的互聯(lián)網(wǎng)上百億張圖片。
人工智能技術(shù)的研發(fā),基本上有四個非常重要的要素,第一是機器學(xué)習(xí)的算法,特別是深度學(xué)習(xí);第二是大數(shù)據(jù);第三是大計算;第四是百度一直強調(diào)的大應(yīng)用。而且百度希望做的這些技術(shù)能夠形成閉環(huán),并能將百度大腦的能力向外輸出,真正實現(xiàn)“讓人工智能流行起來”。
現(xiàn)在,是將人工智能逐步融入生活的時代了。無論是語音識別、圖像識別還是機器翻譯都有了不少應(yīng)用場景。對于技術(shù)的理想主義者們來說,愿景是讓人工智能解決各種問題,這需要全世界所有人都參與進來,因為多樣化的團隊才是強大的團隊,多樣化的用戶會造就完美的人工智能。百度將致力于塑造開放平臺,共享大數(shù)據(jù)等資源,并作為行業(yè)中堅力量推進AI技術(shù),這也是本屆百度技術(shù)開放日的初衷。
百度基礎(chǔ)技術(shù)負(fù)責(zé)人、百度云聯(lián)席總經(jīng)理劉煬在百度技術(shù)開放日時表示,今天是一個ABC的時代,A是AI,B是Big Data,C是Cloud,百度的業(yè)務(wù)模式天生就是以ABC為核心技術(shù)的一個路徑。百度是一個以搜索起家的公司,搜索從第一天起就是非常大的數(shù)據(jù)鏈,這就奠定了百度在B和C的基礎(chǔ),百度作為搜索公司有很多自然語言處理的需求,也就是人工智能。所以百度商業(yè)模式,百度業(yè)務(wù)模式,就奠定了百度的技術(shù)是以ABC為基礎(chǔ)的。
國內(nèi)現(xiàn)階段的人工智能是以大數(shù)據(jù)為主的,具有深度學(xué)習(xí)算法的人工智能。百度作為一家以ABC為基礎(chǔ)的技術(shù)公司,擁有天然的大數(shù)據(jù)基因,所以圖像識別等技術(shù)能實現(xiàn)突破,而這樣的技術(shù)正在全面開放。
百度基礎(chǔ)技術(shù)負(fù)責(zé)人、百度云聯(lián)席總經(jīng)理劉煬
以百度云人工智能平臺級解決方案“天智”為例,在數(shù)據(jù)層面會有這樣一些鏈條,比如數(shù)據(jù)的收集、存儲,在存儲之后,需要訓(xùn)練這些數(shù)據(jù),并把模型存儲起來,之后這個模型就可以用到線上預(yù)測,為用戶提供服務(wù)了。在預(yù)測階段,有可能產(chǎn)生一些其他的數(shù)據(jù),系統(tǒng)會將這些數(shù)據(jù)重新收回來,形成良性的閉環(huán)。針對這種最常見、最普通的場景推出來的解決場景,在百度云上,就是百度云深度學(xué)習(xí)平臺。
在技術(shù)層面上,如今GPU的市場行情維持在價格昂貴的階段,為了不造成浪費,能夠?qū)PU百分之百利用起來,百度研發(fā)的分布式集群可以讓GPU進行分鐘計費,用戶只有在使用過程中才需要付費。底層支持的最先進GPU加速器,能夠有效進行資源管理優(yōu)化,并支持私有化部署。
百度云使用的GPU BOX是百度自己的GPU服務(wù)器,也是底層深度學(xué)習(xí)平臺的引擎,經(jīng)過嚴(yán)格的壓力、溫度等測試,可以充分利用資源,不浪費一分鐘的時間。對于外部開放,百度云深度學(xué)習(xí)平臺已經(jīng)將語音識別、計算機識別等承接起來,用戶可以在這個平臺上做任何想做的事情。
天智是繼“天算”、“天像”和“天工”三大智能平臺后,百度云發(fā)布的第四大平臺級解決方案,主要圍繞人工智能技術(shù)能力的開放和輸出。劉煬表示,萬物聯(lián)網(wǎng)離不開人工智能,百度云的愿景就是開源開放,提供各種各樣的框架給用戶使用,與領(lǐng)先的人工智能技術(shù)公司合作升級,是一個對于早日跨入“智能社會”的門檻、對于企業(yè)的轉(zhuǎn)型升級來講是非常重要的部署。
智能革命,它的過程會轟轟烈烈,但它的成果將會是一條寬廣平緩的河流。人工智能領(lǐng)域的權(quán)威人士都認(rèn)為,在不久的未來,智能流會像今天的電流一樣平靜地環(huán)繞、支持著我們,在一切環(huán)節(jié)提供養(yǎng)料,徹底改變?nèi)祟惤?jīng)濟、政治、社會、生活的形態(tài)。這是百度創(chuàng)始人李彥宏在他的新書《智能革命》的自序。
未來世界的人們將像穿衣吃飯一樣享用著人工智能而無所察覺。但是在從技術(shù)到應(yīng)用的環(huán)節(jié),技術(shù)工作者的努力是不可忽視的。對于圖像識別來說,真實世界是很復(fù)雜的,需要識別的覆蓋率、準(zhǔn)確率都要高,而且速度要快,才能達到理想的識別效果。而具體應(yīng)用場景除了眾所周知的刷臉,比如百度大廈上線的“刷閘機、送炸雞”的門禁,數(shù)萬名員工上班刷閘機如果識別錯誤,就能被送“炸雞”,而上線一個多月后,炸雞才送出去一份。
除了用于安保、金融認(rèn)證等環(huán)節(jié),圖像識別還能廣泛應(yīng)用于醫(yī)療、教育、無人車等各個應(yīng)用層次。以無人車領(lǐng)域為例,在交通方面,百度擁有國際最佳的交通場景物體識別技術(shù),在國際通用街景數(shù)據(jù)集KITTI的車輛識別準(zhǔn)確率達到89.32%;而圖像技術(shù)的積累可以輔助無人車更為精細(xì)地判斷交通路況,例如判斷紅綠燈就是一個非常重要的事情,其次可以幫助判斷那些誤闖馬路的行人,對他們進行保護,這也是非常重要的一點。
由感知平臺、機器學(xué)習(xí)平臺和深度學(xué)習(xí)平臺三部分組成的百度云天智平臺,針對這些不同的應(yīng)用領(lǐng)域,都能提供人工智能服務(wù)。感知平臺主要包括圖像技術(shù)(文字識別和人臉識別)、語音技術(shù)(語音識別、語音合成和聲紋識別)和自然語言處理(NLP Cloud),可以應(yīng)用于智能客服、身份驗證、內(nèi)容審核等場景,應(yīng)用開發(fā)者可針對特定場景的應(yīng)用直接調(diào)用API。在這些技術(shù)方面,百度均處于行業(yè)領(lǐng)先地位。
機器學(xué)習(xí)平臺是百度云端托管的機器學(xué)習(xí)服務(wù),可以打通機器學(xué)習(xí)全流程,內(nèi)置20多種高性能算法,并開放Spark Mllib;同時支持百度用戶畫像數(shù)據(jù),并提供多種應(yīng)用場景模版。
手機掃碼閱讀
深度學(xué)習(xí)平臺具有靈活、高效、可伸縮、開源等特點。它支持多種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和優(yōu)化算法以及自定義網(wǎng)絡(luò)配置,對于計算、存儲、架構(gòu)、通信等多方面進行了細(xì)致優(yōu)化。它支持多核、多GPU、多機環(huán)境,其Paddle內(nèi)部技術(shù)已經(jīng)使用成熟,并實現(xiàn)對全球開發(fā)者的開放。深度學(xué)習(xí)平臺適用于精通深度學(xué)習(xí)的數(shù)據(jù)科學(xué)家,針對企業(yè)或研究部門的特定項目,需要大量的客戶標(biāo)注數(shù)據(jù)。
無論是圖像識別,還是更廣域的人工智能技術(shù)都擁有豐富的應(yīng)用場景,能夠幫助人們從感知升級到認(rèn)知,支撐著百度的核心業(yè)務(wù)發(fā)展,而百度云天智等平臺的全面對外開放更是構(gòu)建生態(tài),通過閉環(huán)推動人工智能行業(yè)的整體躍進。
百度看來,智能時代的核心本質(zhì)是“knowledge in every system, intelligence in every interaction”(知識無處不在,任何交互都是智能的)。這正好與道家“一生二,二生三,三生萬物”的哲學(xué)思想不謀而合,開放、生態(tài)與交互,將迎來我們期盼的智能社會和時代。