• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)、機器智能和未來社會的圖景

      2015-05-12 21:29:10吳軍
      文化縱橫 2015年2期
      關鍵詞:機器智能

      吳軍

      [文章導讀]隨著互聯(lián)網(wǎng)的興起和產(chǎn)業(yè)的數(shù)字化,“大數(shù)據(jù)”吸引了越來越多的關注。本文從當前社會對“大數(shù)據(jù)”的理解誤區(qū)出發(fā),指出“大數(shù)據(jù)”不僅意味著海量的數(shù)據(jù),還具備了多維度與完備性的特質(zhì),并表現(xiàn)為一種全新的思維方式,即以完備的數(shù)據(jù)收集取代邏輯推導從而得出結(jié)論,這種“大數(shù)據(jù)思維”使得機器智能能夠比人類更好地掌握社會全局?;诖耍髡邚娬{(diào),在改善人類生活的同時,“大數(shù)據(jù)”亦將對人類社會造成巨大的沖擊,尤其是智能化大潮將引發(fā)的勞動力就業(yè)不足,諸如此類的變化則成為決策者所必須直面的問題。

      在過去的50多年里,人類GDP增長的根本動力是摩爾定律,即每過18個月,集成電路的性能(以集成電路芯片中的晶體管數(shù)量來衡量)就翻一番,或者說同樣性能的集成電路每18個月價格下降一半。圖1展示出不同年代集成電路芯片里晶體管的數(shù)量(縱軸,注意它是指數(shù)坐標)。在此之前,人類還沒有一項技術(shù)能夠在長達半個多世紀的時間里以指數(shù)增長的速度進步。集成電路的發(fā)展不僅開啟了整個IT行業(yè)的技術(shù)革命,而且?guī)砹巳虻淖詣踊托畔⒒?,因此,這是在過去的半個多世紀里拉動世界經(jīng)濟增長的根本動力(雖然在中國還有房地產(chǎn)和基礎設施建設,但是在世界范圍內(nèi),這個市場是在萎縮的)。

      摩爾定律帶來的另外兩個結(jié)果,就是互聯(lián)網(wǎng)的興起以及產(chǎn)業(yè)的數(shù)字化,而這兩個結(jié)果合在一起,又產(chǎn)生了一個過去我們不太關注的結(jié)果,那是各種數(shù)據(jù)量的急劇增長。當數(shù)據(jù)量增加到一定程度,量變就有可能成為質(zhì)變,因此今天大數(shù)據(jù)成為了一個非常熱門的話題。不過,目前在行業(yè)里和社會上對大數(shù)據(jù)炒作居多,對于它的理解依然停留在比較淺的層面。這表現(xiàn)在:

      ·在概念上將大數(shù)據(jù)和大量數(shù)據(jù)相混淆,認為大數(shù)據(jù)就是數(shù)據(jù)量大,沒有看到多維度和完備性的本質(zhì)。

      ·在應用上(商業(yè)上)僅僅看到了利用統(tǒng)計規(guī)律提升業(yè)務,沒有看到它和摩爾定律的結(jié)合必將導致機器智能社會的到來,從而徹底改變商業(yè)模式和產(chǎn)業(yè)結(jié)構(gòu),以及人們的生活和工作方式。

      ·明顯低估了大數(shù)據(jù)和機器智能將給我們?nèi)祟惿鐣砬八从械臋C遇和沖擊。

      我們就從這三個方面來看看大數(shù)據(jù)、機器智能和它們對未來社會的影響。

      一、可怕的大數(shù)據(jù)

      要說清楚大數(shù)據(jù)的本質(zhì)和作用,先要講講數(shù)據(jù)的作用以及它和機器智能的關系。

      1. 數(shù)據(jù)驅(qū)動的方法導致機器智能的出現(xiàn)

      從1946年計算機誕生以來,人類一直在思考這樣幾個問題:機器是否能有類似于人一樣的智能?如果有,會在什么時候,以什么樣的方式出現(xiàn)?如果出現(xiàn)了,它將對人類的生活產(chǎn)生什么影響?在過去的半個多世紀里,雖然人類一直在為此努力,但是到目前為止,這件事情似乎并沒有發(fā)生,其中原因主要有兩點。首先,人類在機器智能這個問題上一度過于樂觀并且走了20年的彎路。人們最初的想法是讓計算機來仿造智能,并且提出了人工智能的概念。學術(shù)界后來把這樣的方法論稱作“鳥飛派”,意思是說看看鳥是怎樣飛的,就能模仿鳥造出飛機,而不需要了解空氣動力學。(事實上我們知道,懷特兄弟發(fā)明飛機靠的是空氣動力學而不是仿生學)直到上個世紀70年代,人類才找到了適合計算機發(fā)展智能的道路,即采用數(shù)據(jù)驅(qū)動和大強度計算。其次,30年前計算機的功能還不夠強大,雖然當時人們以為它已經(jīng)很快了,容量很大了,但是只有今天的十億分之一左右,對解決智能問題來講是遠遠不夠的。而今天,人類正走在機器智能可能超越人類智能的轉(zhuǎn)折點上。

      講到機器智能(而不是人工智能),首先要搞清楚什么是機器智能。1950年,計算機科學的先驅(qū)圖靈博士給出了一個衡量機器是否有智能的測試方法:讓一臺機器和一個人坐在幕后,與一個人(測試者)展開對話(比如回答人的問題),當測試者無法被辨別和他講話的是另一個人還是一臺機器時,就可以認為這臺機器具有和人等同的智能。這種方法被稱為圖靈測試 (Turing, 1959)。計算機科學家們認為,如果計算機實現(xiàn)了下面幾件事情中的一件,就可以認為它有圖靈所說的那種智能:

      (1)語音識別。

      (2)機器翻譯。

      (3)自動回答問題。

      但是,從20世紀50年代到60年代,機器智能按照傳統(tǒng)人工智能的路子走得非常不順利,幾乎沒有拿得出手的像樣成果。而與此同時,計算機科學的其他分支都發(fā)展得非常迅速。因此,美國計算機學界開始反思是否機器智能走錯了路?1968年,著名計算機科學家明斯基在Semantic Information Process一書(Minsky,1968)中分析了所謂人工智能的局限性,他引用了Bar-Hillel使用過的一個非常簡單的例子:

      The pen was in the box.

      這句話很好理解,如果讓計算機理解它,做一個簡單的語法分析即可。但是另一句話語法相同的話:

      The box was in the pen.

      就讓人頗為費解了。原來,在英語中,pen還有另外一個不太常用的意思——小孩玩耍的圍欄。在這里,理解成這個意思整個句子就通順了。但是,如果用同樣的語法分析,這兩句話會得到相同的語法分析樹,而僅僅根據(jù)這兩句話本身,是無法判定pen在哪一句話中應該作為圍欄,哪一句話應該是鋼筆的意思。事實上,人對這兩句話的理解并非來源于語法分析和語意本身,而來自于他們的常識,或者說關于世界的知識(World Knowledge),這個問題是傳統(tǒng)的人工智能方法解決不了的。因此,明斯基給出了他的結(jié)論,“目前”(指當時)的方法無法讓計算機真正有類似人的智能。由于明斯基在計算機科學界崇高的聲望,他的這篇論文導致了美國政府削減了幾乎全部人工智能研究的經(jīng)費。在機器智能的發(fā)展史上,賈里尼克是一個劃時代的人物。1972年,當時還是康奈爾大學教授的賈里尼克來到IBM沃森實驗室進行學術(shù)休假,并且擔任起IBM研制智能計算機的工作。賈里尼克于是挑選了一個他認為最有可能突破的課題,即語音識別。

      賈里尼克從來不是真正的計算機科學家,而他的專長是信息論和通信,因此他看待語音識別問題完全不同于人工智能的專家們——在他看來這是一個通信問題。人的大腦是一個信息源,從思考到合適的語句,再通過發(fā)音說出來,是一個編碼的過程,經(jīng)過媒介(空氣或者電話線)傳播到聽眾耳朵里,是經(jīng)過了一個長長的信道的信息傳播問題,最后聽話人把它聽懂,是一個解碼的過程。既然是一個典型的通信問題,就可以用解決通信問題的方法來解決,為此賈里尼克用兩個馬爾可夫模型分別描述信源和信道。當然,為了訓練和使用這兩個馬爾可夫模型,就需要使用大量的數(shù)據(jù)。采用馬爾可夫模型,IBM 將當時的語音識別率從70%左右提高到90%以上,同時語音識別的規(guī)模從幾百詞上升到兩萬多詞(Jelinek,1976),這樣,語音識別就能夠從實驗室走向?qū)嶋H應用。 賈里尼克和他的同事在無意中開創(chuàng)了一種采用統(tǒng)計的方法解決智能問題的途徑,因為這種方法需要使用大量的數(shù)據(jù),因此它又被稱為是數(shù)據(jù)驅(qū)動的方法。

      賈里尼克的同事彼得·布朗在1980年代,將這種數(shù)據(jù)驅(qū)動的方法用于了機器翻譯 (P.F. Brown,1990)。由于缺乏數(shù)據(jù),最初的翻譯結(jié)果并不令人滿意,雖然一些學者認可這種方法,但是其他學者,尤其是早期從事這項工作的學者認為,解決機器翻譯這樣智能的問題,光靠基于數(shù)據(jù)的統(tǒng)計是不夠的。因此,當時SysTran等公司依然在組織大量的人力,寫機器翻譯使用的語法規(guī)則。

      如果說在1980年代還看不清楚布朗的方法和傳統(tǒng)的人工智能的方法哪一個更適合計算機解決機器智能問題的話,那么在1990年代以后,數(shù)據(jù)的優(yōu)勢就凸顯出來了。從1990年代中期之后的10年里,語音識別的錯誤率減少了一半,而機器翻譯的準確性提高了一倍,其中20%左右的貢獻來自于方法的改進,而80%則來自于數(shù)據(jù)量的提升。當然,這背后的一個原因是,由于互聯(lián)網(wǎng)的普及,可使用的數(shù)據(jù)量呈指數(shù)增長。

      最能夠說明數(shù)據(jù)對解決機器翻譯等智能問題的幫助的,是2005年NIST對全世界各家機器翻譯系統(tǒng)評測的結(jié)果。

      這一年,之前沒有做過機器翻譯的Google,不僅一舉奪得了各項評比的第一名,而且將其他單位的系統(tǒng)遠遠拋在了后面。比如在阿拉伯語到英語翻譯的封閉集測試中,Google 系統(tǒng)的 BLEU 評分為 51.31%,領先第二名將近 5%,而提高這五個百分點在過去需要研究7~10年;在開放集的測試中,Google51.37%的得分比第二名領先了17%,可以說整整領先了一代人的水平。當然,大家能想到的原因是它請到了世界著名的機器翻譯專家弗朗茲·奧科 (Franz Och),但是參加評測的南加州大學系統(tǒng)和德國亞琛工學院系統(tǒng)也是奧科寫的姊妹系統(tǒng)。從奧科在Google開始工作到提交評比結(jié)果,中間其實只有半年多的時間,奧科在方法上沒有做任何改進。Google系統(tǒng)和之前的兩個系統(tǒng)唯一的不同之處在于,前者使用了后者近萬倍的數(shù)據(jù)量。

      表1是2005年NIST評比的結(jié)果。值得一提的是,SysTran公司的系統(tǒng)是唯一采用傳統(tǒng)的語法規(guī)則進行機器翻譯的。它和那些采用數(shù)據(jù)驅(qū)動的系統(tǒng)相比,差距之大已經(jīng)不在一個時代了。

      到了2000年之后,雖然還有一些舊式的學者死守著傳統(tǒng)人工智能的方法不放,但是無論是學術(shù)界還是工業(yè)界,機器智能的主流方法是基于統(tǒng)計或者說數(shù)據(jù)驅(qū)動的方法。與此同時,另外兩個相關的研究領域,機器學習和數(shù)據(jù)挖掘也開始熱門起來。

      2012~2014年,筆者曾經(jīng)負責Google的機器問答項目,并且通過使用大數(shù)據(jù),解決了30%左右的問題,這遠遠超過了學術(shù)界迄今為止同類研究的水平。究其原因,除了Google在自然語言處理等基礎算法上做到了世界領先之外,更重要的是,Google將這個過去認為是純粹自然語言理解的問題變成了一個大數(shù)據(jù)的問題。首先,Google發(fā)現(xiàn)對于用戶在互聯(lián)網(wǎng)上問的各種復雜問題,有70%~80%左右的問題可以在前十條自然搜索結(jié)果(去掉廣告、圖片和視頻等結(jié)果)中找到答案,而只有20%左右的復雜問題,答案存在于搜索結(jié)果的摘要里。因此,Google將機器自動問答這樣一個難題轉(zhuǎn)換成了在大數(shù)據(jù)中尋找答案的摘要問題。當然,這里面有三個前提,首先答案需要存在,這就是我們前面講到的大數(shù)據(jù)的完備性;其次,計算能力需要足夠,Google回答這樣一個問題的時間小于10毫秒,但是需要上萬臺服務器同時工作;最后,就是要用到非常多的自然語言處理算法,包括對全部的搜索內(nèi)容要進行語法分析和語義分析,要能夠從文字的片段合成符合語法而且讀起來通順的自然語言等等。其中第一個前提是只有Google等少數(shù)大公司具備,而學術(shù)界不具備,因此這就決定了是Google而非學術(shù)界最早解決圖靈留下的這個難題。

      由此可見,我們對數(shù)據(jù)重要性的認識不應該停留在統(tǒng)計、改進產(chǎn)品和銷售,或者提供決策的支持上,而應該看到它(和摩爾定律、數(shù)學模型一起)導致了機器智能的產(chǎn)生。而機器一旦產(chǎn)生了和人類類似的智能,就將對人類社會產(chǎn)生重大的影響了。

      2. 大數(shù)據(jù)(Big Data)的本質(zhì)

      機器智能離不開數(shù)據(jù),那么大量的數(shù)據(jù)和現(xiàn)在大家所說的大數(shù)據(jù)是否是一回事呢?如果不是,它們之間又有什么聯(lián)系和區(qū)別呢?

      毫無疑問,大數(shù)據(jù)的數(shù)據(jù)量自然是非常大的,但是光是“量”大還不是我們所說的大數(shù)據(jù)。比如過去國家統(tǒng)計局的數(shù)據(jù)量也很大,但是不是真正意義上的大數(shù)據(jù)。這兩者的差別我們可以從三個方面來看。

      首先,大數(shù)據(jù)具有多維度性質(zhì),而不同維度之間有著天然的(而非人為的)聯(lián)系。為了說明這一點,我們不妨看一個實際的例子。

      2013年9月份,百度發(fā)布了一個頗有意思的統(tǒng)計結(jié)果《中國十大“吃貨”省市排行榜》。百度沒有做任何的民意調(diào)查和各地飲食習慣的研究,它只是從“百度知道”的7700萬條和吃有關的問題里“挖掘”出來一些結(jié)論。

      在關于“什么能吃嗎?”的問題中,福建、浙江、廣東、四川等地的網(wǎng)友最經(jīng)常問的是“什么蟲能吃嗎”,江蘇、上海、北京等地的網(wǎng)友最經(jīng)常問“什么的皮能不能吃”,內(nèi)蒙古、新疆、西藏,網(wǎng)友則是最關心“蘑菇能吃嗎”,而寧夏網(wǎng)友最關心的竟然是“螃蟹能吃嗎”。寧夏的網(wǎng)頁關心的事情一定讓福建的網(wǎng)友大跌眼鏡,反過來也是一樣,他們會驚訝于有人居然要吃蟲子。

      百度做的這件小事其實就是大數(shù)據(jù)的一個典型應用。它有這樣一些特點。首先,它的數(shù)據(jù)量非?!按蟆薄5诙?,這些數(shù)據(jù)維度其實非常多,它們不僅涉及食物的做法、吃法、成分、營養(yǎng)價值、價格、問題來源的地域和時間等等,而且里面包含了提問者的很多信息,互聯(lián)網(wǎng)的IP地址,所用的計算機(或者手機)的型號,瀏覽器的種類等等。這些維度也不是明確地給出的(這一點和傳統(tǒng)的數(shù)據(jù)庫不一樣),因此在外面人看來,這些原始的數(shù)據(jù)是“相當雜亂”,但是恰恰是這些看上去雜亂無章的數(shù)據(jù)將原來看似無關的維度(時間、地域,食品、做法、成分,人的身份和收入情況等)聯(lián)系了起來。經(jīng)過對這些信息的挖掘,加工和整理,就得到了有意義的統(tǒng)計規(guī)律。

      當然,百度只公布了一點點大家感興趣的結(jié)果。它完全可以從這些數(shù)據(jù)中得到更多有價值的統(tǒng)計結(jié)果。比如,它很容易得到不同年齡人、性別和文化背景(這些很容易挖掘出來)的飲食習慣,不同生活習慣的人(比如正常作息的、夜貓子們、經(jīng)常出差的或者不愛運動的等等)的飲食習慣等等。如果百度的數(shù)據(jù)收集的時間跨度足夠長,它還可以看出不同地區(qū)人飲食習慣的變化,尤其是在不同經(jīng)濟發(fā)展階段飲食習慣的改變。而這些看似很簡單的問題,比如飲食習慣的變化,沒有百度知道的大數(shù)據(jù),還真難得到。這就是大數(shù)據(jù)多維度的威力。

      大數(shù)據(jù)的第二個特點在于它的完備性。為了說明這一點,讓我們再來看一個真實的案例。從1932年開始,蓋洛普一直在對美國總統(tǒng)選舉進行預測,幾十年來它也在不斷地改進采樣的方法,力求使得統(tǒng)計準確,但是在過去的幾十年里,它對美國大選結(jié)果的預測可以講是大局(全國)尚準確,但是細節(jié)(每一個州)常常出錯。因為再好的采樣方法,也有考慮不周全之處。

      但是到了2012年總統(tǒng)選舉時,這種“永遠預測不準”的情況得到了改變。一位名不見經(jīng)傳的統(tǒng)計學家Nate Silver通過對互聯(lián)網(wǎng)網(wǎng)上能夠取得的各種大量的數(shù)據(jù)(包括社交網(wǎng)絡上用戶發(fā)表的信息、新聞信息和其他網(wǎng)絡信息),進行大數(shù)據(jù)分析,準確地預測了全部50個州的選舉結(jié)果,而在歷史上,蓋洛普從來沒有做到這一點。當然,有人可能會問,這個結(jié)果是否是蒙的?這個可能性或許存在,但是只有一千萬億分之一,因此可以認為這是大數(shù)據(jù)分析的結(jié)果。在這個例子中,Silver并沒有什么好的采樣方法,只是收集的數(shù)據(jù)很完備。大數(shù)據(jù)的完備性,不僅有用,甚至有點可怕。

      數(shù)據(jù)的完備性的作用遠比準確預測一個總統(tǒng)選舉大得多,Google無人駕駛汽車便是一個很好的例子。首先,無人駕駛汽車可以算是一個機器人,這點應該沒有疑問,因為它能像人一樣對各種隨機突發(fā)性事件快速地做出判斷。在這個領域Google只花了六年時間就做到了全世界學術(shù)界幾十年沒有做到的事情。在2004年,經(jīng)濟學家們還認為司機是計算機難以取代人的幾個行業(yè)之一。當然,他們不是憑空得出這個結(jié)論的,除了分析了技術(shù)上和心理上的難度外,還參考了當年DARPA組織的自動駕駛汽車拉力賽的結(jié)果——當時排名第一的汽車花了幾小時才開出8英里,然后就拋錨了。但是,僅僅過了六年后,2010年Google的自動駕駛汽車不僅研制出來了,而且已經(jīng)在高速公路和繁華的市區(qū)行駛了14萬英里,沒有出一次事故。

      為什么Google能在不到六年的時間里做到這一點呢?最根本的原因是它的思維方式和以往的科學家們都不同——它把這個機器人的問題變成了一個大數(shù)據(jù)的問題。首先,自動駕駛汽車項目是Google街景項目的延伸,Google自動駕駛汽車只能去它“掃過街”的地方,而在行駛到這些地方時,它對周圍的環(huán)境是非常了解的,這就是大數(shù)據(jù)完備性的威力。而過去那些研究所里研制的自動駕駛汽車,每到一處都要臨時地識別目標,這是人思維的方式。其次,Google的自動駕駛汽車上面裝了十幾個傳感器,每秒鐘幾十次的各種掃描,這不僅超過了人所謂的“眼觀六路、耳聽八方”,而且積攢下來的大量的數(shù)據(jù),對各地的路況,以及不同交通狀況下車輛行駛的模式有準確的了解,計算機學習這些“經(jīng)驗”的速度則遠遠比人快得多,這是大數(shù)據(jù)多維度的優(yōu)勢。這兩點是過去學術(shù)界所不具備的條件,依靠它們,Google 才能在非常短的時間里實現(xiàn)汽車的自動駕駛。

      大數(shù)據(jù)的第三個特征在它的英文提法“Big Data”這個詞當中體現(xiàn)的很清楚。請注意,這里使用的是Big Data,而不是Large Data。Big和Large這兩個單詞有什么區(qū)別呢,Big更主要是強調(diào)抽象意義上的大,而Large是強調(diào)數(shù)量(或者尺寸)大,比如大桌子Large Table。Big Data的提法,不僅表示大的數(shù)據(jù)量,更重要地是強調(diào)思維方式的不同。這種以數(shù)據(jù)為主的新的做法,在某種程度上顛覆了我們長期以來在科學和工程上的方法論。在過去,我們強調(diào)做一件事情的因果關系,通過前提和假設,推導出結(jié)果。但是在大數(shù)據(jù)時代,由于數(shù)據(jù)的完備性,我們常常是先知道結(jié)論,再找原因(甚至不去找原因),那么我們是否愿意去接受這樣的工作方式。事實上,在一些具有大數(shù)據(jù)的IT公司里,包括Google,阿里巴巴等,今天已經(jīng)是按照這種思維方式做事情了。Google的產(chǎn)品比競爭對手稍微好一點,主要不是靠技術(shù),而是靠它的數(shù)據(jù)比對手更完備,同時它愿意用數(shù)據(jù)來解決問題。阿里巴巴的小額貸款能做起來(而其他商業(yè)銀行做不到),其實就是對大數(shù)據(jù)思維的一種詮釋。這是一種我們以前完全沒見過的新的思維方式,一種新的方法論。

      大數(shù)據(jù)的這三個特點導致了機器智能和人具有完全不同的特點,它不是通過邏輯推理歸納演繹得出結(jié)論,而是利用大數(shù)據(jù)的完備性和多維度特點,直接找到答案。而大數(shù)據(jù)的完備性有可能讓機器比人更能夠掌控全局,或者說幫助決策者更好地掌握全局。

      大數(shù)據(jù)不僅僅是數(shù)據(jù)量大,而在于它的天然多維度特點和它的完備性。數(shù)據(jù)驅(qū)動的方法結(jié)合呈指數(shù)增長的計算機性能導致了機器智能的產(chǎn)生,并且在今天這個時間點上可以比肩人類的智能,這才是大數(shù)據(jù)重要的根本原因。機器智能和人的智能是不同的,它不是依靠人嚴密的邏輯推理得到問題的答案,而是通過大數(shù)據(jù)的完備性直接找到答案,或者根據(jù)大數(shù)據(jù)多維度的特點找到以前我們無法發(fā)現(xiàn)的規(guī)律性。這將改變我們的思維方式,也就是所謂的采用“大數(shù)據(jù)思維”。

      二、 大數(shù)據(jù)和機器智能的井噴式爆發(fā)

      大數(shù)據(jù)這個概念在今天這個時間點被提出來,其根本原因是因為摩爾定律導致互聯(lián)網(wǎng)的發(fā)展,進而使得各種數(shù)據(jù)量的急劇增長(圖5,數(shù)據(jù)增長的速度快于互聯(lián)網(wǎng)本身增長的速度)。因此,大數(shù)據(jù)的第一個來源是互聯(lián)網(wǎng),包括移動互聯(lián)網(wǎng)。大數(shù)據(jù)的產(chǎn)生還有第二個原因,就是傳感器技術(shù)的突破——今天各種手機,各種可穿戴式設備都有非常精準的傳感器。而一些傳感器價格非常便宜(比如RFID,每個售價僅四美分),使得每一個物品都可以裝上一個。這些傳感器產(chǎn)生了大量的數(shù)據(jù)。

      那么大數(shù)據(jù)能有多么完備?未來的機器能有多么“聰明”?我們看兩個極端的例子。

      1. 精確到每一個細節(jié)

      我們來構(gòu)造兩個場景,一個是關于物品,一個是關于人。

      我們假定在未來的社會里,每一件物品上都貼有一個RFID(指甲蓋大小的不干膠),那么它每經(jīng)過一道(裝有RFID閱讀器)門,都可以記錄下來,這樣我們可以追蹤它從出廠一直到被消費掉(或者最終銷毀掉)的每一步。將來顧客在超市買東西時,他不再需要在收銀臺前排隊,然后一件件掃描商品算賬,而只需要把購物車推出裝有RFID閱讀器的大門,而那個閱讀器將讀出他購物車里每一件商品,并且算出價錢。不僅如此,他還能知道商品的來源,這樣假貨就難有藏身之處。對于廠家來講,它的意義就更大了,大數(shù)據(jù)可以能建立起廠家和終端用戶的直接聯(lián)系。以前,廠家和客戶之間或多或少隔著一些經(jīng)銷商,因此只能了解自己產(chǎn)品大致的銷售情況(比如哪個地區(qū)賣了多少),而無法了解細節(jié)(比如哪個收入階層在消費,各個流通環(huán)節(jié)加價多少等)。但是在大數(shù)據(jù)時代,它不僅能夠知道每一件商品買給了誰,甚至能知道中間每一個流通環(huán)節(jié)里的細節(jié)。因此,它可以完全根據(jù)市場供需進行生產(chǎn),而且可以減少中間環(huán)節(jié)。對于政府的稅收部門,如果可以備份每一筆交易的每一個細節(jié),保證每一筆稅收。但是,實現(xiàn)這一切需要多少IT投入,什么時候可以完成現(xiàn)在尚難估計。

      接下來談談對人的精細化了解。從理論上講,在大數(shù)據(jù)時代完全有條件了解每一個人24小時的全部行程。對于使用手機的人,這件事很容易做到。Google向智能手機和Chrome的用戶提供一個被稱為Google Now的個人資訊服務,它通過大數(shù)據(jù)(利用多維度的特點)將用戶在日常生活中使用的很多(網(wǎng)絡)服務打通,讓使用者可以非常方便地管理每一天的生活。比如,它通過記錄使用者不同時間所在的位置,自動了解他的住址和上班的地點,每天上下班前,通知用戶路上所需要的時間和比較好的行程路線,同時也能通知用戶沿路可能發(fā)生的擁堵和交通事故。它還可以根據(jù)用戶的通信(比如郵件),幫助用戶自動地將每天的活動自動地加到日歷中并且及時提醒下一個活動。事實上,用戶在獲得這種方便性的同時,將每天的活動全部交給了Google來管理。只要再做進一步的數(shù)據(jù)挖掘,擁有這樣大數(shù)據(jù)的公司和機構(gòu)(不一定需要是手機制造商和服務運營商),不僅可以知道一個人任何時刻的位置,而且可以知道他在做什么(比如在打電話、寫郵件、開會或者工作)等等,甚至可以知道在什么時候他和什么人見了面(比如兩個人在某個地方一起吃了一小時午飯,吃的是什么飯)。對于沒有使用手機的人來講,雖然不能獲得如此詳盡的信息,每天的活動也是有辦法知道的。比如只要他身上任何一件物品是可以識別,或者他的一些生物特征(臉譜、指紋、聲音等)可以識別,再經(jīng)過大數(shù)據(jù)分析,也能比較詳盡地了解這個人的活動。在過去,針對非常少量的人,如果不計成本的話,這件事情也能辦到,但是不可能針對大范圍的人,而在大數(shù)據(jù)和機器智能使得了解每一個人的生活變成了可能。

      大數(shù)據(jù)和機器智能的發(fā)展,必將使得“機器”能夠準確地了解社會的每一個細節(jié)。因此,具有最強大智能機器的不是哪一個具體的機器人,而是超級數(shù)據(jù)中心后面幾十萬、上百萬的服務器集群。而掌控這個集群的人實際上在掌控這個社會發(fā)生的一切。

      2.對醫(yī)療衛(wèi)生的影響

      近幾十年來,雖然人類的壽命在不斷地延長,但這在很大程度上是靠技術(shù)手段,而不是醫(yī)療本身水平的提高。事實上,提高醫(yī)療水平是一個非常漫長的過程,而過去研制新的藥品和醫(yī)療手段亦是如此。醫(yī)療保健的費用不斷增加,而且照此下去各國將是不堪負荷的,據(jù)估計到2020年,美國用于醫(yī)療保健的費用將達到GDP的20%左右。

      那么出路在哪里?今天IT界和醫(yī)學界領域都有一個共識,就是通過IT的進步,尤其是大數(shù)據(jù)和機器智能的進步,幫助解決人類健康的問題。當然,這個話題很大,我們可以從三個側(cè)面來看看在未來IT技術(shù)對生物醫(yī)療的幫助。

      首先,藥品的研制。攻克癌癥是人類的一個夢想,但是迄今為止沒有一種特效的抗癌藥能夠治愈癌癥。過去醫(yī)學界還試圖研制這樣的抗癌藥,但是后來醫(yī)學界認識到,由于癌細胞本身的基因會變異,因此并不存在這樣一種萬能藥。基于這一點共識,醫(yī)學界改變了治療癌癥的思路,那就是針對特定患者(不斷變化的癌細胞),研制特定的藥物,從理論上講,只要研制的速度超過癌細胞變化的速度,癌癥就可以治愈了。

      按照傳統(tǒng)的藥品研發(fā)思路,科學家們應該先研究病理,找到解決方法(比如阻止具有某種基因的癌細胞蛋白質(zhì)的合成),然后找到相應的藥物,進行各種動物實驗和臨床試驗。這是我們前面提到的強調(diào)因果關系的工作方法。但是,按照這個思路,為每一位癌癥患者研制一種新藥是很難辦到的。且不說制藥公司能否安排一個專門的團隊為一個特定的患者服務,就算是能做到這一點,研制新藥的成本也是患者無法負擔的——平均一個人要十億美元(基因泰克公司董事長李文森博士的估計)。事實上,不僅研制抗癌藥成本高周期長,在美國,任何一種有效的處方藥研制的時間和費用都非常高。過去大約需要十年時間,十億美元,今天這個過程并沒有縮短,而成本甚至上升到近百億美元。

      針對這種困境,科學家們想到了利用大數(shù)據(jù)來解決問題。在美國有大約5000多種處方藥(遠比一般人想象的少),過去每一種處方藥都是用于當初針對的那些疾病的,比如治療心臟病的藥物就是用于心臟病的。但是,今天通過大數(shù)據(jù)統(tǒng)計研究發(fā)現(xiàn),一款治療心臟病的藥物對于胃病的治療效果明顯。按照大數(shù)據(jù)的思維方式,我們應該先接受這個結(jié)論,再反過來找原因?;谶@樣的方法,找到治療一種疾病的藥品的組合,成本比以前研制新藥成本要降低至少一個數(shù)量級,而時間可以縮短70%~80%。根據(jù)著名生物系統(tǒng)專家、基因泰克公司董事長阿瑟·李文森博士的估計,采用大數(shù)據(jù)有望實現(xiàn)針對每一位癌癥患者量身定制藥物和治療方法,而成本可以降到每個人5000美元。

      其次,基因科技和醫(yī)療診斷。

      2012年Google科學比賽的第一名授予了一位來自威斯康星的高中生,她通過對760萬個乳腺癌患者的樣本數(shù)據(jù)的機器學習,設計了一種確定乳腺癌癌細胞位置的算法,來幫助醫(yī)生對病人進行活檢,其位置預測的準確率高達96%,超過目前??漆t(yī)生的水平??梢灾v,她的成功在很大程度上得益于大數(shù)據(jù)。這個例子只是眾多通過IT技術(shù)來幫助疾病診斷的成功案例之一。一些類似的軟件已經(jīng)開始商用化。

      大數(shù)據(jù)對醫(yī)療診斷的另一個主要的應用在于將人類的基因圖譜和各種疾病聯(lián)系起來,從而找到可能致病的基因并且設法修復。如果這件事情能夠完成,那么不僅有希望治愈很多過去因為基因缺陷引起的絕癥(比如癌癥、帕金森綜合癥等),甚至有可能逆轉(zhuǎn)人類的衰老過程。2013年,Google成立了它的醫(yī)療保健分公司Calico,并且聘請了李文森博士擔任CEO,其第一期的投入已經(jīng)高達10億美元。據(jù)李文森博士介紹,采用傳統(tǒng)的醫(yī)學研究的方式,要想找到導致老年癡呆的基因并且找到治療方法,在他有生之年(1950年出生)可能是看不到的,但是利用大數(shù)據(jù),則有可能辦到。

      第三,醫(yī)療機器人。約翰·霍普金斯大學的羅素·泰勒教授是全世界最有權(quán)威的醫(yī)療機器人專家。根據(jù)他的專利制造的手術(shù)機器人達·芬奇已經(jīng)成功地在全世界進行了150萬例的手術(shù),包括前列腺摘除,心臟瓣膜修復等。據(jù)泰勒教授介紹這種造價200萬美元的機器人采用了非常多的跨學科的技術(shù),具體到IT領域,其核心技術(shù)包括圖像處理和圖像識別,3D圖像的復原,統(tǒng)計模型等等。為了制造這個機器人,科學家們從醫(yī)學院里收集了大量的數(shù)據(jù),建立各種模型,從而讓它擁有了一個非常見多識廣的大腦。相比醫(yī)生,手術(shù)機器人最大的好處在于它的穩(wěn)定性——即不會因為情緒而影響手術(shù)效果。從2000年這種機器人被FDA批準使用后,目前全球已經(jīng)裝備了3000多臺,其中三分之二在美國。在未來,這一類的醫(yī)療機器人會越來越多地被使用。

      第四,可穿戴式設備改變生活習慣。在大數(shù)據(jù)時代,可穿戴式設備將扮演很多角色,和以往互相不關聯(lián)的電子設備不同,它有可能將人一天24小時都連到互聯(lián)網(wǎng)上。使用者(和背后的大數(shù)據(jù)公司)可以通過可穿戴式設備了解到他的生活習慣和健康狀況。這可以為疾病診斷提供準確的數(shù)據(jù),試想一下,7天24小時監(jiān)控的心跳和血壓數(shù)據(jù),一定比在醫(yī)院一次測量的數(shù)據(jù)更加準確地反映了一個人的健康狀況。每個人的健康數(shù)據(jù)將來還可以作為醫(yī)療保險收費的憑據(jù),并且?guī)椭藗凁B(yǎng)成一個良好的生活習慣。在美國,一些保險公司正在嘗試給愿意使用可穿戴式設備,并且證明有良好生活習慣的人較低的保費。

      可以預見,在不久的將來,IT技術(shù)尤其是大數(shù)據(jù)和機器智能技術(shù)在醫(yī)療保健上的應用會越來越多,并且將極大地改善人類的生活。

      3. 智能機器(機器人)

      在2015年拉斯維加斯的消費電子產(chǎn)品展CES上,各廠家都用“所有東西皆智能”(Smart Everything)來吸引觀眾。當然,機器人(包括無人機)是展覽會上的一個亮點。

      無人機本身已經(jīng)不是什么新鮮事,但是美國一家小公司Sky Catch則將它們的智能水平提到一個新的高度。這家公司讓智能機的操作完全(比如換電池、換硬盤)由機器人來完成,用戶只需要定義任務即可。蘋果公司是Sky Catch的客戶之一,目前租用無人機服務監(jiān)控它的新總部施工情況,每天無人機要出動六、七次到工地上空拍攝出全部的工程進展錄像和照片,能了解工地建設從第一天到最后一天全部的細節(jié)。

      由于在地面為無人機服務的是機器人,能派出的無人機的數(shù)量可以非常多,頻率也可以非常高。如果我們把這件事想得遠一點,無人機可以查出一個城市全部的違章建筑,任何地方的交通狀況,對農(nóng)業(yè)收成的估計、礦山和工地的勘察等等。如果把這種機器人能夠做的事情再進一步擴展,變成為固定機翼的無人機裝卸燃料,那么就構(gòu)成了一支非??膳碌目哲?。

      如果我們再把無人駕駛汽車看成一個能在地面上行駛的機器人,那么它們經(jīng)過改裝,可以變成為反恐服務的巡邏車。當然,這些要以進一步的機器智能和大數(shù)據(jù)研究為基礎。

      當然,智能機器最關鍵的不在于可以移動的“四肢”,而在于它的大腦。在這超級“機器大腦”的控制下,智能機器可以完成很多人難以完成的事情,從在生產(chǎn)線上取代工人,到取代那些職業(yè)人士(金融、法律和醫(yī)生)。這些在過去看似不可能的事情,今天正在發(fā)生。關于這一點,我們下面會詳細論述。

      三、大數(shù)據(jù)和機器智能的社會影響

      機器智能無疑可以幫助改善人類的生活,包括延長人的壽命,但另一方面,我們在歡呼機器智能到來的同時,是否準備好了它對未來社會帶來的沖擊呢。技術(shù)革命的作用常常是正反兩方面并存的。我們從對制造業(yè)、服務業(yè)等幾個層面的影響來說明它。

      2011年德國提出工業(yè)4.0的概念,即通過數(shù)字化和智能化來提升制造業(yè)的水平。其核心則是通過智能機器、大數(shù)據(jù)分析來幫助工人甚至取代工人,實現(xiàn)制造業(yè)的全面智能化。這在提高設計、制造和供應銷售效率的同時,也會大大減少產(chǎn)業(yè)工人的數(shù)量。在中國,全球最大的OEM制造商富士康,一直在研制取代生產(chǎn)線上工人的工業(yè)機器人。富士康預計未來它將有上百萬的機器人取代裝配線上的工人。這一方面使得工人們不再需要到生產(chǎn)線上去從事繁重而重復性的工作,另一方面則使得工廠里的工人數(shù)量將大幅度地減少。

      當然,很多人會說,自從大機器出現(xiàn)后,工人的數(shù)量就在減少,但是勞動力會被分配到其他行業(yè)。但是,如同在2004年經(jīng)濟學家低估了機器可以取代駕駛員的可能性一樣,今天我們可能在低估機器智能對未來社會的沖擊。這一次由機器智能引發(fā)的技術(shù)革命,不僅僅是替代那些簡單的勞動,而將在各個行業(yè)取代原有的從業(yè)人員,因為這將是人類歷史上第一次,機器在智能方面超越人類。我們不妨看看機器智能對那些最需要專業(yè)技能的行業(yè)帶來的沖擊。

      在美國,??漆t(yī)生,比如放射科醫(yī)生,是社會地位和收入最高的群體,也是需要專業(yè)知識最多,智力水平最高的群體——他們需要在大學和醫(yī)院學習和訓練13年(平均)才能獲得行醫(yī)的執(zhí)照。這樣的工作,過去被認為是不可能被機器取代的。但是,今天智能的模式識別軟件通過醫(yī)學影像的識別和分析,可以比有經(jīng)驗的放射科醫(yī)生更好地診斷病情,而這個成本,只是人工的百分之一。

      律師,也被認為是最“高大上”的職業(yè),但是他們的工作受到了自然語言處理軟件的威脅。今天,打一場像蘋果vs三星這樣的官司,要分析和處理上百萬份法律文件(因為美國是判例型法律),律師費高得驚人。但是,位于硅谷Palo Alto的 Blackstone Discovery公司發(fā)明了一種處理法律文件的自然語言處理軟件,使得律師的效率可以提高500倍,而打官司的成本可以下降99%。這意味著未來將有相當多的律師可能失去工作。事實上這件事情在美國已經(jīng)發(fā)生,新畢業(yè)的法學院學生找到正式工作的時間比以前長了很多。

      面對勢不可擋的機器智能大潮,人類在未來需要重新考慮工作和生活的方式了,尤其是勞動力的出路問題。從一百多年前開始的農(nóng)業(yè)革命使得發(fā)達國家2%~5%(注釋:根據(jù)美國勞工部的統(tǒng)計,美國農(nóng)業(yè)工人占不到勞動力人口的2%。)的人提供了全部人口所需的食品,隨著機器智能的發(fā)展,或許只需要5%以下的勞動力就能提供人類所需的所有工業(yè)品和大部分的服務工作。當然,會有一小部分人參與智能機器的研發(fā)和制造,但是這只會占到勞動力的很小一部分。那么,我們現(xiàn)在必須考慮未來勞動力的出路在哪里?這是一個在機器智能發(fā)展過程中無法回避的問題。

      在歷史上,第一次工業(yè)革命(1760~1820)一方面極大地解放了生產(chǎn)力,并且使得人類第一次生產(chǎn)的產(chǎn)品超過了消費的需求。當時在世界上真正受益的只有英國,起初產(chǎn)業(yè)工人不過數(shù)百萬而已。即便如此,它也感覺到市場不夠用,以至于它需要進行全球性市場的拓展。亞當·斯密的《國富論》誕生于那個年代有它的歷史背景。在這本經(jīng)典經(jīng)濟學著作中,亞當·斯密闡述了英國開放市場的重要性,而其目的是換取他國同樣地開放市場。這次工業(yè)革命進行了60年,有兩代人的時間消化它帶來的沖擊力,但是在很長時間里,社會依然無法承受。在19世紀上半葉,是英國勞資矛盾最突出的時期,狄更斯等人的小說里描寫的工人們悲慘的景象,便是在那個時期,而馬克思主義也恰恰是在那個時代誕生的。直到19世紀中,英國才形成一個相對穩(wěn)定的中產(chǎn)階級群體,而靠著對外貿(mào)易,英國在19世紀中期進入它的維多利亞榮光時代,其標志為1855年首屆世博會。如果從1760年算起,英國整整花了一個世紀才消化工業(yè)革命帶來的負面影響,這還是在全世界獨此一國進入工業(yè)化時代的前提下。

      第二次工業(yè)革命(1870~1914)也歷時了近半個世紀,電的使用幫助美國和德國超越了英國,并且成為人類歷史上財富增長最快的時期。在美國一方面造就了范德比爾特、卡內(nèi)基和洛克菲勒等商業(yè)巨子(在全世界有史以來最富有的75人中,有五分之一出現(xiàn)在第二次工業(yè)革命時期的美國),但是另一方面,這也是美國社會公平性最受破壞的事情。最后,經(jīng)過老羅斯福、塔夫特和威爾遜三任總統(tǒng)反壟斷的努力以求恢復社會的公平性、經(jīng)過了一次大戰(zhàn)從債務國變成債權(quán)國,直到20世紀20年代,才迎來了柯立芝繁榮。這前后也花了半個多世紀來適應這次產(chǎn)業(yè)革命。

      在從上個世紀末開始的所謂第三次浪潮的信息革命中,美國無疑是一個領跑者和贏家,但是美國大部分民眾在經(jīng)濟上和幸福指數(shù)上其實并沒有什么提升(圖6,美國家庭在扣除通貨膨脹后收入的增長,最左邊是收入排在50%~75%的家庭,中間是排在25%~50%的家庭,右邊是最富有的5%的家庭)和(圖7,美國人幸福指數(shù)的變化)。

      這一次將由機器智能帶來的革命,對社會的沖擊將是全方位的。社會結(jié)構(gòu)可能會發(fā)生根本性的變化,這可能不是簡單地把農(nóng)業(yè)人口變成城市人口,把第一第二產(chǎn)業(yè)變成第三產(chǎn)業(yè)這么簡單。第一次工業(yè)革命和第二次工業(yè)革命還有半個世紀左右的時間消化吸收這些變化,但是這一次由于機器智能和大數(shù)據(jù)帶來的革命來得非常之快,涉及的領域非常之多,以至于我們未必會有很長的時間來應對,社會將如何適應這種變化,是決策者現(xiàn)在需要考慮的問題。

      (作者系谷歌公司計算機科學家、騰訊公司前副總裁)

      猜你喜歡
      機器智能
      機器狗
      機器狗
      無所不能的機器
      神奇的寫作機器
      學生天地(2020年34期)2020-06-09 05:50:48
      智能制造 反思與期望
      智能前沿
      文苑(2018年23期)2018-12-14 01:06:06
      智能前沿
      文苑(2018年19期)2018-11-09 01:30:14
      智能前沿
      文苑(2018年17期)2018-11-09 01:29:26
      智能前沿
      文苑(2018年21期)2018-11-09 01:22:32
      智能制造·AI未來
      商周刊(2018年18期)2018-09-21 09:14:46
      灵寿县| 北海市| 海门市| 高唐县| 江西省| 扶余县| 通化市| 民乐县| 宽甸| 迁西县| 奈曼旗| 花垣县| 吐鲁番市| 汶上县| 尉犁县| 光泽县| 兴宁市| 新闻| 沂水县| 金溪县| 漳浦县| 锡林浩特市| 福建省| 五台县| 仁寿县| 柳州市| 宁海县| 隆安县| 望江县| 江油市| 青浦区| 定兴县| 且末县| 左云县| 碌曲县| 神木县| 奉新县| 资兴市| 东丰县| 酒泉市| 嘉义县|