Dan+Tynan+楊勇
建立從數(shù)據(jù)中學(xué)習(xí)的系統(tǒng)是解決復(fù)雜問題的良方,應(yīng)為其提供足夠的、有意義的數(shù)據(jù)用于學(xué)習(xí)
最近您可能不止一次聽到“機(jī)器學(xué)習(xí)”這個(gè)詞。機(jī)器學(xué)習(xí)經(jīng)常與人工智能這個(gè)詞互換使用,它實(shí)際上是人工智能的子集,源自1950年代后期的麻省理工學(xué)院。
不管您知不知道,您每天都會(huì)遇到機(jī)器學(xué)習(xí)。Siri和Alexa語音助手、臉書和微軟的面部識別、亞馬遜和Netflix建議、防止自動(dòng)駕駛汽車撞車的技術(shù),等等——所有這些都是機(jī)器學(xué)習(xí)進(jìn)步的結(jié)果。
雖然目前還遠(yuǎn)沒有像人腦那樣復(fù)雜,但基于機(jī)器學(xué)習(xí)的系統(tǒng)已經(jīng)取得了一些令人印象深刻的成就,例如在國際象棋、危險(xiǎn)邊緣、圍棋、德州撲克等比賽中擊敗了人類。
從十幾年的過度炒作和不切實(shí)際(不光彩的“人工智能寒冬”)中緩過勁來,人工智能和機(jī)器學(xué)習(xí)過去幾年開始強(qiáng)勁復(fù)蘇,這要?dú)w功于一系列的技術(shù)突破,低成本計(jì)算能力爆炸式的發(fā)展,以及為機(jī)器學(xué)習(xí)模型訓(xùn)練提供了大量的數(shù)據(jù)。
自學(xué)軟件
那么機(jī)器學(xué)習(xí)到底是什么呢?讓我們先來看看它不是什么:常規(guī)的手工編碼的人工編程計(jì)算應(yīng)用程序。
傳統(tǒng)的軟件能夠很好地執(zhí)行指令,但即時(shí)處變能力很差,機(jī)器學(xué)習(xí)系統(tǒng)與之不同,它實(shí)際上對自己進(jìn)行編程,對已有的實(shí)例進(jìn)行歸納借鑒,開發(fā)出自己的指令。
典型的例子是圖像識別。向機(jī)器學(xué)習(xí)系統(tǒng)展示足夠多的狗的照片(標(biāo)記為“狗”),以及貓、樹、嬰兒、香蕉,或者任何其他物體(“不是狗”)的照片,如果系統(tǒng)訓(xùn)練的非常好,它最終能夠很好的識別出狗,而且不需要人類告訴它狗是什么樣子。
電子郵件程序中的垃圾郵件過濾器是機(jī)器學(xué)習(xí)發(fā)揮作用很好的一個(gè)例子。在接觸了數(shù)以百萬計(jì)的垃圾郵件樣本以及非垃圾郵件樣本之后,它學(xué)會(huì)了怎樣識別那些討厭的有害信息的關(guān)鍵特征。它雖然不完美,但通常是相當(dāng)準(zhǔn)確的。
有監(jiān)督和無監(jiān)督學(xué)習(xí)
把一組龐大的訓(xùn)練數(shù)據(jù)提交給機(jī)器學(xué)習(xí)算法,檢查其輸出,然后不斷調(diào)整其設(shè)置,直到輸入給它以前從未見過的數(shù)據(jù),它能產(chǎn)生出預(yù)期的結(jié)果為止——這類機(jī)器學(xué)習(xí)被稱為有監(jiān)督學(xué)習(xí)。(這類似于過濾器意外地濾除合法消息,在收件箱中單擊“非垃圾郵件”按鈕的情形。您這樣做的越多,過濾器的準(zhǔn)確度就越高。)
最常見的有監(jiān)督學(xué)習(xí)任務(wù)包括分類和預(yù)測(即“回歸”)。垃圾郵件檢測和圖像識別都屬于分類問題。預(yù)測股票價(jià)格是回歸問題的典型例子。
第二類機(jī)器學(xué)習(xí)被稱之為無監(jiān)督學(xué)習(xí)。系統(tǒng)通過大量數(shù)據(jù)來學(xué)習(xí)“正?!钡臄?shù)據(jù)是什么樣子,這樣,它就能夠檢測到異常和隱藏模式。在您真的不知道要尋找什么的時(shí)候,可以使用無監(jiān)督機(jī)器學(xué)習(xí),所以不能訓(xùn)練系統(tǒng)去尋找什么。
無監(jiān)督機(jī)器學(xué)習(xí)系統(tǒng)可以從大量數(shù)據(jù)中識別出某種模式,速度比人類快得多,這就是為什么銀行利用它來發(fā)現(xiàn)欺詐交易,營銷人員部署它來找到具有相似屬性的客戶,安全軟件使用它來檢測網(wǎng)絡(luò)上的惡意活動(dòng)。
聚類和關(guān)聯(lián)規(guī)則學(xué)習(xí)是無監(jiān)督學(xué)習(xí)算法的兩個(gè)例子。聚類是客戶細(xì)分的秘密武器,而關(guān)聯(lián)規(guī)則學(xué)習(xí)則用于推薦引擎。
機(jī)器學(xué)習(xí)的局限性
因?yàn)槊恳粋€(gè)機(jī)器學(xué)習(xí)系統(tǒng)都有自己的連接,因此,可以把某一個(gè)系統(tǒng)的實(shí)際工作看成是一個(gè)黑盒。你不能總是對整個(gè)過程進(jìn)行逆向工程剖析,以發(fā)現(xiàn)您的系統(tǒng)為什么能區(qū)分一個(gè)哈巴狗和波斯狗。只要它能工作就行,其他并不重要。
但是一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)只有接觸到高質(zhì)量的數(shù)據(jù)才能更好地工作——這是一個(gè)典型的“垃圾輸入,垃圾輸出”的例子。如果訓(xùn)練不夠,或者沒有接觸足夠多的數(shù)據(jù)集,機(jī)器學(xué)習(xí)算法產(chǎn)生的結(jié)果不僅是錯(cuò)誤的,而且是帶有歧視性的。
惠普早在2009年就遇到了麻煩,HP MediaSmart筆記本的網(wǎng)絡(luò)攝像頭采用了面部識別技術(shù),卻識別不出非裔美國人的人臉。2015年6月,Google Photos應(yīng)用程序有誤的算法把兩個(gè)黑人錯(cuò)誤的標(biāo)記成大猩猩。
另一個(gè)有趣的例子:微軟命運(yùn)多舛的Taybot,2016年3月的一次實(shí)驗(yàn)旨在看看人工智能系統(tǒng)能否通過學(xué)習(xí)錄音來模仿人類對話。在不到一天的時(shí)間里,那些惡意的推特惡人們就把Tay調(diào)教成了一個(gè)滿嘴臟話的聊天機(jī)器人。這就是不好的訓(xùn)練數(shù)據(jù)的例子。
機(jī)器學(xué)習(xí)詞典
而機(jī)器學(xué)習(xí)確實(shí)是人工智能最尖端的技術(shù)。與機(jī)器學(xué)習(xí)密切相關(guān)的其他術(shù)語是神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和認(rèn)知計(jì)算。
神經(jīng)網(wǎng)絡(luò)。一種計(jì)算機(jī)架構(gòu),旨在模仿人腦中神經(jīng)元的結(jié)構(gòu),每個(gè)人工神經(jīng)元(微電路)都與系統(tǒng)內(nèi)的其他神經(jīng)元相連接。神經(jīng)網(wǎng)絡(luò)按層排列,一層的神經(jīng)元把數(shù)據(jù)傳遞給下一層的多個(gè)神經(jīng)元,如此繼續(xù),直至數(shù)據(jù)到達(dá)輸出層。在最后一層,神經(jīng)網(wǎng)絡(luò)給出最好的猜測,比如說,那個(gè)看起來像狗的東西是什么,還給出可信得分。
有多種類型的神經(jīng)網(wǎng)絡(luò)用于解決不同類型的問題。有大量分層的網(wǎng)絡(luò)被稱為“深度神經(jīng)網(wǎng)絡(luò)”。神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)應(yīng)用情形中最重要的工具,但不是唯一的工具。
深度學(xué)習(xí)。這實(shí)際上是一種激勵(lì)型的機(jī)器學(xué)習(xí),使用多層(深層)神經(jīng)網(wǎng)絡(luò),根據(jù)“有缺陷”或者不完整的信息來做出決定。深度學(xué)習(xí)系統(tǒng)DeepStack去年十二月?lián)魯×?1名職業(yè)撲克選手——它不斷地重新計(jì)算每輪下注后的策略。
認(rèn)知計(jì)算。這是Watson的創(chuàng)造者IBM喜歡用的術(shù)語,這一超級計(jì)算機(jī)2011年在危險(xiǎn)邊緣節(jié)目比賽中完勝人類。在IBM看來,認(rèn)知計(jì)算和人工智能之間的差異是,認(rèn)知計(jì)算并不是要取代人類智能,而是設(shè)計(jì)來增強(qiáng)它——使醫(yī)生更準(zhǔn)確地診斷病情,財(cái)務(wù)管理者能夠給出更明智的建議,律師更快地搜索判例法,等等。
當(dāng)然,這是一種非常膚淺的概述。如果您想要更深入地了解錯(cuò)綜復(fù)雜的人工智能和機(jī)器學(xué)習(xí),那么可以從華盛頓大學(xué)Pedro Domingos還算不錯(cuò)的教程開始,或者從Adam Geitgey的Medium系列文章入手,InfoWorld的Martin Heller的“深度學(xué)習(xí)到底意味著什么”也是很好的選擇。
雖然人工智能有太多的炒作,但不夸張地說,機(jī)器學(xué)習(xí)以及與它相關(guān)的技術(shù)正在改變我們所知的世界。最好在機(jī)器具有自我意識之前就徹底了解它。
當(dāng)Mark Zuckerberg還帶著尿不濕的時(shí)候,Dan Tynan就開始技術(shù)類寫作了。作為一名多產(chǎn)的自由作家,他的文章發(fā)表在70多種出版物上,他是雅虎技術(shù)的前任總編輯,曾長期擔(dān)任InfoWorld和PCWorld的特約編輯。endprint