劉鐵巖
微軟亞洲研究院是跨界產(chǎn)學研結(jié)合的特殊性組織,在基礎研究方面,微軟讓人工智能在語音識別、圖像識別、機器翻譯和閱讀理解等方面的能力都實現(xiàn)了質(zhì)的提升。2017年我們成立了微軟亞洲研究院創(chuàng)新會,希望通過微軟的智庫幫助亞太地區(qū)的所有傳統(tǒng)企業(yè)實現(xiàn)數(shù)字化和智能化轉(zhuǎn)型。
實際上人工智能基礎研究和產(chǎn)業(yè)需求之間是有著巨大鴻溝的,我們只有完成最后一公里創(chuàng)新,才能夠把這個鴻溝彌補起來。下面我要和大家展示四個方面的研究工作。
第一個方面是對偶學習。對偶學習要解決的問題是什么?就是在沒有足夠數(shù)據(jù)、沒有標識數(shù)據(jù)的情況下,人工智能還能不能完成學習過程,這是一個非常重要的問題,因為近幾年來,無論是在語音識別、圖像識別、閱讀理解,還是在機器翻譯方面人工智能算法成功的背后必然是大量數(shù)據(jù)的支撐。任何人工智能應用領域都要實現(xiàn)雙向交流,比如說在語音領域里,我們既關心從語音到文字識別的過程,也關心從語音到文字生成的過程,這樣才能形成一個閉環(huán)的人機交流。依據(jù)這樣的閉環(huán)模式,我們提出了一個對偶學習框架,利用信息交流的閉環(huán),即便沒有人工干預,沒有人工標識數(shù)據(jù),也可以獲得有效信息。
以機器翻譯為例,假設我們有兩個初始模型,可以完成從英文到中文的簡單翻譯,再將翻譯出來的中文轉(zhuǎn)譯成英文,形成閉環(huán)后就可以做兩個比較。第一個比較過程是將翻譯出的中文句子與正確的中文句式的比較,如果不相符的話就說明所使用的翻譯模型是無效的,或者有待提高。另一個比較過程是將原來的英文句子和經(jīng)過閉環(huán)翻譯出來的英文句子做的比較,判斷其語義是否一致,如果不一致就會獲得一個學習信號,這是兩個對偶任務之間的雙向互動,是對偶學習的基本思想。
借助對偶學習技術,2018年3月微軟公司在中英新聞翻譯領域首次達到人類專業(yè)翻譯水平,比同聲傳譯還高出一個水準。我們在2019年4月份世界級大規(guī)模機器翻譯大賽的19項任務里面獲得8項冠軍,背后主要的核心技術就是前面提到的對偶學習。
對偶學習不僅在機器翻譯上面有很好的表現(xiàn),在語音識別方面也發(fā)揮了很大的作用。語音質(zhì)量的提高,使合成的語音以一種可理解的方式傳遞到我們耳朵里,這就是對偶學習的效果。
第二個方面是動態(tài)學習。對偶學習解決了數(shù)據(jù)不足的問題,但數(shù)據(jù)還有動態(tài)性的問題。標準的人工智能會假設數(shù)據(jù)分布是不變的,所以我們在訓練集獲得的知識可以無縫推廣到將來未知的測試樣例上,但實際情況往往不是這樣。這個問題催生出了一系列算法,比如注意力機制算法,把原來傳統(tǒng)人工智能模型里面各種特征組合而成的確定性參數(shù)變成動態(tài)的參數(shù),這些參數(shù)可以根據(jù)環(huán)境變化調(diào)整,這就是智能化的算法,區(qū)別于以前的固定算法。
同時我們還將基于數(shù)據(jù)的機器學習和博弈論相結(jié)合,傳統(tǒng)博弈論關心理性的智能體之間的博弈問題,忽略了數(shù)據(jù)里面的動態(tài)性。而機器學習關心基于數(shù)據(jù)的決策,忽略了人或者智能體的二階效應。我們把這兩者進行結(jié)合,推出了一個新的研究方向—數(shù)據(jù)驅(qū)動的博弈機器學習。博弈機器學習的一系列思想可以應用到對數(shù)據(jù)動態(tài)性非常敏感的領域,比如股票投資。
第三個方面是競合學習。我們的思想是化整為零,通過分布式訓練解決問題。競合學習是建立在分布式的智能體之間的互動機制。競合指的是分布式智能體之間對共有資源的競爭。我們和世界頂級的航運公司進行合作,用競合學習解決整個航運網(wǎng)絡里集裝箱的調(diào)度問題,各個港口的集裝箱都需要競爭船上的空位,這是典型的智能體之間進行資源競爭的例子,在同一條航線運輸集裝箱的情況下,各個港口的集裝箱庫存在時空網(wǎng)絡上都要進行廣泛競爭和合作。競合學習幫他們將原來基于運籌學的方法,替代為新的人工智能解決方案,在短時間內(nèi)節(jié)省了上千萬美元的運營成本。
第四個方面是輕量學習。最近在學術界很流行的一件事情是用大量數(shù)據(jù)做自然語言預訓練,有了預訓練模型的話,自然語言處理任務的執(zhí)行效果就可以得到提升。這聽起來像是在探索科學邊界,但是實際是一種大力出奇跡的做法,這讓我們的研究被極大地限制了。我跟我們研究團隊達成的共識有兩點:第一,不隨波逐流做所謂大力出奇跡研究。第二,希望幫助學術界和產(chǎn)業(yè)界探索輕量級的處理方法,用少量計算資源就可以實現(xiàn)比別人用海量計算資源效果更好的研究成果。
人工智能基礎研究非常重要,雖然近幾年取得了很大的進展,但是想讓人工智能研究真正對產(chǎn)業(yè)產(chǎn)生影響,必須進行最后一公里的研究,我們需要能彌補基礎研究和實際應用鴻溝的重量級研究成果出現(xiàn)。
以上的四個研究方向希望能給大家?guī)韱l(fā),我們呼吁更多同仁一起去做進一步的創(chuàng)新,推進人工智能和大數(shù)據(jù)產(chǎn)業(yè)共同的繁榮發(fā)展,創(chuàng)建一個新的生態(tài)。
(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)