張靜
樊文飛(中)與兩位博導(dǎo)(左一)和(右一)在英國皇家學(xué)會的合影
無論是去年李開復(fù)所言的“AI泡沫破裂”、Yann LeCun說的“AI公司要沒錢了”,還是今年張鈸院士提出的“深度學(xué)習(xí)觸及天花板”,亦或是圖靈獎得主ludea Pearl直指“AT現(xiàn)在的重點是曲線擬合,而不是智能”,這些人工智能領(lǐng)域的大牛無一不在表述這樣一個觀點:人工智能需要冷思考。
“AT目前可以幫助我們發(fā)現(xiàn)一些關(guān)聯(lián)關(guān)系,提高生產(chǎn)效率。要使AI進一步發(fā)揮潛力,就需要提高基礎(chǔ)計算引擎的效率。”英國皇家學(xué)會院士樊文飛表示,“大數(shù)據(jù)是AI的基礎(chǔ)。由于大數(shù)據(jù)計算的困難性,傳統(tǒng)的經(jīng)典計算理論已經(jīng)不能夠解決大數(shù)據(jù)的問題,需要新的理論和切實可行的技術(shù)”。
樊文飛是國際學(xué)術(shù)界公認(rèn)的在“數(shù)據(jù)庫理論與系統(tǒng)領(lǐng)域都做出突破性貢獻(xiàn)的極少數(shù)學(xué)者之一”。他是英國皇家學(xué)會計算機領(lǐng)域唯一的華裔院士(美國科學(xué)院計算機領(lǐng)域的華裔院士也只有姚期智一人),是在英國皇家學(xué)會具有300余年歷史的簽名簿上用中文簽名的第一人。他是數(shù)據(jù)庫領(lǐng)域歷史上僅有的兩個“大滿貫”學(xué)者之一,即獲得國際數(shù)據(jù)庫理論與系統(tǒng)四大頂級會議的最佳論文獎或10年最佳論文獎(SIGMOD 2017,PODS 2015 & 2010,VLDB2010,ICDE 2007)。
盡管樊文飛從理論到實踐,從學(xué)術(shù)到科研再到產(chǎn)業(yè),都有豐富的積淀和經(jīng)驗,但是他很少在公共輿論環(huán)境中發(fā)表意見。據(jù)了解,他已經(jīng)接受了中國計算機學(xué)會(China Computer Federation,縮寫“CCF”)的邀請,將出席即將召開的中國計算機大會,并發(fā)表演講。我們就此和他進行了交流。
“計算機研究的核心是理論和系統(tǒng)?!狈娘w開篇明義?!按騻€比方,大家都知道Google的阿爾法狗(Alpha Go)打敗圍棋世界冠軍,是人工智能的一個重要里程碑。但大家也應(yīng)該看到,Alpha Go背后用到的處理資源的價值是以千萬美元計算的,研發(fā)團隊里面集聚了一大批國際頂級人才,他們的價值更是以億計算。這樣的代價和成本不是一般的企業(yè)所能承受的?!薄拔覀兪欠窨梢酝ㄟ^理論的突破到系統(tǒng)的落地,解決大多數(shù)企業(yè)因資源受限無力從事真正的大數(shù)據(jù)計算的現(xiàn)實問題?是否可以通過‘把大數(shù)據(jù)變小,做到企業(yè)無論大小都能享受大數(shù)據(jù)分析的利益?”“對此我們提出了有界計算理論及數(shù)據(jù)驅(qū)動的近似計算理論?!?/p>
有界計算理論的基本思想是,給定一個函數(shù)F(x),參數(shù)x代表大數(shù)據(jù)集。多數(shù)計算不需要訪問全部的x,只需要取x的一小部分就能得到F(x)的精確解。有界計算理論研究的就是如何根據(jù)不同的函數(shù)F,根據(jù)語義找到所需的x的那一小部分。樊文飛說,“一家世界一流的公司通過測試發(fā)現(xiàn),在數(shù)十億條數(shù)據(jù)的實時查詢場景下,91%的查詢可以用有界計算來解決;并在70%以上的查詢中,查詢效率提升25倍~14萬倍。剩余9%不具備有界計算條件的查詢,可以通過數(shù)據(jù)驅(qū)動的近似計算理論來解決?!?p>
開發(fā)GRAPE的團隊
數(shù)據(jù)驅(qū)動的近似計算是根據(jù)用戶的查詢,在數(shù)據(jù)的層次表述中動態(tài)找到所需的數(shù)據(jù),并在有限資源下計算查詢的近似解。其特點是保證精確度,即對每個精確解,都找到一個對應(yīng)的近似解使得二者之間的誤差在一定范圍內(nèi),同時每個近似解都對應(yīng)一個誤差范圍內(nèi)的精確解。國際上還沒有查詢系統(tǒng)能做到這一點?!氨热缒阋诒本┱乙粋€離藝術(shù)館比較近的、價格低于500元的旅館,在資源有限的情況下只能查看100條數(shù)據(jù),那么我們就可以給你一個近似的結(jié)果,可能這個旅館是520元,也可能是距離一個美術(shù)館比較近的旅館,但保證每個近似解都是相關(guān)的,而且每一個精確解都能被覆蓋到。”“上面提到的這家世界一流的公司認(rèn)為,有界計算是一個具有突破性的高潛力發(fā)明,并決定每年投資上千萬人民幣支持開放性的基礎(chǔ)研究?!狈娘w介紹,“此外,這項工作還在2018年拿了Royal Society Wolfson Research Merit Award(英國皇家學(xué)會沃爾夫森研究優(yōu)秀獎)?!?/p>
目前,一支“超級團隊”正在做“把大數(shù)據(jù)變小”這個理論的產(chǎn)業(yè)化落地,打造一款從理論到實現(xiàn)都是中國人原創(chuàng)的、具有實時分析能力的下一代大數(shù)據(jù)系統(tǒng)。這個系統(tǒng)將有界計算和數(shù)據(jù)驅(qū)動的近似計算疊加,突破性解決大數(shù)據(jù)計算問題,旨在將大數(shù)據(jù)從科技巨頭們的特權(quán)普及到各行各業(yè)和生活的各個方面。這支團隊有一個充滿霸氣的名字——“數(shù)據(jù)征服者”(Conquer of Data,簡稱“CoD”)。據(jù)悉,這個系統(tǒng)將在明年發(fā)布,CoD團隊將在CNCC大會展示區(qū)展出其系統(tǒng)原型。
另一個理論到系統(tǒng)的案例是GRAPE。為提升大規(guī)模圖數(shù)據(jù)計算效率,從2016年開始,樊文飛著手研究并提出了兩個理論:一個是基于不動點計算的單機圖算法自動并行化的程序設(shè)計模型,另一個是同步/異步自適應(yīng)并發(fā)計算模型。這些理論可以降低并行圖計算程序設(shè)計的門檻,保證計算正確性,同時可以大幅提升效率。這些工作獲得了包括SIGMOD和VLDB這些行業(yè)頂級會議上的三個獎項。
基于這些理論,樊文飛的學(xué)生于文淵博士、徐靜波博士等人回國,開發(fā)了這套名為GRAPE的系統(tǒng)。他們在2018年3月5日成立了公司,同年3月15日就有知名企業(yè)來收購?!拔覀冏罱K還是選擇了一家互聯(lián)網(wǎng)巨頭,因為這家公司承諾為GRAPE建立一個開源社區(qū)并且打造成一個中國自己的國際IT軟件品牌?!睋?jù)這家公司的材料披露,GRAPE在社交關(guān)系處理、推薦、風(fēng)控等應(yīng)用場景都取得很好的效果,在一些業(yè)務(wù)線上,GRAPE相比原流程甚至有數(shù)量級的性能提升。
樊文飛是國際上屈指可數(shù)的兩獲PODS時間檢驗獎的學(xué)者之一
什么是創(chuàng)新?創(chuàng)新包括探索新領(lǐng)域、發(fā)現(xiàn)新問題、找到新方法、或者借鑒其他領(lǐng)域的解決方法解決本領(lǐng)域的問題,這是創(chuàng)新程度的一個評判標(biāo)準(zhǔn)。樊文飛說:“我們所謂的創(chuàng)新,關(guān)鍵不是看你發(fā)了多少論文、在哪里發(fā)表、引用率有多高。學(xué)術(shù)地位是由學(xué)術(shù)界的口碑決定的,是你能否提出基礎(chǔ)、原創(chuàng)的東西,能夠引領(lǐng)學(xué)術(shù)界,并在工業(yè)界落地。”他的第三篇論文就榮獲了2010年ACM PODS(Principles of Database systems)的“十年最佳論文獎”(ACM PODS Alberto O.Mendelzon Test-of-Time Award)。ACM PODS始于1982年,是國際公認(rèn)的數(shù)據(jù)庫理論頂級會議。時間檢驗獎旨在獎勵在十年間對研究、方法論及實踐產(chǎn)生重大影響力的論文。樊文飛是國際上屈指可數(shù)的兩獲PODS時間檢驗獎的學(xué)者之一。
他把這次獲獎歸結(jié)于“幸運”。但不能否認(rèn)的是,堅持原創(chuàng)是他極具前瞻性視野的一個重要條件。他2000年發(fā)表的半結(jié)構(gòu)化數(shù)據(jù)約束理論現(xiàn)在已成為一個成熟的研究領(lǐng)域,目前被廣泛應(yīng)用在網(wǎng)絡(luò)數(shù)據(jù)語義描述、查詢的優(yōu)化、分析、數(shù)據(jù)質(zhì)量提升和數(shù)據(jù)知識獲取、知識圖譜的擴展這些業(yè)務(wù)。
除了學(xué)者的身份之外,樊文飛還是一位導(dǎo)師,是愛丁堡大學(xué)主任教授?!拔以谪悹枌嶒炇夜ぷ鞫嗄?,所以我習(xí)慣把學(xué)生當(dāng)做合作者,”他說,“對博士研究生來說,最難的是找題目,還有研究遇到瓶頸。導(dǎo)師應(yīng)該幫助學(xué)生找題目,解決學(xué)生做不出的問題。在論文上,我也是合作者,要做出自己的貢獻(xiàn)。我的論文中,所有題目都是我提出的,技術(shù)難題我都要給出方法解決甚至自己寫證明、算法,而且經(jīng)常要承擔(dān)大部分寫作。我從來沒有在我沒有做出足夠貢獻(xiàn)的論文上掛過名字?!?/p>
在英國讀博需要3年,不像是美國需要4年~6年。就教學(xué)周期來說,樊文飛有自己的一套方法:“第一年學(xué)生幫助實現(xiàn)我們給出的算法,這時候他會發(fā)現(xiàn)一些樂趣,尤其是發(fā)表了一篇論文之后他會很興奮,會有做學(xué)問的動力;第二年他們開始設(shè)計一些算法,他們會想得更深;第三年他們開始領(lǐng)導(dǎo)一個課題,我可以給他們題目,但他們要從頭到尾去設(shè)計,解決不了的問題再來找我。這樣由淺入深,三年的時間只要認(rèn)真工作,基本就可以獨立了。我?guī)W(xué)生的辦法就是親身參與,把學(xué)生當(dāng)做合作者?!狈娘w帶出來的學(xué)生,每人都獲得過至少一個數(shù)據(jù)庫頂級會議的最佳論文獎。
樊文飛說:“在愛丁堡大學(xué),七十多歲的老教授在圣誕假期還在學(xué)校里自己寫論文,他就是喜歡研究,享受這份樂趣,不把研究做為獲取名利的手段。所以他們能做出有價值的原創(chuàng)研究。”追求興趣、保持熱情、堅持原創(chuàng)、鍛煉學(xué)術(shù)頭腦的靈活性,把學(xué)生當(dāng)做合作者,這是老一輩學(xué)者和優(yōu)秀導(dǎo)師們身上值得學(xué)習(xí)的東西。
在即將召開的CNCC大會上,樊文飛將為參會的近8000位計算機領(lǐng)域?qū)<?、企業(yè)技術(shù)人員、高校的科研人員和學(xué)生帶來“Making Big Data Small”的演講報告。當(dāng)被問及他本人最感興趣的會議話題是什么,他回答說:“今年的一些技術(shù)性的論壇我都很感興趣。我們需要一些介紹最新的學(xué)術(shù)發(fā)展趨勢和自己原創(chuàng)的講座。國家需要腳踏實地做學(xué)問的科學(xué)家?!保ㄕ悦馈渡羁萍肌罚ň庉?萊西)