廖方宇,洪學(xué)海 ,汪洋,褚大偉
1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 北京 100190
2.中國(guó)科學(xué)院計(jì)算技術(shù)研究所 北京100190
3.中國(guó)科學(xué)院 北京 100864
理論上,人類社會(huì)活動(dòng)及自然世界的一切現(xiàn)象都可以在網(wǎng)絡(luò)空間中構(gòu)建起真實(shí)映射的“數(shù)字孿生”體,這是當(dāng)今信息科學(xué)技術(shù)追求的“人—機(jī)—物”三元融合的本質(zhì)。而構(gòu)建映射“數(shù)字孿生”體最關(guān)鍵的技術(shù)就是數(shù)據(jù)技術(shù)和計(jì)算技術(shù)。
數(shù)據(jù)是對(duì)事實(shí)或過(guò)程的定量或定性的記錄。數(shù)據(jù)技術(shù)就是研究對(duì)數(shù)據(jù)進(jìn)行采集、分類、錄入、儲(chǔ)存、分析、檢驗(yàn)等一系列科學(xué)技術(shù)活動(dòng)的統(tǒng)稱,其目標(biāo)就是將數(shù)據(jù)變成人類用于認(rèn)識(shí)自然物理世界和人類社會(huì)的信息——知識(shí)與規(guī)律。當(dāng)前熱門的人工智能實(shí)質(zhì)是數(shù)據(jù)與計(jì)算技術(shù)應(yīng)用的一種形態(tài),其主要任務(wù)是發(fā)現(xiàn)數(shù)據(jù)世界中蘊(yùn)含的自然與人類社會(huì)規(guī)律與知識(shí),輔助人類一系列的活動(dòng)。數(shù)據(jù)技術(shù)的實(shí)現(xiàn)依賴于計(jì)算技術(shù),并與計(jì)算技術(shù)緊密耦合。本質(zhì)上計(jì)算技術(shù)是實(shí)現(xiàn)數(shù)據(jù)技術(shù)以及人工智能等的核心工具和載體。自從人類發(fā)明了馮·諾伊曼計(jì)算機(jī),幾十年來(lái),計(jì)算技術(shù)隨著摩爾定律的驅(qū)動(dòng)高速發(fā)展,使得數(shù)據(jù)技術(shù)等領(lǐng)域研究與應(yīng)用更趨活躍。因此數(shù)據(jù)技術(shù)、計(jì)算技術(shù)等為構(gòu)建“人—機(jī)—物”三元融合的“數(shù)字孿生”體提供了最基礎(chǔ)的技術(shù)平臺(tái),而人工智能或許是實(shí)現(xiàn)這種映射最有效的技術(shù)和方法。
在上千年科學(xué)研究活動(dòng)的演進(jìn)中,人、資本、工具(科學(xué)儀器)、方法(理論)已經(jīng)成為科學(xué)研究必然的投入要素。過(guò)去幾十年,計(jì)算機(jī)輔助科學(xué)家開(kāi)展了大量的計(jì)算工作,成為科研工具中重要的一種類型。然而隨著數(shù)據(jù)與計(jì)算技術(shù)的飛速發(fā)展,數(shù)據(jù)與計(jì)算技術(shù)不僅僅在科學(xué)研究中起到輔助與支撐的作用,而是可以依靠數(shù)據(jù)與計(jì)算技術(shù)自身的邏輯方法驅(qū)動(dòng)甚至引領(lǐng)科學(xué)研究活動(dòng)。在一定意義上說(shuō),沒(méi)有數(shù)據(jù)與計(jì)算平臺(tái),當(dāng)今的科學(xué)研究活動(dòng)幾乎無(wú)法開(kāi)展、科學(xué)發(fā)現(xiàn)幾乎難以實(shí)現(xiàn)。因此數(shù)據(jù)與計(jì)算平臺(tái)將作為科學(xué)研究一種獨(dú)立的、不可或缺的投入要素成為必然。人、資本、科學(xué)儀器、數(shù)據(jù)與計(jì)算平臺(tái)、方法(理論)成為科研活動(dòng)的五大基本投入要素,數(shù)據(jù)與計(jì)算平臺(tái)不僅僅支撐,更將驅(qū)動(dòng)著科學(xué)研究快速向前發(fā)展。
從純粹的技術(shù)角度看,數(shù)據(jù)與計(jì)算是解決數(shù)據(jù)的形式化表達(dá)和可計(jì)算等理論問(wèn)題以及計(jì)算系統(tǒng)實(shí)現(xiàn)與優(yōu)化的現(xiàn)實(shí)問(wèn)題,包括解決計(jì)算系統(tǒng)設(shè)計(jì)的CAP問(wèn)題1CAP定理又稱CAP原則,指的是在一個(gè)分布式系統(tǒng)中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分區(qū)容錯(cuò)性),最多只能同時(shí)滿足三個(gè)特性中的兩個(gè),三者不可兼得。。從圖靈機(jī)到馮·諾伊曼計(jì)算機(jī)再到圖靈測(cè)試,這些經(jīng)典的科學(xué)成就的靈魂就是數(shù)據(jù)與計(jì)算技術(shù)的本源[1],也是面對(duì)當(dāng)初軍事上的密碼破譯任務(wù)的重大現(xiàn)實(shí)需求以及信息技術(shù)驅(qū)動(dòng)“雙輪驅(qū)動(dòng)”的結(jié)果,貫穿始終的是數(shù)據(jù)和計(jì)算技術(shù)的實(shí)現(xiàn)問(wèn)題,也是當(dāng)今信息技術(shù)發(fā)展的本源。
信息技術(shù)的發(fā)展已經(jīng)經(jīng)歷了以單機(jī)為主要特征的IT 1.0時(shí)代、以互聯(lián)網(wǎng)為主要特征的IT 2.0時(shí)代,到現(xiàn)在及將來(lái)以萬(wàn)物互聯(lián)為主要特征的IT 3.0時(shí)代(圖1)[2]。數(shù)據(jù)技術(shù)成為IT 3.0時(shí)代信息技術(shù)研究的重點(diǎn)技術(shù)方向之一。
圖1 信息技術(shù)的發(fā)展歷程Fig.1 Development of IT
人類為獲得對(duì)自然和社會(huì)的認(rèn)知,一直不斷的在收集數(shù)據(jù)、轉(zhuǎn)化數(shù)據(jù)為知識(shí),并不斷傳播數(shù)據(jù)和知識(shí),努力理解自然和社會(huì)運(yùn)動(dòng)發(fā)展的規(guī)律。萬(wàn)物互聯(lián)的IT3.0時(shí)代,隨著傳感網(wǎng)、物聯(lián)網(wǎng)、泛在網(wǎng)絡(luò)的不斷向物理世界各個(gè)角落的延伸應(yīng)用,以及數(shù)據(jù)采集的硬件和軟件技術(shù)的不斷進(jìn)步,信息系統(tǒng)采集、記錄和存儲(chǔ)的數(shù)據(jù)也越來(lái)越豐富,不僅僅有文字、數(shù)字等形式的數(shù)據(jù),還有了聲音、圖片、視頻等各種形式的數(shù)據(jù),而且也越來(lái)越即時(shí)。數(shù)據(jù)規(guī)模從最初的MB、GB到TB、PB量級(jí)(千倍率)增長(zhǎng)。數(shù)據(jù)結(jié)構(gòu)也不再僅僅是原始數(shù)值型數(shù)據(jù)、可關(guān)系型結(jié)構(gòu)化表達(dá)的數(shù)據(jù),非結(jié)構(gòu)化的數(shù)據(jù)越來(lái)越多,比如在網(wǎng)絡(luò)空間的各種網(wǎng)絡(luò)社交信息數(shù)據(jù),通過(guò)望遠(yuǎn)鏡獲得的大量天文學(xué)研究的圖片數(shù)據(jù)、基因分析學(xué)中的各種各樣的基因序列數(shù)據(jù)、物理學(xué)中通過(guò)大型對(duì)撞機(jī)、光源等大型物理裝置產(chǎn)生的大量實(shí)驗(yàn)數(shù)據(jù)等各個(gè)領(lǐng)域的科學(xué)數(shù)據(jù)。這種數(shù)據(jù)類型復(fù)雜、數(shù)據(jù)量大、產(chǎn)生速度快和蘊(yùn)含較大價(jià)值的特征構(gòu)成了當(dāng)今稱作為“大數(shù)據(jù)”的幾個(gè)典型特征。面對(duì)大數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)管理與處理技術(shù)已經(jīng)難以勝任,呼喚著適應(yīng)大數(shù)據(jù)管理與處理的理論、技術(shù)和方法的產(chǎn)生。
數(shù)據(jù)學(xué)已經(jīng)有一些方法和技術(shù)[3],例如:數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)安全、數(shù)據(jù)分析、可視化等;還需要有基礎(chǔ)理論和新技術(shù),例如:數(shù)據(jù)存在性、數(shù)據(jù)測(cè)度、時(shí)間、數(shù)據(jù)代數(shù)、數(shù)據(jù)相似性與簇論、數(shù)據(jù)分類、數(shù)據(jù)偽裝與識(shí)別、數(shù)據(jù)實(shí)驗(yàn)、數(shù)據(jù)感知等等。數(shù)據(jù)學(xué)的理論和方法將改進(jìn)現(xiàn)有的科學(xué)研究方法,形成新型的科學(xué)研究方法,并且針對(duì)各個(gè)研究領(lǐng)域開(kāi)發(fā)出專門的理論、技術(shù)和方法,從而形成專門領(lǐng)域的數(shù)據(jù)學(xué),例如:行為數(shù)據(jù)學(xué)、生命數(shù)據(jù)學(xué)、腦數(shù)據(jù)學(xué)、氣象數(shù)據(jù)學(xué)、金融數(shù)據(jù)學(xué)、地理數(shù)據(jù)學(xué),等等。
與數(shù)據(jù)學(xué)連為一體的是數(shù)據(jù)技術(shù)。數(shù)據(jù)技術(shù)的本質(zhì)是對(duì)數(shù)據(jù)的“加工”技術(shù),包括對(duì)數(shù)據(jù)進(jìn)行采集、存儲(chǔ)、清洗、加工、分析、挖掘等各個(gè)過(guò)程。程學(xué)旗等[4]、楊正洪[5]對(duì)大數(shù)據(jù)技術(shù)生態(tài)進(jìn)行系統(tǒng)性研究,目前面對(duì)大數(shù)據(jù)的全生命周期,Hadoop、MapReduce和Spark等分布式處理方式已經(jīng)成為大數(shù)據(jù)處理各環(huán)節(jié)的通用處理方法,并形成了較為完善的大數(shù)據(jù)技術(shù)體系,覆蓋數(shù)據(jù)來(lái)源層、數(shù)據(jù)傳輸層、數(shù)據(jù)存儲(chǔ)層、資源管理層、數(shù)據(jù)計(jì)算層、任務(wù)調(diào)度層、業(yè)務(wù)模型層等(如圖2)。
圖2 大數(shù)據(jù)技術(shù)棧Fig.2 Technology stack of big data
數(shù)據(jù)技術(shù)與計(jì)算技術(shù)因計(jì)算機(jī)系統(tǒng)而始終一體存在,但計(jì)算技術(shù)是實(shí)現(xiàn)數(shù)據(jù)技術(shù)的重要依托平臺(tái)技術(shù)。計(jì)算技術(shù)的發(fā)展已經(jīng)發(fā)生了顯著的代際轉(zhuǎn)換,從強(qiáng)調(diào)單計(jì)算系統(tǒng)算力(如高性能計(jì)算)模式到網(wǎng)絡(luò)計(jì)算模式再到大數(shù)據(jù)計(jì)算模式。目前這些計(jì)算模式并存,并各自發(fā)揮其獨(dú)特的作用。
關(guān)于計(jì)算理論,早在1703年之前就有了二進(jìn)制和數(shù)理邏輯系統(tǒng),1936年,艾倫·圖靈、阿隆佐·邱奇和斯蒂芬·科爾·克萊尼給出了算法在計(jì)算理論中的形式化定義。此后,理論計(jì)算機(jī)科學(xué)的眾多計(jì)算理論的研究成果為計(jì)算技術(shù)的實(shí)現(xiàn)奠定了理論基礎(chǔ),主要包括算法、數(shù)據(jù)結(jié)構(gòu)、分布式計(jì)算、并行計(jì)算、機(jī)器學(xué)習(xí)、計(jì)算幾何、信息論、密碼學(xué)、量子計(jì)算、計(jì)算數(shù)論、符號(hào)計(jì)算、程序語(yǔ)義和形式化方法、自動(dòng)機(jī)理論、編碼理論、計(jì)算學(xué)習(xí)理論、數(shù)據(jù)庫(kù)、信息獲取、以及與理論計(jì)算機(jī)科學(xué)等相關(guān)的諸多方面[6]。
計(jì)算技術(shù)發(fā)展最為典型的代表是高性能計(jì)算領(lǐng)域。高性能計(jì)算機(jī)設(shè)計(jì)的主要目標(biāo)就是為了實(shí)現(xiàn)大規(guī)模計(jì)算任務(wù),包括大規(guī)模數(shù)值模擬計(jì)算和大規(guī)模數(shù)據(jù)處理計(jì)算。當(dāng)前高性能計(jì)算機(jī)系統(tǒng)已經(jīng)成為互聯(lián)網(wǎng)和科學(xué)研究等方面的數(shù)據(jù)與計(jì)算的核心基礎(chǔ)平臺(tái),也是世界各國(guó)競(jìng)相爭(zhēng)奪的信息技術(shù)領(lǐng)域的制高點(diǎn)。在高性能計(jì)算機(jī)系統(tǒng)的研制方面,在技術(shù)領(lǐng)域目前主要研究的焦點(diǎn)集中在突破高性能計(jì)算機(jī)研制的能耗墻、存儲(chǔ)墻、編程墻、通信墻和可靠性墻5大挑戰(zhàn)性問(wèn)題[7](如圖3)。
圖3 超級(jí)計(jì)算的能量效率改進(jìn)潛力Fig.3 Energy efficiency improvement potential of supercomputing
表1 大數(shù)據(jù)計(jì)算模式和工具Table1 Patterns and tools of big data
當(dāng)前,高性能計(jì)算系統(tǒng)的重要負(fù)載是大數(shù)據(jù)。面向不同的應(yīng)用問(wèn)題,學(xué)者與技術(shù)人員在研究與工程中提出了不同的大數(shù)據(jù)計(jì)算模式和關(guān)鍵技術(shù),并根據(jù)大數(shù)據(jù)的不同數(shù)據(jù)特征和計(jì)算特征,從多樣性的大數(shù)據(jù)計(jì)算問(wèn)題和需求中提煉并建立了各種高層抽象(abstraction)或模型(model)。大數(shù)據(jù)計(jì)算模式的出現(xiàn)有力推動(dòng)了大數(shù)據(jù)技術(shù)和應(yīng)用的發(fā)展,使其成為目前大數(shù)據(jù)處理最為成功、最廣為接受使用的主流計(jì)算模式[8](表1)。
數(shù)據(jù)與計(jì)算平臺(tái)是指融合利用高速網(wǎng)絡(luò)、海量數(shù)據(jù)、強(qiáng)大分析計(jì)算能力及其相關(guān)信息化軟件促進(jìn)和支撐科學(xué)研究發(fā)現(xiàn)的信息基礎(chǔ)設(shè)施環(huán)境,它不僅僅包括為科學(xué)研究提供支撐的網(wǎng)絡(luò)、超級(jí)計(jì)算機(jī)、存儲(chǔ)等硬件設(shè)施,還包括在硬件設(shè)施上部署的系統(tǒng)中間件、基礎(chǔ)軟件以及與學(xué)科發(fā)展緊密結(jié)合的應(yīng)用軟件、科學(xué)數(shù)據(jù)資源等軟環(huán)境。
數(shù)據(jù)收集、整理與計(jì)算、分析與發(fā)現(xiàn)始終是科學(xué)研究的核心過(guò)程[9]。隨著數(shù)據(jù)與計(jì)算科學(xué)與技術(shù)的飛速發(fā)展,數(shù)據(jù)與計(jì)算不僅僅在科學(xué)研究中起到輔助與支撐的作用,而是依靠數(shù)據(jù)與計(jì)算技術(shù)自身的邏輯方法驅(qū)動(dòng)甚至引領(lǐng)科學(xué)研究活動(dòng)。
隨著科學(xué)研究的深入,越來(lái)越多的復(fù)雜系統(tǒng)包含了成千上萬(wàn)個(gè)物理、化學(xué)過(guò)程,且相互之間不可完整地分離,相互交織著,很難再通過(guò)經(jīng)典物理學(xué)的方法來(lái)得出解析解。因此許多科學(xué)研究問(wèn)題轉(zhuǎn)變?yōu)閿?shù)值模擬計(jì)算問(wèn)題,如計(jì)算物理、計(jì)算力學(xué)、計(jì)算化學(xué)、計(jì)算生物學(xué)等都可歸結(jié)為數(shù)值計(jì)算問(wèn)題。隨著觀測(cè)與傳感技術(shù)的發(fā)展,各學(xué)科領(lǐng)域研究產(chǎn)生了海量的科學(xué)數(shù)據(jù),亟需新的技術(shù)與方法將數(shù)據(jù)轉(zhuǎn)化為知識(shí)。因此,數(shù)據(jù)與計(jì)算平臺(tái)將作為一種新的不可或缺的科研投入要素,驅(qū)動(dòng)著科學(xué)研究向前發(fā)展[10]。
2013年諾貝爾化學(xué)獎(jiǎng)授予了三位美國(guó)科學(xué)家,獲獎(jiǎng)理由是“為復(fù)雜化學(xué)系統(tǒng)創(chuàng)立了多尺度模型”,其計(jì)算模型能夠?qū)⑽⒂^尺度上的基本認(rèn)識(shí)轉(zhuǎn)化為宏觀尺度上的預(yù)測(cè)能力。對(duì)于化學(xué)家而言,多尺度計(jì)算化學(xué)模型的建立使計(jì)算機(jī)變得像試管一樣重要。該獎(jiǎng)的啟示在于,從應(yīng)用的角度而言,大規(guī)模的計(jì)算資源和大量的“黑箱”計(jì)算程序的出現(xiàn)使得越來(lái)越多的研究可以應(yīng)用理論和計(jì)算的方法研究自然科學(xué)問(wèn)題。早在1986年,葉篤正提出在大氣科學(xué)領(lǐng)域,幾乎大氣中的各種重要現(xiàn)象都可以用電子計(jì)算機(jī)進(jìn)行數(shù)值模擬,并用電子計(jì)算機(jī)進(jìn)行預(yù)報(bào),大氣科學(xué)進(jìn)入了試驗(yàn)階段,擺脫定性時(shí)代,進(jìn)入了定量時(shí)代[11]。
奧巴馬在2011年6月提出“材料基因組計(jì)劃”(Materials Genome Initiative,MGI)[12]作為美國(guó)政府“先進(jìn)制造伙伴計(jì)劃”的重要組成部分,其目的是利用計(jì)算與數(shù)據(jù)新技術(shù),將材料從發(fā)現(xiàn)到應(yīng)用的速度至少提高一倍,成本至少降低一半,發(fā)展以先進(jìn)材料為基礎(chǔ)的高端制造業(yè)。同年12月,“材料科學(xué)系統(tǒng)工程”香山科學(xué)會(huì)議召開(kāi)?!笆濉敝痢笆濉逼陂g,在863計(jì)劃、973計(jì)劃和國(guó)家重點(diǎn)研發(fā)計(jì)劃的支持下,高通量計(jì)算、高通量實(shí)驗(yàn)、材料數(shù)據(jù)庫(kù)和大數(shù)據(jù)技術(shù)已成為材料科學(xué)研究領(lǐng)域中不可或缺的研究方法。在今年3月《自然》的一篇文章中[13],中國(guó)科學(xué)家首次通過(guò)高通量計(jì)算對(duì)現(xiàn)有無(wú)機(jī)材料結(jié)構(gòu)數(shù)據(jù)庫(kù)進(jìn)行大規(guī)模地毯式篩查,共花費(fèi)100萬(wàn)核CPU小時(shí)的計(jì)算資源,發(fā)現(xiàn)40 000余種已合成無(wú)機(jī)晶體材料中有8000余種可能具備非平凡拓?fù)湮飸B(tài),其中不僅包括幾乎所有此前已發(fā)現(xiàn)的拓?fù)洳牧希€包括大量新材料,為拓?fù)洳牧项I(lǐng)域研究打開(kāi)了無(wú)數(shù)新窗口,突破了原有針對(duì)不同材料需要進(jìn)行具體且繁難的理論分析的普遍狀況,使得自動(dòng)化計(jì)算材料拓?fù)湫再|(zhì)成為可能。
近10年來(lái),隨著科學(xué)研究的數(shù)據(jù)量激增,很多時(shí)候現(xiàn)有計(jì)算能力已無(wú)法滿足數(shù)據(jù)對(duì)計(jì)算的巨大需求。2017年諾貝爾物理學(xué)獎(jiǎng)授予了“首次探測(cè)到引力波”的三位美國(guó)科學(xué)家,在引力波的這一發(fā)現(xiàn)過(guò)程中,數(shù)據(jù)與計(jì)算平臺(tái)扮演著無(wú)可替代的作用。激光干涉儀前四個(gè)月的觀測(cè)數(shù)據(jù)量達(dá)500TB,總共消耗了17億CPU核小時(shí)的計(jì)算資源對(duì)數(shù)據(jù)進(jìn)行處理。在對(duì)數(shù)據(jù)搜索的過(guò)程中,如果采用完全相關(guān)方法進(jìn)行最高精度搜索,當(dāng)下全球的計(jì)算能力亦無(wú)法滿足需求。在采用和改進(jìn)一系列加速算法的基礎(chǔ)上,依然經(jīng)過(guò)長(zhǎng)達(dá)數(shù)月的分析與計(jì)算,才發(fā)現(xiàn)了遠(yuǎn)在15億光年外的一絲引力波的漣漪,從而證實(shí)了引力波的存在。
2019年4月,200多名科研人員通過(guò)8個(gè)分布于全球的事件視界望遠(yuǎn)鏡觀測(cè)點(diǎn)“捕獲”了黑洞的視覺(jué)證據(jù)。此項(xiàng)研究歷時(shí)10余年,加州理工學(xué)院使用Blue Waters超級(jí)計(jì)算機(jī)超過(guò)1000個(gè)CPU核對(duì)3.5PB的原始數(shù)據(jù)進(jìn)行近900個(gè)黑洞合并的模擬,總共花費(fèi)了2萬(wàn)小時(shí)的計(jì)算時(shí)間。
諸多世界級(jí)的科學(xué)研究和科學(xué)發(fā)現(xiàn)的事例表明,數(shù)據(jù)與計(jì)算平臺(tái)已經(jīng)成為當(dāng)代科學(xué)研究重要的信息基礎(chǔ)設(shè)施,并且將融匯貫穿于整個(gè)科學(xué)研究活動(dòng)的全過(guò)程。近年來(lái),幾乎在任何一項(xiàng)的重大科學(xué)發(fā)現(xiàn)和重大科技計(jì)劃中,數(shù)據(jù)與計(jì)算平臺(tái)都在扮演著無(wú)可替代的角色。
人工智能是當(dāng)前信息技術(shù)與智能科學(xué)研究領(lǐng)域的最大熱點(diǎn)。在2019年6月的世界智能計(jì)算機(jī)大會(huì)上,李國(guó)杰院士以《對(duì)智能超級(jí)計(jì)算機(jī)的幾點(diǎn)認(rèn)識(shí)》為題,指出“現(xiàn)在:智能與超算的歷史性會(huì)合”。當(dāng)前人工智能產(chǎn)生了積極的應(yīng)用效果,如語(yǔ)音識(shí)別在安靜環(huán)境下準(zhǔn)確率超過(guò)98%,人臉識(shí)別準(zhǔn)確率已高達(dá)99.7%,比人眼還準(zhǔn)確。人工智能系統(tǒng)在一些特定任務(wù)方面已勝過(guò)人類,如國(guó)際象棋(1997年)、圖像識(shí)別(2015年)、語(yǔ)音識(shí)別(2015年)、圍棋(2016年)以及德州撲克(2017)等[14]。這些人工智能成功的典型范例內(nèi)涵都展示了數(shù)據(jù)和計(jì)算技術(shù)在人工智能研究領(lǐng)域的關(guān)鍵價(jià)值。
比如在圖像識(shí)別技術(shù)領(lǐng)域,斯坦福大學(xué)李飛飛團(tuán)隊(duì)在2017年的ICCV頂級(jí)會(huì)議上發(fā)表的論文[15],該研究重點(diǎn)在于:其一提出了一種新的多任務(wù)適應(yīng)方法的半監(jiān)督學(xué)習(xí)模型(如圖4),這是智能計(jì)算的核心——模型;其二表征了用于域適應(yīng)的大規(guī)模細(xì)粒度車輛數(shù)據(jù)集。在本項(xiàng)研究中,使用了極具挑戰(zhàn)性的細(xì)粒度數(shù)據(jù)子集,包含來(lái)自商業(yè)網(wǎng)站和谷歌街景的約110萬(wàn)張圖片,其中包含2657種汽車車型。論文在2657個(gè)子集(共71,030張圖片)中選取了170個(gè),展示了新方法對(duì)于性能的提升程度(基于屬性的任務(wù)適應(yīng)性損失函數(shù)在半監(jiān)督適應(yīng)條件下可將準(zhǔn)確率從基準(zhǔn)的4.1% 提升到19.1%)。這個(gè)典型的案例說(shuō)明,在當(dāng)代人工智能研究領(lǐng)域,模型是體現(xiàn)人工智能的核心算法,但實(shí)現(xiàn)“智能算法”更加需要數(shù)據(jù)和計(jì)算的支撐。
人工智能的權(quán)威學(xué)者M(jìn).明斯基定義“人工智能的任務(wù)是研究還沒(méi)有解決的計(jì)算機(jī)問(wèn)題”[16],即人工智能就是計(jì)算技術(shù)的非平凡應(yīng)用。人工智能應(yīng)用問(wèn)題,如圖像識(shí)別、語(yǔ)音識(shí)別、計(jì)算機(jī)下棋、機(jī)器翻譯等,多數(shù)是具有指數(shù)復(fù)雜性的科學(xué)問(wèn)題,用常規(guī)的方法無(wú)法解決。所謂人工智能算法研究就是要找到在多項(xiàng)式時(shí)間內(nèi)求解這些問(wèn)題的方法,不斷擴(kuò)展計(jì)算機(jī)可求解問(wèn)題的范圍。所謂“問(wèn)題求解”不是要求在最壞情況下找到最優(yōu)解,也不是非要找到模仿人腦思考解決問(wèn)題的方法,而是用計(jì)算機(jī)的“思維”方式在可容忍的時(shí)間內(nèi)找到滿意的解。因此現(xiàn)在講人工智能也就是數(shù)據(jù)、計(jì)算與智能算法模型的結(jié)合問(wèn)題。
應(yīng)該說(shuō),近年來(lái)人工智能的復(fù)興有深度學(xué)習(xí)算法的貢獻(xiàn),但主要是得益于數(shù)據(jù)資源的極大豐富和計(jì)算能力的飛速提高。但是,人工智能技術(shù)本身還沒(méi)有本質(zhì)性的突破[14],人工智能還處在“感知”階段,距離“認(rèn)知”還存在很大的距離。但可以說(shuō),在數(shù)據(jù)與計(jì)算技術(shù)飛速發(fā)展的今天,通過(guò)人類的創(chuàng)造性的應(yīng)用,人工智能展現(xiàn)出的對(duì)各行各業(yè)、各領(lǐng)域和各學(xué)科發(fā)揮作用的可能性和效能是難以預(yù)測(cè)的。
隨著當(dāng)今數(shù)據(jù)爆炸性增長(zhǎng),人類社會(huì)進(jìn)入“數(shù)據(jù)爆炸”的時(shí)代,數(shù)據(jù)極大拓展了科技創(chuàng)新的研究深度和廣度,科學(xué)研究呈現(xiàn)出數(shù)據(jù)密集和數(shù)據(jù)驅(qū)動(dòng)的重要特征??茖W(xué)研究活動(dòng)必然借助于先進(jìn)的數(shù)據(jù)與計(jì)算平臺(tái),先進(jìn)的數(shù)據(jù)與計(jì)算平臺(tái)也將因應(yīng)用需求驅(qū)動(dòng)演進(jìn)出更新的技術(shù),驅(qū)動(dòng)當(dāng)代科學(xué)研究的螺旋式上升,先進(jìn)的數(shù)據(jù)與計(jì)算平臺(tái)成為了科技創(chuàng)新活動(dòng)重要投入要素。中國(guó)科學(xué)院在中長(zhǎng)期科技發(fā)展規(guī)劃戰(zhàn)略研究工作中,已將“數(shù)據(jù)與計(jì)算平臺(tái)”作為專題研究方向開(kāi)展戰(zhàn)略研究,與此同時(shí),世界各國(guó)也正在加大和強(qiáng)化國(guó)家層面的數(shù)據(jù)與計(jì)算平臺(tái)的規(guī)劃與建設(shè)[10]。數(shù)據(jù)與計(jì)算平臺(tái)的發(fā)展將影響各個(gè)學(xué)科領(lǐng)域的科學(xué)研究進(jìn)程,并將迅速變革傳統(tǒng)的科研模式,毫無(wú)疑問(wèn)地將驅(qū)動(dòng)著現(xiàn)代科學(xué)研究的迅猛發(fā)展。
圖4 斯坦福大學(xué)提出的無(wú)監(jiān)督和半監(jiān)督適應(yīng)域方法Fig.4 Unsupervised and semi-supervised adaptive region method proposed by Stanford University
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。
數(shù)據(jù)與計(jì)算發(fā)展前沿2019年5期