鄭志明
認知人工智能應該從科學的角度來看。近代科學標志性的東西就是牛頓科學,牛頓第二定律,F(xiàn)=ma,是講外力和加速度之間的一個比例關(guān)系,所以所謂的牛頓科學最本質(zhì)來講都是理想方程,他所有得出的東西,都是在理想模型和理想環(huán)境下得到的。也就是說牛頓在研究一切問題的時候,他把本來復雜的問題做了簡化,這種簡化就是三個字——線性化,所以牛頓的思想本質(zhì)上就是線性化思想,就是把一個復雜的問題里面線性的部分拿出來,隨機部分、非線部分不管了。但是在一個動態(tài)系統(tǒng)里,這種非線性隨機問題,牛頓并沒有解決,這個事情是放在現(xiàn)代來解決的。所以說現(xiàn)代科學和近代科學的分水嶺就是線性化這條線。
當把一條拋物線迭代起來的時候,一開始的時候它的穩(wěn)定態(tài)是很簡單的,但拋物線到一定高度以后它的混沌就出現(xiàn)了,人工智能能學習嗎?答案是不能的。所以線性方法是沒有辦法處理非線性隨機問題的,所以后牛頓時代或者現(xiàn)代科學,主要是研究具有非線性動態(tài)隨機特征的復雜動態(tài)系統(tǒng),這是很重要的一個任務。這種復雜系統(tǒng)多不多呢?在上世紀八十年代已經(jīng)證明,自然系統(tǒng),三維以上的動態(tài)系統(tǒng)是復雜系統(tǒng)的概率是1,也就是說復雜系統(tǒng)到處存在,牛頓時代的牛頓理想方程,真正在現(xiàn)實中碰到那樣的線性方程、理想方程概率是0。所以現(xiàn)在我們要研究的問題,只要是動態(tài),那就是非線性隨機,它是普遍存在的。
這個問題講清楚以后,我們看大數(shù)據(jù)和人工智能。牛頓科學極大的推動了科技的發(fā)展,但隨著科技的不斷發(fā)展,人們希望對這個復雜系統(tǒng)了解多一點,怎么了解呢?沒有理論支撐那就開始做實驗,一開始的實驗都是觀測方法,后面就開始隨著觀測儀器越來越精密,就用數(shù)字來描述這些實驗現(xiàn)象。這件事就變成我們傳統(tǒng)意義下的物理的自然的系統(tǒng),通過這種傳感器等等,把變化用數(shù)字記載下來,實際上就變成了過去的物理系統(tǒng)或者自然系統(tǒng),就變成了復雜的數(shù)據(jù)系統(tǒng)。所以復雜數(shù)據(jù)系統(tǒng)并不是從天上掉下來的,實際上這個數(shù)據(jù)系統(tǒng)后面蘊含著復雜的真實的系統(tǒng),這樣科學就進入了大數(shù)據(jù)時代。
到了大數(shù)據(jù)時代,是不是把這種物理或者自然的問題進行一種數(shù)字化描述,問題就解決了?實際上還是缺乏一點手段。因為它沒有減輕困難,只是把一個復雜問題變成了另外一種數(shù)字描述的復雜問題,怎么來解決它呢?就是現(xiàn)在人工智能。那么人工智能實際上就是統(tǒng)計,統(tǒng)計在人工智能里占的分量是很大的,基本上是用的統(tǒng)計方法。從數(shù)學的角度來看,人工智能實際上是統(tǒng)計加動態(tài)線性的學習方法。人工智能的學習方法,不管是什么學習方法,就是我們所謂的叫大數(shù)據(jù)的學習方法、分析方法。就是用一個統(tǒng)計模型,看大數(shù)據(jù),根據(jù)經(jīng)驗,然后弄個統(tǒng)計模型扣上去,不符合模型的就是所謂的清洗,不滿足的補一補數(shù)據(jù),這就叫大數(shù)據(jù)的分析方法。
真正的人工智能或者說下一步要發(fā)展人工智能,應該是什么呢?應該是從這個數(shù)據(jù)里建立一些方法,要從這個數(shù)據(jù)里,把這個隱含在數(shù)據(jù)后面的系統(tǒng)能夠從數(shù)據(jù)里撈出來,或者近似的撈出來,這就叫精準智能。線性系統(tǒng)的不變集極其簡單,只要沾一點非線性或者隨機,它的不變集會發(fā)生革命性的變化。用這種統(tǒng)計加動態(tài)線性的方法,能很好地把非線性這個系統(tǒng)的性質(zhì)刻畫出來或者近似刻畫出來,如果這種方法可行的話,其實牛頓科學就終結(jié)了現(xiàn)代科學,現(xiàn)代就不要研究數(shù)學、物理、化學了,因為我用動態(tài)線性已經(jīng)可以把所有復雜的東西基礎研究清楚了。
所以現(xiàn)在的大數(shù)據(jù)或者人工智能,它碰到的最大的困局就是遇到了復雜系統(tǒng),這是它的最大問題。所有的復現(xiàn)性存疑,不可解釋性。美國研究的人工智能實際上是內(nèi)嵌物理、數(shù)學等等這些東西,核心是能不能用數(shù)學物理方法,實際上就是把統(tǒng)計方法里邊加一點更細致的數(shù)理方法,不要光局限在統(tǒng)計,把更深入的數(shù)學和物理的知識能加到這個學習方法里面去,使得得到相對來講比較穩(wěn)定的、比較準確地結(jié)論,這就是下一步人工智能要做的事情。我們國家要想人工智能取得突破,要想成為人工智能的強國,必須要這么做。所以內(nèi)嵌的目的就是將數(shù)據(jù)中非線性隨機性的科學關(guān)聯(lián)關(guān)系及其演化可能導致的復雜性要隨機出來,這是最核心的問題。
第二件事,有了這種數(shù)理表征以后,人工智能就開始動態(tài)調(diào)參了,把這種數(shù)理表征做出以后形成系統(tǒng)的近似科學數(shù)據(jù)場。第三件事,基于調(diào)參的學習,因為這里面就把系統(tǒng)或者近似系統(tǒng),數(shù)據(jù)里蘊含的真正的系統(tǒng)、隱性的系統(tǒng),讓它顯型出來,然后再基于系統(tǒng)的學習。下面我們看一個在AM402暗物質(zhì)信息的搜索中所做的例子。這個是丁肇中先生主持的一個巨型國際合作項目,參加這個項目的國家和地區(qū)大概37個,國際上最頂尖的科學家大概600多人。
這個問題是什么問題?把探測器放在空間站上,利用探測宇宙里的暗物質(zhì),物理探測,主要是用物理來看物質(zhì),光、電、磁、能、質(zhì),五大探測類,最后來確定這個粒子到底是什么類型的粒子,是不是自然粒子或者是暗物質(zhì)的粒子。這個問題的數(shù)據(jù)量就變得非常大,而且這個系統(tǒng)還不好控制,因為它是放在天上的,這個系統(tǒng)是探測器在天上被粒子打的,壞了就壞了,所以它的數(shù)據(jù)是很隨機的。第二是放在空間站上的,它是動的,所以是這種角度,這個粒子打到探測儀上,和這種角度到達探測儀上出現(xiàn)的光電信號是不一樣的,要把五大類的光電信號不但要篩選出來,而且要耦合起來,組成一個描述暗物質(zhì)的整個系統(tǒng),這件事情是非常復雜的。
(本文根據(jù)中國國際數(shù)字經(jīng)濟博覽會速記整理,內(nèi)容未經(jīng)本人確認)