徐英瑾 王 培
文化研究與文化建設(shè)
大數(shù)據(jù)就意味著大智慧嗎——兼論作為信息技術(shù)發(fā)展新方向的“綠色人工智能”*
徐英瑾王 培
就目前情況而言,對于大數(shù)據(jù)技術(shù)運用的商業(yè)前景,溢美之詞雖不絕于媒體,卻罕有從信息技術(shù)哲學之高度做出對于該技術(shù)觀念前提的批判性反思。實際上,大數(shù)據(jù)技術(shù)的運用必須以大數(shù)據(jù)的可獲取性為現(xiàn)實條件,此可獲取性只是當下歷史機緣之恩賜而已,絕非人類社會運行之常態(tài)。而在這一前提缺失的情況下,大數(shù)據(jù)技術(shù)原有的利好面亦將迅速失效?;诖丝剂?,我們倡導以所謂“綠色人工智能技術(shù)”作為大數(shù)據(jù)技術(shù)的替代者,以便通過對于信息處理平臺自身“擬人性”的提高來降低其對于大數(shù)據(jù)的依賴,以期能最大限度地避免對公眾隱私權(quán)的侵犯。而在此類新數(shù)據(jù)算法的設(shè)計過程中,德國心理學家吉仁澤提出的“節(jié)儉性理性”原則亦可成為相應(yīng)的哲學指導。
大數(shù)據(jù)技術(shù)綠色人工智能節(jié)儉性理性統(tǒng)計學
所謂“大數(shù)據(jù)”(big data),乃是指在利用常規(guī)軟件工具的前提下無法在可承受的時間內(nèi)捕捉、管理和處理的數(shù)據(jù)集合。而所謂“大數(shù)據(jù)技術(shù)”,自然就是指那些利用非常規(guī)的軟件工具對上述數(shù)據(jù)集合進行捕捉、管理與處理的技術(shù)。按照《大數(shù)據(jù)時代——生活、工作與思維的大變革》一書的作者邁爾-舍恩伯格(Victor Mayer-Sch?nberger)與庫克耶(Kenneth Cukier)的觀點,與傳統(tǒng)的統(tǒng)計學技術(shù)相比,“大數(shù)據(jù)技術(shù)”的特點便在于:研究者不對研究對象進行隨機抽樣以獲取相對可控的樣本空間,而是直接將全部研究對象都作為樣本空間。在他們看來,之所以這樣做是可能的,乃是因為計算機科學在硬件方面的突飛猛進式的進展,已為大數(shù)據(jù)的存儲與計算提供了極大的便利;而之所以這樣做同時又是必要的,則是因為數(shù)據(jù)科學家發(fā)現(xiàn):在算法不變的情況下,數(shù)據(jù)量本身的增長就足以大大提高預(yù)測的準確度了。[1]①在這里,作者提到:當數(shù)據(jù)量只有500萬的時候,某種數(shù)據(jù)處理算法的表現(xiàn)是相對比較差的;而在數(shù)據(jù)量增加到10億的時候,同樣算法的輸出準確率則從75 %增加到了95 %。同時,互聯(lián)網(wǎng)的廣泛使用所導致的海量數(shù)據(jù)的出現(xiàn),也使得“大數(shù)據(jù)分析機器”的運作所需要的“彈藥”似永無枯竭之可能。然而,時下國內(nèi)的媒體宣傳,似乎更多地聚焦于大數(shù)據(jù)技術(shù)所可能帶給人類社會的種種便利之上,卻對其自身的局限性著墨不多。而在為數(shù)不多的對于大數(shù)據(jù)技術(shù)負面作用的討論中,更多地被提到的,乃是對于相關(guān)技術(shù)的濫用所可能導致的倫理風險,如“數(shù)據(jù)貪婪癥”對于個人隱私的威脅,以及商業(yè)決策層以及政府首腦對于“數(shù)字化獨裁”的迷信所可能導致的決策失誤,等等。[2]但是,卻很少有人從信息技術(shù)哲學與認知科學哲學的角度,更為深入地檢討大數(shù)據(jù)技術(shù)自身在哲學思想前提與路徑策略方面的得失。而對于上述理論盲點的覆蓋,也正構(gòu)成了本文寫作的初衷。
“大數(shù)據(jù)技術(shù)”其實只是早已枝繁葉茂的“信息技術(shù)之樹”在最近所抽出的一根新枝而已。從總體上來看,教科書意義上的“信息技術(shù)”可分為計算機技術(shù)、通訊技術(shù)與傳感技術(shù)等數(shù)大研究方向,而其中最為興盛的“計算機技術(shù)”則至少包含了兩個與“大數(shù)據(jù)技術(shù)”最為密切相關(guān)的技術(shù)分支:“人工智能技術(shù)”與“互聯(lián)網(wǎng)技術(shù)”。如果將“人工智能技術(shù)”比作汽車制造業(yè),而將“互聯(lián)網(wǎng)技術(shù)”比作筑路業(yè)的話,那么,所謂“大數(shù)據(jù)技術(shù)”的目標,便是“利用既有的路網(wǎng)去直接完成旅行任務(wù)”——而在此過程中,旅行者既不需要“買車”,甚至也不需要去“租車”!或說得更技術(shù)化一點,大數(shù)據(jù)技術(shù)試圖通過回避高級認知架構(gòu)與思維路徑設(shè)計的方式,直接對“信息高速公路”上涌現(xiàn)的數(shù)據(jù)進行利用,由此完成原本的人工智能程序所試圖完成的某些任務(wù)(如“模式識別”、“自然語言自動化處理”等)。從這個角度看,大數(shù)據(jù)技術(shù)的崛起,無疑為廣義上的“信息技術(shù)哲學”提出了如下問題:上述這種跳開“坐車”環(huán)節(jié)而直接利用既有信息通路達成目的的技術(shù)思路,在多大程度上是可行的?又在多大程度上是有局限的?而其可行性與局限性背后的深層根據(jù)又是什么呢?
關(guān)于這些問題,本文的最終評估結(jié)論可分為兩個方面。就消極面而言,盡管我們很難否認“大數(shù)據(jù)技術(shù)”的確能夠在“運作資源豐富”的前提下起到部分取代人工智能系統(tǒng)的作用;但更需要指出的是,上述前提的存在乃是當下歷史機緣之恩賜,絕非真正的人類社會常態(tài)——而在這一前提缺失的情況下,大數(shù)據(jù)技術(shù)原有的利好面將迅速失效。就積極面而言,倘若現(xiàn)有的大數(shù)據(jù)技術(shù)能夠包含對于人類高級認知架構(gòu)的設(shè)計而一躍升級成為“具有大數(shù)據(jù)特色的超級人工智能技術(shù)”的話,那么由此所產(chǎn)生的新技術(shù)形態(tài)也將具備針對不用運用環(huán)境的適應(yīng)性。而由此得到的額外利好消息則是:原本意義上的大數(shù)據(jù)技術(shù)在量的方面對于新輸入的貪婪渴求,便會通過這種實質(zhì)性的技術(shù)升級而得到某種遏制,其對于人類現(xiàn)有社會運作形態(tài)的干擾亦會變得更小。因此,它也將會成為一種更為“綠色環(huán)?!钡臄?shù)據(jù)處理技術(shù)。
不過,要說清楚什么是“綠色人工智能”,就不可能不涉及關(guān)于傳統(tǒng)人工智能的議題。因此,我們將從一個更為切近的視角,比對傳統(tǒng)人工智能技術(shù)與大數(shù)據(jù)技術(shù)各自之優(yōu)劣。這里需要說明的是,本文將“大數(shù)據(jù)技術(shù)”視為“人工智能”的競爭對象的立論方式,只是為了簡化問題討論而給出的一種理論抽象。嚴格地說,在“大數(shù)據(jù)技術(shù)”與“人工智能”這兩個端點之間,還有諸如“機器學習”這樣的兼?zhèn)洹叭斯ぶ悄堋迸c“大數(shù)據(jù)技術(shù)”色彩的即混合技術(shù)形態(tài),我們會在文末給出對于時下流行的“深度學習”與“量子計算”路徑的簡評。
作為大數(shù)據(jù)技術(shù)的潛在競爭對象,傳統(tǒng)人工智能技術(shù)的核心關(guān)涉乃在于如何通過對于人類認知架構(gòu)或思維進程的算法化抽象來模擬人類智能,以解決人類在生產(chǎn)實踐中所出現(xiàn)的種種技術(shù)問題。至于為何人工智能的研究要以“人類的認知架構(gòu)或思維進程”為參考對象,則是基于這樣的哲學見解:既然人類智能乃是我們迄今為止所知道的關(guān)于智能的最佳體現(xiàn)者,那么,本著見賢思齊的原則,人工的智能系統(tǒng)就應(yīng)當至少在某些方面與人類智能具有相似性。
那么,人工智能到底究竟應(yīng)當在哪些方面與人類的自然智能相似呢?一種自然的解答思路便是:人類思維中帶有“不科學”之印記的那部分——諸如“一廂情愿”、“巫術(shù)思維”之類的“認知瑕疵”——均是應(yīng)當在人工智能專家的建模工作中被過濾掉的“雜質(zhì)”,因為它們只可能為我們的決策行為或求真活動帶來負面效應(yīng)。而反過來說,為了更好地將人類自然思維中的“理性精華”與上述“思維雜質(zhì)”相互分離,人工智能專家就需要大膽引入邏輯學與統(tǒng)計學的形式手段來對人類自然思維進行“提純”。譬如,在尋找事物之間的因果關(guān)系時,就不能過于信任自身的直觀能力,而要建立一個 “貝葉斯網(wǎng)絡(luò)”,以清晰地表述出我們可以想到的所有與當下任務(wù)相關(guān)的事件變量(甚至包括隱變量與未知變量),以及它們之間的所有已知的因果關(guān)系。爾后,系統(tǒng)便可根據(jù)相關(guān)網(wǎng)絡(luò)節(jié)點所自帶的條件概率表,自動計算出特點節(jié)點之間的關(guān)聯(lián)權(quán)重值,最終從備選的因果假設(shè)束中遴選出最可能成真者。①對于貝葉斯建模技術(shù)的更多細節(jié),請參看徐英瑾:《心智、語言和機器——維特根斯坦哲學和人工智能科學的對話》(人民出版社,2013年)1.4節(jié)的介紹。
在大數(shù)據(jù)技術(shù)的擁躉看來,人工智能的上述解題思路看似合理,實則過于“昂貴”。其“昂貴性”主要體現(xiàn)在如下兩個方面。
其一,以貝葉斯網(wǎng)絡(luò)為例,其本身的建立要人工智能專家與相關(guān)領(lǐng)域的專家通力合作,絕非易事。比如,人工智能專家們?nèi)粝胍⒁粋€“設(shè)備自檢貝葉斯網(wǎng)”以便讓殲擊機機載電腦能夠有能力自檢故障,他們就需要向飛機設(shè)計者虛心請教,以便列出相關(guān)型號的戰(zhàn)機所可能出現(xiàn)的故障所對應(yīng)的所有的設(shè)備故障點。但是,即使這樣的網(wǎng)絡(luò)已經(jīng)囊括了該型戰(zhàn)機所可能發(fā)生的故障的所有原因(盡管這在實踐中幾乎是不可能的,因為飛機的實際使用往往會不斷暴露出一些設(shè)計者所難以預(yù)估的故障點),這樣的工作所消耗的時間也將是非常驚人的。假設(shè)某種飛機需要經(jīng)歷一次實質(zhì)性的升級(比如更換主發(fā)動機、雷達以及火控系統(tǒng)等關(guān)鍵設(shè)備),那么原先完成的建模工作就必須推倒重來。
其二,相關(guān)的貝葉斯網(wǎng)絡(luò)建立完成之后,我們還需要向各個節(jié)點輸入數(shù)據(jù),以便了解在某些事態(tài)變量發(fā)生的前提下目標事態(tài)變量也發(fā)生的條件概率。但如果我們需要相對精確地了解這些概率值的話,我們就必須建立樣本空間,以便對諸變量之間的隨動關(guān)系進行檢測。這項工作所需要的時間與精力也是不小的。面對這些難題,大數(shù)據(jù)技術(shù)的支持者相信自己已找到了更為簡易的解決方案。概而言之,大數(shù)據(jù)專家不會針對所要解決的任務(wù)建立一個專門的貝葉斯網(wǎng)絡(luò)(或訴諸其他類型的問題求解路徑建模工作),而會在忽略各種可能事件成因之間的層級結(jié)構(gòu)的前提下,在海量的數(shù)據(jù)中直接搜尋事態(tài)之間的相關(guān)性。若用隱喻式的語言來解釋,前者便是在對某些人進行“有罪推定”的前提下再去尋找證據(jù),以圖落實——或推翻——相關(guān)推測(而這些推測所構(gòu)成的結(jié)構(gòu),無疑也就是相關(guān)問題求解路徑的骨架);而后者的策略則是:干脆先對所有的居民進行“有罪推定”, 并由此回避了對于“某些人更容易犯罪”的理論性猜測。爾后,再對所有居民的各種行為所產(chǎn)生的數(shù)據(jù)進行全面處理,以便坐等真正的“罪犯”露出馬腳。這樣一來,無論是“建立假設(shè)結(jié)構(gòu)”的重擔,還是“通過隨機抽樣的方式建立樣本檢測空間”的負載,全都被卸下了大數(shù)據(jù)技術(shù)專家的肩膀。
那么,大數(shù)據(jù)技術(shù)究竟是如何可能做到將檢測對象從所謂的“居民樣本”擴大到“居民總體”的?或問得更具體一點:對于“哪些人更容易犯罪”的理論假設(shè)的構(gòu)想固然需要投入心力,而將“全體居民”全部納入監(jiān)控對象,難道所需消耗的心力反而會更少嗎?對于這個問題的解答的關(guān)鍵詞乃是“互聯(lián)網(wǎng)”。正是互聯(lián)網(wǎng)的廣泛使用,才使得“全體居民”(或近似于“全體居民”)的數(shù)據(jù)能夠以一種相對經(jīng)濟的方式而被獲取。下面便是兩個具體案例。
第一個案例是關(guān)于“模式識別”的?!澳J阶R別”本是一個典型的人工智能課題,其主要任務(wù)是如何讓人工系統(tǒng)自動判定在某些紛亂的現(xiàn)象背后存在的本質(zhì)結(jié)構(gòu)——譬如如何確定手稿中的筆跡所代表的字符,以便使得掃描儀自帶的程序能夠直接將手稿圖片轉(zhuǎn)換為可編輯的WORD文檔。面對這一問題,傳統(tǒng)的模式識別研究(特別是那些訴諸人工神經(jīng)元網(wǎng)絡(luò)模型所做的研究②對于人工神經(jīng)元網(wǎng)絡(luò)建模技術(shù)的更多細節(jié),請參看徐英瑾:《心智、語言和機器——維特根斯坦哲學和人工智能科學的對話》1.2節(jié)的介紹。)的解決思路是:我們先要預(yù)建一個樣本庫,以及與之配套的反饋學習算法,而系統(tǒng)則將通過對于樣本庫的學習,以及來自于學習反饋算法的糾偏,初步掌握模式識別能力。爾后,系統(tǒng)便可進而獲取對于樣本庫之外的新案例的模式解讀能力(除非新案例變得與舊樣本過于不相似了)。很顯然,在這樣的研究路徑中,無論對于樣本庫的設(shè)計,還是對于系統(tǒng)自身學習架構(gòu)以及相關(guān)學習算法的設(shè)計,都會耗掉研究者大量的精力——一旦新出現(xiàn)的待識別案例與樣本庫舊案例之間的差距的確變得過大,原先的建模工作就有可能會被推倒重來。而與之對比,在大數(shù)據(jù)技術(shù)指導下的研究思路卻要簡單得多。譬如,當系統(tǒng)遇到內(nèi)置程序難以解讀的新字跡的時候,數(shù)據(jù)科學家根本不會著手從事原先程序的升級或改造工作——相反,他們會利用互聯(lián)網(wǎng)將難辨認的圖片廣泛發(fā)送出去,爾后再讓廣大的互聯(lián)網(wǎng)用戶自己去判斷這些字跡到底代表了哪些字符。然后,專家再利用互聯(lián)網(wǎng)搜集用戶的答案,統(tǒng)計出這些答案中的“一般意見”,由此確定難解字跡到底是哪些字符。以上,也便是時下已經(jīng)得到廣泛應(yīng)用的ReCaptcha技術(shù)的核心思想。[3]
第二個案例是關(guān)于機器翻譯的,即如何運用人工智能技術(shù)對一段語言文本進行自動化處理,以便將其轉(zhuǎn)化為用另一種語言表述的新文本(但二者的含義必須保持同一)。大略地說,傳統(tǒng)的機器翻譯思路大致有兩條。第一條是用計算機程序固化某些已知的語言學知識——如喬姆斯基的“轉(zhuǎn)換生成語法”理論——并利用這樣的程序來對輸入的文本信息進行精細的語法分析。這樣的進路便被稱為機器翻譯中的“符號式進路”。與之爭鋒的則是所謂的“統(tǒng)計式進路”,即在放棄對于句法規(guī)則的預(yù)先表征的前提下,直接統(tǒng)計一個對象語言詞項被一個元語言詞項所翻譯的概率值。譬如,英文里的單詞“know”究竟應(yīng)譯為“懂”、“知道”還是“曉得”,將根據(jù)“相關(guān)英文詞出現(xiàn)后相關(guān)中文譯詞亦出現(xiàn)”的“后驗概率”來確定。然而,在大數(shù)據(jù)技術(shù)的支持者看來,以上兩個路線都是有問題的。具體而言,“符號式進路”將逼迫我們對自然語言的語法結(jié)構(gòu)進行建模,并為喬姆斯基式的深層語法與自然語法之間的過渡提供精巧的“擺渡工具”——而這種理論色彩過濃的建模工作,必將難以對翻譯實踐中所涌現(xiàn)的大量新語例做出靈活的反應(yīng);至于“統(tǒng)計學進路”,則和前面所談到的“模式識別”技術(shù)一樣,都需要設(shè)定一個翻譯例句庫以作為樣本空間。但由于該空間中所出現(xiàn)的所有翻譯例句都應(yīng)當是準確的(即所有例句都要達到所謂“官方翻譯”的標準),樣本庫本身就不可能被建得很大,而對于它的拓展與維護也會變得相對昂貴。與之作對比,目前美國谷歌公司所采用的大數(shù)據(jù)技術(shù)對于這個問題的解決方案,則“機智”地繞過了“句法分析”與“建立例句庫”這兩道門檻。他們的具體做法是:直接從互聯(lián)網(wǎng)上搜集所有現(xiàn)成的語料,而不避諱其中所可能出現(xiàn)的錯誤翻譯甚至語法錯誤。耐人尋味的是,由于這種新的語料庫在規(guī)模方面乃是由“佳譯”所構(gòu)成的理想語料庫的上百萬倍,其自然生成的規(guī)模效應(yīng),竟然使得產(chǎn)出譯本的質(zhì)量反而超越了傳統(tǒng)機器翻譯程序的輸出質(zhì)量。[4]
通過以上這兩則例子,我們也就不難理解為何大數(shù)據(jù)技術(shù)的確對傳統(tǒng)人工智能技術(shù)構(gòu)成了某種威脅。簡言之,很多人工智能技術(shù)所能夠做的事情,大數(shù)據(jù)技術(shù)也能夠做,而且似乎做得更快更好,也更少耗資源(無論是在人力方面還是在時間方面)。兩相比較,大數(shù)據(jù)技術(shù)的確大有“勝出”之勢。但是,從更深的角度看,這種“勝出”只是一種假象。從上面的分析不難看出,對于互聯(lián)網(wǎng)的利用乃是大數(shù)據(jù)技術(shù)得以成功的秘訣——而這種所說的“互聯(lián)網(wǎng)”不僅僅包括網(wǎng)絡(luò)本身,也包括廣大網(wǎng)絡(luò)用戶的自身的智力投入(如對于字跡的辨認工作以及對于外語的翻譯工作,等等)。這也就是說,大數(shù)據(jù)技術(shù)是通過互聯(lián)網(wǎng)這一管道大肆“剝削”了既已存在的人類智能,借以在與傳統(tǒng)人工智能的競爭中占據(jù)先機的。換句話說,這種“勝利”其實是帶有很大水分的(這就好比說,一個得到無數(shù)次場外求助的機會的智力競賽參賽者,擊敗了一個沒有得到任何此類機會的對手,可謂“勝之不武”)。
不過,大數(shù)據(jù)技術(shù)的擁躉或許會說,帶有水分的勝利畢竟還是勝利,只要沒有法律和倫理上的理由反對數(shù)據(jù)專家利用互聯(lián)網(wǎng)提供的海量數(shù)據(jù),我們又有何理由不去抄捷徑呢?而筆者對于這一辯解的進一步回應(yīng)則是:互聯(lián)網(wǎng)帶給大數(shù)據(jù)的春風并不總是那么強勁,而所謂的“捷徑”也不總是那么順暢,因為海量數(shù)據(jù)的輕易可獲取性并不是人類社會的常態(tài)(實際上,從采集—狩獵時代以來的大多數(shù)時間段內(nèi),人類所能夠獲取的信息量一直沒有超越“小數(shù)據(jù)”的范疇)。而即使在互聯(lián)網(wǎng)已被廣泛使用的當代,我們也可以隨手設(shè)想出如下四種對大數(shù)據(jù)獲取構(gòu)成限制的情況。(1)在戰(zhàn)爭條件下,己方作戰(zhàn)平臺對于儲存在“云”中的信息的調(diào)取很可能會遭到敵對方的刻意干擾,而使得大數(shù)據(jù)處理技術(shù)自身失效(與之相類似,我們還可以設(shè)想如下情形:在某國與某國關(guān)系全面惡化的情況下,一國切斷海底光纖光纜,以使得另一國民用數(shù)據(jù)處理平臺大面積癱瘓)。(2)即使在和平條件下,由于廣大貧困的或未受教育的人口的線上交易活動并不活躍(或者根本不存在),對于網(wǎng)絡(luò)數(shù)據(jù)的分析在很大程度上是以遺忘“不上線的大多數(shù)”為代價的。(3)在誠信廣泛缺失的社會道德背景下,廣大網(wǎng)絡(luò)“水軍”的存在,會使得一些特定數(shù)據(jù)(如對于商品的評價)的質(zhì)量低到無法被其數(shù)量所平衡的地步。(4)在對于未知領(lǐng)域的探索過程中(譬如火星探險),人類所獲取的相關(guān)信息量還遠遠沒有達到“大數(shù)據(jù)”尺度的地步,因此大數(shù)據(jù)技術(shù)自身也會失去用武之地。但是,即使在所有這四種使得大數(shù)據(jù)技術(shù)被“凍結(jié)”的情況之中,我們也沒有理由說人類的自然智能是無法在其中正常運作的。換言之,在信息稀缺的環(huán)境下,人類的自然智能會比大數(shù)據(jù)技術(shù)更具優(yōu)勢。
然而,大數(shù)據(jù)技術(shù)的支持者或許會繼續(xù)反駁說:即使我們承認人類的自然智能會在信息稀缺的情況下發(fā)揮更大的威力,但是這一優(yōu)勢依然會被其在面對海量信息時所暴露出來的“不適應(yīng)性”所抵消。因此,二者至多打成一個“平局”。對此,筆者的回應(yīng)是:人類的自然智能的確無法全面打敗大數(shù)據(jù)技術(shù),而傳統(tǒng)人工智能技術(shù)恐怕也不行——但“綠色人工智能”就難說了。在筆者看來,后者將為綜合自然智能、傳統(tǒng)人工智能與大數(shù)據(jù)技術(shù)的優(yōu)勢(卻同時盡量回避其各自的弱點)提供一攬子的解決方案。
“綠色人工智能”是本文提出的一個新概念。這個概念的提出,受到了德國心理學家吉仁澤(Gerd Gigerenzer)對于“節(jié)儉性理性”(frugal rationality)問題的討論的很大啟發(fā)(這里需要說明的是,由于吉仁澤本人篤信關(guān)于人類心靈機制的計算機模型,因此,他的相關(guān)心理學理論就具有了某種橫跨人類心智與人工智能的兼適性)。“節(jié)儉性理性”自然是針對“不節(jié)儉的理性”而言的。而在吉仁澤的話語框架中,“不節(jié)儉的理性”又可分為兩類:“全能神理性”與“有限理性”。
“全能神理性”在近代西方思想史中的代表,乃是法國思想家拉普拉斯(Pierre-Simon Laplace,1749—1827)提出的“決定論”思想。若用今天的學術(shù)話語體系轉(zhuǎn)述該思想,其自然科學的表達版本如下:如果我們能夠知道所有的自然規(guī)律以及所有的微粒在某個特定時刻的初始狀態(tài)的話,那么,我們原則上就能夠知道某個特定微粒在任何一個別的時刻的運動狀態(tài)。該學說的社會科學版本則如下:如果我們能夠知道所有的社會規(guī)律以及所有的社會個體在某個初始時刻的狀態(tài)的話,那么,我們也就能夠在原則上預(yù)知任何一個個體在任何一個別的給定時刻會做些什么。很顯然,“全能神理性”的想法和今天我們所說的“大數(shù)據(jù)技術(shù)”的哲學預(yù)設(shè)是有一點類似的:完整的數(shù)據(jù)加一點點科學知識(如拉普拉斯時代被奉若神明的牛頓力學知識),就足以支持我們對于未來的預(yù)言(只不過今天的大數(shù)據(jù)專家還沒有狂妄到認為自己可以預(yù)言任何一個微粒在任何一個時刻的運動狀態(tài)的地步)。
很顯然,在大數(shù)據(jù)本身難以獲取的情況下,對于上述理性的秉承并不可能在實踐層面上給我們帶來任何積極的后果。因此,一些學者就提出了一種與“小數(shù)據(jù)”環(huán)境更為匹配的新理性觀:“有限理性”的代表性技術(shù)成果,是人工智能學科的行業(yè)奠基人之一、圖靈獎與諾貝爾經(jīng)濟學獎雙料得主司馬賀(Herbert Simon,1916—2001)與其學術(shù)伙伴紐艾爾(Allen Newell,1927—1992)聯(lián)合提出的“通用問題求解器”(General Problem Solver,簡稱GPS)設(shè)想。按照“GPS”的設(shè)想,一個智能系統(tǒng)的記憶庫應(yīng)當預(yù)裝了很多“推理捷徑”,以使得系統(tǒng)自身能夠在資源有限的前提下,通過更為經(jīng)濟的方式來獲得自己的推理目標。譬如,作為決策者的消防隊長(或人工消防系統(tǒng))就必須預(yù)存一個關(guān)于“如何救火”的預(yù)案庫,并在面臨救火任務(wù)時,隨機抽取一個預(yù)案予以檢測(這主要是指心理模擬意義上的虛擬檢測)。按照司馬賀的設(shè)計,如果檢測的結(jié)果能夠“滿足”相關(guān)的目標——也就是成功滅火——那么,消防隊長就會自動停止對于別的預(yù)案的考察,由此控制資源的損耗。
至于吉仁澤本人,則既不為“全能神理性”觀喝彩,也不支持看似已經(jīng)對前者提出批評的“有限理性”觀。其理由非常簡單:“有限理性”指導下的問題求解路徑依然依賴于傳統(tǒng)的統(tǒng)計學技術(shù),因此所需要的數(shù)據(jù)量依然不小(盡管還沒有達到“大數(shù)據(jù)”的級別)。然而,吉仁澤認為,在不少問題處理語境中,即使是對于這種規(guī)模的數(shù)據(jù)量的處理,也是用戶的時間資源所無法承擔的。在《使吾輩精明的簡單思維土法》一開首,[5]他就提到了在判斷心臟病突發(fā)的病人的病情時,急診科的醫(yī)生所實際使用的判斷流程。不難想見,為了爭分奪秒地與死神賽跑,相關(guān)的診斷流程必須是簡單實用的,以及對于這些檢測結(jié)果的統(tǒng)計學分析——盡管這種分析恰恰是標準的人工智能專家所倡導的。
下面這個心理學測驗,將幫助我們看清楚,一種更為寬泛的“節(jié)儉性算法”是如何運作的。假設(shè)有這樣一張考卷,考卷上有一列由美國城市名字所構(gòu)成的對子,如“史普林菲爾德—舊金山”、“芝加哥—小石城”等。考生的任務(wù),便是從每個對子里找出那個城市居民比較多的城市(在此期間任何考生不允許參考任何書籍以及網(wǎng)絡(luò)上的相關(guān)信息),考官則根據(jù)考生的答對率進行判分。現(xiàn)在我們將考生的考卷分為兩組:德國學生的答卷與美國學生的答卷。很多人都會認為美國的學生考分會高一點,在他們看來,美國學生總要比德國學生更熟悉美國城市的情況。然而,這個看法是偏頗的。作為一個大國,美國的行政區(qū)劃以及相關(guān)的人口情況異常復雜,即使是一般的美國人,也僅僅是聽說過不少城市的名字而已,卻不是太清楚所有城市的人口規(guī)模。而作為德國學生,事情就要簡單一點。他們做題的時候遵循的是一條非常簡單的“思維土法”:凡是自己聽說過的美國城市,一般就都是大城市,而大城市一般人口就多??傊?,面對兩個城市的名字“二選一”的時候,選那個看起來眼熟的地名就是了。而或許讓人感到驚訝的是,這種看似“簡單粗暴”的解題思路,成功率卻相當了得。譬如,當吉仁澤和其合作伙伴做這個實驗的時候,他們便發(fā)現(xiàn)德國學生的平均成績明顯要比美國學生好;而當別的研究者以“兩個英國足球隊中的哪一個會在曼聯(lián)賽中獲得更好成績”為問題,分別測試土耳其學生和英國本土學生后,他們同樣驚訝地發(fā)現(xiàn):答案正確率高的,再一次是相對不熟悉英國本土情況的土耳其人。簡言之,“將正面的屬性——如‘人口多’、‘體育強’等——指派給你相對熟悉的地名”,便是在上面的實驗中德國學生與土耳其學生得以打敗美英本土競爭者的“制勝思維土法”。這便是所謂“節(jié)儉性理性”的典型運用實例。[6]吉仁澤甚至還認為,從演化論的角度看,人類的這種“節(jié)儉性理性”甚至在老鼠這樣的嚙齒類動物的心智配置那里就已經(jīng)有了雛形了:因為就連老鼠也能夠根據(jù)別的老鼠食用某種食物后的反應(yīng),來判斷該種食物是否有毒,并同時回避那些從來沒有任何老鼠吃過的新食物(需要注意的是,在此過程中老鼠不必真地具備對于食物自身的化學構(gòu)成的知識,就如在前面的例子中,外國學生并不需要知道相關(guān)城市某方面特征的真實數(shù)據(jù)一樣)。[7]
讀者或許會說,這種“節(jié)儉性理性”也實在太寒酸了吧,因為其運作似乎完全排除了我們對于世界的因果關(guān)系的表征,而僅僅將判斷的依據(jù)建立在一些似是而非的相關(guān)性之上。但問題是:這樣的批評也能夠被施加于大數(shù)據(jù)技術(shù)之上:因為該技術(shù)的擁躉也以回避因果關(guān)系表征作為自身的“技術(shù)特色”。為何大數(shù)據(jù)技術(shù)能夠回避因果表征,而“節(jié)儉性理性”卻不能呢?
大數(shù)據(jù)技術(shù)的支持者或許會反駁說,該技術(shù)對于相關(guān)性的把握是以對于即時獲取的海量數(shù)據(jù)為根據(jù)的,而“節(jié)儉性理性”對于相關(guān)性的把握的根據(jù),則似乎是某些來自于遠古演化歷程的內(nèi)置心智配置。換言之,前者是“與時俱進”地把握相關(guān)性,而后者則是以“刻舟求劍”的方式獲得相關(guān)性——二者怎么可以同日而語呢?對于這一批評,我們有兩點回應(yīng)。第一,正如前文所指出的,“大數(shù)據(jù)的可獲取性”并非人類社會的常態(tài),而是互聯(lián)網(wǎng)時代帶給我們的意外恩賜。由于支持這種恩惠繼續(xù)起效的社會經(jīng)濟基礎(chǔ)所具有的脆弱性,我們將所有的雞蛋都放到大數(shù)據(jù)技術(shù)籃子里的舉措,未必是明智之舉。在這個問題上,向人類乃至別的哺乳類動物的原始心智學習研發(fā)新時代的人工智能系統(tǒng),不失為一種降低風險的補償性方案。第二,人類心智機制自身的“原始性”并不意味著其無效性。實際上,哪些原始心智的工作方式是能夠繼續(xù)適應(yīng)現(xiàn)代社會的,哪些不能,是需要具體問題具體分析的。就前面所提到的對于城市人口規(guī)模的猜測實驗而言,相關(guān)心智的運作規(guī)則乃是“根據(jù)城市有名度”來判斷其人口規(guī)?!涓鼮橐话愕男问侥耸牵焊鶕?jù)某事物的某些更具凸顯性(且更具可獲取性)的指標數(shù)來猜測那些不那么具凸顯性或可獲取性的指標數(shù)。很顯然,這樣的運作規(guī)則因為足夠抽象,因此就具有某種橫跨遠古時代與當代社會的兼適性,不宜用“刻舟求劍”之類的負面標簽一貼了之。
大數(shù)據(jù)技術(shù)的支持者或許還會反駁說,上面我們的論證至多只能說明:基于“節(jié)儉性理性”的信息技術(shù)構(gòu)建方案可以成為大數(shù)據(jù)技術(shù)的備份,而無法說明它可以全面取代大數(shù)據(jù)技術(shù)。讓我們再來回顧一下前文所述的那個關(guān)于城市人口規(guī)模的測驗結(jié)果吧:這個結(jié)果明明告訴我們,對于數(shù)據(jù)信息掌握量比較大的本國被試者來說,他們對于“節(jié)儉算法”的使用會因為“知道得更多”而變得更為艱難,而由此得出的測驗分數(shù)也就更低。這難道不正意味著:遠古心智所自帶的“節(jié)儉性算法”與大數(shù)據(jù)環(huán)境無法兼容嗎?對于這一反駁,我們的意見是:所謂本國被試者“知道得更多”的情形,需要得到進一步的分析。實際上,這些被試者“知道得更多”的,乃是關(guān)于被涉及城市的其他與人口相關(guān)的指標(如經(jīng)濟指標)的知識,以及這些指標與人口指標之間的因果關(guān)系。換句話說,正是因為他們的大腦已經(jīng)激活了對于因果范疇的使用,節(jié)儉性算法的運作便自然得到了抑制,而后者所本有的“快速高效”的推理優(yōu)勢自然也就無從發(fā)揮了。但需要注意的是,因果范疇的激活本身并不單純是數(shù)據(jù)規(guī)模變大的結(jié)果——而在某些情況下,這恰恰也很可能是數(shù)據(jù)量稀缺的結(jié)果。具體而言,對于美國本土的學生來說,他們稀缺的恰恰是對于相關(guān)城市在非美國人那里的知名度的數(shù)據(jù)——而恰恰是這種稀缺才使得他們的心智不得不開啟了“花費昂貴”的對于人口規(guī)模的因果式調(diào)查模式。而在大數(shù)據(jù)環(huán)境下,一個與互聯(lián)網(wǎng)連接的智能程序則自然能更為輕易地獲取相關(guān)數(shù)據(jù),并使得那種已經(jīng)被程序化了的“節(jié)儉式算法”有了用武之地。
大數(shù)據(jù)技術(shù)的支持者或許還會繼續(xù)反駁說,將節(jié)儉性算法程序與大數(shù)據(jù)庫相鏈接的做法,在定義上完全可以被視為大數(shù)據(jù)技術(shù)的一個變種——那么,為何我們需要將其視為對于現(xiàn)有大數(shù)據(jù)技術(shù)的全面取代呢?相關(guān)理由有二。其一,正如前文反復提及的,節(jié)儉式算法可以和大數(shù)據(jù)鏈接,但也可以和小數(shù)據(jù)鏈接,因此,這種可適應(yīng)于不同環(huán)境的靈活性就使得它很難被歸類為大數(shù)據(jù)技術(shù)的一支。其二,節(jié)儉性算法的設(shè)計是植根于對人類現(xiàn)有心理機制的研究,而不是對于直接的數(shù)據(jù)環(huán)境的研究的產(chǎn)物。這就使得它與傳統(tǒng)意義上的人工智能研究更具親緣關(guān)系——盡管節(jié)儉性算法的“節(jié)儉性”是很難通過傳統(tǒng)人工智能所仰仗的邏輯—統(tǒng)計進路予以實現(xiàn)的。說到這一步,我們也就可以對基于“節(jié)儉性理性”概念的“綠色人工智能”概念進行大致的闡述了。
現(xiàn)在我們來探討一下與“綠色人工智能”相關(guān)的四個具體問題:為何稱這種人工智能技術(shù)是“綠色”的?在實現(xiàn)層面上,它與吉仁澤的既有心理學理論之間的關(guān)系是什么?它與時下人工智能學界在“深度學習”方面的進步有什么關(guān)系?它的運用,對于當下我國社會經(jīng)濟發(fā)展與人文社科研究來說,具有什么現(xiàn)實的意義?
先來看第一個問題。眾所周知,原本意義上的“綠色的技術(shù)”就是指對自然資源消耗更少且對自然環(huán)境破壞亦較少的技術(shù)。而在本文的語境中,“綠色人工智能技術(shù)”則同時是指一種對現(xiàn)有的人類價值體系擾動較小的技術(shù)(因為我們將人文環(huán)境視為廣義上的“環(huán)境”的一個有機組成部分)。具體而言,它必須對“隱私”、“公民權(quán)”、“人類的自由選擇權(quán)”等被常識普遍接受的價值標準抱有起碼的敬意,并以此將技術(shù)異化的風險降到最小。若按照這種標準去衡量,現(xiàn)有的大數(shù)據(jù)分析技術(shù)就很難被說成是“綠色”的。用形象化的比喻來說,大數(shù)據(jù)的分析軟件就像一頭需要吞入大量數(shù)據(jù)才能夠被喂飽的“哥斯拉”怪獸,因此,其對于數(shù)據(jù)的貪婪就具有一種“技術(shù)的自發(fā)性”(因為怪獸的食量本來就是由其身體結(jié)構(gòu)所先天地決定的),而不能被僅僅膚淺地歸結(jié)為相關(guān)從業(yè)人員的倫理意識與相關(guān)法律監(jiān)督的缺位。不難想見,只要這樣的怪獸的進食方式不改變,現(xiàn)代社會中那些反映公民隱私的數(shù)據(jù)就會每時每刻處于危險之中。相比較而言,一種基于“節(jié)儉式算法”的綠色數(shù)據(jù)處理技術(shù)則未必以大數(shù)據(jù)的獲取為其運作的必要條件。至于那些與保護公民隱私相關(guān)的法律法規(guī),自然也就更容易和這種在“進食量”方面更富彈性的新數(shù)據(jù)處理技術(shù)相結(jié)合,由此起到最大的功效。
再來看第二個問題。不得不承認,我們關(guān)于“綠色人工智能”的理念在哲學層面上的確受到吉仁澤不少啟發(fā),但是在具體的實現(xiàn)細節(jié)上卻和他的原始設(shè)想有所不同。具體而言,我們和吉仁澤一樣,也認為對于人類原始心智機制的模擬乃是相關(guān)工程學實踐的必由之路,但是關(guān)于人類原始心智機制的具體構(gòu)成,我們卻和他有不同的意見。受到所謂“大規(guī)模心智模塊論”的影響,吉仁澤本人相信人類的大腦是由一些專門的問題求解器所構(gòu)成的超級工具箱,我們則傾向于認為大腦中存在著一個“通用問題求解器”——只是其運作方式更符合吉仁澤的“節(jié)儉性理性”之理念,而非司馬賀式的“有限理性”理念。①關(guān)于如何在計算機層面將這種“節(jié)儉型”的“通用問題求解器”的算法細節(jié)予以夯實,王培曾在英語世界發(fā)表了大量相關(guān)著述;徐英瑾近年來也多次介紹與發(fā)揮了這些成就。徐英瑾在這方面工作的集成,參看《心智、語言和機器》一書;王培在這方面工作的最新集成,見《非公理邏輯:一種智能推理的模型》(Non-Axiomatic Logic:A Model of Intelligent Reasoning,World Scientifc Publishing Company, 2013)一書。
再來看第三個問題。直到目前為止,在提到“人工智能”這個話題的時候,我們僅僅涉及了傳統(tǒng)的人工智能研究(以符號主義進路與統(tǒng)計學進路為代表)以及作為未來發(fā)展方向的“綠色人工智能”理念,卻沒有涉及時下如火如荼的一些新概念,如“深度學習”。乘此機會,我們也對其予以簡評。就“深度學習”而言,它實際上就是將傳統(tǒng)的人工神經(jīng)元網(wǎng)絡(luò)的內(nèi)置層的層級予以規(guī)模放大的產(chǎn)物(比如,從一到兩層的內(nèi)置層擴展到七八十層),由此使得系統(tǒng)獲得更為復雜的學習行為。從哲學角度看,這其實并非是對傳統(tǒng)人工神經(jīng)元計算模型的原則性突破,只是在現(xiàn)代計算機硬件技術(shù)高度成熟后增加系統(tǒng)“野蠻計算能力”后的產(chǎn)物。然而,也正是因為這樣的已被升級的人工神經(jīng)元網(wǎng)絡(luò)在計算復雜性與硬件要求方面的大規(guī)模提升,它就很難說是“綠色的”(在這句話中,“綠色”一詞就是在物理資源消耗意義上使用的,而并不主要是指對人文價值之維護)。然而,不得不承認的是,時下計算機學界關(guān)于行業(yè)發(fā)展的一些最新技術(shù)路徑,都與我們理想中的“綠色智能技術(shù)”南轅北轍,卻與同樣迷信“更多更快”之原則的大數(shù)據(jù)技術(shù)心有靈犀。對此,我們只能表示遺憾。
最后,再來簡談一下本文所涉及的林林總總的信息處理技術(shù)與我國現(xiàn)有國情之間的關(guān)系。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)于2015年7月23日在京所發(fā)布的《第36次全國互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告》,截至2015年6月,中國互聯(lián)網(wǎng)普及率為48.8%,中國網(wǎng)民總數(shù)已達6.68億人。近年來,隨著移動支付手段的普及,中國網(wǎng)民線上的經(jīng)濟活動亦以更為驚人的速度增長。這些數(shù)據(jù)的客觀存在,的確為大數(shù)據(jù)技術(shù)的運用提供了現(xiàn)實性。但拋開與小額線上零售交易相關(guān)的那部分數(shù)據(jù)不談,對于理解中國社會運作的一些更為關(guān)鍵方面的真實數(shù)據(jù)——特別是經(jīng)濟運行數(shù)據(jù)——的可獲取性卻沒有得到相應(yīng)的提升,外界對于中國經(jīng)濟運作的評估往往還是基于推測。這也就是說,當下的中國本身就是一個“數(shù)據(jù)爆炸”與“數(shù)據(jù)稀缺”的復合體,光看到前一面而忽略后一面乃是有失偏頗的。在這樣的情況下,中國的社會科學工作者就必須練就針對這雙面相的“組合拳功夫”,做到無論數(shù)據(jù)多寡,都能游刃有余,進退有據(jù)。而要做到這一點,關(guān)于“綠色智能”的理念規(guī)劃與相關(guān)的建模工作,或許能助上一臂之力。
[1][2][3][4] [英]邁爾-舍恩伯格、庫克耶:《大數(shù)據(jù)時代——生活、工作與思維的大變革》,周濤譯,杭州:浙江人民出版社,2013年,第51頁、第七章、第128-130頁、第51-55頁。
[5][6] GerdGigerenzer et al.,Simple Heuristics that Make Us Smart, Oxford: Oxford University Press, 1999,p.4,pp.43-44.
[7] S. A. Barrett,The Rat: A Study in Behavior, Chicago: Aldine, 1963.
責任編輯:羅 蘋
N39
A
1000-7326(2016)10-0028-08
*本文系國家社科基金重大項目“基于信息技術(shù)哲學的當代認識論研究”(15ZDB020)的階段性成果。
徐英瑾,復旦大學哲學學院教授(上海,200433);王培,美國天普大學計算機與信息科學系副教授。