徐英瑾 王 培
文化研究與文化建設(shè)
大數(shù)據(jù)就意味著大智慧嗎——兼論作為信息技術(shù)發(fā)展新方向的“綠色人工智能”*
徐英瑾王 培
就目前情況而言,對于大數(shù)據(jù)技術(shù)運(yùn)用的商業(yè)前景,溢美之詞雖不絕于媒體,卻罕有從信息技術(shù)哲學(xué)之高度做出對于該技術(shù)觀念前提的批判性反思。實(shí)際上,大數(shù)據(jù)技術(shù)的運(yùn)用必須以大數(shù)據(jù)的可獲取性為現(xiàn)實(shí)條件,此可獲取性只是當(dāng)下歷史機(jī)緣之恩賜而已,絕非人類社會運(yùn)行之常態(tài)。而在這一前提缺失的情況下,大數(shù)據(jù)技術(shù)原有的利好面亦將迅速失效?;诖丝剂?,我們倡導(dǎo)以所謂“綠色人工智能技術(shù)”作為大數(shù)據(jù)技術(shù)的替代者,以便通過對于信息處理平臺自身“擬人性”的提高來降低其對于大數(shù)據(jù)的依賴,以期能最大限度地避免對公眾隱私權(quán)的侵犯。而在此類新數(shù)據(jù)算法的設(shè)計(jì)過程中,德國心理學(xué)家吉仁澤提出的“節(jié)儉性理性”原則亦可成為相應(yīng)的哲學(xué)指導(dǎo)。
大數(shù)據(jù)技術(shù)綠色人工智能節(jié)儉性理性統(tǒng)計(jì)學(xué)
所謂“大數(shù)據(jù)”(big data),乃是指在利用常規(guī)軟件工具的前提下無法在可承受的時間內(nèi)捕捉、管理和處理的數(shù)據(jù)集合。而所謂“大數(shù)據(jù)技術(shù)”,自然就是指那些利用非常規(guī)的軟件工具對上述數(shù)據(jù)集合進(jìn)行捕捉、管理與處理的技術(shù)。按照《大數(shù)據(jù)時代——生活、工作與思維的大變革》一書的作者邁爾-舍恩伯格(Victor Mayer-Sch?nberger)與庫克耶(Kenneth Cukier)的觀點(diǎn),與傳統(tǒng)的統(tǒng)計(jì)學(xué)技術(shù)相比,“大數(shù)據(jù)技術(shù)”的特點(diǎn)便在于:研究者不對研究對象進(jìn)行隨機(jī)抽樣以獲取相對可控的樣本空間,而是直接將全部研究對象都作為樣本空間。在他們看來,之所以這樣做是可能的,乃是因?yàn)橛?jì)算機(jī)科學(xué)在硬件方面的突飛猛進(jìn)式的進(jìn)展,已為大數(shù)據(jù)的存儲與計(jì)算提供了極大的便利;而之所以這樣做同時又是必要的,則是因?yàn)閿?shù)據(jù)科學(xué)家發(fā)現(xiàn):在算法不變的情況下,數(shù)據(jù)量本身的增長就足以大大提高預(yù)測的準(zhǔn)確度了。[1]①在這里,作者提到:當(dāng)數(shù)據(jù)量只有500萬的時候,某種數(shù)據(jù)處理算法的表現(xiàn)是相對比較差的;而在數(shù)據(jù)量增加到10億的時候,同樣算法的輸出準(zhǔn)確率則從75 %增加到了95 %。同時,互聯(lián)網(wǎng)的廣泛使用所導(dǎo)致的海量數(shù)據(jù)的出現(xiàn),也使得“大數(shù)據(jù)分析機(jī)器”的運(yùn)作所需要的“彈藥”似永無枯竭之可能。然而,時下國內(nèi)的媒體宣傳,似乎更多地聚焦于大數(shù)據(jù)技術(shù)所可能帶給人類社會的種種便利之上,卻對其自身的局限性著墨不多。而在為數(shù)不多的對于大數(shù)據(jù)技術(shù)負(fù)面作用的討論中,更多地被提到的,乃是對于相關(guān)技術(shù)的濫用所可能導(dǎo)致的倫理風(fēng)險,如“數(shù)據(jù)貪婪癥”對于個人隱私的威脅,以及商業(yè)決策層以及政府首腦對于“數(shù)字化獨(dú)裁”的迷信所可能導(dǎo)致的決策失誤,等等。[2]但是,卻很少有人從信息技術(shù)哲學(xué)與認(rèn)知科學(xué)哲學(xué)的角度,更為深入地檢討大數(shù)據(jù)技術(shù)自身在哲學(xué)思想前提與路徑策略方面的得失。而對于上述理論盲點(diǎn)的覆蓋,也正構(gòu)成了本文寫作的初衷。
“大數(shù)據(jù)技術(shù)”其實(shí)只是早已枝繁葉茂的“信息技術(shù)之樹”在最近所抽出的一根新枝而已。從總體上來看,教科書意義上的“信息技術(shù)”可分為計(jì)算機(jī)技術(shù)、通訊技術(shù)與傳感技術(shù)等數(shù)大研究方向,而其中最為興盛的“計(jì)算機(jī)技術(shù)”則至少包含了兩個與“大數(shù)據(jù)技術(shù)”最為密切相關(guān)的技術(shù)分支:“人工智能技術(shù)”與“互聯(lián)網(wǎng)技術(shù)”。如果將“人工智能技術(shù)”比作汽車制造業(yè),而將“互聯(lián)網(wǎng)技術(shù)”比作筑路業(yè)的話,那么,所謂“大數(shù)據(jù)技術(shù)”的目標(biāo),便是“利用既有的路網(wǎng)去直接完成旅行任務(wù)”——而在此過程中,旅行者既不需要“買車”,甚至也不需要去“租車”!或說得更技術(shù)化一點(diǎn),大數(shù)據(jù)技術(shù)試圖通過回避高級認(rèn)知架構(gòu)與思維路徑設(shè)計(jì)的方式,直接對“信息高速公路”上涌現(xiàn)的數(shù)據(jù)進(jìn)行利用,由此完成原本的人工智能程序所試圖完成的某些任務(wù)(如“模式識別”、“自然語言自動化處理”等)。從這個角度看,大數(shù)據(jù)技術(shù)的崛起,無疑為廣義上的“信息技術(shù)哲學(xué)”提出了如下問題:上述這種跳開“坐車”環(huán)節(jié)而直接利用既有信息通路達(dá)成目的的技術(shù)思路,在多大程度上是可行的?又在多大程度上是有局限的?而其可行性與局限性背后的深層根據(jù)又是什么呢?
關(guān)于這些問題,本文的最終評估結(jié)論可分為兩個方面。就消極面而言,盡管我們很難否認(rèn)“大數(shù)據(jù)技術(shù)”的確能夠在“運(yùn)作資源豐富”的前提下起到部分取代人工智能系統(tǒng)的作用;但更需要指出的是,上述前提的存在乃是當(dāng)下歷史機(jī)緣之恩賜,絕非真正的人類社會常態(tài)——而在這一前提缺失的情況下,大數(shù)據(jù)技術(shù)原有的利好面將迅速失效。就積極面而言,倘若現(xiàn)有的大數(shù)據(jù)技術(shù)能夠包含對于人類高級認(rèn)知架構(gòu)的設(shè)計(jì)而一躍升級成為“具有大數(shù)據(jù)特色的超級人工智能技術(shù)”的話,那么由此所產(chǎn)生的新技術(shù)形態(tài)也將具備針對不用運(yùn)用環(huán)境的適應(yīng)性。而由此得到的額外利好消息則是:原本意義上的大數(shù)據(jù)技術(shù)在量的方面對于新輸入的貪婪渴求,便會通過這種實(shí)質(zhì)性的技術(shù)升級而得到某種遏制,其對于人類現(xiàn)有社會運(yùn)作形態(tài)的干擾亦會變得更小。因此,它也將會成為一種更為“綠色環(huán)?!钡臄?shù)據(jù)處理技術(shù)。
不過,要說清楚什么是“綠色人工智能”,就不可能不涉及關(guān)于傳統(tǒng)人工智能的議題。因此,我們將從一個更為切近的視角,比對傳統(tǒng)人工智能技術(shù)與大數(shù)據(jù)技術(shù)各自之優(yōu)劣。這里需要說明的是,本文將“大數(shù)據(jù)技術(shù)”視為“人工智能”的競爭對象的立論方式,只是為了簡化問題討論而給出的一種理論抽象。嚴(yán)格地說,在“大數(shù)據(jù)技術(shù)”與“人工智能”這兩個端點(diǎn)之間,還有諸如“機(jī)器學(xué)習(xí)”這樣的兼?zhèn)洹叭斯ぶ悄堋迸c“大數(shù)據(jù)技術(shù)”色彩的即混合技術(shù)形態(tài),我們會在文末給出對于時下流行的“深度學(xué)習(xí)”與“量子計(jì)算”路徑的簡評。
作為大數(shù)據(jù)技術(shù)的潛在競爭對象,傳統(tǒng)人工智能技術(shù)的核心關(guān)涉乃在于如何通過對于人類認(rèn)知架構(gòu)或思維進(jìn)程的算法化抽象來模擬人類智能,以解決人類在生產(chǎn)實(shí)踐中所出現(xiàn)的種種技術(shù)問題。至于為何人工智能的研究要以“人類的認(rèn)知架構(gòu)或思維進(jìn)程”為參考對象,則是基于這樣的哲學(xué)見解:既然人類智能乃是我們迄今為止所知道的關(guān)于智能的最佳體現(xiàn)者,那么,本著見賢思齊的原則,人工的智能系統(tǒng)就應(yīng)當(dāng)至少在某些方面與人類智能具有相似性。
那么,人工智能到底究竟應(yīng)當(dāng)在哪些方面與人類的自然智能相似呢?一種自然的解答思路便是:人類思維中帶有“不科學(xué)”之印記的那部分——諸如“一廂情愿”、“巫術(shù)思維”之類的“認(rèn)知瑕疵”——均是應(yīng)當(dāng)在人工智能專家的建模工作中被過濾掉的“雜質(zhì)”,因?yàn)樗鼈冎豢赡転槲覀兊臎Q策行為或求真活動帶來負(fù)面效應(yīng)。而反過來說,為了更好地將人類自然思維中的“理性精華”與上述“思維雜質(zhì)”相互分離,人工智能專家就需要大膽引入邏輯學(xué)與統(tǒng)計(jì)學(xué)的形式手段來對人類自然思維進(jìn)行“提純”。譬如,在尋找事物之間的因果關(guān)系時,就不能過于信任自身的直觀能力,而要建立一個 “貝葉斯網(wǎng)絡(luò)”,以清晰地表述出我們可以想到的所有與當(dāng)下任務(wù)相關(guān)的事件變量(甚至包括隱變量與未知變量),以及它們之間的所有已知的因果關(guān)系。爾后,系統(tǒng)便可根據(jù)相關(guān)網(wǎng)絡(luò)節(jié)點(diǎn)所自帶的條件概率表,自動計(jì)算出特點(diǎn)節(jié)點(diǎn)之間的關(guān)聯(lián)權(quán)重值,最終從備選的因果假設(shè)束中遴選出最可能成真者。①對于貝葉斯建模技術(shù)的更多細(xì)節(jié),請參看徐英瑾:《心智、語言和機(jī)器——維特根斯坦哲學(xué)和人工智能科學(xué)的對話》(人民出版社,2013年)1.4節(jié)的介紹。
在大數(shù)據(jù)技術(shù)的擁躉看來,人工智能的上述解題思路看似合理,實(shí)則過于“昂貴”。其“昂貴性”主要體現(xiàn)在如下兩個方面。
其一,以貝葉斯網(wǎng)絡(luò)為例,其本身的建立要人工智能專家與相關(guān)領(lǐng)域的專家通力合作,絕非易事。比如,人工智能專家們?nèi)粝胍⒁粋€“設(shè)備自檢貝葉斯網(wǎng)”以便讓殲擊機(jī)機(jī)載電腦能夠有能力自檢故障,他們就需要向飛機(jī)設(shè)計(jì)者虛心請教,以便列出相關(guān)型號的戰(zhàn)機(jī)所可能出現(xiàn)的故障所對應(yīng)的所有的設(shè)備故障點(diǎn)。但是,即使這樣的網(wǎng)絡(luò)已經(jīng)囊括了該型戰(zhàn)機(jī)所可能發(fā)生的故障的所有原因(盡管這在實(shí)踐中幾乎是不可能的,因?yàn)轱w機(jī)的實(shí)際使用往往會不斷暴露出一些設(shè)計(jì)者所難以預(yù)估的故障點(diǎn)),這樣的工作所消耗的時間也將是非常驚人的。假設(shè)某種飛機(jī)需要經(jīng)歷一次實(shí)質(zhì)性的升級(比如更換主發(fā)動機(jī)、雷達(dá)以及火控系統(tǒng)等關(guān)鍵設(shè)備),那么原先完成的建模工作就必須推倒重來。
其二,相關(guān)的貝葉斯網(wǎng)絡(luò)建立完成之后,我們還需要向各個節(jié)點(diǎn)輸入數(shù)據(jù),以便了解在某些事態(tài)變量發(fā)生的前提下目標(biāo)事態(tài)變量也發(fā)生的條件概率。但如果我們需要相對精確地了解這些概率值的話,我們就必須建立樣本空間,以便對諸變量之間的隨動關(guān)系進(jìn)行檢測。這項(xiàng)工作所需要的時間與精力也是不小的。面對這些難題,大數(shù)據(jù)技術(shù)的支持者相信自己已找到了更為簡易的解決方案。概而言之,大數(shù)據(jù)專家不會針對所要解決的任務(wù)建立一個專門的貝葉斯網(wǎng)絡(luò)(或訴諸其他類型的問題求解路徑建模工作),而會在忽略各種可能事件成因之間的層級結(jié)構(gòu)的前提下,在海量的數(shù)據(jù)中直接搜尋事態(tài)之間的相關(guān)性。若用隱喻式的語言來解釋,前者便是在對某些人進(jìn)行“有罪推定”的前提下再去尋找證據(jù),以圖落實(shí)——或推翻——相關(guān)推測(而這些推測所構(gòu)成的結(jié)構(gòu),無疑也就是相關(guān)問題求解路徑的骨架);而后者的策略則是:干脆先對所有的居民進(jìn)行“有罪推定”, 并由此回避了對于“某些人更容易犯罪”的理論性猜測。爾后,再對所有居民的各種行為所產(chǎn)生的數(shù)據(jù)進(jìn)行全面處理,以便坐等真正的“罪犯”露出馬腳。這樣一來,無論是“建立假設(shè)結(jié)構(gòu)”的重?fù)?dān),還是“通過隨機(jī)抽樣的方式建立樣本檢測空間”的負(fù)載,全都被卸下了大數(shù)據(jù)技術(shù)專家的肩膀。
那么,大數(shù)據(jù)技術(shù)究竟是如何可能做到將檢測對象從所謂的“居民樣本”擴(kuò)大到“居民總體”的?或問得更具體一點(diǎn):對于“哪些人更容易犯罪”的理論假設(shè)的構(gòu)想固然需要投入心力,而將“全體居民”全部納入監(jiān)控對象,難道所需消耗的心力反而會更少嗎?對于這個問題的解答的關(guān)鍵詞乃是“互聯(lián)網(wǎng)”。正是互聯(lián)網(wǎng)的廣泛使用,才使得“全體居民”(或近似于“全體居民”)的數(shù)據(jù)能夠以一種相對經(jīng)濟(jì)的方式而被獲取。下面便是兩個具體案例。
第一個案例是關(guān)于“模式識別”的?!澳J阶R別”本是一個典型的人工智能課題,其主要任務(wù)是如何讓人工系統(tǒng)自動判定在某些紛亂的現(xiàn)象背后存在的本質(zhì)結(jié)構(gòu)——譬如如何確定手稿中的筆跡所代表的字符,以便使得掃描儀自帶的程序能夠直接將手稿圖片轉(zhuǎn)換為可編輯的WORD文檔。面對這一問題,傳統(tǒng)的模式識別研究(特別是那些訴諸人工神經(jīng)元網(wǎng)絡(luò)模型所做的研究②對于人工神經(jīng)元網(wǎng)絡(luò)建模技術(shù)的更多細(xì)節(jié),請參看徐英瑾:《心智、語言和機(jī)器——維特根斯坦哲學(xué)和人工智能科學(xué)的對話》1.2節(jié)的介紹。)的解決思路是:我們先要預(yù)建一個樣本庫,以及與之配套的反饋學(xué)習(xí)算法,而系統(tǒng)則將通過對于樣本庫的學(xué)習(xí),以及來自于學(xué)習(xí)反饋算法的糾偏,初步掌握模式識別能力。爾后,系統(tǒng)便可進(jìn)而獲取對于樣本庫之外的新案例的模式解讀能力(除非新案例變得與舊樣本過于不相似了)。很顯然,在這樣的研究路徑中,無論對于樣本庫的設(shè)計(jì),還是對于系統(tǒng)自身學(xué)習(xí)架構(gòu)以及相關(guān)學(xué)習(xí)算法的設(shè)計(jì),都會耗掉研究者大量的精力——一旦新出現(xiàn)的待識別案例與樣本庫舊案例之間的差距的確變得過大,原先的建模工作就有可能會被推倒重來。而與之對比,在大數(shù)據(jù)技術(shù)指導(dǎo)下的研究思路卻要簡單得多。譬如,當(dāng)系統(tǒng)遇到內(nèi)置程序難以解讀的新字跡的時候,數(shù)據(jù)科學(xué)家根本不會著手從事原先程序的升級或改造工作——相反,他們會利用互聯(lián)網(wǎng)將難辨認(rèn)的圖片廣泛發(fā)送出去,爾后再讓廣大的互聯(lián)網(wǎng)用戶自己去判斷這些字跡到底代表了哪些字符。然后,專家再利用互聯(lián)網(wǎng)搜集用戶的答案,統(tǒng)計(jì)出這些答案中的“一般意見”,由此確定難解字跡到底是哪些字符。以上,也便是時下已經(jīng)得到廣泛應(yīng)用的ReCaptcha技術(shù)的核心思想。[3]
第二個案例是關(guān)于機(jī)器翻譯的,即如何運(yùn)用人工智能技術(shù)對一段語言文本進(jìn)行自動化處理,以便將其轉(zhuǎn)化為用另一種語言表述的新文本(但二者的含義必須保持同一)。大略地說,傳統(tǒng)的機(jī)器翻譯思路大致有兩條。第一條是用計(jì)算機(jī)程序固化某些已知的語言學(xué)知識——如喬姆斯基的“轉(zhuǎn)換生成語法”理論——并利用這樣的程序來對輸入的文本信息進(jìn)行精細(xì)的語法分析。這樣的進(jìn)路便被稱為機(jī)器翻譯中的“符號式進(jìn)路”。與之爭鋒的則是所謂的“統(tǒng)計(jì)式進(jìn)路”,即在放棄對于句法規(guī)則的預(yù)先表征的前提下,直接統(tǒng)計(jì)一個對象語言詞項(xiàng)被一個元語言詞項(xiàng)所翻譯的概率值。譬如,英文里的單詞“know”究竟應(yīng)譯為“懂”、“知道”還是“曉得”,將根據(jù)“相關(guān)英文詞出現(xiàn)后相關(guān)中文譯詞亦出現(xiàn)”的“后驗(yàn)概率”來確定。然而,在大數(shù)據(jù)技術(shù)的支持者看來,以上兩個路線都是有問題的。具體而言,“符號式進(jìn)路”將逼迫我們對自然語言的語法結(jié)構(gòu)進(jìn)行建模,并為喬姆斯基式的深層語法與自然語法之間的過渡提供精巧的“擺渡工具”——而這種理論色彩過濃的建模工作,必將難以對翻譯實(shí)踐中所涌現(xiàn)的大量新語例做出靈活的反應(yīng);至于“統(tǒng)計(jì)學(xué)進(jìn)路”,則和前面所談到的“模式識別”技術(shù)一樣,都需要設(shè)定一個翻譯例句庫以作為樣本空間。但由于該空間中所出現(xiàn)的所有翻譯例句都應(yīng)當(dāng)是準(zhǔn)確的(即所有例句都要達(dá)到所謂“官方翻譯”的標(biāo)準(zhǔn)),樣本庫本身就不可能被建得很大,而對于它的拓展與維護(hù)也會變得相對昂貴。與之作對比,目前美國谷歌公司所采用的大數(shù)據(jù)技術(shù)對于這個問題的解決方案,則“機(jī)智”地繞過了“句法分析”與“建立例句庫”這兩道門檻。他們的具體做法是:直接從互聯(lián)網(wǎng)上搜集所有現(xiàn)成的語料,而不避諱其中所可能出現(xiàn)的錯誤翻譯甚至語法錯誤。耐人尋味的是,由于這種新的語料庫在規(guī)模方面乃是由“佳譯”所構(gòu)成的理想語料庫的上百萬倍,其自然生成的規(guī)模效應(yīng),竟然使得產(chǎn)出譯本的質(zhì)量反而超越了傳統(tǒng)機(jī)器翻譯程序的輸出質(zhì)量。[4]
通過以上這兩則例子,我們也就不難理解為何大數(shù)據(jù)技術(shù)的確對傳統(tǒng)人工智能技術(shù)構(gòu)成了某種威脅。簡言之,很多人工智能技術(shù)所能夠做的事情,大數(shù)據(jù)技術(shù)也能夠做,而且似乎做得更快更好,也更少耗資源(無論是在人力方面還是在時間方面)。兩相比較,大數(shù)據(jù)技術(shù)的確大有“勝出”之勢。但是,從更深的角度看,這種“勝出”只是一種假象。從上面的分析不難看出,對于互聯(lián)網(wǎng)的利用乃是大數(shù)據(jù)技術(shù)得以成功的秘訣——而這種所說的“互聯(lián)網(wǎng)”不僅僅包括網(wǎng)絡(luò)本身,也包括廣大網(wǎng)絡(luò)用戶的自身的智力投入(如對于字跡的辨認(rèn)工作以及對于外語的翻譯工作,等等)。這也就是說,大數(shù)據(jù)技術(shù)是通過互聯(lián)網(wǎng)這一管道大肆“剝削”了既已存在的人類智能,借以在與傳統(tǒng)人工智能的競爭中占據(jù)先機(jī)的。換句話說,這種“勝利”其實(shí)是帶有很大水分的(這就好比說,一個得到無數(shù)次場外求助的機(jī)會的智力競賽參賽者,擊敗了一個沒有得到任何此類機(jī)會的對手,可謂“勝之不武”)。
不過,大數(shù)據(jù)技術(shù)的擁躉或許會說,帶有水分的勝利畢竟還是勝利,只要沒有法律和倫理上的理由反對數(shù)據(jù)專家利用互聯(lián)網(wǎng)提供的海量數(shù)據(jù),我們又有何理由不去抄捷徑呢?而筆者對于這一辯解的進(jìn)一步回應(yīng)則是:互聯(lián)網(wǎng)帶給大數(shù)據(jù)的春風(fēng)并不總是那么強(qiáng)勁,而所謂的“捷徑”也不總是那么順暢,因?yàn)楹A繑?shù)據(jù)的輕易可獲取性并不是人類社會的常態(tài)(實(shí)際上,從采集—狩獵時代以來的大多數(shù)時間段內(nèi),人類所能夠獲取的信息量一直沒有超越“小數(shù)據(jù)”的范疇)。而即使在互聯(lián)網(wǎng)已被廣泛使用的當(dāng)代,我們也可以隨手設(shè)想出如下四種對大數(shù)據(jù)獲取構(gòu)成限制的情況。(1)在戰(zhàn)爭條件下,己方作戰(zhàn)平臺對于儲存在“云”中的信息的調(diào)取很可能會遭到敵對方的刻意干擾,而使得大數(shù)據(jù)處理技術(shù)自身失效(與之相類似,我們還可以設(shè)想如下情形:在某國與某國關(guān)系全面惡化的情況下,一國切斷海底光纖光纜,以使得另一國民用數(shù)據(jù)處理平臺大面積癱瘓)。(2)即使在和平條件下,由于廣大貧困的或未受教育的人口的線上交易活動并不活躍(或者根本不存在),對于網(wǎng)絡(luò)數(shù)據(jù)的分析在很大程度上是以遺忘“不上線的大多數(shù)”為代價的。(3)在誠信廣泛缺失的社會道德背景下,廣大網(wǎng)絡(luò)“水軍”的存在,會使得一些特定數(shù)據(jù)(如對于商品的評價)的質(zhì)量低到無法被其數(shù)量所平衡的地步。(4)在對于未知領(lǐng)域的探索過程中(譬如火星探險),人類所獲取的相關(guān)信息量還遠(yuǎn)遠(yuǎn)沒有達(dá)到“大數(shù)據(jù)”尺度的地步,因此大數(shù)據(jù)技術(shù)自身也會失去用武之地。但是,即使在所有這四種使得大數(shù)據(jù)技術(shù)被“凍結(jié)”的情況之中,我們也沒有理由說人類的自然智能是無法在其中正常運(yùn)作的。換言之,在信息稀缺的環(huán)境下,人類的自然智能會比大數(shù)據(jù)技術(shù)更具優(yōu)勢。
然而,大數(shù)據(jù)技術(shù)的支持者或許會繼續(xù)反駁說:即使我們承認(rèn)人類的自然智能會在信息稀缺的情況下發(fā)揮更大的威力,但是這一優(yōu)勢依然會被其在面對海量信息時所暴露出來的“不適應(yīng)性”所抵消。因此,二者至多打成一個“平局”。對此,筆者的回應(yīng)是:人類的自然智能的確無法全面打敗大數(shù)據(jù)技術(shù),而傳統(tǒng)人工智能技術(shù)恐怕也不行——但“綠色人工智能”就難說了。在筆者看來,后者將為綜合自然智能、傳統(tǒng)人工智能與大數(shù)據(jù)技術(shù)的優(yōu)勢(卻同時盡量回避其各自的弱點(diǎn))提供一攬子的解決方案。
“綠色人工智能”是本文提出的一個新概念。這個概念的提出,受到了德國心理學(xué)家吉仁澤(Gerd Gigerenzer)對于“節(jié)儉性理性”(frugal rationality)問題的討論的很大啟發(fā)(這里需要說明的是,由于吉仁澤本人篤信關(guān)于人類心靈機(jī)制的計(jì)算機(jī)模型,因此,他的相關(guān)心理學(xué)理論就具有了某種橫跨人類心智與人工智能的兼適性)?!肮?jié)儉性理性”自然是針對“不節(jié)儉的理性”而言的。而在吉仁澤的話語框架中,“不節(jié)儉的理性”又可分為兩類:“全能神理性”與“有限理性”。
“全能神理性”在近代西方思想史中的代表,乃是法國思想家拉普拉斯(Pierre-Simon Laplace,1749—1827)提出的“決定論”思想。若用今天的學(xué)術(shù)話語體系轉(zhuǎn)述該思想,其自然科學(xué)的表達(dá)版本如下:如果我們能夠知道所有的自然規(guī)律以及所有的微粒在某個特定時刻的初始狀態(tài)的話,那么,我們原則上就能夠知道某個特定微粒在任何一個別的時刻的運(yùn)動狀態(tài)。該學(xué)說的社會科學(xué)版本則如下:如果我們能夠知道所有的社會規(guī)律以及所有的社會個體在某個初始時刻的狀態(tài)的話,那么,我們也就能夠在原則上預(yù)知任何一個個體在任何一個別的給定時刻會做些什么。很顯然,“全能神理性”的想法和今天我們所說的“大數(shù)據(jù)技術(shù)”的哲學(xué)預(yù)設(shè)是有一點(diǎn)類似的:完整的數(shù)據(jù)加一點(diǎn)點(diǎn)科學(xué)知識(如拉普拉斯時代被奉若神明的牛頓力學(xué)知識),就足以支持我們對于未來的預(yù)言(只不過今天的大數(shù)據(jù)專家還沒有狂妄到認(rèn)為自己可以預(yù)言任何一個微粒在任何一個時刻的運(yùn)動狀態(tài)的地步)。
很顯然,在大數(shù)據(jù)本身難以獲取的情況下,對于上述理性的秉承并不可能在實(shí)踐層面上給我們帶來任何積極的后果。因此,一些學(xué)者就提出了一種與“小數(shù)據(jù)”環(huán)境更為匹配的新理性觀:“有限理性”的代表性技術(shù)成果,是人工智能學(xué)科的行業(yè)奠基人之一、圖靈獎與諾貝爾經(jīng)濟(jì)學(xué)獎雙料得主司馬賀(Herbert Simon,1916—2001)與其學(xué)術(shù)伙伴紐艾爾(Allen Newell,1927—1992)聯(lián)合提出的“通用問題求解器”(General Problem Solver,簡稱GPS)設(shè)想。按照“GPS”的設(shè)想,一個智能系統(tǒng)的記憶庫應(yīng)當(dāng)預(yù)裝了很多“推理捷徑”,以使得系統(tǒng)自身能夠在資源有限的前提下,通過更為經(jīng)濟(jì)的方式來獲得自己的推理目標(biāo)。譬如,作為決策者的消防隊(duì)長(或人工消防系統(tǒng))就必須預(yù)存一個關(guān)于“如何救火”的預(yù)案庫,并在面臨救火任務(wù)時,隨機(jī)抽取一個預(yù)案予以檢測(這主要是指心理模擬意義上的虛擬檢測)。按照司馬賀的設(shè)計(jì),如果檢測的結(jié)果能夠“滿足”相關(guān)的目標(biāo)——也就是成功滅火——那么,消防隊(duì)長就會自動停止對于別的預(yù)案的考察,由此控制資源的損耗。
至于吉仁澤本人,則既不為“全能神理性”觀喝彩,也不支持看似已經(jīng)對前者提出批評的“有限理性”觀。其理由非常簡單:“有限理性”指導(dǎo)下的問題求解路徑依然依賴于傳統(tǒng)的統(tǒng)計(jì)學(xué)技術(shù),因此所需要的數(shù)據(jù)量依然不?。ūM管還沒有達(dá)到“大數(shù)據(jù)”的級別)。然而,吉仁澤認(rèn)為,在不少問題處理語境中,即使是對于這種規(guī)模的數(shù)據(jù)量的處理,也是用戶的時間資源所無法承擔(dān)的。在《使吾輩精明的簡單思維土法》一開首,[5]他就提到了在判斷心臟病突發(fā)的病人的病情時,急診科的醫(yī)生所實(shí)際使用的判斷流程。不難想見,為了爭分奪秒地與死神賽跑,相關(guān)的診斷流程必須是簡單實(shí)用的,以及對于這些檢測結(jié)果的統(tǒng)計(jì)學(xué)分析——盡管這種分析恰恰是標(biāo)準(zhǔn)的人工智能專家所倡導(dǎo)的。
下面這個心理學(xué)測驗(yàn),將幫助我們看清楚,一種更為寬泛的“節(jié)儉性算法”是如何運(yùn)作的。假設(shè)有這樣一張考卷,考卷上有一列由美國城市名字所構(gòu)成的對子,如“史普林菲爾德—舊金山”、“芝加哥—小石城”等??忌娜蝿?wù),便是從每個對子里找出那個城市居民比較多的城市(在此期間任何考生不允許參考任何書籍以及網(wǎng)絡(luò)上的相關(guān)信息),考官則根據(jù)考生的答對率進(jìn)行判分?,F(xiàn)在我們將考生的考卷分為兩組:德國學(xué)生的答卷與美國學(xué)生的答卷。很多人都會認(rèn)為美國的學(xué)生考分會高一點(diǎn),在他們看來,美國學(xué)生總要比德國學(xué)生更熟悉美國城市的情況。然而,這個看法是偏頗的。作為一個大國,美國的行政區(qū)劃以及相關(guān)的人口情況異常復(fù)雜,即使是一般的美國人,也僅僅是聽說過不少城市的名字而已,卻不是太清楚所有城市的人口規(guī)模。而作為德國學(xué)生,事情就要簡單一點(diǎn)。他們做題的時候遵循的是一條非常簡單的“思維土法”:凡是自己聽說過的美國城市,一般就都是大城市,而大城市一般人口就多??傊?,面對兩個城市的名字“二選一”的時候,選那個看起來眼熟的地名就是了。而或許讓人感到驚訝的是,這種看似“簡單粗暴”的解題思路,成功率卻相當(dāng)了得。譬如,當(dāng)吉仁澤和其合作伙伴做這個實(shí)驗(yàn)的時候,他們便發(fā)現(xiàn)德國學(xué)生的平均成績明顯要比美國學(xué)生好;而當(dāng)別的研究者以“兩個英國足球隊(duì)中的哪一個會在曼聯(lián)賽中獲得更好成績”為問題,分別測試土耳其學(xué)生和英國本土學(xué)生后,他們同樣驚訝地發(fā)現(xiàn):答案正確率高的,再一次是相對不熟悉英國本土情況的土耳其人。簡言之,“將正面的屬性——如‘人口多’、‘體育強(qiáng)’等——指派給你相對熟悉的地名”,便是在上面的實(shí)驗(yàn)中德國學(xué)生與土耳其學(xué)生得以打敗美英本土競爭者的“制勝思維土法”。這便是所謂“節(jié)儉性理性”的典型運(yùn)用實(shí)例。[6]吉仁澤甚至還認(rèn)為,從演化論的角度看,人類的這種“節(jié)儉性理性”甚至在老鼠這樣的嚙齒類動物的心智配置那里就已經(jīng)有了雛形了:因?yàn)榫瓦B老鼠也能夠根據(jù)別的老鼠食用某種食物后的反應(yīng),來判斷該種食物是否有毒,并同時回避那些從來沒有任何老鼠吃過的新食物(需要注意的是,在此過程中老鼠不必真地具備對于食物自身的化學(xué)構(gòu)成的知識,就如在前面的例子中,外國學(xué)生并不需要知道相關(guān)城市某方面特征的真實(shí)數(shù)據(jù)一樣)。[7]
讀者或許會說,這種“節(jié)儉性理性”也實(shí)在太寒酸了吧,因?yàn)槠溥\(yùn)作似乎完全排除了我們對于世界的因果關(guān)系的表征,而僅僅將判斷的依據(jù)建立在一些似是而非的相關(guān)性之上。但問題是:這樣的批評也能夠被施加于大數(shù)據(jù)技術(shù)之上:因?yàn)樵摷夹g(shù)的擁躉也以回避因果關(guān)系表征作為自身的“技術(shù)特色”。為何大數(shù)據(jù)技術(shù)能夠回避因果表征,而“節(jié)儉性理性”卻不能呢?
大數(shù)據(jù)技術(shù)的支持者或許會反駁說,該技術(shù)對于相關(guān)性的把握是以對于即時獲取的海量數(shù)據(jù)為根據(jù)的,而“節(jié)儉性理性”對于相關(guān)性的把握的根據(jù),則似乎是某些來自于遠(yuǎn)古演化歷程的內(nèi)置心智配置。換言之,前者是“與時俱進(jìn)”地把握相關(guān)性,而后者則是以“刻舟求劍”的方式獲得相關(guān)性——二者怎么可以同日而語呢?對于這一批評,我們有兩點(diǎn)回應(yīng)。第一,正如前文所指出的,“大數(shù)據(jù)的可獲取性”并非人類社會的常態(tài),而是互聯(lián)網(wǎng)時代帶給我們的意外恩賜。由于支持這種恩惠繼續(xù)起效的社會經(jīng)濟(jì)基礎(chǔ)所具有的脆弱性,我們將所有的雞蛋都放到大數(shù)據(jù)技術(shù)籃子里的舉措,未必是明智之舉。在這個問題上,向人類乃至別的哺乳類動物的原始心智學(xué)習(xí)研發(fā)新時代的人工智能系統(tǒng),不失為一種降低風(fēng)險的補(bǔ)償性方案。第二,人類心智機(jī)制自身的“原始性”并不意味著其無效性。實(shí)際上,哪些原始心智的工作方式是能夠繼續(xù)適應(yīng)現(xiàn)代社會的,哪些不能,是需要具體問題具體分析的。就前面所提到的對于城市人口規(guī)模的猜測實(shí)驗(yàn)而言,相關(guān)心智的運(yùn)作規(guī)則乃是“根據(jù)城市有名度”來判斷其人口規(guī)?!涓鼮橐话愕男问侥耸牵焊鶕?jù)某事物的某些更具凸顯性(且更具可獲取性)的指標(biāo)數(shù)來猜測那些不那么具凸顯性或可獲取性的指標(biāo)數(shù)。很顯然,這樣的運(yùn)作規(guī)則因?yàn)樽銐虺橄螅虼司途哂心撤N橫跨遠(yuǎn)古時代與當(dāng)代社會的兼適性,不宜用“刻舟求劍”之類的負(fù)面標(biāo)簽一貼了之。
大數(shù)據(jù)技術(shù)的支持者或許還會反駁說,上面我們的論證至多只能說明:基于“節(jié)儉性理性”的信息技術(shù)構(gòu)建方案可以成為大數(shù)據(jù)技術(shù)的備份,而無法說明它可以全面取代大數(shù)據(jù)技術(shù)。讓我們再來回顧一下前文所述的那個關(guān)于城市人口規(guī)模的測驗(yàn)結(jié)果吧:這個結(jié)果明明告訴我們,對于數(shù)據(jù)信息掌握量比較大的本國被試者來說,他們對于“節(jié)儉算法”的使用會因?yàn)椤爸赖酶唷倍兊酶鼮槠D難,而由此得出的測驗(yàn)分?jǐn)?shù)也就更低。這難道不正意味著:遠(yuǎn)古心智所自帶的“節(jié)儉性算法”與大數(shù)據(jù)環(huán)境無法兼容嗎?對于這一反駁,我們的意見是:所謂本國被試者“知道得更多”的情形,需要得到進(jìn)一步的分析。實(shí)際上,這些被試者“知道得更多”的,乃是關(guān)于被涉及城市的其他與人口相關(guān)的指標(biāo)(如經(jīng)濟(jì)指標(biāo))的知識,以及這些指標(biāo)與人口指標(biāo)之間的因果關(guān)系。換句話說,正是因?yàn)樗麄兊拇竽X已經(jīng)激活了對于因果范疇的使用,節(jié)儉性算法的運(yùn)作便自然得到了抑制,而后者所本有的“快速高效”的推理優(yōu)勢自然也就無從發(fā)揮了。但需要注意的是,因果范疇的激活本身并不單純是數(shù)據(jù)規(guī)模變大的結(jié)果——而在某些情況下,這恰恰也很可能是數(shù)據(jù)量稀缺的結(jié)果。具體而言,對于美國本土的學(xué)生來說,他們稀缺的恰恰是對于相關(guān)城市在非美國人那里的知名度的數(shù)據(jù)——而恰恰是這種稀缺才使得他們的心智不得不開啟了“花費(fèi)昂貴”的對于人口規(guī)模的因果式調(diào)查模式。而在大數(shù)據(jù)環(huán)境下,一個與互聯(lián)網(wǎng)連接的智能程序則自然能更為輕易地獲取相關(guān)數(shù)據(jù),并使得那種已經(jīng)被程序化了的“節(jié)儉式算法”有了用武之地。
大數(shù)據(jù)技術(shù)的支持者或許還會繼續(xù)反駁說,將節(jié)儉性算法程序與大數(shù)據(jù)庫相鏈接的做法,在定義上完全可以被視為大數(shù)據(jù)技術(shù)的一個變種——那么,為何我們需要將其視為對于現(xiàn)有大數(shù)據(jù)技術(shù)的全面取代呢?相關(guān)理由有二。其一,正如前文反復(fù)提及的,節(jié)儉式算法可以和大數(shù)據(jù)鏈接,但也可以和小數(shù)據(jù)鏈接,因此,這種可適應(yīng)于不同環(huán)境的靈活性就使得它很難被歸類為大數(shù)據(jù)技術(shù)的一支。其二,節(jié)儉性算法的設(shè)計(jì)是植根于對人類現(xiàn)有心理機(jī)制的研究,而不是對于直接的數(shù)據(jù)環(huán)境的研究的產(chǎn)物。這就使得它與傳統(tǒng)意義上的人工智能研究更具親緣關(guān)系——盡管節(jié)儉性算法的“節(jié)儉性”是很難通過傳統(tǒng)人工智能所仰仗的邏輯—統(tǒng)計(jì)進(jìn)路予以實(shí)現(xiàn)的。說到這一步,我們也就可以對基于“節(jié)儉性理性”概念的“綠色人工智能”概念進(jìn)行大致的闡述了。
現(xiàn)在我們來探討一下與“綠色人工智能”相關(guān)的四個具體問題:為何稱這種人工智能技術(shù)是“綠色”的?在實(shí)現(xiàn)層面上,它與吉仁澤的既有心理學(xué)理論之間的關(guān)系是什么?它與時下人工智能學(xué)界在“深度學(xué)習(xí)”方面的進(jìn)步有什么關(guān)系?它的運(yùn)用,對于當(dāng)下我國社會經(jīng)濟(jì)發(fā)展與人文社科研究來說,具有什么現(xiàn)實(shí)的意義?
先來看第一個問題。眾所周知,原本意義上的“綠色的技術(shù)”就是指對自然資源消耗更少且對自然環(huán)境破壞亦較少的技術(shù)。而在本文的語境中,“綠色人工智能技術(shù)”則同時是指一種對現(xiàn)有的人類價值體系擾動較小的技術(shù)(因?yàn)槲覀儗⑷宋沫h(huán)境視為廣義上的“環(huán)境”的一個有機(jī)組成部分)。具體而言,它必須對“隱私”、“公民權(quán)”、“人類的自由選擇權(quán)”等被常識普遍接受的價值標(biāo)準(zhǔn)抱有起碼的敬意,并以此將技術(shù)異化的風(fēng)險降到最小。若按照這種標(biāo)準(zhǔn)去衡量,現(xiàn)有的大數(shù)據(jù)分析技術(shù)就很難被說成是“綠色”的。用形象化的比喻來說,大數(shù)據(jù)的分析軟件就像一頭需要吞入大量數(shù)據(jù)才能夠被喂飽的“哥斯拉”怪獸,因此,其對于數(shù)據(jù)的貪婪就具有一種“技術(shù)的自發(fā)性”(因?yàn)楣肢F的食量本來就是由其身體結(jié)構(gòu)所先天地決定的),而不能被僅僅膚淺地歸結(jié)為相關(guān)從業(yè)人員的倫理意識與相關(guān)法律監(jiān)督的缺位。不難想見,只要這樣的怪獸的進(jìn)食方式不改變,現(xiàn)代社會中那些反映公民隱私的數(shù)據(jù)就會每時每刻處于危險之中。相比較而言,一種基于“節(jié)儉式算法”的綠色數(shù)據(jù)處理技術(shù)則未必以大數(shù)據(jù)的獲取為其運(yùn)作的必要條件。至于那些與保護(hù)公民隱私相關(guān)的法律法規(guī),自然也就更容易和這種在“進(jìn)食量”方面更富彈性的新數(shù)據(jù)處理技術(shù)相結(jié)合,由此起到最大的功效。
再來看第二個問題。不得不承認(rèn),我們關(guān)于“綠色人工智能”的理念在哲學(xué)層面上的確受到吉仁澤不少啟發(fā),但是在具體的實(shí)現(xiàn)細(xì)節(jié)上卻和他的原始設(shè)想有所不同。具體而言,我們和吉仁澤一樣,也認(rèn)為對于人類原始心智機(jī)制的模擬乃是相關(guān)工程學(xué)實(shí)踐的必由之路,但是關(guān)于人類原始心智機(jī)制的具體構(gòu)成,我們卻和他有不同的意見。受到所謂“大規(guī)模心智模塊論”的影響,吉仁澤本人相信人類的大腦是由一些專門的問題求解器所構(gòu)成的超級工具箱,我們則傾向于認(rèn)為大腦中存在著一個“通用問題求解器”——只是其運(yùn)作方式更符合吉仁澤的“節(jié)儉性理性”之理念,而非司馬賀式的“有限理性”理念。①關(guān)于如何在計(jì)算機(jī)層面將這種“節(jié)儉型”的“通用問題求解器”的算法細(xì)節(jié)予以夯實(shí),王培曾在英語世界發(fā)表了大量相關(guān)著述;徐英瑾近年來也多次介紹與發(fā)揮了這些成就。徐英瑾在這方面工作的集成,參看《心智、語言和機(jī)器》一書;王培在這方面工作的最新集成,見《非公理邏輯:一種智能推理的模型》(Non-Axiomatic Logic:A Model of Intelligent Reasoning,World Scientifc Publishing Company, 2013)一書。
再來看第三個問題。直到目前為止,在提到“人工智能”這個話題的時候,我們僅僅涉及了傳統(tǒng)的人工智能研究(以符號主義進(jìn)路與統(tǒng)計(jì)學(xué)進(jìn)路為代表)以及作為未來發(fā)展方向的“綠色人工智能”理念,卻沒有涉及時下如火如荼的一些新概念,如“深度學(xué)習(xí)”。乘此機(jī)會,我們也對其予以簡評。就“深度學(xué)習(xí)”而言,它實(shí)際上就是將傳統(tǒng)的人工神經(jīng)元網(wǎng)絡(luò)的內(nèi)置層的層級予以規(guī)模放大的產(chǎn)物(比如,從一到兩層的內(nèi)置層擴(kuò)展到七八十層),由此使得系統(tǒng)獲得更為復(fù)雜的學(xué)習(xí)行為。從哲學(xué)角度看,這其實(shí)并非是對傳統(tǒng)人工神經(jīng)元計(jì)算模型的原則性突破,只是在現(xiàn)代計(jì)算機(jī)硬件技術(shù)高度成熟后增加系統(tǒng)“野蠻計(jì)算能力”后的產(chǎn)物。然而,也正是因?yàn)檫@樣的已被升級的人工神經(jīng)元網(wǎng)絡(luò)在計(jì)算復(fù)雜性與硬件要求方面的大規(guī)模提升,它就很難說是“綠色的”(在這句話中,“綠色”一詞就是在物理資源消耗意義上使用的,而并不主要是指對人文價值之維護(hù))。然而,不得不承認(rèn)的是,時下計(jì)算機(jī)學(xué)界關(guān)于行業(yè)發(fā)展的一些最新技術(shù)路徑,都與我們理想中的“綠色智能技術(shù)”南轅北轍,卻與同樣迷信“更多更快”之原則的大數(shù)據(jù)技術(shù)心有靈犀。對此,我們只能表示遺憾。
最后,再來簡談一下本文所涉及的林林總總的信息處理技術(shù)與我國現(xiàn)有國情之間的關(guān)系。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)于2015年7月23日在京所發(fā)布的《第36次全國互聯(lián)網(wǎng)發(fā)展統(tǒng)計(jì)報告》,截至2015年6月,中國互聯(lián)網(wǎng)普及率為48.8%,中國網(wǎng)民總數(shù)已達(dá)6.68億人。近年來,隨著移動支付手段的普及,中國網(wǎng)民線上的經(jīng)濟(jì)活動亦以更為驚人的速度增長。這些數(shù)據(jù)的客觀存在,的確為大數(shù)據(jù)技術(shù)的運(yùn)用提供了現(xiàn)實(shí)性。但拋開與小額線上零售交易相關(guān)的那部分?jǐn)?shù)據(jù)不談,對于理解中國社會運(yùn)作的一些更為關(guān)鍵方面的真實(shí)數(shù)據(jù)——特別是經(jīng)濟(jì)運(yùn)行數(shù)據(jù)——的可獲取性卻沒有得到相應(yīng)的提升,外界對于中國經(jīng)濟(jì)運(yùn)作的評估往往還是基于推測。這也就是說,當(dāng)下的中國本身就是一個“數(shù)據(jù)爆炸”與“數(shù)據(jù)稀缺”的復(fù)合體,光看到前一面而忽略后一面乃是有失偏頗的。在這樣的情況下,中國的社會科學(xué)工作者就必須練就針對這雙面相的“組合拳功夫”,做到無論數(shù)據(jù)多寡,都能游刃有余,進(jìn)退有據(jù)。而要做到這一點(diǎn),關(guān)于“綠色智能”的理念規(guī)劃與相關(guān)的建模工作,或許能助上一臂之力。
[1][2][3][4] [英]邁爾-舍恩伯格、庫克耶:《大數(shù)據(jù)時代——生活、工作與思維的大變革》,周濤譯,杭州:浙江人民出版社,2013年,第51頁、第七章、第128-130頁、第51-55頁。
[5][6] GerdGigerenzer et al.,Simple Heuristics that Make Us Smart, Oxford: Oxford University Press, 1999,p.4,pp.43-44.
[7] S. A. Barrett,The Rat: A Study in Behavior, Chicago: Aldine, 1963.
責(zé)任編輯:羅 蘋
N39
A
1000-7326(2016)10-0028-08
*本文系國家社科基金重大項(xiàng)目“基于信息技術(shù)哲學(xué)的當(dāng)代認(rèn)識論研究”(15ZDB020)的階段性成果。
徐英瑾,復(fù)旦大學(xué)哲學(xué)學(xué)院教授(上海,200433);王培,美國天普大學(xué)計(jì)算機(jī)與信息科學(xué)系副教授。