梁玉成,賈小雙
(中山大學 社會學與人類學學院,廣東 廣州 510275)
?
數(shù)據(jù)驅動下的自主行動者建模
梁玉成,賈小雙
(中山大學 社會學與人類學學院,廣東 廣州 510275)
人類社會是復雜的,在其中人和人之間、人和組織之間、組織和組織之間、組織和社會之間以及國家和國家之間都在不斷互動,最終形成了全球尺度的人類社會。我們上面的描述可以提煉出兩個重要的描述人類社會的概念:多層次和動態(tài)過程。正是這兩個因素,造成了人類社會的演變是一個包含不確定性的非線性的過程。
這樣一個作為多層次動態(tài)復雜系統(tǒng)的人類社會,使得傳統(tǒng)的基于方程的建模(Equation-based modeling)研究手段日益顯得貧乏,計算社會科學作為新的研究手段逐漸崛起。計算社會科學有兩大發(fā)展脈絡,一個是基于自主行動者建模(Agent-based modeling)方向,一個是基于大數(shù)據(jù)的群體計算方向。本文就基于自主行動者建模方向的新發(fā)展作一些介紹。
基于自主行動者建模(Agent-based modeling),是一種通過自下而上(bottom up)的方式來研究復雜社會系統(tǒng)的方法。其方法的特點在于,通過在計算機中設定大量自主行動者,他們是具有認知、決策判斷和行動能力的個體。在研究中,研究者根據(jù)所要研究的現(xiàn)象,在模型中設置不同的行動者,并根據(jù)需要設定不同的角色,賦予其特定的認知能力、先賦的資源稟賦,以及判斷流程和行動模式。然后足夠數(shù)量的自主行動者被放置在一個人工建構的世界中,隨著時間的進程,各自不斷地重復“外部認知,策略判斷、展開行動”的過程,從而通過行動者之間,以及行動者和世界之間的不斷互動,進而涌現(xiàn)出宏觀社會現(xiàn)象。約翰霍普金斯大學的愛普斯坦是這樣定義ABM方法:“ABM是通過無中心的、局部的、異質性的自主行動個體,來研究社會規(guī)律如何出現(xiàn)?!盇BM是學者們這樣的一種研究方法:在一個研究者設計出的世界中,通過研究者設定的自主行動者們在一個給定的起點處,觀察他們在什么樣的規(guī)則的作用下,最后如何演化出宏觀的社會現(xiàn)象。
ABM模型通過微觀行動者的行動和互動來模擬宏觀社會現(xiàn)象涌現(xiàn)的機制,既可以將多層次的微觀與宏觀進行鏈接,也實現(xiàn)了對現(xiàn)象形成的動態(tài)過程進行觀察。從類型學角度而言,在連續(xù)統(tǒng)的一端是抽象的ABM概念模型,本身主要用于發(fā)現(xiàn)和分析基本社會過程中的理論規(guī)律,這類模型是理論的一部分,其目的是獲得對社會過程的可能的解釋模式;在連續(xù)統(tǒng)的另外一端則是對現(xiàn)實盡可能精確匹配的復制模型。其實對社會現(xiàn)象進行精確匹配既不現(xiàn)實,也無必要,社會現(xiàn)象本身就包含了大量隨機因素和幾乎無窮的關聯(lián)因素,窮盡這些對我們了解現(xiàn)象本身往往并無助益。社會科學研究的本質就是在社會事實實體(realism)和簡化(simplicity)之間尋求合適的妥協(xié)。
ABM發(fā)展的早期是從連續(xù)統(tǒng)的一端——概念模型開始的,研究者的ABM模型設置和檢驗往往都屬于抽樣概念模型。這類模型在參數(shù)設置時,學者們通常將模型參數(shù)(如行動者的性別、年齡、行動偏好等)的初始值隨機設置(由不同的隨機數(shù)種子而隨機進行的),在同樣的參數(shù)設置下,模型每次運行也都會出現(xiàn)差別化的結果。為了保證模擬結果的穩(wěn)定性,研究者通常會在同樣的初始參數(shù)設置下進行多次模擬,取其平均值作為模型的結果,用這種方法來檢驗模型參數(shù)之間的關系取得了不錯的成功。
但是,ABM研究中有一個非常重要的規(guī)律——模擬復雜系統(tǒng)的模型的初始設置,往往會影響甚至決定模型模擬的結果。復雜系統(tǒng)的初始條件決定行動者的空間分布,決定行動者所處的環(huán)境,甚至有時候決定著行動者的行為模式,因此復雜系統(tǒng)模型的初始化設置若不符合現(xiàn)實狀況,便很難模擬出真實的社會現(xiàn)象,因而學者批評它們脫離了社會現(xiàn)實[1]。于是,ABM向著另外一端逐漸發(fā)展,為了加強ABM與現(xiàn)實社會的聯(lián)系,一些研究者開始將實證數(shù)據(jù)引入ABM中,將實證數(shù)據(jù)與模擬結果的數(shù)據(jù)作對比,來檢驗模型結果的準確性,從而證明模型與現(xiàn)實世界的聯(lián)系。這種將實證數(shù)據(jù)嵌入ABM模型中的方法,已經成為社會模擬中的新范式:數(shù)據(jù)驅動的自主行動者建模(data-drivenagent-basedmodeling,簡稱DDABM)。
數(shù)據(jù)驅動的自主行動者模型是指將實證數(shù)據(jù)引入ABM中,用實證數(shù)據(jù)來進行模型的校準(modelcalibration)和模型的檢驗(modelvalidation),從而確保模型的穩(wěn)健性和準確性的一種社會模擬方法[2]。哈桑等人提出將實證數(shù)據(jù)引入ABM的5個步驟:(1)研究者需要從現(xiàn)實社會中收集實證數(shù)據(jù);(2)根據(jù)實證數(shù)據(jù)(如方程、一般化和類型化的社會事實、專家提供的定性數(shù)據(jù))、相關理論及研究者的研究假設來設計ABM模型;(3)根據(jù)社會調查、人口普查等實證數(shù)據(jù)來初始化模型;(4)運行模型,輸出結果;(5)對模型進行檢驗,將模型輸出的數(shù)據(jù)與實證數(shù)據(jù)進行比較,需要注意的是,為了保證模型檢驗和和模型設計相互獨立,我們在進行模型檢驗時應避免使用于模型設計和初始化過程中所使用的相同的數(shù)據(jù)[3]。
總體上,研究者在進行ABM模擬時,需要將實證數(shù)據(jù)、模型建構和模型檢驗三者之間的關系看作是一個連續(xù)的、循環(huán)的過程,因為我們不僅需要通過ABM得出準確的模擬結果,也需要對模型中所體現(xiàn)的社會現(xiàn)象產生的理論機制進行實證檢驗[2]。因此,在數(shù)據(jù)驅動的自主行動者模型中,研究者既要在宏觀層面上通過將模型產生的模擬數(shù)據(jù)與實證數(shù)據(jù)進行深入的分析和對比,來測量模型結果與現(xiàn)實的差距,從而檢驗模型的準確性。在微觀層面上也要根據(jù)實證數(shù)據(jù)來建構模型,將模型的構成要素具體化,并且對其取值進行恰當?shù)恼{整,即根據(jù)實證數(shù)據(jù)來選擇構成模型的參數(shù),并且確定這些參數(shù)的取值。
數(shù)據(jù)驅動的自主行動者模型的目的是為了模擬現(xiàn)實社會現(xiàn)象發(fā)生機制,要求研究者既要在微觀層面根據(jù)實證數(shù)據(jù)來選擇和確定模型的參數(shù),模擬出符合現(xiàn)實的行動者及其行動與互動的模式,也要在宏觀層面用實證數(shù)據(jù)對模型結果與現(xiàn)實社會的吻合性進行檢驗,從而確保模型結果的準確性。這就需要充足、恰當?shù)膶嵶C數(shù)據(jù)來保障ABM的準確性。那么,進行ABM建模和檢驗模型時,應該選擇什么樣的實證數(shù)據(jù),這些數(shù)據(jù)又如何獲得呢?
社會科學的調查方法可以用來收集實證數(shù)據(jù),研究者既可以采用實驗法來收集數(shù)據(jù),也可以采用實證法(如定性、定量調查)來收集實證數(shù)據(jù)。
首先我們介紹實驗法。假如研究者的ABM中,在決定自主行動者的規(guī)則時,需要研究在一定環(huán)境下的行動者的行為規(guī)則,以及行動者之間的互動規(guī)則,則可以采用實驗法來獲取數(shù)據(jù)。研究者可以設計實驗來創(chuàng)造出相同的環(huán)境,并觀察和記錄在這一真實環(huán)境下,被實驗對象的行為表現(xiàn)和行為對象之間的互動過程、互動模式等,最終幫助研究者獲得行動者的行為和互動的規(guī)則。
其次我們介紹實證法。傳統(tǒng)的社會科學研究,已經為社會科學的許多領域搜集了大量的定性和定量的實證數(shù)據(jù)。在ABM模型中任何可以被測量的變量都可以根據(jù)定量數(shù)據(jù)來設置,我們可以根據(jù)定量數(shù)據(jù)來設置模型中的參數(shù),例如行動者的數(shù)量、各類行動者的比例分布,組織的規(guī)模分布,環(huán)境特征以及行動者之間的互動結構、維度以及互動模式等。而ABM模型中那些不能被測量的變量,則往往使用定性數(shù)據(jù)來設定。
此外,由于ABM是研究微觀—宏觀的多層次上的社會現(xiàn)象的演變,因此不同層次的數(shù)據(jù)在ABM中也發(fā)揮著不同的作用。低層次的群體和個體的數(shù)據(jù),往往用于在對ABM模型中的自主行動者的行為規(guī)則制定、各類模型參數(shù)分布的設定和校對;高等次的整體動態(tài)數(shù)據(jù),則往往用于檢驗模型結果?!爱斘覀兡M的微觀現(xiàn)象可以真實地反映個體的社會行動和互動,并且通過模擬所得出的宏觀層面的社會現(xiàn)象能夠與實證數(shù)據(jù)的特征相吻合時,我們可以稱模型得到了交叉檢驗(cross-validation)”[2]。
近年來,一些研究者為數(shù)據(jù)驅動的自主行動者模型的發(fā)展作出了一些有益的嘗試,實證數(shù)據(jù)在ABM中的運用在不斷成熟和完善。早期實證數(shù)據(jù)在ABM中的運用僅僅局限于模型的某個方面,例如,著名的阿那薩吉文明模型(Anasazi civilization model)引入實證數(shù)據(jù)來提高模擬結果和歷史數(shù)據(jù)的吻合度,研究者根據(jù)實證數(shù)據(jù)來設置模型的外生性因素(環(huán)境變量),但是模型中的初始化條件仍然是隨機設置的[5]。
為了提高模型的準確性和模型與現(xiàn)實的吻合度,莫斯和埃德蒙茲提出要將實證數(shù)據(jù)嵌入到ABM的模型建構和檢驗中,在微觀和宏觀層面都要實現(xiàn)模型與現(xiàn)實進行交叉檢驗,他們對影響英國居民用水的社會因素進行模擬,建立了水需求模型(water demand models),并根據(jù)實證數(shù)據(jù)來設置模型的一系列參數(shù)(例如住宅地址、消費習慣和供水管理政策等)進行模擬實驗,并且將模擬的結果與實際用水情況進行對比檢驗,發(fā)現(xiàn)模型取得了很好的效果[6]。
彼得·赫斯特羅姆除了將實證數(shù)據(jù)嵌入ABM中以外,還在模型中引入回歸方程來建立了青年失業(yè)模型(Hedstr?m model),在模型中,通過引入調查數(shù)據(jù)和回歸方程來計算轉移概率,更好地實現(xiàn)了模擬與現(xiàn)實的擬合。
為了獲得更好的實證數(shù)據(jù)來創(chuàng)建和檢驗ABM模型,哈桑等人運用社會調查的方法來搜集相應的實證數(shù)據(jù),建立門塔特模型(Mentat model)。為了研究西班牙從1980年到2000年的社會價值觀的變遷,研究者對當?shù)?000個人進行調查,并用這一調查數(shù)據(jù)來建構ABM模型來研究人口因素、經濟、政治意識形態(tài)、宗教、家庭和友誼對社會價值觀的影響,以及社會價值觀的再生產過程。為了比較數(shù)據(jù)驅動的初始化模型設置和隨機分布的初始化模型設置的模型模擬社會現(xiàn)實差異,作者還將隨機的初始化設置的模型與基于實證數(shù)據(jù)設置初始化條件的模型進行對比,證明了隨機的初始化設置的模型會與現(xiàn)實產生較大的偏差[7-8]。
最近,辛格等人將實證數(shù)據(jù)引入ABM模型來進行將數(shù)據(jù)驅動的自主行動者模型與傳統(tǒng)的人口學研究結合起來,研究社會經濟因素對個體的組建家庭的決策的影響和個體的婚姻選擇對社會整體的婚姻選擇模式變遷的影響,從而實現(xiàn)社會科學所追求的微觀和宏觀的鏈接[9]。在模型中,研究者根據(jù)韓國1990年的人口普查數(shù)據(jù)來初始化模型中的個體行動者,根據(jù)這一數(shù)據(jù)來設置行動者的年齡、受教育程度、性別和初婚年齡等參數(shù),并且基于受教育程度與收入的函數(shù)來設置行動者的收入。通過模擬發(fā)現(xiàn),個體的社會經濟特征影響個體的婚姻選擇,從而塑造出整個社會的婚姻選擇模式;而社會環(huán)境的變化也會導致個體對婚姻選擇的決策發(fā)生變化,進而又導致社會中不同年齡層的婚姻選擇模式也會隨著時間的發(fā)展而產生變化。
在數(shù)據(jù)驅動的自主行動者模型中,是否有充足的實證數(shù)據(jù),是決定模型能否準確模擬社會現(xiàn)實的決定性因素,然而和大多數(shù)實證研究所面臨的問題相同,缺乏充足的、合適的實證數(shù)據(jù)成為數(shù)據(jù)驅動的自主行動者模型所面臨的一大挑戰(zhàn)。我們使用ABM模型,是為了研究多層次的、動態(tài)的復雜社會系統(tǒng),而這種復雜社會系統(tǒng),是通過無中心的、局部的、異質性的微觀個體的互動自下而上地涌現(xiàn)出的。因此,我們在使用ABM對復雜系統(tǒng)進行建模時,需要掌握微觀行動者的異質性特征以及行動者在不同環(huán)境下的行為規(guī)則和互動模式。而傳統(tǒng)的社會科學的數(shù)據(jù)收集方法中,定量測量法難以包含大量的微觀個體之間的網(wǎng)絡和互動的數(shù)據(jù);而定性測量法和實驗法只能觀測到在某種特殊的、單一的環(huán)境下的行動者的行動規(guī)則和互動模式。此外,無論是實證法還是實驗法所搜集的數(shù)據(jù)通常都是一次性的、“快照式”的、非連續(xù)的數(shù)據(jù)。因此,根據(jù)傳統(tǒng)的社會科學調查方法所收集的數(shù)據(jù)所建立的模型無法滿足研究者模擬復雜的環(huán)境下的動態(tài)社會過程的需求。數(shù)據(jù)的缺乏使ABM的發(fā)展面臨著瓶頸與挑戰(zhàn)。
值得慶幸和期待的是,我們正在迎來一個新時代——大數(shù)據(jù)時代。隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、和物聯(lián)網(wǎng)的發(fā)展,日常生活中的各個方面、各種形式、每時每刻的數(shù)據(jù)都被記錄下來,而隨著大數(shù)據(jù)研究的推進,獲取、處理和分析海量數(shù)據(jù)的技術也獲得了突飛猛進的發(fā)展。大數(shù)據(jù)時代的到來為ABM研究提供了新的機遇,研究者可以通過獲取大數(shù)據(jù)(Big Data),來解決ABM研究中數(shù)據(jù)缺乏的問題。至此,計算社會科學有兩大發(fā)展脈絡,基于自主行動者建模范式和基于大數(shù)據(jù)的計算范式在此又交匯,形成了大數(shù)據(jù)驅動下的ABM范式。
大數(shù)據(jù)為我們提供了每一時刻下環(huán)境和行動者的特征,以及行動者行動特征和互動的結果,根據(jù)這一連續(xù)的、動態(tài)的數(shù)據(jù),我們可以觀測到行動者在復雜環(huán)境中的行動規(guī)則和互動的模式,從而建構我們的ABM模型;此外我們可以根據(jù)某一時刻的行動者和環(huán)境的特征來設置和初始化模型的參數(shù),再用下一時刻的環(huán)境和行動者特征的數(shù)據(jù)來檢驗模擬結果,并據(jù)此不斷地調整模型的參數(shù)設置,通過這種方式,我們可以模擬出更加接近現(xiàn)實的復雜社會系統(tǒng)。
大數(shù)據(jù)驅動的ABM模擬這一計算社會科學新范式正在取得迅速的發(fā)展,為社會科學研究注入了新的活力,也帶來了新的前景與期待。一場即將改變整個社會科學研究范式的革命號角正在吹響,我們將義無反顧地投入其中。
[1]Prietula M J,Carley K M,Gasser L.Simulating organizations:computational models of institutions and groups[M].The MIT Press,1998,1(6).
[2]Boero R,Squazzoni F.Does Empirical Embeddedness Matter? Methodological Issues on Agent-Based Models for Analytical Social Science[J].Journal of Artificial Societies & Social Simulation,2005,8(4):6.
[3]Zhang H,Vorobeychik Y,Letchford J,et al.Data-driven agent-based modeling,with application to rooftop solar adoption[J].Autonomous Agents and Multi-Agent Systems,2015(1):1-27.
[4]Hassan S,Pavon J,Gilbert N.Injecting Data into Simulation:Can Agent-Based Modelling Learn from Microsimulation[J].World Congress on Social Simulation,2008.
[5]DEAN,J.S.,Gumerman,G.J.,Epstein,J.M.,Axtell,R.L.,Swedlund,A.C.,Parker,M.T.,& McCarroll,S.Understanding Anasazi culture change through agent-based modeling.In Kohler,T.A.& Gumerman,G.J.(eds) Dynamics in human and primate societies:Agent-based modeling of social and spatial processes[M].New York:Oxford University Press,2000:179-205.
[6]Moss S,Edmonds B.Sociology and Simulation:Statistical and Qualitative Cross‐Validation[J].American Journal of Sociology,2005,110(4):1095-1131.
[7]Hassan,S.,Antunes,L.,Arroyo,M.:Deepening the demographic mechanisms in a data-driven social simulation of moral values evolution.In:MABS 2008:Multi- Agent-Based Simulation.LNAI:Lecture Notes in Artificial Intelligence[M].Lisbon:Springer,2008.
[8]Hassan S,Antunes L,Pavón J.Mentat:A Data-Driven Agent-Based Simulation of Social Values Evolution.[C]// Multi-Agent-Based Simulation X,International Workshop,MABS 2009,Budapest,Hungary,May 11-12,2009 Revised Selected Papers.2009:1337-1338.
[9]Sajjad M,Singh K,Paik E,et al.A Data-Driven Approach for Agent-Based Modeling:Simulating the Dynamics of Family Formation[J].Journal of Artificial Societies & Social Simulation,2016,19(1).
2016-10-12
國家社科基金重大項目“大數(shù)據(jù)時代計算社會科學的產生、現(xiàn)狀與發(fā)展前景研究”(16ZDA086)的階段性成果。
梁玉成(1971-),男,廣西合浦人,中山大學社會學與社會工作系教授,博士生導師。研究方向:社會不平等、社會轉型、計算社會科學;賈小雙(1993-),女,湖北襄陽人,中山大學社會與社會工作系博士生。研究方向:計算社會科學。