• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      計算社會科學研究:范式轉(zhuǎn)換與倫理問題

      2020-10-09 10:57:05凌昀李倫
      江漢論壇 2020年9期
      關鍵詞:大數(shù)據(jù)

      凌昀 李倫

      摘要:大數(shù)據(jù)和數(shù)據(jù)化促成了社會科學研究范式的轉(zhuǎn)變,催生了計算社會科學。計算社會科學具有超越傳統(tǒng)社會科學研究局限性的優(yōu)勢,但也加劇了傳統(tǒng)社會科學研究面臨的倫理問題,同時在大數(shù)據(jù)背景下產(chǎn)生了新的倫理問題。為了確保大數(shù)據(jù)時代人的自由和權(quán)利,計算社會科學的研究應當更加重視社會科學研究倫理。

      關鍵詞:大數(shù)據(jù);計算社會科學;科研倫理;社會科學研究范式

      基金項目:國家社會科學基金重大項目“大數(shù)據(jù)環(huán)境下信息價值開發(fā)的倫理約束機制研究”(17ZDA023);國家社會科學基金一般項目“開源運動的開放共享倫理研究”(17BZX022)

      中圖分類號:B089.3 ? ?文獻標識碼:A ? ?文章編號:1003-854X(2020)09-0026-06

      一、計算社會科學:數(shù)據(jù)化驅(qū)動研究范式的轉(zhuǎn)變

      如果把沒有經(jīng)過分析、沒有產(chǎn)生意義或價值的現(xiàn)象或行為稱為處于“自然狀態(tài)”或是“混沌狀態(tài)”的現(xiàn)象或行為,那么,把這種處于自然狀態(tài)或混沌狀態(tài)的現(xiàn)象和行為轉(zhuǎn)化成可量化分析的數(shù)據(jù)并由此產(chǎn)生新價值的過程就可稱為“數(shù)據(jù)化”(datafication)。我們無時無刻不在發(fā)生自然狀態(tài)的行為,例如上下班的路徑、其間使用的交通工具、順路去什么地方采購等,但這些僅僅是沒有經(jīng)過數(shù)據(jù)化、處于“自然狀態(tài)”的行為,或者即便我們將這些交通信息有意識地進行一定的分析和規(guī)劃以提高自身的效率,這些信息也僅僅產(chǎn)生了小范圍的影響或是少量價值。得益于“數(shù)據(jù)化”,我們能夠清楚地認識到處于自然狀態(tài)的行為或現(xiàn)象通過量化分析能夠產(chǎn)生多大的價值,例如對一個城市人口上下班的路徑、所使用的交通工具進行分析就有利于對城市的道路交通進行規(guī)劃,而對人流量、周邊住宅區(qū)域等問題進行分析對于建造購物綜合體、農(nóng)貿(mào)綜合市場的選址而言都必不可少。由此可見,數(shù)據(jù)化能夠?qū)€人的日常生活和行為進行量化,直接與行政管理和經(jīng)濟運轉(zhuǎn)產(chǎn)生關聯(lián)。

      “數(shù)據(jù)化”是由肯尼斯·庫克耶(Kenneth Neil Cukier)和維克托·邁爾—舍恩伯格(Victor Mayer-Schenberger)于2013年提出的概念,特指將人類行為和社會現(xiàn)象轉(zhuǎn)化為計算機數(shù)據(jù)①。但是,數(shù)據(jù)化并不是近年來才出現(xiàn)的新趨勢,數(shù)據(jù)化的現(xiàn)象和思維方法早已有之,近代自然科學就是數(shù)據(jù)化的先驅(qū),即將自然現(xiàn)象或是經(jīng)驗現(xiàn)象還原為可量化分析的數(shù)據(jù),再利用對數(shù)據(jù)的歸納分析得出自然的規(guī)律和一般理論。而將數(shù)據(jù)化從單純的自然科學研究擴展到更廣泛的社會問題研究同樣也不是現(xiàn)在才產(chǎn)生的,早在19世紀,一些哲學及社會學學者就試圖利用實驗科學的方法進行社會問題研究??椎略岢觥吧鐣锢韺W”的概念,認為人是自然界的一部分,人類社會秩序是自然秩序的延伸,可以用物理學方法來研究人類社會。雖然,囿于當時的技術(shù)條件,將實驗科學方法引入社會研究容易陷入機械論社會觀的困境,但這無疑是將數(shù)據(jù)化引入社會研究的先驅(qū),是計算社會科學誕生的直接思想源泉。

      隨著計算機技術(shù)和大數(shù)據(jù)技術(shù)的不斷發(fā)展,現(xiàn)在的數(shù)據(jù)化能夠更加深度、全面、準確地還原人類行為和社會生活的軌跡,從而不僅為社會科學研究的數(shù)據(jù)化帶來了新的生機,也能從研究方法和技術(shù)的角度回避機械論的困境。正如庫克耶與舍恩伯格所說,(人類行為和社會現(xiàn)象的)數(shù)據(jù)化是新技術(shù)的發(fā)展促成的一種新趨勢②。大數(shù)據(jù)技術(shù)和計算機技術(shù)為社會數(shù)據(jù)化提供了新的工具,使得計算社會科學應運而生。這個計算機科學與社會科學的新興的交叉學科,通過新的計算技術(shù)和方法來進行社會模擬、建模、網(wǎng)絡分析和媒體分析等,以研究社會和人類行為的關系和互動,其研究領域涵蓋計算經(jīng)濟學、計算社會學、歷史動力學、文化學以及對社交和傳統(tǒng)媒體中內(nèi)容的自動分析等等。

      “社會物理學”一詞目前仍在沿用,但其含義比最初提出時已有了很大的變化,指的是利用受物理所啟發(fā)的數(shù)學工具來理解人類群體的行為③,在現(xiàn)代商業(yè)行為中,也指用大數(shù)據(jù)分析社會現(xiàn)象。因此,“社會物理學”與“計算社會科學”在當下的時代和技術(shù)背景下涵義基本等同。阿萊克斯·彭特蘭對于社會物理學的研究就明顯帶有新技術(shù)的特征,他引入“想法流”(idea flow)的概念,認為社會物理學就是研究“想法流”的科學。在他看來,傳統(tǒng)的物理學旨在了解能量的流動與運動之間的數(shù)學關系,而社會物理學旨在了解想法和信息的流動與人類行為之間的數(shù)學關系④。新想法的流動對于理解社會至關重要,新想法的傳播和結(jié)合是行為轉(zhuǎn)變和創(chuàng)新的推動力,而想法如何實現(xiàn)流動、傳播和結(jié)合,都離不開數(shù)據(jù)化。

      對比19世紀的社會物理學,計算社會科學所采用的大數(shù)據(jù)技術(shù)彌補了前者的理論缺陷;與傳統(tǒng)社會科學相比,計算社會科學的不同之處則在于數(shù)據(jù)化驅(qū)動了研究范式的變革。大數(shù)據(jù)“正在引導一場計量方面的革命”⑤,對社會科學的研究范式,尤其定量研究中的種種研究方法和手段,都產(chǎn)生了巨大影響。

      從研究方法來看,計算社會科學對傳統(tǒng)的調(diào)查分析、相關性分析、實驗等方式都有不同程度的改進。在調(diào)查方面,計算社會科學不再局限于問卷或訪談等方式,而是通過大數(shù)據(jù)和算法來對龐大的數(shù)據(jù)進行處理和分析。大數(shù)據(jù)打破了空間的限制,使取樣更為便捷和全面。更重要的是,計算社會科學擁有規(guī)避傳統(tǒng)問卷調(diào)查一直面臨的結(jié)果客觀性偏差的技術(shù)手段——直接利用人類日常生活中相應行為的大數(shù)據(jù),顯然比本人填寫的問卷更加客觀。在實驗方面,傳統(tǒng)的實驗方法包括實驗室實驗和實地實驗,兩者有其不同的優(yōu)劣勢。實驗室實驗在變量的控制上更具優(yōu)勢,使相關性分析更為準確,但是選取的實驗參與者可能并不那么具有代表性;實地實驗更能反映真實情況,卻不如實驗室那樣能準確把握變量。為此,有些研究者會在研究中將兩者相結(jié)合,采取所謂的處于“實驗室—實地”連續(xù)體上的實驗。數(shù)據(jù)化則為這個二元的連續(xù)體添加了新的維度。馬修·薩爾加尼克(Matthew J. Salganik)在傳統(tǒng)的二元劃分的基礎上提出一種“模擬—數(shù)字”的實驗模式。數(shù)字實驗指的是利用數(shù)字基礎設施招募參與者、隨機分組、實施處理并測量結(jié)果的實驗,而模擬實驗則是在以上研究流程中完全不涉及數(shù)字基礎設施的實驗,許多實驗可能并不處于這兩極,而是處于其間的所謂“半數(shù)字”實驗。“數(shù)字系統(tǒng)為實驗—實地連續(xù)體上的所有實驗都帶來了新的可能性”⑥,傳統(tǒng)的“實驗室—實地”二元就變成了“(半)數(shù)字實驗室—(半)數(shù)字實地”實驗。

      從研究對象來看,數(shù)據(jù)爆炸式增長極大地豐富了社會科學的研究樣本,而機器學習、統(tǒng)計、社會網(wǎng)絡分析和自然語言處理技術(shù)的不斷升級,又強化了這一趨勢⑦。同時,由于數(shù)據(jù)更加完整和準確,交互模型更加完善,新的交互關系也更容易被發(fā)現(xiàn),催生了更多新興交叉學科和領域,從而大大拓展了社會科學的研究對象。

      然而,計算社會科學蓬勃發(fā)展的形勢也不免引起一系列擔憂。數(shù)據(jù)化往往會放大傳統(tǒng)社會科學研究中所面臨的倫理問題,或者使原本被極其關注的倫理問題不再受到重視,甚至完全被忽略。此外,數(shù)據(jù)化還催生了一些傳統(tǒng)社會科學研究中不涉及或少有涉及的新倫理問題。下面我們將探討三個在計算社會科學研究中可能或已出現(xiàn)的倫理問題,并透過這些顯見的倫理風險探討普遍數(shù)據(jù)化可能遭遇的更為嚴重的境況。

      二、個人數(shù)據(jù)權(quán)利問題

      計算社會科學研究不僅會采用源于特定研究的數(shù)據(jù),而且會采用源于其他機構(gòu)日常管理和營運的數(shù)據(jù)⑧,而數(shù)據(jù)來源的混合則容易產(chǎn)生侵犯個人數(shù)據(jù)權(quán)利等問題。

      個人數(shù)據(jù)權(quán)利是人的基本權(quán)利在數(shù)據(jù)領域內(nèi)的具體化。主張這一權(quán)利,使人能夠控制自身數(shù)據(jù),保障自由權(quán)、人格權(quán)和財產(chǎn)權(quán)等基本權(quán)利在數(shù)據(jù)領域內(nèi)不受到侵犯。與之相對的,還存在機構(gòu)數(shù)據(jù)權(quán),即機構(gòu)對于數(shù)據(jù)的采集和使用的權(quán)利。在計算社會科學的研究中,存在著個人數(shù)據(jù)權(quán)和科研機構(gòu)數(shù)據(jù)權(quán)相對立的情況,其爭端暴露了目前數(shù)據(jù)權(quán)屬不分明的現(xiàn)狀。傳統(tǒng)社會科學研究中的數(shù)據(jù)采集目的相對單一,即科研,而計算社會科學研究中所使用的數(shù)據(jù)則不限于科研數(shù)據(jù),還包括來自政府、金融機構(gòu)、商業(yè)機構(gòu)等用于管理和營運等采集目的的數(shù)據(jù)。這就產(chǎn)生了這樣一種情況:也許我們愿意授權(quán)給政府、金融或商業(yè)等機構(gòu)用于管理和營運目的使用我們的數(shù)據(jù),從而獲得這些機構(gòu)的服務或商品,但并不希望自己的數(shù)據(jù)被用于社會科學研究。

      當然,把管理和日常運行的數(shù)據(jù)用于研究目的并不是新現(xiàn)象,在臨床醫(yī)學領域早已有之。醫(yī)學研究者會利用臨床醫(yī)療數(shù)據(jù)進行醫(yī)學科學研究,對新藥、新技術(shù)使用進行后續(xù)跟蹤分析等。傳統(tǒng)社會科學研究也有利用已有的政府管理和企業(yè)營運數(shù)據(jù)進行研究的情況。但是,計算社會科學把其中的倫理問題放大了。一方面,社會數(shù)據(jù)可以涵蓋更廣泛的數(shù)據(jù)類型和使用領域;另一方面,醫(yī)學研究也可能比社會科學研究更容易得到數(shù)據(jù)提供者的同意或默許同意。此外,數(shù)據(jù)的第三方授權(quán)使用,數(shù)據(jù)的外包處理,甚至是跨境流通等情況,使個人數(shù)據(jù)權(quán)利所面臨的風險更為復雜多變,而個人數(shù)據(jù)權(quán)利的保障也更加困難。

      一般來說,個人在機構(gòu)面前都處于弱勢,信息安全、數(shù)據(jù)泄露等會直接造成對個人基本權(quán)利的侵害。這種侵害可能是名譽性的,也可能會直接影響財產(chǎn)權(quán)和人的身心健康。盡管計算社會科學的研究者們都聲稱研究所用數(shù)據(jù)經(jīng)過了“匿名化”或者說是“脫敏”處理,但是這種“脫敏”效果可能并不盡如人意。由于人的信息被數(shù)個機構(gòu)進行過收集,同一個人的相同或不同的數(shù)據(jù)可能同時存在于數(shù)個數(shù)據(jù)庫中,即使各個數(shù)據(jù)庫都沒有顯示敏感信息,但是將數(shù)據(jù)庫進行關聯(lián)分析就能夠暴露出敏感信息,這就是所謂的“再識別攻擊”。任何數(shù)據(jù)都有可能被再識別,并且所有的數(shù)據(jù)都可能是敏感的⑨。

      這個問題看似陷入僵局,似乎只要存在數(shù)據(jù)的共享、傳輸,即使這種共享、傳輸是合規(guī)的,也同樣無法避免個人數(shù)據(jù)權(quán)利受到侵害。實際上,我們在面對這種倫理風險時并非完全無能為力,創(chuàng)建并遵循一個動態(tài)的數(shù)據(jù)保護計劃,不僅能夠降低泄露數(shù)據(jù)的概率,而且能夠在數(shù)據(jù)泄露發(fā)生后降低傷害。隨著時間的推移,數(shù)據(jù)保護計劃的具體項目,包括能夠使用的加密形式都在改進⑩。從另一個角度來說,如果對個人數(shù)據(jù)權(quán)利的絕對保護只能基于數(shù)據(jù)完全保密的話,人們自然會去權(quán)衡數(shù)據(jù)化下的研究帶來的利益和侵害。雖然我們會對風險有所擔憂,但大多數(shù)人不一定就此將自己與數(shù)據(jù)世界或這個信息時代完全隔離起來。

      馬修·薩爾加尼克從收益—風險二元維度分析了數(shù)據(jù)使用和個人數(shù)據(jù)權(quán)利的保護。在一個收益—風險體系中包括三種數(shù)據(jù)使用或數(shù)據(jù)保護的方式:非公開、保護性公開、無特定對象公開。非公開是一種極端的數(shù)據(jù)保護措施,完全不公開個人數(shù)據(jù)供他人使用,風險最小且收益最小;無特定對象公開是一種極端的數(shù)據(jù)共享使用措施,所有人都可以使用經(jīng)過“脫敏”處理的數(shù)據(jù)(無論脫敏是否達到想要的保護效果),收益最大且風險最大;介于兩者之間的就是保護性公開,也就是基于某種共識在達成共識的群體中進行數(shù)據(jù)的共享使用,這就是所謂的數(shù)據(jù)保護計劃。雖然這種保護性公開仍然會遇到不少問題,或者說在不同的案例中會存在不同的問題,但這種根據(jù)不同的情境做出適應性調(diào)整的、動態(tài)的、協(xié)商的模式可能是應對目前個人數(shù)據(jù)權(quán)利和科研機構(gòu)數(shù)據(jù)權(quán)利對峙局面的良策。社會科學的研究是為了在不同的情境下促進公共利益以及個人利益,如果我們完全禁錮個人數(shù)據(jù),將對社會科學的發(fā)展乃至個體和社會的發(fā)展都造成阻礙。保護性公開措施為在數(shù)據(jù)共享中平衡個人數(shù)據(jù)權(quán)利和機構(gòu)數(shù)據(jù)權(quán)利、個人權(quán)利和公共利益提出了一種可供選擇的方案。

      三、知情同意和隱私權(quán)問題

      隱私權(quán)問題是大數(shù)據(jù)時代全社會各領域都在關注的倫理問題,主要表現(xiàn)在數(shù)據(jù)的使用和個人信息保護的爭端上。把隱私權(quán)問題放入計算社會科學研究的情境下,還會涉及對知情同意的挑戰(zhàn)。

      如前所述,計算社會科學能夠繞開傳統(tǒng)的問卷調(diào)查,而將被研究者的相關行為數(shù)據(jù)化,直接獲得研究所需的數(shù)據(jù)。傳統(tǒng)社會科學中基于知情同意的研究倫理在計算社會科學中正遭受嚴重挑戰(zhàn),計算社會科學中更為準確而全面的數(shù)據(jù)可能正是以知情同意的缺失或隱私權(quán)的喪失作為代價而獲得的。

      當然,傳統(tǒng)的社會科學研究也并不會在任何實驗中都去征求所有相關方的知情同意,比如大多數(shù)研究就業(yè)歧視的案例中,會基于性別、種族等因素選取相應的被研究者,然后征求這些人的知情同意,但是少有研究會去征求雇主在這個實驗過程中的知情同意,甚至美國法院也支持在實地調(diào)查中缺乏同意和使用欺騙來衡量歧視的行為。如果我們在類似的對歧視問題的研究中以一種征得雇主同意的方式進行實驗設計和研究,那么被研究者反而會基于立場而做出偏頗的回答。同樣,某些針對敏感問題或某些揭露性的暗訪、臥底調(diào)查也不會征求知情同意。勞德·漢弗萊斯(Laud Humphreys)曾對圣路易斯城市公園公廁等公共場所里男性間普遍發(fā)生的、以即時滿足和不用負責為特點的性行為進行社會學研究。這項研究完全沒有經(jīng)過知情同意,就是為了避免這些在社會主流空間中頗具名望的人在面對如此敏感和私密的問題時,自我和社會自我的割裂而導致的言行不一。也就是說,知情同意原則與社會科學的一些研究方法確實存在內(nèi)在沖突。

      而現(xiàn)在的情況可能更加糟糕,在計算社會科學研究中,完全不征求實驗對象同意的情況可能會越來越多,即使是不需要暗訪或是臥底調(diào)查的問題,知情同意也常常完全起不到作用。例如,我們可以時常見到一些大型的互聯(lián)網(wǎng)公司下設的研究機構(gòu)做出的各類報告,其中使用的數(shù)據(jù)涉及其不同領域的下屬平臺,包括社交、購物、閱讀、金融服務等等。這些數(shù)據(jù)的使用僅僅是因為用戶選擇使用了這個平臺,但用戶用數(shù)據(jù)換取方便使用這個平臺的機會,并不表明同意將自己的數(shù)據(jù)用于研究。再如,用戶的數(shù)據(jù)常常在完全不知情的情況下被第一手采集者授權(quán)給第三方進行使用。除了知情同意被過于忽視,數(shù)據(jù)權(quán)屬不明的現(xiàn)狀也給知情同意帶來了額外的障礙——知情同意中涉及了過多的相關方,而對象卻不明確。

      在隱私權(quán)保護方面,傳統(tǒng)的社會科學研究就已經(jīng)存在隱私權(quán)與研究結(jié)果準確性的內(nèi)在矛盾,在計算社會科學研究中,隱私權(quán)的保護則變得越來越困難。一方面隱私權(quán)的定義向來模糊且具有爭議,另一方面,以往的對于公共數(shù)據(jù)和私人數(shù)據(jù)的劃分對目前的隱私權(quán)保護來說顯然過于簡單了,許多問題并不能簡單地認為是公共數(shù)據(jù)和私人數(shù)據(jù)的沖突帶來的,而是涉及了更加復雜的公共利益與各方利益的權(quán)衡。尼森鮑姆提出的“情境完整性”的分析方法給隱私權(quán)問題的討論提供了一種新的視角。

      情境完整性針對的是特定情形下的信息流通規(guī)范,由三個要素構(gòu)成:角色(主體、發(fā)送者、接受者)、屬性(數(shù)據(jù)類型)和傳輸原則(數(shù)據(jù)流通限制)。在討論某種數(shù)據(jù)傳播和應用是否侵犯了隱私權(quán)時,需從這三方面進行考慮,而不是簡單地認為數(shù)據(jù)應當完全共享或者共享即侵權(quán)。尼森鮑姆認為,隱私權(quán)既不是保密權(quán),也不是控制權(quán),而是適當流通個人信息的權(quán)利。盡管隱私權(quán)的界定還具有爭議,隨著時代和社會的變化,其在信息社會應該會有不同于工業(yè)社會的內(nèi)涵。但是,如何在以一定程度的欺騙、隱瞞獲得更為客觀的研究結(jié)果與保障隱私權(quán)、知情同意之間取得平衡,始終是需要解決的問題。

      四、算法偏倚問題

      首先需要明確的是,社會科學研究中的偏倚現(xiàn)象是一直都存在的,即使在沒有充分數(shù)據(jù)化的過去,當受訪者了解了問卷或訪談所針對的問題以及研究的動機,他們也有可能基于本人的立場而做出刻意夸大或者忽視的回答,從而導致整個研究的結(jié)論被放大或是小覷。計算社會科學顯然有彌補這一缺陷的優(yōu)勢,不過,來自技術(shù)層面的新的偏倚近年來已初露端倪,尤其在網(wǎng)絡購物平臺的數(shù)據(jù)分析應用上。這種來自算法的偏倚不僅會對計算社會科學的研究結(jié)果帶來負面影響,更嚴重的是,一個有數(shù)據(jù)支撐的、似乎是客觀準確的結(jié)論更容易成為政治、經(jīng)濟等領域公共政策制訂的基礎,而基于算法偏倚的公共政策將對社會產(chǎn)生不可估量的負面影響?!八袥Q策活動對經(jīng)驗與直覺的依賴將逐漸減少,而對數(shù)據(jù)與分析的倚重將與日俱增?!?這種對于數(shù)據(jù)能夠帶來客觀結(jié)論從而更好地指導我們進行決策的推崇,讓算法偏倚導致的后果更加容易被忽視。此外,傳統(tǒng)的社會科學研究中存在的偏倚往往通過對變量、取樣進行控制而容易得到校正,但是,算法黑箱讓計算社會科學中的取樣和因果關系變得不再那么透明,從而導致研究結(jié)果存在的偏倚難以得到校正。

      計算社會科學是如何產(chǎn)生并延續(xù)整個社會的固有偏倚或偏見的?這是機器學習必然導致的結(jié)果。機器學習是對過去的、已經(jīng)發(fā)生的數(shù)據(jù)的學習,如果過去的數(shù)據(jù)是因為某種偏倚或偏見而形成的,那么以此為基礎的機器學習就是在延續(xù)這種已經(jīng)存在的偏倚或偏見。如果計算社會科學僅僅是對這些由偏倚或偏見產(chǎn)生的數(shù)據(jù)進行分析并得出結(jié)論,那么由這樣的結(jié)論指導的實踐就會進一步將偏倚或偏見變得根深蒂固且難以應對。故而,比起自然科學或技術(shù)領域,機器學習在社會科學研究中的應用應當尤為謹慎。漢娜·瓦拉赫(Hanna Wallach)就從目標、模型以及數(shù)據(jù)三個方面,闡述了為什么機器學習在社會科學研究中尤為特殊。

      從目標角度來看,計算機科學家和社會科學家有其完全不同的目標。計算機科學家注重預測,也就是用已經(jīng)觀察到的數(shù)據(jù)來推測丟失的或尚未觀察到的數(shù)據(jù);而社會科學家的目標是解釋,也就是為觀察到的數(shù)據(jù)做出解釋,再把這種解釋與已有理論進行比較或提出新理論,所以社會科學家的研究往往建立在一個清晰的可實驗的假設之上。從模型角度來看,計算機科學家和社會科學家的不同目標會導致不同的建模方式?;陬A測目標的任務更注重預測的準確性而忽略因果性,因而模型結(jié)構(gòu)可不受限制,一個需要大量數(shù)據(jù)進行訓練的算法黑箱也是合理的;與之相對的解釋目標則與因果關系密切相關,觀察到的數(shù)據(jù)是對因果關系的佐證或是反對,因此模型必須是透明、可解釋的。也就是說,預測模型通常被用來代替人的解釋或推理過程,而解釋模型是為人的推理提供信息或指導。從數(shù)據(jù)角度而言,同樣基于目標不同,計算機科學家和社會科學家會選取不同類型的數(shù)據(jù),計算機科學家會選取海量的、任何類型的數(shù)據(jù)用作任意預測目的,而社會科學家則基于具體問題來收集相對小規(guī)模的數(shù)據(jù)。

      由此可見,基于不同的目標及其衍生出的完全相反的建模方式,計算社會科學這一交叉學科可能比其他學科與計算機科學的交叉面臨更多爭議,這些爭議主要來自于倫理方面。也許這些倫理問題對于社會科學家而言并不陌生,或者說,倫理考量是社會科學研究工作中必不可少的環(huán)節(jié),但是對于計算機科學家來說,這可能是容易忽略的問題,是他們曾經(jīng)的工作中不必然會涉及到的。因此像計算社會科學這樣的跨學科研究在使用計算機方法的時候,必須謹慎考量倫理道德風險。

      總而言之,一方面,就像帕梅拉·麥考達克(Pamela McCorduck)所指出的,對于女性和少數(shù)群體而言,“我更傾向于一臺公正的電腦”。她認為,在某些環(huán)境中,我們會更加傾向于自動法官和警察,而不需要人為的裁決。算法和機器學習對于社會科學研究消除偏倚或偏見是必要且有其優(yōu)越性的,它把人的主觀偏見從決策過程中剝離了出來。另一方面,就像漢娜·瓦拉赫所說的,計算社會科學不是計算機科學和社會數(shù)據(jù)的簡單疊加,機器學習對于計算社會科學而言并不是一勞永逸的方法,如果我們想要以一種負責任且合乎倫理的方式利用機器學習來理解社會現(xiàn)象,我們?nèi)匀恍枰祟惿鐣茖W學者的工作。

      五、數(shù)據(jù)巨機器問題

      在評價19世紀的社會物理學時,許多人認為,當時的社會物理學學者把社會視為一部機器,人的主觀能動性和人與社會的交互被忽視,社會的變遷僅僅是“外力”的結(jié)果,故而造成了當時社會物理學理論的缺陷。隨著相關技術(shù)和學科水平的提高,數(shù)據(jù)化越來越能夠展示出人與人之間的差異性以及人與社會的相互影響,但是在這種理論缺陷得到彌補的同時,一種“數(shù)據(jù)巨機器”的可能性又展現(xiàn)在了我們眼前。

      如前所述,機器學習可能會延續(xù)已有的偏倚或偏見,而當這種帶有偏倚或偏見的理論被用于實踐和決策時,就有可能固化偏見,并使其變得更難以動搖。由此可以發(fā)現(xiàn),在計算社會科學中,雖然人與社會的交互作用能夠被發(fā)現(xiàn),但是研究本身作為一種實踐活動,其與社會的交互卻可能被忽視。這種由研究與社會的交互帶來的互相影響、互相支撐從而將謬誤忽視掉或合理化的現(xiàn)象,就是所謂的“操演性”(performativity)干擾。

      所謂“操演性(或述行性)”,是指當一個理論以使世界和理論更加符合為目的地改變著世界的時候,我們就說這個理論具有操演性。也就是說,計算社會科學研究不僅僅在解釋社會現(xiàn)象,同時也在改造社會使其發(fā)展與研究本身相符合。這種“操演性”在計算社會科學中的影響會比在傳統(tǒng)社會科學中的影響更大且難以發(fā)覺。例如亞馬遜AI招聘。亞馬遜的電腦模型通過對過去10年提交給該公司的簡歷進行學習,由此得出男性求職者適合電子商務行業(yè)的結(jié)論,以此來審查應聘者,并向男性推送更多的此類應聘廣告。這種通過機器學習得出的“男性比女性更適合電子商務行業(yè)”的結(jié)論就可能會通過招聘這一實踐行為的結(jié)果而得到固化,使這個行業(yè)真的成為男性主宰的行業(yè)。

      同理,計算社會科學的發(fā)展對于“數(shù)據(jù)巨機器”的形成也可能會有這種操演性影響。正如前文所說,與傳統(tǒng)社會科學基于知情同意并以科研為目的來收集數(shù)據(jù)的研究方式不同,計算社會科學可以直接利用政府或是其他商業(yè)機構(gòu)用于日常管理以及提供服務的現(xiàn)成數(shù)據(jù)來進行研究,那么整個世界都將可能成為一個泛化的實驗室,樣本和總體再無差別,甚至傳統(tǒng)的“實驗室—實地”二分的實驗模式在社會科學領域都可能會被消解,關于人和社會的所有數(shù)據(jù)都可以成為計算社會科學的現(xiàn)成樣本,從而形成一個基于社會科學研究的“數(shù)據(jù)巨機器”。

      此外,計算社會科學通過將問題進行“理論構(gòu)念”使之能夠進行定量分析,再將其與某些被數(shù)據(jù)化的行為或是現(xiàn)象聯(lián)系起來,從而使這些經(jīng)過數(shù)據(jù)化的數(shù)據(jù)能夠作為被研究的社會問題的證據(jù)。例如,信用值就是將信用這一抽象要素通過構(gòu)念變?yōu)橐幌盗心軌虮涣炕闹笜耍热缡欠癜磿r償還貸款、是否有違法犯罪記錄、租賃是否合規(guī)等,然后依此將信用通過數(shù)據(jù)表現(xiàn)出來。這就導致了這樣的情況,如果我們?nèi)狈﹃P于被理論構(gòu)念的指標的數(shù)據(jù),就可能難以構(gòu)建起我們的數(shù)字身份,從而被計算社會科學研究邊緣化,也無法獲得后續(xù)的應用或服務。反之,如果想要在社會問題研究中占有一席之地,就必須將自己以某種方式數(shù)據(jù)化。也就是說,計算社會科學的發(fā)展要求全面的數(shù)據(jù)化以及數(shù)據(jù)的自由流通,而這就是數(shù)據(jù)主義的追求。

      數(shù)據(jù)化從本體論和認識論的角度全面影響人們對世界的認識和把握,催生了數(shù)據(jù)主義的思潮。數(shù)據(jù)主義最初只是對大數(shù)據(jù)、數(shù)據(jù)化的哲學表達,是大數(shù)據(jù)時代所產(chǎn)生的一種哲學或是理念,但是隨著數(shù)據(jù)化對人的日常生活決策和社會運行的影響不斷加深,其正在轉(zhuǎn)變?yōu)橐环N崇尚數(shù)據(jù)自由至上的思潮。正如赫拉利所說,“數(shù)據(jù)主義一開始也是一個中立的科學理論,但正逐漸成為要判別是非的宗教”。

      一方面,在社會科學研究中,有著數(shù)據(jù)支撐的、客觀準確的結(jié)論受到推崇,于是為了獲得這樣的結(jié)論,或者為了促進學科發(fā)展和公共利益,個人的權(quán)利和自由似乎就變得無足輕重了。另一方面,受自身操演性影響,計算社會科學可能會以一種數(shù)據(jù)主義的方式改造世界,直接加速數(shù)據(jù)巨機器的形成,導致人成為只是可以被任意使用、流通的數(shù)據(jù)。也就是說,在數(shù)據(jù)化影響計算社會科學研究的同時,計算社會科學的研究方法、研究成果的應用反過來鞏固了數(shù)據(jù)主義的地位,并可能生成數(shù)據(jù)巨機器。數(shù)據(jù)巨機器猶如“楚門的世界”:在楚門的世界,除了楚門,人人都是演員;在數(shù)據(jù)巨機器里,人人都是楚門,人人都是演員,無人是自己。目前,大數(shù)據(jù)能夠影響人的自主選擇已成現(xiàn)實,例如各平臺的大數(shù)據(jù)殺熟,劍橋分析公司對多國競選的操縱,亞馬遜AI招聘中的性別、種族歧視,等等。為了避免數(shù)據(jù)對人的自主行為的進一步操控從而形成數(shù)據(jù)巨機器,避免人被數(shù)據(jù)技術(shù)所控制而成為技術(shù)所奴役的對象,淪為這個數(shù)據(jù)巨機器中的螺絲釘,計算社會科學研究應當重視自身可能涉及的倫理問題和倫理風險,重視人在數(shù)據(jù)領域的權(quán)利和自由。作為解釋人類社會的學科,計算社會科學應當從一開始就自覺地擔負起這一責任。

      注釋:

      ① Kenneth Cukier and Viktor Mayer-Schoenberger, The Rise of Big Data, Foreign Affairs, 2013, 92(3), pp.28-40.

      ② 維克托·邁爾—舍恩伯格、肯尼斯·庫克耶:《大數(shù)據(jù)時代:生活、工作與思維的大變革》,盛楊燕、周濤譯,浙江人民出版社2013年版,第123—124頁。

      ③ Gerard George, Martine R. Haas, Alex Pentland, From the Editors Big Data and Management, Academy of Management Journal, 2014, 57(2), pp.321-326.

      ④ 阿萊克斯·彭特蘭:《智慧社會:大數(shù)據(jù)與社會物理學》,汪小帆等譯,浙江人民出版社2015年版,第8頁。

      ⑤ 史蒂夫·洛爾:《大數(shù)據(jù)主義》,胡小銳、朱勝超譯,中信出版社集團2015年版,第6、9頁。

      ⑥⑨⑩ 馬修·薩爾加尼克:《計算社會學》,趙紅梅、趙婷譯,中信出版集團2019年版,第212、426、427、414、45頁。

      ⑦ W. Mason, J. Vaughan, H. Wallach, Computational Social Science and Social Computing, Machine Learning, 2014, 95(3), pp.257-260.

      ⑧ 盡管傳統(tǒng)的社會科學研究也可能采用其他機構(gòu)產(chǎn)生的日常數(shù)據(jù),但無論范圍和規(guī)模,都與計算社會科學研究不可同日而語。

      這個案例已成為臭名昭著的社會科學研究倫理案例。

      Helen Nissenbaum, Privacy in Context: Technology, Policy, and the Integrity of Social Life, Stanford Law Book, 2010, pp.67-89.

      H. Wallach, Computational Social Science≠Computer Science+Social Data, Communications of the ACM, 2018, 61(3), pp.42-44.

      Pamela McCorduck, Cli Cfe, Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence, A. K. Peters/CRC Press, 2004, p.356, pp.374-376.

      李倫:《數(shù)據(jù)巨機器的“意識形態(tài)”——數(shù)據(jù)主義與基于權(quán)利的數(shù)據(jù)倫理》,《探索與爭鳴》2018年第5期。

      尤瓦爾·赫拉利:《未來簡史》,林俊宏譯,中信出版集團2017年版,第346頁。

      作者簡介:凌昀,大連理工大學大數(shù)據(jù)與人工智能倫理法律與社會研究中心、人文與社會科學學部博士研究生,遼寧大連,116023;李倫,大連理工大學大數(shù)據(jù)與人工智能倫理法律與社會研究中心、人文與社會科學學部教授,遼寧大連,116023。

      (責任編輯 ?胡 ?靜)

      猜你喜歡
      大數(shù)據(jù)
      基于在線教育的大數(shù)據(jù)研究
      中國市場(2016年36期)2016-10-19 04:41:16
      “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
      中國市場(2016年36期)2016-10-19 03:31:48
      基于大數(shù)據(jù)的小微電商授信評估研究
      中國市場(2016年35期)2016-10-19 01:30:59
      大數(shù)據(jù)時代新聞的新變化探究
      商(2016年27期)2016-10-17 06:26:00
      淺談大數(shù)據(jù)在出版業(yè)的應用
      今傳媒(2016年9期)2016-10-15 23:35:12
      “互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
      今傳媒(2016年9期)2016-10-15 22:09:11
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務能力的探索
      中國記者(2016年6期)2016-08-26 12:36:20
      遵义县| 瑞安市| 从江县| 莲花县| 康平县| 从江县| 汽车| 藁城市| 康保县| 武山县| 阳谷县| 乳源| 大同市| 林周县| 合山市| 武城县| 宁津县| 贵溪市| 水富县| 儋州市| 昌吉市| 晋江市| 临高县| 右玉县| 寿光市| 广宁县| 武定县| 临漳县| 广东省| 大名县| 河间市| 乡城县| 昌都县| 蒲城县| 安远县| 章丘市| 彭泽县| 德阳市| 玛沁县| 林甸县| 临桂县|