——兼論對我國司法大數據應用的啟示"/>
□涂 釩
(華東政法大學 法律學院,上海 200042)
我國司法大數據的深度應用助力法治工作理念創(chuàng)新、提質增效,支撐現代化訴訟服務體系的全面建立。大數據應用正持續(xù)深入司法決策體系之中,成果頗豐惠民便民。同時,也應識別大數據陷阱,提前防范應用風險。因為風險已經在美國發(fā)生,尤以美國犯罪數據在司法實踐中的應用爭議最為明顯。數據本身的陷阱及需要防范的風險具有普遍性和本質性,是所有裹身進入大數據和人工智能時代的國家都需審慎應對的,尤其對已占有司法人工智能領域高地的我國來說,更具有現實意義。
傳統(tǒng)統(tǒng)計數據時代是采取傳統(tǒng)統(tǒng)計學方法,先假設后對各種犯罪相關指標、絕對數進行驗證,將犯罪現象轉化為數據形式進行記錄和觀察,實現“測量犯罪狀況及其對社會造成的損失程度、分析犯罪原因,預測犯罪動向與趨勢的目的”[1](p85)。
美國傳統(tǒng)統(tǒng)計數據時代的特征十分鮮明,包括數據來源窄、人為介入因素多、數據收集功效弱,綜合概括為美國統(tǒng)計數據時代是拓展數據集邊界的人工摸索。
數據來源窄。運用傳統(tǒng)統(tǒng)計學分析犯罪的研究方法在19世紀孕育,大西洋彼岸的英國于1856年開始探索犯罪統(tǒng)計數據的應用,致力于衡量英國刑法法典化改革的成效,以及為未來刑法的發(fā)展提供思路[2](p485)。那時的美國研究因缺乏統(tǒng)一的刑法典而十分依賴各種形式的官方數據,以研究犯罪活動、監(jiān)獄活動為主,旨在提高司法實踐的效率與公正。
19世紀末,犯罪學研究的先驅威廉·道格拉斯·莫里森率先將司法數據的應用研究基礎分為三類,即警務數據(Police statistics)、司法審判數據和監(jiān)獄數據,并依據權威的官方統(tǒng)計衡量了三類數據的價值權重,得出警務數據最優(yōu)的結論[3](p2)。莫里森指出“監(jiān)獄數據以服刑統(tǒng)計為主,必須有經過司法過程認定的違法行為,但并不是所有的違法者、被法律裁定的有罪者都會被判監(jiān)禁刑罰;司法審判數據是司法機關在刑事訴訟過程中所做的犯罪統(tǒng)計,只反應審判過程及結果;而警務數據來源于一系列在警局備案的犯罪調查和記錄,是對年度犯罪情況最全面、綜合性最強的統(tǒng)計,具有司法審判數據和監(jiān)獄數據無可比擬的優(yōu)勢”[3](p4)。
20世紀中期,數據應用的思維和研究發(fā)生了變化。為了增加可供取樣的司法數據集合,美國犯罪統(tǒng)一報告計劃(UCR)開始了①全稱“Uniform Crime Reporting Program”,包括四個數據集:國家事件報告系統(tǒng)(NIBRS),摘要報告系統(tǒng)(SRS),執(zhí)法人員被殺和被攻擊(LEOKA)計劃以及仇恨犯罪統(tǒng)計計劃。。首個被害者調查計劃新鮮出爐,致力于找出公眾所知但警方未記錄的犯罪數據。被害人回憶的價值被重新認識,這被視作犯罪學研究的一個重大突破。遺憾的是,被調查者似乎原先被認為回憶犯罪行為是一件容易的事,因為犯罪行為通常較為不平凡,但事實上記憶衰退和自我記憶修正使回憶無法精準復刻。因而,數據來源始終未能充分擴大。
人為介入因素多。新理論的出現對官方數據衡量犯罪行為的可靠性和完整性提出了質疑。有限的數據集因人為介入因素過多,引發(fā)了數據分析結果的異常。警務數據的價值討論最為激烈。賦予其高階價值的觀點認為應以立案、起訴和審判數據為衡量犯罪發(fā)生率、影響范圍的主要指標[4](p4)。我國部分學者也稱,基于“漏斗效應”,警方的立案、抓捕統(tǒng)計最接近實際犯罪數量,應是犯罪統(tǒng)計中最有價值的數據集[1](p88)。
然而,由于警務記錄通常與犯罪行為、政策措施和警民關系有著復雜的多向關系,公眾的不信任感似乎也在情理之中②本杰明·迪斯雷利的名言是,“世界上有三種謊言:謊言、鬼話連篇和統(tǒng)計”(There are three kinds of lies:lies,damned liesand statistics)。。1940年,反對者也曾提出,警局的立案數據、抓捕數據會為了歌頌當地政府政績而文過飾非,也因誣告、無聊指控和假想防衛(wèi)有不可靠傾向,雖然并不絕對,但此類情形當然存在[3](p5)。著名的心理學家及人權擁護者拉爾夫·克勞肖諷刺地說,“有時候,原本應該保護我們安全的人卻成為我們最害怕的人”[5](p375)。無獨有偶,警務數據的可靠性在英國的地位始終居于司法數據之下。英國官方司法統(tǒng)計報告表示,“司法統(tǒng)計結果之表格乃最重要、最確定、最精準的犯罪數據統(tǒng)計,警務數據次之,居附屬地位”[6](p10)。
數據收集功效弱。收集方法主要是國家主導與零星的公民報告相結合。1930年,國會授權國家移民局身份識別及信息搜集與編輯部門統(tǒng)計全美犯罪數據③Federal Bureau of Investigation.History.[2019-05-26].https://www.fbi.gov/history/timeline.,開啟了建立在小數據之上的全國犯罪數據應用分析方法。以警務數據集為重點,公民報告與監(jiān)獄數據次之,再輔以調查研究、定義描述與概念構建、量化模型等手段。警務數據的價值爭議上文已述,其他研究方法成效也不明顯,功效性較弱。
公民報告數據的搜集主要是通過基于“特殊電話亭”到“雙向無線電交流”等輿情應答系統(tǒng)①最早有記可考的輿情應答記錄回溯到了英格蘭時期,那時的警員手持響鈴,民眾一旦發(fā)現新情況就主動報告,警員立即用響鈴通知其他工作伙伴。發(fā)展而來的緊急通訊熱線實現的。而專門從事犯罪人研究的監(jiān)獄機構,天然有著便捷抽出“犯罪人”樣本的途徑,監(jiān)獄數據也有統(tǒng)計學意義上的可靠性。但是,二者的樣本數量都偏少。據統(tǒng)計,80%的公民撥打熱線都是因為突發(fā)事件影響了自身生活,譬如噪音投訴、報告路邊無人認領的汽車,只有不到20%的公民打求助電話是因為嚴重的刑事案件發(fā)生[5](p380)。而辯訴交易的存在讓大部分刑事案件都未進入最后的司法程序,降低了監(jiān)獄犯罪人數統(tǒng)計數量。
此外,UCR報告也未能破除管中窺豹的問題。因為只有通過刑偵找到佐證,具備“事實上的違法要件”的犯罪才會錄入UCR報告[4](p5),“不是所有犯罪都達到了被警署重視的程度,不是所有犯罪在指數統(tǒng)計時都有足夠重要的分量,不是每次富有意義的指標展現出充分規(guī)律時就有要案發(fā)生旁以佐證”②Federal Bureau of Investigation.History.[2019-05-26].https://www.fbi.gov/history/timeline.。
時代背景的局限。20世紀50年代計算機科學的誕生為大規(guī)模集成數據拉開序幕,但對統(tǒng)計學家在更大空間區(qū)域內搜集數據信息的助益十分有限。一是緣于當時的計算機在物理硬件、編程技術與投入成本等方面的束縛明顯。二是核心處理程序實現了處理復雜信息的能力,消除了原本耗費四分之一總計算時間進行數據人工排序的沉沒成本。但并未找到程序與人腦邏輯處理問題匹配度高的范式,即人類語言邏輯與計算機處理的數據之間存在顯著差異,未實現人機對話等交互式智能應用。三是計算能力的提升打破了傳統(tǒng)統(tǒng)計只能在結構化數據源中檢索的限制,使獲取非結構化信息成為可能,簡化了統(tǒng)計圖表的表達,但建模的情境對話還處在初級階段,格式匹配等處理程序還處于初級階段。
抽樣調查方法的局限。在小數據時代,數據化基礎薄弱,數據化的信息較少,信息傳播速度較慢,信息實時共享功能尚未開發(fā),抽樣調查測量分析方法是當時的最優(yōu)解。在解決簡單問題時,抽樣調查可以發(fā)現快速變化的量,找到數據之間的特殊函數關系。但是,它卻無法迅速地發(fā)現慢變量,即隱藏著深刻影響力的變量。并且,測量方法設計的再完善也無法避免漏掉在“未抽樣”信息中的重要數據,數據之間的相關性也不會總表現出結構性。
許多學者指出,傳統(tǒng)數據時代的實驗邏輯使統(tǒng)計數據系統(tǒng)性的少計算了犯罪行為,無法反映事實全貌,未被假設的結論自然也不在計算實驗的考量之內。那些未被納入的所謂的“隱藏的犯罪事例”被稱為“犯罪暗數”。其概念十分模糊,既可以指“那些在某一標準上可被定義為犯罪的事件,卻沒有被任意一個數據提供機構當作犯罪行為記錄儲存”[4](p1),也可以指“人們對尚未發(fā)現的犯罪行為和犯罪人的圖景或意象”[8](p4)。暗數曾經一度使美國的下層社會承擔了更多壓力,尤其是居住在偏遠地區(qū)的青少年,他們被看作是犯罪亞文化的潛在成員[8](p14)。
傳統(tǒng)統(tǒng)計結果的局限。預測結果的局限一是因為知識獲取與邏輯耦合存在客觀困難,使統(tǒng)計結果的輸出頻率較低。這是當時的硬件,譬如計算機內存無法滿足復雜推理計算能力的現實所導致的,又因為大規(guī)模知識獲取的困難使大規(guī)模邏輯推理進展緩慢。傳統(tǒng)數據分析結果集中在回答“為什么”,試圖用圖標或表格式呈現因果關系。但小微信息難以捕捉,預測出現異常規(guī)律時傳統(tǒng)方法也難以認可。二是在數據來源增多后,雖然突破了知識獲取的瓶頸,卻暫時無法媲美人工精密篩選與摘取的數據質量,未能提高樣本標準,無法對干擾數據信息進行有效排除,使數據輸入呈現了低質量“垃圾輸入,廢物輸出”①“garbagein,garbageout.”狀態(tài),統(tǒng)計結果的可靠程度十分有限,客觀規(guī)律亦只能在某一限定區(qū)域內反復證明。
以此為據的預測引發(fā)的擔憂主要有兩點。一方面,預測結果滯后,缺乏時效性。統(tǒng)計預測結果質量的保障之一即信息更新及時,尤其是商品零售價格指數、房地產開發(fā)投資消費指數等具備重要指導性功能的月度國家統(tǒng)計數據,如若不能穩(wěn)固發(fā)布頻率,及時對上月統(tǒng)計數據有效分析,則無法準確發(fā)揮宏觀調控職能對通貨膨脹規(guī)律進行預測。另一方面,樣本應用次數有限,統(tǒng)計成本高。樣本中的數據篩選通常只為了滿足單一用途,樣本不具備頻繁反復適用功能,因而為了滿足其他需求只能重新采集數據,這導致統(tǒng)計成本隨之增加。不僅限制了統(tǒng)計學發(fā)揮作用的范圍,也無法展開對非數據化的行業(yè)領域數據的處理分析。
此外,二十一世紀后,司法數據的應用已不再局限于官方統(tǒng)計,也不再囿于犯罪研究,而是悄然深入生活的各個方面,后大數據時代的來臨開啟了數據智能新時代。
進入2012年,膨脹的數據使物理、金融等各領域全面開啟了量化進程,吹響了以“容量巨大、速度迅捷、種類繁多”為特征的大數據時代[7](p949)顛覆統(tǒng)計數據的應用邏輯思維,重新賦予統(tǒng)計學更多含義的號角。短短數年,數據的信息含量和載體形式呈現出與傳統(tǒng)數據完全不同的豐富圖景,以往無法想象可以量化的人的物理行為軌跡、社交媒體活躍狀態(tài)、醫(yī)療保健臨床信息等領域對“數據處理”思路提出了更高挑戰(zhàn),推動以數據為核心的“第四次工業(yè)革命”迅速進入了后大數據時代。所謂后大數據時代即融合人類智能、人工智能以及海量非結構化數據的智能數據時代,諸多學科迅速頻繁地交叉融合,以算法為驅動,結合數據挖掘、機器學習、人機交互、可視化等技術做出“預測”與“決策”[8](p2)。以全域采集為目標的司法數據、以預測警務為向導的司法實踐、以人工智能為依據的司法量刑為代表的三大數據智能應用已在當下來臨,爭議,也隨之而來。
預計在2021年徹底淘汰傳統(tǒng)UCR計劃里摘要報告系統(tǒng)的國家事故報告系統(tǒng)②全稱National Incident Based Reporting System,簡稱“NIBRS”。宣告全美范圍內的司法數據從抽樣統(tǒng)計向全樣本數據采集過渡,智能數據集成管理系統(tǒng)逐漸完善。
其優(yōu)勢十分顯著。第一,數據質量整體提升。系統(tǒng)記錄了每一起犯罪事件的來龍去脈,包括共同犯罪中的單獨犯罪行為,受害者與已知罪犯之間的關系等全景信息;第二,違法行為標簽增多。系統(tǒng)收集了52項違法行為的整體數據,提供十項違規(guī)行為的犯罪地點,案發(fā)時間及犯罪背景的匹配;第三,比較分析能力提升。執(zhí)法部門借此可以看到犯罪行為的諸多面相,以及非結構化因素之間隱藏的多重關聯(lián)[9]。同時,對司法數據,尤其是犯罪數據的深入挖掘展示了更為清晰的社會犯罪圖景。
但是,NIBRS的司法數據無法實現對政治性扭曲或操作的完全免疫。事實上,越是高質量的數據越有可能是偽裝和矯飾的產物,因為它代表著美國對于司法實踐中犯罪控制活動的積極態(tài)度,而負面數據或消極證據或許會被執(zhí)法機構自動忽視。而且從程序上來說,項目決策的隱秘性也很強[10](p150)。
此外,生態(tài)謬論的傾向性較為明顯。對此最直接的理解是,用高層次、大范圍的集合數據為基數展開分析,推出低層次、窄范圍的個體結論。例如,從未有過任何犯罪記錄的羅伯特·麥克丹尼爾卻意外地被芝加哥警署人員登門警告他不要逾矩,原因是芝加哥警署依據抓捕記錄和犯罪地點制作了犯罪高發(fā)區(qū)域預警名單,麥克丹尼爾成為400人名單上的一員[11](p12)。這是智能警務預測系統(tǒng)的結果,也是數據智能可能陷入生態(tài)謬論的直接表現。
以預防犯罪為主導的司法態(tài)度的轉變以智能警務預測系統(tǒng)的大范圍運用為標志。智能警務預測尚未有統(tǒng)一概念,有人說“是從不同的集成源里摘取犯罪數據進行分析預測,實現對已發(fā)生罪案的有效應答,阻止未來犯罪的發(fā)生”[12](p16)。
基本共識是,它是從對犯罪人的空間分布轉向對犯罪行為的空間分布研究的成果之一。理論基礎是,“罪案的發(fā)生是當地環(huán)境條件、侵害者與受害者在情景中的不同決策交互作用的結果,警員每日有規(guī)律地巡邏可以改變或摧毀為罪惡提供溫床的環(huán)境條件,然而犯罪發(fā)生的概率不會整齊劃一的按照時間或空間排布,智能警務預測軟件可以有效彌補這個缺陷,在海量數據中直接鎖定非均勻發(fā)生的罪案模型”[13](p1399)。
預測警務的正效果得到多方肯定①預測警務的正效果包括“除夕之夜里士滿的突發(fā)槍聲減少了47%,繳械武器數量提高了246%,實現了提高效率與降低成本的目的,節(jié)省資金15 000美元”,以及英國肯特警署的服務分析部門表示“軟件預測率比數據分析部門預測率平均每周高出3.16%,四個月內犯罪率降低了6%”等。。美國洛杉磯與英國肯特警局采取隨機對照實驗的田野調查[17](p1401)表明,警員們利用算法繪制的路線巡邏平均減少了7.4%的犯罪率,而依據人類犯罪學家預測的統(tǒng)計信息巡邏,對犯罪率基本無影響②對比的參照物一個是運用ETAS算法繪制的美國洛杉磯警署的三個轄區(qū),另一個來源于犯罪學家分析的英國肯特警署的兩個轄區(qū)。The Epidemic Type Aftershock-Sequences(ETAS)模型反應的是一定地理區(qū)域中地震活動的隨機點過程,需要精確度高、反應度靈敏的計算機數據。。
然而,“預測無用”之聲似乎更多。針對路易斯安納州什里夫波特城的一項隨機對照實驗結果表明,在該區(qū)域,無法得出因為應用了新科技,就顯著減少知識產權犯罪案件的結論[14]。
爭議不止于此。一是企圖“先發(fā)制人”的警務預測變相地把未來的風險當作現實的危險,就像把犯罪率等指標的下降當作犯罪被消除的標志一樣,也許會引發(fā)更多麻煩。自由主義倡導者們的觀點認為,看似通過犯罪預測模型開展的活動,卻無法代表所有犯罪行為的表象。而且,預測系統(tǒng)實際上試圖阻止的人,他根本還沒有犯罪,還不是法律意義上的“嫌疑人”?!胺缸飻祿牟豢煽啃?、非全面性、易篡改性、及隱含的種族歧視性是眾所周知的”[15]。二是傳統(tǒng)被動反應式警務轉為以司法數據主導式預防性警務時,直覺、經驗、常識在各種模型中被摒棄,雖然迎合了“防范勝于未然”的設想,但是,即便是在“數據加工廠的生產下,警方可以每天向普通市民提供類似天氣預報那樣的“犯罪預報”[16](p17),數字化的“標簽”也無法完全概括每位自然人的道德操行,其所作“預報”也無法像地震預報般準確靈敏。
正確的量刑是法官的重要責任,這是一個懲罰犯罪、預防再犯風險、預測再犯可能的綜合裁量過程[17](p1530)。在美國,智能風險評估系統(tǒng)逐漸代替法官對刑事司法量刑工作深度干預。
最初的風險評估軟件是作為保釋和假釋的裁判依據,起到了良好的保護社區(qū)的作用③譬如,美國最高法院裁決加州監(jiān)獄嚴重違憲,判決認為監(jiān)獄人滿為患,為囚犯帶來“不必要的痛苦和死亡”,并支持了下級法院做出的加州監(jiān)獄系統(tǒng)必須減少3萬囚犯的裁決。如今加州正在一邊減少監(jiān)獄人口,一邊運用風險評估系統(tǒng)分析被提早釋放的囚犯對社區(qū)可能造成的威脅。。隨著公眾焦點集中到降低累犯、重視證據等方面,更多的法院和懲戒署開始了參考風險評估報告作為重要刑事案件判刑依據的摸索,由此掀起了“不能任由計算機把人們關進監(jiān)獄”的評論熱潮。
艾瑞克·盧米斯的案件極受關注④美國威斯康星州適用量刑輔助軟件COMPAS的評估報告,判處有犯罪歷史并因偷竊警車而被判刑的盧米斯六年有期徒刑及五年延期監(jiān)督。COMPAS顯示盧米斯“暴力風險高,再犯風險高,預審風險高,是對社區(qū)構成高風險的人”。參見:朱體正,《人工智能輔助刑事裁判的不確定性風險及其防范——美國威斯康星州訴盧米斯案的啟示》,載《浙江社會科學》2018年第6期,第77頁。,在威斯康星州最高法院稱“COMPAS報告為他們的決定帶來了有價值的信息”[18],裁決駁回了盧米斯的上訴案以后,美國首席大法官約翰·羅伯茨在一期訪談中談到,“人工智能更多地介入法庭調查程序,有爭議性的司法決策頻出,司法部門正面臨著強壓”。
巨大的問號懸掛在量刑輔助風險評估系統(tǒng)的上方。在紐約北部的懲戒所里服刑的格倫·羅德里格斯也因COMPAS的評估報告被拒絕假釋,即便他有著近乎完美的服刑表現[19]。評估系統(tǒng)內部的調查過程、報告細節(jié)、推理和歸納結論的過程人們都一無所知。推測該文件可能包含大量生活數據、犯罪歷史數據、與司法活動有關的數據、自動生成地蘊含規(guī)律的犯罪行為圖表,譬如所在居住地、受教育水平、關系親密人群的犯罪狀況、以量化羅德里格斯的生活,行為和重新犯罪的可能性。還可能包括他的年齡,種族,性別認同,瀏覽習慣,也許還有一些看起來不相關的問題,譬如“頭骨維度等,以此評估被告人在一定時期內重新犯罪的可能性”[20](p122)。
此外,系統(tǒng)量刑的公平性也飽受質疑。一方面缺乏透明度影響了司法公平。這些軟件的開發(fā)商以商業(yè)秘密為由,即便是面對法院頒發(fā)禁制令都不會公開任何技術細節(jié)[23]。另一方面可能強化既存于犯罪數據集中的種族、性別差異。一篇研究分析了種族對犯罪歷史和累犯的影響,表明未再犯的黑人被告被錯誤預測的概率為44.9%,幾乎是白人被告的兩倍[21]。這意味著白人被告容易被評估為低風險,黑人被告更難從評估結果中獲得自由。
數據應用引發(fā)地諸多爭議的解決還應回歸數據本身。因為以數據為核心的應用研究,必然受到采集數據集本身固有缺陷的影響,即便“數據應用在中美之間,存在著話語與實踐層面的認識差異、態(tài)度上的冷熱不均”[22](p53),究其根本,還是因研究方式、驅動緣由、實踐目的不同,激發(fā)了數據缺陷或數據陷阱在不同地緣地貌中映射出多樣化的表象,孕育出個異化的內涵。
“數據陷阱”在統(tǒng)計學中與“數據信仰”常自動匹配,數據信仰者認為統(tǒng)計數據即為科學,對漂亮的圖表極度自信,反而容易因對數據的盲信,落入數據陷阱之中。誠然,數據普遍存在的問題及特征,由此引發(fā)的正負效果,都是共通的。數據陷阱是司法數據研究,乃至整個司法大數據研究都無法繞越的障礙,是中美都需應對的共同課題。
數據化基礎參差,智能化程度不足。全樣本數據的原理是,當數據體量足夠大時,越容易對不確定的事做出判斷,越能畫出結構化的規(guī)律,越有利于法院做出公正裁決。法律文書電子化、法律信息數據化、司法應用智能化是獲得全樣本數據的三大基石。盡管美國2002年就開始建設電子化法庭[23](p570),猶他州、密歇根州法院已實現較高智能化水平[24],現有的數據采集已實現犯罪行為的縱橫比較,譬如2017年有10 236人犯了縱火罪,主要集中在成人年齡段[25]等。國內人臉識別的高端技術天眼系統(tǒng)已對接全國20多個省,智慧法院研究中心,天平司法大數據分析平臺已然確立,投入使用科技法庭28 055個。但是,因為數據化基礎在全域范圍內的發(fā)展不均,智能化程度仍需提升等現實問題的存在,使大數據本身并不具備完整性。
智能化法院不是簡單的轉移傳統(tǒng)審判空間或硬件升級,而是司法與互聯(lián)網技術的深度融合。國內部分中西部法院電子卷宗隨案同步生成率不足一半,近25%的法院未開通案件警示系統(tǒng),許多法院雖然開始使用了初級的智能軟件,但尚未有能力拓展大數據的應用并形成報告。此外,司法管理系統(tǒng)的完備性較強,但安全性仍需提升[26]。
數據閉環(huán)流通,開放與共享不充分。裁判文書上網總量已接近七千萬篇①http://wenshu.court.gov.cn,數據截止于2019年6月10日。,審判流程信息公開網、執(zhí)行信息公開網的縱向推進已使我國司法數據的開放體量居于世界領先地位。美國的數據智能更多源自市場對大數據分析和挖掘急迫需求的推動,所以依托數據智能整合的搜索引擎,如vtesify,提供法律建議的預測系統(tǒng),如lexmachine.com等應用似春筍般勃發(fā),實現了一定程度的數據開放與共享。
但無論是橫亙在公安機關、人民法院、人民檢察院之間的數據壁壘,還是美國本就獨立運行的兩個司法系統(tǒng),都是司法大數據流的分隔符,控制著數據在各自閉環(huán)里流通。國內的一體化辦公系統(tǒng)尚未鋪開,技術與業(yè)務之間的壁壘還在,國外法院的類案同判主要依靠聯(lián)邦最高法院的判例引導,打通司法數據的全域流通更是難題。深化司法數據共享還在通往高速的路上。
優(yōu)質數據較為缺乏。數據爆炸式增長的同時,質量標準應處首位。機器學習尤其是深度學習,強化學習的完善和迭代促成了人工智能與各個領域的結合,是上海刑事案件智能輔助辦案系統(tǒng)的核心引擎,也是美國犯罪數據應用開發(fā)的主要方式。因此,不良數據會導致數據應用產生不連貫、不完整或不準確的結果。
如果提前將給機器學習的數據集作摘選、甄別處理,就能為應用模型提供優(yōu)質數據,確保數據集準確、一致、有用,較大程度地減少低質輸出的概率。尤其是刑事司法領域的預測活動極度依賴輸入的數據,一旦算法無法調整長久以來深埋在數據源里的瑕疵,不良結果會在未來更多次的重復應用中不斷固化[27](p550)。
自我誘發(fā)的數據偏差。數據偏差包括具有結構性缺陷、數據所含并非關鍵性內容、數據于真實情況相背離等表現。許多人把谷歌流感預測失敗的原因歸結于算法,實際上,搜索引擎的表現完全符合人們的期待,反而是數據源出現了問題,自我誘發(fā)了數據偏差①谷歌的流感預測引擎搜集了大量的與流感有關的問卷,依據搜集的數據開始預測。在取得了些許成功后,該引擎完美地錯過了2009年流感病毒爆發(fā)的預警,固執(zhí)地過度預測了2011年至2014年爆發(fā)流感的情形。。
一份針對警務數據對于預測模型影響的實證研究報告指出,所記錄的犯罪數據會從兩個方面產生極具偏差的預測結果。一方面,原始數據存在的偏差直接導致了預測結果的偏離。另一方面,警官們在軟件標注的區(qū)域內巡邏,不斷地在系統(tǒng)里更新著新發(fā)案件的記錄,隨著時間的推移,這些累積的數據被填充進算法里作為基礎數據時,對于該范圍預測的偏差將不可避免地越來越大[31](p547)。
如果數據是原材料,算法就是把雜亂紛繁的數據轉化為特定決策依據的工具,司法決策中的算法是司法決策數據化的需求與計算機程序相結合的產物。公眾對司法的信任建立在司法透明的基礎上,實現看得見的正義。而司法量刑中試用算法“一錘定音”的美國正處于這風口浪尖上。
缺乏透明度的“技術恐怖”。行為表現算法(behavioral algorithms)已在猶他州實行,弗吉尼亞州用算法判刑也有十年經驗。美國政府并不開發(fā)自己使用的算法,而是將流程外包給私營企業(yè)。這意味著,購買者僅根據所有者告知的內容,在有限的程度上知道機器決策的過程。當我們不理解百度競價廣告的排序方式或淘寶推薦商品的算法時,并不影響我們的生活,因為這和決定命運的司法裁判的利害關系完全不同。
理想中立卻有現實偏見。算法中立是數據智能應用中最常見的觀念,認為無倫理的計算機不關心堂下案犯的性別或膚色,只依據他一直以來的社會行為及犯罪行為判定是否有罪。一篇調查計算機決策與一個人面部特征關聯(lián)性的研究表明,那些嘴唇較小,上唇較曲,眼距較近的人更容易被貼上罪犯的標簽,原因并不清楚。正是存在許多的不清楚,遮蓋了司法決策中算法偏見幾乎與性別和種族偏見一樣客觀存在的事實②Oleksii Kharkovyna.AIis entering judicial system,Do we want it there?[EB/OL].(2018-04-13)[2019-06-20].https://medium.com/@oleksii_kh/ai-is-entering-judicial-system-do-we-want-it-there-632f56347c51.。許多軟件公司也提出了類似隱憂,如向警局售賣犯罪預測軟件的“市民之景”公司①見https://www.civicscape.com/官網。,將部分源代碼的一個版本公布在互聯(lián)網上,提醒司法機關切勿使用此版本,因為潛在偏差很難從模型中排除②Dave Gershgom.Software Used to Predict Crime Can Now Be Scoured for Bias[EB/OL].QUARTZ,(2017-03-22)[2019-06-20].https://qz.com/938635/a-predictive-policing-startup-released-all-its-code-so-it-canbe-scoured-for-bias/.。
逐漸探入量刑深處的隱憂。上海刑事案件智能輔助辦案系統(tǒng)敢為全球之先,以及時發(fā)現、及時提示進入系統(tǒng)的刑事案件中的證據標準不統(tǒng)一、辦案程序不統(tǒng)一、證據的瑕疵以及證據間的矛盾等問題,實現防止冤假錯案,減少司法任意性的目標[28]。目前,智審系統(tǒng)實現了庭審智能化基礎之上的證據把關,尚未成為真正的“智能法官”對刑事案件的裁判結果直接給出評估建議。但是,系統(tǒng)終將探入刑事裁判的核心環(huán)節(jié),左右法官的自由心證。至時,如何實現如目前類案檢索般能見度高、可重復驗證的算法邏輯,是數據智能逐步改變司法審判中的直覺主義[29](p70)的高階挑戰(zhàn)。
數據道德文化的缺失剝奪了公民的隱私權。數據公民很難清除數據痕跡,發(fā)現個人信息在上游機構的復制、移植、分析、截取活動,更無法掌控個人數據的下游市場使用。智能審判無法像承辦法官一樣受“終身負責制”監(jiān)督和束縛,人工智能只是在無道德與無感情的狀態(tài)下迭代,更無法成為平衡道德和法律的代理人,正如控制自動駕駛汽車的算法可能被編程為拯救乘客的生命而不是行人的。
數據主體責任的空白逃脫了法律的問責機制。由于它不具備法律上追責的主體資格,由它制造的“冤假錯案”以技術滯后與缺陷為由一筆帶過,那么誰來為人工智能法官的判決買單呢。從數據應用的流程上看,機器學習是標簽化法律話語的過程,在充分挖掘法律文本的基礎之上,仔細分析、篩選,打上標簽。背負著耗費大量工時將文本錄入數據集,面臨著“數據信息處理能力的提升帶來信息處理范圍的擴大,信息處理負擔進一步加劇”[30](p72)的風險的司法人員是否要被追責;開發(fā)數據應用、建立案件訴訟請求、爭議焦點、適用法條等要素間單雙向相關性[31](p251)程序的計算機學家和工程師們是否要被追責。這些不確定性與不精確性尚缺乏法律規(guī)制。
此外,司法實踐中對數據的依賴與日俱增。每天沿著智能地圖規(guī)劃地行車路線駕駛,每晚聽著音樂軟件依據偏好推薦的單曲,個性化服務仿佛多股無形的線,限縮了生活,限定了行為模式。犯罪數據定制了犯罪模式,司法數據定制了司法量刑。也許在我們還未嘗到甜頭時,已不知不覺被它左右。這種過度依賴十分危險。犯罪學家賽林說過,“犯罪數據的價值正日益降低,因為它或許拉開了我們與真實的犯罪情況的距離”[32](p335)。
數字不是唯一的數據,定量研究并不是唯一方式。司法數據本質上說,都是將存在于一個多因素影響的、多元素并存的復雜環(huán)境中的,一系列出于特殊偏好、特定目標、特別因由的司法行為,轉化為數字形式的資料、圖表或指標的過程。在量化過程中許多零散的經驗、或未符合大致規(guī)律的信息容易丟失,且不是所有資料都能被成功量化?!皬姳I、持械搶劫者、詐騙犯和他們的同伙都表明了他們對調查問卷或大范圍的社會調查的熱情,人種學研究、生活史、口述史、傳記和新聞報道將會是非常寶貴的財富”[8](p160]。
上海高院“206工程”的先鋒創(chuàng)舉,北京高院“睿法官”和四川崇州法院“小崇”法官的順利上線,都顯示出我國司法大數據應用的廣闊前景。因此美國犯罪數據應用面臨的問題、存在的風險是我們深度開發(fā)司法大數據應當警惕的,應在堅持司法大數據應用輔助性地位的前提下,深挖本土司法資源,貼合國情社情,警惕數據陷阱,防范數據風險。
一是以信息化基礎建設雙管齊下為動力,夯實司法改革的科技支撐。作為官方提倡與推動,市場配合、市場發(fā)起而官方繼續(xù)回應的雙重驅動的產物[33](p142),要以司法系統(tǒng)基礎設施網絡的互聯(lián)互通為前提,夯實司法大數據使用主體,即司法機關的信息化建設,重視數據應用的開發(fā),提升人臉識別、身份驗證等技術,提高科技法庭應用率,實現在數據應用智能化整合的條件下,簡單司法事務自動化高水平辦公。并且依托市場信息化建設的廣泛維度,豐滿“信息球”,構建立體、綜合、統(tǒng)一的數據收集、應用、流通的信息化平臺。
同時,政策指引資本加大投資市場信息化基礎設施的建設。典型的例子就是實現了人與物互聯(lián)新格局的5G技術的出現,利用更少的物理連接、更輕便的智能設備,提供更快的挖掘分析速度,推動未來數據中心規(guī)模呈幾何倍數增加,打破體量巨大、靈活性較小的大數據應用中心結構,任意部署存儲于分散的云端的迷你數據中心,司法數據應用又將迎來新一輪的硬核升級。
二是以司法改革需求引領大數據應用方向,助推司法智能化的高度實現。誠然,人工智能輔助量刑系統(tǒng)存在一定的風險,但量刑輔助、要素審判、風險預警、類案推送等智能輔助類應用已經成為法律與事實的中介,是類案穩(wěn)定裁判的平衡器。司法人員對抽象的法律術語進行自我解讀,在寬幅性的法定刑幅度內做出選擇。而犯罪事實與法律裁判的心證之間缺乏一種媒介,類案裁判容易出現量刑偏差,甚至畸輕畸重[34](p58)。
司法智能化的高度實現一方面得益于硬實力的提升。微法院智能系統(tǒng)、高清數字化法庭、語言智能識別系統(tǒng)、電子卷宗隨案卷自動生成等現代科技的應用升級了司法系統(tǒng)的硬件表現能力,拓寬了法院、檢察院提供司法服務的局限。另一方面離不開軟實力的增強。逐步實現輔助復雜審判工作的數據應用在更大程度上挖掘判例等文本、數字信息,拓展了案例指導制度中對裁判理由和裁判摘要援引的局限,將判例進行多維類比,緊密聯(lián)結法律與事實,加大法官、檢察官在審判管理、決策分析等司法活動中科技支撐的分量,還將在未來大幅提升法官、檢察官在審判、決策工作方面的精確度和定向化程度,維護法律系統(tǒng)的穩(wěn)定運轉。
應高效生產優(yōu)質標簽數據,提升司法數據挖掘能力,提升數據質量。算法運行之前,海量數據需通過人工和自動兩種方式進行調整,并按照特定分類建立特征要素庫。除了人機共同修補不完整數據、修正錯誤、去除冗余數據和臟數據之外,數據中的偏差可以通過優(yōu)化數據集,提升審判質效的方式在源頭調整。
我國司法大數據較為豐富,圖片、語音和文字識別技術的準確率非常高,還擁有全球最大的司法信息資源庫,尤其是中國司法大數據研究院的建立,實時匯聚了全國3523個法院的司法審判信息資源。但是,獲取大量的、專業(yè)的行業(yè)知識標簽數據,全覆蓋法律專業(yè)標簽數據仍是一個艱巨的長期工程,因為這可能需要許多懂法律的計算機學家與懂計算機的法律專家共同完成。當前,提升審判質效,裁判文書質量,減少地域性裁判差異、預防數據污染,是以審判為中心的訴訟體制改革的應有之意,也是數據源偏差的一種防治之法。
應抓住國家現代化治理契機,轉變數據應用評估思路,革新評估模式。為了防止已暗含偏差的數據在算法中反復固化,轉變數據智能應用工具的評估方式或許是一個思路。譬如預測軟件,通常以定期統(tǒng)計預測結果是否真實發(fā)生、概率為何來判定預測工具的優(yōu)與劣,留與棄。在以社區(qū)或個人為單位的預測系統(tǒng)中,一旦識別危險則在該區(qū)域加強巡邏或采取逮捕或拘留等執(zhí)法措施。而逮捕拘留的人數多少又會作為衡量警員表現的重要標準,變相地鼓勵了警員們?yōu)榱藰I(yè)績最大化頻繁巡邏固定區(qū)域、刻意增加使用司法手段,硬性拔高了正確率。
在推進國家現代化治理體系和治理能力的契機之下,新時代“楓橋經驗”的基層治理模式提供了評估方式的新視角。公正司法、司法為民是恒定的價值理念,匯集民力、尊重民意,讓網格化的基層社區(qū)成為評估效果的最終裁判者。將司法機構作為連接社會問題的導管,而非專門回應某片法律區(qū)域范圍內多如牛毛的社會問題的司法工具[35](p27)。譬如開辟統(tǒng)一的社區(qū)意見反饋平臺,定期發(fā)布專業(yè)調查問卷,評分內容包括群眾獲得公平正義的感受、對某一具體案件裁判的看法、對司法機構的信任程度、對數據搜集和分析的態(tài)度,以及對智能化司法服務的期待等。
首先,秉持司法公開原則,為算法設定適當標準的透明度。高科技的運用有利于縱深比較社會綜合治理大維度下,人民群眾是否在個案中感受到公平正義,深化執(zhí)法司法公開,贏得公眾信任①譬如杭州互聯(lián)網法院首創(chuàng)“5G+區(qū)塊鏈”涉網執(zhí)行新模式,法院執(zhí)行指揮中心、執(zhí)行現場和申請執(zhí)行人在三個不同物理空間的畫面無遲延同頻播放,實現了執(zhí)行正義的全程可視化。。在美國,知識產權保護優(yōu)先于司法公開的價值取向,市場逐利性與司法公正性經常摩擦,以商業(yè)秘密為由拒絕公開算法仿佛成了訴訟中的“免死金牌”。在我國,正義要以看得見的方式實現,這無疑對人工智能時代的司法審判提出了更高要求。雖然目前存在雙向知識人才較少,計算機專家開發(fā)的智審系統(tǒng)無法完全匹配司法人員的司法習慣,數據應用與司法實踐不能無縫銜接等短板,但適度公開算法的政策呼吁得到了越來越多積極的市場回應。包括百度宣布邊緣計算開源、騰訊阿里等大型企業(yè)的積極投入與參與,銜接了行業(yè)內孤島的、零散的標準,順應了我國司法大數據應用的需求和陽光司法的精神。
其次,注重產權保護原則,對算法進行必要法律規(guī)制。保護知識產權、塑造良好營商環(huán)境與陽光司法之間的取舍與協(xié)調需要審慎。美國近期看似出現了“以公開為主、不公開為例外”的技術使用信條。加州上訴法院做出了一項歷史性的裁決,被告公司軟件的源代碼必須向原告披露,該案現已成為對抗商業(yè)機密不公開的重要先例②See:People v.Chubbs,Court of Appeal of California,2015 WL 139069(2015),該案不是個例。一個研發(fā)網絡犯罪調查軟件的機構試圖援引商業(yè)秘密證據特權拒絕公開源代碼。盡管考慮到秘密的掃描計算機硬件違背了第四憲法修正案,法院仍然做出了相同裁決。還有臉部識別技術的開發(fā)者拒絕公開用戶名單,變相阻礙了辯護專家衡量軟件是否存在只允許特定用戶登錄的種族歧視。。同時,有關智能工具是否應承擔刑事責任的討論甚多,而歐洲議會則直接承認了機器法律主體的地位,明確權力及義務。但是,這場博弈的大局似乎并未動搖。因為算法是所有數據智能工具的核心,是市場要“扎緊的籬笆”③譬如紐約在2017年出臺了專項法案,創(chuàng)立特別行動組,調查各機構使用算法是否存在偏見,并提出整改報告。但是一年半過去,特別行動組面臨著解散。因為算法涉及核心商業(yè)機密,至今他們仍未理清各機構的算法到底是如何操作運行的。。所以,如何公開、公開到什么程度,都是要在接下來的司法實踐中繼續(xù)探索的。
此外,應減少核心軟件技術外包,加大自主研發(fā)力度。自主研發(fā)有其必要性。發(fā)揮市場在資源配置的關鍵性作用是必須的,然而各地發(fā)展并非齊頭并進,外包技術公司能力也參差不齊,不必然有助于智慧司法的建設,還可能影響司法公信。在尊重市場經濟規(guī)律的前提下,減少核心軟件的技術外包,使各級法院不同的智能系統(tǒng)從硬件到平臺有效對接、暢通基礎信息共享。自主研發(fā)有其生命力?!爸茈m舊邦,其命維新”,自主創(chuàng)新的傳統(tǒng)在中華文明長河中貢獻良多,新中國成立后第一個計算機中文信息處理系統(tǒng)就由我國自主研發(fā),數據處理技術早已與發(fā)達國家同步,體量上更占優(yōu)勢。以捍衛(wèi)司法公信為價值導向,節(jié)約成本,提高自主開發(fā)能力,司法系統(tǒng)可以探索擺脫向第三方購買軟件,與高校、學科合作共同研發(fā),或配備專業(yè)團隊獨立研發(fā)。
換臉軟件“ZAO”的霸王授權協(xié)議使企業(yè)免費使用、授權、和再許可用戶肖像權事件,讓人工智能深度偽造技術浮出水面。與公眾生活聯(lián)系最為緊密、起到定紛止爭作用的司法機關一旦在未來出現大數據偽造、核心信息泄露情形將十分危險。因此,需要高度警惕司法大數據偽造風險,加固司法核心數據保護和個人信息保護,提升司法監(jiān)督等多維監(jiān)督的管控能力。
應加快完善個人隱私相關立法。中國網民權益調查報告顯示,近幾年僅北京就有超過2億條個人信息被泄露。設計數據運用的道德準則,并將透明度、責任和可審計性納入其中,用法律制度解決道德困境,保護數字化時代的數據足跡①數據足跡的受保護的權力應包括所有權、知情權、采集權、保存權、使用權及隱私權。,這也是數據智能時代人與產品之間的倫理挑戰(zhàn)。
需要指出的是,公共利益和個人利益之間的權衡又是一道難題。如德國的“信息自決權”,原則上每個人都應知道并自行決定由誰收集和處理有關他的哪些數據,這在實踐中引發(fā)了公共安全和個人隱私孰輕孰重的激辯。誠然,在信息化改革是司法主要驅動力的我國來說此法不太可取,并且,只有數據處理在具體損害自由或構成損害自由的特別危險時,才應與基本權利相結合。
還應加強司法監(jiān)督,兼用智能監(jiān)督與人力監(jiān)督。一方面,運用數據智能系統(tǒng)開拓機械性、流程化、結構化的科技監(jiān)督,包括要素偏離度分析系統(tǒng)、數據化證據標準應用系統(tǒng)、審判運行態(tài)勢分析應用等;另一方面,發(fā)揮司法人員主觀能動性和經驗智慧,定期核驗智審系統(tǒng),定時維護技術設備,定量分析運用效果,把控司法大數據的流動和研發(fā)方向。
再者,應堅持數據應用輔助性地位,發(fā)揮好工具性的“鏡子”作用。雖然,偏重邏輯與實證的英美法系司法傳統(tǒng)正不斷地將數據智能應用拉入審判核心環(huán)節(jié)。譬如市場開發(fā)的司法結果預測系統(tǒng)如“解剖法律”,已經可以分析法院文書資料的語言邏輯和特點②原名Ravel Law的搜索引擎可實現查找某一法官受用或排斥的某類用語、修辭和類比,同時標注應對該法官最具說服力的語言風格和引文出處(見https://home.ravellaw.com/官網)。。法官也對律師明確提出使用智能應用的鼓勵,安大略高院在判處一筆有爭議的律師費時說道,“如果律師做功課時運用了人工智能軟件,毫無疑問將會顯著減少準備時間、降低律師費用”③Cassv.1410088 Ontario Inc.,2018 ONSC 6959.Court File No:51145/09,Date:2018-11-22.。
無疑,中國文明傳統(tǒng)堅持數據應用的輔助性地位的做法更值得堅守。在激勵市場主體的前提下對其進行必要的限制。國務院在《新一代人工智能發(fā)展規(guī)劃》中提出,“建立人工智能法律法規(guī)、倫理規(guī)范和政策體系,形成人工智能安全評估和管控能力”。許多法學專家也認為,“智能機器愈是以假亂真,愈能在更深的層次和更廣的范圍提高人類改造自然和改造自身的能力,機器人不能擔任法官,堅守司法應是人類爭端解決的最后一道防線”④來源于2018年“智匯司法、相得益彰”清華RONG系列論壇之司法大數據專場討論會上諸多專家學者的發(fā)言。。因此,在構建未來人機關系的格局上,應強調通過法律和政策予以規(guī)范,以社會的穩(wěn)定有序發(fā)展為前提,回歸對司法從業(yè)人員本身價值的堅定認可。
信息超載是自人類開始認識外部世界以來始終面臨的重大問題,外部環(huán)境所蘊含的信息遠遠超乎想象[36](p71)。深度應用司法大數據,以識別陷阱、防范風險為雙前提,以科技創(chuàng)新與改革創(chuàng)新為雙驅動,以多重剖析與精準預測為雙目標,全面建設集約高效、開放互動、交融共享的現代化訴訟服務體系,為實現看得見、摸得著的公平正義提供有力司法服務和保障。