本文系國家社會科學基金項目“刑事案件事實認定中的經(jīng)驗法則研究”(項目編號:19BFX091)的階段性成果。
內(nèi)容摘要:囿于海量基礎(chǔ)數(shù)據(jù)的混亂性與算法的專業(yè)性、復雜性,大數(shù)據(jù)證據(jù)的真實性審查難以適用傳統(tǒng)證據(jù)的審查規(guī)則,而處于無規(guī)則可循的窘境,亟需建構(gòu)符合其特性的真實性審查規(guī)則,以實現(xiàn)其證明價值。具體來講,作為基礎(chǔ)的海量數(shù)據(jù)在“數(shù)量”上需滿足采集全量性規(guī)則,確保分析挖掘出的潛在信息、規(guī)律的正確性和穩(wěn)定性。同時,在“質(zhì)量”上需滿足大數(shù)據(jù)整體真實性規(guī)則,避免虛假數(shù)據(jù)產(chǎn)生虛假結(jié)果,減損大數(shù)據(jù)證據(jù)的真實性;作為分析工具的算法模型應(yīng)具備準確性、適配性與可解釋性,滿足法律與技術(shù)雙重面向的科學性要求,為大數(shù)據(jù)證據(jù)的真實性提供支撐;從印證的普遍適用性、數(shù)據(jù)經(jīng)驗的強客觀性以及間接證據(jù)定罪的規(guī)范要求來看,建構(gòu)分析結(jié)果的可印證性規(guī)則存在充足理由。通過引入故事模型理論,可發(fā)現(xiàn)分析結(jié)果的可印證性規(guī)則包括內(nèi)部面向的基礎(chǔ)數(shù)據(jù)印證與外部面向的分析結(jié)果印證,其中前者為其他規(guī)則提供保障,后者契合大數(shù)據(jù)證據(jù)的證明邏輯。
關(guān)鍵詞:大數(shù)據(jù)證據(jù);全量性;科學性;內(nèi)外部印證
中圖分類號:D925.2 """"""文獻標識碼:A ""文章編號:2095-7076(2024)01-0069-14
DOI:10.19563/j.cnki.sdfx.2024.01.006
近些年來,大數(shù)據(jù)、人工智能等技術(shù)廣泛應(yīng)用于司法證明領(lǐng)域,并通過算法模型的數(shù)理邏輯替代人的主觀經(jīng)驗進行事實推理,引發(fā)了司法證明的“數(shù)智化”變革。大數(shù)據(jù)證據(jù)的司法運用便是其表現(xiàn)之一。一般認為,大數(shù)據(jù)證據(jù)是指通過數(shù)據(jù)清洗(Data cleaning)、數(shù)據(jù)挖掘(Data mining)、數(shù)據(jù)碰撞(Data collision)等算法運算,揭示凌亂無章的海量數(shù)據(jù)之間相關(guān)關(guān)系的具有“價值增值”①" ①此處的“價值增值”是指通過算法對海量基礎(chǔ)數(shù)據(jù)二次加工后可挖掘出潛在信息和規(guī)律,而這些信息和規(guī)律使得大數(shù)據(jù)證據(jù)具有獨立的、超越海量基礎(chǔ)數(shù)據(jù)的證明價值。這種“價值增值”與美國司法中的“鑲嵌論”契合,屬于典型的1+1>2。的分析性材料。解析大數(shù)據(jù)證據(jù)的生成結(jié)構(gòu),可以概括為“采集數(shù)據(jù)—設(shè)計算法—結(jié)果表達”。大數(shù)據(jù)證據(jù)僅指數(shù)據(jù)分析的“結(jié)果”,即“海量電子數(shù)據(jù)凝練的規(guī)律性認識”②" ②劉品新:《論大數(shù)據(jù)證據(jù)》,載《環(huán)球法律評論》2019年第1期,第25頁。,而分析報告是大數(shù)據(jù)證據(jù)最主要的表現(xiàn)方式。從證據(jù)到定案根據(jù)的轉(zhuǎn)變,需要經(jīng)過審查判斷環(huán)節(jié),而真實性是證據(jù)審查判斷的重心,大數(shù)據(jù)證據(jù)亦概莫能外。為了實現(xiàn)證據(jù)真實性的實質(zhì)性審查,立法者為傳統(tǒng)證據(jù)設(shè)計了專門的審查規(guī)則,如物證、書證的最佳證據(jù)規(guī)則、證人證言的傳聞證據(jù)規(guī)則、電子數(shù)據(jù)的鑒真規(guī)則等。③" ③《最高人民法院關(guān)于適用〈中華人民共和國刑事訴訟法〉的解釋》(法釋〔2021〕1號)第83條、第84條規(guī)定了物證、書證的最佳證據(jù)規(guī)則,第91條規(guī)定了證人證言的傳聞證據(jù)規(guī)則,第110條規(guī)定了電子數(shù)據(jù)的鑒真規(guī)則。與傳統(tǒng)證據(jù)相比,大數(shù)據(jù)證據(jù)的真實性審查更為復雜,其不僅要關(guān)注證據(jù)本身的真實性,還要考慮作為基礎(chǔ)的海量電子數(shù)據(jù)的真實性,以及分析加工的算法模型的科學性。毫不夸張地說,基礎(chǔ)數(shù)據(jù)的真實性與算法模型的科學性在一定程度上決定著大數(shù)據(jù)證據(jù)的可靠性。囿于海量基礎(chǔ)數(shù)據(jù)的混亂性與算法的專業(yè)性、復雜性,大數(shù)據(jù)證據(jù)的真實性審查難以完全適用于傳統(tǒng)證據(jù)的審查規(guī)則,而處于無規(guī)則可循的窘境,有必要建構(gòu)符合大數(shù)據(jù)證據(jù)特性的真實性審查規(guī)則,以裨益于大數(shù)據(jù)證據(jù)在案件事實認定中證明作用的充分發(fā)揮。
事實上,大數(shù)據(jù)證據(jù)獨特的生成結(jié)構(gòu),是其無法完全適用現(xiàn)有審查規(guī)則的根本原因。欲實現(xiàn)大數(shù)據(jù)證據(jù)真實性的實質(zhì)性審查,充分發(fā)揮其證明價值,必須明確一切可能影響其真實性的要素,而后在此基礎(chǔ)上建構(gòu)真實性審查規(guī)則。大數(shù)據(jù)證據(jù)真實性審查規(guī)則是指符合大數(shù)據(jù)證據(jù)生成結(jié)構(gòu),能夠有效審查其內(nèi)容客觀真實性的證據(jù)規(guī)則。因為基礎(chǔ)數(shù)據(jù)、算法模型、分析結(jié)果是影響其真實性的三大要素,本文認為大數(shù)據(jù)證據(jù)真實性審查規(guī)則應(yīng)包括采集全量性規(guī)則、大數(shù)據(jù)整體真實性規(guī)則、算法科學性規(guī)則及分析結(jié)果的可印證性規(guī)則。其中,前兩項子規(guī)則用于審查基礎(chǔ)數(shù)據(jù)的數(shù)量與質(zhì)量以保障基礎(chǔ)數(shù)據(jù)的真實性,后兩項子規(guī)則分別用于審查算法模型的科學性與分析結(jié)果的真實性。
一、數(shù)據(jù)“量”層面的采集全量性規(guī)則
如前述,大數(shù)據(jù)證據(jù)是海量數(shù)據(jù)經(jīng)過機器算法運算形成的結(jié)論,故其真實性與海量數(shù)據(jù)的真實性及機器算法的科學性休戚相關(guān)。其中,海量數(shù)據(jù)的真實性應(yīng)從兩個方面把握:一是數(shù)據(jù)的“全量”,即數(shù)據(jù)在數(shù)量上能否滿足分析樣本的需要;二是數(shù)據(jù)的“質(zhì)量”,即海量數(shù)據(jù)是否滿足整體上的真實。從數(shù)據(jù)的“全量”出發(fā),可得到大數(shù)據(jù)證據(jù)真實性審查規(guī)則的一個子規(guī)則,即采集全量性規(guī)則。從語義學角度看,“全量”是“量”范疇的子集,指最大范圍的量的整體。①" ①王銘子:《現(xiàn)代漢語全量范疇及其教學研究》,華中師范大學2018屆博士學位論文,第1頁。具體到基礎(chǔ)數(shù)據(jù)而言,采集全量性規(guī)則要求取證人員收集盡可能多的數(shù)據(jù),達到現(xiàn)有狀況范圍內(nèi)的全樣本。事實上,學界早就對基礎(chǔ)數(shù)據(jù)的海量特征形成共識,如馬明亮教授指出海量數(shù)據(jù)是大數(shù)據(jù)證據(jù)的構(gòu)成要素之一。②" ②馬明亮、王士博:《論大數(shù)據(jù)證據(jù)的證明力規(guī)則》,載《證據(jù)科學》2021年第6期,第648頁。但以往學者未對“海量”的具體意蘊作出界定。而且在實踐中,如何判斷基礎(chǔ)數(shù)據(jù)的“海量”成為困擾大數(shù)據(jù)證據(jù)運用的難題。鑒于此,筆者提出采集全量性規(guī)則,主張基礎(chǔ)數(shù)據(jù)的“海量”需達到“全量”。
(一)“全量”采集數(shù)據(jù)的必要性
或許有觀點提出疑問,為什么大數(shù)據(jù)證據(jù)的真實性需要滿足采集全量性規(guī)則?通常來講,證據(jù)數(shù)量與證據(jù)質(zhì)量(真實性)無實質(zhì)關(guān)聯(lián),證據(jù)的真實性需作個別化、具體化判斷。該質(zhì)疑建立在傳統(tǒng)證據(jù)的認識之上,具有一定的合理性,但對于大數(shù)據(jù)證據(jù)卻難以成立,后者的作用機制決定了這一問題的答案。從大數(shù)據(jù)證據(jù)的兩種作用方式來看,其中通過將犯罪嫌疑人的數(shù)據(jù)與為偵查取證、刑罰執(zhí)行等目的事先建成的數(shù)據(jù)庫中的數(shù)據(jù)進行比對,可以發(fā)現(xiàn)潛在信息,進而實現(xiàn)人機的同一性認定,如混合DNA識別。而大數(shù)據(jù)分析則通過專門編寫的算法模型對海量非結(jié)構(gòu)化數(shù)據(jù)進行分析,挖掘出潛在規(guī)律并將其整合為結(jié)構(gòu)化信息,從而揭開事實迷霧的面紗,如資金分析報告、傳銷人員層級報告。③" ③李某某等組織、領(lǐng)導傳銷活動案中,通過分析“永豐有機項目平臺”的數(shù)據(jù),發(fā)現(xiàn)該傳銷組織共有22級,使用會員投資款共計2 600萬元,李某某、王某某作為公司所有人,占據(jù)了網(wǎng)格結(jié)構(gòu)中的一至四級會員位置,是傳銷網(wǎng)絡(luò)的最高層級。李某某等組織、領(lǐng)導傳銷活動案,山東省濟南市中級人民法院(2017)魯01刑終88號刑事裁定書??梢?,大數(shù)據(jù)證據(jù)的證明力體現(xiàn)在潛在信息和規(guī)律之上,其正確與否決定著大數(shù)據(jù)證據(jù)的可靠程度。信息和規(guī)律的正確性依賴于基礎(chǔ)數(shù)據(jù)的規(guī)模,故基礎(chǔ)數(shù)據(jù)的量不再是可有可無的因素,其通過影響潛在信息和規(guī)律的發(fā)現(xiàn)、客觀性及穩(wěn)定程度,間接地決定著大數(shù)據(jù)證據(jù)的真實性與可靠性。
首先,“全量”采集數(shù)據(jù)是發(fā)現(xiàn)潛在信息和規(guī)律的底線,也是大數(shù)據(jù)證據(jù)的真實性基石。多數(shù)觀點認為,算法模型是能否發(fā)現(xiàn)潛在信息和規(guī)律的關(guān)鍵,大數(shù)據(jù)證據(jù)的質(zhì)量嚴格依賴于算法的質(zhì)量。①" ①參見馬明亮、王士博:《論大數(shù)據(jù)證據(jù)的證明力規(guī)則》,載《證據(jù)科學》2021年第6期,第654頁。但事實上,基礎(chǔ)數(shù)據(jù)亦會影響潛在信息和規(guī)律的發(fā)現(xiàn)?;A(chǔ)數(shù)據(jù)是算法模型分析的對象,潛在信息和規(guī)律都隱藏其中,如果基礎(chǔ)數(shù)據(jù)不能滿足一定數(shù)量,再科學、高效的算法模型也無能為力。在美國維特利案中,為證明被告維特利公司采取不標識管道原產(chǎn)國的方式逃避合法關(guān)稅,海關(guān)欺詐調(diào)查局對維特利公司在eBay網(wǎng)站的數(shù)據(jù)進行了大數(shù)據(jù)分析,得出的結(jié)論是至少75%的管道沒有標識原產(chǎn)國,調(diào)查局便將該分析報告作為證據(jù)提交。但法院并未采納,理由是eBay網(wǎng)站的數(shù)據(jù)沒有滿足全數(shù)據(jù)要求,無法代表維特利公司的整體銷售情況。②" ②United States ex rel. Customs Fraud Investigations, Llc. v. Victaulic Co, 839 F.3d 242.可見,基礎(chǔ)數(shù)據(jù)未達到一定量無法生成真實的大數(shù)據(jù)證據(jù),此可謂“巧婦難為無米之炊”。
其次,“全量”采集數(shù)據(jù)可以避免偏見,進而確保分析結(jié)果的客觀公正性。當提到大數(shù)據(jù)證據(jù)的偏見時,很多人都默認指算法歧視或算法欺詐,但偏見也可能由基礎(chǔ)數(shù)據(jù)誘發(fā)而與算法無關(guān)。用一個不恰當?shù)谋扔鳌咨鬃訌暮谏鬯幸ǖ降囊彩呛谏鬯?。在美國,有專家以貧窮和非白人社區(qū)的毒品犯罪數(shù)據(jù)為訓練數(shù)據(jù)集,經(jīng)過分析后認為相關(guān)地區(qū)的危險程度較高,而后調(diào)派更多警力到這些地區(qū),于是更多的犯罪案件被發(fā)現(xiàn),相關(guān)數(shù)據(jù)反饋至算法模型后,進一步強化了相關(guān)地區(qū)的危險程度。③" ③See Kristian Lum and William Isaac, To predict and serve?, 13 Significance 14-19(2016).又如,美國部分人臉識別系統(tǒng)在識別男性白人的準確率上,遠遠高于其他人群,其原因也是訓練數(shù)據(jù)集存在偏差。④" ④Drew Harwell, Federal study confirms racial bias of many facial-recognition systems,casts doubt on their expanding use,The Washington Post, Dec.19, 2019.可見,海量數(shù)據(jù)的偏見和算法模型的歧視,都會影響大數(shù)據(jù)證據(jù)在事實認定上的客觀性。反過來講,采集全量性規(guī)則要求收集與案件有關(guān)的全樣本數(shù)據(jù),自然可避免數(shù)據(jù)集的偏見,進而保障大數(shù)據(jù)證據(jù)的客觀公正性。
最后,“全量”采集數(shù)據(jù)是挖掘出穩(wěn)定可靠的潛在信息和規(guī)律的前提,對大數(shù)據(jù)證據(jù)的真實性發(fā)揮著保障作用。如果僅為了發(fā)現(xiàn)潛在信息和規(guī)律,沒有必要追求全量性,通過一定量的抽樣數(shù)據(jù)分析亦能實現(xiàn)目的,但后者無法保證潛在信息和規(guī)律的穩(wěn)定性,不能對大數(shù)據(jù)證據(jù)的真實性作出有效背書。通過全量數(shù)據(jù)分析得到的潛在信息和規(guī)律則不同,其穩(wěn)定性經(jīng)過了多番檢驗,具有較強的生命力。舍恩伯格亦指出,為了預測的準確性,應(yīng)盡量避免使用隨機分析的捷徑,而采用所有數(shù)據(jù),即“樣本=總體”⑤" ⑤[英]維克托·邁爾·舍恩伯格、肯尼思·庫克耶:《大數(shù)據(jù)時代:生活、工作與思維大變革》,盛楊燕等譯,浙江人民出版社2013年版,第39頁。?!叭俊辈杉瘮?shù)據(jù)對于大數(shù)據(jù)證據(jù)真實性的保障,可通過公認的概率公式——貝葉斯定理,進行合理解釋。貝葉斯定理的表達式為P(A|B)=P(A)*P(B|A)/P(B),其中P(A)表示A出現(xiàn)的概率;而P(B|A)表示事件A發(fā)生的條件下,事件B發(fā)生的概率;P(A|B)正好相反,表示事件B發(fā)生的條件下,事件A發(fā)生的概率。貝葉斯公式能依靠與事物本質(zhì)相關(guān)的其他事件的出現(xiàn)概率,去判斷本質(zhì)屬性的概率。因而,貝葉斯公式往往被用于溯因推理,與司法證明活動天然契合,被多數(shù)法學者用以評估證據(jù)證明力。⑥" ⑥參見杜文靜:《證據(jù)證明力評價的似然率模型》,載《華東政法大學學報》2017年第1期,第151頁。當越來越多的數(shù)據(jù)納入考慮范圍,即P(B)的導入量增大(B1、B2、B3……Bn),P(A|B)的概率會不斷調(diào)整,概率評估韌性也會明顯增加。⑦" ⑦參見豐葉:《職務(wù)犯罪大數(shù)據(jù)證據(jù)研究》,載《科技與法律》2020年1期,第78頁。簡言之,建立在全量數(shù)據(jù)的分析基礎(chǔ)上,大數(shù)據(jù)證據(jù)的似真度將會明顯提升,無限接近于客觀真實。
(二)采集全量性規(guī)則的內(nèi)容與審查
從審查判斷視角來講,一項真實性審查規(guī)則應(yīng)有合理實現(xiàn)的可能,否則其不但不能合理評價相關(guān)證據(jù),甚至會阻礙原本可用于事實認定的證據(jù)發(fā)揮作用,進一步惡化證據(jù)資源短缺的司法現(xiàn)狀。同理,采集全量性規(guī)則不能是取證人員無法承擔的“規(guī)則之重”。部分觀點認為在不過度浪費司法資源的同時,無法實現(xiàn)基礎(chǔ)數(shù)據(jù)的全量采集。羅文華教授指出,追求海量數(shù)據(jù)的全樣本是不現(xiàn)實的,能實現(xiàn)的只是局部樣本。①" ①羅文華:《大數(shù)據(jù)證據(jù)之實踐與思考》,載《中國刑事警察》2019年第5期,第20頁。事實上,此說法是將“全量”=“全部”,誤以為采集全量性規(guī)則就是要收集全部數(shù)據(jù)。全部數(shù)據(jù)幾乎不可能實現(xiàn),因為數(shù)據(jù)量非常巨大并不斷增加,但全量數(shù)據(jù)完全可以實現(xiàn),為了大數(shù)據(jù)證據(jù)的真實性也必須實現(xiàn)。
“全量”不是“全部”,其內(nèi)在意蘊不僅包括數(shù)量,還涉及指向。具體到大數(shù)據(jù)證據(jù)而言,“全量”數(shù)據(jù)是指與案件事實有關(guān)的所有數(shù)據(jù),與案件事實無關(guān)的數(shù)據(jù)不在范疇之內(nèi),背后的理據(jù)是證據(jù)相關(guān)性。相關(guān)性是證據(jù)的根本屬性,它反映的是證據(jù)與待證事實之間的邏輯關(guān)系,對相關(guān)事實的證明具有實質(zhì)性作用,沒有相關(guān)性的材料不是證據(jù)。②" ②張保生、陽平:《證據(jù)客觀性評判》,載《清華法學》2019年第6期,第51頁。大數(shù)據(jù)證據(jù)的證明力體現(xiàn)在潛藏于海量數(shù)據(jù)的信息和規(guī)律之上,故海量基礎(chǔ)數(shù)據(jù)同樣要具備相關(guān)性。但基礎(chǔ)數(shù)據(jù)的相關(guān)性與傳統(tǒng)證據(jù)的相關(guān)性有些許差別,前者基于相關(guān)關(guān)系而后者則是基于因果關(guān)系。③" ③因果關(guān)系關(guān)注事物之間引起與被引起的關(guān)系,屬于“為什么”問題,而相關(guān)關(guān)系關(guān)注事物之間的伴隨聯(lián)系,屬于“是什么”命題。在對待相關(guān)關(guān)系的態(tài)度上,多數(shù)學者認為應(yīng)當認可機器的邏輯判斷,積極接納相關(guān)關(guān)系。④" ④參見林喜芬:《大數(shù)據(jù)證據(jù)在刑事司法中的運用初探》,載《法學論壇》2021年第3期,第33頁。言下之意就是認為,有價值的基礎(chǔ)數(shù)據(jù)范圍是廣泛的,沒有必要作嚴格的相關(guān)性檢驗。但證據(jù)法上的相關(guān)關(guān)系,不是哲學意義上的普遍聯(lián)系,不能一概評價為具有相關(guān)性。只有飛躍成為因果關(guān)系或逼近因果的相關(guān)關(guān)系,才能評價為具有相關(guān)性,⑤" ⑤相關(guān)關(guān)系是因果關(guān)系的派生,當找到背后原因,發(fā)現(xiàn)隱藏在“是什么”背后的“為什么”時,相關(guān)關(guān)系就可以飛躍為因果關(guān)系。而無法找到背后原因的相關(guān)關(guān)系,可以通過數(shù)據(jù)與數(shù)據(jù)之間的強數(shù)理關(guān)系表明其無限靠近因果關(guān)系,具有較強的穩(wěn)定性。符合此種情況的基礎(chǔ)數(shù)據(jù)才有證明價值,在“全量”范疇之內(nèi)。
除明確“全量”的意蘊外,還有必要提供審查判斷路徑。審查標準的判斷需結(jié)合相關(guān)性的實質(zhì)性方面。一般認為,相關(guān)性包括兩方面:一是證據(jù)對事實主張的證明性;二是事實主張對審判的實質(zhì)性。⑥" ⑥鄭飛:《證據(jù)屬性層次論——基于證據(jù)規(guī)則結(jié)構(gòu)體系的理論反思》,載《法學研究》2021年第3期,第124頁。基于審判的實質(zhì)性,只有對訴訟中的要件事實有重要意義的證據(jù)才具有相關(guān)性。同理,全量數(shù)據(jù)應(yīng)對要件事實有重要意義,而要件事實均由法律規(guī)定,這為全量數(shù)據(jù)的審查提供了標準。具言之,當判斷基礎(chǔ)數(shù)據(jù)是否滿足全量時,可從該大數(shù)據(jù)證據(jù)意圖證明的要件事實入手,如果涉及相關(guān)要件事實的數(shù)據(jù)均已收集,采集全量性規(guī)則即得到滿足。王燃教授從分析對象行為的完整性切入,認為全樣本的關(guān)鍵在于能夠滿足分析對象、分析任務(wù)的要求。⑦" ⑦參見王燃:《大數(shù)據(jù)證明的機理及其可靠性探究》,載《法學家》2022年第3期,第67頁。但筆者認為,分析對象、分析任務(wù)的表述未突出本質(zhì),要件事實立足于相關(guān)性的實質(zhì)性方面更具理論厚度和表達精度。從審查方法而言,可通過時間段錨定、關(guān)鍵詞檢索等技術(shù)手段,對海量數(shù)據(jù)進行清理與篩選,進而實現(xiàn)全量數(shù)據(jù)的審查判斷。
二、數(shù)據(jù)“質(zhì)”層面的大數(shù)據(jù)整體真實性規(guī)則
全量數(shù)據(jù)中可能存在虛假或偽造數(shù)據(jù),所以基于全量的大數(shù)據(jù)證據(jù)并不必然可靠。例如,羅某等傳播淫穢物品牟利案中,公訴機關(guān)最初提交的報告顯示28張淫穢圖片的點擊量達25萬余次,但由于沒有考慮WAP業(yè)務(wù)60%頁面訪問成功率、一頁多圖等因素,相關(guān)報告沒有被法院認可。在經(jīng)過專用算法工具計算頁面點擊數(shù)并排除自點擊后,淫穢圖片的實際被點擊數(shù)只有82 973次,法院最終依此作出裁判。⑧" ⑧北京市第一中級人民法院(2009)一中刑終字第548號刑事裁定書。在美國的一些網(wǎng)絡(luò)詐騙案中也有類似情況,如被告人使用機器制造“僵尸賬號”虛假擴大自身的影響力,進而騙取廣告費、代理費。⑨" ⑨See Dwight Steward and Roberto Cavazos, Big Data Analytics in US Courts: Uses, Challenges,and Implications, Palgrave Macmillan, 2019, p. 52.為確保大數(shù)據(jù)證據(jù)的真實性,基礎(chǔ)數(shù)據(jù)除滿足“全量”外,還要符合一定的“質(zhì)量”。對此,學界存在兩種觀點:一種觀點認為,只有每項原始電子數(shù)據(jù)都能符合電子數(shù)據(jù)審查規(guī)范時,這些電子數(shù)據(jù)分析得出的大數(shù)據(jù)證據(jù)才是可靠的。①" ①張吉喜、孔德倫:《論刑事訴訟中的大數(shù)據(jù)證據(jù)》,載《貴州大學學報(社會科學版)》2020年第4期,第87頁。另一種觀點認為,海量數(shù)據(jù)的全部真實沒有必要,而且?guī)缀醪豢赡軐@些數(shù)據(jù)逐一審查,所以只要數(shù)據(jù)集真實即可,無須要求數(shù)據(jù)庫中每一條信息都具體真實。②" ②參見劉品新:《論大數(shù)據(jù)證據(jù)》,載《環(huán)球法律評論》2019年第1期,第29頁。筆者支持后者觀點,主張將聚焦于數(shù)據(jù)集而非單個數(shù)據(jù)的真實觀稱為整體真實觀,并在此基礎(chǔ)上提出大數(shù)據(jù)整體真實性規(guī)則。
(一)大數(shù)據(jù)整體真實觀的證成
部分學者在客觀真實理念引導下,對整體真實性抱有抵觸心理,認為其無法滿足案件事實認定的證明標準,尤其是刑事案件的排除合理懷疑。但事實上,大數(shù)據(jù)整體真實性不但不會影響事實認定的準確性,反而有利于解決數(shù)量激增的新型網(wǎng)絡(luò)犯罪。具言之,首先,大數(shù)據(jù)整體真實觀契合數(shù)據(jù)時代的司法需求,能有效緩解證據(jù)資源短缺,證明難度劇增的現(xiàn)實困境。當下,越來越多的案件痕跡以數(shù)據(jù)形式留存,而數(shù)據(jù)存在隱匿性強、穩(wěn)定性差的特點,導致案件事實的查明愈發(fā)困難。于是各國采取了一些針對性方案,包括消減證明負擔和容許非法證據(jù)證明兩類,大數(shù)據(jù)整體真實性規(guī)則便屬于前者。其次,大數(shù)據(jù)整體真實性符合大數(shù)據(jù)證據(jù)的證明機制,不會影響結(jié)論的可靠性。由于大數(shù)據(jù)證據(jù)是利用隱藏在海量數(shù)據(jù)中的潛在信息和規(guī)律證明案件事實,所以其是以“面”而非“點”的方式發(fā)揮證明作用。③" ③大數(shù)據(jù)證據(jù)之所以是“面”而非“點”的證明方式,是因為潛在信息和規(guī)律是碎片化數(shù)據(jù)的價值整合,通過反映行為整體趨勢發(fā)揮作用,能還原案件事實的“整體樣貌”。這與基于單個數(shù)據(jù)信息證明案件事實有本質(zhì)差別?!懊妗钡淖C明方式容錯性強,即便某個數(shù)據(jù)出現(xiàn)問題,也不會完全破壞其價值。劉品新教授亦認為,“只要在整體上達到一定規(guī)模的具體數(shù)據(jù)屬實,對案件事實的認定就不會產(chǎn)生實質(zhì)性影響?!雹? ④劉品新:《論大數(shù)據(jù)證據(jù)》,載《環(huán)球法律評論》2019年第1期,第30頁。最后,大數(shù)據(jù)整體真實性固然與全部真實有差距,或多或少帶來一定風險,但該風險會通過印證規(guī)則得到消弭。大數(shù)據(jù)證據(jù)具有衍生性,屬于間接證據(jù),無法單獨證明案件事實,而要與其他證據(jù)形成印證關(guān)系。在大數(shù)據(jù)證據(jù)與其他證據(jù)印證過程中,因整體真實觀產(chǎn)生的風險將會暴露無遺,無法對最終意義上的事實裁判造成實際威脅。
(二)數(shù)據(jù)來源的整體真實性
證據(jù)的真實性包括形式真實性和實質(zhì)真實性,前者要求證據(jù)的載體、來源具有原始性,而且在訴訟流轉(zhuǎn)過程中始終保持完整性、同一性;后者要求證據(jù)記載的內(nèi)容符合客觀現(xiàn)實,不能是虛假的或者偽造的。這兩種真實性缺一不可,形式真實性是證據(jù)資格意義上的真實性,而實質(zhì)真實性是證明力意義上的真實性。同理,大數(shù)據(jù)整體真實性應(yīng)包括數(shù)據(jù)來源的整體真實性和數(shù)據(jù)內(nèi)容的整體真實性。數(shù)據(jù)來源的整體真實性,是指海量基礎(chǔ)數(shù)據(jù)來源于現(xiàn)場,而且這些數(shù)據(jù)在訴訟流轉(zhuǎn)過程中整體上保持著同一性。電子數(shù)據(jù)取證存在“一體收集”模式和“單獨提取”模式。⑤" ⑤謝登科:《電子數(shù)據(jù)的取證主體:合法性與合技術(shù)性之間》,載《環(huán)球法律評論》2018年第1期,第86頁。不同取證模式下,數(shù)據(jù)來源的整體真實性的表現(xiàn)形式也不同:“一體收集”模式下,海量數(shù)據(jù)儲存在原始存儲介質(zhì)之中,整體真實性以原始載體的真實性進行表現(xiàn);“單獨提取”模式下,海量數(shù)據(jù)沒有所謂的原始存儲介質(zhì),整體真實性以電子數(shù)據(jù)集的真實性進行表現(xiàn)。
對證據(jù)來源真實性的審查,實際上就是鑒真,其為證明奠定基礎(chǔ)。⑥" ⑥[美]羅納德·艾倫等:《證據(jù)法:文本、問題和案例》,張保生等譯,高等教育出版社2006年版,第205頁。傳統(tǒng)鑒真方法主要包括“獨特性確認”和“保管鏈證明”,其中“獨特性確認”是根據(jù)證據(jù)獨有的特征、標識進行的真實性確認,而“保管鏈證明”則是依靠從證據(jù)收集到法庭出示的整個期間,所有持有、接觸、處置、保管該證據(jù)的人所提供的證言進行的真實性證明。⑦" ⑦參見陳瑞華:《實物證據(jù)的鑒真問題》,載《法學研究》2011年第5期,第131頁。這兩種方法在美國《聯(lián)邦證據(jù)規(guī)則》均有規(guī)定,分別對應(yīng)規(guī)則901(b)和規(guī)則902,最近規(guī)則902新增了(13)“數(shù)字驗證軟件的驗證”和(14)“電子記錄驗證”,專門用于電子數(shù)據(jù)鑒真。從我國現(xiàn)有規(guī)范來看,電子數(shù)據(jù)鑒真主要是利用形式化的“保管鏈證明”,即通過取證筆錄、辨認筆錄、檢查筆錄等筆錄類證據(jù)從數(shù)據(jù)收集、提取、保管等環(huán)節(jié)進行真實性證明。該做法導致我國電子數(shù)據(jù)鑒真存在形式化流弊,難以實現(xiàn)對電子數(shù)據(jù)形式真實性的有效審查。對此,學界提出諸多方案,如謝登科教授認為信息技術(shù)可在不同方面克服電子數(shù)據(jù)自身特征所帶來的鑒真難題,故可利用完整性校驗、數(shù)字簽名等技術(shù)性手段進行有效鑒真。①" ①參見謝登科:《電子數(shù)據(jù)的技術(shù)性鑒真》,載《法學研究》2022年第2期,第210-211頁?;A(chǔ)數(shù)據(jù)是海量電子數(shù)據(jù)的集合體,對其形式真實性的審查既要利用傳統(tǒng)鑒真方法,也要發(fā)揮技術(shù)性鑒真的作用。
具體來講,對于存在原始存儲介質(zhì)的基礎(chǔ)數(shù)據(jù),可通過審查證據(jù)保管鏈是否斷裂實現(xiàn)鑒真:審查取證時是否扣押封存原始存儲介質(zhì),并制作相關(guān)筆錄記錄情況;如果是封存手機等具有無線通信功能的存儲介質(zhì),審查取證人員是否采取了信號屏蔽、信號阻斷或者切斷電源等措施。為避免實踐中存在形式化流弊,對證據(jù)保管鏈是否斷裂的審查還需從兩個方面完善:其一,不但要審查原始載體是否“封口嚴實”和“未受破壞”,還應(yīng)參考域外的“證據(jù)標簽”審查連貫證據(jù)記錄的有無;②" ②證據(jù)標簽要求對證據(jù)附加具體情況記錄,具體包括:(1)證據(jù)涉及的案件編號;(2)發(fā)現(xiàn)證據(jù)人員姓名;(3)收集人員姓名;(4)發(fā)現(xiàn)、收集的時間、地點等情況;(5)該證據(jù)的特征,如大小、外形等。其二,除審查書面證言和相關(guān)筆錄外,還可要求接觸基礎(chǔ)數(shù)據(jù)的相關(guān)人員出庭發(fā)表意見并接受質(zhì)證。對于沒有原始存儲介質(zhì)的基礎(chǔ)數(shù)據(jù),要充分利用好技術(shù)性鑒真方法:審查數(shù)據(jù)集是否計算了哈希值(HASH)以及哈希值是否同一;審查數(shù)據(jù)集是否上傳至可信的區(qū)塊鏈以及上傳時間、次數(shù)、人員等;審查數(shù)據(jù)集是否具有數(shù)字簽名或可信時間戳。舉例而言,區(qū)塊鏈采取分布式記賬技術(shù),對數(shù)據(jù)進行分布式存儲,具有防篡改、防抵賴的功能。一旦基礎(chǔ)數(shù)據(jù)經(jīng)過計算哈希值并上傳至區(qū)塊鏈,便可以通過審查區(qū)塊鏈資質(zhì)、哈希值是否同一實現(xiàn)對基礎(chǔ)數(shù)據(jù)形式化真實性的判斷。技術(shù)性鑒真對象不是海量數(shù)據(jù)中的單一數(shù)據(jù),而是數(shù)據(jù)集,如包括數(shù)千條數(shù)據(jù)的壓縮文件。海量基礎(chǔ)數(shù)據(jù)的逐一鑒真很難做到,也會極大地增加鑒真成本,得不償失。如果以數(shù)據(jù)集為單位,不論其體量多大,經(jīng)過MD5幾分鐘的計算就得到128位的哈希值,再依據(jù)哈希值“唯一性”特征,③" ③唯一性是指,兩個不同數(shù)據(jù)經(jīng)過哈希函數(shù)運算后得到的哈希值不同。就可簡單高效地解決鑒真難題。
值得注意的是,技術(shù)性鑒真并非完美無缺,比如區(qū)塊鏈只能保證“入鏈后”數(shù)據(jù)的真實性,如果存入的數(shù)據(jù)本身就有問題,區(qū)塊鏈反而會為虛假信息“背書”。對此,劉品新教授提出三種優(yōu)化路徑,即縮短入鏈前階段、機器操作入鏈、多次入鏈。④" ④參見劉品新:《論區(qū)塊鏈證據(jù)》,載《法學研究》2021年第6期,第143頁。筆者認為,以上路徑明顯改善了“入鏈前”數(shù)據(jù)的鑒真,除此之外還可以借助傳統(tǒng)鑒真方法,如讓接觸過數(shù)據(jù)的人出庭接受質(zhì)證。
(三)數(shù)據(jù)內(nèi)容的整體真實性
數(shù)據(jù)內(nèi)容的整體真實性,不同于數(shù)據(jù)來源的整體真實性,兩者屬于形式與實質(zhì)的關(guān)系。來源真實的數(shù)據(jù)不一定內(nèi)容真實,內(nèi)容的真實性需要專門的審查判斷。謝登科教授亦指出,鑒真僅能解決電子數(shù)據(jù)的形式真實性問題,而無法保障其實質(zhì)真實性,后者仍然需要由法官結(jié)合其他證據(jù),運用經(jīng)驗法則、邏輯法則等進行認定。⑤" ⑤參見謝登科:《電子數(shù)據(jù)的技術(shù)性鑒真》,載《法學研究》2022年第2期,第223頁。內(nèi)容真實性關(guān)乎證明力問題,所以傳統(tǒng)證據(jù)的內(nèi)容真實性要求較高,需逐一審查判斷,但此做法并不適合于海量數(shù)據(jù)。理由有二:其一,基礎(chǔ)數(shù)據(jù)要求“全量”,即便經(jīng)過相關(guān)性篩選之后,其數(shù)量仍然非常龐大,有限的司法資源和訴訟期限無法實現(xiàn)逐條數(shù)據(jù)的內(nèi)容真實性審查;其二,海量數(shù)據(jù)中多數(shù)數(shù)據(jù)的證明力并不強,與案件事實屬于“弱關(guān)聯(lián)關(guān)系”⑥" ⑥洪濤:《大數(shù)據(jù)證據(jù)研析》,載《行政與法》2022年第3期,第86頁。,否則也無須利用算法模型挖掘潛在信息和規(guī)律,來提升證據(jù)的證明力進而實現(xiàn)案件事實的準確認定。從前文提到的數(shù)據(jù)時代的司法需要、大數(shù)據(jù)證據(jù)的證明機制、潛在風險三方面來看,數(shù)據(jù)內(nèi)容的整體真實性顯然更具合理性和說服力。
對內(nèi)容整體真實性的審查,主要采取反面式的排除路徑。
首先,來源不真實的數(shù)據(jù),其內(nèi)容也很難真實,可以排除在訴訟之外?;A(chǔ)數(shù)據(jù)在鑒真時以數(shù)據(jù)集而不是單條數(shù)據(jù)為單位,但鑒真失敗不意味整個數(shù)據(jù)集都失真,現(xiàn)實情況往往是數(shù)據(jù)集中的部分數(shù)據(jù)被修改、刪減,此時如果直接否認整個數(shù)據(jù)集的真實性并不合適,而可以通過鑒定將有問題的數(shù)據(jù)識別出來并排除。舉例而言,在快播案中,辯護方就對涉案服務(wù)器中的淫穢視頻的真實性提出質(zhì)疑,而該案正是通過司法鑒定方式進行了數(shù)據(jù)的真實性審查。
其次,基礎(chǔ)數(shù)據(jù)中可能存在天生虛假的數(shù)據(jù),形式上滿足來源真實,但其內(nèi)容并不具備真實性,如機器自動點擊、“僵尸賬戶”“惡意刷單”。對于此類數(shù)據(jù)的審查識別,有學者建議借助算法來完成,虛假數(shù)據(jù)往往具有不同尋常的行為規(guī)律,可利用這一點將其檢索出來。①" ①參見王燃:《大數(shù)據(jù)證明的機理及其可靠性探究》,載《法學家》2022年第3期,第67頁。比如,機器點擊數(shù)往往間隔非常短,遠超人工點擊。又如,“僵尸賬戶”的活躍程度非常低。再如,“惡意刷單”者的IP地址是一致的,而且在短時間內(nèi)多次重復相同行為。該學者認為以上異常數(shù)據(jù)可直接排除,但筆者認為應(yīng)當維持謹慎心理,不宜簡單作出蓋棺定論式的處理,可指令相關(guān)人員對數(shù)據(jù)異常情況作出合理解釋,留有辯論反駁的余地。
最后,大數(shù)據(jù)雖然追求全量分析,但并不意味著其完全否認抽樣分析的價值,其同樣認可抽樣分析在數(shù)據(jù)時代的必要性。舍恩伯格亦指出:“在大數(shù)據(jù)時代,我們?nèi)匀豢梢允褂脴颖痉治龇?,但可能不再是分析?shù)據(jù)的主要方法?!雹? ②[英]維克托·邁爾·舍恩伯格、肯尼思·庫克耶:《大數(shù)據(jù)時代:生活、工作與思維大變革》,盛楊燕等譯,浙江人民出版社2013年版,第43頁。抽樣分析是指從較大數(shù)量的物品中提取具有代表性的一定量的物品作為樣本證據(jù),并以樣本狀況反映整體數(shù)據(jù)的情況。③" ③萬毅、縱博:《論刑事訴訟中的抽樣取證》,載《江蘇行政學院學報》2014年第4期,第120頁。抽樣分析方法對于檢測證據(jù)內(nèi)容真實性同樣有效,只不過需要挑選出具有代表意義的數(shù)據(jù),有學者對4 985份判決開展實證研究,發(fā)現(xiàn)多數(shù)判決書承認抽樣取證證據(jù),將其作為案件裁判的依據(jù)。④" ④參見楊帆:《海量證據(jù)背景下刑事抽樣取證的法治應(yīng)對》,載《法學評論》2019年第5期,第106頁。當使用抽樣分析法來審查基礎(chǔ)數(shù)據(jù)內(nèi)容的真實性時,必須采取科學、合理的樣本篩選標準,如對數(shù)據(jù)群分塊分區(qū)抽取、隨機和抽簽等多種方法抽取、確定最低比例樣本等。
三、分析算法層面的科學性規(guī)則
自大數(shù)據(jù)證據(jù)成為研究對象以來,算法問題始終是學界最為關(guān)切的事項,一方面是因為在大數(shù)據(jù)“躍遷”為大數(shù)據(jù)證據(jù)的過程中,算法擔任著不可或缺的媒介與橋梁角色;另一方面則是算法不公開引發(fā)“算法黑箱”,算法人為編造埋下“算法歧視”風險,使得人們對算法總是抱有懷疑心理。因而,現(xiàn)有研究集中在兩方面:一是探究大數(shù)據(jù)證明的機制或機理,即分析算法模型的功能應(yīng)用;二是主張公開算法以打破“算法黑箱”,進而消除“算法歧視”。事實上,現(xiàn)有研究存在過度“技術(shù)化”傾向,我們應(yīng)當貫徹法律與技術(shù)雙重面向,積極建構(gòu)算法科學性規(guī)則。算法科學性規(guī)則包括算法準確性、算法適配性與算法可解釋性三方面,其中前兩個側(cè)重技術(shù)層面的科學性,而第三個則是法律層面的科學性。分析結(jié)論準確是算法科學的邏輯結(jié)果,故算法科學性規(guī)則無疑屬于大數(shù)據(jù)證據(jù)真實性審查規(guī)則的子規(guī)則。
(一)算法科學性規(guī)則之算法準確性
算法是貫穿計算機程序設(shè)計的基本概念,在計算機科學中“特指計算機用來解決某一問題的方法”,具有明確性與有限性特征。由于算法使用專門語言表達和語法結(jié)構(gòu),在呈現(xiàn)時往往體現(xiàn)出一種形式邏輯的美,外行人士通常對其具有高度信賴。程龍教授通過分析典型案例,發(fā)現(xiàn)法院對大數(shù)據(jù)證據(jù)認證率極高,只有極個別案件中會對基礎(chǔ)數(shù)據(jù)真實性提出質(zhì)疑。⑤" ⑤程龍:《論大數(shù)據(jù)證據(jù)質(zhì)證的形式化及其實質(zhì)化路徑》,載《政治與法律》2022年第5期,第99頁。陳學權(quán)教授對DNA算法證據(jù)的采納報告作了分析,發(fā)現(xiàn)法院對此類證據(jù)的采信率高達99.65%。①" ①陳學權(quán):《科學對待DNA證據(jù)的證明力》,載《政法論壇》2010年第5期,第51頁。但算法并非沒有錯誤,否則也不會出現(xiàn)BUG一詞,有技術(shù)人士歸納過數(shù)據(jù)挖掘中10種常見錯誤,如輕信預測(Extrapolate)、隨便地進行抽樣(Sample Casually)等。波士頓大學的Douglas Starr教授曾對DNA技術(shù)進行過檢測,結(jié)果發(fā)現(xiàn)71%的實驗室都出現(xiàn)過錯誤。②" ②See Starr Douglas, When DNA Is Lying, 351 Science 1133-1135(2016).澳大利亞的一款DNA分析軟件STRmix同樣存在算法錯誤問題,經(jīng)昆士蘭當局確認該錯誤至少造成了60個案件的錯判。③" ③See David Murray, Queensland authorities confirm‘miscode’affects DNA evidence in criminal cases, The Courier Mail, https://www.couriermail.com.au/news/queensland/queensland-authorities-confirm-miscode-affects-dna-evidence-in-criminal-cases/news-story/,2023年1月15日訪問。美國2019年“無辜者項目”的數(shù)據(jù)顯示,被證明無辜的350多起冤案中,有45%的冤案是由科學證據(jù)的不當使用導致的。④" ④See Overturning Wrongful Convictions Involving Misapplied Forensics, Innocence Project, https://www.innocenceproject.org/causes/misapplication-forensic-science/,2023年1月15日訪問。因此,對大數(shù)據(jù)證據(jù)中的算法模型有必要進行準確性審查,以確保相關(guān)算法實現(xiàn)預設(shè)目的。
對于算法模型的準確性審查,有學者提出“黑箱測試”的辦法,即將軟件程序看作一個不能打開的黑盒子,在不考慮其內(nèi)部結(jié)構(gòu)和內(nèi)部特性的情況下,在軟件程序接口處進行測試。⑤" ⑤參見劉品新:《論大數(shù)據(jù)證據(jù)》,載《環(huán)球法律評論》2019年第1期,第31頁。也有學者提出“白箱測試”的審查路徑。⑥" ⑥參見林喜芬:《大數(shù)據(jù)證據(jù)在刑事司法中的運用初探》,載《法學論壇》2021年第3期,第34頁。筆者認為,以上兩種路徑有一定的審查作用,但均有明顯缺陷:“黑箱測試”一方面會受制于測試樣本的有限性,另一方面忽略了部分智能化算法的錯誤欺詐情況;⑦" ⑦科學研究表明,智能化算法甚至會采取某種欺詐的方式,去完成人類為其設(shè)定的既定目標,且這種欺詐的方式、自我學習錯誤的能力很難被識別。See Andrea Roth, Machine Testimony, 1 Yale Law Journal 126(2017).“白箱測試”看到了公開算法對于準確性審查的助益,卻未提供評估算法是否準確的標準。鑒于此,筆者建議對算法模型的準確性審查分成兩步:第一步,如果個案中使用的算法有國家標準或行業(yè)標準的,可直接參照相應(yīng)的標準進行判斷,且國家標準優(yōu)于行業(yè)標準;第二步,如果個案中使用的算法沒有國家標準或行業(yè)標準的,可以參照道伯特標準處理,即算法能否被重復檢驗、算法是否經(jīng)過同行審議、算法能否為職業(yè)團體普遍接受、算法已知的錯誤率或潛在的錯誤率是否可接受。
(二)算法科學性規(guī)則之算法適配性
算法是解決特定問題的方法,具有特定指向性,即不同的算法模型適用于不同技術(shù)場景。以大數(shù)據(jù)分析中常用的Naive Baye算法(樸素貝葉斯算法)、Apriori算法(關(guān)聯(lián)規(guī)則挖掘算法)、Artificial Neural Network算法(人工神經(jīng)網(wǎng)絡(luò)算法)為例,樸素貝葉斯算法能求解待分類項出現(xiàn)的條件下各個類別出現(xiàn)的概率,從而進行數(shù)據(jù)分類;關(guān)聯(lián)規(guī)則挖掘算法,通過連接和剪枝運算挖掘出頻繁項集,然后根據(jù)頻繁項集得到關(guān)聯(lián)規(guī)則,并在滿足最小置信度的要求時導出關(guān)聯(lián)規(guī)則;神經(jīng)網(wǎng)絡(luò)學習算法,可通過監(jiān)督學習或無監(jiān)督學習實現(xiàn)自我發(fā)展與完善,超過設(shè)計者原有的知識水平。可見,各種算法均有適用場景,一旦算法模型與場景不匹配,分析結(jié)論便不具備真實可靠性。有學者亦指出,大數(shù)據(jù)證據(jù)面臨因算法不同而出現(xiàn)不同結(jié)論的情況,算法模型的適用性很大程度上決定著分析結(jié)果的準確性和可采性。⑧" ⑧劉緒崇等:《智慧警務(wù)——大數(shù)據(jù)環(huán)境下新時代公安信息化建設(shè)模式探索》,清華大學出版社2018年版,第69頁。在美國訴威廉姆斯案中,法官就認為,BulletProof(混合DNA分析軟件)的算法只適用于檢測四個及以下來源者的DNA混合物,而本案中的混合DAN材料無法確定來源者數(shù)量,最終排除了相關(guān)證據(jù)。⑨" ⑨See United States v. Williams,382F. Supp.3d 928 (N.D.Cal.2019).
當預設(shè)目標與使用算法不匹配時,除了影響算法結(jié)論的可靠性外,還會帶來算法偏見或歧視問題。例如,犯罪預測算法中需要選取評估的變量,如犯罪嫌疑人年齡、犯罪動機、犯罪行為等,但部分變量可能造成偏見而與此類算法不適配,如地區(qū)、種族等。如果某犯罪預測算法將地區(qū)作為變量,但僅用于同一地區(qū),這可能不會造成歧視。然而,一旦將該算法用于全國范圍的犯罪分析,地區(qū)變量很可能成為歧視源,上文提到的以貧窮和非白人社區(qū)為訓練數(shù)據(jù)的毒品犯罪預測算法便是典型例子。可能會有人發(fā)問,基礎(chǔ)數(shù)據(jù)偏差引起的偏見與算法模型不適配引起的歧視是否無差別?答案是否定的。數(shù)據(jù)偏見與算法偏見有著密切關(guān)系,算法使用的變量通常是從基礎(chǔ)數(shù)據(jù)中抽取的節(jié)點,但兩者絕非同一事物,即便使用中立無偏差的數(shù)據(jù)集,有時也會因歧視性變量而產(chǎn)生不公正的結(jié)論。①" ①參見[美]凱倫·楊等:《馴服算法:數(shù)據(jù)歧視與算法規(guī)制》,林少偉等譯,上海人民出版社2020年版,第95頁。大數(shù)據(jù)證據(jù)運用的典型案例——盧米斯案中,法院使用的COMPAS算法(Correctional Offender Management Profiling for Alternative Sanction)中就存在著歧視性變量,其將性別、種族用于犯罪可能性評估,導致黑人被告的再犯風險概率遠遠高于白人被告。目前,COMAPS算法的評估體系包括動態(tài)因素與靜態(tài)因素,共有測試題目287個(通用為174,女性專用113)。在這些題目中除種族外,還有其他歧視性變量,如家庭犯罪情況、職業(yè)情況等,因而如何避免算法變量不適配帶來的算法歧視是COMPAS研究者亟須解決的問題。②" ②參見張振聲:《犯罪人風險行為評估技術(shù)新進展——COMPAS系統(tǒng)評介》,載《遼寧公安司法管理干部學院學報》2022年第3期,第6-7頁。
對算法適配性的審查判斷,關(guān)鍵在于評估使用的變量是否滿足客觀中立性,這需要確立算法模型的場景釋明機制。具言之,其一,經(jīng)訴訟當事人向法官申請或法官依職權(quán)決定,可要求算法模型的研究開發(fā)者出庭對數(shù)據(jù)集涵蓋范圍、選取的變量及理由進行釋明,但其不需要也不應(yīng)當對算法模型的歧視問題作出回應(yīng)。③" ③根據(jù)《網(wǎng)絡(luò)安全標準實踐指南——人工智能倫理安全風險防范指引》2.2條的規(guī)定,研究開發(fā)者是指開展人工智能理論發(fā)展、技術(shù)創(chuàng)新、數(shù)據(jù)歸集、算法迭代等相關(guān)活動的組織或個人。是否歧視的問題屬于法律問題,應(yīng)由法官作出抉擇。其二,數(shù)據(jù)集與變量的釋明情況,需作為附件附在大數(shù)據(jù)分析報告之后,交由司法人員及控辯雙方展開審查。最新研究表明,通過設(shè)計、使用可直接解釋的算法模型,用戶能直接觀察到變量的運用及其變化,這對于諸如人身危險性評估等高風險決策算法的審查判斷頗有價值。④" ④See Cynthia Rudin, Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead, 1 Nature Machine Intelligence 206(2019).
(三)算法科學性規(guī)則之算法可解釋性
大數(shù)據(jù)證據(jù)畢竟要用于案件事實認定,所以算法科學性應(yīng)具有法律面向,不能只符合技術(shù)理性而偏離法治軌道。從審查判斷的角度來看,科學的算法應(yīng)具有可解釋性,能夠說服控辯雙方及事實認定者?,F(xiàn)有文獻提及算法的法律面向時,主要集中在證據(jù)開示以保障當事人知情權(quán)、質(zhì)證權(quán)。但事實上,算法的可解釋性與算法的公開并不一致,前者要求讓非專業(yè)人員能夠理解算法模型的結(jié)構(gòu)和運行規(guī)律,進而實質(zhì)性判斷算法是否具備準確性與適配性,后者只是實現(xiàn)此目的的手段之一,甚至不是必要手段。有學者同樣指出,算法透明不等于算法可知,前者只是通向后者的一個階梯。⑤" ⑤參見沈偉偉:《算法透明原則的迷思——算法規(guī)制理論的批判》,載《環(huán)球法律評論》2019年第6期,第31頁。應(yīng)當說,算法的可解釋性才是未來趨勢。美國《2022年算法責任法案》被視為一個具有里程碑意義的法案,該法案特別規(guī)定了算法的可解釋性,并認為其是實現(xiàn)軟件、算法和其他自動化系統(tǒng)公平公正運行的關(guān)鍵。算法可解釋性命題下需要回應(yīng)兩個問題:一是如何對待算法公開,涉案算法是否有必要公開?如果要公開,該如何公開?二是依靠何種路徑或程序來審查算法是否具備可解釋性?
目前,多數(shù)觀點主張涉案算法應(yīng)當公開,否則質(zhì)證方會喪失對質(zhì)權(quán)和訴訟防御權(quán),嚴重違反基本的訴訟法原則。⑥" ⑥See Freeman K, Algorithmic injustice: How the Wisconsin Supreme Court failed to protect due process rights in State v. Loomis, 5 North Carolina Journal of Law amp; Technology 75(2016).更有觀點指出,如果不公開涉案算法,由此生成的大數(shù)據(jù)證據(jù)也難以滿足真實性要求。算法公開固然重要,但不宜過高看待其作用。美國洛斯教授指出,當事人面對公認比較準確的信息(如谷歌地球衛(wèi)星圖像分析報告),不能僅僅以自己無從獲取源代碼,而主張法庭排除相關(guān)證據(jù)。①" ①See Andrea Roth, Machine Testimony, 1 Yale Law Journal 126(2017).算法是否應(yīng)當公開并非無爭議問題,司法判例中存在著相互矛盾的做法。在查布斯案中,上訴法院以商業(yè)秘密特免權(quán)拒絕了被告人有關(guān)TrueAllele(DNA測試軟件)算法的開示請求。②" ②People v. Chubbs CA2/4, B258569 (Cal.Ct.App.2015).但在柯林斯案中,法院以FST(The Forensic Statistical Tool)算法沒有公開為由,排除了相應(yīng)的分析結(jié)論。③" ③See Katherine Kwong, The Algorithm Says You Did It: The Use of Black Box Algorithms to Analyze Complex DNA Evidence, 31 Harvard Journal of Law & Technology 281(2017).筆者認為,為了算法的可解釋性有必要公開算法,但不能無條件地一律公開,而應(yīng)符合以下要求:(1)必要性原則。只有當控辯雙方對算法科學性問題產(chǎn)生激烈爭議,一方當事人向法院提出公開算法的請求,并且法官也認為有必要公開算法時,才需要公開。必要性原則兼顧了大數(shù)據(jù)證據(jù)作為辯護方武器的可能性,可以避免強制公開損害其權(quán)利。(2)針對性公開。算法本身很復雜包含相當多的信息(如TrueAllele有170 000行代碼),引起爭議可能僅僅是部分內(nèi)容,因此出于保護商業(yè)秘密與節(jié)省訴訟資源的考慮,只需公開爭議部分的算法。(3)嚴格的保密措施。公開與保密不是絕對對立的,可從公開對象限定在訴訟當事人及審理法官、以研究開發(fā)者出庭口頭解釋為原則、獲悉信息者簽署保密協(xié)議、庭前會議階段公開等四個方面,盡可能地協(xié)調(diào)算法公開與商業(yè)秘密保護的訴求。(4)強制性排除規(guī)則。當法院指令舉證方公開涉案算法或者研究開發(fā)者出庭質(zhì)證后,舉證方和研究開發(fā)者如無正當理由拒不公開或出庭的,可認定相關(guān)算法不具備科學性,相應(yīng)的大數(shù)據(jù)證據(jù)也不得作為定案根據(jù)。
至于算法是否具備可解釋性的審查判斷,可從以下路徑展開:(1)賦予訴訟當事人申請算法解釋權(quán)。多數(shù)學者主張賦予當事人算法公開的申請權(quán),但如前文所述,算法公開只是算法解釋的一個階梯。故應(yīng)賦予當事人算法解釋的申請權(quán),即申請研究開發(fā)者解釋算法模型的設(shè)計原理及運行機制,并對是否準確、是否適配等問題作出回應(yīng)。(2)確立研究開發(fā)者的解釋義務(wù)。如果訴訟當事人提出的算法解釋申請得到法院認可,那么研究開發(fā)者必須出庭發(fā)表意見并接受質(zhì)證。如果研究開發(fā)者無正當理由拒不出庭的,或者出庭后的解釋未能得到法院認可的,相關(guān)算法便不具備可解釋性,相應(yīng)的大數(shù)據(jù)證據(jù)也不可用于事實認定。(3)完善控辯力量平衡機制??剞q雙方在證據(jù)收集能力上差距懸殊,而這一差距又被算法放大,造就“算法霸權(quán)”現(xiàn)象。在對大數(shù)據(jù)證據(jù)進行審查判斷時,有必要平衡控辯雙方的力量。這種平衡表現(xiàn)在一方當事人可以申請有專門知識的人出庭輔助,對算法的準確性、適配性等問題進行實質(zhì)性辯論。(4)標準化建設(shè)。大數(shù)據(jù)證據(jù)與鑒定意見具有形式上的親緣性、可比性,雖然因運用的專門性知識、人機作用主次關(guān)系不同,無法完全等同視之,但質(zhì)證思路可資借鑒。簡言之,可通過標準化建設(shè)實現(xiàn)算法可解釋性的審查,即確定常用算法模型的標準樣態(tài),進而判斷涉案算法是否滿足準確性與適配性。美國眾議員馬克·高野在2019年提出《法庭算法的正義法案》,該法案主張由美國國家標準與技術(shù)研究所確立一套算法的法庭科學標準和測試程序。④" ④Gwyneth K.Shaw, Berkeley Law Duo Sparks Proposed Bill for More Forensic Algorithm Access, Berkeley Law, Sept.24,2019.加州大學麗貝卡·韋克斯勒教授主張組建公共性的算法審查監(jiān)督委員會,從中挑選個案中需要的專家證人,并積累實踐經(jīng)驗形成算法標準化運用的資源庫。⑤" ⑤Rebecca Wexler, Life, Liberty, and Trade Secrets: Intellectual Property in the Criminal Justice System, 70 Stanford Law Review 1343(2018).標準化建設(shè)是一項長期工程,需從行業(yè)標準到地方標準再到國家標準逐步推進,切忌急于求成。
四、分析結(jié)果層面的可印證性規(guī)則
目前,學界普遍認為大數(shù)據(jù)證據(jù)難以適用傳統(tǒng)證據(jù)規(guī)則,如無法通過交叉詢問對機器證言進行審查,因而主張放棄傳統(tǒng)的證據(jù)審查軌道,建構(gòu)專門性的證據(jù)審查規(guī)則。大數(shù)據(jù)證據(jù)真實性的確需要專門的證據(jù)規(guī)則,但傳統(tǒng)證據(jù)規(guī)則并未完全喪失作用。如果不能認識到這一點,很可能因趨附技術(shù)而熱衷于審查規(guī)則的開放性,破壞證據(jù)法體系的穩(wěn)定性。數(shù)據(jù)時代的證據(jù)法應(yīng)具備“開放的穩(wěn)定性”之品格,并以“穩(wěn)定性”為基本底色,“開放”為附屬色彩。①" ①參見占善剛、王超:《從法定電子數(shù)據(jù)邁向電子數(shù)據(jù)法定》,載《湖北大學學報(哲學社會科學版)》2021年第2期,第119頁。縱觀之下,筆者認為傳統(tǒng)證據(jù)法中的印證規(guī)則仍可用于大數(shù)據(jù)證據(jù)真實性的審查判斷,并能為采集全量性規(guī)則、大數(shù)據(jù)整體真實性規(guī)則、算法科學性規(guī)則提供保障,幫助它們平穩(wěn)融入證據(jù)法體系之中。
(一)可印證是證據(jù)真實性審查的基本方法
有觀點認為,如果大數(shù)據(jù)證據(jù)的審查判斷仍然保守地依附于傳統(tǒng)的印證,將會帶來諸多弊端,如法官不展開實質(zhì)性審查而徑直采信大數(shù)據(jù)證據(jù)。②" ②參見馬明亮、王士博:《論大數(shù)據(jù)證據(jù)的證明力規(guī)則》,載《證據(jù)科學》2021年第6期,第650頁。此觀點看到了印證證明的固有缺陷,即注重“外部性”而輕視“內(nèi)省性”,容易出現(xiàn)因虛假印證或人為制造的印證而錯誤認定事實的情況。但是,不應(yīng)否認印證證明的積極作用,而且大數(shù)據(jù)證據(jù)與印證證明內(nèi)在契合,分析結(jié)果的可印證性規(guī)則不但可以降低虛假印證的風險,還能充分發(fā)揮大數(shù)據(jù)證據(jù)的證明價值,實現(xiàn)制度與功能的雙贏。兩者的契合性基于三個方面,具體如下。
1.印證的普遍適用性
證據(jù)法領(lǐng)域的印證,通常指利用不同證據(jù)的信息內(nèi)容同一或信息指向同一證明案件事實。關(guān)于印證的性質(zhì),學界有爭論而無定論,存在兩種說法:一是認為印證是一種證明模式,可以歸入自由心證體系。③" ③參見龍宗智:《印證與自由心證——我國刑事訴訟證明模式》,載《法學研究》2004年第2期,第109頁。二是認為印證是一種證明方法,可用于證據(jù)的審查判斷,包括檢驗證據(jù)的真實可靠性。④" ④參見方光成:《各類案件證據(jù)的實用》,長春出版社1990年版,第46頁。筆者支持后者,認為印證是一種證明方法,更準確地說是一種思維方式,即利用同一信息(包括內(nèi)容同一和指向同一)加強認知信念,對未知事項作出更準確的判斷。印證具有普遍適用性,從適用領(lǐng)域來看,其不僅是案件事實認定領(lǐng)域的一道利器,也是史學研究領(lǐng)域中“多重證據(jù)法”的凝練表達;⑤" ⑤史學研究的核心是依靠史料認識已發(fā)生的事實,當代歷史學家李良玉教授一貫主張,歷史學應(yīng)當“以真實為原則,以事實為基礎(chǔ),以材料為根據(jù)”,這與證據(jù)法學的學理是一致的。從具體功能上看,印證可用于判斷全案證據(jù)是否滿足證明標準,也能檢驗單個證據(jù)的證據(jù)能力和證明力。何家弘教授指出,印證的主要功能就是分析證據(jù)的真實可靠性并判斷其證明力。⑥" ⑥何家弘:《司法證明模式的學理重述——兼評“印證證明模式”》,載《清華法學》2021年第5期,第14頁。由此可見,印證的普遍適用性為建構(gòu)分析結(jié)果的可印證性規(guī)則奠定了可行性基礎(chǔ)。
2.數(shù)據(jù)經(jīng)驗的強客觀性
面對實踐中的虛假印證和人為制造的印證,學者們進行了反思,如龍宗智教授認為印證的弊端主要來自經(jīng)驗法則(心證)運用的不足,導致其只能做到真理融貫而無法實現(xiàn)真理符合,所以應(yīng)當在印證主導的基礎(chǔ)上加強“心證”功能。⑦" ⑦參見龍宗智:《刑事印證證明新探》,載《法學研究》2017年第2期,第164頁。陳瑞華教授指出,對印證的過分強調(diào)導致司法證明的機械化,應(yīng)當注意發(fā)揮法官的心證作用。⑧" ⑧參見陳瑞華:《論證據(jù)相互印證規(guī)則》,載《法商研究》2012年第1期,第121-123頁。可見,學者們普遍將經(jīng)驗法則作為印證缺陷填平的手段。經(jīng)驗法則是人們通過歸納總結(jié)日常生活經(jīng)驗得到的一般性知識,帶有主觀性色彩,同一命題在不同人眼里可能屬于經(jīng)驗法則,也可能只是個體經(jīng)驗。比如,有人認為公安機關(guān)通常不會非法取證是經(jīng)驗法則,但也有人認為這并非經(jīng)驗法則,否則立法無須設(shè)置非法證據(jù)排除規(guī)則。此外,經(jīng)驗法則穩(wěn)定性較弱,某一條件或情景輕微變動都可能引發(fā)經(jīng)驗法則劇烈震蕩,如證人通常講真話是經(jīng)驗法則,但與當事人有利害關(guān)系的證人可能作出有偏向性證言也是經(jīng)驗法則。當利用傳統(tǒng)經(jīng)驗法則的力量去彌補印證的缺陷時,可能因其具有的主觀性而目的落空。但大數(shù)據(jù)證據(jù)不同,其經(jīng)驗基礎(chǔ)不再是日常生活經(jīng)驗而是數(shù)據(jù)經(jīng)驗,即通過算法模型分析海量數(shù)據(jù)得出的規(guī)律性認識。數(shù)據(jù)經(jīng)驗來自基礎(chǔ)數(shù)據(jù)的科學分析,具有可重復性和可檢驗性——使用相同算法模型對同一批數(shù)據(jù)進行分析得出的結(jié)論一致,基于數(shù)據(jù)經(jīng)驗的經(jīng)驗法則具有較強的客觀性。是故,數(shù)據(jù)經(jīng)驗的強客觀性為建構(gòu)分析結(jié)果的可印證性規(guī)則確立了正當性基礎(chǔ)。
3.間接證據(jù)定罪的強制印證
學界就大數(shù)據(jù)證據(jù)的證據(jù)種類進行過討論,出現(xiàn)獨立證據(jù)說、電子數(shù)據(jù)說、鑒定意見說等觀點,但這些觀點均基于法定證據(jù)分類,而法定證據(jù)分類本身存在較大爭議,導致相關(guān)問題久無定論。實際上,除法定證據(jù)分類之外,證據(jù)的學理分類同樣會影響審查問題。元軼教授敏銳地看到這一點,從實物證據(jù)與言辭證據(jù)的分類上對大數(shù)據(jù)證據(jù)進行了分析,提出大數(shù)據(jù)證據(jù)是實物證據(jù)并建構(gòu)了客觀校驗標準。①" ①參見元軼:《大數(shù)據(jù)證據(jù)二元實物證據(jù)屬性及客觀校驗標準》,載《山西大學學報(哲學社會科學版)》2021年第5期,第149頁。受此啟發(fā),筆者從直接證據(jù)與間接證據(jù)的分類入手,提出大數(shù)據(jù)證據(jù)屬于間接證據(jù),無法單獨證明案件事實。基于此,并結(jié)合《最高人民法院關(guān)于適用〈中華人民共和國刑事訴訟法〉的解釋》(以下簡稱《刑訴法解釋》)第140條間接證據(jù)定罪的規(guī)定,可發(fā)現(xiàn)分析結(jié)果的可印證性規(guī)則存在法律依據(jù)。有法官同樣認為,大數(shù)據(jù)分析報告在刑事訴訟中只能作為間接證據(jù)使用,必須經(jīng)過證據(jù)印證補強之后方可成為證據(jù)鏈條的一環(huán)。②" ②童飛霜、向培權(quán):《大數(shù)據(jù)分析報告作為刑事證據(jù)的可能與限度》,載胡云騰主編:《司法體制綜合配套改革與刑事審判問題研究》,人民法院出版社2019年版,第1761頁。綜上可知,分析結(jié)果的可印證性規(guī)則存在充足理由,它為印證的普遍適用性奠定了可行性基礎(chǔ),數(shù)據(jù)經(jīng)驗的強客觀性確立了正當性基礎(chǔ),間接證據(jù)定罪的規(guī)范要求提供了法律依據(jù)。
(二)分析結(jié)果的雙重印證與審查
由于傳統(tǒng)證據(jù)的內(nèi)部結(jié)構(gòu)單一,所以其真實性印證主要面向外部,即與其他證據(jù)所含信息的同一性比對。大數(shù)據(jù)證據(jù)的內(nèi)部結(jié)構(gòu)復雜,其真實性印證包括內(nèi)部數(shù)據(jù)信息的同一性比對,外部與其他證據(jù)所含信息的同一性比對。分析結(jié)果的雙重印證與大數(shù)據(jù)證據(jù)的生成結(jié)構(gòu)和證明邏輯(間接證明)密切相關(guān),可引入故事模型理論進行解釋。故事模型是主流的證據(jù)推理方法之一,其主張運用現(xiàn)有證據(jù)構(gòu)建具有因果關(guān)系和片段結(jié)構(gòu)的故事,然后比較所有可能故事找到最佳故事,最終根據(jù)最佳故事作出裁判。③" ③參見杜文靜:《法律證據(jù)推理的模型研究》,北京大學出版社2021年版,第102頁。最佳故事有兩方面要求:一是故事要具備融貫性;二是故事要與證據(jù)相容。④" ④See Bex F J, Arguments, Stories and Criminal Evidence: A formal hybrid Theory, Springer Science amp; Business Media, 2011, p. 90.只具備融貫性的故事可能是一個好故事,但如果其不能與證據(jù)相容,那它注定不是真故事。例如,神話傳說邏輯周延具有融貫性,但沒有相關(guān)證據(jù)材料支撐,只能是“傳說”而不是“歷史”。最佳故事是有效印證的體現(xiàn),虛假印證和人為制造的印證只能得到具備融貫性而不與證據(jù)相容的故事。此外,故事模型理論還認為一個故事是嵌套片段的分層結(jié)構(gòu),其中某些片段又嵌套著更進一步的片段,而片段是證據(jù)支持的故事。⑤" ⑤參見[荷]瓦格納、范科本等:《錨定敘事理論:刑事證據(jù)心理學》,盧俐利譯,中國政法大學出版社2019年版,第46-47頁。基于此,可得到抽象的故事模型,見圖1。
在此基礎(chǔ)上,一旦結(jié)合大數(shù)據(jù)證據(jù)的生成結(jié)構(gòu)和證明邏輯(間接證明),并將故事改換為證據(jù)性事實之后,抽象的故事模型便演變?yōu)榫唧w的大數(shù)據(jù)故事模型,見圖2。
通過解析圖2,可以明顯看到大數(shù)據(jù)證據(jù)的故事模型有兩個:一是從基礎(chǔ)數(shù)據(jù)得到大數(shù)據(jù)證據(jù)的故事模型;二是從大數(shù)據(jù)證據(jù)、物證、書證等證據(jù)得出案件事實的故事模型。如上文所述,最佳故事也是有效印證的體現(xiàn),由此可以論證大數(shù)據(jù)證據(jù)的印證包括兩個面向的結(jié)論。其中,內(nèi)部數(shù)據(jù)信息的同一性,表現(xiàn)為基礎(chǔ)數(shù)據(jù)與分析結(jié)果相印證;外部與其他證據(jù)所含信息的同一性,表現(xiàn)為分析結(jié)果與物證、書證等其他證據(jù)相印證。
從審查判斷的視角看,大數(shù)據(jù)證據(jù)的雙重印證特征要求對審查判斷作對應(yīng)展開,不能忽略任何一方。故事模型理論下,對證據(jù)是否印證的審查就是對故事融貫性的檢驗。對此,彭寧頓和黑斯蒂提出三項成熟標準,即故事內(nèi)部一致性、故事成分似真性和故事結(jié)構(gòu)完備性。①" ①See Nancy Pennington and Reid Hastie, A Cognitive Theory of Juror Decision Making: The Story Model, 13 Cardozo Law Review 519(1991).同理,我們也可將該標準用于審查大數(shù)據(jù)證據(jù)的雙重印證,而且在此過程中也能證成相關(guān)命題,即分析結(jié)果的可印證性規(guī)則為采集全量性規(guī)則、大數(shù)據(jù)整體真實性規(guī)則、算法科學性規(guī)則提供保障。首先,故事內(nèi)部一致性要求故事中各個子故事(證據(jù)性事實)沒有內(nèi)在矛盾,彼此同一。這需要內(nèi)部印證中作為基礎(chǔ)的數(shù)據(jù)與數(shù)據(jù)之間信息內(nèi)容或指向同一。如果部分數(shù)據(jù)之間相互矛盾,說明存在虛假數(shù)據(jù),需作進一步審查判斷。外部印證中則需分析結(jié)果與物證、書證等其他證據(jù)信息內(nèi)容或指向同一。如果經(jīng)審查發(fā)現(xiàn)分析結(jié)果與其他證據(jù)之間存在無法排除的矛盾和無法解釋的疑問,即可認定外部未形成印證。其次,故事成分似真性要求組成故事的成分(子故事)真實可信,沒有明顯虛假。這需要內(nèi)部印證中海量數(shù)據(jù)整體的來源與內(nèi)容真實可信,沒有明顯虛假數(shù)據(jù)。故事成分的似真性從正面提出了大數(shù)據(jù)整體真實性的要求,可采取相同的審查路徑。外部印證中則需分析結(jié)果與其他證據(jù)均真實可信,可對應(yīng)審查相關(guān)證據(jù)是否查證屬實。最后,故事結(jié)構(gòu)完備性要求故事應(yīng)有結(jié)構(gòu)被填滿。此需要內(nèi)部印證中作為基礎(chǔ)的海量數(shù)據(jù)符合“全量”要求,具體審查路徑詳見上文。外部印證中則需分析結(jié)果與其他證據(jù)是充分的,能夠還原出完整的案件事實,可對應(yīng)審查全案證據(jù)是否形成完整的證明體系。
五、結(jié)語
證據(jù)制度與科技發(fā)展存在同頻共振效應(yīng),每一次科技水平的躍升都會引發(fā)證據(jù)制度的變革,大數(shù)據(jù)技術(shù)亦不例外。通過大數(shù)據(jù)技術(shù)分析挖掘海量數(shù)據(jù)得到的大數(shù)據(jù)證據(jù),已經(jīng)在學界和實務(wù)界掀起研究熱浪,但現(xiàn)有研究遠未達到終點。在如何對待數(shù)據(jù)司法問題上,筆者認為應(yīng)堅守證據(jù)法“開放的穩(wěn)定性”品質(zhì),既不能固守傳統(tǒng)證據(jù)規(guī)則而無視技術(shù)特性,也不能盲目趨從數(shù)字技術(shù)而脫離法治軌道?;谠摾砟睿P者解構(gòu)了影響大數(shù)據(jù)證據(jù)真實性的三大要素,進而提出采集全量性規(guī)則、大數(shù)據(jù)整體真實性規(guī)則、算法科學性規(guī)則及分析結(jié)果的可印證性規(guī)則。為具體落實以上規(guī)則,筆者設(shè)計了相應(yīng)的審查路徑,如結(jié)合要件事實判斷全量是否滿足、技術(shù)鑒真識別大數(shù)據(jù)的來源真實等。在所有路徑中算法標準化建設(shè)是亟待完成的,直接關(guān)乎技術(shù)性手段能否在司法證明領(lǐng)域合法合規(guī)地運用,以及司法人員尤其是事實認定者能否開展實質(zhì)性審查。
需要指出的是,盡管大數(shù)據(jù)證據(jù)尚未成為獨立的證據(jù)種類,但其獨立化處理已是普遍共識。至此,本文提出的大數(shù)據(jù)證據(jù)真實性審查規(guī)則便可通過專門立法、法律修改等途徑納入證據(jù)法規(guī)范體系。舉例而言,可參照“兩高一部”發(fā)布的《關(guān)于辦理刑事案件收集提取和審查判斷電子數(shù)據(jù)若干問題的規(guī)定》第22條之規(guī)定,將影響大數(shù)據(jù)證據(jù)真實性的重要內(nèi)容逐一在立法中列明。總而言之,在技術(shù)理性與法律理性并重的思維下,如何讓司法駕馭技術(shù),讓技術(shù)服務(wù)于司法是數(shù)據(jù)司法時代的永恒議題,值得法律界人士投入精力與心血。
The Construction of Rules for the Authenticity of Big Data Evidence
Hong Tao
Abstract: Due to the chaotic nature of massive basic data and the professionalism and complexity of algorithms, it is difficult to apply the review rules of traditional evidence for the authenticity of big data evidence, and it is in the dilemma of lacking the relevant rules, and it is urgent to construct the authenticity review rules in line with its characteristics in order to realise its evidential value. Specifically, as a foundation, massive amounts of data must meet the rules of completeness in terms of “quantity” to ensure the correctness and stability of potential information and patterns mined from analysis. At the same time, in terms of “quality,” it is necessary to meet the overall authenticity rules of big data to avoid 1 results from 1 data and reduce the authenticity of big data evidence. As an analytical tool, algorithmic models should have accuracy, adaptability, and interpretability to meet the scientific requirements of both legal and technical aspects and provide support for the authenticity of big data evidence. In terms of universal applicability of verification, strong objectivity of data experience, and normative requirements for indirect evidence conviction, there is sufficient reason to construct verifiability rules for analysis results. By introducing story model theory, it can be found that the verifiability rules for analysis results include internal-oriented basic data verification and external-oriented analysis result verification. The former provides protection for other rules while the latter fits the logic of big data evidence.
Keywords: Big Data Evidence; Fullness; Scientific; Internal and External Corroboration
(責任編輯:吳" 俊)