鄭海,王慧如
犯罪形態(tài)與社會的發(fā)展變化緊密相連[1]。進入信息化時代,物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、人工智能等技術(shù)深度融合發(fā)展,將物理空間、社會空間和數(shù)據(jù)空間前所未有地緊密聯(lián)系在一起,使得人類、自然和機器高效協(xié)作、互聯(lián)互通。這種人、機、物的三元融合引發(fā)了信息數(shù)據(jù)的爆炸性擴張和數(shù)據(jù)模式的高度復(fù)雜化[2]。網(wǎng)絡(luò)空間的新型犯罪由此而生,這也為大數(shù)據(jù)技術(shù)進入刑事訴訟領(lǐng)域奠定了基礎(chǔ)。2017 年9 月,公安部印發(fā)《關(guān)于深入開展“大數(shù)據(jù)+網(wǎng)上督察”工作的意見》,強調(diào)要提高思想認(rèn)識,順應(yīng)時代潮流,堅持創(chuàng)新引領(lǐng)以及加強組織領(lǐng)導(dǎo),主動擁抱大數(shù)據(jù),大力支持“大數(shù)據(jù)+網(wǎng)上督察”工作。2021 年10 月,最高人民法院院長周強在第十三屆全國人大常委會第三十一次會議第二次全體會議上報告工作情況時指出:要健全大數(shù)據(jù)、人工智能、基因技術(shù)等新領(lǐng)域新業(yè)態(tài)知識產(chǎn)權(quán)司法保護規(guī)則,研究完善算法、商業(yè)秘密、人工智能產(chǎn)出物、開源知識產(chǎn)權(quán)司法保護規(guī)則[3]。大數(shù)據(jù)技術(shù)在司法實踐中的應(yīng)用趨勢由此可見一斑。
當(dāng)今信息技術(shù)快速發(fā)展,犯罪從傳統(tǒng)的現(xiàn)實空間向網(wǎng)絡(luò)虛擬空間過渡。犯罪人在實施犯罪的過程中利用信息網(wǎng)絡(luò)技術(shù),使得犯罪生態(tài)環(huán)境日趨復(fù)雜,原有的偵查技術(shù)手段已經(jīng)不足以應(yīng)對這類新型網(wǎng)絡(luò)犯罪。所以,大數(shù)據(jù)技術(shù)在偵查中的應(yīng)用以及由此而產(chǎn)生的大數(shù)據(jù)證據(jù)的相關(guān)問題成為研究熱點。文獻檢索結(jié)果顯示,學(xué)者們主要從以下幾個方面開展研究:一是大數(shù)據(jù)證據(jù)的證據(jù)屬性。如劉品新在《論大數(shù)據(jù)證據(jù)》中,從形式的親緣性、可比性和經(jīng)濟性的角度出發(fā),提出將大數(shù)據(jù)證據(jù)歸類于鑒定意見[4]。嚴(yán)若冰在《以定義為中心的大數(shù)據(jù)證據(jù)獨立種類研究》中,提出了“三位一體”的大數(shù)據(jù)證據(jù)定義方法[5]。徐惠、劉曉東在《大數(shù)據(jù)證據(jù)之證據(jù)屬性證成研究》一文中認(rèn)為大數(shù)據(jù)證據(jù)具有“綜合性”和“高技術(shù)性”的特點,其有別于傳統(tǒng)證據(jù),所以應(yīng)當(dāng)將其視為獨立的證據(jù)種類[6]。二是大數(shù)據(jù)證據(jù)的應(yīng)用。如孔德倫在《大數(shù)據(jù)證據(jù)在網(wǎng)絡(luò)犯罪案件中的運用——以鑲嵌論為視角》中,提出以鑲嵌論邏輯推演路徑為視角,著重審查判斷大數(shù)據(jù)證據(jù)的關(guān)聯(lián)性、可靠性及合法性,以準(zhǔn)確認(rèn)定案件事實,依法打擊犯罪[7]。林喜芬在《大數(shù)據(jù)證據(jù)在刑事司法中的運用初探》中,從大數(shù)據(jù)證據(jù)的法律定位及運用規(guī)則、大數(shù)據(jù)證據(jù)的證據(jù)能力審查以及大數(shù)據(jù)證據(jù)的證明力評價三個層面對大數(shù)據(jù)證據(jù)展開研究[8]。三是大數(shù)據(jù)證據(jù)的審查。如衛(wèi)晨曙在《論刑事審判中大數(shù)據(jù)證據(jù)的審查》中,認(rèn)為大數(shù)據(jù)的審查應(yīng)當(dāng)從證據(jù)鑒真以及源代碼兩個方面進行[9]。
綜上所述,已有的研究雖涉及大數(shù)據(jù)證據(jù)的各個方面,但仍存在一定的不足。根據(jù)我國刑事訴訟領(lǐng)域的通說,不具備法定形式的證據(jù)資料不能被納入訴訟程序,而在一些司法實踐中,諸如“破案經(jīng)過”“情況說明”“扣押清單”等并非屬于刑事訴訟法所確立的法定證據(jù)種類的證據(jù)也往往被使用,這為大數(shù)據(jù)證據(jù)的適用提供了實踐可能性。換言之,大數(shù)據(jù)材料能否作為證據(jù)在庭審中得以適用,不完全看其是否屬于法定的證據(jù)種類,重要的是看其是否符合證據(jù)的“可采性”要求。探究大數(shù)據(jù)證據(jù)的可采性,重點在于解決大數(shù)據(jù)證據(jù)的客觀性問題。只有解決其客觀性問題,才能使得大數(shù)據(jù)證據(jù)在實踐中得以更好地適用。在已有的研究中,很少有學(xué)者專門從大數(shù)據(jù)證據(jù)的客觀性角度出發(fā)論述大數(shù)據(jù)證據(jù)基于其客觀性而產(chǎn)生的各種應(yīng)用困境。因此,大數(shù)據(jù)證據(jù)客觀性的制約因素及其克服之道的研究有待進一步深化。
現(xiàn)階段,以審判為中心的刑事訴訟制度改革如火如荼,這標(biāo)志著公安機關(guān)的偵查活動、人民檢察院的審查起訴活動都應(yīng)當(dāng)向?qū)徟锌待R。而審判活動又以庭審為中心,在庭審環(huán)節(jié)中,舉證質(zhì)證作為最重要的環(huán)節(jié)之一,證據(jù)是整個刑事訴訟活動的重心。當(dāng)下,大數(shù)據(jù)技術(shù)的應(yīng)用在立案前的初查階段、立案后的偵查階段以及法院審判階段初具規(guī)模,尤其在人臉識別、軌跡對比、涉案資金數(shù)據(jù)分析等方面的應(yīng)用已經(jīng)形成一定的態(tài)勢。
以“刑事案件”為基本范圍,以“大數(shù)據(jù)”“大數(shù)據(jù)分析”為檢索關(guān)鍵詞,在【中國裁判文書網(wǎng)】中進行數(shù)據(jù)檢索,可以發(fā)現(xiàn),目前在我國司法實踐活動中,大數(shù)據(jù)證據(jù)及相關(guān)技術(shù)通常被表述為:大數(shù)據(jù)平臺數(shù)據(jù)、大數(shù)據(jù)分析研判、輿情報告、大數(shù)據(jù)比對技術(shù)、大數(shù)據(jù)檢測技術(shù)等,另外還有一些案件的判決裁定書雖然沒有“大數(shù)據(jù)”等相關(guān)字眼,但是有不少涉及利用大數(shù)據(jù)技術(shù)對所獲得證據(jù)進行匯總和分析的內(nèi)容。
大數(shù)據(jù)證據(jù)分為基于數(shù)據(jù)庫比對和檢索的大數(shù)據(jù)證據(jù)和基于算法模型分析和生成的大數(shù)據(jù)證據(jù)兩類,前者諸如步態(tài)比對、人臉識別等,后者諸如有組織犯罪涉案人員組織架構(gòu)、資金數(shù)據(jù)、物流數(shù)據(jù)分析等[10]。根據(jù)從【中國裁判文書網(wǎng)】檢索獲得的信息,判決裁定書對通過大數(shù)據(jù)技術(shù)獲得的證據(jù)的表述通常有以下兩種情況。
1.將該種證據(jù)納入法定證據(jù)種類的范疇之中
(1)作為新型鑒定意見適用。如《鄺育華開設(shè)賭場罪一審刑事判決書》①中“經(jīng)盤石軟件(上海)有限公司計算機司法鑒定所對上述網(wǎng)絡(luò)平臺后臺數(shù)據(jù)庫進行檢驗,該數(shù)據(jù)庫的下注記錄最晚日期為……”的表述,《廉清珍、廉自長組織、領(lǐng)導(dǎo)傳銷活動罪刑事一審刑事判決書》②中“于2020 年9 月22 日聘請湖北某司法鑒定中心,對本案中建始縣公安局提供的‘云電站全球合伙人管理中心’網(wǎng)站的數(shù)據(jù)庫文件層級結(jié)構(gòu),及對廉清珍、廉自長的頂層會員號的所在的層級、下線會員號數(shù)量、層級架構(gòu)、總層級數(shù)量、下線會員投資總額進行鑒定”的表述。
(2)作為電子數(shù)據(jù)適用。如《張明、薛元林等集資詐騙罪二審刑事裁定書》提到③,偵查機關(guān)利用大數(shù)據(jù)技術(shù)對【時空9 號】網(wǎng)站后臺linux 服務(wù)器/虛擬主機后臺數(shù)據(jù)庫文件中的數(shù)據(jù)進行提取并將其納入電子數(shù)據(jù)的范疇。
(3)作為書證適用。如《熊爭貴、李育軍持有、使用假幣一審刑事判決書》④載明,公訴機關(guān)將“四川公安大數(shù)據(jù)查詢清單、住宿軌跡以及各地通行記錄軌跡”明確列入書證這類法定證據(jù)種類之中,《于崇泰組織、領(lǐng)導(dǎo)傳銷活動罪刑事二審刑事裁定書》⑤載明,公訴機關(guān)同樣將“通過山東大數(shù)據(jù)平臺查詢信息證實得到于崇泰的身份信息”這將大數(shù)據(jù)證據(jù)列入書證的范疇之中。
2.將該種證據(jù)作為獨立的證據(jù),未說明其所屬證據(jù)種類
如《胡云俊故意傷害一審刑事判決書》⑥,將“通過大情報比對技術(shù)發(fā)現(xiàn)犯罪人的戶籍信息并通過大數(shù)據(jù)分析其行蹤軌跡”作為“到案經(jīng)過”單獨列出,在《涂春、朱南徽等與李妍、李穎等詐騙罪二審刑事裁定書》⑦中,犯罪人交易、持倉量等情況被歸到審計報告之中。
綜上所述,大數(shù)據(jù)證據(jù)在司法實踐中雖然尚不具有統(tǒng)一的定性標(biāo)準(zhǔn),但不可否認(rèn)的是,其已登上了司法實踐的舞臺,開始在刑事訴訟活動中作為證據(jù)材料出現(xiàn)。
在實踐中,一些法院對大數(shù)據(jù)證據(jù)的應(yīng)用呈現(xiàn)出明顯的“必信”與“必排”的兩極化傾向。一部分法院過度依賴大數(shù)據(jù)技術(shù)而忽視對其進行實質(zhì)性審查,這種對大數(shù)據(jù)技術(shù)的盲目信賴使得法院從處于中立位置的裁判者變成了技術(shù)主導(dǎo)的被動接受者,大數(shù)據(jù)技術(shù)的專業(yè)性鴻溝會使得法官對其產(chǎn)生的證據(jù)無法做出準(zhǔn)確的理解判斷。這種“必信”傾向?qū)嵸|(zhì)上是將對證據(jù)證明力的判斷前置給偵查機關(guān),易回到偵查中心主義的模式而影響以審判為中心的刑事訴訟改革。而有的法院在審判時基于保守的思維慣性,為了使審判結(jié)果不引發(fā)輿論爭議而排斥適用大數(shù)據(jù)證據(jù),以避免新興技術(shù)對法庭的沖擊。這種“必排”傾向易倒逼偵查機關(guān)回歸提供傳統(tǒng)證據(jù)的模式,進而影響司法改革。由此可見,對大數(shù)據(jù)證據(jù)一味的“必信”或“必排”都不利于司法進步,反而會造成一系列消極的后果。我們應(yīng)做的工作是克服大數(shù)據(jù)證據(jù)客觀性的制約因素,使大數(shù)據(jù)證據(jù)真正為案件事實“說話”,進而確保司法改革的有效推進。
大數(shù)據(jù)從“材料”到“證據(jù)”需要經(jīng)過三個環(huán)節(jié),即基礎(chǔ)數(shù)據(jù)的匯總和清洗環(huán)節(jié)、建構(gòu)分析模型和機器算法環(huán)節(jié)以及運算和分析報告形成環(huán)節(jié)。這三個環(huán)節(jié)又可以細(xì)分為數(shù)據(jù)錄入、數(shù)據(jù)存儲、數(shù)據(jù)傳輸、數(shù)據(jù)提取、數(shù)據(jù)清洗和算法運用等子環(huán)節(jié)。這些子環(huán)節(jié)中,都可能存在有制約大數(shù)據(jù)證據(jù)客觀性的因素。
原始數(shù)據(jù)錄入主要包括兩種形式:系統(tǒng)自動生成和人工生成。前者數(shù)據(jù)不易受機器操縱者主觀意識的干擾而具有較強的可靠性,但依舊存在機器識別錯誤、掃描上傳錯誤等影響數(shù)據(jù)客觀性的隱患。后者采取特定人手動輸入的方式進行登記,這種人工生成的數(shù)據(jù)可能會因為輸入者的故意或者過失而出現(xiàn)錯誤或者失真。
數(shù)據(jù)存儲環(huán)節(jié)主要存在系統(tǒng)故障、黑客入侵以及用戶誤操作等影響數(shù)據(jù)客觀性的隱患。首先,軟件系統(tǒng)故障可能會損害數(shù)據(jù)完整性。如兩個不能兼容的軟件同時運行,可能會導(dǎo)致程序被迫中止的后果,甚至?xí)斐上到y(tǒng)崩潰,數(shù)據(jù)丟失。再如軟件版本與運行環(huán)境配置不兼容,可能會導(dǎo)致系統(tǒng)死機,文件丟失或被修改等后果。其次,黑客入侵可能會導(dǎo)致數(shù)據(jù)盜取和數(shù)據(jù)篡改。2017 年6 月,某市某單位培訓(xùn)中心在一次省級培訓(xùn)考試后發(fā)現(xiàn)通過考試的人員名單高達上千人,而本單位實際參加培訓(xùn)考試并通過的僅有兩人。通過與省級單位核實,確認(rèn)多出來的人員并未參加考試,而名單卻出現(xiàn)在網(wǎng)上。隨后該市公安機關(guān)展開偵查,發(fā)現(xiàn)該考試系統(tǒng)存在較大安全隱患,極易被不法分子侵入數(shù)據(jù)庫并篡改信息。此次被篡改的信息更是高達上萬條。在后續(xù)對犯罪嫌疑人進行訊問時,犯罪嫌疑人交代其利用網(wǎng)絡(luò)漏洞非法篡改信息并借此來牟利的事實[11]?,F(xiàn)實中,數(shù)據(jù)被泄露、盜取的現(xiàn)象屢見不鮮,如2020 年1 月化妝品巨頭雅詩蘭黛4.4 億條郵箱記錄被泄露,2020 年4 月2.67 億個Facebook 賬戶信息在暗網(wǎng)被出售[12]。由此可見,黑客經(jīng)常利用系統(tǒng)漏洞、弱口令等安全防護較薄弱的環(huán)節(jié)侵入數(shù)據(jù)庫并篡改、盜取數(shù)據(jù)。再次,用戶誤操作也可能會導(dǎo)致數(shù)據(jù)丟失。如誤刪信息、強制關(guān)機、格式化等。除此之外,硬盤損壞、自然災(zāi)害等也可能導(dǎo)致數(shù)據(jù)損壞、丟失。
大數(shù)據(jù)材料需要經(jīng)歷數(shù)據(jù)傳送、數(shù)據(jù)保管等環(huán)節(jié),才有可能轉(zhuǎn)變?yōu)榭稍诜ㄍド铣鍪疽宰C明案件事實的大數(shù)據(jù)證據(jù)。這些環(huán)節(jié)存在一定的數(shù)據(jù)安全隱患,有可能會造成數(shù)據(jù)失真。首先,在數(shù)據(jù)傳送的過程中,元數(shù)據(jù)脫離會導(dǎo)致法官對大數(shù)據(jù)證據(jù)中海量數(shù)據(jù)集的原始性存疑。元數(shù)據(jù)就是指數(shù)據(jù)的數(shù)據(jù),是對數(shù)據(jù)本身屬性信息的描述,一般附加在數(shù)據(jù)之中,不宜直接查看。如一張照片,其拍攝的相關(guān)信息就是元數(shù)據(jù),主要包括拍攝時間、位置信息、拍攝參數(shù)、拍攝器材等。在實踐中,許多大數(shù)據(jù)證據(jù)在法庭中僅僅以軌跡截圖、人臉識別截圖等圖片形式簡單呈現(xiàn),而無元數(shù)據(jù)信息可供審查驗證,法官和辯護方會對其原始性產(chǎn)生懷疑,最終可能被排除。所以在數(shù)據(jù)傳送的過程中,元數(shù)據(jù)不能丟失,要一同提取保存以備后期驗證之需[13]。其次,在數(shù)據(jù)傳送的過程中,數(shù)據(jù)可能在壓縮、加密、轉(zhuǎn)換等處理過程中出現(xiàn)丟失或者變形。大數(shù)據(jù)證據(jù)的數(shù)據(jù)集與電子數(shù)據(jù)顯著不同的一點在于其數(shù)據(jù)集的海量性,大數(shù)據(jù)材料中數(shù)量級的單位一般用PB⑧來表示,其數(shù)據(jù)集的規(guī)模已經(jīng)遠(yuǎn)遠(yuǎn)超出傳統(tǒng)的數(shù)據(jù)庫軟件工具能力范圍。所以,專業(yè)人員在對數(shù)據(jù)進行傳送時往往需要對數(shù)據(jù)集進行壓縮處理。同時,如果數(shù)據(jù)涉及到秘密問題,專業(yè)人員在對數(shù)據(jù)進行傳送時往往會對數(shù)據(jù)進行加密,對數(shù)據(jù)進行傳送時也會將其格式進行轉(zhuǎn)換,這些處理都容易導(dǎo)致數(shù)據(jù)信息丟失或變形。最后,數(shù)據(jù)保管的過程中,偵查人員缺乏專業(yè)的技術(shù)能力或操作不當(dāng)也會導(dǎo)致數(shù)據(jù)失真的情況。
首先,取證主體合法性存疑。在實踐操作中,海量數(shù)據(jù)集的提取一般參照電子數(shù)據(jù)的提取標(biāo)準(zhǔn)。2014 年“兩高一部”《關(guān)于辦理網(wǎng)絡(luò)犯罪案件適用刑事訴訟程序若干問題的意見》中規(guī)定:收集、提取電子數(shù)據(jù),應(yīng)當(dāng)由二名以上具備相關(guān)專業(yè)知識的偵查人員進行。取證設(shè)備和過程應(yīng)當(dāng)符合相關(guān)技術(shù)標(biāo)準(zhǔn),以保證所收集、提取的電子數(shù)據(jù)的完整性、客觀性。2016 年“兩高一部”《關(guān)于辦理刑事案件收集提取和審查判斷電子數(shù)據(jù)若干問題的規(guī)定》第7 條規(guī)定:收集、提取電子數(shù)據(jù),應(yīng)當(dāng)由二名以上偵查人員進行。取證方法應(yīng)當(dāng)符合相關(guān)技術(shù)標(biāo)準(zhǔn)。2019 年公安部發(fā)布的《公安機關(guān)辦理刑事案件電子數(shù)據(jù)取證規(guī)則》第6 條規(guī)定:收集、提取電子數(shù)據(jù),應(yīng)當(dāng)由二名以上偵查人員進行。必要時,可以指派或者聘請專業(yè)技術(shù)人員在偵查人員主持下進行收集、提取電子數(shù)據(jù)?!蹲罡呷嗣穹ㄔ宏P(guān)于適用〈中華人民共和國刑事訴訟法〉的解釋》第112 條規(guī)定:“對收集、提取電子數(shù)據(jù)是否合法,應(yīng)當(dāng)著重審查以下內(nèi)容:(一)收集、提取電子數(shù)據(jù)是否由二名以上調(diào)查人員、偵查人員進行,取證方法是否符合相關(guān)技術(shù)標(biāo)準(zhǔn)……”綜合上述法律法規(guī)可以發(fā)現(xiàn),對偵查人員具備計算機類專業(yè)知識的要求過于嚴(yán)苛,導(dǎo)致難以執(zhí)行,法律也逐步放寬標(biāo)準(zhǔn),不要求偵查人員具備專業(yè)技術(shù)知識,只是要求其取證方法必須符合相關(guān)技術(shù)標(biāo)準(zhǔn),并通過指派或者聘請專業(yè)技術(shù)人員的方式來彌補偵查人員在相關(guān)專業(yè)知識領(lǐng)域的不足,這其實是法律對現(xiàn)行偵查困境的妥協(xié)[14]。
但是在實踐中,偵查人員往往對海量數(shù)據(jù)集進行先一步處理,發(fā)現(xiàn)確有處理困難時再指派或聘請專家對數(shù)據(jù)集進行進一步處理的現(xiàn)狀。此時,專家處理的實際上并非原始數(shù)據(jù)集,而是偵查人員先行處理過的數(shù)據(jù)集,這就無法保證數(shù)據(jù)集的客觀性。
其次,取證程序缺乏統(tǒng)一標(biāo)準(zhǔn)和規(guī)定。一方面,目前尚未有針對大數(shù)據(jù)證據(jù)相關(guān)問題專門的法律規(guī)范。另一方面,偵查人員對大數(shù)據(jù)證據(jù)進行提取時常以《關(guān)于辦理刑事案件收集提取和審查判斷電子數(shù)據(jù)若干問題的規(guī)定》以及《公安機關(guān)辦理刑事案件電子數(shù)據(jù)取證規(guī)則》等規(guī)定為參考,但這些規(guī)定之間較為分散,尚不具備體系化的特點。這就使得偵查人員在對大數(shù)據(jù)證據(jù)進行取證時缺乏統(tǒng)一的參考標(biāo)準(zhǔn)以及具體的操作流程,容易導(dǎo)致數(shù)據(jù)提取不全、不同人員提取結(jié)果不同、數(shù)據(jù)提取操作錯誤等問題。如在對數(shù)據(jù)進行提取時,由于沒有統(tǒng)一的程序標(biāo)準(zhǔn),不同的偵查人員受主觀認(rèn)識、經(jīng)驗?zāi)芰Φ榷喾矫嬉蛩赜绊?,可能會提取不同的?shù)量及范圍。這樣,有的偵查人員提取的數(shù)據(jù)可能不完善,從而導(dǎo)致數(shù)據(jù)分析結(jié)果出現(xiàn)偏差。
最后,取證工具未與時俱進。大數(shù)據(jù)與云計算密不可分,云計算是基于互聯(lián)網(wǎng)絡(luò)平臺的一種服務(wù),大數(shù)據(jù)取證工具理應(yīng)支持網(wǎng)絡(luò)連接和分布式計算。但目前常見的取證工具基本上不支持網(wǎng)絡(luò)連接,這就容易造成不能數(shù)據(jù)提取、數(shù)據(jù)提取不全等問題。
宏觀意義上的大數(shù)據(jù)是指“全體數(shù)據(jù)”,這些基礎(chǔ)數(shù)據(jù)具備數(shù)據(jù)總量大、數(shù)據(jù)非結(jié)構(gòu)化性質(zhì)突出和數(shù)據(jù)價值密度低的特征,因此無法被直接認(rèn)識、理解,需要通過數(shù)據(jù)清洗將其轉(zhuǎn)換成符合質(zhì)量要求的數(shù)據(jù)再運用技術(shù)對轉(zhuǎn)換后較高質(zhì)量的數(shù)據(jù)進行分析并最終形成分析報告。一方面,不同的數(shù)據(jù)分析人員對案件的認(rèn)識角度和深度不同,其對數(shù)據(jù)清洗的選擇側(cè)重點存在差異,其分析結(jié)果也不相同。換言之,對原始數(shù)據(jù)集,不同的數(shù)據(jù)分析人員可能會得出不同的分析結(jié)論,即使是同一人,在偵查的不同時間段對相同的原始數(shù)據(jù)進行處理分析所得的結(jié)論也不一定完全相同。另一方面,存在數(shù)據(jù)重疊現(xiàn)象。以網(wǎng)絡(luò)詐騙案件為例,網(wǎng)絡(luò)詐騙犯罪往往是犯罪團伙采取“一對多”模式隨機選擇被害人進行詐騙。同一個被害人有可能被該犯罪團伙中不同的犯罪人分別詐騙。偵查人員對該案件進行偵查時,需要對犯罪團伙詐騙的人數(shù)以及金額進行匯總,如果在數(shù)據(jù)清洗的過程中沒有進行去重,就會造成數(shù)據(jù)重疊,最終導(dǎo)致對犯罪人據(jù)以定罪量刑的金額進行可視化分析時,計算的金額超出實際的金額,從而不利于犯罪嫌疑人合法權(quán)利的保障。
算法是數(shù)學(xué)、計算機學(xué)科的專門術(shù)語,是指解題方案的準(zhǔn)確而完整的描述,是一系列解決問題的清晰指令。算法是大數(shù)據(jù)技術(shù)的核心,當(dāng)前絕大多數(shù)的大數(shù)據(jù)技術(shù)主要采取深度學(xué)習(xí)的技術(shù)路徑來實現(xiàn)對數(shù)據(jù)的自動提取、挖掘、碰撞與分析。但是科學(xué)技術(shù)不等同于確定性,更不等同于真理,算法也是如此。
算法是解決某一問題的思路,其在計算機上的實現(xiàn)要依賴于程序?qū)⑵滢D(zhuǎn)化為計算機的命令語言,而程序以代碼為載體,故算法的準(zhǔn)確與否與程序代碼有必然的聯(lián)系。源代碼在計算機程序中起基礎(chǔ)性作用,是指由程序員編寫的原始文件。程序員編寫源代碼時會具有一定的主觀性傾向。這也就不可避免地存在算法偏見和算法歧視。另外,機器的自主學(xué)習(xí)特征會驅(qū)動其對數(shù)據(jù)進行再加工,從而導(dǎo)致原始事實失真。
2019 年1 月10 日,國家互聯(lián)網(wǎng)信息工作室發(fā)布了《區(qū)塊鏈信息服務(wù)管理規(guī)定》。2019 年10 月24 日,習(xí)近平總書記在中央政治局第十八次會議上強調(diào)“把區(qū)塊鏈作為核心技術(shù)自主創(chuàng)新的重要突破口”。2021 年3 月11 日,第十三屆全國人大四次會議表決通過了《關(guān)于國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035 年遠(yuǎn)景目標(biāo)綱要》的決議,將區(qū)塊鏈?zhǔn)状渭{入國家五年規(guī)劃中,充分體現(xiàn)了國家對區(qū)塊鏈技術(shù)的高度重視[15]。區(qū)塊鏈技術(shù)側(cè)重于大數(shù)據(jù)證據(jù)的形成,具有實現(xiàn)數(shù)據(jù)流通全過程的有效記錄且保證數(shù)據(jù)不被篡改的重要作用,能在源頭上進一步確保數(shù)據(jù)的真實性,有效地加強大數(shù)據(jù)證據(jù)的證明效力。從此立場上可窺見夯實區(qū)塊鏈技術(shù)深度應(yīng)用的重要性。
1.實行數(shù)據(jù)自動化錄入
數(shù)據(jù)自動化錄入相比較于手動錄入,更加準(zhǔn)確可靠。為了保證數(shù)據(jù)錄入的真實性,首先要實現(xiàn)信息錄入的全自動化,尤其是企事業(yè)單位的員工檔案信息,吃、住、行、消、玩等重點場所的人員登記信息,七類重點人員⑨的基礎(chǔ)身份信息等重要數(shù)據(jù)信息的錄入,要避免手動錄入,以防錄入人員故意或過失造成數(shù)據(jù)錯誤。
2.保證數(shù)據(jù)上鏈的可信性
哈希值嵌套和去中心化技術(shù)能保證存入?yún)^(qū)塊鏈上的證據(jù)不被修改,進而保證證據(jù)的真實性。哈希值通俗來說就是某個字符段的“DNA”,電子數(shù)據(jù)是通過二進制表達的,哈希算法可以將任意長度的二進制值映射為固定長度的較小二進制值,這個較小二進制值就是任意長度的二進制值的哈希值,具有唯一性的特點。一旦數(shù)據(jù)發(fā)生變化,哪怕是一個文字、數(shù)字、字母甚至標(biāo)點符號的變化,都會引起最終所得的哈希值的變化。換言之,只要將最新所得的哈希值與最原始的哈希值進行對比就可以得出數(shù)據(jù)是否具有原始性,如果兩個哈希值相同,則證明數(shù)據(jù)具有原始性,反之,則證明數(shù)據(jù)被改動過。在實踐中,哈希值通常是起固定原始數(shù)據(jù)的重要作用,但是僅憑哈希值無法保證數(shù)據(jù)不被篡改。例如在中心化的大環(huán)境之下,在一個固定的模型中,終端服務(wù)器記錄所有的數(shù)據(jù)信息,所有模型中的信息和交易都要以這個終端服務(wù)器為集中進行交互,該模型就是我們常見的互聯(lián)網(wǎng)服務(wù),如微信、微博等。如果進入終端服務(wù)器中就可以直接將原來的哈希值替換為修改之后的哈希值,這樣就可以實現(xiàn)數(shù)據(jù)篡改而不被發(fā)覺。所以除哈希值以外,區(qū)塊鏈還需要去中心化技術(shù)來保證鏈上的證據(jù)不被修改。去中心化技術(shù)實際上就是打破中心化服務(wù)器的壁壘,取消唯一中心的限制,將區(qū)塊鏈上的每一個節(jié)點都變成中心,都存儲有整個數(shù)據(jù)的副本,并會定期同步更新數(shù)據(jù)。這樣,區(qū)塊鏈上的每一個區(qū)塊就都具有唯一的哈希值,一旦上一個區(qū)塊更改,哈希值就會隨之而改變,所以如果有人想要篡改某一個區(qū)塊,就必須將后面的區(qū)塊一起篡改,這就使得區(qū)塊鏈上的證據(jù)幾乎不可能被修改[16]。
但是,哈希值嵌套和去中心化技術(shù)只能保證數(shù)據(jù)上鏈后難以篡改,而不能從根本上保證鏈下數(shù)據(jù)的可靠性,因此,區(qū)塊鏈技術(shù)的應(yīng)用必須考慮到數(shù)據(jù)如何可信上鏈的問題。鏈下數(shù)據(jù)的可靠性需要各類技術(shù)之間的有機融合以及社會各方之間的高效協(xié)作。第一,技術(shù)有效融合。區(qū)塊鏈技術(shù)無法保證鏈下數(shù)據(jù)的客觀性,為克服這一缺陷,應(yīng)加強物聯(lián)網(wǎng)技術(shù)、互聯(lián)網(wǎng)技術(shù)、人工智能技術(shù)等新興技術(shù)的深度融合。如通過攝像頭固定數(shù)據(jù)在鏈下的基本狀態(tài),再與數(shù)據(jù)上鏈時的狀態(tài)進行對比,如完全一致,則說明數(shù)據(jù)上鏈時沒有發(fā)生變動,具備可信性。第二,社會高效協(xié)作。一方面,鏈下數(shù)據(jù)的可信度需要技術(shù)類企業(yè)進一步研發(fā)更為精準(zhǔn)的數(shù)字模型和機器算法,另一方面,鏈下數(shù)據(jù)的可信度還需要各行業(yè)部門制定相關(guān)的規(guī)范來進行全方位的治理和協(xié)調(diào)。
首先,完善大數(shù)據(jù)證據(jù)相關(guān)的法律規(guī)范。目前,大數(shù)據(jù)證據(jù)的提取采用的是電子數(shù)據(jù)提取相關(guān)的法律法規(guī)。根據(jù)《關(guān)于辦理刑事案件收集提取和審查判斷電子數(shù)據(jù)若干問題的規(guī)定》,電子數(shù)據(jù)是指在案件發(fā)生過程中形成的,以數(shù)字化形式存儲、處理、傳輸?shù)?,能夠證明案件事實的數(shù)據(jù)。電子數(shù)據(jù)包括但不限于以下幾類:網(wǎng)頁、博客、微博客、朋友圈、貼吧、網(wǎng)盤等網(wǎng)絡(luò)平臺發(fā)布的信息;手機短信、電子郵件、即時通信、通訊群組等網(wǎng)絡(luò)應(yīng)用服務(wù)的通信信息;用戶注冊信息、身份認(rèn)證信息、電子交易記錄、通信記錄、登錄日志等信息;文檔、圖片、音視頻、數(shù)字證書、計算機程序等電子文件。由此可見,大數(shù)據(jù)證據(jù)和電子證據(jù)中的數(shù)據(jù)在形式上存在一定的一致性。但兩者歸根結(jié)底是不同的兩個概念,兩者之間存在較大差異。一是數(shù)據(jù)涵蓋范圍不同。大數(shù)據(jù)的數(shù)據(jù)集具有海量性,其數(shù)據(jù)總量遠(yuǎn)超傳統(tǒng)的電子數(shù)據(jù)且并非是電子數(shù)據(jù)的簡單疊加。二是數(shù)據(jù)結(jié)構(gòu)形式不同。大數(shù)據(jù)的海量數(shù)據(jù)集具備非結(jié)構(gòu)化特征,數(shù)據(jù)無法被直接利用,必須要經(jīng)過數(shù)據(jù)清洗,運用專門技術(shù)進行分析,而傳統(tǒng)的電子數(shù)據(jù)僅是對簡單、結(jié)構(gòu)化數(shù)據(jù)進行的分析。三是數(shù)據(jù)與案件事實聯(lián)系不同。大數(shù)據(jù)的海量數(shù)據(jù)集價值密度低,需要通過技術(shù)分析得出結(jié)論,其與案件事實之間是一種弱相關(guān)的、模糊的聯(lián)系。傳統(tǒng)的電子證據(jù)往往能夠直接證明案件事實,與案件事實之間存在一種較強的聯(lián)系。除基礎(chǔ)數(shù)據(jù)之外,大數(shù)據(jù)證據(jù)還包括大數(shù)據(jù)分析技術(shù)和大數(shù)據(jù)分析結(jié)果,這是電子數(shù)據(jù)所不具備的。所以,不應(yīng)將大數(shù)據(jù)與電子數(shù)據(jù)混為一談,要制定和完善專門性的大數(shù)據(jù)證據(jù)的相關(guān)法規(guī),以便更好地推動大數(shù)據(jù)證據(jù)的實踐應(yīng)用。
其次,嚴(yán)密大數(shù)據(jù)證據(jù)取證的程序。第一,對最原始數(shù)據(jù)進行備份留存,防止數(shù)據(jù)分析過程中出現(xiàn)意外事件。第二,利用統(tǒng)一的技術(shù)對全數(shù)據(jù)進行轉(zhuǎn)換,從偵查人員準(zhǔn)備著手提取數(shù)據(jù)到數(shù)據(jù)處理完成需要見證人在場并且需要全程錄音錄像。第三,在數(shù)據(jù)處理完成后,需要驗證數(shù)據(jù)處理結(jié)果的完整性和科學(xué)性??梢杂删邆鋵I(yè)知識的偵查人員對最原始數(shù)據(jù)按照統(tǒng)一規(guī)定進行再次轉(zhuǎn)換,比對兩次轉(zhuǎn)換結(jié)果是否一致。第四,厘清大數(shù)據(jù)技術(shù)與絕對真實之間的差異。大數(shù)據(jù)具有混亂性的特征,數(shù)據(jù)集中必然是真假混雜的數(shù)據(jù)集合,而非全真或全假。所以對具體數(shù)據(jù)的真實性審查不能苛求絕對真實,只能做到大概率真實,即微觀意義上的大數(shù)據(jù)的真實性實質(zhì)上是一種概率論視野中的真實性。最典型的事例就是DNA 鑒定中,親子關(guān)系的鑒定結(jié)果只能達到99.99%,卻不能達到100%的絕對值。由此,大數(shù)據(jù)集的一個數(shù)據(jù)為假不代表所有數(shù)據(jù)為假,真實的數(shù)據(jù)達到一定的規(guī)模,就可以被擬定為真實性數(shù)據(jù)。
再次,加強偵查隊伍建設(shè)。目前,絕大部分偵查人員并未接受過系統(tǒng)完整的計算機專業(yè)知識與相關(guān)技能培訓(xùn),這方面的業(yè)務(wù)能力不高,往往不能獨立完成大數(shù)據(jù)證據(jù)提取任務(wù)。這就要求偵查部門一方面必須加強對偵查人員的相關(guān)業(yè)務(wù)培訓(xùn),組建具備大數(shù)據(jù)技術(shù)的專業(yè)隊伍,切實提升偵查人員整體的辦案水平和能力。另一方面應(yīng)聘請專家為偵查人員進行計算機理論知識和實踐操作的相關(guān)培訓(xùn),切實加強偵查人員在辦案中發(fā)現(xiàn)、固定、收集大數(shù)據(jù)證據(jù)的能力。
最后,確立大數(shù)據(jù)證據(jù)取證的救濟程序。應(yīng)當(dāng)平衡提取大數(shù)據(jù)證據(jù)的公權(quán)力與公民個人隱私權(quán)之間的利益。如果當(dāng)事人對偵查機關(guān)取證程序有異議,有權(quán)向同級檢察院提出異議,同級檢察院應(yīng)當(dāng)做出決定并向當(dāng)事人說明理由。如果不滿同級檢察院所做出的決定,當(dāng)事人可以向上級檢察院提出復(fù)核。
第一,完善大數(shù)據(jù)技術(shù)開發(fā)的標(biāo)準(zhǔn),降低算法偏見。設(shè)立嚴(yán)格的技術(shù)開發(fā)標(biāo)準(zhǔn)和檢測標(biāo)準(zhǔn),將新技術(shù)的源代碼匿名化交由多名公安部門的技術(shù)專家進行檢測,重點檢測源代碼的可行性、合法性、普適性和應(yīng)用的資格。新技術(shù)的源代碼必須在全部技術(shù)專家的認(rèn)可下才能投入社會進行使用,未獲得全部專家認(rèn)可、但超過半數(shù)專家認(rèn)可的源代碼有二次檢測的資格。低于半數(shù)專家認(rèn)可的源代碼則因不具備一般的可信度而被直接拒之門外。這種檢測模式,可以大大提高技術(shù)本身的可信度。
第二,建立源代碼分級公開制度。有學(xué)者認(rèn)為,既然基于機器學(xué)習(xí)的大數(shù)據(jù)證據(jù)被作為證據(jù)提交法庭,那就應(yīng)當(dāng)要求設(shè)計者公開技術(shù)方案,否則大數(shù)據(jù)證據(jù)就難以滿足真實性標(biāo)準(zhǔn)。但是源代碼往往涉及技術(shù)公司核心的商業(yè)秘密,完全公開有可能導(dǎo)致惡性商業(yè)競爭以及技術(shù)人員開發(fā)技術(shù)的積極性降低等后果。針對這種完全公開的理想狀態(tài)和完全不公開的現(xiàn)實狀態(tài)之間產(chǎn)生的分歧,可以選擇折中處理,建立源代碼分級公示制度,將源代碼公開根據(jù)具體的情況分為三個等級——必須公開、申請公開以及不公開:當(dāng)大數(shù)據(jù)證據(jù)承擔(dān)認(rèn)定事實的主要責(zé)任,是證明案件的核心證據(jù)時,源代碼應(yīng)當(dāng)公開;當(dāng)大數(shù)據(jù)證據(jù)充當(dāng)認(rèn)定事實的間接證據(jù),主要用于印證其他證據(jù)的證明能力時,源代碼可以公開,但需要經(jīng)過申請以及嚴(yán)格的審批程序;當(dāng)大數(shù)據(jù)證據(jù)對事實的認(rèn)定基本不產(chǎn)生影響時,法官應(yīng)當(dāng)決定不公開,以保護商業(yè)秘密不被泄露。除分級公開以外,源代碼還應(yīng)當(dāng)通過通俗易懂的可視化方式,如制作動畫、PPT 等,配合專業(yè)人員的解讀,首先向辯護人公開。如果沒有辯護人,再向被告人及其近親屬公開。同時,所有接觸源代碼的人員都需要同技術(shù)公司就源代碼簽署保密協(xié)議。
大數(shù)據(jù)證據(jù)的運用專業(yè)性強,控方有專業(yè)的鑒定人員以及技術(shù)化人才,如果辯方?jīng)]有相應(yīng)的具備專門知識的人員,就難以展開有效辯護,這顯然不利于庭審目標(biāo)的實現(xiàn)。所以,為強化庭審對抗,應(yīng)當(dāng)完善專家輔助人制度,提高專家輔助人的法律地位。首先,專家輔助人的資格要有明確的制度規(guī)定,內(nèi)容包括通過綜合考慮專家輔助人的專業(yè)領(lǐng)域、執(zhí)業(yè)經(jīng)驗、業(yè)內(nèi)評價等相關(guān)因素,選擇專業(yè)的程序人員對源代碼進行檢驗分析,確定源代碼的可信度等。其次,明確專家輔助人的權(quán)利義務(wù)。專家輔助人享有對公開的源代碼閱卷的權(quán)利以及在法庭上發(fā)表專業(yè)意見的權(quán)利,同時專家輔助人也要承擔(dān)對源代碼保守秘密的義務(wù)。最后,對專家輔助人的知情權(quán)進行明確界定。專家輔助人畢竟不是案件的當(dāng)事人,其主要任務(wù)就是對源代碼進行可信度鑒別,為辯護方提供相應(yīng)的專業(yè)性意見。所以,對專家輔助人的知情權(quán)應(yīng)當(dāng)進行一定的限制,只允許其知曉與大數(shù)據(jù)證據(jù)相關(guān)的案件信息,其他信息一律不對其公開。
綜上所述,大數(shù)據(jù)證據(jù)作為新興科學(xué)技術(shù)支持下的證據(jù)類型,在司法實踐中得到進一步應(yīng)用已是大勢所趨,我們要順應(yīng)時代發(fā)展潮流,聚焦司法公正,加快推進有關(guān)工作,不斷克服影響大數(shù)據(jù)證據(jù)客觀性的因素,提高大數(shù)據(jù)證據(jù)運用的水平。
注釋:
①資料來源于【中國裁判文書網(wǎng)】收錄的《廣東省臺山市人民法院刑事判決書》(〔2019〕粵0781 刑初274 號),查閱日期:2022年8月1日。
②資料來源于【中國裁判文書網(wǎng)】收錄的《湖南省瀘溪縣人民法院刑事判決書》(〔2021〕湘3122刑初73號),查閱日期:2022年8月1日。
③資料來源于【中國裁判文書網(wǎng)】收錄的《江蘇省高級人民法院刑事裁定書》(〔2019〕蘇刑終107 號),查閱日期:2022 年8 月1日。
④資料來源于【中國裁判文書網(wǎng)】收錄的《四川省鄰水縣人民法院刑事判決書》(〔2020〕川1623刑初92號),查閱日期:2022年8月1日。
⑤資料來源于【中國裁判文書網(wǎng)】收錄的《山東省德洲市中級人民法院刑事裁定書》(〔2021〕魯14 刑終122 號),查閱日期:2022年8月1日。
⑥資料來源于【中國裁判文書網(wǎng)】收錄的《湖北省襄陽市中級人民法院刑事判決書》(〔2021〕鄂06 刑初2 號),查閱日期:2022年8月1日。
⑦資料來源于【中國裁判文書網(wǎng)】收錄的《內(nèi)蒙古自治區(qū)高級人民法院刑事裁定書》(〔2019〕內(nèi)刑終216號),查閱日期:2022年8月1日。
⑧PB指petabyte,是較高級的存儲單位,1PB=1024TB=1048576GB。
⑨七類重點人員包括:涉恐人員、涉穩(wěn)人員、涉毒人員、在逃人員、重大刑事犯罪前科人員、重性精神病人、重點上訪人員。