王志剛,王雁翔
(重慶郵電大學,重慶 400065)
元數據在法學領域是一個較為陌生的概念,即使出現,也通常是電子數據真實性認定的依據,鮮少作為獨立證據出現。大數據技術的出現使得人類對數據的運用達到極致,元數據在大數據技術的加持下改變了獲取信息的方式,通過整合梳理元數據所獲取的信息在價值上正逐步追趕甚至超過傳統(tǒng)的內容信息。但同時,對元數據規(guī)制的缺失也使得在運用元數據獲取信息時可能對公民的隱私權造成一定的影響。目下我國已將數據列為第四種生產要素,而大數據技術的迅猛發(fā)展和在各領域的普遍使用,也將進一步提升對元數據的應用需求。在法學領域,已有學者注意到元數據對信息獲取的作用,但并未進行深入研究[1]。通過查閱相關外文文獻與案例,筆者認為元數據在證據法領域中應用前景十分廣泛,既可以通過描述數據外部特征對證據進行鑒真,又可以通過描述數據內容特征而提供相關線索用于收集信息,還可以通過對元數據進行整合、分析而提煉、還原相關案件事實。鑒于此,本文擬對元數據的屬性及其適用進行探討,以期拋磚引玉。
“法律的基本作用之一乃是使人類為數眾多、種類紛繁、各不相同的行為與關系達致某種合理程度的秩序,并頒布一些適用于某些應予限制的行動或行為的行為規(guī)則或行為標準。為能成功地完成這一任務,法律制度就必須形成一些有助于對社會生活中多種多樣的現象與事件進行分類的專門觀念和概念”,因為“沒有限定嚴格的專門概念,我們便不能清楚地和理性地思考法律問題”[2]。元數據這一概念雖早已提出,但大多運用在計算機科學和圖書情報學等領域當中,在法學領域并沒有專門的概念,因此,當務之急是明晰元數據在法學領域中的概念。
元數據即描述數據的數據,英文表述為“data about data”,這是元數據的基本概念。這一定義有利于幫助學界初步理解元數據,但因其范疇過于寬泛,故無法在法學研究里被用作“辨識那些具有相同或共同要素的典型情形的工作性工具”[2],難以作為法學理論研究的起點與基石。而明確元數據的證據屬性,厘清元數據的概念是基礎和前提,因此,有必要為元數據下一個清晰的定義。理論指導實踐,而實踐又能推動理論的發(fā)展,元數據在司法實踐中的運用,使得明確其法學定義成為可能。但由于我國司法實踐中,對元數據的運用并不成熟,因此需要參考域外經驗來對元數據的概念進行辨析。
美國聯邦法規(guī)關于電子記錄管理的規(guī)定提出:元數據由保留、跟蹤、管理的描述電子文檔上下文信息的歷史記錄組成。日本學者認為元數據是由信息系統(tǒng)(如計算機)自動創(chuàng)建或授予的信息[3]??梢悦鞔_的是,元數據是自動生成的、無須人為創(chuàng)制的電子記錄,通常情況下無法更改,具有更高的穩(wěn)定性,因而具有憑證價值。因此,在運用電子數據作為證據時,可以發(fā)揮元數據的憑證價值,運用元數據來對電子數據進行鑒真。2013 年6 月,前美國中央情報局職員愛德華·斯諾登向媒體披露了“棱鏡計劃”。該計劃要求美國電信巨頭威瑞森(Verizon)公司每天向美國國家安全局提交數百萬用戶的電話元數據,美國情報部門大規(guī)模電話元數據監(jiān)控隨之浮出水面。這里的電話元數據,包括各種通信路由信息,包括但不限于通訊標識信息(例如,撥打和接聽的電話號碼、國際移動用戶識別碼、國際移動設備身份碼等)、中繼線標識符、電話呼叫卡號碼、通訊時間和通訊持續(xù)時間[4]。在美國訴克里斯蒂案①United States v.Christie,624 F.3d 558,574(3d Cir.2010).中,則將用于路由互聯網通信的元數據視作“互聯網模擬信封標記”,如電子郵件上的發(fā)件人和收件人地址或IP 地址。同時,美國《外國情報監(jiān)視法案》則將元數據看作“一個特定選擇項”,并且這一“特定選擇項可以作為基礎”,用來尋找“出示證據時所需提交的有形物(指文件、記錄、檔案、賬冊和憑證)”。這與英國公共檔案館在《電子文件管理指南(1999)》中提出的“元數據指的是關于某份文件和文件賴以存在的集合體的信息(如它們的背景聯系及關系)”②Public Record Office.Management,Appraisal and Preservation of Electronic Records.定義相接近,即承認元數據對信息的檢索作用,以此發(fā)揮元數據的情報價值。
綜上所述,元數據有兩項重要價值,一是憑證價值,二是情報價值。就憑證價值而言,元數據可以用來對電子數據進行鑒真,但此時“元數據”這一概念完全等同于計算機科學中的“元數據”,尚無必要將其在法學領域重新定義;而就情報價值而言,元數據則能用來檢索各種數據,還能與內容信息區(qū)別開來。以電信通話為例,通話雙方的通話內容屬于內容信息;而雙方的電話號碼、通話時長等,就可以稱為電話元數據,是與內容信息無關的相關信息。大數據時代,人們的生產、學習、工作、生活等方面都與數據息息相關。一次通話、一次移動支付,甚至一次行走,都可以產生海量的元數據。而通過對一段時間元數據的分析,就可以輕易掌握被監(jiān)控主體的個人喜好、職業(yè)習慣、社會家庭關系等敏感信息。這些信息如果運用得當,會成為預防、打擊犯罪的利器;如果濫用,則是對公民隱私權的極大侵犯。此時,要想運用法律對監(jiān)控、收集、分析元數據的行為進行規(guī)制,就需要對元數據的概念進行法學意義上的界定。故法學領域中的元數據,應當是指在數據生成、傳輸過程中,由信息系統(tǒng)自動創(chuàng)建或授予的,可以證明案件事實、發(fā)現案件線索或證據的,與數據信息內容無關的相關信息。
作為一種信息系統(tǒng)自動創(chuàng)建或授予的電子記錄,元數據與電子數據存在交叉關系。而大數據時代的來臨則改變了獲取信息的方式,相較于傳統(tǒng)的數據時代,大數據時代更注重對元數據的獲取和使用。大數據證據作為一種新興的證據,受到了廣泛的關注。而大數據證據的獲取,正是通過對元數據的深度挖掘進行的。元數據的這些特性要求筆者必須先將元數據與電子數據、大數據證據的關系闡釋清楚,而后論證其在證據體系的重要性和獨立性。
最高人民法院、最高人民檢察院、公安部在《關于辦理刑事案件收集提取和審查判斷電子數據若干問題的規(guī)定》中指出,電子數據是案件發(fā)生過程中形成的,以數字化形式存儲、處理、傳輸的,能夠證明案件事實的證據。同時,該規(guī)定較為詳細地列舉了電子數據的表現形式,電子數據包括但不限于下列信息、電子文件:(一)網頁、博客、微博客、朋友圈、貼吧、網盤等網絡平臺發(fā)布的信息;(二)手機短信、電子郵件、即時通信、通訊群組等網絡應用服務的通信信息;(三)用戶注冊信息、身份認證信息、電子交易記錄、通信記錄、登錄日志等信息;(四)文檔、圖片、音視頻、數字證書、計算機程序等電子文件。從內涵來看,元數據應當屬于電子數據。但從電子數據的外延來看,元數據則不應屬于電子數據。這是因為電子數據是由自然科學引入法學學科的外來概念,其內涵的界定受到自然科學的影響,而元數據這一概念同樣來自自然科學,且在自然科學中元數據確實屬于電子數據;但電子數據的外延則是在法律實踐中逐步明確的,也正是這些外延組成了法律意義上的電子數據,使其成為法律職業(yè)共同體都認可的“工作性工具”。鑒于此,元數據并不屬于法律意義上的電子數據。但由于內涵上的重合,二者容易發(fā)生混淆,因此還是需要對元數據與電子數據中的一些相關概念進行辨析。
有學者根據電子數據多維信息的不同功能,將電子數據劃分為事實信息數據與附屬信息數據[5]。在電子數據的內涵下,當元數據用作證明案件事實時,元數據就屬于事實信息數據;當元數據用作鑒真時,就屬于附屬信息數據。這一理論分類標準突破了以往元數據只能用作鑒真、只屬于附屬信息的看法,承認了元數據對案件事實的證明作用。但這一理論分類,無法解決元數據在收集時的規(guī)制問題。屬于事實信息數據的元數據與屬于附屬信息數據的元數據,在收集和運用時對數據量的獲取、對隱私的披露程度顯然不同。但在初始的數據收集中,很難把握當下的元數據屬于何種信息,可能會造成元數據收集泛濫。換言之,事后進行分類不能為事前規(guī)制提供必要的理論支持。但對元數據的收集進行事前規(guī)制,是合法、合理利用元數據極其重要的一環(huán)。因此,將元數據納入電子數據內涵的同時并在這一分類的基礎上進行研究是有局限性的。
同元數據一樣,大數據證據的證據屬性同樣存在爭議。目下,理論探討及司法實踐均認可大數據證據對于證明案件事實的重要作用,但究竟是將這類證據劃入已有的證據形式或使之附屬于其他證據形態(tài),還是承認其獨立的證據屬性,將之列為單獨的證據種類,學者們對此議論紛紛,莫衷一是。有學者認為大數據證據“結論部分的意見表達是普通人無從憑借常識就能理解的”,如果將討論范圍限定在“我國現行法律框架中,只有鑒定意見與之相符”[6]。亦有學者認為,不能囿于現行法律框架討論大數據證據,“未來的證據法當中,大數據分析報告有必要單獨列出來作為獨立的證據種類”[7]。
筆者傾向“獨立論”的觀點。誠然,大數據證據與鑒定意見有一定的相似之處,但還存在一些不容忽視的差別,元數據與大數據證據的關系,并不似檢材與鑒定意見的關系。此外,數據已經滲透了人類世界的方方面面,海量的數據足以描繪出任何人學習、生活、工作的場景。隨著5G 時代的到來,數據價值必然會得到進一步提升,大數據證據的證明價值勢必會進一步提升。因此,賦予大數據證據以獨立的法律地位,是未來證據法發(fā)展的一個重要方向。元數據作為大數據證據重要的證明基礎,其重要性不言而喻,與此同時賦予元數據以獨立的證據屬性,則能更為有效地實現大數據證據的證據價值。
1.元數據是大數據證據的證明基礎
大數據證據的適用得益于大數據技術對元數據的深度挖掘。換言之,元數據是大數據證據的證明基礎,沒有元數據,大數據證據就喪失了獲取信息的渠道,之后對大數據進一步的分析也就無從談起。大數據時代的到來,改變了獲取信息的實現方式。傳統(tǒng)的數據時代獲取信息,通常是通過了解信息的內容;而在大數據時代,信息的形式即元數據,則更為重要。大數據技術通過收集這些批量元數據,對其進行深度挖掘,之后通過分析與比對,可以輕松構建個人的數字化身。這一數字化身可以理解為個人數字自我的虛擬表示,并可能潛在代表一個實際的人。此時,關于個人的任何信息都將一覽無余。而這一切的建立,正是基于對元數據的科學分析。巧婦難為無米之炊,沒有了元數據的支撐,大數據證據就成了無源之水,無本之木。
大數據的應用需要“利用所有的數據,而不再僅僅依靠一小部分數據”[8]。在大數據中,整體即樣本,數據的質量是極為重要的。大數據可以實現對大量數據短時間內的篩選、分類和查詢。而對這些數據進行科學分析,是形成大數據證據的關鍵步驟。分析結果是否科學、可靠,不僅體現在模型與算法的正確上,也體現在數據的可信度上。數據的可信度,不僅要求在技術上是可信的,還要求在法律上是可信的。這就要求用作分析的元數據必須是合法取得的。只有元數據具有法律上的可采性,經過分析后所呈現出的大數據證據才有可能被采納。
2.元數據屬于廣義的大數據證據
在證據法中,一般將證據生成的過程分為原生和衍生。由案件事實直接生成證據的過程,就是證據的原生過程;而諸如對犯罪現場進行勘驗形成勘驗筆錄、對物證和書證進行技術鑒定形成鑒定意見等新的證據,證人將自己的見聞告知他人而形成的傳聞證據等,均屬證據的衍生現象[9]。大數據證據的生成,應屬于證據的衍生現象。從技術原理來講,大數據要想被用作證據,通常要經過三個環(huán)節(jié):一是將數據匯總,并進行數據清洗;二是建構分析模型或機器算法;三是進行運算形成分析結論[6]。因此,大數據證據經常被我國學者表述為大數據分析結果或報告[6]、抑或是大數據材料[7]。無論何種表述,都意味著大數據必須經過一定的分析、解讀,才可能成為證據法意義上的證據。事實上,對包括元數據在內的所有數據在證據上的運用,都需要通過“轉化”,將其變?yōu)橐话闳丝梢粤私獾摹笆聦嵳Z言”。
元數據與大數據證據最根本的差別,就在于數據量的多少。而元數據與大數據證據最本質的相同點,也恰恰在于數據量的多少。這兩個觀點看似矛盾,但實際上,這正凸顯大數據的本質特征。大數據中的“大”是一個具有誤導性的字,大數據中的“大”不是絕對意義上的大,雖然囿于現階段的科技發(fā)展水平,在大多數情況下是這個意思。但嚴格說來,大數據指的不是“大量的數據”,而是“全數據”。大數據采用的是所有數據的方法,即“樣本=總體”。這就意味著,只要用于分析的數據量與總體是持平的,那這種方法就是大數據方法。因此,可以說,元數據是一種特殊的大數據證據,它屬于廣義的大數據證據。
3.區(qū)分元數據與大數據證據的重要意義
雖然上文已經提及元數據是特殊的大數據證據,但是因為大數據證據生成過程較為特殊,因此將元數據并入大數據證據之中并不妥當。從理論層面來看,“案件事實一旦發(fā)生,猶如信源發(fā)出一定的信息,信息必須依附于一定的載體才有可能到達信宿”[9]。在大數據證據中,元數據是信息依附的載體,通過匯總海量的元數據所形成的大數據,則屬于新的載體,之后經過分析所形成的大數據證據才是真正的信宿。
如圖1 所示,大數據證據的生成需要兩部分載體。所謂載體,就是證據的外部表現形式,被稱為“證據種類”,又稱為“證據事實的來源”或者“證據資料”。我國三大訴訟法對各種證據種類加以明確規(guī)定,賦予其特定的名稱,并確立收集和審查判斷證據的程序和規(guī)則,以規(guī)范訴訟證明活動。這些證據種類的規(guī)定具有法律約束力,只有符合證據的法定形式,才能夠作為定案的依據[9]。因此,只有賦予元數據與大數據以獨立的法律地位,通過大數據方法取得的材料才能作為證據使用,大數據證據才能在法理上取得適用的依據。此外,在這一層面上類比來講,元數據與大數據證據的關系,就好比檢材與鑒定意見的關系。檢材本身也可以是書證、物證等法定種類的證據,并不因為在鑒定意見中使用了檢材,就使其失去了本身的獨立價值。
圖1 證據信息傳遞流程圖
從現實層面來看,大數據并不是客觀意義上存在的實在物,大數據不僅涉及數據的體量大小,同時也涉及知識創(chuàng)造的新形式、數據驅動決策以及分析性推論[10]。所以說,大數據是一種方法,而非數據。大數據證據,是使用大數據方法分析所得的證據,并不指向具體的材料。而元數據,或者說元數據集,才是真正意義上的證據載體。換言之,元數據是“因”,大數據證據是“果”。這一關系同檢材與鑒定意見有些相似,但具體而言,還是存在不同。
其一,在一個案件中,與案件有關的物品是有數的,因此檢材是相對固定的,而且一般僅僅涉及與案件有關的人和事,在收集時應當盡量全面、細致。但與案件有關的元數據卻有很多,諸如通信元數據和位置信息元數據等,這些信息的收集可能會侵犯公民的隱私權,因此需要全面判斷收集與否、收集哪些以及收集的方式。其二,鑒定意見的得出一般是基于案件事實的發(fā)生,即先發(fā)生案件,然后公安機關通過偵查獲取檢材,再對檢材進行鑒定得出鑒定意見,這一過程通常是單向的,即鑒定意見只能用來追溯已經發(fā)生的犯罪事實;而大數據證據則是雙向的,利用大數據證據,不僅能追溯犯罪事實,更能預測犯罪事實,也正是這一特點,才讓大數據偵查得以在犯罪控制中大放異彩。但是,這種追溯或者預測是建立在對元數據的大規(guī)模監(jiān)控之下的,通過這種監(jiān)控所獲取的元數據哪些可采、哪些屬于非法元數據、哪些屬于瑕疵元數據等問題直接決定分析所得的大數據證據哪些可用,哪些屬于非法證據、瑕疵證據,甚至是毒樹之果等。因此,如不賦予元數據以獨立證據屬性,就無法對以上問題進行清晰地判斷,也無從運用證據規(guī)則對大數據證據加以規(guī)制。并且,對數據源進行規(guī)制,比對大數據方法本身進行規(guī)制更加有效和簡單。綜上所述,無論是從保護公民隱私權的角度,還是規(guī)制證據適用的角度,都應該給予元數據以獨立的法律地位。
1.元數據的證據屬性
證據屬性,又稱“證據的基本特征”“證據的本質特征”。在證據法學中,具有特定屬性的材料,具有作為證據的必要條件;不具有特定屬性的材料,就沒有法庭認可的證據資格[9]。傳統(tǒng)證據法理論認為,證據應當具備關聯性、客觀性和合法性三大屬性。元數據必須具備這三個特定屬性,才能取得法庭認可的證據資格。
元數據的關聯性不同于一般理解意義上的關聯性,元數據的關聯性需要通過一定的分析加以體現。如上文所述,元數據本身是難以理解的,必須使用科學方法對其進行解讀。這一解讀的過程相當于在元數據與案件事實之間架起了一個“橋梁”,但這一“橋梁”的介入并不使得元數據與案件事實的關聯性減弱,只是使其更加直觀,這是一種形式上“間接”而實質上“直接”的關聯性。元數據的客觀性,主要表現在其作為信息系統(tǒng)自動創(chuàng)建或授予的信息,本身具有不可更改的屬性,這也是使用元數據進行鑒真的重要依據。值得注意的是,經過分析后所形成的元數據分析報告是具有一定的主觀性的。但是這種主觀性并非主觀隨意性,而是建立在專業(yè)知識上的,并輔以實踐經驗或者科學方法,它與客觀實際是相符合的。在主觀判斷與客觀實際情況相符合的情況下,主觀判斷就可以在實質上發(fā)揮證明案件真實的作用。換言之,此時證據是具有客觀性的。元數據的合法性,則要求元數據必須具有合法形式;提供、收集元數據的主體必須合法;元數據的內容必須合法以及元數據必須依照法定程序收集。我國法律目前對此并無規(guī)定,但這并不影響元數據作為證據的本質屬性。因為合法性并非證據的本質屬性,充其量它只是證據的人為附加的外在特征,目的往往在于通過排除非法證據來遏止非法取證行為,與證據自身的規(guī)定性無關。
明確了元數據作為證據的必要條件,在司法實踐中就可以從以下兩個方面加以審查。一是審查元數據的來源。即審查元數據的提供、收集主體是否合法,收集程序是否符合法定要求,收集時是否侵犯到公民隱私權等。二是審查元數據分析報告的內容。主要審查分析方法是否科學、合理以及所得結果是否與案件事實相關聯、是否客觀、能否與其他證據相互印證等。
2.元數據的證明力
證明力指的是證據在案件中對于待證事實有無證明作用或者證明作用大小。一般來講,具有客觀性并且與待證事實具有關聯性的證據都具有證明力,但證明力的大小則取決于證據本身的特性和與待證事實的關系。因此,要判斷元數據的證明力大小,首先要認識元數據在案件中的性質以及對證明待證事實所起的作用。
元數據沒有先驗的證明力。在現代信息社會,人類的每一行為都可能產生大量元數據。通過對這些元數據進行分析,可以獲得一個人的生活習慣、興趣愛好、活動軌跡等與個人密切相關的信息,甚至有可能對這個人未來的行為進行預測。因此,元數據的證明力主要表現在兩個方面。一是元數據的推定證明力。如在卡彭特訴美國案中,美國警方依據被告人手機定位數據即地理信息元數據對嫌疑人進行調查,并以此作為證據提交法院①當搶劫案發(fā)生時,每個嫌疑人都曾在距離案發(fā)地半英里到兩英里的地方使用手機。根據存儲通信法案,警方可以獲取這些記錄,并基于合理理由相信這些記錄與警方正在進行的調查相關且重要。參見Carpenter v.United States,138 S.Ct.2206;585 U.S.(2018).。雖然被告人對此提出異議,但并不針對證據的證明力,而是針對證據的可采性②被告人認為警方收集地理信息元數據的行為屬于未經批準的搜查,觸犯了美國憲法第四修正案。參見Carpenter v.United States,138 S.Ct.2206;585 U.S.(2018).。這類元數據本身就與案件事實的發(fā)生具有因果關系,只需要根據一定的經驗或常識就可以推定案件事實。二是元數據的推斷證明力。如根據每天的地理信息元數據來預測對象的職業(yè)③根據每天行進的路線、距離進行分析預測。如果路線雜亂無章,但距離長,則對象可能是外賣員、出租車司機等;如果路線基本一致,但距離長,則對象有可能是公交車司機、班車司機等;如果路線基本一致,但距離較短,則對象可能是白領、學生等。。這一類元數據只能用來證明一種推斷的可能性,在偵查階段運用這類元數據可以發(fā)現線索、縮小偵查范圍等。這種具有推斷意味、相關關系但不一定具有因果關系的元數據證據,需要與其他證據相互印證。但不論何種元數據,都只能證明案件某一事實的情節(jié)片段,因此元數據屬于間接證據。2021 年3 月1 日起施行的《最高人民法院關于適用〈中華人民共和國刑事訴訟法〉的解釋》(以下簡稱“刑事訴訟法解釋”)第一百四十條規(guī)定“沒有直接證據,但間接證據同時符合下列條件的,可以認定被告人有罪”,其中包括“證據之間相互印證,不存在無法排除的矛盾和無法解釋的疑問”。在我國,“證據相互印證”是法官對證據證明力的主要審查方式。元數據作為間接證據,可以作為證據使用,但不能作為定案的唯一或主要的根據,特別是在缺乏其他證據時,不能僅憑元數據定案,應當結合其他證據綜合研究,對比分析,相互印證,才能定案。因此,元數據的證明力,需要法官在法庭上經過質證后加以判斷。法官對元數據的評價與認定,主要是審查元數據的可靠程度與證據力價值。不可靠的元數據不能作為認定案件事實的根據;而對可靠的元數據需要結合其他證據,綜合全案的證據后能夠達到法定的證明標準時,才能賦予元數據以證明價值。由于不同種類的元數據證明的事實不同,除了與其他形式的證據互相印證之外,元數據與元數據之間能否相互印證?一般而言,間接證據之間的相互印證是指信息指向的同一。如被告人有作案動機、作案時間和條件,還在現場留下了作案痕跡、物證等,均從不同角度、以不同方式指向被告人作案這一基本事實。這些證據之間的印證即屬信息指向同一的印證[11]。因此,雖然不同元數據所蘊含的信息不同,但只要其信息指向同一,就可以相互印證。理論上來講,只要獲取的相關元數據足夠多,分析元數據的過程足夠客觀、科學,所獲取的信息量足夠大,僅憑各種元數據,就可以大致還原出整個案件事實。
綜上所述,元數據在證明案件事實中發(fā)揮著不可替代的作用,尤其是當證明發(fā)生困難、遇到疑難的情況下。利用元數據可以開辟新的思路,發(fā)現新的線索,證明新的事實以及印證其他證據。因此,對元數據的適用規(guī)則有必要專門予以研究和分析。
數據收集、存儲和處理成本的下降,以及數據處理與傳感器、攝影、地理空間等新技術的結合,表明我們正生活在一個幾乎無處不在收集數據的世界中。公安機關也開始在一系列日常行動和監(jiān)視活動中使用這些大數據,包括將之運用于巡邏、調查和犯罪分析中。元數據作為大數據分析的基礎單位,亦在其中發(fā)揮著重要作用。大數據時代,對這些元數據的收集可能在進入訴訟階段之前就在進行。為了更為妥善、高效地利用這些元數據,有必要對元數據進行二元劃分。
數據的二元劃分是指將數據在代碼符號層面和語義信息層面進行劃分。在這里需要強調的是,數據本身就是具有二元性的。即無論是否進入訴訟階段,對數據均可進行二元劃分。之所以以是否進入訴訟階段對元數據進行二元劃分,是因為需要明晰元數據在不同階段的特性,根據特性更好地對元數據予以規(guī)制。不針對特定人、特定案時對元數據的收集、存儲,可以視作沒有進入訴訟階段,此時的元數據僅作為代碼符號,不對其進行分析解讀,則難以得到有效信息。而進入訴訟階段,經過分析、解讀的具有語義信息屬性的元數據則可以提供具體化的信息。具體言之,未進入訴訟階段的元數據,是國家機關收集也好、第三方機構收集也罷,此時比較接近民法上傳統(tǒng)的物,主要關注其在權屬方面的問題,這些問題可參考相關民法原則、規(guī)則加以解決;而在語義信息層面的元數據,此時由于其含有的信息可能對公民個人權利有所損益,則需要進行更加嚴格的規(guī)制。筆者認為,在刑事訴訟領域可借鑒技術偵查中關于情報收集的相關規(guī)定。但是,技術偵查中關于情報的收集與元數據收集不完全相同,需要區(qū)別適用。同元數據收集相比,技術偵查的強制性更高?!吨腥A人民共和國刑事訴訟法》第一百四十八條規(guī)定了技術偵查的適用時間和范圍,明確提出只有特定案件在立案后才可以進行技術偵查。這些特定案件主要包括危害國家安全犯罪、恐怖活動犯罪、黑社會性質的組織犯罪、重大毒品犯罪或者其他嚴重危害社會的犯罪案件,即嚴重刑事犯罪。在代碼符號層面針對元數據的收集是全面收集,不需要區(qū)分案件類型。但在語義信息層面,是否要將元數據的收集限定在特定案件中,需要進一步進行探討。技術偵查主要針對的是對內容信息的掌握和控制,如技術偵查中的電子偵聽,就是對通話內容進行監(jiān)聽。除此之外,還包括電子監(jiān)控、郵件檢查、密搜密取等具體措施。這些措施的實施涉及《中華人民共和國憲法》賦予公民的住宅不受侵犯以及通信自由和通信秘密等基本權利。所以,要對其所偵查的犯罪類型進行嚴格限制,以保障公民的基本權利。但由于元數據收集并不涉及內容信息,在代碼符號層面,其不涉及信息提供,不會侵犯公民基本權利。而在語義信息層面,雖然其能反映一定的信息,但是不能還原出整個事實的原貌,需要其他信息、證據進行比對、印證。此外,元數據可以為偵查提供新的線索和依據,有利于案件的偵破。但是,元數據所包含的信息非常廣泛,不僅包括與案件有關的信息,還可能包括與案件無關的信息。不僅包括犯罪嫌疑人的信息,還可能包括犯罪嫌疑人家人、親友有關的信息,如果不對其進行限制,則極易對公民的隱私權造成侵犯。綜上所述,在代碼符號層面對元數據收集不應當限制案件類型,但對語義信息層面的元數據進行收集處理時,還需設立一定的門檻。
以非法搜查、扣押等手段獲得的實物證據不具有證據能力,這是非法證據排除規(guī)則的基本內容。元數據也應當遵循這一規(guī)則。但《中華人民共和國刑事訴訟法》第五十四條之規(guī)定“收集物證、書證不符合法定程序,可能嚴重影響司法公正的,應當予以補正或者作出合理解釋;不能補正或者作出合理解釋的,對該證據應當予以排除”,僅將實物證據中的物證、書證納入非法證據排除的范圍,并未囊括所有的實物證據。有學者認為,將與物證、書證本質屬性上同為實物證據的證據種類不列入非法證據排除的范圍,無論是從邏輯或法理的角度,抑或從司法實踐運用的角度來看,都很難做正當化的解釋[12]。筆者認同這種觀點,認為應當將所有實物證據納入我國非法證據排除規(guī)則的范圍之中。囿于立法缺陷,基于《中華人民共和國刑事訴訟法》第五十四條談論元數據對非法證據排除規(guī)則的適用不甚恰當。故筆者將目光流轉至與元數據相接近的電子數據上。我國立法雖未規(guī)定電子數據的非法證據排除規(guī)則,但卻規(guī)定了關于電子數據的審查判斷①如最高人民法院、最高人民檢察院、公安部聯合頒發(fā)的《關于辦理刑事案件收集提取和審查判斷電子數據若干問題的規(guī)定》以及最高人民法院頒發(fā)的《最高人民法院關于民事訴訟證據的若干規(guī)定》。。借鑒這些規(guī)定,可以予元數據審查判斷以一定規(guī)范。但與電子數據不同,元數據的收集通常在進入訴訟階段之前就已經進行。換言之,相較于電子數據,元數據所觸及的案外信息更加多元與廣泛,侵犯公民隱私權更甚。在卡彭特訴美國案②Carpenter v.United States,138 S.Ct.2206;585 U.S.(2018).中,美國聯邦最高法院就裁定警方從通信服務運營商那里獲取的通信路由元數據屬于聯邦憲法第四修正案中的“搜查”行為,需要搜查證。由此可見,其對收集元數據的審慎。出于保障公民隱私權、限縮公權力的目的,將元數據納入非法證據排除范圍應當更為恰當。
在大數據偵查中,運用非法獲取的元數據可以進行數據挖掘而進一步獲取其他數據,這些數據在美國非法證據排除規(guī)則中,被稱為“毒樹之果”。對于這些數據而言,如果僅運用審查判斷規(guī)則對其真實性、完整性以及合法性進行檢驗,則難以阻卻非法獲取元數據的后果。這將對司法公信力以及公民權利造成極大傷害。我國目下對“毒樹之果”的規(guī)定尚付闕如,從源頭規(guī)制元數據的收集提取,將其納入非法證據排除范圍內,無論是加以排除還是予以補正,都可以對偵查機關形成一定的限制,為進一步完善相關程序奠定基礎。
上文提到,經過分析后形成的元數據分析報告具有一定的主觀性。鑒定意見同樣具有主觀性。但與元數據分析報告不同的是,鑒定意見是運用專門的知識和技能進行的判斷,一般而言其結果是可以追溯的。為此,《中華人民共和國刑事訴訟法》還專門規(guī)定了鑒定人出庭作證的義務。而對元數據證據來講,元數據證據可能直接為法官所認知,如通過地理信息元數據證明當事人所在地。但更多情況下,必須借助數據統(tǒng)計、數據碰撞、數據挖掘技術進行數據分析,隨后通過算法對數據進行規(guī)律分析,如在某些團伙型電信詐騙案件中,公安機關可以提取全部關聯話單明確號碼間關聯,進而發(fā)現人物層級關系。同時,還能分析出行為規(guī)律,如在詐騙成功后,一般嫌疑人往往會給首要分子打電話,而且通話時間會很短。這些規(guī)律雖然是建立在對數據分析的基礎之上,但有時往往難以闡明因果。算法的正確與否更是會直接影響到元數據證據的客觀性,但算法是否正確往往又難以證明。因此,在審查判斷元數據證據時,一定要與其他證據相互印證。不僅如此,元數據證據所表明的結果,要為一般理性人所能認知、理解。這就需要法官在審查判斷元數據證據時,根據廣義的理性主義傳統(tǒng),而非狹義的科學傳統(tǒng)。
美國多伯特(Daubert)案中,法院承認“按理說,在科學中沒有確定性”——即使是在諸如物理和化學這樣的硬的、精確科學中[13]。但這一觀點并非否認科學證據存在的必要性,辛格(Risinger)教授建議將其解釋為:要求法官關注專家所依靠的具體理論和技術,而非對其所在領域或學科的可靠性作出總體判斷[14]。舉例來說,假設遺囑人以“促進命理風水研究”的明確目的,留給某機構一大筆遺產。盡管大多數人不相信命理風水研究,但命理風水研究完全合法。進一步假設遺囑人死亡后的某一時刻,繼承人提出質疑,聲稱該機構不再將受贈資金用于遺囑人遺囑指定之目的。法院除了聽取關于該機構資金使用方式的陳述,無疑還可以接受有經驗的算命術士就受資助活動是否與“命理風水”相關所做的證言,因為公然從事該行業(yè)的人通常理解該術語。為了裁決該爭議,法院并不需要對算命術士所做預測的科學可靠性做出整體上的判定,相反,“當前任務”在于裁決所提出之證人是否能夠熟知命理風水學科的現狀,從而能夠判斷受資助活動是否以任何方式與該學科相關。因此,可以說雖然目下學界對利用相關關系進行預測尚有微詞,但這并不影響元數據證據的使用。是否采納元數據證據,需要法官進行裁量判斷?!熬屯普撔灾鲝埗裕瑢徟蟹ü賾攩柷?,證據提出者對使用專家理論或技術所得結果的鋪墊性證明,是否能夠使一個持懷疑態(tài)度的理性主義者確信,該理論或技術的使用能夠使專家準確地就其準備作證的事項作出具體判斷”[12]。這就要求,法官在審查判斷元數據證據,尤其是元數據分析報告時,要從理性主義傳統(tǒng)出發(fā)。誠然,規(guī)定一種科學觀點,抑或在制度上予以支持,可能會簡化法官的工作。但是,在很多情況下,依據算法得到的元數據證據可能會顛覆我們日常生活的經驗。如果這些疑問得不到解釋,抑或是難以理解,都將克減審判的公正性。理性主義擁有足夠的智識寬度和靈活性,足以應對“算法黑箱”可能帶來的挑戰(zhàn)。