數(shù)據(jù)恢復(fù)在電子數(shù)據(jù)取證與司法鑒定中的應(yīng)用
馬國富,馬勝利,王子賢,李雙印,程雨絲
(中央司法警官學(xué)院 信息管理系, 河北 保定071000)
摘要:在對(duì)電子數(shù)據(jù)恢復(fù)取證與司法鑒定應(yīng)用現(xiàn)狀進(jìn)行分析的基礎(chǔ)上,提出了一種電子數(shù)據(jù)恢復(fù)取證與司法鑒定模型,通過在電子數(shù)據(jù)恢復(fù)流程中實(shí)施多人數(shù)字簽名、流程監(jiān)管、介質(zhì)鏡像和哈希校驗(yàn),提高電子數(shù)據(jù)在訴訟案件中的可采信力、證明力和法律效力.模型針對(duì)數(shù)據(jù)恢復(fù)介質(zhì)毀壞的不同情況,有針對(duì)性地分別利用文件定位算法、文件特征字算法、文檔碎片重組算法進(jìn)行精準(zhǔn)、高效的電子數(shù)據(jù)恢復(fù)取證與司法鑒定.實(shí)驗(yàn)結(jié)果表明,該模型在保證正確率的基礎(chǔ)上,具有良好的工作效率.
關(guān)鍵詞:數(shù)據(jù)恢復(fù);司法鑒定;文件定位;文件特征字;文檔碎片
DOI:10.3969/j.issn.1000-1565.2015.05.016
中圖分類號(hào):TP393.08文獻(xiàn)標(biāo)志碼:A
收稿日期:2015-03-10
基金項(xiàng)目:河北省軟科學(xué)研究計(jì)劃項(xiàng)目(13455602);中央司法警官學(xué)院科研項(xiàng)目(XYY201301);中央司法警官學(xué)院青年教師學(xué)術(shù)創(chuàng)新團(tuán)隊(duì)資助項(xiàng)目
Applicationofdatarecoveryintheelectronicdataforensics
andjudicialidentification
MAGuofu,MAShengli,WANGZixian,LIShuangyin,CHENGYusi
(DepartmentofInformationManagement,theCentralInstitutefor
CorrectionalPolice,Baoding071000,China)
Abstract:On the base of analyzing the present situation of application of electronic recovery forensics and the judicial Identification, a model of electronic data recovery forensics and judicial identification was suqqested;digital signature by many people, process monitoring, media mirror and Hash authentication were implemented in the data recovery process to improve admissible stress,probational force and Legal effect of the electronic data in the lawsuit.Aiming at different destroyed situation of data recovery medium, using the file location algorithm, file character code algorithm,document fragment reassembly algorithm for electronic data,the model accurate, efficient recovery of electronic data for forensics and judicial identification could be achieved.The experimental results showed that the model had a good work efficiency on the basis of accuracy.
Keywords:datarecovery;judicialidentification;filelocating;filecharactercode;documentfragment
第一作者:馬國富(1974-),男,河北保定人,中央司法警官學(xué)院副教授,主要從事信息安全、電子取證與司法鑒定方向研究.
E-mail:magf2003@126.com.
隨著網(wǎng)絡(luò)存儲(chǔ)、云計(jì)算、物聯(lián)網(wǎng)、視頻監(jiān)控等信息技術(shù)在人們?nèi)粘9ぷ?、學(xué)習(xí)、生活中的應(yīng)用,各類存儲(chǔ)介質(zhì)成為人們生活工作不可或缺的一個(gè)部分,海量數(shù)據(jù)存儲(chǔ)在計(jì)算機(jī)、網(wǎng)絡(luò)服務(wù)器及各種存儲(chǔ)介質(zhì)中,而一旦因各種原因?qū)е聰?shù)據(jù)丟失、毀壞,能否將其恢復(fù)就成了是否能夠挽回?fù)p失的關(guān)鍵.與此同時(shí),相關(guān)利用計(jì)算機(jī)及網(wǎng)絡(luò)制作、復(fù)制傳播色情、淫穢物品案件,網(wǎng)上詐騙、敲詐勒索、網(wǎng)絡(luò)電子傳銷、利用互聯(lián)網(wǎng)危害國家安全等案件逐年遞增,已折射出我國司法在打擊電子數(shù)據(jù)犯罪工作中面臨的巨大挑戰(zhàn).而打擊電子數(shù)據(jù)犯罪的有效辦法就是找到具有法律效力的證據(jù),2012年修改通過的《刑事訴訟法》和《民事訴訟法》都已將“電子數(shù)據(jù)”列為新的一類證據(jù),由此電子數(shù)據(jù)取證和司法鑒定在刑事、民事訴逐漸呈現(xiàn)重要作用.計(jì)算機(jī)上的資料被貪污主體人為惡意刪除,如何通過找回硬盤數(shù)據(jù)來取證;硬盤被瀆職主體敲打變形,怎樣通過提取電子數(shù)據(jù)證明其瀆職;監(jiān)控設(shè)備“昨天的肇事逃逸視頻”被“今天的常規(guī)交通畫面”覆蓋,什么技術(shù)可以將“暫不可見”的“逃逸證據(jù)”重見天日.信息時(shí)代,電子數(shù)據(jù)恢復(fù)不但應(yīng)用于人們的日常工作、生活和學(xué)習(xí)中,還成了公檢法部門破案、斷案、判案的重要一環(huán),也成為各個(gè)行政、執(zhí)法機(jī)關(guān)最重視的一種電子數(shù)據(jù)取證與司法鑒定技術(shù)手段.
1電子數(shù)據(jù)恢復(fù)取證與司法鑒定現(xiàn)狀
目前,中國雖然通過修改《刑事訴訟法》和《民事訴訟法》,已經(jīng)將“電子數(shù)據(jù)”列為新的一類證據(jù),但是對(duì)電子數(shù)據(jù)取證的操作規(guī)范并沒有法律規(guī)定,電子數(shù)據(jù)恢復(fù)的技術(shù)和服務(wù)標(biāo)準(zhǔn)更是缺失,公安部于2009年4月7日發(fā)布了《電子物證數(shù)據(jù)恢復(fù)檢驗(yàn)技術(shù)規(guī)范》,而該標(biāo)準(zhǔn)不適用于犯罪現(xiàn)場(chǎng)勘查,同時(shí)該規(guī)范也只是簡(jiǎn)單地對(duì)數(shù)據(jù)恢復(fù)軟件的名稱進(jìn)行了認(rèn)可;最高人民檢察院于2009年4月下發(fā)了《人民檢察院電子證據(jù)鑒定程序規(guī)則(試行)》,但該規(guī)則沒有涉及到電子數(shù)據(jù)恢復(fù)及其工作規(guī)范.在國家標(biāo)準(zhǔn)《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》(GB/T20988-2007)中也沒有涉及到電子數(shù)據(jù)恢復(fù).在學(xué)術(shù)研究界,對(duì)電子數(shù)據(jù)恢復(fù)取證進(jìn)行研究代表性的主要有杜江等[1]研究的公安部科技計(jì)劃創(chuàng)新項(xiàng)目:計(jì)算機(jī)取證中的數(shù)據(jù)恢復(fù)技術(shù)研究,但只針對(duì)文件系統(tǒng)分區(qū)表為損壞的情況進(jìn)行數(shù)據(jù)恢復(fù),也沒有具體恢復(fù)算法和步驟;西安電子科技大學(xué)胡躍[2]對(duì)基于Windows平臺(tái)磁盤取證系統(tǒng)數(shù)據(jù)恢復(fù)子系統(tǒng)研究與實(shí)現(xiàn),但只針對(duì)數(shù)據(jù)恢復(fù)取證中的碎片進(jìn)行分析,沒有將電子數(shù)據(jù)恢復(fù)取證流程規(guī)范化,也沒有法律監(jiān)督;中國政法大學(xué)沈樹強(qiáng)[3]對(duì)電子證據(jù)鑒定視角下的數(shù)據(jù)恢復(fù)問題研究,但只針對(duì)電子數(shù)據(jù)恢復(fù)流程進(jìn)行了研究,沒有將司法實(shí)踐中的電子數(shù)據(jù)恢復(fù)技術(shù)和工作流程相結(jié)合,也沒有法律監(jiān)督.而各法律實(shí)務(wù)部門和第三方的電子數(shù)據(jù)司法鑒定人員一般采用FTK(http:/www.krollontrack.com/data-recovery/),DataRecovery(http://www.krollontrack.com/data-recovery/),FinalData(http://www.finaldata.com/) 等國外數(shù)據(jù)恢復(fù)軟件進(jìn)行電子數(shù)據(jù)恢復(fù)取證和司法鑒定,而中國對(duì)這些數(shù)據(jù)恢復(fù)軟件并沒有進(jìn)行資質(zhì)、合法性及其數(shù)據(jù)恢復(fù)操作規(guī)范進(jìn)行軟件測(cè)評(píng),各公安、檢察機(jī)關(guān)及第三方的電子數(shù)據(jù)司法鑒定人員往往依據(jù)行業(yè)經(jīng)驗(yàn)或自行制定的數(shù)據(jù)恢復(fù)方法進(jìn)行電子數(shù)據(jù)取證和司法鑒定,因此鑒定結(jié)論的法律效力很難得到保證,電子數(shù)據(jù)作為證據(jù)的公正性、權(quán)威性、中立性受到質(zhì)疑,這勢(shì)必造成在涉及電子數(shù)據(jù)作為證據(jù)的司法實(shí)踐中影響該類案件的判罰尺度,不利于該類案件的審理,甚至不利于打擊犯罪、保護(hù)受害人.因此,基于國內(nèi)數(shù)據(jù)恢復(fù)在電子數(shù)據(jù)取證與司法鑒定訴訟案件中的應(yīng)用情況,借鑒國外數(shù)據(jù)恢復(fù)取證與司法鑒定的相關(guān)標(biāo)準(zhǔn)和程序,建立統(tǒng)一的適應(yīng)于公檢法系統(tǒng)的電子數(shù)據(jù)恢復(fù)取證與司法鑒定標(biāo)準(zhǔn)與工作流程成為一個(gè)亟待解決的問題.
2電子數(shù)據(jù)恢復(fù)取證與司法鑒定模型
數(shù)據(jù)恢復(fù)分為邏輯類恢復(fù)和物理類恢復(fù),物理類數(shù)據(jù)恢復(fù)可通過維修法和替換法實(shí)現(xiàn)存儲(chǔ)介質(zhì)的正常識(shí)別,然后進(jìn)行物理鏡像后,便可通過邏輯類恢復(fù)數(shù)據(jù),因此本文主要對(duì)邏輯類數(shù)據(jù)恢復(fù)進(jìn)行研究.在數(shù)據(jù)被刪除后,如果沒有進(jìn)行覆蓋操作,可利用原有文件屬性通過對(duì)文件定位實(shí)現(xiàn)數(shù)據(jù)恢復(fù);在已知文件類型的情況下,可利用已建立的文件特征字知識(shí)庫,通過文件特征字進(jìn)行關(guān)聯(lián)快速實(shí)現(xiàn)數(shù)據(jù)恢復(fù);對(duì)于部分被覆蓋的殘留數(shù)據(jù)碎片進(jìn)行數(shù)據(jù)分析、挖掘,利用基于SVM的碎片分類器對(duì)碎片進(jìn)行分類,再用上下文區(qū)域碎片重組算法對(duì)碎片重組,提高了數(shù)據(jù)恢復(fù)成功率.電子數(shù)據(jù)恢復(fù)取證與司法鑒定模型將理論和司法實(shí)務(wù)操作相結(jié)合,將數(shù)據(jù)恢復(fù)的技術(shù)性和電子數(shù)據(jù)取證與司法鑒定程序的法律性相結(jié)合,從而既提高了數(shù)據(jù)恢復(fù)的效率,也提高了恢復(fù)出的電子數(shù)據(jù)的法律效力.
電子數(shù)據(jù)恢復(fù)取證與司法鑒定模型如圖1所示,模型按司法鑒定實(shí)務(wù)將電子數(shù)據(jù)恢復(fù)取證與司法鑒定流程分為數(shù)據(jù)恢復(fù)取證與司法鑒定委托、鑒定機(jī)構(gòu)受理、基于時(shí)間戳的多人數(shù)字簽名、數(shù)據(jù)恢復(fù)介質(zhì)的鏡像與哈希校驗(yàn)、數(shù)據(jù)恢復(fù)取證與司法鑒定、撰寫鑒定報(bào)告、鑒定人出庭進(jìn)行證據(jù)呈堂.為保證介質(zhì)的客觀性、原始性、完整性需要有鑒定委托人、申請(qǐng)人和鑒定機(jī)構(gòu)等多人進(jìn)行數(shù)字簽名,該簽名有政法CA頒發(fā)的證書和基于時(shí)間基準(zhǔn)服務(wù)器的時(shí)間戳所形成;為了保證原始數(shù)據(jù)的再現(xiàn)性,提高證明力,數(shù)據(jù)恢復(fù)取證一般都需要對(duì)原始介質(zhì)進(jìn)行位對(duì)位鏡像和哈希校驗(yàn),然后利用鏡像進(jìn)行數(shù)據(jù)恢復(fù);對(duì)電子數(shù)據(jù)恢復(fù)取證與司法鑒定的全程實(shí)施監(jiān)督,保證數(shù)據(jù)恢復(fù)取證與司法鑒定出的電子數(shù)據(jù)在訴訟案件中的可采性力、證明力、法律效力和證據(jù)鏈的完整性.在電子數(shù)據(jù)恢復(fù)操作實(shí)務(wù)中,基于Windows平臺(tái)下的FAT和NTFS文件系統(tǒng),針對(duì)文件分區(qū)表沒有損壞的文件系統(tǒng),利用文件定位算法快速、精準(zhǔn)實(shí)現(xiàn)數(shù)據(jù)恢復(fù)取證與司法鑒定;針對(duì)大容量硬盤,利用文件特征字可快速高效地恢復(fù)特定類型的文件;針對(duì)由于犯人嫌疑人惡意將文件分成碎片隱藏文件及文件分區(qū)表損壞的情況,利用基于SVM的碎片分類器對(duì)文檔碎片進(jìn)行分類,再利用上下文區(qū)域重組算法重組文檔碎片.電子數(shù)據(jù)恢復(fù)取證與司法鑒定操作完成后,需要鑒定機(jī)構(gòu)人員撰寫鑒定報(bào)告,進(jìn)行證據(jù)呈堂,并在必要時(shí)出庭質(zhì)證.
圖1 電子數(shù)據(jù)取證與司法鑒定模型
MBR(主引導(dǎo)記錄)磁盤分區(qū)是目前使用最為廣泛的一種分區(qū)結(jié)構(gòu),所以論文主要針對(duì)MBR磁盤分區(qū)進(jìn)行文件定位數(shù)據(jù)恢復(fù).在MBR磁盤分區(qū)中,分區(qū)表占64字節(jié),而每個(gè)分區(qū)占16字節(jié),故最大可存放4個(gè)主分區(qū),當(dāng)硬盤的存儲(chǔ)容量比較大,并且需要建立更多磁盤分區(qū)時(shí),就必須使用擴(kuò)展分區(qū),用EBR(擴(kuò)展引導(dǎo)記錄)表示,MBR磁盤分區(qū)的整體結(jié)構(gòu)[4]見圖2所示.
從圖2可以看出主磁盤分區(qū)通過MBR中分區(qū)表進(jìn)行定位,而擴(kuò)展分區(qū)之間通過指針結(jié)構(gòu)形成一個(gè)單向鏈表實(shí)現(xiàn)定位.在FAT16的每個(gè)分區(qū)表中包括DBR,F(xiàn)AT1/2,F(xiàn)DT和DATA,而FAT32文件系統(tǒng)的FDT在數(shù)據(jù)區(qū).NTFS的DBR包含在$BOOT文件中,和文件有關(guān)的信息被稱為屬性,以文件記錄的形式存放在$MFT中,NTFS文件系統(tǒng)位置結(jié)構(gòu)如圖3所示.
用WinHex[4]對(duì)MBR磁盤分區(qū)常見的文件系統(tǒng)進(jìn)行分析,文件的定位算法如下:
1)通過查找MBR/EBR中的分區(qū)表信息,獲取每個(gè)分區(qū)的分區(qū)類型和該分區(qū)的DBR起始扇區(qū)數(shù)(相對(duì)偏移地址一般為63號(hào)扇區(qū));
2)讀取DBR的BPB(相對(duì)偏移地址:0DH,0EH-0FH,10H,11H-12H和16H-17H)分別獲取每簇扇區(qū)數(shù)、DBR保留扇區(qū)數(shù)、FAT個(gè)數(shù)、根目錄項(xiàng)數(shù)(一般為512)和每FAT扇區(qū)數(shù);IF分區(qū)類型為FAT32,則讀取DBR的BPB相對(duì)偏移地址24H-27H獲取每FAT扇區(qū)數(shù);IF分區(qū)類型為NTFS,則讀取DBR的BPB相對(duì)偏移地址30H-37H獲取$MFT起始簇號(hào),跳轉(zhuǎn)到第4步;
3)FDT的起始扇區(qū)數(shù)=DBR起始扇區(qū)數(shù)+DBR保留扇區(qū)數(shù)+FAT個(gè)數(shù)*每FAT包含的扇區(qū)數(shù),F(xiàn)DT占用扇區(qū)數(shù)=(根目錄項(xiàng)數(shù)*32)/ 512.從FDT的起始位置查找已被刪除的文件名(第1個(gè)字節(jié)變?yōu)镋5),直到找到為止,則該目錄項(xiàng)相對(duì)偏移地址1AH-1BH,1CH-1FH處的數(shù)據(jù)即為該文件在DATA區(qū)的起始簇號(hào)和大??;IF分區(qū)類型為FAT32,則需要將該目錄項(xiàng)相對(duì)偏移地址14H-15H(高位)、1AH-1BH(低位)兩處的數(shù)據(jù)合并作為該文件在DATA區(qū)的起始簇號(hào),因?yàn)樵贒ATA區(qū)中,簇從2開始編號(hào),文件的起始扇區(qū)數(shù)=FDT的起始扇區(qū)數(shù)+FDT占用扇區(qū)數(shù)(文件系統(tǒng)為FAT32時(shí)為0)+(起始簇號(hào)-2)*每簇扇區(qū)數(shù),跳轉(zhuǎn)到第5步;
4)FDT起始扇區(qū)數(shù)=DBR起始扇區(qū)數(shù)+$MFT起始簇號(hào)*每簇扇區(qū)數(shù)+5*2(5為目錄文件的記錄號(hào),2為每個(gè)文件記錄所占的扇區(qū)數(shù)),從FDT起始位置使用Unicode編碼向下搜 索已被刪除的文件名,直到找到該文件的文件記錄(30屬性的相對(duì)偏移地址42H為該文 件名),從80屬性的相對(duì)偏移地址08H獲取常駐屬性,IF常駐屬性=0,則相對(duì)偏移地址 10H-13H,14H-15H處的數(shù)據(jù)即為該文件大小和起始位置;ELSE相對(duì)偏移地址30H-37H,40H處字節(jié)的高4位數(shù)據(jù)即為該文件大小和DataRun起始簇號(hào),文件的起始扇區(qū)數(shù)=DBR起始扇區(qū)數(shù)+DataRun起始簇號(hào)*每簇扇區(qū)數(shù);
5)跳轉(zhuǎn)到已刪除文件的起始扇區(qū)位置,按上步獲取的文件大小,復(fù)制該文件內(nèi)容,按原有文件類型保存為一個(gè)新文件,即可完成數(shù)據(jù)恢復(fù).
基于文件定位的數(shù)據(jù)恢復(fù),可精準(zhǔn)恢復(fù)被刪除的文件,NTFS文件系統(tǒng)中,不論文件是否連續(xù)存放,文件/目錄被刪除后都可通過該文件記錄找到起始簇號(hào)進(jìn)行數(shù)據(jù)恢復(fù),但當(dāng)要?jiǎng)h除的文件比較多時(shí),需要逐個(gè)恢復(fù),工作效率比較低.
圖2 MBR分區(qū)結(jié)構(gòu)
圖3 NTFS文件系統(tǒng)結(jié)構(gòu)
2.3基于文件特征字的數(shù)據(jù)恢復(fù)取證與司法鑒定
通常要恢復(fù)的電子數(shù)據(jù)都是特定的文件格式,比如*.doc,*.xls,*.jpg,*.mpg等格式,而在司法辦案中往往要處理很多硬盤,并且容量比較大,因此為提高工作效率,可基于文件首、尾部特征掃描文件系統(tǒng)的數(shù)據(jù)區(qū),進(jìn)而確定文件的起始和結(jié)束位置,優(yōu)先快速恢復(fù)所需要的特定文件.文獻(xiàn)[5]利用word文件的頭部和尾部特征實(shí)現(xiàn)對(duì)*.doc文件的數(shù)據(jù)恢復(fù).用WinHex抓取的*.jpg[6]文件的首尾特征字如圖4、圖5所示,從圖中可以看出*.jpg文件的頭部特征字為0xFFD8FFE000104A464946,尾部特征字為0xFFD90000.參照上述方法可求得其他類型文件的首、尾特征字,從而建立基于文件首、尾特征字的文件特征數(shù)據(jù)庫,實(shí)現(xiàn)基于文件特征字的數(shù)據(jù)恢復(fù)取證與司法鑒定,文件特征數(shù)據(jù)庫表見表1所示,缺省大小為-1時(shí)表示沒有缺省大小,位置為0表示從起始向后查找,為-1表示從文件最后向前查找.當(dāng)文件不連續(xù)存儲(chǔ)時(shí),在NTFS文件系統(tǒng)中需要借助文件記錄獲取文件存儲(chǔ)后續(xù)數(shù)據(jù)塊,實(shí)現(xiàn)特定文件的數(shù)據(jù)恢復(fù).
圖4 JPG文件首部特征字
擴(kuò)展名缺省大小首部特征字首部位置尾部特征字尾部位置jpg;jpeg20971520FFD8FFE000104A4649460FFD9-1doc-1D0CF11E0A1B11AE104D53576F7264446F63-1
在電子數(shù)據(jù)取證與司法鑒定中,由于犯罪當(dāng)事人刪除、格式化、文件交叉覆蓋等人為破壞,形成文檔碎片,導(dǎo)致許多存于文件系統(tǒng)元信息無法描述的未分配區(qū)域的電子數(shù)據(jù)無法被提取,尤其是當(dāng)文件頭被覆蓋的情況下,基于文件特征的數(shù)據(jù)恢復(fù)將無法正確地進(jìn)行數(shù)據(jù)恢復(fù).Metz等針對(duì)文檔隨機(jī)碎片問題,提出了SmartCarving框架圖,見圖6所示.
圖6 Smart Carving框架
該框架將文檔碎片恢復(fù)分為預(yù)處理、碎片收集和碎片重組3個(gè)階段,預(yù)處理階段主要處理被壓縮或被加密的數(shù)據(jù),排除已有文件占用的簇;碎片收集主要用于對(duì)數(shù)據(jù)塊碎片進(jìn)行分類;碎片重組是根據(jù)碎片分類的結(jié)果,重組碎片成文件.為提高文檔數(shù)據(jù)塊分類的正確率,有效進(jìn)行文檔重組,進(jìn)而提高數(shù)據(jù)恢復(fù)的成功率,本文在SmartCarving框架模型的基礎(chǔ)上,對(duì)碎片收集中文檔分類和碎片重組進(jìn)行了研究,提出了基于SVM的碎片分類器.
2.4.1基于SVM的碎片分類器
在碎片收集階段主要是對(duì)大量碎片進(jìn)行文件分類,目前對(duì)碎片進(jìn)行分類主要有基于距離的分類和基于機(jī)器學(xué)習(xí)的分類.基于距離的分類主要是利用不同的文件類型、其字節(jié)頻率分布度(file fingerprints)不同和連續(xù)性字節(jié)差異性的特性進(jìn)行文件分類,這種方法需要對(duì)每一個(gè)文件類型都建立基于字節(jié)頻率統(tǒng)計(jì)的文件指紋模型,然后設(shè)定閥值,如果某個(gè)文件數(shù)據(jù)塊與某一個(gè)模型的距離低于設(shè)定的閥值,則判定為對(duì)應(yīng)的文件類型,但該方法中很難確定一個(gè)比較理想的閥值,另外對(duì)于那些字節(jié)頻率比較相似的文件也很難正確識(shí)別.基于機(jī)器學(xué)習(xí)的分類主要是在統(tǒng)計(jì)的基礎(chǔ)上建立機(jī)器學(xué)習(xí)模型對(duì)文件數(shù)據(jù)塊進(jìn)行分類,目前最具有泛化能力和最小容錯(cuò)率的支持向量機(jī)(supported vector machines,SVM)分類算法的研究廣受關(guān)注,應(yīng)用與碎片分類描述如下.
本文首先利用Pearson相關(guān)系數(shù)[7]對(duì)包含有Office 系列文件、JPEG、C++源碼等文件的DFRWS 2007碎片映像數(shù)據(jù)[8]度量碎片之間的相關(guān)性,訓(xùn)練SVM模型,公式如下:
(1)
1)文件首尾部特征字;2)針對(duì)普通文本和圖片的信息熵;3)字節(jié)/字符頻率分布特征,即文件中每個(gè)字節(jié)/字符的取值范圍的統(tǒng)計(jì)特征;4)上下文連續(xù)字節(jié)變化度,即數(shù)據(jù)塊中連續(xù)字節(jié)之間的平均連續(xù)性統(tǒng)計(jì)特征.
由公式(1)知,|R(i)|的變化在0和1之間,值越大,表面該特征對(duì)于分類的貢獻(xiàn)就越大.根據(jù)相關(guān)度量,利用SVM-SFS[9]方法計(jì)算每個(gè)特征字的權(quán)重,從而針對(duì)各個(gè)文件類型建立基于SVM的多特征字分類器.
2.4.2碎片重組
摘要文檔碎片重組就是對(duì)同一類型的碎片確定連接順序,然后組合成多個(gè)不同的文件.利用文件首部特征字和文件信息(文件長(zhǎng)度、時(shí)間等文件屬性信息)可以確定文件頭碎片.而新型文件系統(tǒng)的特點(diǎn)是盡量減少碎片,因此同一個(gè)文件的碎片多以2分存在,分成3,4個(gè)甚至多個(gè)碎片的情況很少見,并且在2分的情況下一般都是從一塊連續(xù)的區(qū)域向鄰近的區(qū)域空間擴(kuò)展存儲(chǔ).為此,本文提出了一個(gè)上下文區(qū)域碎片重組算法如下:
1)確定某個(gè)文件頭碎片所在區(qū)域的地址;
2)利用基于SVM的碎片分類器從該區(qū)域起始地址開始順序向后(前)查找,至到不屬于該文件類型的碎片,則上述碎片在存儲(chǔ)介質(zhì)上的邏輯存放順序即為碎片重組的順序;
3)跳過不屬于該文件類型的碎片,根據(jù)文件碎片頭部中的文件大小,然后利用碎片分類器順序浮動(dòng)跳躍向后(前)查找相同類型文件的數(shù)據(jù)碎片區(qū)域,并且該區(qū)域的大小應(yīng)該等于該文件剩余大??;
4)如果第2片區(qū)域大小小于該文件剩余大小,則有可能是碎片被分成2片以上,則重復(fù)步驟3),至到查找到該文件全部碎片至,當(dāng)出現(xiàn)大小一樣的不同碎片區(qū)域或沒有找到剩余大小的碎片區(qū)域時(shí),可利用時(shí)間相同或相近的文件特性進(jìn)行碎片關(guān)聯(lián)和重組.
3實(shí)驗(yàn)及結(jié)果分析
為了驗(yàn)證電子數(shù)據(jù)恢復(fù)取證與司法鑒定模型的工作效率,選用DFRWS 2007發(fā)布的數(shù)據(jù)映像[8]作為實(shí)驗(yàn)數(shù)據(jù),大小為256 M,該數(shù)據(jù)映像主要包括Office Word,Excel,PDF,BMP,JPEG等文件類型.利用Winhex提供的腳本開發(fā)技術(shù)和API函數(shù)[10]將模型中的算法應(yīng)用于Winhex中進(jìn)行原型實(shí)現(xiàn),然后應(yīng)用電子數(shù)據(jù)取證與司法鑒定中常用數(shù)據(jù)恢復(fù)軟件FTK 1.50b,Data Recovery6.10.07,Final Data 3.0對(duì)該數(shù)據(jù)映像進(jìn)行數(shù)據(jù)恢復(fù)分析比較.
實(shí)驗(yàn)環(huán)境:Intel(R)Core(TM)酷睿i5 M520@2.40GHz雙核,內(nèi)存2 G,硬盤250 G,Windows 7 Professional.
根據(jù)文件類型出現(xiàn)的概率,實(shí)驗(yàn)中從文檔和圖片兩大類文件類型中分別選擇了Word和JPEG文件類型進(jìn)行數(shù)據(jù)恢復(fù)和分析,結(jié)果如表2,3所示.
表2 Word文件類型數(shù)據(jù)恢復(fù)結(jié)果統(tǒng)計(jì)
表3 JPEG文件類型數(shù)據(jù)恢復(fù)結(jié)果統(tǒng)計(jì)
從表2,3可以看出,對(duì)于Word,JPEG 文件來說,電子數(shù)據(jù)恢復(fù)取證與司法鑒定模型中用到的文件定位、文件特征字和文檔碎片恢復(fù)綜合方法,無論在掃描、恢復(fù)時(shí)間上還是在恢復(fù)成功率上都比一般通用數(shù)據(jù)恢復(fù)軟件的效率要高.就數(shù)據(jù)恢復(fù)成功率上差不太多,但是在時(shí)間上則大大節(jié)省了時(shí)間,這在政法機(jī)關(guān)進(jìn)行大量數(shù)據(jù)文檔恢復(fù)時(shí)尤其如此.
4結(jié)論
本文在對(duì)電子數(shù)據(jù)恢復(fù)取證與司法鑒定現(xiàn)狀進(jìn)行分析的基礎(chǔ)上,提出一種電子數(shù)據(jù)恢復(fù)取證與司法鑒定模型,該模型按電子數(shù)據(jù)司法鑒定實(shí)務(wù)將電子數(shù)據(jù)恢復(fù)取證與司法鑒定流程化和標(biāo)準(zhǔn)化,使用多人數(shù)字簽名、原始介質(zhì)位對(duì)位鏡像和哈希校驗(yàn)來提高電子數(shù)據(jù)的證明力;通過對(duì)電子數(shù)據(jù)取證與司法鑒定全程進(jìn)行流程監(jiān)管與操作監(jiān)督,保證恢復(fù)的電子數(shù)據(jù)在訴訟案件中的可采性力、證明力、法律效力和證據(jù)鏈的完整性.模型在數(shù)據(jù)恢復(fù)實(shí)踐中,基于當(dāng)前Windows平臺(tái)主要使用的FAT和NTFS文件系統(tǒng),針對(duì)文件系統(tǒng)分區(qū)表未損壞的情況,提出了文件定位算法快速恢復(fù);針對(duì)法律實(shí)務(wù)中需要恢復(fù)的特定文件類型,提出了文件特征字算法進(jìn)行數(shù)據(jù)精準(zhǔn)、高效恢復(fù);而對(duì)于實(shí)踐中難于恢復(fù)的數(shù)據(jù)碎片,利用基于SVM的碎片分類器對(duì)碎片進(jìn)行分類,再用上下文區(qū)域碎片重組算法對(duì)碎片重組,提高了數(shù)據(jù)恢復(fù)成功率.實(shí)驗(yàn)結(jié)果表明,該模型中所用到的數(shù)據(jù)恢復(fù)算法能夠針對(duì)實(shí)踐中不同的情況下進(jìn)行有針對(duì)性數(shù)據(jù)恢復(fù),尤其是司法實(shí)踐中遇到大量文件需要恢復(fù)時(shí)將大大節(jié)省時(shí)間,提高工作效率,這在法律實(shí)務(wù)中很可能會(huì)有很大幫助.
下一步工作將重點(diǎn)研究其他文件系統(tǒng),比如針對(duì)大容量U盤的ExFAT文件系統(tǒng)、Linux的Ext文件系統(tǒng)(包括Android手機(jī)的YAFFS文件系統(tǒng))、蘋果機(jī)的HFS+文件系統(tǒng)(包括移動(dòng)終端文件系統(tǒng)IOS);還包括其他類型文件的特征字,豐富文件類型特征字知識(shí)庫;并進(jìn)一步尋找更有效的碎片分類挖掘及關(guān)聯(lián)重組算法.
參考文獻(xiàn):
[1]杜江,王石東.計(jì)算機(jī)取證中的數(shù)據(jù)恢復(fù)技術(shù)研究[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2010,22(5):683-687.
DU Jiang,WANG Shidong.Research on technology of data recovery in computer forensics[J].Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition,2010,22(5):683-687.
[2]胡躍.基于Windows平臺(tái)磁盤取證系統(tǒng)數(shù)據(jù)恢復(fù)子系統(tǒng)研究與實(shí)現(xiàn)[D].西安:電子科技大學(xué).2013.
HU Yue.Research on file recovery system for computer forensics on windows[D].Xi’an:University of Electronic Science and Technology of China,2013.
[3]沈樹強(qiáng).電子證據(jù)鑒定視角下的數(shù)據(jù)恢復(fù)問題研究[D].北京:中國政法大學(xué),2010.
SHENG Shuqiang.Research on data recovery from the perspective of electronic evidence identification[D].Beijing:China University of Political Science and Law,2010.
[4]劉偉.數(shù)據(jù)恢復(fù)技術(shù)深度揭秘[M].北京:電子工業(yè)出版社, 2010.
[5]胡敏,楊吉云,姜維.Windows下基于文件特征的數(shù)據(jù)恢復(fù)算法[J].計(jì)算機(jī)應(yīng)用,2011,31(2):527-529.
HU Min,YANG Jiyun,JIANG Wei.Data recovery algorithm based on file feature on windows platform[J].Journal of Computer Applications,2011,31(2):527-529.
[6]黃立.頭部缺失的JPEG文件恢復(fù)方法研究[D].杭州:杭州電子科技大學(xué),2011.
HUANG Li.The research on header missing JPEG file recovery[D].Hangzhou:Hangzhou Dianzi University,2011.
[7]謝娟英, 高紅超.基于統(tǒng)計(jì)相關(guān)性與 K-means 的區(qū)分基因子集選擇算法[J].軟件學(xué)報(bào),2014,25(9):2050-2075.
XIE Juanying,GAO Hongchao.Statistical correlation and K-means based distinguishable gene subset selection algorithms [J].Journal of Software,2014,25(9):2050-2075.
[8]METZJ,KLOETB,MORARJ.Analysis of 2007 DFRWS forensic carving challenge[EB/OL].(2008-11-16)[2014-04-03].http://sandbox.dfrws.org/2007/metz/dfrws2007_carving_challenge.pdf.
[9]謝娟英,謝維信.基于特征子集區(qū)分度與支持向量機(jī)的特征選擇算[J].計(jì)算機(jī)學(xué)報(bào),2014,37(8):1704-1718.
XIE Juanying,XIE Weixin.Several feature selection algorithms based on the discernibility of a feature subset and support vector machines[J].Chinese Journal of Computers,2014,37(8):1704-1718.
[10]高志鵬,張志偉,孫云峰.識(shí)數(shù)尋蹤:WinHex應(yīng)用與數(shù)據(jù)恢復(fù)開發(fā)秘籍[M].北京:人民郵電出版社,2013.
(責(zé)任編輯:孟素蘭)