李全輝,劉 丹
犯罪側(cè)寫(Criminal Profiling),又叫犯罪行為分析或犯罪心理畫像。隨著二十世紀六七十年代美國暴力犯罪的興起,美國聯(lián)邦調(diào)查局行為科學(xué)部在二十世紀七十年代提出犯罪側(cè)寫這一概念。不同的學(xué)者對犯罪側(cè)寫有不同的定義,聯(lián)邦調(diào)查局將其定義為一種偵查分析,即“根據(jù)他或她所實施的犯罪行為來鑒別犯罪人的主要人格特征和行為特征的偵查過程”[1]18-20。Brent Turvey將犯罪側(cè)寫定義為“推斷實施犯罪的行為人獨特的人格特征的過程就是犯罪側(cè)寫”[2]。李玫瑾教授對犯罪側(cè)寫的定義是“在偵查階段根據(jù)已掌握的情況對未知名的犯罪嫌疑人進行相關(guān)的行為、動機、心理過程以及人員心理特點等分析,進而通過文字形成對犯罪嫌疑人的人物形象及心理特征群的描述”[3]。
目前,犯罪側(cè)寫已廣泛應(yīng)用于公安刑事偵查工作中,尤其是當現(xiàn)場沒有直接證據(jù)指向特定的嫌疑人時,犯罪側(cè)寫能為偵查決策提供重要的參考價值,其主要通過對犯罪現(xiàn)場進行勘查以及調(diào)查訪問,并由經(jīng)驗豐富的公安干警或具備相關(guān)專業(yè)知識的專家對缺乏線索的案件中的犯罪嫌疑人展開分析,以縮小偵查范圍。犯罪側(cè)寫在偵破一些重大案件時發(fā)揮了重要作用,最著名的莫過于發(fā)生在二十世紀四十年代至五十年代的“瘋狂炸彈手”案件。布魯舍爾博士根據(jù)現(xiàn)場特征對犯罪嫌疑人的特點進行分析,甚至推測出犯罪嫌疑人喜歡穿雙排扣衣服,當抓獲嫌疑人時,的確在其家中發(fā)現(xiàn)許多雙排扣西裝。犯罪側(cè)寫的神秘性激發(fā)了諸多學(xué)者的研究興趣[1]15-17。Turco從精神分析角度展開研究,強調(diào)了早期依戀、精神障礙等精神分析理論內(nèi)容對于解釋殺人行為起到的重要作用,并在此基礎(chǔ)上提出了側(cè)寫的四個方面,包括:調(diào)查現(xiàn)場以分析犯罪人的人格、行為模式和發(fā)展經(jīng)歷;結(jié)合神經(jīng)生理學(xué)和精神病學(xué)知識進行畫像;運用精神分析理論分析犯罪人的早期經(jīng)歷、發(fā)展歷程和社會化過程;結(jié)合現(xiàn)場證據(jù)、被害人和犯罪人信息刻畫犯罪人的人口統(tǒng)計學(xué)特征[4]。Canter提出了偵查心理學(xué)(Investigative Psychology)概念,指出犯罪側(cè)寫應(yīng)該從心理學(xué)理論角度開展研究,目的在于運用心理學(xué)理論輔助偵查活動[5]。楊玉章教授基于實證研究提出“三定偵查法”犯罪心理畫像理論,主要包括定性質(zhì)、定范圍和定臉譜,其中定性質(zhì)是指解析犯罪動機,即根據(jù)犯罪現(xiàn)場、被害人、現(xiàn)場感知人等的分析研究確定刑事案件性質(zhì)[6]。熊立榮教授通過對犯罪人罪后行為進行分析,拓展了犯罪心理畫像的理論內(nèi)容,這是依據(jù)心理學(xué)等原理,利用已掌握的犯罪人信息、犯罪信息及犯罪人犯罪后所處的環(huán)境,對犯罪人犯罪后可能的、具有司法價值的行為和狀況進行分析和預(yù)測的一項專門工作[7]。以上為對案件進行犯罪側(cè)寫時較為常用的方法,對刑偵案件的偵破有很大的幫助。但利用上述方法進行犯罪側(cè)寫時,主要依靠犯罪側(cè)寫師的個人素養(yǎng)、現(xiàn)場勘查所獲得的證據(jù)材料,以及對之前類似案件的經(jīng)驗積累,進而對未知案件的作案人特征進行主觀推斷,這對犯罪側(cè)寫師的專業(yè)知識、從業(yè)經(jīng)驗等要求較高。另外,附加的心理因素也將影響側(cè)寫結(jié)果,因此犯罪側(cè)寫的可靠性和科學(xué)性飽受爭議。由此,提升犯罪側(cè)寫技術(shù)的關(guān)鍵在于如何避免畫像師的主觀臆斷,如何客觀、公正地分析犯罪行為與犯罪人的心理特征、行為特征和社會特征之間的關(guān)系。
利用計算機技術(shù)并結(jié)合相關(guān)算法構(gòu)建自動預(yù)測模型可減少畫像師在進行案件犯罪側(cè)寫時因人為主觀因素產(chǎn)生的誤判。2005年美國杜克大學(xué)的Baumgartner針對案件犯罪側(cè)寫建立了基于貝葉斯網(wǎng)絡(luò)的預(yù)測模型,首次將貝葉斯網(wǎng)絡(luò)應(yīng)用于犯罪側(cè)寫中,該方法為犯罪側(cè)寫的研究提供了一種新的思路[8]2706。2012年,Colombini等人提出了一種基于計算機技術(shù)的數(shù)字畫像技術(shù),該技術(shù)將傳統(tǒng)犯罪心理畫像技術(shù)和智能電子設(shè)備相結(jié)合,以人機互補、以人為主的原則重建犯罪現(xiàn)場,從而為犯罪側(cè)寫提供重要的參考信息[9]。
然而,犯罪側(cè)寫也存在一定的局限性,在美國曾發(fā)生過不少由于錯誤的犯罪側(cè)寫結(jié)論而導(dǎo)致的冤假錯案。例如在Kirk Bloodsworth的案件中,沒有找到能指引偵查方向的有價值的線索,于是偵查人員根據(jù)現(xiàn)場特征和被害人特征進行側(cè)寫,根據(jù)側(cè)寫結(jié)論從眾多嫌疑人中找到了與側(cè)寫結(jié)論高度匹配的嫌疑人馬林,以至于偵查人員對馬林是兇手的側(cè)寫結(jié)論深信不疑,甚至辦理這件案子的州檢察官也認為馬林就是殺人兇手。然而,隨著DNA技術(shù)的發(fā)展成熟,DNA檢驗結(jié)果證明馬林是無辜的。即便DNA技術(shù)排除了馬林的嫌疑,但是由于偵查人員過分信賴犯罪側(cè)寫,導(dǎo)致他們?nèi)匀粓孕篷R林就是兇手。偵查人員的主觀臆斷占據(jù)主導(dǎo)地位,而忽視了犯罪側(cè)寫與馬林并不匹配。
人為主觀因素對犯罪側(cè)寫的結(jié)果影響較大,不同的人對于經(jīng)驗、犯罪學(xué)、心理學(xué)、現(xiàn)場勘查學(xué)和行為科學(xué)等知識所掌握的層次不同,對同一個案件會得出不同的側(cè)寫結(jié)論。隨機森林算法有強大的學(xué)習能力,具有分類準確率高、抗干擾能力強等優(yōu)點,目前隨機森林算法較少應(yīng)用于犯罪預(yù)測領(lǐng)域。因此,為了降低人為主觀因素對犯罪側(cè)寫結(jié)論的影響,本文對數(shù)據(jù)展開實證分析,采用隨機森林的分類算法代替人工對犯罪嫌疑人進行側(cè)寫,通過對單作案人—單受害人的故意殺人案中犯罪現(xiàn)場的犯罪行為特征和被害人特征進行建模,從已偵破的案件中獲得故意殺人案件較為典型的犯罪特征,從而推測出未偵破案件中作案人的特征。
隨機森林是一種分類算法,由Leo Breiman[10]在2001年提出,是樹預(yù)測器的組合。該算法認為每棵樹都依賴于獨立采樣的隨機向量的值,并且對森林中所有的樹具有相同的分布。隨著森林中樹木數(shù)量的增多,森林的泛化誤差收斂到一個極限。樹分類器的泛化誤差取決于強度森林中的個別樹木以及它們之間的相關(guān)性。隨機森林是一種有效的預(yù)測工具,注入正確的隨機性可以使它們成為準確的分類器和回歸器。單棵樹的分類能力可能很小,但在隨機產(chǎn)生大量的決策樹后,一個測試樣本可以通過每一棵樹的分類結(jié)果經(jīng)統(tǒng)計后選擇最可能的分類。隨機森林是機器學(xué)習中十分常用的算法,它具有簡便高效、實用性強、分類準確率高等優(yōu)勢,在醫(yī)學(xué)、經(jīng)濟學(xué)、計算機視覺等眾多應(yīng)用領(lǐng)域取得了巨大的成功[11]。隨機森林也是Bagging集成策略中最實用的算法之一,其流程如圖1所示。
圖1 隨機森林流程圖
利用MATLAB建立隨機森林犯罪側(cè)寫模型,隨機森林算法函數(shù)在MATLAB中直接調(diào)用,設(shè)置適當參數(shù),算法模型建立后利用訓(xùn)練集訓(xùn)練模型,用測試集評估模型。本文使用精確度來評估模型的預(yù)測準確率,精確度為正負樣本被正確分類的概率,其計算公式為:
其中:
P(Positive Sample)為正例的樣本數(shù)量;
N(Negative Sample)為負例的樣本數(shù)量;
TP(True Positive)為正確預(yù)測到的正例的數(shù)量;
TN(True Negative)為正確預(yù)測到的負例的數(shù)量。
目前,犯罪側(cè)寫根據(jù)調(diào)查員或法醫(yī)心理學(xué)家的解釋將犯罪現(xiàn)場特征和犯罪特征聯(lián)系起來。本研究尋求通過隨機森林建模方法,從已偵破的案例中有效和系統(tǒng)發(fā)現(xiàn)變量之間不明顯和有價值的模式。隨機森林可以用來提取行為模式,并深入了解哪些因素影響了這些行為。因此,當一個新的案件被調(diào)查時,由于罪犯尚未被識別,輪廓變量是未知的,觀察到的犯罪現(xiàn)場變量被用來推斷未知的變量是基于它們在結(jié)構(gòu)中的連接和相應(yīng)的數(shù)值權(quán)值,其目標是產(chǎn)生一個更系統(tǒng)和更具經(jīng)驗的方法,并使用由此產(chǎn)生的隨機森林模型作為一個決策工具。
基于已偵破的犯罪案件建立一個可用于計算機學(xué)習的數(shù)據(jù)集可以有效解決犯罪側(cè)寫分析過程片面化的問題。隨著計算機技術(shù)的發(fā)展,越來越多的先進技術(shù)在公安工作中得到廣泛應(yīng)用,對刑事偵查工作產(chǎn)生了深厚的影響。隨著數(shù)據(jù)集樣本容量的不斷擴大,犯罪側(cè)寫模型可以學(xué)習到犯罪現(xiàn)場行為特征、被害人特征和作案人特征之間更高維的映射關(guān)系,實現(xiàn)案情特征的串并,以達到高效推理的目的[12]。
本研究共收集了150個故意殺人案件,案件樣本來源于中國裁判文書網(wǎng)。裁判文書中包含案情簡介、作案人信息、受害人信息、犯罪現(xiàn)場勘查、司法鑒定以及證人證言,完全滿足本研究的數(shù)據(jù)要求。為了便于研究受害人特征、犯罪現(xiàn)場特征和作案人特征之間的映射關(guān)系,本文所選擇的案件均為單受害人和單作案人。
本文全面綜合各種信息分析行為證據(jù)特點之間的相關(guān)性,對作案人的身體特征、社會特征和心理特征等進行綜合畫像,并結(jié)合犯罪側(cè)寫的實際情況對50個案件進行統(tǒng)計分析,提取特征變量。
變量的選擇標準是:1.行為不容易被誤解,是明顯可觀察到的;2.行為反映在犯罪現(xiàn)場,例如,傷害的類型;3.行為表明罪犯如何對受害者采取行動并與之互動,例如,受害者被捆綁,或被堵住嘴,或遭受酷刑。根據(jù)上述選擇標準,選取出描述可觀察犯罪現(xiàn)場的49個被害人變量,78個犯罪現(xiàn)場變量以及91個作案人變量。
對被害人的研究可以幫助我們推測出作案人對作案對象的選擇原則、作案動機以及作案人與被害人之間的關(guān)系等信息。本文統(tǒng)計出61個被害人出現(xiàn)的特征,包括被害人的性別、年齡、婚姻、住址、職業(yè)、愛好以及感情狀態(tài)等方面的特征,通過對一些低頻率特征的剔除,最終選擇了49個被害人特征作為輸入變量。
犯罪現(xiàn)場勘查是刑事犯罪偵查中非常重要的一步,犯罪現(xiàn)場可能留有嫌疑人作案時的痕跡物證,通過對犯罪現(xiàn)場的分析可以重建犯罪過程,能夠有效推斷出作案人的相關(guān)特征。本文共統(tǒng)計出78個犯罪現(xiàn)場特征作為輸入變量,包括案發(fā)地點、案發(fā)時間、作案工具、工具來源、現(xiàn)場行為和法醫(yī)報告等。
作案人特征是本文最終需要得到的預(yù)測結(jié)果。通過對被害人和犯罪現(xiàn)場的分析,得到作案人特征。本文根據(jù)統(tǒng)計分析提取出91個作案人刻畫指標用作隨機森林模型的輸出變量,包括作案人的性別、年齡、教育水平、職業(yè)、與被害人的關(guān)系、住所、作案動機、犯罪前科、性格、愛好等。
本研究的樣本中,被害人特征方面,女性被害人占比52.7%,男性被害人占比47.3%。在所有的受害人中有85.3%是本地人,67.3%已婚,10.7%離婚;從文化程度來看,67.3%的受害人為初中以下文化程度,文化程度低;56%的犯罪現(xiàn)場是被害人的住所;10.7%的受害者住在犯罪現(xiàn)場附近;8%的受害者死于其工作場所。
在犯罪現(xiàn)場的行為特征中,58%的案件作案工具是刀具,作案工具的選擇具有隨機性,39.3%的案件作案工具為隨身攜帶至現(xiàn)場,55.3%的案件作案工具來自現(xiàn)場,在無預(yù)謀的案件中,作案工具選擇的隨機性較強。法醫(yī)報告指出,有10.7%的人死前飲酒,頭部和頸部為主要致命部位。
在作案人特征中,男性作案人占比91.3%,女性作案人占比僅8.7%,78.7%的案件是本地人作案,作案人的文化程度普遍較低,無固定職業(yè),初中及以下文化程度的作案人占比75.3%。10.7%的作案人有犯罪前科記錄,25.3%的作案人具有自殺傾向,22%的作案人有精神或情緒方面的疾病,作案時為限制刑事責任能力人。從作案人與被害人的關(guān)系可以看出,多為熟人和近親屬作案,其中熟人占26.7%,夫妻關(guān)系占29.3%,陌生人作案僅占8%。從作案動機分析,55.3%的作案人是出于一時沖動,28.7%是因為感情糾紛,12%是因為家庭糾紛,14%是出于報復(fù)殺人,還有8%是因為對生活失去希望,企圖和被害人一起死亡。
根據(jù)統(tǒng)計分析提取出的49個被害人特征、78個犯罪現(xiàn)場特征和91個作案人特征按照固定順序匯總成“案件特征提取模板”,其中被害人特征和犯罪現(xiàn)場特征作為輸入變量,作案人特征作為輸出變量。所有變量均為二值化數(shù)值,模板對應(yīng)位置特征值為1,代表該特征在此案件中出現(xiàn),特征值為0,代表此特征未在此案件中出現(xiàn)。利用案件特征提取模板將案件編碼成一個一維的二值化向量,便于機器學(xué)習。
本文采用交叉驗證學(xué)習方法。將150個樣本分成3組,每組50個,當其中兩組作為訓(xùn)練集的時候,剩下一組則作為驗證集,重復(fù)3次。隨機森林算法在MATLAB軟件中可以直接調(diào)用,本實驗將隨機森林樹的個數(shù)設(shè)置為100,對每一個輸出變量單獨預(yù)測,共預(yù)測91次,最后統(tǒng)計預(yù)測準確的作案人特征數(shù),得出單個特征預(yù)測準確率。經(jīng)過計算后最終通過求均值得到88.9%的整體預(yù)測準確率。通過部分特征預(yù)測結(jié)果如表1所示:
表1 部分特征預(yù)測結(jié)果
本文針對人為主觀因素對犯罪側(cè)寫帶來較大影響的問題,構(gòu)建了基于隨機森林的自動預(yù)測模型代替人工的犯罪側(cè)寫。利用統(tǒng)計分析方法建立“案件特征提取模板”對案件特征進行編碼,并對隨機森林犯罪側(cè)寫模型進行訓(xùn)練,通過對“案件特征提取模板”和模型訓(xùn)練算法的更新,即可實現(xiàn)對預(yù)測精度的優(yōu)化。結(jié)果表明,本文采用的方法整體預(yù)測準確率為88.9%,與Baumgartner[8]270679.0%的整體預(yù)測準確率相比,利用隨機森林進行犯罪側(cè)寫建模方法的整體預(yù)測準確率有所提高,實現(xiàn)了更加精確的預(yù)測。