李鑫,范虹,趙興春,范曉諾,姚若俠
技術與方法
基于全局最小殘差法快速分析混合STR圖譜
李鑫1,范虹1,趙興春2,范曉諾3,姚若俠1
1. 陜西師范大學計算機科學學院,西安 710119 2. 公安部鑒定中心,北京 100038 3. 波士頓大學生物系,波士頓 02215,美國
在法醫(yī)DNA分析領域,混合短串聯(lián)重復序列(short tandem repeats,STR)圖譜的分析一直是研究難點。當前,國內主要依靠法醫(yī)進行人工分析,不僅效率低下,分析結果還存在著主觀性偏好,難以滿足日益增長的STR圖譜分析的需求。本文提出一種新的混合STR圖譜分析方法——全局最小殘差法,不僅可以計算出分析結果,還可以預測出每個組分的混合比例。該方法首先給混合比例賦予了新的定義,然后對等位基因模型進行優(yōu)化,進而綜合考慮STR圖譜中的所有基因座,將每個基因座的殘差值進行累加求和,選擇累加和最小的混合比例作為推斷結果,并使用灰狼優(yōu)化算法快速尋找混合比例的最優(yōu)值。對于二組分STR圖譜,全局最小殘差法能夠兼顧分析的準確性和分析速度,有利于實現(xiàn)大量的圖譜分析。本文提出的算法在實際應用中取得了不錯的效果,具有較高的應用價值,可為混合STR圖譜分析領域的研究提供新的解決方案。
法醫(yī)遺傳學;混合STR圖譜;等位基因模型;灰狼優(yōu)化算法
法醫(yī)DNA分析最常用的遺傳標記是短串聯(lián)重復序列(short tandem repeats,STR)[1,2],當DNA樣本來源于兩個或兩個以上個體時便可得到混合STR圖譜。關于混合STR圖譜的分析和解釋存在諸多挑戰(zhàn),如STR分析結果解釋方法沒有統(tǒng)一的標準、混合樣本的供體個數(shù)難以確定以及不平衡混合樣本中的次要成分檢測困難等[3]。由于這些問題始終沒有得到有效解決,這使得分析混合STR圖譜變得困難重重。目前,國內大部分實驗室對于混合STR圖譜的分析都是人工拆分[4]。人工拆分需要分析人員有扎實的專業(yè)知識和實踐經(jīng)驗,并且人工拆分時沒有量化的標準,主觀因素較大,導致分析結果不確定性較大。而國際上已有專門的拆分軟件,這些軟件拆分的優(yōu)勢在于:有可量化的標準、可重復性好、減少主觀性,結果更加客觀公正[5]。我國已經(jīng)有幾家法醫(yī)DNA實驗室引進了國外這些成熟的混合STR圖譜分析系統(tǒng),如STRmix[6]。STRmix等軟件是基于大量數(shù)據(jù)訓練完成的數(shù)學模型,由于不同國家和地區(qū)人種基因頻率存在差異,且國外和我國的法律條文及法律思想也存在差異,所以STRmix等軟件在國內的應用性十分有限。而且這些軟件價格昂貴,這些因素導致STRmix等軟件難以大規(guī)模推廣使用。季現(xiàn)超等[19]自主研發(fā)了一款基于馬爾科夫鏈蒙特卡洛(Markov Chain Monte Carlo,MCMC)算法的混合STR圖譜分析系統(tǒng)——SMART(STR Mixture Analysis and Resolution Tools),該系統(tǒng)考慮了stutter峰、DNA降解和基因座特異性擴增效率等因素,能夠分析現(xiàn)場物證混合STR圖譜,為案件偵破提供線索。但是SMART目前尚未在國內推廣使用,也沒有其他適合國內應用環(huán)境的成熟軟件。當前受國際形勢的影響,STRmix已被列入對華禁售的高科技產(chǎn)品清單,國內需要進行分析的混合STR圖譜數(shù)量日益增加,我國亟需自主研發(fā)與STRmix一樣成熟且適用于我國應用環(huán)境的分析軟件。當檢材供體數(shù)增加時,STR圖譜分析的難度也會加大[7],即使是當前國際流行的STR圖譜分析軟件,在分析速度和準確性上也難以兩面兼顧。所以,有必要建立分析結果更穩(wěn)健且運算速度更快的優(yōu)化模型,并在實踐中檢驗其魯棒性。Gill等[8]建立了利用峰面積分析二組分混合樣本的方法,該方法充分利用STR圖譜的定性信息(等位基因)和定量信息(峰面積)建立等位基因模型(allele model),使用最小殘差法(the minimum residuals method)推斷混合樣本中各組分的基因型,但是這個方法的計算量較大,不能實現(xiàn)對STR圖譜的高效分析。鑒于此,本文提出全局最小殘差法,對等位基因模型進行優(yōu)化,并引入灰狼優(yōu)化算法,提高混合STR圖譜的分析效率。
STR圖譜又叫STR分型結果峰圖,混合STR圖譜就是兩名或兩名以上個體混合在一起的DNA樣本檢測生成的STR圖譜。通過STR圖譜可以獲取所檢測生物樣本的基因信息,STR圖譜上的等位基因的峰面積是對檢測樣本中的DNA模板量的映射,法醫(yī)實驗已證實,DNA的模板量與STR圖譜中的等位基因峰面積存在線性關系[8],即檢測樣本中的DNA模板量越大,該檢測樣本生成的STR圖譜上的等位基因的峰面積越大?;诖嗽恚治稣呖梢酝ㄟ^觀察到的峰面積來推斷可能的基因型組合和各組分的比例。
對于任意兩個人的混合樣本,一個基因座(檢測位點)上的等位基因個數(shù)最大為4,即單個基因座上的峰型可以表現(xiàn)為一帶型、二帶型、三帶型或四帶型,它們對應可能存在的基因型組合數(shù)分別為1、7、12、6,詳見表1[9]。極少數(shù)個體會發(fā)生染色體變異,細胞核DNA表現(xiàn)為三倍體[5],這時,二組分混合STR圖譜基因座上的等位基因個數(shù)可能會超過4個,這種情況本文不作討論?;蛐徒M合是指兩個供體基因型的組合,例如基因型組合()表示供體1是基因型為,另一個供體2的基因型為。二組分混合STR圖譜每個基因座上的分析結果在表1中均可以找到,因此表1可視為二組分STR圖譜分析的解空間。
分析已知供體數(shù)的混合STR圖譜的第一步是估計混合比例(mixture proportion,Mx),混合比例是指混合樣本中某一供體DNA模板量所占的比例。法醫(yī)學實驗證明混合STR圖譜的所有基因座上的混合比例都是一樣的[8]。所以一旦求出混合比例,就可以建立等位基因模型來估計表1中基因型組合的期望峰面積。事實上,當基因座上只有一個等位基因時,可能的基因型組合只有一個,即兩個體的基因型均為純合子,因此一帶型基因座可以直接得到分析結果,本文對一帶型基因座不做分析;當基因座上有四個等位基因時,此時每一種基因型組合都不存在共享等位基因,估計出混合比例比較容易做到的。若四帶型基因座的基因型組合為,,即個體1的基因型為,另一個供體的基因型為,則可以通過公式(1)計算出混合比例的一個估計值′。
其中,P、P、P、P分別表示四帶型基因座上的等位基因峰面積。
Gill等[8]對二組分混合樣本建立的等位基因模型如附表1所示??梢园l(fā)現(xiàn),如果基因座上有兩個或三個的等位基因,這個過程就不再像公式(1)那樣簡單。二帶型、三帶型和四帶型基因座的基因型組合數(shù)分別為7、12、6,那么后面使用最小殘差法進行分析時必然會涉及大量計算。因此,本文對等位基因模型進行優(yōu)化,較原來的等位基因模型可以減少一些計算量。
在優(yōu)化等位基因模型前,本文重新定義混合比例:混合樣本中DNA模板量最少的供體所占的比例。那么在二組分混合樣本中,假設個體1的DNA模板量所占比例為,個體2的DNA模板量所占比例為1–,此時的取值范圍由(0, 100%)變?yōu)?0, 50%]。
首先將每個基因座上的等位基因按照其峰面積大小降序排列,并對等位基因進行標記。
對于四帶型基因座,等位基因分別標記為,,,,即P≥P≥P≥P;
對于三帶型基因座,等位基因分別標記為,,,即P≥P≥P;
對于二帶型基因座,等位基因分別標記為,,即P≥P。
基于以上的內容可以構造不等式組。
對于四帶型基因座則有
表1 二組分混合樣本可能的基因型組合
*,,,分別代表基因座上的等位基因。
對于三帶型基因座則有
對于二帶型基因座則有
其中P、P、P、P分別為等位基因,,,的期望峰面積。
將表1中每一種基因型組合代入公式(2) (3) (4)中求得基因型組合對應的取值范圍,舍去不等式組無解的基因型組合便可得到優(yōu)化的二組分混合檢材可能的基因型組合,如表2所示。因為無需對一帶型基因座進行分析,所以這里不再將其列入組合表中。對比表2,可以發(fā)現(xiàn)二帶型、三帶型和四帶型等位基因的基因型組合數(shù)分別減小為4、6、1。根據(jù)表2建立新的等位基因模型,如表3所示。那么最小殘差法基于優(yōu)化的等位基因模型進行圖譜分析時,二組分STR圖譜分析的解空間就變成了表2里的11種基因型組合,相較原來的等位基因模型計算量減少了近一半。此時用枚舉法求解混合比例時,的取值范圍由(0, 100%)縮減為(0, 50%]。在更小的解空間里,分析結果更不易出錯,最小殘差法的本質是在解空間里遍歷搜索尋找最優(yōu)的解。本文對等位基因模型進行優(yōu)化相當于是對二組分STR圖譜分析的解空間的優(yōu)化,讓最小殘差法在優(yōu)化的解空間里搜索,一定程度上也實現(xiàn)了對最小殘差法的優(yōu)化。
Fan等[20]也對等位基因模型進行了優(yōu)化,但是他們的三帶型等位基因模型只有(,)、(,)、(,),而本文的三帶型等位基因模型(如表3所示)的基因型組合中有(,)、(,)、(,)、(,)、(,)、(,),之所以要保留后三者是處于數(shù)學角度的考量,因為基因型組合(,)、(,)、(,)在公式(3)中均可求解到的取值范圍,不能排除不予考慮。
表2 二組分混合檢材可能的基因型組合(優(yōu)化版)
,,,分別代表基因座上的有效等位基因。
表3 等位基因模型(優(yōu)化版)
最小殘差法(the minimum residuals method)是基于STR圖譜的定性信息(等位基因)和定量信息(峰面積)的一種分析方法。由表3計算出等位基因峰面積的期望值,如果基因型組合推斷正確,等位基因的峰面積期望值與觀察值應該是近似的[8]。最小殘差法使用殘差這個變量來量化峰面積期望值與觀察值的近似程度,如公式(5)所示。越小,當前基因型組合為真實結果的概率越大。
其中,residual表示STR圖譜中第個基因座在基因型組合為時的殘差值,是基因座的等位基因數(shù)量,P、P分別表示等位基因的峰面積觀察值與期望值。此時基因座的推測基因型組合combination可通過公式(6)求得。
其中,是基因型組合變量,它的取值空間為表2中的11種基因型組合,combination表示使得residual取值最小時的基因型組合,即=combination時,residual取值最小。
基因座的殘差值的最小值用residual表示,如公式(7)所示。
Gill等[8]提出的分析方法是對每個基因座單獨拆分,在的所有取值中分別計算所有基因型組合(詳見表1)的,取使得最小時的基因型組合作為拆分結果。需要注意的是,這樣的策略忽視了整個STR圖譜的,因此,本文提出全局最小殘差法,具體方法如下:
在(0, 50%]范圍中取值,尋找使得整個STR圖譜的所有基因座的最小殘差值之和residual最小的數(shù)值,并把這個數(shù)值賦值給,如公式(8)和(9)所示。再把代入等位基因模型(表3)中,根據(jù)公式(5)分別計算每個基因座的所有基因型組合(表2)的,根據(jù)公式(6)(7)計算每個基因座的殘差的最小值residual,取殘差=residual時的基因型組合combination作為分析結果。
其中,為STR圖譜中基因座的數(shù)量,residual為整個STR圖譜中所有基因座的殘差最小值residual之和,公式(9)表示使得residual取值最小時的混合比例,即=時,residual取值最小。residual越小,當前越接近真實的混合比例,由公式(6)得出的分析結果正確的概率越大。
灰狼優(yōu)化算法(grey wolf optimizer,GWO)是受灰狼群體捕食行為的啟發(fā),由Mirjalili等[10]于2014年提出的一種新型群體智能優(yōu)化算法。該算法具有實現(xiàn)簡單、收斂速度快的優(yōu)勢,目前被廣泛應用于聚類分析[11]、路徑規(guī)劃[12]、圖像分割[13]和參數(shù)優(yōu)化等諸多領域。
研究發(fā)現(xiàn),在灰狼群體中有著嚴格的等級制度,一小部分擁有絕對權利的灰狼領導狼群進行捕獵活動[14]。一般來說,灰狼社會有4個等級,如圖1所示,、、和分別代表4個社會等級。按照這樣的等級制度,等級高的灰狼對等級低的灰狼有絕對的支配權。即,灰狼對灰狼、和有絕對的支配權;灰狼對灰狼和有絕對的支配權;灰狼對灰狼有絕對的支配權。為了模擬灰狼的捕獵行為,假設、、更接近目標獵物的位置(即適應度函數(shù)的最優(yōu)解)。另外,灰狼的數(shù)量在灰狼群中的比例最大,同時灰狼又必須完全服從灰狼、和,所以灰狼群的捕獵行為主要由灰狼、和引領完成。在每次迭代結束時,記錄3個最優(yōu)解作為下一次迭代時灰狼、、的位置。在灰狼優(yōu)化算法中,為了模擬灰狼種群的等級制度,同時又能簡化算法,通常在算法中假設各有一只灰狼、一只灰狼,一只灰狼和若干只灰狼。
圖1 灰狼社會等級
假設X,X,X分別表示灰狼,,的當前位置,X為灰狼的當前位置(=,,,)。則灰狼在灰狼(=,,)的引領下的捕獵行為定義如下:
其中,D表示灰狼在灰狼之間的距離,X表示灰狼在灰狼的引領下的更新位置,A和C是系數(shù)向量,是收斂因子,它隨著迭代次數(shù)從2線性遞減到0,1,2為0到1之間的隨機數(shù)。
那么灰狼在灰狼,,共同引領下的更新位置為
其中,是當前的迭代次數(shù),X(+1)表示灰狼在下次迭代時的位置。
本文在全局最小殘差法中使用灰狼優(yōu)化算法,可以快速找到使得residual取值最小時的混合比例的估值,即的值。這時可以認為是最接近真實混合比例的取值,在這個取值下獲得的拆分結果正確的概率最大。
對于公式(9)中的,最簡單的計算方法是在0到50%的范圍依次取1%,2%,…,49%,50%分別代入公式(8)計算residual,找到使得residual最小的。如果使用灰狼優(yōu)化算法則能夠快速計算出這個結果。那么,本文把混合比例的值等價為灰狼優(yōu)化算法中灰狼的位置,公式(8)作為灰狼優(yōu)化算法的適應度函數(shù),如公式(12)所示。
結合混合STR圖譜分析的具體情況,對灰狼優(yōu)化算法進行如下參數(shù)初始化。
灰狼數(shù)量=4,的取值太大算法運行時間會變長,取值太小不能保證準確率,4是在保證準確率的情況下的最優(yōu)數(shù)值;因為0<≤50%,所以灰狼的初始位置取值范圍為(0, 0.5];迭代數(shù)設置為6,多次實驗發(fā)現(xiàn)灰狼優(yōu)化算法經(jīng)過6次迭代后已收斂至適應度函數(shù)的最優(yōu)值。
在全局最小殘差法中引入灰狼優(yōu)化算法(GWO-全局最小殘差法)的算法描述如圖2所示。
輸入:二組分混合STR圖譜(基因座,等位基因,峰面積)過程:初始化灰狼算法:狼群數(shù)量n=4, Mx∈(0,0.5], 迭代次數(shù)iterations=6;初始化灰狼i(i =1,2,…,n)的位置Xi;fort = 1 to iterationsdo 根據(jù)公式(12)計算每個灰狼的適應度; Xα為當前適應度函數(shù)F第一最優(yōu)解; Xβ為當前適應度函數(shù)F第二最優(yōu)解; Xδ為當前適應度函數(shù)F第三最優(yōu)解; 由公式(10)(11)計算灰狼群體i(i =1,2,…,n)的更新位置Xi(t+1); 更新a、A和C;end forMx′=Xα;Mx’代入公式(12)求得residualsum輸出:Mx', residualsum
實驗數(shù)據(jù)來自文獻[15](詳見附表 2),由R. Wickenheiser的Crime實驗室提供,本文把該數(shù)據(jù)標記為Data 1。該STR圖譜包含有13個基因座,同時還給出兩個供體的真實基因型和每個基因座的等位基因對應的峰面積。因此可以使用該數(shù)據(jù)驗證全局最小殘差法的分析效果。
全局最小殘差法對混合比例估計值的計算可以使用枚舉法,即依次取值1%,2%,…,49%,50%,分別計算residual,取使residual最小值時的作為最終的估計值,然后在混合比例為時的拆分結果作為最終的分析結果。
首先,將Data 1中的每個基因座的等位基因按照峰面積的大小降序排序,然后進行歸一化。這一步會把低于主峰峰面積15%的峰形視為stutter峰,并從圖譜中刪除不參與后面的計算。實驗數(shù)據(jù)的歸一化結果如表4所示,歸一化結果對應為公式(5)中的P。
然后,將依次賦值0.01,0.02,…,0.49,0.50,計算residual的值。這里以=0.20為例(即個體1的DNA模板量在混合樣本中所占比例為20%)。參考表3可以得到=20%時的三等位基因模型如表5所示。
表4 Data 1的歸一化結果
“等位基因”列上的數(shù)字代表基因座上短串聯(lián)重復序列的重復數(shù)。
因此,當=0.2時,基因座的推斷分析結果為(,),即(16/16,15/18)。
同理可以得到其他三帶型等位座在=0.20時的最小殘差值及分析結果,如表7所示。
同理可以計算出四帶型基因座和二帶型基因座在=0.20時的最小殘差值及分析結果,如此一來,便可以得到整個圖譜在=0.20時的分析結果,如表8所示。
根據(jù)上述步驟,可以得到取其他值時的residual。根據(jù)公式(9),存在一個取值,使得residual最小。本文把=時的分析結果作為最終的分析結果。
依次取0.01,0.02,…,0.49,0.50進行上述計算,可以繪制出與residual關系圖像(如圖3所示)。圖3中的黑色圓點是residual最小值的坐標位置(0.3, 0.030011),該坐標的縱坐標0.030011即為全局最小殘差值;當取值0.3時,residual最小,那么的估計值=30%,將=0.3時全局最小殘差法得出的分析結果為最終分析結果。
表5 Mx=20%時的三等位基因模型
表7 三帶型基因座在Mx=0.20時的最小殘差值及分析結果
*表示基因座的最小殘差值。
表8 STR圖譜在Mx=0.20時的最小殘差值及分析結果
*表示所有基因座的最小殘差值residual之和,即當=0.2時,residual=0.133323。
mixsep (Forensic Genetics DNA Mixture Sepa-rator)是由Tvedebrink等[16]用R語言編寫的用于法醫(yī)混合DNA分析的經(jīng)典軟件。為了對比全局最小殘差法的分析效果,本文使用最小殘差法和mixsep對Data 1進行分析,三種方法的分析結果如表9所示。根據(jù)附表2中供體的真實基因型,在表9中用加粗字體標注出分析有誤的結果。由表9可知全局最小殘差法與mixsep的分析結果全部正確,而最小殘差法在基因座和上卻給出了兩種分析結果,還需要人工進一步判斷。
圖3 residualsum與Mx的關系圖
黑色圓點為該曲線的最低點。
為了驗證灰狼優(yōu)化算法的優(yōu)化效果,本文使用python語言實現(xiàn)灰狼優(yōu)化算法,將其融入全局最小殘差法中尋找混合比例的最優(yōu)值。這里同樣使用Data 1進行對比實驗,表10從混合比例、residual最小值、分析準確率以及分析耗時四個方面比較全局最小殘差法和GWO-全局最小殘差法。
由表10可知,全局最小殘差法在引入灰狼優(yōu)化算法后,得到的混合比例估計值和residual最小值,與全局最小殘差法的分析結果很接近,分析結果的準確率依然是100%,而且減少了約60%的分析耗時。該對比實驗證明,在全局最小殘差法引入灰狼優(yōu)化算法,可以在不影響分析結果的情況下,提高分析效率。圖4為灰狼優(yōu)化算法求解混合比例最優(yōu)值時適應度函數(shù)的收斂曲線,由該圖可以觀察到灰狼優(yōu)化算法每次迭代所求得的residual的最小值,經(jīng)過6次迭代得到了residual的最小值0.0298612。
為了驗證全局最小殘差法在實踐應用中的表現(xiàn),本文使用一組來自國內某法醫(yī)實驗室的STR圖譜數(shù)據(jù)進行實驗(見附表3),本文把該數(shù)據(jù)標記為Data 2。Data 2是一份有21個基因座(檢測位點)的二組分混合STR圖譜數(shù)據(jù),由于數(shù)據(jù)保密性,本文只展示了部分的STR圖譜信息和供體基因型。
表9 最小殘差法、全局最小殘差法和mixsep分析結果比較
加粗字體表示該分析結果與供體的真實基因型不一致。
表10 全局最小殘差法與GWO-全局最小殘差法的對比實驗
準確率=分析正確的位點數(shù)/STR圖譜的位點數(shù)。
圖4 灰狼優(yōu)化算法收斂曲線
該數(shù)據(jù)經(jīng)過全局最小殘差法分析后求得混合比例的估值為32%。這里同樣使用最小殘差法和mixsep對Data 2進行分析,這三種方法的分析結果如表11所示??梢园l(fā)現(xiàn),最小殘差法在基因座和上分析有誤,而全局最小殘差法和mixsep,除了個體1在基因座上的分析結果有誤,其余分析結果均與真實基因型一致。
表12列舉了基因座在=32%時四種基因型組合的期望峰形,可以發(fā)現(xiàn)全局最小殘差法選擇(7/9, 9/9)作為分析結果,而該基因座的真實基因型組合為(7/7, 9/9),比較這個兩種結果的殘差值,可以發(fā)現(xiàn)兩者的殘差值很懸殊。圖5是基因座的四種基因型組合的殘差值與的關系圖,可以發(fā)現(xiàn)(7/9, 9/9)的曲線(紅)和(7/7, 9/9)的曲線(綠)的相交點橫坐標在0.3附近,而全局最小殘差對混合比例的估值=32%也正好在臨界區(qū)域附近。
表11 實踐應用的分析結果
加粗字體表示該分析結果與真實結果不一致。準確率=分析正確的位點數(shù)/STR圖譜的位點數(shù)。
表12 Mx =32%時基因座TH01的期望峰形
生物檢材在檢測生成STR圖譜的過程中會受外界干擾從而產(chǎn)生峰形波動,例如出現(xiàn)雜合不平衡、stutter峰、drop-in等[17],這都會影響等位基因模型的擬合效果。相比最小殘差法,全局最小殘差法對的分析結果無誤,說明面對不可避免的干擾,全局最小殘差法穩(wěn)定性更好,且效果并不差于mixsep。由附表3可知,基因座和均為二帶型基因座,它們的真實基因型組合均為兩個純合子,雜合均衡比分別為0.4215、0.2892,那么說明兩個峰并不是完全來自一個供體。換而言之,這兩個基因座的峰形差異性較大,基因座受到的干擾使得它的峰形嚴重偏離等位基因模型上的期望峰形,錯把其他期望峰形匹配為最相似的峰形。由圖5可以發(fā)現(xiàn),如果可以降低這個干擾,那么紅綠兩條曲線的交點會向右偏移,這樣基因型組合(7/7, 9/9)將會是相似度最大的期望峰形,全局最小殘差法就能夠更正這個錯誤。
圖5 基因座TH01的殘差值residual與混合比例Mx關系圖
利用STR圖譜的定量信息峰面積對混合DNA樣本進行分析,能夠實現(xiàn)對混合STR圖譜的自動化分析。本文提出的全局最小殘差法在引入灰狼優(yōu)化算法后,可以快速分析二組分混合DNA樣本生成的STR圖譜,該分析方法可以推斷出混合樣本中各組分的混合比例和基因型,具有較高的準確率和較快的分析速度,對實現(xiàn)對混合STR圖譜的批量化分析具有重要意義,可以更好地協(xié)助法醫(yī)工作者進行圖譜分析,提高STR圖譜的利用率。
混合STR圖譜受多種因素的影響,如DNA降解、峰飽和、等位基因共享、雜合子不平衡、基因座的特異性擴增效率以及平行擴增效率等[17],這些因素都會造成等位基因模型難以很好的擬合峰面積觀察值。后續(xù)的研究工作可以針對影響峰面積的因素進行數(shù)學建模,在進行圖譜分析前,可以對圖譜數(shù)據(jù)進行降噪處理,這樣可以最大程度還原數(shù)據(jù)。但是數(shù)據(jù)降噪處理的過程必然會增加計算量。如何對數(shù)據(jù)進行降噪處理,增強等位基因模型的擬合性,以及在保證準確分析的同時兼顧分析速度是后續(xù)研究的重點。另外,本文提出的方法是否可以有效地分析來自三個及以上的混合STR圖譜,仍有待實驗檢驗?;旌蟂TR圖譜分析本質上是一個數(shù)學組合問題,由表1可知,對于任意兩個人的混合STR圖譜,基因座上等位基因的可能組合數(shù)最大為12,但是隨著供體數(shù)的增加,最大基因型組合數(shù)將指數(shù)式增長。比如供體數(shù)為3時,最大基因型組合數(shù)為294;供體數(shù)為4時,最大基因型組合數(shù)為16020。同時,多組分STR圖譜的等位基因模型推導將變得困難,這時引入智能優(yōu)化算法優(yōu)化分析過程依然有重要意義。而且供體數(shù)超過2時,STR圖譜發(fā)生stutter峰和drop-in的情況會增加[17],需要人工完成數(shù)據(jù)預處理,或者直接丟棄該數(shù)據(jù)。
在法醫(yī)應用中,往往期望從STR序列信息中獲得更多有效等位基因,這樣可以提高個體識別能力。目前二代測序技術趨近成熟[18],能夠挖掘出混合DNA中更多的信息。相比毛細管電泳STR分型方法,二代測序技術的檢測靈敏度更高,對于一些陳舊疑難樣本有較高的檢出率。對于基因序列變異,二代測序技術能夠利用等位基因序列的差異,對主要組分等位基因、次要組分等位基因以及stutter峰加以區(qū)分,這更有利于解釋混合STR圖譜。因此,后續(xù)可以收集二代測序STR數(shù)據(jù)驗證模型的穩(wěn)定性,再結合人工模擬的混合樣本驗證推斷的混合比例是否存在較大誤差,從而設計更有效的混合STR圖譜分析方法,為法醫(yī)工作者提供更可靠的參考。
附加材料見文章電子版www.chinagene.cn。
[1] Cowell RG, Lauritzen SL, Mortera J. Identification and separation of DNA mixtures using peak area information., 2007, 166(1): 28–34.
[2] Gill P, Sparkes R, Kimpton C. Development of guidelines to designate alleles using an STR multiplex system., 1997, 89(3): 185–197.
[3] Bleka ?, Benschop CCG, Storvik G, Gill P. A comparative study of qualitative and quantitative models used to interpret complex STR DNA profiles., 2016, 25: 85–96.
[4] Budowle B, Onorato AJ, Callaghan TF, Manna AD, Gross AM, Guerrieri RA, Luttman JC, McClure DLMixture interpretation: defining the relevant features for guidelines for the assessment of mixed DNA profiles in forensic casework., 2009, 54(4): 810–821.
[5] Taylor D, Bright JA, Buckleton J. The interpretation of single source and mixed DNA profiles., 2013, 7(5): 516–528.
[6] Swaminathan H, Grgicak CM, Medard M, Lun DC. NOCIt: a computational method to infer the number of contributors to DNA samples analyzed by STR genotyping., 2015, 16: 172–180.
[7] Curran JM. A MCMC method for resolving two person mixtures., 2008, 48(4): 168–177.
[8] Gill P, Sparkes R, Pinchin R, Clayton T, Whitaker J, Buckleton J. Interpreting simple STR mixtures using allele peak areas., 1998, 91(1): 41–53.
[9] Tvedebrink T, Eriksen PS, Mogensen HS, Morling N. Identifying contributors of DNA mixtures by means of quantitative information of STR typing., 2012, 19(7): 887–902.
[10] Mirjalili S, Mirjalili SM, Lewis A. Grey wolf optimizer., 2014, 69(3): 46–61.
[11] Zhang S, Zhou YQ. Grey wolf optimizer based on powell local optimization method for clustering analysis., 2015, 2015: 1–17.
[12] Zhang S, Zhou YQ, Li ZM, Pan W. Grey wolf optimizer for unmanned combat aerial vehicle path planning., 2016, 99: 121–136.
[13] Khairuzzaman AKM, Chaudhury S. Multilevel threshol-ding using grey wolf optimizer for image segmentation., 2017, 86: 64–76.
[14] Zhang XF, Wang XY. Comprehensive review of grey wolf optimization algorithm., 2019, 46(3): 30–38.張曉鳳, 王秀英. 灰狼優(yōu)化算法研究綜述. 計算機科學, 2019, 46(3): 30–38.
[15] Wang T, Xue N, Birdwell JD. Least-square deconvolution: a framework for interpreting short tandem repeat mixtures., 2006, 51(6): 1284–1297.
[16] Tvedebrink T. mixsep: An R-package for DNA mixture separation., 2011, 3(1): e486–e488.
[17] Clayton TM, Whitaker JP, Sparkes R, Gill P. Analysis and interpretation of mixed forensic stains using DNA STR profiling., 1998, 91(1): 55–70.
[18] B?rsting C, Morling N. Next generation sequencing and its applications in forensic genetics., 2015, 18: 78–89.
[19] Ji XC, Chi LJ, Xu Z, Peng Z, Ye J, Tu Z, Chen H. SMART: an analysis system for mixed str profiles., 2022, 47(1): 1–9.季現(xiàn)超, 池連江, 徐珍, 彭柱, 葉健, 凃政, 陳華. SMART:自主研發(fā)的混合STR圖譜分析系統(tǒng). 刑事技術, 2022, 47(1): 1–9.
[20] Fan HL, Xie QQ, Wang LX, Ru K, Tan XH, Ding JY, Wang X, Huang J, Wang Z, Li YN, Wang XH, He YT, Gu CH, Liu M, Ma SW, Wen SQ, Qiu PM. Microhaplotype and Y-SNP/STR (MY): A novel MPS-based system for genotype pattern recognition in two-person DNA mixtures., 2022, 59: 102705.
Rapid analyzing mixed STR profiles based on the global minimum residual method
Xin Li1, Hong Fan1, Xingchun Zhao2, Xiaonuo Fan3, Ruoxia Yao1
The analysis of mixed short tandem repeat (STR) profiles has been long considered as a difficult challenge in the forensic DNA analysis. In the context of China, the current approach to analyze mixed STR profiles depends mostly on forensic manual method. However, besides the inefficiency, this technique is also susceptible to subjective biases in interpreting analysis results, which can hardly meet up with the growing demand for STR profiles analysis. In response, this study introduces an innovative method known as the global minimum residual method, which not only predicts the proportion of each contributor within a mixture, but also delivers accurate analysis results. The global minimum residual method first gives new definitions to the mixture proportion, then optimizes the allele model. After that, it comprehensively considers all loci present in the STR profile, accumulates and sums the residual values of each locus and selects the mixture proportion with the minimum accumulative sum as the inference result. Furthermore, the grey wolf optimizer is also employed to expedite the search for the optimal value. Notably, for two-person STR profiles, the high accuracy and remarkable efficiency of the global minimum residual method can bring convenience to realize extensive STR profile analysis. The optimization scheme established in this research has exhibited exceptional outcomes in practical applications, boasting significant utility and offering an innovative avenue in the realm of mixed STR profile analysis.
forensic genetics; mixed STR profile; allele model; grey wolf optimizer
2023-06-15;
2023-08-14;
2023-08-30
國家自然科學基金項目(編號:12271324),陜西省自然科學基金重點項目(編號:2022ZJ-39)和法醫(yī)遺傳學公安部重點實驗室開放課題(編號:2021FGKFKT07) 資助[Supported by the National Natural Science Foundation of China (No. 12271324), the Key Program of Shaanxi Natural Science Foundation (No. 2022ZJ-39), and Open Projects of the Key Laboratory of Forensic Genetics of the Ministry of Public Security (No. 2021FGKFKT07)]
李鑫,碩士研究生,專業(yè)方向:生物信息。E-mail: 15514872144@163.com
姚若俠,博士,教授,研究方向:符號計算。E-mail: rxyao@snnu.edu.cn
范虹,博士,教授,研究方向:生物信息。E-mail: fanhong@snnu.edu.cn
10.16288/j.yczz.23-101
(責任編委: 朱波峰)