高乾坤,張鵬,徐平,徐驍,張照星,陳潔,施一琳
(公安部戶政管理研究中心,北京100070)
生物特征識別系統(tǒng)是通過可測量的身體或行為等生物特征進(jìn)行身份識別的系統(tǒng)。近年來,隨著人工智能和大數(shù)據(jù)技術(shù)蓬勃興起,生物特征識別技術(shù)方興未艾,其識別準(zhǔn)確性和識別速度得到很大提升,已經(jīng)在社會(huì)各領(lǐng)域廣泛使用。目前,在生物特征識別技術(shù)研究領(lǐng)域,學(xué)者們對不同生物特征提出了大量識別算法模型,他們在評價(jià)比較模型時(shí)也會(huì)使用不同評價(jià)指標(biāo)。但相比較而言,關(guān)于生物特征識別系統(tǒng)算法評價(jià)評測體系方面的研究就很少,算法評測指標(biāo)也不夠系統(tǒng)全面,有些評測指標(biāo)也僅停留在概念敘述階段而沒有形成具體化公式,甚至有些指標(biāo)本身定義也有歧義或重復(fù)。本文通過收集國內(nèi)外算法評價(jià)指標(biāo)方面的文獻(xiàn)和標(biāo)準(zhǔn),試圖將生物特征識別技術(shù)領(lǐng)域的算法評價(jià)指標(biāo)全面化、一般化、公式化和形象化,并詳細(xì)介紹具體指標(biāo)的定義、意義和具體計(jì)算公式等,希望能對具體生物特征識別算法的評價(jià)評測和初次接觸生物特征識別技術(shù)的人員有所幫助。識別比對準(zhǔn)確性是整個(gè)生物識別系統(tǒng)的核心,因此相關(guān)指標(biāo)是評價(jià)識別系統(tǒng)算法性能的主要參考。本文,我們首先介紹準(zhǔn)確性的基本指標(biāo)量,然后引出準(zhǔn)確性的綜合指標(biāo),最后介紹一些其他評價(jià)指標(biāo)。
對某一測試樣本集,我們將在模板庫已經(jīng)注冊對應(yīng)身份的樣本稱為正樣本(Positive sample),在模板庫中沒有注冊對應(yīng)身份的樣本稱為負(fù)樣本(Negative sam?ple),那么測試樣本集就由正樣本和負(fù)樣本兩類組成。參考有關(guān)文獻(xiàn)[1],并將閾值T 和比對結(jié)果分值排名k 引入進(jìn)行改進(jìn),我們定義:
TP(T,k)為所有待測試正樣本,經(jīng)過算法比對,輸出結(jié)果的前k名比中該測試正樣本,且比中時(shí)分值大于等于閾值T情況的數(shù)量。
TN(T,k)為所有待測試負(fù)樣本,經(jīng)過算法比對,輸出結(jié)果的前k名比對分值均小于閾值T情況的數(shù)量。
FP(T,k)為所有待測試負(fù)樣本,經(jīng)過算法比對,輸出結(jié)果的前k名比對分值存在大于等于閾值T情況的數(shù)量。
FN(T,k)為所有待測試正樣本,經(jīng)過算法比對,輸出結(jié)果的前k名中未比中該測試正樣本或比中了但比中分值小于閾值T情況的數(shù)量。
當(dāng)閾值T 給定、排名k 給定或不考慮排名時(shí),我們將這四個(gè)值分別簡記為TP、TN、FP和FN。
根據(jù)有關(guān)文獻(xiàn)[1-3],我們將介紹以下與準(zhǔn)確性相關(guān)的基本指標(biāo)量。有些指標(biāo)量的名稱不同,但具體公式相同,我們將其歸為一類;有些僅語言描述的也將其公式化。
正確率,也稱為精確率或準(zhǔn)確率,是指通過算法預(yù)測正確的樣本在測試樣本集中的占比,記為rateaccuracy,具體公式如下:
正確率是我們最常見的評價(jià)指標(biāo),通常來說,正確率越高,算法越好。但很多特殊場景還需考慮其他評價(jià)指標(biāo)。
與之相對的是錯(cuò)誤率,是指通過算法預(yù)測錯(cuò)誤的樣本在測試樣本集中的占比,記為rerror。
查準(zhǔn)率,也稱精度(Precision),是指所有被算法預(yù)測為正樣本中確實(shí)是正樣本的占比,記為P,具體公式如下:
查全率,與召回率(Recall)、命中率(Hit Rate)、靈敏度(Sensitivity)和真正例率TPR 是同一個(gè)概念,是指所有正樣本中,被算法預(yù)測為正樣本的占比,記為R,具體公式如下:
查全率用來衡量算法對正樣本的識別能力,是算法覆蓋面的一個(gè)度量。
假正例率(False Positive Rate),簡記為FPR,是指負(fù)樣本被錯(cuò)誤預(yù)測為正樣本的數(shù)量在所有負(fù)樣本中的占比,也稱為錯(cuò)誤預(yù)警率(False Alarm Rate),具體公式如下:
與之相對的是特效度,它是指所有待測負(fù)樣本被算法預(yù)測為負(fù)樣本的數(shù)量在所有負(fù)樣本中的占比,用來衡量算法對負(fù)樣本的識別能力,記為rspecificity,具體公式如下:
錯(cuò)誤接受率(False Acceptance Rate),簡記為FAR,是指被預(yù)測為正的負(fù)樣本在所有預(yù)測為正的樣本中的占比,具體公式如下:
與之對應(yīng)的是,正確接受率(True Acceptance Rate),簡記為TAR,是指被預(yù)測為正的正樣本在所有預(yù)測為正的樣本中的占比,具體公式如下:
錯(cuò)誤拒絕率(False Rejection Rate),簡記為FRR,是指被預(yù)測為負(fù)的正樣本在所有預(yù)測為負(fù)的樣本中的占比,具體公式如下:
與之對應(yīng)的是,正確拒絕率(True Rejection Rate),簡記為TRR,是指被預(yù)測為負(fù)的負(fù)樣本在所有預(yù)測為負(fù)的樣本中的占比,具體公式如下:
值得注意的是,在閾值T 給定情況下,我們可以通過某個(gè)或某些指標(biāo)的概率來評價(jià)算法準(zhǔn)確性;但當(dāng)閾值T 未給定情況下,單獨(dú)比較某個(gè)指標(biāo)概率毫無意義。這時(shí)我們可以預(yù)先設(shè)定某個(gè)指標(biāo)概率值,得到滿足該指標(biāo)概率值的不同算法的閾值T,再根據(jù)閾值T通過另一指標(biāo)概率值的大小來評價(jià)算法準(zhǔn)確性,如錯(cuò)誤預(yù)警率十萬分之一下的正確率等。
我們經(jīng)常使用上述指標(biāo)繪制成的相關(guān)曲線和一些其他綜合指標(biāo)來更加客觀全面形象地評價(jià)算法性能。最常用的繪制曲線有P-R 曲線[4]、ROC 曲線[1,3-8]、DET[3,5-8]曲線和CMC 曲線[3]等,其他綜合評價(jià)指標(biāo)還有等錯(cuò)誤率[4-8]和類內(nèi)類間差異評價(jià)指標(biāo)[9]等。
查準(zhǔn)率-查全率曲線(Precision-Recall curve)簡稱P-R 曲線,它以查全率R為X 軸,以查準(zhǔn)率P為Y軸。對給定排名k或不考慮排名,通過對算法設(shè)定不同的閾值T 會(huì)得到不同的R(T,k)和P(T,k)值,將這些點(diǎn)(R(T,k),P(T,k))繪制到直角坐標(biāo)系上就得到了P-R曲線。P-R 曲線下的面積為1 時(shí)則說明模型算法性能最為理想,往往不能達(dá)到最理想效果。當(dāng)不同算法的P-R 曲線交叉時(shí),難以判斷哪個(gè)算法性能好。通常的做法是計(jì)算每種算法P-R 曲線下的面積,面積越大認(rèn)為算法性能越好。但這個(gè)面積不太容易計(jì)算,這時(shí)可以引入平衡點(diǎn)BEP(即y=x與P-R 曲線交點(diǎn)的橫坐標(biāo)值)作為度量,BEP 越大認(rèn)為算法性能越好。還有一個(gè)整體評價(jià)查準(zhǔn)率和查全率的指標(biāo):F1值(F1-score),即查全率和查準(zhǔn)率的調(diào)和平均數(shù):
對給定的閾值T或排序k,比較不同算法F1值大小,值越大認(rèn)為算法性能越好。
受試者工作特征曲線(Receiver Operating Charac?teristic curve)簡稱ROC 曲線,它以假正例率FPR 為X軸,以真正例率TPR 為Y 軸。對給定排名k或不考慮排名,通過對算法設(shè)定不同的閾值T 會(huì)得到不同的FPR(T,k)和TPR(T,k)值,將這些點(diǎn)(FPR(T,k),TPR(T,k))繪制到直角坐標(biāo)系上就得到了ROC 曲線。ROC 曲線反映了算法成本(假正例)和收益(真正例)間的權(quán)衡關(guān)系。ROC 曲線越靠近y=1 算法性能越好。在實(shí)際應(yīng)用時(shí)不同算法的ROC 曲線可能會(huì)有所交叉,僅從曲線趨勢上難以判斷算法優(yōu)劣。這時(shí)我們用ROC 曲線下的面積(Area Under Curve),即AUC,來進(jìn)行評價(jià)[10]。AUC 理論上在[0,1]上取值,AUC 值越大算法性能越好。但個(gè)別時(shí)候會(huì)出現(xiàn)AUC 大但算法識別性能較差的情況,這時(shí)還要綜合考慮其他指標(biāo)進(jìn)行評價(jià)。
在實(shí)際數(shù)據(jù)集中經(jīng)常會(huì)出現(xiàn)正負(fù)樣本數(shù)量差異巨大的現(xiàn)象,而且測試集中正負(fù)樣本的分布也可能隨著時(shí)間變化。這時(shí)ROC 曲線有一個(gè)很好的特性,即當(dāng)測試集正負(fù)樣本分布變化時(shí)同一算法的ROC 曲線趨勢能夠保持不變,而P-R 曲線沒有這一特性。但ROC 曲線這一很好的特性卻無法體現(xiàn)數(shù)據(jù)集結(jié)構(gòu)巨大變化時(shí)不同算法識別性能的差異,而P-R 曲線能夠反映此時(shí)算法的真實(shí)性能。
檢測錯(cuò)誤權(quán)衡曲線(Detection Error Trade-off curve)簡稱DET 曲線,它以錯(cuò)誤接受率FAR 為X 軸,錯(cuò)誤拒絕率FRR 為Y 軸。對給定排名k或不考慮排名,通過對算法設(shè)定不同的閾值T 會(huì)得到不同的FAR(T,k)和FRR(T,k)值,將這些點(diǎn)(FAR(T,k),TPR(T,k))繪制到直角坐標(biāo)系上就得到了DET 曲線。這時(shí)曲線越接近y=0,算法性能越優(yōu)越。類似于ROC 曲線,我們也可以用曲線下的面積來評價(jià)算法的整體性能,這時(shí)曲線下面積越小,算法性能越好。
累計(jì)匹配特性曲線(Cumulative Match Characteris?tic Curve)簡稱CMC 曲線,它以排序k為X 軸,以前k名命中率top(T,k)為Y 軸。對給定閾值T,通過排序k從小到大變化得到不同的top(T,k) 值,將這些點(diǎn)(k,top(T,k)) 繪制到直角坐標(biāo)系上就得到了CMC 曲線。CMC 曲線越接近y=1,算法識別性能就越好。
等錯(cuò)誤率(Equal Error Rate)簡記為EER,它雖然是一個(gè)具體數(shù)值,但需要利用錯(cuò)誤接受率曲線FAR 和錯(cuò)誤拒絕率曲線FRR 來求得。具體過程是:對給定排名k 或不考慮排名,先將閾值T的取值范圍歸一化至區(qū)間[0,1],以閾值T為X 軸,T取一組0 到1 之間的等差數(shù)列,分別得出點(diǎn)(T,FAR(T,k))和點(diǎn)(T,FRR(T,k)),這樣就可以畫出曲線FAR 和曲線FRR,兩條曲線的交點(diǎn)對應(yīng)的縱坐標(biāo)值就是等錯(cuò)誤率EER。等錯(cuò)誤率EER越小,算法的識別性能就越高。
這里是對某一測試樣本集中樣本的所有比對進(jìn)行評價(jià)的。將兩個(gè)同一身份的樣本間的比對得分稱為真實(shí)匹配得分(genuine match score),將不同身份的樣本間的比對得分稱為虛擬匹配得分(imposter match score),那么可以計(jì)算d':
指標(biāo)d'反映了類內(nèi)匹配得分和類間匹配得分之間的差異情況。值d'越大,說明類內(nèi)差異和類間差異區(qū)分度越明顯,算法效果也越好。
魯棒性指標(biāo)用來評價(jià)識別系統(tǒng)處理缺失值和異常數(shù)據(jù)的能力。文獻(xiàn)[11]用初始增強(qiáng)魯棒性(Robust Initial Enhancement)RIE 這一指標(biāo)來評測識別算法的魯棒性。
整個(gè)生物特征識別系統(tǒng)一般由數(shù)據(jù)采集注冊、數(shù)據(jù)傳輸、數(shù)據(jù)處理、數(shù)據(jù)存儲、識別比對和決策反饋等過程組成,每一階段都有對應(yīng)的評價(jià)指標(biāo)。采集注冊過程經(jīng)常使用注冊失敗率、采集失敗率、采集用時(shí)和平均無故障時(shí)間等來評價(jià)采集設(shè)備的性能。數(shù)據(jù)傳輸過程就會(huì)涉及到計(jì)算機(jī)網(wǎng)絡(luò)方面的一些評價(jià)指標(biāo),如傳輸速率、吞吐量、時(shí)延、往返時(shí)間、利用率等指標(biāo)。數(shù)據(jù)處理階段會(huì)涉及特征提取相關(guān)的評價(jià)指標(biāo)。數(shù)據(jù)存儲階段會(huì)涉及到數(shù)據(jù)庫性能方面的指標(biāo)。識別比對階段除了上述指標(biāo)外,還會(huì)涉及到比對速度、算法的可擴(kuò)展性、可解釋性等指標(biāo)。決策反饋過程評價(jià)指標(biāo)會(huì)涉及到?jīng)Q策反饋時(shí)間和吞吐量等相關(guān)指標(biāo)。總體上,在系統(tǒng)應(yīng)用過程中還要考慮整體實(shí)時(shí)性、安全性、兼容性、穩(wěn)定性等指標(biāo)。因此,生物特征識別系統(tǒng)評價(jià)將涉及到各個(gè)領(lǐng)域,是一個(gè)復(fù)雜的過程。
生物特征識別系統(tǒng)是一個(gè)復(fù)雜的系統(tǒng),本文回顧總結(jié)了生物特征識別系統(tǒng)算法性能指標(biāo)和算法評測方面的最新研究進(jìn)展,詳細(xì)介紹了相應(yīng)算法評價(jià)指標(biāo)的定義、實(shí)現(xiàn)過程及意義,不僅總結(jié)了現(xiàn)有的基本指標(biāo)量并將其一般化公式化,更具體描述了P-R 曲線、ROC曲線、DET 曲線、CMC 曲線、等錯(cuò)誤率EER 和類內(nèi)類間差異評價(jià)指標(biāo)d'等綜合性指標(biāo)的繪制實(shí)現(xiàn)過程及相關(guān)屬性意義。最后,還對生物特征識別系統(tǒng)相關(guān)的其他指標(biāo)進(jìn)行了簡單介紹。
目前,隨著識別算法準(zhǔn)確性的不斷提高,生物特征識別技術(shù)的應(yīng)用市場更加廣闊,匯聚的公民生物特征的種類和數(shù)量也越來越多,這就對實(shí)時(shí)性、抗規(guī)避性和安全性等提出了更高要求。實(shí)時(shí)性方面可能涉及到分布式存儲、大規(guī)模并行計(jì)算和網(wǎng)絡(luò)傳輸?shù)确矫妫豢挂?guī)避性方面要從采集、傳輸、存儲、比對和反饋等過程防止篡改攻擊等;安全性涉及到公民個(gè)人隱私保護(hù)和信息安全。因此,評價(jià)指標(biāo)將不僅僅限于識別算法準(zhǔn)確性本身,本文最后也對這些指標(biāo)進(jìn)行了介紹描述。今后,我們將重點(diǎn)關(guān)注這些指標(biāo),以期能夠成體系地評價(jià)整個(gè)生物特征識別系統(tǒng)。