廣東工業(yè)大學 王彥光 朱鴻斌 徐維超
接收機工作特性(ROC)曲線下面積(AUC)可從總體上對二類分類器的分類性能進行評估,已被廣泛的應用與各個領(lǐng)域。本文從AUC定義出發(fā),給出了AUC的概率解釋,以及AUC與曼惠特尼統(tǒng)計量的等價性,最后給出了AUC均值和方差的表達式的證明,以及零假設分布下AUC的均值和方差。
接收機工作特性曲線(Receiver Operating Characteristic Curve),簡稱ROC曲線。ROC曲線起源于二戰(zhàn)中的雷達目標檢測領(lǐng)域,當時它主要用來整體評價探測的性能通過描述雷達的檢測概率和虛警概率之間的相互制約關(guān)系。在此之后,ROC曲線以及ROC曲線下面積(AUC)在經(jīng)濟、醫(yī)療,科技等各個領(lǐng)域均有不同程度的發(fā)展與應用。在此,特別需要提及的是AUC在醫(yī)療研究領(lǐng)域的實際應用中得到了持續(xù)的發(fā)展,例如在醫(yī)學影像的診斷結(jié)果的評估,新冠病毒等流行病毒的識別,醫(yī)療試劑的效果評價等。在上個世紀的九十年代以后,AUC開始逐漸被用在人工智能領(lǐng)域諸如模式識別、機器學習、數(shù)據(jù)挖掘中的分類器性能評估。此后,隨著人工智能技術(shù)的發(fā)展,AUC成為一種主流的科學評估分類器算法性能與不同分類器之間性能比較的主要工具。一系列關(guān)于AUC的研究結(jié)論使得人工智能等科研人員對分類識別等算法的性能有了全面而又深刻的認識。
定義1:對于一個由正例X={X1,X2, ...,Xm}和負例Y={Y1,Y2, ...,Yn}組成的數(shù)據(jù)集,存在一個閾值,使得,這里FX(x)和FY(x)分別是X和Y的概率分布函數(shù)。令。則ROC可以定義為:,ROC曲線下面積AUC定義為:
我們知道AUC是一種很好分類器評價方法,可以用來評估和比較與選擇的準確決策閾值無關(guān)的分類模型的總體性能。AUC=1.0表示分類器性能最好,AUC=0.5表示分類器隨機進行分類決策的性能,這個決策與拋硬幣的概率是等效的。分類算法的AUC值越大代表分類器性能越好,這也是AUC最直觀的理解和解釋。其實,AUC還有一個更深刻的理解和解釋,它還可以用概率解釋。
證明:設X代表正例,Y代表負例,F(xiàn)X(●)和FY(●)代表相應的概率分布函數(shù),fX和fY代表相應的概率密度函數(shù)。由AUC和ROC的定義,我們得到:
其中,上式中是利用ROC的定義中變量的轉(zhuǎn)換。再根據(jù)正例X和負例Y之間的相互獨立性,我們得到:
從上面的證明過程我們可以看出,從樣例中隨機挑選一對正例和負例組成的樣本對,分類算法根據(jù)分類器計算得到的score值將正例排在負例前面的概率就是AUC值。AUC值越大,表明分類算法將正例排在負例前面概率越大,也就是分類效果越好。
從AUC的定義我們可以看出,AUC的取值范圍是[0,1],而不是[0.5,1],這是因為我們并沒在ROC曲線的定義中定義。這樣在度量正例和負例的分布差異時,如果AUC小于0.5,它表示分類器預測的與標注的標簽相反。
從AUC的概率解釋,可以看出AUC能夠度量兩樣本分布的差異,兩樣本分布差異越大,AUC值也越大。
H.B.Mann和D.R.Whitney提出Mann-Whitney U Statistics(MW)來比較兩個樣本的大小。令與;它們來自兩個連續(xù)的樣本,并且滿足獨立的相同分布。FX(x)和FY(y)分別用概率密度函數(shù)Fx(x)和Fy(y)任意分布來表示,假設和是相互獨立的。根據(jù)Mann Whitney U的統(tǒng)計資料,X和Y之間的關(guān)系有如下關(guān)系:
在公式(5)中θ有另外的含義,它表示出X>Y的可能性等于在ROC曲線下的面積AUC。
定理2:用θ來表示ROC曲線下的面積AUC,F(xiàn)X(x)和FY(y)是一些未知的參數(shù),θ的均值和方差可以計算為:
其中:
以上,X是X'的獨立恒等分量,Y是Y'的獨立恒等分量。
證明:利用公式(5),我們可以得到:
類似地,從公式(5)中,我們可以得到:
在式(9)中,S2協(xié)方差的和表示所有組合除了(i = l,J = k),對于公式(9)中的第一項,標注它為S1:
對于式(9)中的協(xié)方差項,注意到協(xié)方差S2除非在i = l或j = k的情況下是0。因此可以按照兩種情況把S2分為兩個部分,注解為R1和R2,進而有:
當i = l和j ≠ k時,有m種方式去得到,且有n(n-1)種方式使得j ≠ k,因此有mn(n-1)種式(9)中的協(xié)方差項形式,我們知道R1滿足:
當i ≠ l和j = k時有m(m-1)種方式得到i ≠ l且n種方式得到j;因此有mn(m-1)種式(9)中的協(xié)方差項形式,我們得到R2滿足:
由上面式(10)~(13),我們得到如下最終結(jié)果:
由公式(7)的子項表達式,可以得到:
將Q0,Q1和Q2代入公式(7),我們可以得到:
結(jié)論:接收機工作特性曲線分析當前廣泛應用于醫(yī)學、經(jīng)濟、機器學習等科學領(lǐng)域。接收機工作特性曲線下的面積(AUC)對二分類器的性能進行有效評估。對于AUC相關(guān)分析,本文使用應用比較廣泛的非參數(shù)方法,即利用AUC與Mann-Whitney U統(tǒng)計量的關(guān)系對AUC的均值以及方差進行推導證明。除此之外,考慮到某些情況下需要對模型的進行假設檢驗,因此,本文還進一步推導了零假設情況下AUC的均值和方差的計算。