基于加權(quán)估計的軟件實驗室能力比對測試結(jié)果評價

2015-02-21 06:34:15王勇利王艷軍張海軍

實驗室研究與探索 2015年3期

關(guān)鍵詞：軟件缺陷廣度實驗室

王勇利，王艷軍，張海軍

(中國人民解放軍91404部隊,河北秦皇島 066001)

基于加權(quán)估計的軟件實驗室能力比對測試結(jié)果評價

王勇利，王艷軍，張海軍

(中國人民解放軍91404部隊,河北秦皇島 066001)

為實現(xiàn)對軟件測評實驗室能力比對測試結(jié)果的定量分析與評價，本文在融合參加能力比對測試各方所發(fā)現(xiàn)軟件缺陷的基礎(chǔ)上，以測試廣度和測試深度作為評價要素，選取正態(tài)分布作為趨勢估計曲線，通過調(diào)整諸權(quán)重及系數(shù)、歸一化趨勢估計曲線幅度等手段，統(tǒng)一評價基準(zhǔn)，構(gòu)建出一種能力比對測試結(jié)果評價體系模型。還對此模型組織實施、關(guān)鍵過程實現(xiàn)手段等方面進行詳細闡述。該評價模型可直接用于對軟件測評實驗室能力比對測試結(jié)果的定量分析與評價，對于構(gòu)建新的定量評價體系也具有較強的借鑒意義。

軟件測評；能力比對；定量評價；等價類劃分

0 引言

能力測試是用來考核實驗室的測試、校準(zhǔn)或鑒定所能達到的能力和水平所組織的實驗室間的比對測試[1]，軟件測試實驗室應(yīng)定期組織或參加實驗室間的比對[2]，組織和參加實驗室間比對或能力測試是軟件測評實驗室核查測試或鑒定結(jié)果的有效性、確保測評工作質(zhì)量的主要方法，也是確認方法性能的技術(shù)手段之一[3]。對于重要的被測軟件，可采用不同測試機構(gòu)或多個項目組進行平行測試比對，以保證測試結(jié)果的質(zhì)量[4]；由實驗室在其自行組織的能力測試及比對，不僅是實驗室對內(nèi)部人員技術(shù)能力進行考核、評比的一種有效途徑，其結(jié)果也是實驗室自身能力評審的重要內(nèi)容。通過能力比對測試，不僅能夠評價實驗室的檢測能力，還可從統(tǒng)計數(shù)據(jù)中分析出準(zhǔn)確度的影響因素，是控制檢測質(zhì)量的有效措施[5]。

軟件缺陷分布呈現(xiàn)不確定、不易窮舉等特性，因此對于用于能力比對的測試樣例，無法確保其預(yù)設(shè)缺陷域(指由組織者在測試樣例中預(yù)先埋置的軟件缺陷的集合)總能完全覆蓋該樣例的缺陷全集域(測試樣例軟件客觀存在所有缺陷的集合)。簡單地統(tǒng)計各測試組測試結(jié)果在預(yù)設(shè)缺陷域中的擊中數(shù)或命中概率，并不能客觀、全面地反映該測試組的測試水平，以此為依據(jù)對能力比對活動進行的評價也缺乏相應(yīng)的合理性、公正性。同樣，由于不能保證在任何情況下存在某個測試組所發(fā)現(xiàn)的缺陷域能夠完全涵蓋其他各測試組所發(fā)現(xiàn)的缺陷域、不同嚴(yán)重等級的軟件缺陷所反映的測試成效和水平也存在差異，故以各測試組所發(fā)現(xiàn)缺陷總數(shù)為依據(jù)對實驗室能力比對活動進行評價，缺乏共有的評比基準(zhǔn)，無法保證評價結(jié)果的有效性、合理性。

學(xué)科與機構(gòu)評價的一般方法是選取或構(gòu)建出某一指標(biāo)體系作為評價模型，以此為基礎(chǔ)分別計算出每個被評價對象的得分，之后按照得分進行排序分層[6]。本文選取能夠反映測試技術(shù)能力的主要指標(biāo)作為評價要素，提出一種基于加權(quán)賦值、趨勢估計擬合的軟件測評實驗室能力比對測試結(jié)果評價模型——“加權(quán)估計法”，實現(xiàn)能力比對測試結(jié)果的定量分析和評價。

1 評價要素選取

通過比較Z比分數(shù)的大小實現(xiàn)對實驗室的能力評定[7]是比較常見的做法，然而這種穩(wěn)健的統(tǒng)計技術(shù)僅適用于單一要素下的評定，無法針對多要素進行綜合評價[5]。在現(xiàn)實研究中，為了客觀全面地分析問題，常要記錄多個指標(biāo)并考慮眾多的影響因素，這樣的數(shù)據(jù)雖然可以提供豐富的信息，但同時使得數(shù)據(jù)分析工作更趨復(fù)雜化[8]。評價模型中評價要素的選取規(guī)模應(yīng)同時兼顧多維化和簡單性的要求，在滿足評價需求的前提下，盡可能地對評價要素空間進行降維處理。

對于軟件測評實驗室承擔(dān)的軟件測試項目，過程度量覆蓋了測試過程的有效性、效率和質(zhì)量所需的各個方面，包括生產(chǎn)率、測試用例有效性、測試廣度、測試深度、測試用例通過數(shù)、測試用例失敗數(shù)、不符合項數(shù)等[9]。能力比對測試主要是對各實驗室(測試組)技術(shù)能力的考核，因此可僅選取與測試技術(shù)能力相關(guān)的主要度量特性作為構(gòu)建評價模型的要素因子，而項目管理、實施效率等不太相關(guān)的度量特性則可加以忽略。上述諸測試過程度量中，測試廣度用于衡量有多少測試需求已經(jīng)被測試(測試廣度理論上應(yīng)該達到100%)，測試深度用于衡量被測試覆蓋的基本路徑占被測軟件中基本路徑總數(shù)的百分比[9]，綜合兩者即反映出測試工作的整體有效性，可作為“加權(quán)估計法”評價模型的要素空間。

文獻[9]從測試需求角度闡述的測試廣度、測試深度一般性定義，適用于對測試有效性的常規(guī)性評價。能力比對測試重點關(guān)注各測試方之間的相對測試能力，并不關(guān)注某個或全部測試方測試工作的絕對有效性?？紤]到軟件測試的直接目的是發(fā)現(xiàn)軟件中存在的缺陷[10]，故可從測試所發(fā)現(xiàn)的軟件缺陷域重新定義測試廣度和測試深度相對含義。測試廣度與測試深度這種反向定義，適用于基于測試結(jié)果的定量評價活動。

2 相關(guān)定義

定義1 問題劃分：將所有的軟件缺陷進行等價類劃分[11]后得到的輸出。

定義2 問題劃分的類型：分為驗證性問題劃分和邏輯性問題劃分2種。問題劃分的類型是利用測試結(jié)果進行測試深度分析的基礎(chǔ)。

問題劃分的類型的確立標(biāo)準(zhǔn)可根據(jù)測試項目具體特性進行制定。比如，可以根據(jù)發(fā)現(xiàn)缺陷的測試設(shè)計的復(fù)雜性來進行分類：驗證性問題劃分可以是對某一類不需要依靠復(fù)雜邏輯設(shè)計或流程設(shè)計就能發(fā)現(xiàn)的軟件缺陷的抽象，邏輯性問題劃分可以是對某一類需要利用復(fù)雜邏輯或流程設(shè)計才能發(fā)現(xiàn)的軟件缺陷的抽象；也可以根據(jù)發(fā)現(xiàn)缺陷的測試設(shè)計(用例)所涵蓋的功能點數(shù)量進行分類：驗證性問題劃分的衡量標(biāo)準(zhǔn)是發(fā)現(xiàn)缺陷的測試設(shè)計只涵蓋1個功能點，邏輯性問題劃分的衡量標(biāo)準(zhǔn)是發(fā)現(xiàn)缺陷的測試設(shè)計涵蓋2個或2個以上的功能點。

定義3 得分S：利用“加權(quán)估計法”進行測試結(jié)果評價所得到的最終定量結(jié)果，得分S=測試廣度指標(biāo)E+測試深度指標(biāo)1D1+測試深度指標(biāo)2D2。

定義4 要素權(quán)重：包含廣度權(quán)重WE、深度權(quán)重1WD1、深度權(quán)重2WD2。各要素權(quán)重決定了測試廣度、測試深度對最終評價結(jié)果S的貢獻程度。

定義5 測試廣度指標(biāo)E：某測試組所覆蓋的問題劃分數(shù)占總問題劃分數(shù)的比重，反映了測試活動的廣度特性。

定義6 測試深度指標(biāo)1D1：某測試組所覆蓋的邏輯性問題劃分占全體問題劃分的加權(quán)比重。

定義7 解算系數(shù)：用于計算D1而為驗證性問題劃分、邏輯性問題劃分所設(shè)置的權(quán)值，體現(xiàn)了驗證性問題劃分、邏輯性問題劃分對最終得分的貢獻程度。

定義8 測試深度指標(biāo)2D2：設(shè)某測試組邏輯性問題劃分所覆蓋的缺陷或用例的數(shù)量占該測試組全部缺陷或用例數(shù)量的比重為k，測試深度指標(biāo)2D2為k在趨勢估計函數(shù)(曲線)中的取值。D2是對某個具體測試方測試設(shè)計合理性、均衡性的估計和評價，是對D1的修正，反映了測試深度的合理性。

定義9 基礎(chǔ)函數(shù)：用于構(gòu)建趨勢估計函數(shù)(曲線)，基礎(chǔ)函數(shù)應(yīng)具有明確的統(tǒng)計特性和意義，能夠反映測試深度比重合理性隨測試結(jié)果中各種問題劃分比重的估計趨勢。

定義10 趨勢估計函數(shù)(曲線)：對選取的基礎(chǔ)函數(shù)進行幅度歸一化處理后，即為對k的趨勢估計函數(shù)(曲線)，其反映了某一測試組邏輯性問題劃分與驗證性問題劃分比重的合理性。幅度歸一化處理是指：將基礎(chǔ)函數(shù)的定義域、值域均調(diào)整到[0，1]區(qū)間。

3 “加權(quán)估計法”評價模型概述

“加權(quán)估計法”評價模型是用于對各測試方能力比對測試結(jié)果進行定量分析的評價體系，其主要思想是：在將所有測試組所提交的測試缺陷進行融合整理后，通過選取恰當(dāng)?shù)囊貦?quán)重、解算系數(shù)、趨勢估計函數(shù)(曲線)進行微調(diào)，構(gòu)造出“加權(quán)估計法”評價模型，在實現(xiàn)一致的評價基準(zhǔn)基礎(chǔ)上，進行評估計算、量化打分，最終為每個測試組都計算出一個得分，實現(xiàn)對各測試組測試結(jié)果的定量評價。

4 “加權(quán)估計法”評價模型算法

通過設(shè)置各個要素權(quán)重控制得分S所采用的分制，本文中模型采用百分制，各要素權(quán)重為：E的權(quán)重WE=40，D1的權(quán)重WD1=40，D2的權(quán)重WD2=20。設(shè)共有t個測試組，利用“加權(quán)估計法”對第i個測試組的測試工作進行分析評價后，所得到的結(jié)果為得分Si(0≤S≤100,i∈(1,2，…，t))，則“加權(quán)估計法”模型為：

(1)

其中：Ei為第i個測試組的測試廣度指標(biāo)，反映該測試組的廣度特性；D1i為第i個測試組的測試深度指標(biāo)1；D2i為第i個測試組的測試深度指標(biāo)2；D1i+D2i反映該測試組測試的深度特性。

4.1 測試廣度指標(biāo)Ei

設(shè)在對t個測試組所發(fā)現(xiàn)的測試問題進行匯總歸納后，得到的問題劃分的數(shù)量為N個，某一測試組所覆蓋的問題劃分數(shù)量為Ni(0≤Ni≤N,i∈(1,2，…，t))，則該項目組的測試廣度指標(biāo)Ei為：

Ei=WE·Ni/N=40Ni/N

(2)

4.2 測試深度指標(biāo)1D1i

對所有問題劃分按照其測試深度進行分類，并為其賦予不同的解算系數(shù)，此處設(shè)：驗證性問題劃分的解算系數(shù)為1.5；邏輯性問題劃分的解算系數(shù)為2。

設(shè)所有的N個問題劃分中，驗證性問題劃分的個數(shù)為nv，邏輯性問題劃分的個數(shù)為nl，則nv+nl=N，令：Be=1.5nv+2nl。

設(shè)第i個測試組所覆蓋的Ni個問題劃分中，驗證性問題劃分的數(shù)量為nvi，邏輯性問題劃分的數(shù)量為nli，則nvi+nli=Ni，測試深度指標(biāo)1D1i為：

(3)

4.3 構(gòu)造基礎(chǔ)函數(shù)

正態(tài)分布表達了隨機變量(數(shù)據(jù))與其出現(xiàn)的頻數(shù)之間的關(guān)系[12]，自然科學(xué)、社會現(xiàn)象等領(lǐng)域的許多大樣本統(tǒng)計特性中廣泛呈現(xiàn)出正態(tài)分布的趨勢，具有較強的代表性和典型性，其統(tǒng)計特性與測試深度比重合理性的趨勢變化相似。數(shù)學(xué)中的黃金分割法按照長段占整體的0.618將整體劃分為兩部分，短段比長段、長段比整體均等于0.618，體現(xiàn)出和諧而嚴(yán)格的比例特性，被認為是公認的美學(xué)定律[13]，其在建筑學(xué)、藝術(shù)、自然科學(xué)等領(lǐng)域中應(yīng)用廣泛，著名數(shù)學(xué)家華羅庚在“優(yōu)選法”就提出“0.618法”以快速獲取試驗結(jié)果的最佳方案[14]，在數(shù)學(xué)上現(xiàn)已推導(dǎo)驗證了在不考慮使用對分法的情況下黃金分割法為最佳的結(jié)論[15]?！凹訖?quán)估計法”模型可選擇“黃金分割點”作為測試深度比重合理性的拐點，在正態(tài)分布函數(shù)的基礎(chǔ)上擬合出基礎(chǔ)函數(shù)。

4.4 測試深度指標(biāo)2D2i

設(shè)第i個測試組的nvi個驗證性問題劃分所涵蓋的測試用例數(shù)為Cvi，其nli個邏輯性問題劃分所覆蓋的測試用例數(shù)為Cli，則該測試組所發(fā)現(xiàn)問題對應(yīng)的用例總數(shù)為Cvi+Cli，邏輯性問題所對應(yīng)的測試用例占所有測試用例的比重為ki=Cli/(Cvi+Cli)。

選取正態(tài)分布曲線

第i個測試組的測試深度指標(biāo)2D2i為：

(4)

4.5 得分Si

由式(1)得，第i個測試組的最終得分Si為：

4.6 比對分析

各測試組的最終得分Si是對每個測試組測試工作的整體定量評價，其分值的高低在某種程度上反映了該測試組測試工作質(zhì)量的高低：得分越高的測試組，其測試工作相對更充分、有效。

5 組織實施

5.1 工作流程

“加權(quán)估計法”的主要實施流程可分為：匯總整理、模型調(diào)整、評價計算3個階段。

(1) 匯總整理。將所有測試組所發(fā)現(xiàn)的軟件缺陷匯總后，對每個問題逐個分析，確定問題劃分、確定每個軟件缺陷所屬的問題劃分、確定各個問題劃分的類型，統(tǒng)計各組所覆蓋的問題劃分、各組所覆蓋的每個問題劃分所對應(yīng)的測試用例數(shù)(或缺陷數(shù))，最終得到結(jié)果評價所需的統(tǒng)計數(shù)據(jù)。

(2) 模型調(diào)整。通過調(diào)整要素權(quán)重、解算系數(shù)、基礎(chǔ)函數(shù)、趨勢估計函數(shù)(曲線)，對“加權(quán)估計法”模型進行微調(diào)，最終確定評價模型。

(3) 評價計算。入統(tǒng)計數(shù)據(jù)到已確定的評價模型，實現(xiàn)對各測試組測試結(jié)果的評價解算，得到定量評價結(jié)果。

具體實施過程如圖2所示。

5.2 完善措施

“加權(quán)估計法”的實施過程不僅僅是數(shù)據(jù)統(tǒng)計、分析建模等技術(shù)上的實現(xiàn)，還需要考評組、各個測試組的有效配合和相互協(xié)調(diào)。為了保證評價模型的合理性，最大程度地緩解人為主觀因素對最終考評模型的影響，具體實施過程中可采取以下完善措施：

(1) 各測試組均選派組內(nèi)人員參加考評組，通過將所有缺陷匯總打亂的方式，在屏蔽問題發(fā)現(xiàn)者的前提下，討論問題劃分的確立、確定各個軟件缺陷所屬的問題劃分、確定各個問題劃分的類型，以確保數(shù)據(jù)融合處理的準(zhǔn)確性和公正性；

(2) 要素權(quán)重、解算系數(shù)、基礎(chǔ)函數(shù)以及趨勢估計函數(shù)(曲線)的確定和構(gòu)建可以請所有測試組參加，以確保最終確定的評價模型的公正性和受認可度。

(3) 模型建立后，應(yīng)告知相關(guān)利益方(包括各測試組、組織方等)，在得到所有相關(guān)利益方的認可后，再將統(tǒng)計數(shù)據(jù)(包括問題劃分、各個問題劃分的類型、各組所覆蓋的問題劃分、各組每個問題劃分所對應(yīng)的測試用例數(shù)或缺陷數(shù)等)輸入模型進行解算，得出最終評價結(jié)果。

(4) 評價模型確立后，禁止隨意修改。如確需變動模型，必須同樣得到各相關(guān)利益方的認可，其過程應(yīng)遵循“共同構(gòu)建、全員發(fā)布、認可后再使用”的原則。

(5) 為了確保問題劃分的順利實施，在能力比對測試實施前，組織者可以推薦所有測試組在其所提交的“軟件問題報告單”或等效文檔中遵循“一單一缺陷”的原則。

6 關(guān)鍵過程的實現(xiàn)手段

6.1 確定問題劃分

問題劃分確立的基本過程是：匯總各組所提交的軟件缺陷后，考評組逐個分析軟件缺陷，利用等價類劃分的方法，確定是否新建問題劃分或?qū)④浖毕輨澣氲揭延械膯栴}劃分中去，如圖3所示。

6.2 評價計算

“評價計算”是按照模型算法求解各測試組的廣度指標(biāo)Ei、深度指標(biāo)1D1i、深度指標(biāo)2D2i以及各組定量評價結(jié)果Si的過程，可以利用Excel等報表工具的計算功能，快速構(gòu)建模型解算報表(如圖4所示)，相比采用Visual C++、C#等高級編程語言編寫專用的解算程序，這種方式更加快捷、有效[16]，有利于實驗室能力比對工作的靈活開展。

圖4 利用Excel實現(xiàn)評價計算

7 結(jié) 語

“加權(quán)估計法”依托橫向融合測試結(jié)果、構(gòu)造統(tǒng)一評比基準(zhǔn)等手段，對各個測試組測試結(jié)果進行定量分析，實現(xiàn)能力比對測試的結(jié)果量化考核，為能力比對測試活動中對各測試組(測評實驗室)的最終整體評價提供了重要的參考依據(jù)。該模型具有良好的操控性和靈活性，考評組可利用要素權(quán)重、解算系數(shù)、趨勢估計函數(shù)(曲線)等多種因子實現(xiàn)對模型的微調(diào)和定制，最大程度地適應(yīng)具體的能力比對測試場景。

[1] GJB 2715A-2009《計量通用術(shù)語》[S].2009.

[2] 中國合格評定國家認可委員會．能力驗證規(guī)則[S].2006.

[3] GJB 2725A-2001《測試實驗室和校準(zhǔn)實驗室通用要求》[S].2001.

[4] GJB 2725A-2001附加指南《軟件測評實驗室測評過程和技術(shù)能力要求》[S].2007.

[5] 孫彩玲,張永祥,田紀(jì)春.基于主成分分析的實驗室比對中檢測能力的綜合評價[J].實驗室科學(xué),2012，15(2):118-121.

[6] 黃水清,張俊,閻素蘭.黃金分割法在學(xué)科及機構(gòu)評價中的應(yīng)用[J].圖書情報工作,2012,56(22):33-36,41.

[7] 中國合格評定國家認可委員會．能力驗證結(jié)果的統(tǒng)計處理和能力評價指南[S]．2006.

[8] 富伯亭，楊海燕.主成分分析在實際中應(yīng)用的探索[J].山西廣播電視大學(xué)學(xué)報，2010(1):45-46．

[9] 梁成才.軟件測評實驗室軟件測試項目的度量研究[J].計算機工程，2005，31(23):90-92.

[10] 胡琨,劉浩,劉濤.初議軟件測試[J].科技廣場,2008(5):241-242.

[11] 范明紅,浦云明,汪志華.等價類測試與劃分研究[J].計算機技術(shù)與發(fā)展,2009,19(7):62-65.

[12] 辛秀東.正態(tài)分布統(tǒng)計技術(shù)在線纜質(zhì)量控制中的應(yīng)用[J].電線電纜,2005(5):35-37.

[13] 邱均平,趙蓉英.世界一流大學(xué)及學(xué)科競爭力評價的意義、理念與實踐[J].評價與管理,2007,2(5):33-38.

[14] 邱均平,楊瑞仙.2009年世界一流大學(xué)與科研機構(gòu)學(xué)科競爭力評價的做法、特色與結(jié)果分析[J].評價與管理,2009,7(2):19-28.

[15] 邱均平,楊瑞仙.基于ESI數(shù)據(jù)庫的材料科學(xué)領(lǐng)域文獻計量分析研究[J].情報科學(xué),2010,28(8):1121-1126.

[16] 黃宇.Excel電子表格在電氣調(diào)試中的應(yīng)用[J].煤炭技術(shù),2009,28(8):48-49.

The Weight and Evaluation Model for Software Testing Ability Comparison among Software Testing Laboratories

WANGYong-li,WANGYan-Jun,ZHANGHai-Jun

(NSTC, Qinhuangdao 066001, China)

In the testing ability comparative test for software testing laboratories, it is hard to estimate the results of every laboratory quantitatively. To solve the intractable conundrum, this paper advances the “Weight and Evaluation Model” (the WE model), an evaluating model for software testing ability comparison, based on weighting evaluation, curve fitting and trending. The WE model takes the extent and depth of every software testing activities synthetically and synchronously, and can evaluate each lab's testing results quantitatively according to the same criteria, This paper also indicates the crucial actualizing means and method for organizing and actualizing the WE model.

software testing; ability comparative test; quantitative estimate; equivalent compartmentalization

2014-05-18

王勇利(1982-)，男，安徽巢湖人，碩士，工程師，軟件測試人員，研究方向為軟件測試及其工程化。

Tel．：15233011029；E-mail：lhxl999@163.com

TP 311.5

1006-7167(2015)03-0246-05

基于加權(quán)估計的軟件實驗室能力比對測試結(jié)果評價

0 引 言

1 評價要素選取

2 相關(guān)定義

3 “加權(quán)估計法”評價模型概述

4 “加權(quán)估計法”評價模型算法

5 組織實施

6 關(guān)鍵過程的實現(xiàn)手段

7 結(jié) 語

0 引言