陳 璞,劉立波(寧夏大學 數學計算機學院,寧夏 銀川 750021)
轉基因產品標準物質定值系統(tǒng)設計與應用
陳 璞,劉立波*
(寧夏大學 數學計算機學院,寧夏 銀川 750021)
針對轉基因產品標準物質定值對象復雜、流程繁瑣、效率低下、準確度低的現狀,設計并實現集數據抽取、數據分類、數據篩選與定值為一體的轉基因產品標準物質定值系統(tǒng)。通過分析轉基因生物標準物質的表現形式并對其分類,解決對象的復雜性問題;采用精密性檢驗、正態(tài)性檢驗、組內可疑值檢驗、組間平均值檢驗4個環(huán)節(jié)進行數據篩選,優(yōu)化工作流程,提高定值效率;在此基礎上,對篩選出的數據進行定值分析,最終提高了轉基因產品標準物質的定值效率與準確度。試驗證明,該系統(tǒng)能夠滿足實際應用的需求。
轉基因產品; 標準物質定值; 數據抽??; 數據分類; 數據篩選
隨著轉基因產品的研發(fā)及大規(guī)模商業(yè)化,其安全性問題備受社會各界關注[1-2]。為此,各國積極開展轉基因產品檢測技術、方法及其標準化研究[3-4]。在保證轉基因檢測結果的可比性、溯源性,推進轉基因產品檢測方法標準化等方面,轉基因生物標準物質(genetically modified organisms-reference material,GMO-RM)發(fā)揮著十分重要的作用[5-6]。
轉基因生物標準物質是具有1種或多種足夠均勻和很好地確定了的特性(轉基因成分和含量)的一種材料或物質,并被證實適用于測量或標稱特性檢驗。其是轉基因生物安全監(jiān)管、定性與定量檢測、檢測方法建立與標準化過程中不可缺少的物質基礎[7-8]。目前,實現各類轉基因產品中的標準物質高效準確定值,已成為該領域的重點研究方向,而定值對象復雜性、算法復雜性和數據復雜性是阻礙這一目標實現的難點所在。2012年,我國出臺國家標準《標準物質定值的通用原則及統(tǒng)計學原理》[9],為標準物質的定值提供了理論支持。至今,尚未見針對轉基因產品標準物質進行高效、全面定值的系統(tǒng)。為此,以轉基因產品標準物質全面、高效、準確定值為落腳點,通過分析轉基因生物標準物質的表現形式對其進行數據分類,參照《標準物質定值的通用原則及統(tǒng)計學原理》設計定值算法,進而優(yōu)化定值流程,完成數據篩選,在此基礎上,對篩選后的數據進行定值分析,最終實現各類轉基因產品中的標準物質全面、高效、準確定值,從而為完善我國轉基因產品的檢測、監(jiān)測和管理提供技術支持。
1.1 定值方法
標準物質的定值一共有4種方法:用高準確度的絕對或權威測量方法定值、用2種以上不同原理的已知準確度的可靠方法定值、用有證的一級標準物質定值、多個實驗室聯(lián)合定值。在上述方法中,用高準確度的絕對或權威測量方法定值過于復雜,定值成本高,無法廣泛應用;用2種以上不同原理的已知準確度的可靠方法定值和用有證的一級標準物質定值這2種方法均存在局限性,不能夠應對日益增長的新興轉基因產品標準物質定值;多個實驗室聯(lián)合定值成本相對較低,能夠對各類轉基因產品定值,隨著網絡的發(fā)展,該方法逐漸成為主要的定值方法。因此,本研究選取多個實驗室聯(lián)合定值作為轉基因產品標準物質的定值方法。
1.2 定值原則及統(tǒng)計學原理
在標準物質定值前,應對數據的精密性、均勻性、穩(wěn)定性和正態(tài)性進行檢驗,并檢測組內可疑值,然后判斷是否存在組間顯著性差異。在此過程中,調整或刪除存在問題的數據,保證定值的準確性。
由于測量水平不一致,可能會導致部分數據的偏差過大,甚至出現錯誤數據,因此,依據國際現行通用的慣例[10],在進行轉基因產品標準物質定值前,應對數據進行精密度檢驗,經此審查后,得到符合國際標準的數據。
均勻性與穩(wěn)定性是標準物質的基本屬性,前者用于描述其特性的空間分布特征,后者用于描述標準物質的特性值隨時間變化的性質,即時間分布特征,在標準物質的定值過程中必須對二者進行評估,為計算該標準物質的不確定度提供依據。
正態(tài)性即試驗結果應遵循對稱分布[11],其不僅可以用來描述數值變量的分布特征,還為統(tǒng)計推斷提供了極大的方便[12]。在標準物質定值前,可以參照既往基于大樣本所推測的變量分布形式,確定正態(tài)性假定的合理性。如果缺少相關文獻支持,就應基于實際的觀測數據,實施正態(tài)性檢驗[13]。
組內可疑值與組間顯著性差異是在選擇數據測量方法、設置測量條件或數據檢測過程中出現差錯而產生的,對定值的準確性和不確定度的計算帶來極大的干擾。因此,在定值前應用適當的統(tǒng)計學方法消除它們的干擾。
2.1 系統(tǒng)框架
根據實際需求,轉基因產品標準物質定值系統(tǒng)主要分為5大模塊,如圖1所示。
圖1 轉基因產品標準物質定值系統(tǒng)功能模塊
建立檢測表:此模塊功能是采集標準物質的定值數據并記錄相關信息。在該模塊,系統(tǒng)通過數據抽取獲取標準物質檢測數據,并記錄下數據數量、數據組長度、檢測日期、提取濃度等信息。
標準物質種類識別:此模塊功能是根據數據格式等信息,判斷將要定值的數據屬于哪一種轉基因標準物質。
數據檢測:數據檢測是本系統(tǒng)的關鍵部分,也是難點所在。系統(tǒng)將通過精密性檢驗、正態(tài)性檢驗、組內可疑值檢驗、組間平均值檢驗4道程序完成對數據的篩選,最大程度地保證定值準確度。
定值報告:該模塊功能是對篩選后的數據定值并生成定值報告。用戶被要求輸入標準值,結合標準值與篩選后數據的相關系數計算出標準物質的定值及不確定度,最終生成一份Word文檔。
歷史檢測:該模塊負責保留每一次定值的原始數據、檢驗過程中產生的臨界值與檢驗系數以及篩選后的數據以及定值結果,用戶可在此檢查定值流程并進行多次檢驗,有利于定值方法的優(yōu)化和結果驗證。
2.2 定值流程
2.2.1 數據抽取 為了節(jié)約時間,避免人工輸入數據時出現差錯,本系統(tǒng)采用數據抽取的方式從數據源自動導入數據,如圖 2所示。
圖2 數據抽取
系統(tǒng)借助ETL工具軟件,根據數據的長度、邏輯順序建立抽取規(guī)則,通過 ADO 數據訪問接口,連接到異構的數據源執(zhí)行數據抽取,經轉換后,加載到目標數據庫。系統(tǒng)數據源既可以是關系數據庫,也可以是普通的數據文件,如Access數據庫、Database2、Oracle、SQL Sever、SAS系統(tǒng)、Excel電子表格、文本文件等。抽取方式分為全量抽取與增量抽取2種,其中,全量抽取比較簡單,只需將數據源中的數據復制到目標數據庫中;增量抽取相對復雜,抽取數據源中新增、修改、刪除的數據。
2.2.2 數據分類 數據成功抽取之后,要確定數據屬于哪一種轉基因標準物質,以便于后續(xù)的數據篩選處理能夠選擇合適的檢驗方法。因此,在數據篩選之前要進行數據分類操作。
目前,國內外研制的轉基因生物標準物質主要有4個種類:基體標準物質、基因組DNA標準物質、質粒DNA標準物質和蛋白質標準物質。在本系統(tǒng)中,蛋白質標準物質與基體標準物質數據組中的元素相互獨立,并且數據單位分別為質量單位和百分比;基因組DNA標準物質與質粒DNA標準物質數據組中的元素存在邏輯關系,但二者的邏輯關系不同。系統(tǒng)根據上述差別設計分類標準。
2.2.3 數據篩選 由于數據庫中的數據是面向某一主題的數據的集合,這些數據從多個數據源中抽取而來并且包含歷史數據,因此就無法避免錯誤數據或相互之間有沖突的數據,而這些數據會影響定值準確性,所以在定值前要對數據進行數據篩選。
數據篩選是指發(fā)現并糾正數據文件中可識別的錯誤的最后一道程序,包括檢查數據一致性、處理無效值和缺失值等。數據篩選的任務就是按照一定的規(guī)則過濾不符合要求的數據,在本系統(tǒng)中,這些不符合要求的數據主要分為不完整數據、錯誤數據、重復數據三大類。
雖然篩選環(huán)節(jié)越多效果越好,但實際應用中的成本也隨之增高,為平衡效果與成本,本系統(tǒng)數據篩選采用精密性檢驗、正態(tài)性檢驗、組內可疑值檢驗、組間平均值檢驗4個檢驗環(huán)節(jié),在成本處于合理范圍的情況下,最大限度地消除影響定值準確性的數據因素。
2.2.3.1 精密性檢驗 在精密性檢驗環(huán)節(jié),計算每組樣本的組內標準偏差(組內SD)、組間標準偏差(組間SD),通過組內SD計算出組內相對標準偏差(組內RSD),通過組間SD計算出組間相對標準偏差(組間RSD),若組內RSD>25%或組間RSD>35%,則樣本數據存在可疑值。
2.2.3.2 正態(tài)性檢驗 正態(tài)性檢驗環(huán)節(jié)設置4個檢驗:偏態(tài)系數和峰態(tài)系數檢測、夏皮洛威爾克檢測、達格斯提洛檢測、艾珀斯普利檢測。選用3個檢測方法對數據進行檢測,其中,偏態(tài)系數和峰態(tài)系數檢測、夏皮洛威爾克檢測為必選方法,當數據組數據量低于50時,選用達格斯提洛檢測,否則選用艾珀斯普利檢測。3個方法若有1項檢驗不合格,則正態(tài)檢驗不合格。
偏態(tài)系數和峰態(tài)系數檢測應計算出被檢驗數據的偏態(tài)系數和峰態(tài)系數,首先應計算出樣本m階中心距Bm,公式如下:
然后分別計算出偏態(tài)系數Cs和峰態(tài)系數Ck。公式如下:
將計算出的偏態(tài)系數和峰態(tài)系數與臨界值表中的臨界值對比,若小于臨界值,則合格。
夏皮洛威爾克檢測是對有序數組進行正態(tài)檢驗,檢驗前要將被檢測數據排序,計算公式如下:
其中,xi為按照由小到大順序排序后的被檢測數據,ai為固定系數。將計算出W與臨界值表中的臨界值對比,若大于臨界值,則合格。
其中,B2為方差,即二階中心距,C1和C2為常數,分別為0.282 094 79和0.029 985 98。將計算出的Y與臨界值表中的臨界區(qū)間對比,若屬于臨界區(qū)間,則合格。
艾珀斯普利檢測計算公式如下:
將計算出的TEP與臨界值表中的臨界值對比,若小于臨界值,則合格。
2.2.3.3 組內可疑值檢驗 組內可疑值檢驗分為3個檢驗:Grubbs檢測、Dixon檢測和T檢測。選用2個檢測方法對數據進行檢測,其中,Grubbs檢測為必選方法,當數據組中數據相互獨立時,選用Dixon檢測,當數據組中數據存在邏輯關系時,選用T檢測。若有1項檢驗不合格,則組內存在可疑值。
Grubbs檢測首先將被檢驗數據中每個元素與均值做差,然后求絕對值,然后將計算出的絕對值數列與臨界值表中的臨界值對比,若小于臨界值,則合格。
Dixon檢測計算公式如下:
r1=(x2-x1)/(xn-x1)
rn=(xn-xn-1)/(xn-x2)
其中,x1為最小值被檢驗數據升序排列后的第一項(最小值),xn為最后一項(最大值)。將計算出的r1、rn與臨界值表中的臨界值對比,若小于臨界值,則合格。
T檢測將各數據組均值排序,選取均值差別最小的2組數據進行檢驗。將計算出的T值與臨界值表中的臨界值對比,若小于臨界值,則合格。
2.2.3.4 組間平均值檢驗 組間平均值檢驗分為2個檢驗:Cochran檢測和F檢測。當數據組相互獨立時,選用Cochran檢測;當數據組存在邏輯關系時,選用F檢測。若檢驗不合格,則被檢測的2組數據存在顯著性差異。
Cochran檢測計算公式如下:
其中,Smax為被檢驗數據組中的最大方差,Si為每個數據組的方差,將計算出的C與臨界值表中的臨界值對比,若小于臨界值,則合格。
F檢測將2組被檢驗數據求方差,然后計算大方差與小方差的比值,將計算出的比值與臨界值表中的臨界值對比,若小于臨界值,則合格。
2.2.4 標準物質定值 數據篩選后,對符合標準的數據進行定值及不確定度計算。首先要求輸入標準值a,定值A、不確定度B的計算公式如下所示:
A=(mean-a)/a × 100%
為了對系統(tǒng)進行檢測并驗證結果的有效性,對一未知轉基因產品的標準物質樣本組進行定值。成功抽取數據后,經識別確認為蛋白質標準物質,生成的原始數據如表1所示。其中, R1、R2、…、R9分別表示每一個樣本組中的樣本數據,本次測試抽取10組樣本組,每個樣本組中包含9個樣本數據。
表1 原始數據 ng/μL
在精密性檢驗中,計算每組數據的組內SD與組間SD,然后分別計算出組內RSD與組間RSD,發(fā)現第3、4組數據組內RSD大于25%,將這2組數據剔除后,剩下數據均合格。由于剩下8組數據每組數據量均小于50,且數據組之間、各組數據之間均相互獨立,故正態(tài)性檢驗選擇偏態(tài)系數和峰態(tài)系數檢測、夏皮洛威爾克檢測、艾珀斯普利檢測3種方法,組內可疑值檢驗選擇Grubbs檢測、Dixon檢測2種方法,組間平均值檢驗選擇Cochran檢測。正態(tài)性檢驗結果如表2所示。
表2 正態(tài)性檢驗結果
樣本組序號CsCkWTEP10.312.580.990.0220.101.460.870.1850.642.280.900.136-0.102.080.980.037-0.241.840.950.0780.161.530.920.159-0.521.800.860.2210-0.161.790.830.09
經查表,在8個樣本組每組9個樣本的情況下,偏態(tài)系數臨界值為1.42,表中數據均小于臨界值;峰態(tài)系數臨界區(qū)間為1.46~3.70,表中數據均處于該范圍,偏態(tài)系數和峰態(tài)系數檢測合格。夏皮洛威爾克系數臨界值為0.82,表中數據均大于臨界值,夏皮洛威爾克檢測合格。艾珀斯普利系數臨界值為0.34,表中數據均小于臨界值,艾珀斯普利檢測合格。因此,正態(tài)性檢驗通過。
在組內可疑值檢驗中,首先進行Grubbs檢測,被測樣本組中的樣本與該樣本組樣本均值差的絕對值小于臨界值2.12,Grubbs檢測合格;Dixon檢測中的系數均小于臨界值0.72,Dixon檢測合格。因此,組內可疑值檢驗通過。
在組間平均值檢驗中,計算得出8組樣本組的Cochran系數為0.23,小于臨界值0.29。因此,組間平均值檢驗通過。
在定值環(huán)節(jié),輸入參考值1.00,計算后最終定值及不確定度表述為:-7.24%±0.13%。將此結果與用高準確度的絕對或權威測量方法定值的結果進行比對,完全一致。為繼續(xù)驗證該系統(tǒng)的有效性,對4種轉基因產品標準物質各進行10次定值,并將結果與用高準確度的絕對或權威測量方法對比,大多數試驗結果一致,少數不一致的結果誤差均在0.1%以內,因此,本系統(tǒng)滿足實際應用的需求。
本研究以數據預處理為切入點,采用數據抽取、數據分類和數據篩選技術,在轉基因產品標準物質的定值前規(guī)范定值數據并盡可能多地剔除錯誤數據,極大程度地降低定值過程中可能出現的干擾因素,進而提高定值準確性?;诖?,設計并實現了轉基因產品標準物質定值系統(tǒng),通過與用高準確度的絕對或權威測量方法定值的結果對比,證明了系統(tǒng)定值準確度較好,能夠滿足實際應用需求。在測試過程中發(fā)現,不確定度的計算結果存在少量偏差,因此,改進數據篩選流程,進一步完善系統(tǒng)性能將作為后續(xù)工作的重點。
[1] 盛耀,許文濤,羅云波.轉基因生物產業(yè)化情況[J].農業(yè)生物技術學報,2013,21(12):1479-1487.
[2] Bawa A S,Anilakumar K R.Genetically modified foods: Safety,risks and public concerns—A review[J].Journal of Food Science and Technology-Mysore,2013,50(6):1035-1046.
[3] Caprioara-Buda M,Meyer W,Jeynov B,etal.Evaluation of plasmid and genomic DNA calibrants used for the quantification of genetically modified organisms[J].Analytical and Bioanalytical Chemistry,2012,404(1): 29-42.
[4] Christoph E.Genetic technology and food safety:Country report—Switzerland[J].Genetic Technology and Food Safety,2015,18(14):255-285.
[5] 董蓮華,趙正宜,李亮,等.轉基因植物標準物質研究進展[J].農業(yè)生物技術學報,2012,20(2):203-210.
[6] European C,Joint R.Verification of analytical methods for GMO testing when implementing interlaboratory validated methods[R/OL].[2015-10-20].http://www.jrc.ec.europa.eu/.
[7] 張麗.轉基因產品檢測標準物質研究[D].北京:中國農業(yè)科學院,2012.
[8] 張麗,吳剛,武玉花,等.轉基因產品檢測標準物質的定值和不確定度研究進展[J].農業(yè)生物技術學報,2014,22(3):362-371.
[9] 國家標準物質研究中心.標準物質定值的通用原則及統(tǒng)計學原理:JJF 1343—2012[S].北京:中國標準出版社,2012:1-61.
[10] Marco M,Hermann B,Marzia D,etal.Definition of minimum performance requirements for analytical methods of GMO testing[R/OL].[2015-10-20].http://www.jrc.ec.europa.eu/.
[11] 周洪偉.正態(tài)性檢驗的幾種常用的方法[J].南京曉莊學院學報,2012,1(3):13-18.
[12] 馬興華,張晉昕.數值變量正態(tài)性檢驗常用方法的對比[J].循證醫(yī)學,2014,14(2):123-128.
[13] 何清,王震坤.正態(tài)性檢驗方法在教學研究中的應用[J].高等理科教育,2014,1(4):18-21,77.
Design and Implementation of Certified Reference Material Value Characterization System for Genetically Modified Organisms
CHEN Pu,LIU Libo*
(Department of Mathematics and Computer Science,Ningxia University,Yinchuan 750021,China)
In light of the current value characterization of certified reference material with complex objects,complicated process,inefficient and low accuracy for genetically modified organisms,a certified reference material value characterization system for genetically modified organisms was designed and implemented,which integrated data extraction,data classification,data filters and value characterization as an entirety.The object complexity was solved through the analysis of genetically modified organisms certified reference material’s manifestations and classification;the data filters were done using precision test,normality test,suspicious test within group and average test between groups,so as to optimize workflow and improve efficiency.On this basis,the selected data were analyzed and valued,finally improving the efficiency and accuracy of value characterization.The experimental illustrated that this system could meet the demand of practical application.
genetically modified organisms; value characterization of certified reference material; data extraction; data classification; data filters
2015-12-10
國家“863”計劃項目(2012AA101105);國家自然科學基金項目(31571646)
陳 璞(1990-),男,河南信陽人,在讀本科生,研究方向:智能信息處理。E-mail:zpchen2008@126.com
*通訊作者:劉立波(1974-),女,寧夏銀川人,教授,博士,主要從事智能信息處理、數據挖掘與清洗方面研究。 E-mail:liulib@163.com
S188;Q789
A
1004-3268(2016)06-0040-05