鄭鳳霞,古傳運
(四川文理學院 數(shù)學與財經(jīng)學院,四川 達州 635000)
艾滋病是當前人類社會最嚴重的疾病之一.艾滋病治療的目的,是盡量減少人體內HIV的數(shù)量,同時產(chǎn)生更多的CD4,以提高人體的免疫能力.目前,AIDS療法有多種,每種療法對不同的病人產(chǎn)生不同的效果,因此,選擇合適的療法顯得非常重要.不少學者曾對艾滋病治療問題進行了研究,其中郭亞君等在文獻[1]中對數(shù)據(jù)ACTG320,依據(jù)病人的初始CD4濃度,將實驗數(shù)據(jù)進行分類,再對每類數(shù)據(jù)進行三次樣條插值,確定各類病人的最佳治療終止時間.然后對另一組數(shù)據(jù)193A,依據(jù)病人的年齡,將實驗數(shù)據(jù)進行分類,再對每類數(shù)據(jù)不同療法進行三次樣條插值,比較得到各類病人的最佳治療方案.本文對數(shù)據(jù)ACTG320,同時考慮初始CD4和HIV濃度;對數(shù)據(jù)193A,同時考慮初始CD4濃度和年齡大小,采用聚類分析法將數(shù)據(jù)進行分類,然后對每類數(shù)據(jù)采用平滑技術進行趨勢分析,使問題的解決更貼近實際.
聚類分析是將研究對象分為相對同質的群組的統(tǒng)計分析技術.[2]從統(tǒng)計學的觀點看,聚類分析能夠減少研究對象的數(shù)目,是簡化數(shù)據(jù)的一種方法.聚類分析的目標是將性質相近的事物歸入一類.同一個類中的對象有很大的相似性,而不同類間的對象有很大的相異性.本文采用聚類分析諸方法中最常用的一種方法——系統(tǒng)聚類法——進行分類.
系統(tǒng)聚類法的基本思想是:開始將各個樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個新類,計算新類與其他類的距離,重復進行兩個最近類的合并,每次減少一類,直至所有的樣品合并為一類.[3]當各變量的單位不同或測量值范圍相差很大時,應先對各變量的數(shù)據(jù)作標準化處理.本文采用系統(tǒng)聚類方法中的最長距離法進行聚類,采用曼氏距離作為其相似性度量.
平滑法是進行趨勢分析的一種常用方法.它是利用修勻技術,使序列平滑化,從而顯示出變化的規(guī)律.常用的數(shù)據(jù)平滑技術是移動平均法,它的基本思想是用一定時間間隔的平均值作為某一期的估計值.[4]但使用移動平均法進行平滑后的序列會變短.本文所使用的是一種保持原序列長度且方便快捷的平滑處理方法——二項式系數(shù)移動平滑法.[5]
二項式系數(shù)移動平滑序列由二項式系數(shù)組成,如三點二項式系數(shù)移動平滑序列的二項式系數(shù)如下:
n+1點二項式系數(shù)移動平滑序列由如下的二項式系數(shù)組成:
設含有n個數(shù)據(jù)的序列{xk},其三點二項式系數(shù)移動平滑序列為{yk},具體步驟如下:
上述操作無法對首尾數(shù)據(jù)進行平滑,為解決該問題,令y1=x1,yn=xn來進行數(shù)據(jù)缺失處理.
二項式系數(shù)移動平滑法中當前項的權系數(shù)最大對保存自身項及附近項特征具有良好的效果,且保持了峰高的位置不發(fā)生平移.[6]另外,此法計算快捷,含有n個數(shù)據(jù)的序列進行三點二項式系數(shù)移動平滑,只需要做2n-3次加法和2n-3次除法.如果進行2np+1點二項式系數(shù)移動平滑,則只需進行(2n-3)np次加法和(2n-3)np次除法即可.
3.1.1 數(shù)據(jù)預處理
數(shù)據(jù)來源于美國艾滋病醫(yī)療試驗機構ACTG公布的數(shù)據(jù) ACTG320,ACTG320是同時服用zidovudine,lamivudine,indinavir這三種藥物的300多名病人每隔幾周測試的CD4和HIV的濃度.此數(shù)據(jù)共有356組數(shù)據(jù),依據(jù)病人的初始CD4和HIV濃度,采用聚類分析法將實驗數(shù)據(jù)進行分類.首先去除20組缺失第一次測驗的數(shù)據(jù),然后對剩下的336組數(shù)據(jù)歸一化后做聚類分析,聚類后再次去除2組異常數(shù)據(jù),有效數(shù)據(jù)是334組.聚類結果有五類,每類人數(shù)如表1.
表1 ACTG320聚類后每類人數(shù)
對每一類中的數(shù)據(jù)不考慮個體差異,只考慮平均水平.第一類病人每隔幾周的CD4和HIV均值濃度如表2.
表2 ACTG320第一類病人每隔幾周的CD4和HIV均值濃度
3.1.2 模型建立
采用五點二項式系數(shù)移動平滑,即設含有n個數(shù)據(jù)的序列{xk},其五點二項式系數(shù)移動平滑序列為{yk},則
3.1.3 結果分析
將篩選和分類后的ACTG320第一類病人數(shù)據(jù),以周數(shù)為橫軸,分別以CD4均值和HIV均值為縱軸做出散點圖,然后用五點二項式系數(shù)移動平滑技術進行平滑,結果如圖1和圖2.
圖1 ACTG320第一類病人CD4含量隨時間變化曲線
圖2 ACTG320第一類病人HIV含量隨時間變化曲線
對ACTG320第一類病人,圖1顯示CD4含量隨時間先上升后下降.圖2顯示HIV含量隨時間先下降后上升,CD4含量和HIV含量隨時間成互補趨勢變化.特別的,在第25周左右,CD4含量達到最高,HIV含量達到最低,表明ACTG320第一類病人最佳停藥時間大概是在第25周左右.類似可得ACTG320第二類、第三類、第四類、第五類病人的最佳停藥時間.
3.2.1 數(shù)據(jù)預處理
數(shù)據(jù)來源于美國艾滋病醫(yī)療試驗機構ACTG公布的另一組數(shù)據(jù)193A,193A是將1300多名病人隨機地分為4組,每組按下述4種療法中的一種服藥,大約每隔8周測試的CD4濃度,其中日用藥600mg zidovudine或400mg didanosine,這兩種藥按月輪換使用為第一種療法;日用藥600mg zidovudine加2.25mg zalcitabine為第二種療法;日用藥600mg zidovudine加400 mg didanosine為第三種療法;日用藥600mg zidovudine加400 mg didanosine,再加400mg nevirapine為第四種療法.另外,此數(shù)據(jù)信息還包含每個病人的年齡.
此數(shù)據(jù)共有1313組數(shù)據(jù),依據(jù)病人的初始CD4和HIV濃度,亦采用聚類分析法將實驗數(shù)據(jù)進行分類.首先去除14組缺失第一次測驗的數(shù)據(jù),然后對剩下的1299組數(shù)據(jù)中的時間和年齡四舍五入取整,再歸一化后做聚類分析,聚類結果有五類,每類人數(shù)如表3.
表3 193A聚類后每類人數(shù)
對每一類中的數(shù)據(jù)不考慮個體差異,只考慮平均水平.僅以CD4為標準,第一類病人第1和第2種療法每隔幾周的CD4均值濃度如表4(限于篇幅,第一類病人第3和第4種療法每隔幾周的CD4均值濃度略).
表4 193A第一類病人第1和第2種療法每隔幾周的CD4均值濃度
3.2.2 模型建立
采用七點二項式系數(shù)移動平滑,即設含有n個數(shù)據(jù)的序列{xk},其七點二項式系數(shù)移動平滑序列為{yk},則
3.2.3 結果分析
將篩選和分類后的193A第一類病人數(shù)據(jù),以周數(shù)為橫軸,以CD4均值為縱軸,用七點二項式系數(shù)移動平滑技術對193A第一類病人數(shù)據(jù)的每一種療法進行平滑,結果如圖3.
圖3 193A第一類病人四種療法CD4含量隨時間變化曲線
對193A第一類病人的四種療法,圖3顯示第一種療法CD4含量隨時間變化比較平穩(wěn),第二種和第三種療法CD4含量隨時間變化波動比較明顯,第四類療法CD4含量在開始一段時間有波動性,但之后時間段CD4含量高于其他療法.因此,對193A第一類病人,第四種療法效果比較好.類似可得193A第二類、第三類、第四類、第五類病人的最佳治療方案.
[1]郭亞君,王金然,丁 靖,等.基于三次樣條插值的艾滋病治療模型[J].數(shù)學的實踐與認識,2010(9):93-98.
[2]吳秋芳,唐 亞.上市公司股票成交額時間序列的模糊聚類分析[J].內江師范學院學報,2011(10):11-14.
[3]方開泰,潘恩沛.聚類分析[M].北京:地質出版社,1982:44.
[4]王 燕.應用時間序列分析[M].北京:中國人民大學出版社,2005:114.
[5]Marchand P,Marmet L.Binomial Smoothing Filter:A Way to Avoid Some pitfalls of Least-squares Polynomial Sdmoothing[J].Review of Scientific Instruments,1983(8):1034-1041.
[6]賈小龍,王謙謙,周寧芳.近50a東北地區(qū)降水異常的氣候特征分析[J].南京氣象學院學報,2003(2):164-171.