劉秀林 張行南 方園皓 黃晴
摘要:隨著水文自動(dòng)測報(bào)技術(shù)的發(fā)展,越來越多的自記雨量站投入使用,而研究自記雨量站的數(shù)據(jù)質(zhì)量對水利工程的運(yùn)行具有重要意義。采用格拉布斯準(zhǔn)則和K-medoids聚類方法對金沙江下游流域收集的2008~2015年遙測雨量站逐時(shí)降雨數(shù)據(jù)系列進(jìn)行數(shù)據(jù)質(zhì)量分析研究。結(jié)果顯示,該方法在年累積雨量異常值的確定以及逐時(shí)降雨數(shù)據(jù)奇異點(diǎn)的尋找方面效果顯著,能快速判別異常值和奇異點(diǎn),且有統(tǒng)計(jì)學(xué)理論基礎(chǔ)。所提出的方法為顆粒度越來越細(xì)的水文數(shù)據(jù)質(zhì)量分析提供了一定參考依據(jù)。
關(guān)鍵詞:遙測雨量;逐時(shí)降雨數(shù)據(jù);格拉布斯準(zhǔn)則;K-medoids聚類;奇異點(diǎn);金沙江下游流域
中圖法分類號:P33
文獻(xiàn)標(biāo)志碼:A
DOI:10.16232/j.cnki.1001-4179.2019.03.023
隨著我國社會(huì)經(jīng)濟(jì)水平的不斷發(fā)展,水利基礎(chǔ)工程設(shè)施建設(shè)的腳步也越來越快,截至2017年,長江流域的雨量站數(shù)量已達(dá)9959個(gè),其中包括大量為水情自動(dòng)測報(bào)系統(tǒng)服務(wù)的遙測雨量站。遙測雨量站的建設(shè)和應(yīng)用加密了站網(wǎng)密度,滿足了流域?qū)崟r(shí)洪水預(yù)報(bào)的工程需求,在一定程度上為面雨量計(jì)算方法、流域洪水預(yù)報(bào)的研究提供了大量的數(shù)據(jù)支持。隨著長江,上游水庫工程的進(jìn)一步規(guī)劃建設(shè),為滿足水庫的施工期洪水預(yù)報(bào)對預(yù)見期和預(yù)報(bào)精度以及水庫建成后樞紐信息實(shí)時(shí)監(jiān)測等計(jì)算要求,需進(jìn)一步加密現(xiàn)有的雨量站網(wǎng)。由此可見,現(xiàn)階段我國的雨量站數(shù)目仍將增加,同時(shí),雨量數(shù)據(jù)的時(shí)序顆粒度也越來越細(xì),目前的遙測雨量站數(shù)據(jù)儲存皆是逐時(shí)雨量,一個(gè)雨量站每年約8760個(gè)值存儲于數(shù)據(jù)庫中。
雨量數(shù)據(jù)經(jīng)遙測雨量站實(shí)時(shí)傳輸入數(shù)據(jù)庫,大量的數(shù)據(jù)未經(jīng)質(zhì)量分析,給工程項(xiàng)目和科學(xué)研究帶來了極大的不便。單站逐時(shí)降雨量時(shí)序數(shù)據(jù)不同于水位或者流量的時(shí)間系列,具有連續(xù)性的特點(diǎn),在分析系列時(shí)可通過平均變化量(或者平均變化率)來確定異常點(diǎn),逐時(shí)降雨量數(shù)據(jù)存在大量的零值,是離散的、隨機(jī)的周期性過程。序列多會(huì)出現(xiàn)兩類問題:模式異常和點(diǎn)異常。模式異常指在一條序列上與其他模式存在顯著差異的、具有異常行為的模式;點(diǎn)異常指在某段時(shí)序區(qū)間內(nèi)與其他序列點(diǎn)存在顯著差異的、具有異常特征的序列點(diǎn)。這兩類問題在單站逐時(shí)降雨量序列中具體表現(xiàn)形式分別為年累積雨量異常和區(qū)間奇異點(diǎn)。
本文以金沙江下游流域自建雨量站(指金沙江下游梯級水電站水情自動(dòng)測報(bào)系統(tǒng)三期建設(shè)的站點(diǎn),以及部分可直接或間接獲取數(shù)據(jù)的信息共享站點(diǎn))為例,提出面對大量數(shù)據(jù)時(shí),降雨量數(shù)據(jù)質(zhì)量分析的方法,以期為高效分析降雨量數(shù)據(jù)質(zhì)量提供一定的參考依據(jù)。
1 研究區(qū)域與數(shù)據(jù)
1.1 研究區(qū)域
金沙江流域地處青藏高原、云貴高原和四川盆地西部邊緣,呈東西短、南北長的狹長形狀。金沙江下段自攀枝花站起,至四川省宜賓岷江口止,地理位置位于東經(jīng)100°~105°、北緯24°~29°之間,河長782.4km,落差729m。該河段水量大、落差集中,是長江流域水能資源最豐富的河段,同時(shí)也是雨量站點(diǎn)較為密集的區(qū)域。
金沙江下游流域氣候?yàn)閬啛釒Ъ撅L(fēng)濕潤氣候,多年平均降水量為893mm,水量豐沛穩(wěn)定,暴雨多為兩次以上的連陰雨天氣形成,一次暴雨過程的歷時(shí)約為3~6d,最大1d降雨量高達(dá)100~200mm。本次研究收集到金沙江下游流域95個(gè)自記雨量站點(diǎn)逐時(shí)雨量數(shù)據(jù),站點(diǎn)分布情況見圖1。
1.2 雨量站點(diǎn)信息
自記雨量站點(diǎn)信息及數(shù)據(jù)均為三峽集團(tuán)公司梯調(diào)通信中心提供,因篇幅限制,各站點(diǎn)經(jīng)緯度信息和高程信息均未列出,具體位置可參見圖1。在95個(gè)雨量站中,大沙店、尼格、向家壩(專)和龍街(三)站點(diǎn)資料系列為2012~2015年,底壩和細(xì)沙站資料系列為2013~2015年,其余均為2008~2015年,數(shù)據(jù)總量為349651條。
2逐時(shí)降雨數(shù)據(jù)質(zhì)量分析方法
在一定區(qū)域范圍內(nèi),鄰近雨量站之間的降雨量有一定的相關(guān)性,故在橫向比較(單站各年份比較)的基礎(chǔ)上,針對相應(yīng)情況,還可進(jìn)行縱向比較(鄰近站點(diǎn)相應(yīng)年份比較),以確定數(shù)據(jù)質(zhì)量。WMO《水文實(shí)踐指南》第1卷中提出:在溫帶、內(nèi)陸熱帶山區(qū),最合適的做法是按大約500m高差來規(guī)劃高度帶。針對金沙江下游流域雨量站分布位置高程差較大的特點(diǎn),將與研究站點(diǎn)高程差500m作為搜索范圍,尋找5個(gè)鄰近站點(diǎn)進(jìn)行對比分析。
2.1 累積雨量異常判別
累積雨量異常表現(xiàn)為相較于其他年份該年總量偏大或者偏小,即該年的逐時(shí)降雨量數(shù)據(jù)可能呈現(xiàn)系統(tǒng)性的偏大或者偏小,屬于時(shí)間序列異常研究中的模式異常問題。這類問題需要特別警惕,應(yīng)認(rèn)真核實(shí)數(shù)據(jù)的正確性和可信度,因?yàn)樗鼤?huì)影響水文研究中的水量平衡計(jì)算。對于該問題,考慮到本文單站年累積雨量統(tǒng)計(jì)值個(gè)數(shù)在3~8之間,故采用改進(jìn)的格拉布斯準(zhǔn)則來確定異常年份。
格拉布斯準(zhǔn)則適用于測量次數(shù)較少的情況(3≤n<100),可一次性求出多個(gè)異常值。改進(jìn)的格拉布斯準(zhǔn)則是將原準(zhǔn)則公式中的平均值用中位數(shù)代替,可有效消除同側(cè)異常值的屏蔽效應(yīng),是更為穩(wěn)健的處理方法。其判別方法如下。
先將樣本從小至大排序?yàn)樾碌南盗蠿=(x,x2,.x,),統(tǒng)計(jì)臨界系數(shù)G(a,n)的值G,(查臨界值表獲得),然后計(jì)算G,G,:
公式
式中,a為顯著性水平,n為測量次數(shù),Xψ為樣本中位數(shù),σ為標(biāo)準(zhǔn)誤差。
若G≥G,且G>Go,則x應(yīng)予以剔除;若G,≥G且G>Go,則x。應(yīng)予以剔除;若G 根據(jù)以上統(tǒng)計(jì)學(xué)方法,金沙江下游流域雨量站累積雨量異常分析總體思路為:先對單個(gè)站點(diǎn)計(jì)算各年的累積雨量,挑出異常年份;再用各年的累積雨量與鄰近站點(diǎn)的同年累積雨量做格拉布斯準(zhǔn)則分析。由于累積雨量在年際間相差可能較大,而鄰近雨量站的雨量總體反映了豐水年、平水年或者枯水年,可作為較好的參考,故設(shè)定兩者輸出相同的異常年份則判定為需核查的數(shù)據(jù)。 2.2 奇異點(diǎn)識別 奇異點(diǎn)在本次研究中是指在某段時(shí)序區(qū)間內(nèi)的極大值遠(yuǎn)遠(yuǎn)大于該段內(nèi)的其他點(diǎn),可能存在單點(diǎn)數(shù)據(jù)有誤的隨機(jī)誤差。奇異點(diǎn)的存在并不是錯(cuò)誤值,而是需要進(jìn)一步核實(shí)是不是正確數(shù)據(jù)的極大值,以避免后續(xù)研究(如水文分析中的次洪參數(shù)率定等)中帶來不必要的影響。 針對逐時(shí)降雨量數(shù)據(jù)存在大量的零值,且各個(gè)測量值之間離散相互獨(dú)立的特點(diǎn),采用時(shí)間序列異常研究中的基于特征空間的方法來識別奇異點(diǎn):首先對時(shí)間序列進(jìn)行分段,即分為非汛期和汛期,從分段中提取特征,然后在特征空間中應(yīng)用無序數(shù)據(jù)集合中的異常點(diǎn)檢測方法一聚類法來尋找奇異點(diǎn),分段的思想考慮到了非汛期中的奇異點(diǎn)在汛期時(shí)段中顯得平庸的特點(diǎn),能夠有效檢測出各段奇異點(diǎn)。 聚類法是將數(shù)據(jù)集根據(jù)相似度劃分成若干組的統(tǒng)計(jì)學(xué)方法,不同組中相似度低,相似度可用距離進(jìn)行度量。K-medoids聚類法是系統(tǒng)聚類法中最為常用的一種,因其算法簡單、收斂速度快、中心點(diǎn)明確以及局部搜索能力強(qiáng)的優(yōu)點(diǎn)被應(yīng)用到很多方面。K-medoids算法步驟如下: (1) 針對數(shù)據(jù)集{y,,y2,.,yn},適當(dāng)選擇k個(gè)樣本作為初始聚類中心2,2,g}; (2) 對每個(gè)樣本y;找到離它最近的聚類中心z。,并將其分配到z。所標(biāo)明的類u; (3) 更新每個(gè)類的中心: 公式 (5)如果D值收斂,則返回(z,z,*.,zn,U),并終止算法,否則轉(zhuǎn)至步驟(2)。 K-medoids算法聚類的顯著缺點(diǎn)是需提前指定分類數(shù)目,采用最優(yōu)聚類數(shù)的評價(jià)指標(biāo)Silhouette來確定分類數(shù)目。該指標(biāo)反映了聚類結(jié)構(gòu)的類內(nèi)緊密性和類間分離性,既可用于估計(jì)最佳聚類數(shù),也可用于評價(jià)聚類質(zhì)量,Silhouette指標(biāo)值在范圍內(nèi)變動(dòng),指標(biāo)值越大表示聚類質(zhì)量越好,最大值對應(yīng)的類數(shù)為最佳聚類數(shù)。Silhouette指標(biāo)值的計(jì)算公式為 公式 式中,a(i)是樣本i與類內(nèi)所有其他樣本的平均距離,b(i)為樣本i到其他每個(gè)類中樣本平均距離的最小值。 初步分析金沙江下游流域雨量站逐時(shí)降雨量(也稱降雨強(qiáng)度,mm/h)數(shù)據(jù),可以發(fā)現(xiàn)大量的零值數(shù)據(jù)(無降雨),故初步處理應(yīng)將零值去掉,形成無零值的數(shù)據(jù)系列文件;對新的數(shù)據(jù)系列用K-medoids算法進(jìn)行分類。實(shí)踐中僅將分類數(shù)k取為2或3,采用Silhouette指標(biāo)值進(jìn)行比較確定最優(yōu)分類。小時(shí)降雨強(qiáng)度r的等級劃分標(biāo)準(zhǔn)為:r<2.5mm(小雨),2.5mm≤r<8mm(中雨),8.0mm≤r<15mm(中雨),15mm≤r(暴雨)。由此可看出,逐時(shí)降雨量的特點(diǎn)是存在大量的較小值較多的中間值和很少的較大值,奇異點(diǎn)存在于較大值的聚類中10]。本次研究對較大值所在的聚類需要做進(jìn)一步的分析。資料顯示,最大1h降雨強(qiáng)度極少超過100mm,故在該聚類中直接將100mm以上的數(shù)據(jù)標(biāo)記為奇異點(diǎn)。另外,經(jīng)人工逐一在excel中繪制降雨量柱狀圖發(fā)現(xiàn),一年中各個(gè)分段出現(xiàn)奇異點(diǎn)的概率不大,故將該聚類中的閾值設(shè)定為3,若該區(qū)段中較大值的個(gè)數(shù)不大于3個(gè),那么皆標(biāo)記為奇異點(diǎn),若大于3個(gè)且小于100個(gè),則采用格拉布斯準(zhǔn)則來尋找異常數(shù)據(jù)(奇異點(diǎn)),找到異常數(shù)據(jù)則輸出奇異點(diǎn),尋找不到則輸出無奇異點(diǎn),認(rèn)為存在100個(gè)及以上的較大值在同一聚類中,屬于正常降雨數(shù)據(jù)。 根據(jù)金沙江下游流域降雨特點(diǎn),將降雨量系列分為3個(gè)區(qū)段,1~3月和11~12月降雨較少,分為第1區(qū)段;4,5月和10月降雨量中等,為第2區(qū)段;6~9月降雨量較多,為第3區(qū)段。根據(jù)數(shù)據(jù)特點(diǎn),各區(qū)段正常降雨強(qiáng)度閾值設(shè)定為:≤15mm,≤25mm和≤35mm。由于相鄰區(qū)域降雨存在相似性,即暴雨出現(xiàn)時(shí)間的近同步性,且存在每年汛期偏枯偏澇等不同的特點(diǎn),故單站奇異點(diǎn)的分析采用同年鄰近雨量站降雨對比尋找異常點(diǎn),而不是該站各年份之間的比較。 2.3 實(shí)現(xiàn)方式 根據(jù)統(tǒng)計(jì)學(xué)方法搜尋金沙江下游流域雨量站逐時(shí)降雨量存在的累積量異常和奇異點(diǎn)問題,不僅將人工目估的定性方法轉(zhuǎn)為定量,使得問題尋找有據(jù)可循,而且易于編程實(shí)現(xiàn),節(jié)省了大量的人力時(shí)間。研究選用Matlab進(jìn)行編程,利用內(nèi)置的utmzone和mfwdtran函數(shù)將各雨量站的地理坐標(biāo)轉(zhuǎn)換為地圖坐標(biāo),以便雨量站之間距離的測算,來搜尋鄰近雨量站;利用內(nèi)置的K-medoids和Silhouette函數(shù)實(shí)現(xiàn)聚類分析,完成累積量異常和奇異點(diǎn)問題年份和問題點(diǎn)的提取。應(yīng)用格拉布斯準(zhǔn)則搜尋異常累積雨量時(shí),考慮到累積雨量值分布密集,顯著性水平a取0.05即可,分析奇異點(diǎn)時(shí),由于數(shù)據(jù)差異較大,離散程度高,顯著性水平a取0.005。 3 結(jié)果及討論 3.1 計(jì)算結(jié)果 利用本文提出的檢測累積雨量異常和奇異點(diǎn)的方法,對金沙江下游95個(gè)雨量站點(diǎn)數(shù)據(jù)進(jìn)行逐一核查,檢測到2015年龍山村站、2012年大沙店站、2012年八家村水庫站、2011年地索(二)站、2014年封過站、2011年后布列托站、2013年細(xì)沙站以及2012年龍街(三)站累積雨量異常。經(jīng)核查原始數(shù)據(jù),其中,大沙店站、八家村水庫站、地索(二)站、細(xì)沙站和龍街(三)站均是由于該年建設(shè)站點(diǎn)投入使用時(shí)間較遲,數(shù)據(jù)系列大多從9月開始記錄使得年累積雨量異常;龍山村站和淌塘站均是年內(nèi)累積量異常偏小。這里僅詳細(xì)分析龍山村站,在累積雨量表1中,先進(jìn)行各年份比較,查找到2015年累積雨量(79mm)和2011年累積雨量(1031.5mm)異常,再計(jì)算同一年份鄰近站點(diǎn)累積雨量,龍山村站2009,2015年的累積雨量異常,根據(jù)兩者輸出相同的異常年份為異常值,判定2015年數(shù)據(jù)需核查矯正;封過站2014年累積雨量達(dá)2555.6mm,逐時(shí)降雨數(shù)據(jù)系統(tǒng)性偏大,金沙江下游流域年雨量一般不超過2000mm,故該站點(diǎn)數(shù)據(jù)需核查校正。 由于奇異點(diǎn)數(shù)量較多,這里僅列出表現(xiàn)異常的第1區(qū)段(1月至3月和11月至12月)奇異點(diǎn)數(shù)據(jù)表和數(shù)量最多的第3區(qū)段(6~9月)奇異點(diǎn)分布直方圖。從表2中可以看出,檢測到的奇異點(diǎn),100%的降雨強(qiáng)度大于15mm(暴雨等級),30.3%的降雨強(qiáng)度大于50mm,18.2%大于90mm。可以認(rèn)為,這些奇異點(diǎn)均屬異常數(shù)據(jù),需詳細(xì)核實(shí)。圖2為第3區(qū)段奇異點(diǎn)降雨量級直方圖,從95個(gè)雨量站共734個(gè)年逐時(shí)雨量數(shù)據(jù)中找出164個(gè)異常點(diǎn),可以清晰地看到奇異點(diǎn)逐時(shí)降雨量范圍在30~50mm居多,有107個(gè),占比65.2%。實(shí)踐中可核查該區(qū)域降雨強(qiáng)度在該段內(nèi)是否屬于正?,F(xiàn)象,若屬正常,那么采用該方法時(shí)正常降雨閾值設(shè)定可放寬到50mm;地索(二)站2011年5月22日11時(shí)降雨數(shù)據(jù)為235.9mm,考慮到直方圖間距未加入圖中,該數(shù)據(jù)需校正。 3.2 討論 (1) 格拉布斯準(zhǔn)則。剔除粗大誤差的統(tǒng)計(jì)學(xué)方法有很多。雖然經(jīng)證明,格拉布斯準(zhǔn)則適用于測量次數(shù)n大于3小于100的情況,但是異常值判別標(biāo)準(zhǔn)G(a,n)與顯著性水平a的選取同樣相關(guān)。在累積雨量異常判別時(shí),為嚴(yán)格起見,取a=0.05。對于該例而言,敏感程度較高,從表2中可看到尋找到了較多的異常值,而該異常值在縱向?qū)Ρ葧r(shí)又為正常值,所以綜合考量,實(shí)驗(yàn)判定橫向縱向?qū)Ρ染鶠楫惓?shù)據(jù)的值為可疑值。 在奇異點(diǎn)判別時(shí),顯著性水平a=0.005,這主要是考慮了逐時(shí)降雨數(shù)據(jù)離差系數(shù)大的特點(diǎn)。但從圖2中可看到挑選出的異常值65.2%聚集在30~50mm之間。這種現(xiàn)象可能預(yù)示著正常數(shù)據(jù)被當(dāng)作可疑數(shù)據(jù)被挑選出來,表明較小的顯著性水平依舊無法正確判別,而必須加入閾值設(shè)定環(huán)節(jié)才能使判別更加高效。 (2) 聚類分析。在逐時(shí)雨量異常數(shù)據(jù)判別時(shí),聚類分析契合了逐時(shí)降雨數(shù)據(jù)量大且類間差別大,類內(nèi)差距小的特點(diǎn),可以高效地將較大值分成一類,相當(dāng)于剪枝的思想,而將實(shí)驗(yàn)研究對象快速聚焦到奇異點(diǎn)的分析上。但從表2可以看到,區(qū)段劃分具有極強(qiáng)的主觀性,3月中下旬在第1區(qū)段中表現(xiàn)異常的值有一部分小于25mm,若是將該時(shí)段劃分到第2區(qū)段,可能屬于正常數(shù)據(jù)而被淹沒。在實(shí)踐中,還需根據(jù)研究流域?qū)嶋H降雨特征來劃分區(qū)段以及選取閾值。 (3) 問題核實(shí)。用年鑒資料來核查數(shù)據(jù),以2013年向家壩(專)站為例,本文方法搜尋到奇異點(diǎn)2013年2月25日21:00降雨36mm,當(dāng)日降雨36mm,而年鑒當(dāng)日顯示未降雨;9月3日13:00降雨75.5mm,當(dāng)日總降雨99.5mm,而年鑒資料當(dāng)日僅降雨11mm??梢姡瑸閲?yán)謹(jǐn)使用數(shù)據(jù),前期降雨數(shù)據(jù)質(zhì)量分析工作非常重要。 本文僅研究極大值出現(xiàn)異常的情況,而未對降雨量小的值進(jìn)行研究,一方面是方法限制,無法獲得正確的參照值;另一方面是因?yàn)閮x器測量本身存在一定誤差,較小的降雨量產(chǎn)生異常一般在誤差允許范圍內(nèi)。 查找到的問題數(shù)據(jù)除了與年鑒進(jìn)行比較外,也可與其他可靠的氣象產(chǎn)品比較,將錯(cuò)誤數(shù)據(jù)矯正,矯正的方法可直接采用正確數(shù)據(jù),無準(zhǔn)確參考值的情況下可采用鄰近站點(diǎn)降雨插值校正等。 4 結(jié)語 (1) 本文詳細(xì)討論了金沙江下游流域逐時(shí)降雨數(shù)據(jù)質(zhì)量分析方法,結(jié)合格拉布斯準(zhǔn)則對累積雨量異常年份進(jìn)行確定,利用K-medoids聚類方法挑選可疑極大值數(shù)據(jù),確定奇異點(diǎn)。年累積雨量挑選方法科學(xué)易行且準(zhǔn)確率高,奇異點(diǎn)分析方法由于數(shù)據(jù)離散程度較大,需結(jié)合閾值選取以避免將正常值作為異常值的錯(cuò)誤。 (2) 基于特征空間的方法來識別奇異點(diǎn),關(guān)鍵在于分段,需綜合考慮流域降雨特點(diǎn),將降雨特性相近的時(shí)段合并,差異大的時(shí)段分開,可提高奇異點(diǎn)提取準(zhǔn)確性。 (3) 遙測雨量站逐時(shí)降雨數(shù)據(jù)產(chǎn)生的誤差分系統(tǒng)誤差和粗大誤差兩類,即累積雨量異常和奇異點(diǎn)兩類問題。本文提出的方法是對初步處理大量該類數(shù)據(jù)的一次探索,以期為越來越精細(xì)化的水文數(shù)據(jù)質(zhì)量分析提供一定參考依據(jù)。 參考文獻(xiàn): [1]胡海洪.遙測雨量站在青海省中小河流監(jiān)測站網(wǎng)中的應(yīng)用[J].中國高新技術(shù)企業(yè),2013(21):59-61. [2]吳騫,吳紹春.基于離群分析的水位異常識別研究[J].硅谷,2010(24):45. [3]詹艷艷,徐榮聰.時(shí)間序列異常模式的K-均距異常因子檢測[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(9):141-145. [4]張睿,周建中,肖舸,等.金沙江下游梯級和三峽梯級水電站群聯(lián)合調(diào)度補(bǔ)償效益分析[J].電網(wǎng)技術(shù),2013,37(10):2738-2744. [5]高俊剛,吳雪,張鐿鋰,等.基于等級層次分析法的金沙江下游地區(qū)生態(tài)功能分區(qū)[J].生態(tài)學(xué)報(bào),2016,36(1):134-137. [6]世界氣象組織(WMO)著,趙珂經(jīng)等譯.水文實(shí)踐指南[M].北京:水利電力出版社,1987., [7]熊艷艷,吳先球.粗大誤差四種判別準(zhǔn)則的比較和應(yīng)用[J].大學(xué)物理實(shí)驗(yàn),2010,23(1):66-68. [8]夏寧霞,蘇一丹,覃希.一種高效的K-medoids聚類算法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(12):4517-4519. [9]周世兵,徐振源,唐旭清.新的K-均值算法最佳聚類數(shù)確定方法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(16):27-31. [10]楊茂林,盧炎生.基于剪枝的海量數(shù)據(jù)離群點(diǎn)挖掘[J].計(jì)算機(jī)科學(xué),2012,39(10):152-156. [1]RoySS,RouaultM.Spatialpattermsofseasonalscaletrendsinex- tremehourlyprecipitationinSouthAfrica[J].AppliedGeography,2013(39):151-157. [12]Gwo-FongLin,Ming-JuiChang,Chian-FuWang.ANovel SpatiotemporalStatisticalDownscalingMethodforHourlyRainfall[J].WaterResourManage,2017(31):3465-3489. [13]周國良,高唯清,黃昌興.2016年我國極端暴雨事件淺析[J].中國防汛抗旱,2017,27(1):75-78,87. [14]趙超,包為民,瞿思敏,等.遙測系統(tǒng)降雨觀測粗差修正研究[J].人民長江,2003,34(2):4-5,55. [15]李朋軍.遙測與虹吸雨量計(jì)降水?dāng)?shù)據(jù)對比分析[J].水科學(xué)與工程技術(shù),2016(2):51-53. [16]楊旭,劉志武,李波.多源降水?dāng)?shù)據(jù)在長江上游流城比較研究[J].長江流域資源與環(huán)境,2016,25(1):131-139. 引用本文:劉秀林,張行南,方園皓,黃晴.金沙江下游遙測雨量站數(shù)據(jù)質(zhì)量研究[J].人民長江,2019,50(3):131-135. Study on data quality of hourly rainfall of telemetry rainfall stations in lower reaches of Jinsha River LIU Xiulin',ZHANG Xingnan' 1,2,3,F(xiàn)ANG Yuanhao',HUANG Qing* (1. College of Hydrology and Water Resources,Hohai University,Nanjing 210098,China;2. National Cooperative Innovation Center for Water Safety & Hydro-Science,Hohai University,Nanjing 210098,China;3. National Engineering Research Center of Water Resources Efficient Utilization and Engineering Safety,Hohai University,Nanjing 210098,China;4. Geographic and Oceano-graphic Sciences College,Nanjing University,Nanjing 210098,China) Abstract:Along with the development of automatic measurement and forecast technology,more and more automatic rainfallstations are put into operation. Analyzing the quality of data measured by automatic rainfall station is of great significance to the operation of water project. The analysis on the hourly rainfall series from telemetry rainfall stations in the lower reaches of the Jinsha River from 2008 to 2015 was carried out by using the Grubbs criterion and k-medoids clustering algorithm. Based on the statistical theory,the results showed that the methods have a remarkable effect in determining the abnormal value of annual accumulated rainfall and the singular points of hourly rainfall data. The method provides some references for hydrological data qualityanalysis that is changed by increasingly fine particles. Key words:telemetry rainfall data;hourly rainfall series;Grubbs criterion;k-medoids clustering;singular points;lower reaches of Jinsha River