李 紅,陳愛(ài)林,喬 師
(湖北省荊州市水文水資源勘測(cè)局,湖北 荊州 434000)
水文數(shù)據(jù)所包含的水文信息是水文科學(xué)發(fā)展的源泉和基礎(chǔ),水文學(xué)需要大量獲得新的信息和在這種新的信息基礎(chǔ)上提取新的知識(shí)。水文數(shù)據(jù)由地表水、地下水和河、湖等相關(guān)屬性數(shù)據(jù)組成,觀測(cè)項(xiàng)目包含水位、流量、降水、蒸發(fā)等數(shù)據(jù)資料,是防洪調(diào)度、水資源調(diào)查評(píng)價(jià)、工程施工設(shè)計(jì)的基礎(chǔ),同樣是水資源管理工作的基礎(chǔ)。水文數(shù)據(jù)時(shí)空分布對(duì)水資源影響至關(guān)重要,指導(dǎo)水資源合理開(kāi)發(fā)、規(guī)劃利用具有重要意義。
數(shù)據(jù)是關(guān)于自然、社會(huì)現(xiàn)象和科學(xué)試驗(yàn)的定量或定性的記錄是科學(xué)研究最重要的基礎(chǔ)研究數(shù)據(jù),是對(duì)數(shù)據(jù)進(jìn)行采集、分類、錄入、儲(chǔ)存、統(tǒng)計(jì)分析、統(tǒng)計(jì)檢驗(yàn)等一系列活動(dòng)的統(tǒng)稱,其準(zhǔn)確性直接影響以此基礎(chǔ)研究結(jié)果的正確性。水文數(shù)據(jù)主要以實(shí)測(cè)資料為主,對(duì)各種水文要素原始數(shù)據(jù)進(jìn)行記載和處理。為獲取水文數(shù)據(jù)真實(shí)值,常常多次采集測(cè)量數(shù)據(jù)樣本,提高數(shù)據(jù)樣本精度。但測(cè)量過(guò)程中難免出現(xiàn)非正常因素引起差錯(cuò),個(gè)別數(shù)據(jù)出現(xiàn)誤差,如不從測(cè)量數(shù)據(jù)中剔除,將影響采集數(shù)據(jù)樣本精度[1]。
水文數(shù)據(jù)異常值產(chǎn)生的原因一般有3個(gè)方面:一是水文監(jiān)測(cè)設(shè)施設(shè)備原因,當(dāng)水文監(jiān)測(cè)施設(shè)備在運(yùn)行過(guò)程中有部件損壞、傳輸故障,常導(dǎo)致監(jiān)測(cè)結(jié)果容易出現(xiàn)異常值;二是人為技術(shù)水平,根據(jù)每個(gè)人對(duì)水文要素認(rèn)知水平以及操作掌握熟練程度不同等產(chǎn)生異常值;三是外界條件,水文監(jiān)測(cè)過(guò)程中,波浪、風(fēng)等氣候因素對(duì)觀測(cè)者產(chǎn)生不利條件,容易出現(xiàn)異常值。
水文觀測(cè)數(shù)據(jù)異常值剔除一般采用統(tǒng)計(jì)分析法,對(duì)于多次觀測(cè)數(shù)據(jù)采用拉依達(dá)準(zhǔn)則、格拉布斯準(zhǔn)則、肖維勒準(zhǔn)則等方法進(jìn)行異常值的剔除,狄克松準(zhǔn)則(Dixon)主要優(yōu)勢(shì)為觀測(cè)數(shù)據(jù)樣本量沒(méi)有嚴(yán)格要求,但對(duì)樣本數(shù)據(jù)小更有利,計(jì)算方便且概率意義明確,操作快捷且簡(jiǎn)單。
狄克松準(zhǔn)則(Dixon)在1950年提出一種無(wú)需估算平均值、方差的剔除方法,它是根據(jù)相鄰狄克松準(zhǔn)則值差異大小來(lái)判斷被懷疑的對(duì)象是否為異常數(shù)據(jù)。它是先將測(cè)量數(shù)據(jù)從小到大進(jìn)行排列,因異常值容易出現(xiàn)在系列數(shù)據(jù)中兩端,狄克松準(zhǔn)則直接從中抽取最大值和最小值進(jìn)行分析,使判斷異常值簡(jiǎn)單而有效。
將符合正態(tài)分布測(cè)量數(shù)據(jù),按從小到大進(jìn)行排列并進(jìn)行統(tǒng)計(jì),即:
x(1)≤x(2)≤x(3)≤…≤x(n)
構(gòu)造檢驗(yàn)高端異常值x(n)和低端異常值x(1)的統(tǒng)計(jì)量,因樣本容量n不一樣,分為以下幾個(gè)情況:
3σ準(zhǔn)則稱拉依達(dá)準(zhǔn)則,可用于處理正態(tài)和近似正態(tài)分布的數(shù)據(jù),并且要求數(shù)據(jù)量較大,測(cè)量次數(shù)多(n≥10)。若測(cè)量次數(shù)少(n<10),則3σ準(zhǔn)則對(duì)異常值數(shù)據(jù)的判別和剔除就不夠準(zhǔn)確。
正態(tài)分布稱為常態(tài)分布,有均值u和方差σ2兩個(gè)參數(shù)。對(duì)于服從正態(tài)分布的隨機(jī)變量,其均值決定了正態(tài)分布的整體位置,當(dāng)變量距離均值越近,則該變量出現(xiàn)的概率就越大;隨機(jī)變量的方差決定了正態(tài)分布的幅度。因此,正態(tài)分布常被記作N(u,σ2)。此外,對(duì)于服從正態(tài)分布的隨機(jī)變量,其方差值越小,隨機(jī)變量的分布就越集中。
3σ準(zhǔn)則數(shù)據(jù)判別過(guò)程:先假設(shè)一組數(shù)據(jù)僅存在偶然誤差,然后計(jì)算這組數(shù)據(jù)的標(biāo)準(zhǔn)差,最后,以一定的概率確定一個(gè)區(qū)間范圍,不在該區(qū)間內(nèi)的誤差稱為粗大誤差,并將其從原數(shù)據(jù)中剔除。正態(tài)分布3σ準(zhǔn)則數(shù)值分布在(u-σ,u+σ)內(nèi)的概率為68.3%;數(shù)值分布在(u-2σ,u+2σ)內(nèi)的概率為95.4%;數(shù)值分布在(u-3σ,u+3σ)內(nèi)的概率為99.7%。由于分布在(u-3σ,u+3σ)內(nèi)的數(shù)據(jù)占總數(shù)據(jù)的99.74%,超出這個(gè)范圍的可能性僅占不到0.3%。因此,絕大部分?jǐn)?shù)據(jù)的分布特征符合正態(tài)分布3σ準(zhǔn)則。
標(biāo)準(zhǔn)差計(jì)算如下如下:
由數(shù)理統(tǒng)計(jì)方法得知,計(jì)算水文觀測(cè)數(shù)據(jù)不確定度,分析獨(dú)立的誤差來(lái)源和誤差性質(zhì)。觀測(cè)數(shù)據(jù)屬于隨機(jī)不確定度,應(yīng)以絕對(duì)量值來(lái)衡量,需服從正態(tài)分布,置信水平為95%。隨機(jī)不確定度越小,觀測(cè)結(jié)果質(zhì)量越高,使用價(jià)值高;隨機(jī)不確定度越小,觀測(cè)結(jié)果質(zhì)量越小,使用價(jià)值低。
隨機(jī)不確定度取2倍標(biāo)準(zhǔn)差。
長(zhǎng)湖位于湖北省荊門市沙洋縣,荊州市荊州區(qū)、沙市區(qū)和潛江市的周邊范圍內(nèi),地處長(zhǎng)江漢江之間的江漢平原腹地,南遙長(zhǎng)江,北貫漢江,是湖北省三大湖泊之一。長(zhǎng)湖是四湖流域上區(qū)的主要調(diào)蓄湖泊,湖形狹窄,長(zhǎng)31 km,最寬18 km,平均寬4.16 km。多年平均氣溫16.6℃~17℃,多年平均風(fēng)速2.2 m/s~3.1 m/s,多年平均日照時(shí)數(shù)1771.7 h~1859 h。長(zhǎng)湖站是長(zhǎng)湖水位控制站,收集湖泊水體自然變化規(guī)律,每日觀測(cè)水文要素?cái)?shù)據(jù)受外界條件影響因素較多,需多次重復(fù)觀測(cè),將重復(fù)觀測(cè)數(shù)據(jù)進(jìn)行平均,采用平均值進(jìn)行記錄。進(jìn)行本文以湖泊發(fā)生一般波浪情況下連續(xù)觀測(cè)15次水尺讀數(shù)進(jìn)行分析,利用狄克松準(zhǔn)則對(duì)數(shù)據(jù)進(jìn)行分析,結(jié)合不確定度把異常數(shù)據(jù)進(jìn)行剔除。
通過(guò)表1分析計(jì)算平均值0.67 m,標(biāo)準(zhǔn)差2.9%,隨機(jī)不確定度為5.8%。
表1 原始觀測(cè)數(shù)據(jù)
利用狄克松準(zhǔn)則按照從小到大順序進(jìn)行排列,根據(jù)n及懷疑的對(duì)象,選擇適當(dāng)公式計(jì)算rij的值;選定信度a,查得臨界值rij(n,a);根據(jù)計(jì)算值和查得臨界值進(jìn)行比較分析,結(jié)合隨機(jī)不確定度值進(jìn)行判斷是否舍去。
首先判斷最小值x(1),n=15,計(jì)算統(tǒng)計(jì)量r22:
查得表r22(15,0.05)=0.525,判斷r22>r22(15,0.05),x(1)判斷為異常值,未納入異常值計(jì)算標(biāo)準(zhǔn)差2.0%,隨機(jī)不確定度為4.0%,比原始數(shù)據(jù)標(biāo)準(zhǔn)差、隨機(jī)不確定度值要低,精度高,應(yīng)舍去。
同理,根據(jù)最小值為異常值x(1),重新將樣本數(shù)據(jù)從小到大進(jìn)行排列,n=14,計(jì)算統(tǒng)計(jì)量r22為0.5,查得表r22(14,0.05)=0.546,r22>r22(14,0.05),判斷x(1)為正常值。
采用狄克松準(zhǔn)則進(jìn)行處理異常值,每次樣本數(shù)據(jù)按從小到大進(jìn)行排列,判別最小值x(1)和最大值x(n)數(shù)據(jù),當(dāng)有一個(gè)或者兩個(gè)數(shù)據(jù)為異常值,結(jié)合隨機(jī)不確定值進(jìn)行分析判斷,是否進(jìn)行剔除。如果剔除,將異常值后的樣本數(shù)據(jù)重新進(jìn)行排列,此時(shí)樣本數(shù)據(jù)逐漸減少,樣本數(shù)據(jù)最低限度為3個(gè),反復(fù)進(jìn)行檢驗(yàn),直到最小值x(1)和最大值x(n)不為異常數(shù)據(jù),則停止檢驗(yàn),判別過(guò)程結(jié)束。顯著性水平a可分為0.01,0.02,0.05,0.10四種,分別依次趨向于嚴(yán)格水平,最高水平為0.10,最低水平為0.01。本次采用顯著性水平a為0.05,已趨向于嚴(yán)格,不易漏掉異常值,符合現(xiàn)有樣本精度水平;采用顯著性水平a為0.01或0.02相對(duì)于寬松,在本次樣本數(shù)據(jù)進(jìn)行判別反而全部為合格水平,精度偏低,容易漏掉異常值。選擇顯著性水平a應(yīng)選擇趨向嚴(yán)格的。
3σ準(zhǔn)則以數(shù)據(jù)符合正態(tài)分布為前提,在樣本數(shù)據(jù)量不大情況下,處理異常值容易漏掉。不建議采用3σ準(zhǔn)則進(jìn)行數(shù)據(jù)異常值處理。
(1)水文觀測(cè)數(shù)據(jù)具有時(shí)間序列,采用人工觀測(cè)或自記設(shè)施設(shè)備收集數(shù)據(jù),數(shù)據(jù)量較大的特征,其準(zhǔn)確性關(guān)系到水文資料精度,特別是特征值。
(2)狄克松準(zhǔn)則不需要計(jì)算數(shù)據(jù)平均值、標(biāo)準(zhǔn)差,且處理過(guò)程嚴(yán)謹(jǐn),適用于樣本數(shù)量小,計(jì)算簡(jiǎn)單重復(fù)量小,結(jié)果精度高。為保障數(shù)據(jù)精度更高,本文引入隨機(jī)不確定度加以判斷,減少人為因素和外界條件因素引起誤差,具有其他傳統(tǒng)異常值探測(cè)方法的優(yōu)越性,其結(jié)果更好。
(3)由于多方原因,在采集和收集數(shù)據(jù)采集過(guò)程中,出現(xiàn)異常值屬于隨機(jī)事件,因此,進(jìn)行數(shù)據(jù)分析之前選擇適當(dāng)判別準(zhǔn)則進(jìn)行粗差處理,剔除異常值,對(duì)監(jiān)測(cè)數(shù)據(jù)的準(zhǔn)確性和可靠性結(jié)果尤其重要。