陳 帥 ,王 丹 ,張志迅
(1.海軍潛艇學院衛(wèi)星遙感軍事應用研究所,山東 青島 266071;2.解放軍92721部隊,浙江 舟山 316000)
WOD09的PFL數(shù)據(jù)和Argo數(shù)據(jù)的比較
陳 帥1,王 丹1,張志迅2
(1.海軍潛艇學院衛(wèi)星遙感軍事應用研究所,山東 青島 266071;2.解放軍92721部隊,浙江 舟山 316000)
WOD09(World Ocean Database 2009)數(shù)據(jù)庫的PFL(Profiling Float Data)數(shù)據(jù)集中包含了Argo浮標數(shù)據(jù),同樣在中國Argo數(shù)據(jù)中心也可以下載到Argo浮標數(shù)據(jù)。這兩個來源的Argo浮標數(shù)據(jù)由于經(jīng)過了不同的數(shù)據(jù)排重和質(zhì)量控制過程,數(shù)據(jù)的數(shù)量和數(shù)據(jù)的質(zhì)量并不完全相同。從多源數(shù)據(jù)應用的角度出發(fā),首先介紹了對Argo浮標數(shù)據(jù)必要的排重步驟,接著從數(shù)據(jù)數(shù)量、數(shù)據(jù)質(zhì)量兩個方面,分析了PFL數(shù)據(jù)集的Argo浮標數(shù)據(jù)和中國Argo數(shù)據(jù)中心提供的Argo浮標數(shù)據(jù)的異同,為綜合應用這兩個數(shù)據(jù)資料提供了理論基礎(chǔ)。
WOD09數(shù)據(jù)庫;PFL數(shù)據(jù)集;Argo浮標數(shù)據(jù);數(shù)據(jù)重復;質(zhì)量控制標記符
目前有很多開放的海洋數(shù)據(jù)資源,中國Argo數(shù)據(jù)中心提供的全球Argo浮標數(shù)據(jù)和美國國家海洋數(shù)據(jù)中心(National Oceanographic Data Center,NODC)提供的實測資料數(shù)據(jù)庫WOD09(World Ocean Database 2009)是其中兩個比較常用的數(shù)據(jù)源。全球Argo計劃是以剖面浮標為觀測手段,數(shù)據(jù)供世界各國使用的全球海洋觀測計劃。到2011年6月21日,全球已經(jīng)投放了7 733個浮標,其中活躍浮標數(shù)為3 080個[1]。最新的實測數(shù)據(jù)通過位于法國和美國的兩個全球Argo資料中心(Argo Global Data Assembly Centers,GDACs)在24 h內(nèi)進行發(fā)布,因此可以得到近乎實時的觀測資料[2]。WOD09數(shù)據(jù)庫將不同來源的數(shù)據(jù)進行統(tǒng)一的格式轉(zhuǎn)化、數(shù)據(jù)排重、質(zhì)量控制,形成了由海表面數(shù)據(jù)集(Surface-only Data,SUR)、剖面浮標數(shù)據(jù)集(Profiling Float Data,PFL)、海洋觀測站數(shù)據(jù)集(Ocean Station Data,OSD)等11個數(shù)據(jù)集組成的大型數(shù)據(jù)庫[3]。WOD09數(shù)據(jù)庫數(shù)據(jù)的數(shù)量要明顯大于Argo數(shù)據(jù),但是該數(shù)據(jù)資料每3個月更新一次,相對于Argo數(shù)據(jù)來說更新較慢,不能及時得到最新數(shù)據(jù)。WOD09數(shù)據(jù)庫將來源于Argo計劃的數(shù)據(jù)全部收錄于PFL數(shù)據(jù)集中,在數(shù)據(jù)錄入過程中可能對數(shù)據(jù)進行排重和修改,造成PFL數(shù)據(jù)集中的Argo浮標數(shù)據(jù)(以下簡稱PFL)和中國Argo中心提供的Argo浮標數(shù)據(jù)(以下簡稱Argo)的差異,本文的主要目的是比較兩者的差異,為下一步綜合應用這兩個數(shù)據(jù)資料提供理論基礎(chǔ)。
本文使用在 WOD09官方網(wǎng)站(http://www.nodc.noaa.gov/OC5/WOD/pr_wod.html)下載的PFL數(shù)據(jù)集的數(shù)據(jù)和在中國 Argo數(shù)據(jù)中心網(wǎng)站(http://www.argo.gov.cn/argo-china/index.asp)下載的Argo浮標數(shù)據(jù),地理范圍是0°N~40°N,105°E~160°E,包括中國近海、西太平洋和日本近海。時間范圍為2006—2008年。
數(shù)據(jù)排重工作是對數(shù)據(jù)進行分析的第一個步驟。由于Argo資料的特殊性,Argo浮標每隔10d發(fā)送一組取自2000m到海面的溫度和鹽度剖面資料[4],同一Argo浮標在一日之內(nèi)不可能有兩次觀測資料,所以本文應用的排重檢測標準如下:(1)儒略日相差小于1 d;(2)Argo浮標號相同。同時達到上述兩個標準的數(shù)據(jù)即為重復。
經(jīng)過上述檢驗,在2006—2008年間的Argo數(shù)據(jù)中,共發(fā)現(xiàn)了157個重復的觀測剖面,占數(shù)據(jù)總量(29 485個觀測剖面)的0.5%。對重復數(shù)據(jù)進行如下比較:
首先比較兩個Argo數(shù)據(jù)文件的表頭部分(以Argo浮標號為2900444,循環(huán)號為008和056的數(shù)據(jù)為例,表1),有以下異同:(1)Argo浮標號(PLATFORMNUMBER)相同,即出自相同的Argo浮標。(2)測量日期(DATE)相同,儒略日(JULIAN DAY)相差32 min,稍有差別。(3)循環(huán)號(CYCLE NUMBER)不同,即在不同的循環(huán)測得的數(shù)據(jù),應當出自不同的觀測時間。(4)數(shù)據(jù)文件創(chuàng)建的時間(DATE CREATION)不同,循環(huán)號大的數(shù)據(jù)文件創(chuàng)建時間也要晚。(5)經(jīng)緯度分別相差了0.009°和0.036°,略有偏差。相同的觀測日期卻有不同的循環(huán)號,說明數(shù)據(jù)錄入出現(xiàn)了問題。同時,如果以相同經(jīng)緯度、相同儒略日為排重標準,將無法檢測到重復。
其次檢查重復數(shù)據(jù)的Argo浮標號,發(fā)現(xiàn)Argo浮標號相對集中,157處重復數(shù)據(jù)共涉及13個Argo浮標。查看2006年2月中浮標號為2900444的3處重復數(shù)據(jù),其中循環(huán)號為006的數(shù)據(jù)與054的重復,007與055重復,008與056重復,都是大的循環(huán)號與小的重復,其它月份也有相同的情況(圖1)。
最后比較兩個重復數(shù)據(jù)的數(shù)據(jù)體(圖2),數(shù)據(jù)體并不是完全相同,總是先創(chuàng)建數(shù)據(jù)文件的(圖2中星號代表的數(shù)據(jù))在100~200 m深度范圍內(nèi)數(shù)據(jù)缺失。
綜合以上的異同,說明Argo數(shù)據(jù)重復的原因是Argo浮標一次測得的數(shù)據(jù)先后錄入了兩次。并且前后兩次的數(shù)據(jù)體不同,說明數(shù)據(jù)來源也不同。這與各國資料處理中心向全球資料中心重復傳輸數(shù)據(jù),而全球資料中心沒有實施重復檢驗和剔除有很大關(guān)系[5]。在PFL中,由于經(jīng)過了嚴格的排重步驟,只保留了重復數(shù)據(jù)中的一個,比較數(shù)據(jù)體(圖3),發(fā)現(xiàn)PFL只保留了一個來源的數(shù)據(jù),沒有偏好保留數(shù)據(jù)體較為完整的數(shù)據(jù)。
表1 Argo重復數(shù)據(jù)表頭部分字段的比較
圖1 Argo浮標號為2900444,2006—2008年大循環(huán)號與小循環(huán)號數(shù)據(jù)的儒略日重復情況
經(jīng)過排重后Argo與PFL的觀測站位分布見圖4。比較二者在觀測站位數(shù)量上的差異,在2006—2008年中,PFL比Argo的觀測站位總共多出了2 406個,占PFL總數(shù)(31891個)的7.5%,并且多出的觀測站位平均分布在每個月份中(圖5)。在空間分布上的比較,PFL比Argo多出的觀測站位在日本海分布比較密集,其它海域分布較均勻(圖6)。在仔細檢查PFL數(shù)據(jù)后發(fā)現(xiàn),其所有的觀測剖面記錄都有一個Argo浮標號,且每個浮標號都可以在Argo數(shù)據(jù)的元數(shù)據(jù)(metadata)中找到相應浮標的信息,說明了PFL中數(shù)據(jù)全部都是Argo浮標數(shù)據(jù)。雖然PFL和Argo都來源于Argo浮標數(shù)據(jù),但是PFL比Argo多出了7.5%觀測站位,這表明中國Argo中心提供的數(shù)據(jù)并不完整,PFL中有它沒有錄入的Argo浮標數(shù)據(jù)。
圖2 2006年2月,在Argo中浮標號為2900444的三組重復數(shù)據(jù)的數(shù)據(jù)體的比較
數(shù)據(jù)的質(zhì)量,即數(shù)據(jù)的可信度,是使用者在應用數(shù)據(jù)時最關(guān)心的問題之一。錯誤數(shù)據(jù)對分析結(jié)果的影響很大,一個錯誤數(shù)據(jù)就有可能干擾對結(jié)果的分析。Argo有兩個資料質(zhì)量控制模式:一個稱為“實時(24~72 h以內(nèi))質(zhì)量控制模式”,它包括常規(guī)的尖峰檢驗、范圍檢驗、穩(wěn)定度檢驗以及氣候?qū)W檢驗等方法[6],其特點是處理快速、時間短,數(shù)據(jù)質(zhì)量不高;另一個稱為“延時(90 d以內(nèi))質(zhì)量控制模式”,該模式主要針對Argo浮標鹽度數(shù)據(jù)漂移所建立的訂正模式,如Wong等[7]開發(fā)的Argo浮標鹽度數(shù)據(jù)的延時訂正方法。PFL對數(shù)據(jù)進行了嚴格的質(zhì)量控制,其中有類似Argo中實時質(zhì)量控制模式的范圍檢驗和梯度檢驗,還有類似延時質(zhì)量控制模式的與高分辨率數(shù)據(jù)比較的過程(表2)。
圖3 2006年2月,分別在Argo和PFL中浮標號為2900444的三組測量數(shù)據(jù)的比較
圖4 2008年Argo和PFL觀測站位分布圖
Argo中各物理量的每個測量值都有一個質(zhì)量標記符(Flag),代表了單個物理量的質(zhì)量情況。在每一個深度測量的所有物理量之后還有總質(zhì)量標記符(Flag ofall),代表了在一個深度測量的所有物理量的綜合可信度。Argo質(zhì)量標記符不同值的含義見表3,它反應了數(shù)據(jù)在質(zhì)量控制過程中,是否達到質(zhì)量控制若干標準的情況。在實際使用數(shù)據(jù)時,單一質(zhì)量標記符和總質(zhì)量標記符是剔除問題數(shù)據(jù)的最直接最有效的標準。在Argo中共發(fā)現(xiàn)15條溫度記錄的單一質(zhì)量標記符為3(有可能被校正的壞數(shù)據(jù))或者4(壞數(shù)據(jù))。而檢查Argo的總質(zhì)量標記符,共有8 178條記錄的總質(zhì)量標記符為3或者4。這說明有些溫度數(shù)據(jù)的單一質(zhì)量標記符為1(好數(shù)據(jù)),但是該測量深度的總質(zhì)量標記符可能為3或者4。以浮標號為2900325,2006年7月30日測量溫度剖面為例說明這些數(shù)據(jù)的質(zhì)量情況(圖7)。圖7中標記的A、B兩點明顯偏離溫度變化的趨勢,是奇異值點,應當剔除。A點溫度的單一質(zhì)量標記符和總質(zhì)量標記符都為4,而B點溫度單一質(zhì)量標記符為1而總質(zhì)量標記符為4。單看單一質(zhì)量標記符的值,B點應為好數(shù)據(jù),無法剔除,所以在使用Argo數(shù)據(jù)時還要考慮總質(zhì)量標記符。單一質(zhì)量標記符和總質(zhì)量標記符只要有一項為3或者4都應剔除該數(shù)據(jù)。
圖6 2008年P(guān)FL比Argo多出的測量站位的分布圖
表2 PFL觀測數(shù)據(jù)質(zhì)量控制步驟[3]
表3 Argo數(shù)據(jù)質(zhì)量控制標記符的含義
PFL的質(zhì)量標志符分為兩部分:最終標記符(Final Flag)和原始標記符(Original Flag),最終標記符為PFL在進行完范圍檢驗、梯度檢驗等質(zhì)量控制過程(表2)之后對數(shù)據(jù)作的標記,標記符數(shù)值的含義見表4。而原始標記符保留了Argo浮標數(shù)據(jù)在入庫前自身的質(zhì)量標記符。經(jīng)過數(shù)據(jù)比對,發(fā)現(xiàn)在PFL中有5 471條溫度記錄的最終質(zhì)量標記符為0(好數(shù)據(jù))而原始質(zhì)量標記符為4(壞數(shù)據(jù)),占數(shù)據(jù)總量(2 308 581條記錄)的0.23%。以浮標號為2900325,2006年7月30日測量溫度剖面為例說明這些數(shù)據(jù)的質(zhì)量情況(圖8)。圖8中有3個明顯的奇異值點,分別為A、B、C點,其中A、B兩點的最終標記符都為0而原始標記符都為4,C點最終標記符為1(未通過范圍檢驗)而原始標記符4。從最終標記符的數(shù)值都為0來看,A、B兩點均通過了PFL的質(zhì)量控制過程,而C點為1,沒有通過范圍檢驗。應用PFL質(zhì)量控制標準,對這3點進行范圍和梯度檢驗(表5),其中梯度計算方程為:
式中:v1,v2分別表示當前深度和下一深度的溫度值;z1,v2分別表示當前層和下一層的深度值[2]。從表5可以看出,由于A、B兩點的溫度梯度的絕對值大于閾值0.7℃/m,均未通過梯度檢驗,顯然與它的最終質(zhì)量標記符為0不符。這說明PFL中存在最終質(zhì)量標記符與實際數(shù)據(jù)質(zhì)量不符的現(xiàn)象。
Argo和PFL各有兩種質(zhì)量標記符,兩種質(zhì)量標記符綜合應用才能有效剔除問題數(shù)據(jù)。單一質(zhì)量標記符和總質(zhì)量標記符只要有一項為3或者4都應剔除。在PFL中有些問題數(shù)據(jù)的最終質(zhì)量標記符(Final Flag)為0,而原始質(zhì)量標記符(O-riginal Flag)為4,所以在使用時要確保數(shù)據(jù)的質(zhì)量,還要結(jié)合原始質(zhì)量控制符來剔除問題數(shù)據(jù)。
本文首先介紹了對Argo浮標數(shù)據(jù)必要的排重步驟,接著從數(shù)據(jù)數(shù)量、數(shù)據(jù)質(zhì)量兩個方面比較了中國Argo中心網(wǎng)站提供的Argo浮標數(shù)據(jù)和WOD09數(shù)據(jù)庫PFL數(shù)據(jù)集中的Argo浮標數(shù)據(jù)的異同。本文的研究時間范圍是2006—2008年,空間范圍 0°N~40°N、105°E~160°E。結(jié)論如下:
表4 PFL質(zhì)量控制標記符的含義[3]
表5 A、B、C三點的溫度、深度和質(zhì)量檢驗情況
圖7 Argo中浮標號為2900325,2006年7月30日測量溫度剖面的兩個奇異值
(1)Argo每24 h更新一次,而PFL每3個月更新一次。在更新速度上Argo比PFL有優(yōu)勢。
(2)Argo具有數(shù)據(jù)重復的問題,分析原因是一個Argo浮標在某一時刻觀測的數(shù)據(jù)在數(shù)據(jù)歸檔過程中錄入了兩遍。在利用Argo時需要進行數(shù)據(jù)排重,標準為:a.儒略日相差小于1 d;b.Argo浮標號相同。PFL沒有數(shù)據(jù)重復的現(xiàn)象。
(3)在2006—2008年間,PFL的觀測站位總數(shù)比Argo多了2 406個,占PFL總數(shù)(31 891個)的7.5%,數(shù)據(jù)量要比Argo豐富。并且多出的站位在日本海分布較密集,其它海域分布均勻。
圖8 PFL中Argo浮標號為2900325,2006年7月30日測量溫度剖面的三個奇異值
(4)Argo有兩種質(zhì)量標記符:單一物理量的質(zhì)量標記符(Flag)和同一深度所有物理量的綜合質(zhì)量標記符(Flag of all)。單一質(zhì)量標記符和總質(zhì)量標記符只要有一項為3或者4就是問題數(shù)據(jù),應當剔除。在PFL中有些問題數(shù)據(jù)的最終質(zhì)量標記符(Final Flag)為 0,而原始質(zhì)量標記符(Original Flag)為4,所以在應用PFL數(shù)據(jù)時候要綜合考慮原始質(zhì)量標記符和最終質(zhì)量標記符。
[1] 中國Argo資料中心.Argo全球觀測網(wǎng)[EB/OL]http://www.argo.gov.cn/argo-china/index.asp.
[2]Boyer TP,AntonovJ I,Baranova OK,et al.World Ocean Database 2009[EB/OL].ftp://ftp.nodc.noaa.gov/pub/WOD09/DOC/wod09_intro.pdf.
[3] Johnson D R,Boyer T P,Garcia H E,et al.World Ocean Database 2009 Documentation[EB/OL].ftp://ftp.nodc.noaa.gov/pub/WOD09/DOC/wod09readme.pdf.
[4] 楊勝龍,周甦芳,崔雪森,等.Argo數(shù)據(jù)研究應用現(xiàn)狀與發(fā)展趨勢[J].海洋漁業(yè),2007,29(4):355-358.
[5] 薛惠芬,苗春葆,董明媚,等.全球ARGO浮標及其觀測資料狀況分析[J].海洋技術(shù),2005,24(4):23-28.
[6] 許建平.阿爾戈全球海洋觀測大探密[M].北京:海洋出版社,2001:30-33.
[7]WongAP S,Johnson GC,Owens WB.Delayed-mode calibration of autonomous CTD profilingfloat salinitydata by θ-s climatology[J].J Atoms O-ceanic Technol,2007,20:308-318.
Comparison of PFL Data from WOD09 and Argo Data
CHEN Shuai1,WANG Dan1,ZHANG Zhi-xun2
(1.Navy Submarine Academy Satellite Remote Sensing Military Application Institute,Qingdao Shandong 266071,China;2.PLA NO.92721 Troops,Zhoushan Jiangsu 316000,China)
Argo float data is contained in the PFL (Profiling Float Data)dataset of WOD09 (World Ocean Database 2009)and it can be download from China Argo data center’s website.As the two sources of Argo float data conducting different de-duplication and quality control procedures,Argo profiling data from two sources may have some differences.A necessary de-duplication procedure for Argo float data is introduced,followed by comparing differences between the two kinds of Argo float data in order to find out a better way of comprehensively using these Argo float data sources for better quantity and quality.
WOD09;PFL dataset;Argo float data;data duplication;quality control flag
P715;TP274
B
1003-2029(2011)04-0032-06
2011-07-20
陳帥(1985—),男,碩士研究生,研究方向為物理海洋。Email:chendatouha@163.com