• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多源溫鹽資料排重處理的一種方法

    2012-12-23 08:44:40張學(xué)宏張緒東張曉娟
    海洋預(yù)報(bào) 2012年1期
    關(guān)鍵詞:剖面現(xiàn)象觀測(cè)

    張學(xué)宏,張緒東,張曉娟

    (海軍海洋水文氣象中心,北京 100161)

    多源溫鹽資料排重處理的一種方法

    張學(xué)宏,張緒東,張曉娟

    (海軍海洋水文氣象中心,北京 100161)

    多源溫鹽資料存在大量重復(fù)現(xiàn)象,大大影響了這些資料的融合應(yīng)用價(jià)值。本文根據(jù)多源溫鹽資料的重復(fù)現(xiàn)象,結(jié)合實(shí)際業(yè)務(wù)工作經(jīng)驗(yàn),提出了重復(fù)條件組合排重法這一模型(縮寫RRMCRC),并介紹了溫鹽資料排重業(yè)務(wù)化流程。利用該模型和業(yè)務(wù)流程,可以有效提高溫鹽資料的排重效率,在其他資料的排重處理中也有重要的借鑒意義。

    重復(fù);組合排重;排重判據(jù)

    1 海洋環(huán)境歷史資料的特點(diǎn)

    海洋環(huán)境歷史資料是人們認(rèn)識(shí)海洋、研究海洋的重要基礎(chǔ),是人類開(kāi)展海洋科學(xué)研究、認(rèn)識(shí)海洋科學(xué)規(guī)律、從事海洋經(jīng)濟(jì)發(fā)展、維護(hù)國(guó)家和地區(qū)海防安全的重要信息源泉。海洋環(huán)境資料的應(yīng)用越來(lái)越引起人們的高度重視,對(duì)海洋環(huán)境的觀測(cè)也越來(lái)越頻繁和密集,因此對(duì)海洋環(huán)境歷史資料的科學(xué)處理是一項(xiàng)非常基礎(chǔ)性的工作。從19世紀(jì)中葉以來(lái),世界上相關(guān)國(guó)家就開(kāi)展了海洋環(huán)境的觀測(cè)工作,我國(guó)也在上世紀(jì)中葉前后,開(kāi)始了海洋環(huán)境持續(xù)監(jiān)測(cè)和資料的獲取工作,截至目前,我們積累了大量的海洋環(huán)境歷史資料。除了國(guó)內(nèi)各涉海部門的調(diào)查資料外,還有國(guó)外數(shù)據(jù)中心的共享資料、國(guó)際間合作調(diào)查資料等,但是由這些海量資料組成的數(shù)據(jù)集在要素?cái)?shù)據(jù)的時(shí)空分布中重復(fù)收錄現(xiàn)象普遍,且有數(shù)據(jù)文件名相同的現(xiàn)象,存在大量的重復(fù)記錄,造成資料數(shù)據(jù)總量不確定和數(shù)據(jù)質(zhì)量不穩(wěn)定等問(wèn)題,嚴(yán)重干擾了這些歷史資料的應(yīng)用價(jià)值,因此必須采用先進(jìn)的技術(shù)手段對(duì)這些歷史資料進(jìn)行排重和質(zhì)量控制處理。

    綜觀海洋溫鹽歷史資料,具有以下鮮明的特點(diǎn):

    (1)格式多樣性。由于資料來(lái)源多,觀測(cè)方式方法也不盡相同,且資料獲取年代不同所造成的觀測(cè)手段、技術(shù)規(guī)范以及應(yīng)用目的等方面存在差異,這些因素導(dǎo)致了資料格式具有多樣性的特點(diǎn);

    (2)資料重復(fù)性。對(duì)每一個(gè)數(shù)據(jù)記錄,從獲取到收入數(shù)據(jù)集的過(guò)程中,由于對(duì)資料的應(yīng)用目的不同,存在資料的重復(fù)收錄和針對(duì)性的處理,導(dǎo)致了資料的大量重復(fù);

    (3)資料質(zhì)量可靠性。從網(wǎng)絡(luò)、國(guó)際交換、合作共享等渠道獲取的非國(guó)內(nèi)觀測(cè)資料存在數(shù)據(jù)干擾問(wèn)題,如數(shù)據(jù)造假、抽稀、時(shí)空換位等特有現(xiàn)象。這些現(xiàn)象的存在,尤其資料的重復(fù)現(xiàn)象,嚴(yán)重影響了資料在海洋經(jīng)濟(jì)、海洋科學(xué)、軍事等方面的應(yīng)用。但是由于海洋環(huán)境資料獲取成本高,每一個(gè)記錄都彌足珍貴,因此為了能夠有效利用這些寶貴的資料,發(fā)揮其應(yīng)有的價(jià)值,必須采用相關(guān)技術(shù)方法,對(duì)這類資料進(jìn)行嚴(yán)格的排重和質(zhì)量控制處理,形成具有權(quán)威性、科學(xué)性和唯一性的高質(zhì)量標(biāo)準(zhǔn)化數(shù)據(jù)集,發(fā)揮其最大的應(yīng)用價(jià)值。

    2 多源溫鹽資料的重復(fù)現(xiàn)象

    溫鹽資料重復(fù)現(xiàn)象雖然多種多樣,但主要集中在記錄重復(fù),常見(jiàn)如下幾種典型的重復(fù)現(xiàn)象[2—3]:

    (1)記錄完全相同,而剖面觀測(cè)時(shí)間和地理位置存在偏差;

    (2)剖面觀測(cè)時(shí)間和地理位置相同,而記錄不同;

    (3)位置和觀測(cè)時(shí)間基本一致,但是記錄數(shù)據(jù)出現(xiàn)較大偏差;

    (4)觀測(cè)位置和記錄完全相同,而觀測(cè)時(shí)間出現(xiàn)跨零點(diǎn)的現(xiàn)象;

    (5)觀測(cè)時(shí)間和觀測(cè)位置完全相同,數(shù)據(jù)記錄的小數(shù)位保留的有效數(shù)字長(zhǎng)度不一致;

    (6)數(shù)據(jù)抽稀造成的數(shù)據(jù)重復(fù)。例如由一個(gè)剖面拆分成多個(gè)剖面,而數(shù)據(jù)層數(shù)發(fā)生變化。

    (7)世界時(shí)和北京時(shí)混用現(xiàn)象。

    這些重復(fù)現(xiàn)象在來(lái)自于國(guó)外海洋數(shù)據(jù)中心的共享數(shù)據(jù)集中尤為突出,而在來(lái)自于國(guó)內(nèi)不同部門的數(shù)據(jù)集之間也普遍存在;此外,由于來(lái)自于國(guó)外的共享數(shù)據(jù)集中收錄了國(guó)內(nèi)相關(guān)部門的觀測(cè)資料,造成數(shù)據(jù)集之間的資料重復(fù)。因此對(duì)溫鹽資料的安全應(yīng)用,首先要解決資料的重復(fù)問(wèn)題。下面以我們?cè)谫Y料處理業(yè)務(wù)化工作中出現(xiàn)的實(shí)例,來(lái)分析上述現(xiàn)象。

    (1)記錄完全相同,而剖面觀測(cè)時(shí)間和地理位置存在偏差

    分析:在表1中,兩個(gè)剖面資料觀測(cè)時(shí)間和觀測(cè)位置出現(xiàn)偏差,但是剖面的數(shù)據(jù)記錄完全相同。實(shí)際上,在海洋觀測(cè)中,即便是同一個(gè)儀器,在不同時(shí)間或不同位置出現(xiàn)這類現(xiàn)象的可能性極小,因此這類重復(fù)數(shù)據(jù)必須排出,待通過(guò)進(jìn)一步人工審核、分析和確認(rèn)后,保留真實(shí)資料。

    (2)觀測(cè)時(shí)間和位置完全相同,而要素值不同分析:在表2中,剖面的觀測(cè)時(shí)間和觀測(cè)位置完全相同,但是觀測(cè)記錄卻不同,而且差異較大,對(duì)于出現(xiàn)這種現(xiàn)象的資料,都要作為重復(fù)資料排出,待進(jìn)一步人工審核確認(rèn)后,保留真實(shí)數(shù)據(jù)。

    (3)位置和觀測(cè)時(shí)間基本一致,但是數(shù)據(jù)出現(xiàn)較大偏差。

    表1 重復(fù)現(xiàn)象一實(shí)例

    表2 重復(fù)現(xiàn)象二實(shí)例

    分析:在表3中,兩個(gè)剖面的觀測(cè)位置基本重疊,時(shí)間相差1 min,但是在記錄中,卻出現(xiàn)了明顯的異常,這類重復(fù)現(xiàn)象也要作為重復(fù)資料予以排出。

    (4)觀測(cè)時(shí)間跨零點(diǎn)而其他信息完全一致

    分析:在表4中的兩個(gè)剖面觀測(cè)位置和要素記錄完全相同,但是觀測(cè)時(shí)間的表達(dá)出現(xiàn)了異常,一個(gè)是1997年11月10日零點(diǎn)26分觀測(cè),一個(gè)是1997年11月9日24時(shí)25分觀測(cè),實(shí)際應(yīng)是相同時(shí)間觀測(cè),只是在表達(dá)上出現(xiàn)問(wèn)題,因此這類資料也作為重復(fù)資料排出。

    (5)要素值小數(shù)位有效數(shù)字長(zhǎng)度不一致

    分析:表5中的兩個(gè)剖面的觀測(cè)時(shí)間、位置完全一致,而數(shù)據(jù)記錄由于小數(shù)位的有效數(shù)字長(zhǎng)度不一致,造成資料重復(fù)。

    表3 重復(fù)現(xiàn)象三實(shí)例

    表4 重復(fù)現(xiàn)象四實(shí)例

    表5 重復(fù)現(xiàn)象五實(shí)例

    (6)數(shù)據(jù)抽稀造成的數(shù)據(jù)重復(fù)

    分析:在表6中,剖面一和剖面二的觀測(cè)時(shí)間和觀測(cè)位置完全一致,但是從數(shù)據(jù)記錄中分析發(fā)現(xiàn),剖面二中的數(shù)據(jù)完全是從剖面一中抽取的,造成了數(shù)據(jù)大量重復(fù)。

    (7)世界時(shí)和北京時(shí)混用

    分析:表7中的兩條記錄來(lái)自于兩個(gè)不同的部門(兩個(gè)數(shù)據(jù)集),兩條記錄的觀測(cè)位置和要素測(cè)量值完全相同,而觀測(cè)時(shí)間相差8 h,第一個(gè)記錄應(yīng)該是北京時(shí)間,第二個(gè)記錄應(yīng)該是世界時(shí)間,這種資料也要作為重復(fù)資料排出。

    3 復(fù)條件組合排重法(RRMCRC)

    從上述7類重復(fù)現(xiàn)象來(lái)分析,溫鹽資料的重復(fù)以時(shí)間、位置、要素值等信息重復(fù)為主,因此在排重程序設(shè)計(jì)時(shí),應(yīng)著重考慮這些重復(fù)信息下的排重,建立重復(fù)信息自由組合條件下的資料排重模型,即重復(fù)條件組合排重法。所謂重復(fù)條件組合排重法,就是對(duì)重復(fù)信息自由組合,形成新的排重要件,按照排重要件的重復(fù)判據(jù),開(kāi)展資料排重。

    表6 重復(fù)現(xiàn)象六實(shí)例

    表7 重復(fù)現(xiàn)象七實(shí)例

    例如:將時(shí)間和空間條件組合形成排重要件,即觀測(cè)點(diǎn)之間距離小于限定值,觀測(cè)時(shí)間相等或誤差小于限定值;將觀測(cè)層深、溫度值、鹽度值組合形成排重要件,即每個(gè)要素之間的誤差小于相應(yīng)的限定值;以觀測(cè)時(shí)間作為主排重要件,其他條件組合形成次排重要件,即時(shí)間重復(fù)判據(jù)收緊,如相等或誤差小于限定值,其他條件重復(fù)判據(jù)放寬,形成排重條件等多種重復(fù)要件。然后利用各重復(fù)要件對(duì)資料進(jìn)行排重,將重復(fù)資料排出,形成對(duì)應(yīng)條件下的疑似重復(fù)資料集。

    4 資料重復(fù)判據(jù)

    狹義上資料重復(fù)是指資料之間所有對(duì)應(yīng)信息完全相同而出現(xiàn)的重復(fù),而實(shí)際上并不盡然。從我們大量的資料處理過(guò)程中出現(xiàn)的重復(fù)現(xiàn)象分析,廣義上資料重復(fù)是在資料之間,由于對(duì)應(yīng)觀測(cè)時(shí)間、觀測(cè)空間位置和觀測(cè)記錄等完全相等或者相近而造成的重復(fù)。在實(shí)際工作中,必須在廣義概念下開(kāi)展多源資料的排重。由于考慮了重復(fù)條件相近或相似的情況,就必須定義重復(fù)條件的判據(jù)指標(biāo)。如果判據(jù)指標(biāo)過(guò)低,可疑重復(fù)資料就會(huì)大量增加,本不屬于重復(fù)的資料也可能作為重復(fù)資料排出;而如果判據(jù)指標(biāo)過(guò)高,可疑重復(fù)資料量就會(huì)大大降低,有些重復(fù)資料難以發(fā)現(xiàn)和排出。因此重復(fù)判據(jù)指標(biāo)的高低,直接關(guān)系到資料排重效果的優(yōu)劣。本文中的重復(fù)判據(jù)是作者在處理來(lái)自于國(guó)內(nèi)外的大中型數(shù)據(jù)集(十余個(gè)數(shù)據(jù)集,含有幾百萬(wàn)個(gè)剖面)的基礎(chǔ)上總結(jié)制定的判據(jù)。利用該判據(jù),通過(guò)對(duì)來(lái)自于國(guó)內(nèi)各部門間的資料(13余萬(wàn)個(gè)剖面)排重效果分析,重復(fù)資料檢出率高達(dá)95%以上,因此該判據(jù)具有普遍意義,可為讀者開(kāi)展相關(guān)工作提供基本依據(jù)。讀者可以根據(jù)待排重的資料量和對(duì)資料質(zhì)量的需求情況,對(duì)該判據(jù)進(jìn)行適當(dāng)?shù)恼{(diào)整。

    表8為針對(duì)觀測(cè)時(shí)間、觀測(cè)位置空間和記錄信息相似時(shí)的重復(fù)判據(jù)條件,對(duì)國(guó)外大型數(shù)據(jù)集資料的排重時(shí),判據(jù)可適當(dāng)放寬,但最高不應(yīng)超過(guò)20%,對(duì)來(lái)源于國(guó)內(nèi)各部門之間的資料排重時(shí),重復(fù)要件信息必須同時(shí)滿足以下條件,才可以作為疑似重復(fù)資料。

    5 溫鹽資料排重基本流程[2—4]

    第一,溫鹽資料預(yù)處理[1]。

    實(shí)現(xiàn)溫鹽資料排重,首先要對(duì)多源溫鹽資料進(jìn)行預(yù)處理,即在對(duì)多源溫鹽歷史資料進(jìn)行格式梳理、分析和歸類處理的基礎(chǔ)上,制定完整的預(yù)處理資料格式,將所有溫鹽剖面資料統(tǒng)一格式處理,同時(shí)進(jìn)行非法碼和范圍檢驗(yàn)等初步質(zhì)量控制處理。為了有效降低排重計(jì)算工作量,提高重復(fù)資料檢出率,對(duì)經(jīng)過(guò)預(yù)處理之后的所有資料按照海區(qū)進(jìn)行劃分,重新建立以海區(qū)為劃分界限的數(shù)據(jù)集。同時(shí)提取每一個(gè)數(shù)據(jù)集中溫鹽剖面的觀測(cè)時(shí)間、觀測(cè)位置和觀測(cè)記錄等基礎(chǔ)數(shù)據(jù)元信息。

    第二,采用重復(fù)條件組合排重法,對(duì)數(shù)據(jù)集內(nèi)的資料開(kāi)展數(shù)據(jù)排重。

    首先進(jìn)行資料粗放排重。所謂粗放排重就是將重復(fù)條件組合排重法中的排重要件重復(fù)判據(jù)適當(dāng)放寬,以此獲取相應(yīng)排重要件下的粗排疑似重復(fù)資料集;

    其次進(jìn)行資料詳細(xì)排重,詳細(xì)排重與粗放排重相對(duì)應(yīng),就是將重復(fù)條件組合排重法中的排重要件的重復(fù)判據(jù)收緊,針對(duì)粗排疑似重復(fù)資料集排重,以此獲取細(xì)排重復(fù)資料集;

    再次,針對(duì)細(xì)排中的重復(fù)資料和非重復(fù)資料結(jié)合人機(jī)交互方式,進(jìn)行分析、審核和確認(rèn),最終將重復(fù)資料排出。

    第三,采用重復(fù)條件組合排重法,對(duì)數(shù)據(jù)集間的資料開(kāi)展數(shù)據(jù)排重。

    采用溫鹽資料排重模型,重復(fù)第二步的步驟,開(kāi)展資料集之間的數(shù)據(jù)排重,最終形成非重復(fù)資料集。

    其工作流程圖見(jiàn)圖1。

    圖1 重復(fù)條件組合排重處理業(yè)務(wù)流程圖

    6 結(jié)論

    重復(fù)條件組合排重法是作者在大量的實(shí)際業(yè)務(wù)工作中摸索總結(jié)出來(lái)的一套排重方法和模型,利用該方法和模型,不但可以提高資料的排重效率,而且可以大大提高重復(fù)資料的檢出率。該方法不僅針對(duì)溫鹽資料排重,在其它資料的排重中也具有重要的參考和借鑒意義。

    [1]國(guó)家技術(shù)監(jiān)督局.海洋調(diào)查規(guī)范海洋調(diào)查資料處理[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,1991:65-66.

    [2]許崇金,王凡,代亮,等.國(guó)際海洋信息共享與質(zhì)量控制.http://www.qdio.ac.cn:8000/doc/國(guó)際海洋信息共享與質(zhì)量控制0323.doc.

    [3]中科院青島海洋科學(xué)研究所,地球科學(xué)數(shù)據(jù)共享政策與規(guī)范研究組.海洋科學(xué)數(shù)據(jù)庫(kù)建設(shè)規(guī)范.http://www.qdio.ac.cn:8000/doc/海洋科學(xué)數(shù)據(jù)庫(kù)建設(shè)規(guī)范.doc.

    [4]王凡,許崇金,代亮,等.中國(guó)近海及毗鄰洋區(qū)國(guó)際海洋信息管理系統(tǒng)(IODBMS).http://www.docin.com/p-532150.thml.

    Aduplicate-filter method for multi-sources temperature and salinity data sets

    ZHANG Xue-hong,ZHANG Xu-dong,ZHANG Xiao-juan
    (Navy Marine Hydrometeorological Center,Beijing 100161 China)

    There are a large amount of duplicated data from the various sources of temperature and salinity data sets,which will affects the converging value of these data in the applications.In this article,a method to filter the duplicated data,is proposed.It is intruduced on how to remove the duplicated temperature and salinity data in the operational processes.The method will increase the efficiency effectively in the operational processes and is a good reference for the other duplicated data field.

    duplication;combined duplicate-fliter;duplicate-fliter criterion

    P731

    A

    1003-0239(2012)01-0048-07

    2011-01-19

    張學(xué)宏(1971-),男,高級(jí)工程師,主要從事海洋環(huán)境產(chǎn)品開(kāi)發(fā)、預(yù)報(bào)和海洋環(huán)境資料處理與應(yīng)用等工作。E-mail:xuehzhang@Sohu.com

    猜你喜歡
    剖面現(xiàn)象觀測(cè)
    觀測(cè)到恒星死亡瞬間
    軍事文摘(2023年18期)2023-11-03 09:45:42
    三點(diǎn)法定交叉剖面方法
    ——工程地質(zhì)勘察中,一種做交叉剖面的新方法
    基于曲線擬合的投棄式剖面儀電感量算法
    它們離“現(xiàn)象級(jí)”有多遠(yuǎn)
    商周刊(2017年5期)2017-08-22 03:35:13
    天測(cè)與測(cè)地VLBI 測(cè)地站周圍地形觀測(cè)遮掩的討論
    復(fù)雜多約束條件通航飛行垂直剖面規(guī)劃方法
    可觀測(cè)宇宙
    太空探索(2016年7期)2016-07-10 12:10:15
    高分辨率對(duì)地觀測(cè)系統(tǒng)
    太空探索(2015年8期)2015-07-18 11:04:44
    你能解釋下面的現(xiàn)象嗎
    猜謎語(yǔ)
    盐源县| 花莲县| 东兴市| 砚山县| 安多县| 巫山县| 台州市| 罗山县| 雷山县| 彰化市| 宾阳县| 保亭| 天水市| 谢通门县| 新田县| 曲周县| 同江市| 长岛县| 杂多县| 晋江市| 同仁县| 左云县| 吕梁市| 当雄县| 普定县| 林周县| 湘潭市| 荥经县| 汾阳市| 新和县| 镇江市| 正镶白旗| 庄河市| 宜宾县| 中宁县| 长顺县| 陆河县| 西吉县| 绥棱县| 鹤壁市| 新宾|