• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于D-S證據(jù)理論的大數(shù)據(jù)融合研究
    ——以長白山氣象要素大數(shù)據(jù)為例

    2022-11-23 03:53:24鄭國勛姚學(xué)坤胥政堯陳冠澎
    關(guān)鍵詞:折線圖氣象要素長白山

    鄭國勛,姚學(xué)坤,胥政堯,陳冠澎

    (1.長春工程學(xué)院; 2.長白山歷史文化與VR技術(shù)重構(gòu)吉林省重點(diǎn)實(shí)驗(yàn)室,長春130012)

    0 引言

    長白山作為吉林省最靚麗的名片,有著悠久的歷史和文化,在清代被視為清朝崛起地,作為龍脈加以封禁。近些年前往長白山旅游的人越來越多,天池作為長白山最重要的景點(diǎn)更是讓人神往。但是能否看到天池與天氣有很大關(guān)系,在出行前人們會(huì)關(guān)注長白山的天氣情況,以確定最佳的出發(fā)日期,這個(gè)過程是很費(fèi)時(shí)費(fèi)力的。但在大數(shù)據(jù)時(shí)代,通過智能數(shù)據(jù)分析可以給人們旅游提供科學(xué)參考與建議性決策,這不僅便利了游客,也對促進(jìn)長白山旅游業(yè)發(fā)展大有幫助。本文根據(jù)2019年—2020年長白山氣象要素?cái)?shù)據(jù)對長白山一年中每個(gè)月的各項(xiàng)要素(空氣溫度、相對濕度、露點(diǎn)溫度等)的月均值進(jìn)行分析,通過D-S證據(jù)理論對各氣象要素分析后的結(jié)果進(jìn)行數(shù)據(jù)融合,意在分析出哪個(gè)時(shí)期適合到長白山旅游。

    1 數(shù)據(jù)清洗

    數(shù)據(jù)清洗(Data Cleaning)顧名思義就是把“臟”數(shù)據(jù)“洗掉”或是把“臟”數(shù)據(jù)“洗凈”,它是大數(shù)據(jù)處理必不可少的環(huán)節(jié),是對數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的必要過程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性。

    數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,是從多個(gè)業(yè)務(wù)系統(tǒng)中獲取而來,所以避免不了有錯(cuò)誤的和相互之間有沖突的數(shù)據(jù),這些錯(cuò)誤的或有沖突的數(shù)據(jù)對我們是不友好的,稱為“臟數(shù)據(jù)”。不符合要求的數(shù)據(jù)主要有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)3類。數(shù)據(jù)清洗是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。

    缺失值指的是在現(xiàn)有數(shù)據(jù)集中某個(gè)或某些屬性的值是不完整的。缺失值產(chǎn)生的原因主要分為人為因素和機(jī)器因素,人為因素是指由于人的主觀因素或操作失誤導(dǎo)致的數(shù)據(jù)缺失,機(jī)器因素是指由于機(jī)器的原因?qū)е碌臄?shù)據(jù)采集或存儲(chǔ)出現(xiàn)錯(cuò)誤導(dǎo)致的數(shù)據(jù)缺失。

    常用的缺失值處理手段包含缺失值刪除、缺失值插補(bǔ)以及真值轉(zhuǎn)換法3種。缺失值刪除指的是刪除含有缺失值的個(gè)案,這種方式是處理缺失值最原始的方法,如果對數(shù)據(jù)集中含缺失值的屬性進(jìn)行刪除不會(huì)對數(shù)據(jù)集產(chǎn)生過大影響,那么將缺失值刪除是最有效的方法。缺失值插補(bǔ)是指通過均值、平均值、眾數(shù)或一些算法預(yù)測缺失值,然后對缺失值進(jìn)行插補(bǔ)。當(dāng)缺失值在數(shù)據(jù)集中占極小部分時(shí),此時(shí)若對含缺失值的屬性進(jìn)行刪除會(huì)導(dǎo)致信息的浪費(fèi),那么對缺失值進(jìn)行插補(bǔ)是處理這種數(shù)據(jù)缺失的一種很有效的手段。真值轉(zhuǎn)換指的是不對缺失值進(jìn)行處理,承認(rèn)缺失值的存在,將其作為數(shù)據(jù)分布的一部分,例如在網(wǎng)站進(jìn)行注冊,輸入性別時(shí),如果未輸入,那么將未知作為數(shù)據(jù)分布的一部分,將其作為后序數(shù)據(jù)處理和模型構(gòu)建的一部分。

    本文所使用的2019年—2020年長白山的氣象要素?cái)?shù)據(jù)集來源于國家地球系統(tǒng)科學(xué)數(shù)據(jù)中心。原數(shù)據(jù)集中存在缺失值,如部分月份中露點(diǎn)溫度這一氣象要素(表1)的數(shù)據(jù)存在缺失,這會(huì)影響后序數(shù)據(jù)融合與模型構(gòu)建,因此采用缺失值插補(bǔ)的方法對缺失值進(jìn)行處理。

    表1 長白山氣象要素觀測記錄表露點(diǎn)溫度部分?jǐn)?shù)據(jù)(2020年4月)

    經(jīng)對數(shù)據(jù)分析,采用KNN(K-nearest neighbor)算法對表中缺失值進(jìn)行插補(bǔ)。KNN是一種監(jiān)督算法,也是一種相對簡單的機(jī)器學(xué)習(xí)算法,由于其簡單、高效的特點(diǎn),被廣泛應(yīng)用。KNN算法的分類思想是,如果一個(gè)未知類標(biāo)號的數(shù)據(jù)與特征空間中K個(gè)已知類標(biāo)號的數(shù)據(jù)相鄰,則對K個(gè)數(shù)據(jù)對象的類標(biāo)號數(shù)進(jìn)行從大到小的排序。對于未知類標(biāo)簽的數(shù)據(jù),選擇第一個(gè)類標(biāo)簽作為它自己的類標(biāo)簽??梢钥闯?,當(dāng)K=1時(shí),類標(biāo)號未知的數(shù)據(jù)的類標(biāo)號與最近的數(shù)據(jù)的類標(biāo)號相同。因此,KNN分類算法在類決策方面具有局部性,僅與少數(shù)相鄰的樣本數(shù)據(jù)有關(guān),不同于支持向量機(jī)的分割類域,更適用于類域重疊或重疊的數(shù)據(jù)。

    歐幾里得距離,也稱為歐氏距離,是KNN分類算法中常用的距離度量。歐幾里德距離是一種原理簡單、測量范圍最廣的距離測量方法。對于空間中的兩點(diǎn),歐幾里德距離表示兩點(diǎn)之間的線性距離;對于空間向量,歐幾里德距離是指向量的長度,即從一個(gè)點(diǎn)到原點(diǎn)的距離??梢酝ㄟ^KNNImputer函數(shù)計(jì)算歐幾里得距離矩陣,找到最近的鄰居來幫助估算觀測值中存在的缺失值。具體計(jì)算公式如式(1):

    (1)

    對缺失值處理后的數(shù)據(jù)集見表2。

    表2 處理后長白山氣象要素觀測記錄表露點(diǎn)溫度部分?jǐn)?shù)據(jù)(2020年4月)

    2 數(shù)據(jù)融合

    數(shù)據(jù)融合是多數(shù)據(jù)源在一定準(zhǔn)則下加以自動(dòng)分析、綜合,完成決策和評估所進(jìn)行的信息處理。數(shù)據(jù)融合作為一種信息處理技術(shù)在處理不同問題時(shí)使用的算法和形式存在很大差異,但也有很多共同之處,如任務(wù)和功能導(dǎo)致的數(shù)據(jù)融合系統(tǒng)的層次劃分、目的不同的數(shù)據(jù)融合系統(tǒng)采用不同的拓?fù)浣Y(jié)構(gòu)等[1]。數(shù)據(jù)融合主要應(yīng)用在多源影像復(fù)合、機(jī)器人和智能儀器系統(tǒng)、戰(zhàn)場和無人駕駛飛機(jī)、圖像分析與理解、目標(biāo)檢測與跟蹤、自動(dòng)目標(biāo)識別等領(lǐng)域。常用的數(shù)據(jù)融合方法包括加權(quán)平均法、貝葉斯估計(jì)法、卡爾曼濾波法、D-S(Dempster-Shafer)證據(jù)理論等。傳感器老化和數(shù)據(jù)采集過程中其他因素的干擾會(huì)產(chǎn)生不確定性,針對這種問題常常使用貝葉斯估計(jì)法和D-S證據(jù)理論[2]。

    2.1 D-S證據(jù)理論

    D-S證據(jù)理論是對貝葉斯推理方法的推廣,是一種處理不確定性問題的完整理論。貝葉斯推理方法是利用概率論中貝葉斯條件概率進(jìn)行的,需要知道先驗(yàn)概率。而D-S證據(jù)理論不需要知道先驗(yàn)概率,能夠很好地表示“不確定”問題,被廣泛用來處理不確定數(shù)據(jù)。其最大的優(yōu)點(diǎn)是采用“區(qū)間估計(jì)”對不確定信息進(jìn)行描述,在區(qū)分不知道和不確定方面以及精確反映證據(jù)收集方面有很大的靈活性。D-S證據(jù)理論處理數(shù)據(jù)的基本思路如圖1所示。

    圖1 D-S證據(jù)理論基本思路圖

    2.1.1 識別框架

    識別框架又稱X全域、假設(shè)空間,通常用數(shù)學(xué)符號Θ表示,其中包含所要判斷案例的所有元素,在任何時(shí)刻,案例的答案取值只能是Θ中的元素。把這樣的不相容事件組成的集合Θ稱為識別框架。假設(shè)有n個(gè)元素,識別框架可表示為式(2):

    Θ={θ1,θ2,...,θn},

    (2)

    式中θn是識別框架Θ的一個(gè)事件或元素。識別框架Θ的全部子集的集合叫做冪集,記作2Θ,可表示為式(3):

    2Θ={?,{θ1},{θ2},...,{θn},{θ1,θ2},{θ1,θ3},...,{θ1,θ2,θ3},...,Θ}。

    (3)

    2.1.2 基本概率分配函數(shù)

    在確定了識別框架后,需要根據(jù)基本概率分配(Basic Probability Assignment,BPA)函數(shù)計(jì)算證據(jù)對命題的信任度,在D-S證據(jù)理論中,基本概率分配對最終結(jié)果有著至關(guān)重要的影響。

    設(shè)Θ為一個(gè)識別框架,在識別框架Θ上的基本概率分配函數(shù)m是一個(gè)2Θ→[0,1]的映射,該函數(shù)滿足式(4):

    (4)

    式中m(A)表示證據(jù)對命題A的信任度。?的基本信任值為0,其他所有子集的信任值總和為1。對于任意一個(gè)A,只要滿足m(A)>0,則稱A為焦元。

    2.1.3 信任函數(shù)

    假設(shè)集合?A?2Θ是識別框架Θ的一個(gè)子集,A的全部子集的基本概率分配函數(shù)之和則是信任函數(shù)(Belief Function),如式(5):

    (5)

    2.1.4 似然函數(shù)

    假設(shè)集合?A?2Θ是識別框架Θ的一個(gè)子集,似然函數(shù)表示的是不否認(rèn)A的信任度,指的是與集合A交集不為空的概率之和,如式(6):

    (6)

    2.1.5 信任區(qū)間

    假設(shè)集合?A?2Θ是識別框架Θ的一個(gè)子集,[Bel(A),Pl(A)]就是集合A的信任區(qū)間,表示對集合A的確認(rèn)程度。

    2.1.6 Dempster合成規(guī)則

    獲得決策需要一種方法計(jì)算多個(gè)證據(jù)對識別框架中每個(gè)假設(shè)的綜合影響,得出在多個(gè)證據(jù)作用下使假設(shè)成立的綜合信任程度[3]。對于?A?2Θ,Θ上的兩個(gè)基本概率分配函數(shù)m1,m2的Dempster合成規(guī)則如式(7):

    (7)

    式中K為歸一化系數(shù),K的算法如式(8):

    (8)

    2.2D-S證據(jù)理論在長白山氣象要素?cái)?shù)據(jù)融合中的應(yīng)用

    2.2.1 識別框架的建立

    長白山氣象要素?cái)?shù)據(jù)融合意在根據(jù)長白山的各項(xiàng)氣象要素分析出在一年12個(gè)月中哪個(gè)月最適合至長白山旅游,識別框架如式(9):

    Θ={1,2,3,4,5,6,7,8,9,10,11,12},

    (9)

    式中數(shù)字1~12表示的是1月至12月。

    2.2.2 改進(jìn)基本概率分配函數(shù)

    基本概率分配獲取困難一直是D-S證據(jù)理論的一個(gè)門檻,本文根據(jù)Z-Score標(biāo)準(zhǔn)化方法建立了一種基本概率分配函數(shù)。Z-Score標(biāo)準(zhǔn)化方法如式(10):

    (10)

    式中:x表示個(gè)體的觀測值;μ表示所有樣本數(shù)據(jù)的均值;δ表示所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。

    本文基于Z-Score標(biāo)準(zhǔn)化方法建立基本概率分配函數(shù),將其使用的均值更換為長白山氣象中各要素的人體最適值(本文所使用的人體最適值不代表真實(shí)人體最適值,只是人體所處環(huán)境相對舒適的值)。函數(shù)公式如式(11):

    (11)

    由于基本概率分配是基于Z-Score標(biāo)準(zhǔn)化方法建立的基本概率分配函數(shù),所以推導(dǎo)出的結(jié)果表示的是各氣象要素偏離人體最適值的程度,圖2及圖3的折線圖中,點(diǎn)的y軸值越大,代表當(dāng)前月份該氣象要素標(biāo)識此月份越不適合到長白山旅游,反之點(diǎn)的y軸值越小,代表當(dāng)前月份該氣象要素標(biāo)識此月份越適合到長白山旅游。圖4~7的折線圖中,點(diǎn)的y軸值越大,表示當(dāng)前月份越不適合至長白山旅游,反之點(diǎn)的y軸值越小,表示當(dāng)前月份越適合到長白山旅游。

    2019年—2020年長白山各氣象要素月平均值根據(jù)前述基本概率分配函數(shù)獲得的基本概率分配分別如圖2~3所示。

    圖2 2019年長白山氣象要素月平均值基本概率分配

    圖3 2020年長白山氣象要素月平均值基本概率分配

    2.2.3 證據(jù)合成

    根據(jù)提取的數(shù)據(jù)獲得長白山氣象各要素的月平均值同,通過基本概率分配函數(shù)計(jì)算出其基本概率分配,進(jìn)行證據(jù)合成。首先計(jì)算歸一化系數(shù)K,如式(12):

    (12)

    式中i表示月份。

    根據(jù)計(jì)算出的歸一化系數(shù)K對每個(gè)月各要素的月平均值通過Desmpster合成規(guī)則進(jìn)行證據(jù)合成,如式(13):

    (13)

    式中i表示月份,通過將各個(gè)月的證據(jù)信息進(jìn)行合成可得出一年中各個(gè)月份不適合至長白山旅游的程度。

    2019年和2020年長白山氣象要素D-S證據(jù)理論數(shù)據(jù)融合折線圖如圖4~5所示。

    圖4 2019年長白山氣象要素D-S證據(jù)理論數(shù)據(jù)融合折線圖

    圖5 2020年長白山氣象要素D-S證據(jù)理論數(shù)據(jù)融合折線圖

    2.3 D-S證據(jù)理論的改進(jìn)

    李弼程等[4]學(xué)者基于Yager、孫權(quán)、鄧勇等學(xué)者的成果對D-S證據(jù)理論進(jìn)行了改進(jìn),對D-S證據(jù)理論進(jìn)行了進(jìn)一步優(yōu)化,通過分析之前學(xué)者提出的方法的優(yōu)勢與不足,李弼程給出了一種加權(quán)和信息融合方法,該方法把歸一化系數(shù)K按照比例加權(quán)分配給各焦元,合成后如式(13):

    m(A)=p(A)+(1-K)q(A),?A≠?

    m(?)=0,

    (13)

    該方法計(jì)算過程簡單,物理含義明確,融合結(jié)果與直觀認(rèn)識頁比較具有較大的工程實(shí)際應(yīng)用價(jià)值[5]。當(dāng)證據(jù)沒有沖突時(shí),該方法與傳統(tǒng)的D-S證據(jù)理論產(chǎn)生的結(jié)果基本相同。

    將該方法與使用傳統(tǒng)的D-S證據(jù)理論對長白山氣象要素?cái)?shù)據(jù)進(jìn)行數(shù)據(jù)融合的結(jié)果做了對比,使用該方法分別對2019年和2020年的長白山氣象數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,繪制的長白山氣象要素加權(quán)求和信息融合方法折線圖如圖6~7所示,圖中點(diǎn)的y軸值越小,標(biāo)識當(dāng)前月越適合至長白山旅游。

    4 結(jié)論

    本文主要對長白山氣象要素?cái)?shù)據(jù)進(jìn)行了數(shù)據(jù)清洗及融合。在數(shù)據(jù)清洗方面,重點(diǎn)針對缺失值進(jìn)行了處理,通過K最鄰近分類算法對缺失值進(jìn)行了預(yù)測及插補(bǔ)。在數(shù)據(jù)融合方面,使用了D-S證據(jù)理論,通過對Z-Score標(biāo)準(zhǔn)化算法公式的改變,構(gòu)建了基本概率分配函數(shù),對數(shù)據(jù)融合前各要素的月平均值以及數(shù)據(jù)融合后的數(shù)值繪制了折線圖,通過折線圖可提供氣象要素方面的決策依據(jù)。

    圖6 2019年長白山氣象要素加權(quán)求和信息融合方法折線圖

    圖7 2020年長白山氣象要素加權(quán)求和信息融合方法折線圖

    猜你喜歡
    折線圖氣象要素長白山
    成都電網(wǎng)夏季最大電力負(fù)荷變化特征及其與氣象要素的關(guān)系
    Optimization Design of Miniature Air Quality Monitoring System Based on Multi-Sensor Fusion Technology
    漫步四季,探索不一樣的長白山
    長白山冊封始于金代
    沈陽市1951—2013年氣候變化特征及其區(qū)域蒸發(fā)的響應(yīng)分析
    讓折線圖顯示在一個(gè)單元格中
    再多也不亂 制作按需顯示的折線圖
    電腦愛好者(2018年2期)2018-01-31 19:07:26
    北京市朝陽區(qū)大氣污染物時(shí)空分布特征及與氣象要素的關(guān)系研究
    美化Excel折線圖表
    電腦愛好者(2017年1期)2017-04-14 10:16:22
    探測環(huán)境變化對臨沭站氣象要素的影響
    罗甸县| 商城县| 云阳县| 赣州市| 濮阳市| 平乐县| 静乐县| 健康| 霍州市| 利津县| 永康市| 齐河县| 江北区| 永平县| 玛多县| 神农架林区| 八宿县| 通渭县| 麟游县| 运城市| 娄烦县| 绥中县| 安远县| 三亚市| 榕江县| 兴安县| 特克斯县| 鄂托克旗| 永清县| 塔河县| 波密县| 平塘县| 青冈县| 迭部县| 聊城市| 西青区| 黄大仙区| 红原县| 宁河县| 乌兰浩特市| 广南县|