• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    機器學(xué)習(xí)在供水網(wǎng)絡(luò)管理系統(tǒng)的應(yīng)用研究

    2022-07-30 13:09:38盧冰鋒
    山西建筑 2022年15期
    關(guān)鍵詞:供水機器變量

    盧冰鋒

    (晉能控股煤業(yè)集團供水分公司,山西 大同 037003)

    1 概述

    在完整的水循環(huán)中,有許多可能的機器學(xué)習(xí)應(yīng)用程序來優(yōu)化流程和支持決策。例如,關(guān)于下水道網(wǎng)絡(luò),目前有新興技術(shù)可以對管道內(nèi)部的圖像進行處理和分類,以檢測泄漏和異常情況。實時查看數(shù)千張圖像對人類來說是一項艱巨的任務(wù);然而,機器學(xué)習(xí)系統(tǒng)可以在幾秒鐘內(nèi)完成。因此,將這些系統(tǒng)集成為支持工具可以大大減少意外事件的數(shù)量,從而縮短應(yīng)急響應(yīng)時間?;A(chǔ)設(shè)施老化明顯,意外泄漏和中斷的發(fā)生仍然是供水網(wǎng)絡(luò)管理公司關(guān)心的問題,利用數(shù)據(jù)并應(yīng)用機器學(xué)習(xí)算法可減少意外的管道故障[1]。本文介紹了機器學(xué)習(xí)及其在供水網(wǎng)絡(luò)管理中的應(yīng)用?;仡櫫似鋵嵤┑闹饕A段及其關(guān)鍵問題。此外,8項研究描述了用于解決這些關(guān)鍵問題的機制,這些研究均是使用監(jiān)督機器學(xué)習(xí)系統(tǒng)來預(yù)測供水網(wǎng)絡(luò)的管道故障。它們中的大多數(shù)都展示了來自世界各地的真實案例研究并包含了可靠的數(shù)據(jù)。此外,選定的研究修改了領(lǐng)域內(nèi)常用的機器學(xué)習(xí)技術(shù),并為其在案例研究中的應(yīng)用提供了詳細的解釋。

    2 機器學(xué)習(xí)定義及其發(fā)展

    機器學(xué)習(xí)是通過構(gòu)建算法和技術(shù)來創(chuàng)建能夠從經(jīng)驗中學(xué)習(xí)的系統(tǒng),必須概括行為并從數(shù)據(jù)中識別模式。目前有三種不同的機器學(xué)習(xí)系統(tǒng),即監(jiān)督學(xué)習(xí)系統(tǒng)、無監(jiān)督學(xué)習(xí)系統(tǒng)和強化學(xué)習(xí)系統(tǒng)。

    監(jiān)督學(xué)習(xí)需要標(biāo)記數(shù)據(jù),即輸出變量必須被識別和可用。如果輸出變量是一個實值,回歸方法是最合適的,當(dāng)輸出變量是類別或類時,分類系統(tǒng)是合適的,最終目標(biāo)是預(yù)測。當(dāng)沒有數(shù)據(jù)標(biāo)簽或沒有明確標(biāo)識時,使用無監(jiān)督學(xué)習(xí)。強化學(xué)習(xí)系統(tǒng)與環(huán)境交互,接收反饋,因此,它的性能會隨著時間的推移而提高。

    本研究側(cè)重于監(jiān)督學(xué)習(xí)應(yīng)用作為供水網(wǎng)絡(luò)中的預(yù)測系統(tǒng)。監(jiān)督學(xué)習(xí)技術(shù)在供水行業(yè)中較為常見,因為它們易于與支持決策系統(tǒng)工具集成。

    圖1為監(jiān)督學(xué)習(xí)系統(tǒng)的具體實施階段。首先,將數(shù)據(jù)分為訓(xùn)練集和驗證集;其次,訓(xùn)練數(shù)據(jù)用于估計定義機器學(xué)習(xí)模型的參數(shù);然后通過驗證集上的某些質(zhì)量指標(biāo)來衡量模型的性能。

    為了展示使用供水網(wǎng)絡(luò)數(shù)據(jù)實施監(jiān)督學(xué)習(xí)系統(tǒng)可能出現(xiàn)的主要問題和解決方案,對8項國內(nèi)外研究進行了分析。表1列出了參考文獻及其應(yīng)用的模型、預(yù)測的輸出變量以及他們用來評估這些模型性能的真實案例研究的一些參數(shù)。

    表1 模型、輸出變量與案例研究統(tǒng)計表

    根據(jù)網(wǎng)絡(luò)長度將其分為三類,即大型(長度大于3 000 km),中等(1 000 km~3 000 km)和小型(1 000 km以下)。此外統(tǒng)計了管道故障數(shù)量。另一方面,案例研究包含多個國家,以證明這些技術(shù)廣泛應(yīng)用于世界各地,有關(guān)案例研究的更多信息見參考文獻。

    2.1 機器學(xué)習(xí)模型的特征與應(yīng)用

    物理和統(tǒng)計模型能夠描述供水網(wǎng)絡(luò)行為并分析管道故障以發(fā)現(xiàn)模式和弱點,但其主要限制是無法發(fā)現(xiàn)變量之間的復(fù)雜關(guān)系。統(tǒng)計模型為機器學(xué)習(xí)算法的基礎(chǔ)。機器學(xué)習(xí)系統(tǒng)確實需要大量數(shù)據(jù),系統(tǒng)既可以用作描述模型,也可以用作預(yù)測模型,并且可以發(fā)現(xiàn)復(fù)雜的隱藏特征。

    表1中有許多應(yīng)用于供水網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)模型,下面對其主要特征及英文縮寫進行簡要定義。

    人工神經(jīng)網(wǎng)絡(luò)(ANN),因其準確性和從數(shù)據(jù)中提取模式而聞名,該模型試圖模擬人腦的功能,其中神經(jīng)元由節(jié)點表示,神經(jīng)沖動由輸入變量的加權(quán)和表示,學(xué)習(xí)過程包括對其參數(shù)的調(diào)整,而網(wǎng)絡(luò)結(jié)構(gòu)通常不會改變。它們具有出色的泛化能力,但此類模型不允許解釋每個變量在預(yù)測過程中的作用,需要大量數(shù)據(jù)進行訓(xùn)練,支持向量機可用于回歸(SVR)和分類(SVC)目的。這種方法通過非線性結(jié)構(gòu)將解釋變量映射到高維空間,然后生成對數(shù)據(jù)進行最佳調(diào)整或分離類的超平面ANN和SVM都非正式地稱為“黑箱”系統(tǒng)。相比之下,生存模型(SM)和邏輯回歸(LR)提供了對結(jié)果的可解釋性,但它們在從數(shù)據(jù)中提取模式方面存在更多局限性。

    遺傳編程(GP)是一種進化方法,它使用迭代過程來找到最適合多個變量之間關(guān)系的方程。該方法給出了系統(tǒng)行為的詳細描述,但是如果方程太復(fù)雜,則結(jié)論提取困難,訓(xùn)練過程計算效率低下。

    模糊邏輯使用模糊集和規(guī)則矩陣對樣本進行分類或歸類。該技術(shù)已在許多供水研究中實施,根據(jù)管道或網(wǎng)絡(luò)區(qū)域的故障風(fēng)險對其進行分組。然而,在所有這些研究中,規(guī)則都是根據(jù)專家意見生成的。目前出現(xiàn)了一種新的模糊邏輯應(yīng)用,包括用于估計系統(tǒng)規(guī)則和參數(shù)的進化算法,被稱為進化模糊系統(tǒng)(EFS),并且比傳統(tǒng)系統(tǒng)更加獨立和準確。EFS的主要優(yōu)點是以簡單規(guī)則的形式直接解釋結(jié)果。缺點是它的訓(xùn)練計算成本很高,并且這些系統(tǒng)的設(shè)計很大程度上依賴于案例研究,因為必須提前確定許多參數(shù)。需要說明的是,該方法在供水領(lǐng)域還沒有得到充分的探索和應(yīng)用。

    貝葉斯信念網(wǎng)絡(luò)(BBNs)是直接無環(huán)圖的圖形表示,其中節(jié)點表示參數(shù),并將它們之間的概率關(guān)系弧化,它給出了每對變量之間關(guān)系的全局視野。

    決策樹(DT)是一種簡單且計算效率高的方法,可用于回歸和分類目的。使用分層組合成樹的分割規(guī)則將預(yù)測器空間分層為有限數(shù)量的區(qū)域。它的主要優(yōu)勢在于變量之間關(guān)系的直接可視化,可以檢測供水網(wǎng)絡(luò)中最脆弱的點。作為缺點,DT容易導(dǎo)致數(shù)據(jù)過擬合。Almheiri等[2]提出了一種提升技術(shù)來減少單個決策樹的預(yù)測誤差。另一種選擇是使用隨機森林(RF),它結(jié)合了大量決策樹并聚合它們的預(yù)測。隨機森林技術(shù)用于預(yù)測下水道管道的管道狀況,以便根據(jù)每個區(qū)域的故障風(fēng)險優(yōu)化計劃檢查。

    RankBoost可以進行二分排名,供水網(wǎng)絡(luò)管理的最終需求是根據(jù)管道的風(fēng)險或故障概率對管道進行排名,因此,該方法適合應(yīng)用于此類問題。

    選擇模型之前必須定義結(jié)果的準確性、可解釋性和變量的作用之間的優(yōu)先級。優(yōu)先考慮結(jié)果準確性時使用ANN和SVM;分析解釋結(jié)果與變量的作用,推薦選擇統(tǒng)計模型、決策樹或BBNs[3]。

    2.2 供水網(wǎng)絡(luò)應(yīng)用中的數(shù)據(jù)處理方法

    數(shù)據(jù)處理是構(gòu)建預(yù)測系統(tǒng)的重要階段,多數(shù)供水網(wǎng)絡(luò)的數(shù)據(jù)具有相似的特征,可使用相同的技術(shù)進行處理。表2收集了引用研究不同的數(shù)據(jù)處理方式,編號與表1對應(yīng)。

    表2 每項研究的數(shù)據(jù)處理方式

    缺失值和異常值在數(shù)據(jù)庫中常見,通常是由于數(shù)據(jù)收集錯誤或某些異常情況造成的。若包含這些異常的觀測值被認為不具有代表性,則建議剔除它們。但剔除意味著信息丟失,因此最好使用變量的平均值、中位數(shù)或代理來填充或替換。

    輸入大量變量會導(dǎo)致訓(xùn)練緩慢或結(jié)果解釋困難等。供水網(wǎng)絡(luò)數(shù)據(jù)變量較少,但并非所有變量都會影響破損,建議根據(jù)某些質(zhì)量指標(biāo)來尋找最佳變量集,有時是根據(jù)專家意見選擇的或使用一些特征選擇技術(shù)。

    變量的縮放和變換與機器學(xué)習(xí)模型有更多的關(guān)系,因為其中一些對變量尺度表現(xiàn)出很高的敏感性。式(1)為變量的歸一化,已證明對訓(xùn)練ANN很有用。其次,式(2)為標(biāo)準化,減少了數(shù)據(jù)庫中典型的異常值的影響。

    Xi=(xi-xmin)/(xmax-xmin)

    (1)

    xi=(xi-xmean)/xstd

    (2)

    2.3 供水網(wǎng)絡(luò)應(yīng)用中的訓(xùn)練與驗證方法

    訓(xùn)練和驗證階段訓(xùn)練和驗證是機器學(xué)習(xí)預(yù)測系統(tǒng)的核心,訓(xùn)練階段需要估計控制模型的參數(shù),目的是使用一組數(shù)據(jù)(通常稱為訓(xùn)練集)來找到優(yōu)化某些質(zhì)量指標(biāo)的參數(shù),多數(shù)情況下均使用相同的指標(biāo)來訓(xùn)練和驗證模型[4]。

    交叉驗證是一個迭代的訓(xùn)練驗證過程,可得到更為準確的結(jié)果,并避免過度擬合。首先將數(shù)據(jù)分組,用其中的一部分數(shù)據(jù)來訓(xùn)練模型,然后用剩余的數(shù)據(jù)對模型進行驗證,圖2顯示了3層交叉驗證過程的示意圖。通過統(tǒng)計研究表明,如表3所示多數(shù)研究均采用了該技術(shù),在研究6中,數(shù)據(jù)集分為三組,即訓(xùn)練、測試和驗證。驗證數(shù)據(jù)不參與訓(xùn)練過程,使用訓(xùn)練集和測試集實現(xiàn)交叉驗證,以估計最終模型的參數(shù)。

    表3 不同研究的訓(xùn)練與驗證階段方法

    另一方面,有必要處理不平衡類問題,該問題存在于所有供水網(wǎng)絡(luò)歷史管道故障數(shù)據(jù)庫中。通常供水網(wǎng)絡(luò)中未發(fā)生故障的管道比發(fā)生故障的管道多,如果比率超過了1∶10,監(jiān)督學(xué)習(xí)任務(wù)將被認為是一個不平衡的學(xué)習(xí)問題。此類情況可能會對模型的行為產(chǎn)生負面影響,尤其是如果它是一個分類器。但部分研究認為,不平衡類的存在并不總是會使預(yù)測模型的性能惡化,因為預(yù)測模型的性能取決于模型本身和模型的數(shù)據(jù)結(jié)構(gòu)。大多數(shù)分類研究是通過對數(shù)據(jù)進行采樣來解決此問題(見圖3)。

    包括消除樣本(欠采樣)或生成新的人工樣本(過采樣),以減少數(shù)據(jù)集中兩個類之間的不平衡問題。欠采樣的缺點是會丟失有價值的數(shù)據(jù),而過采樣會產(chǎn)生錯誤的模式,因此訓(xùn)練集不具有代表性。選擇一種技術(shù)或另一種技術(shù)必須基于數(shù)據(jù)集中記錄的管道故障數(shù)量來決定。如果記錄的管道故障數(shù)量具有代表性,則最好使用欠采樣,若供水網(wǎng)絡(luò)中管道故障數(shù)量很少,則過采樣是最佳選擇。

    一般來說,這些研究的結(jié)果必須由通常不是機器學(xué)習(xí)專家的供水公司的員工來解釋。因此,應(yīng)仔細選擇質(zhì)量指標(biāo),以準確表示模型行為,使其更易于解釋。質(zhì)量指標(biāo)是代表模型性能的數(shù)字度量,每個模型都建議制定一個質(zhì)量指標(biāo)。

    回歸方法通過誤差測量進行驗證,如均方誤差(MSE)、平均絕對誤差(MAE)或決定系數(shù)(R2)。 他們的公式在式(3)~式(5)中給出。這些指標(biāo)量化了預(yù)測系統(tǒng)與實際系統(tǒng)輸出之間的差異或偏差[5]。

    (3)

    (4)

    (5)

    混淆矩陣和接收器操作特征(ROC)曲線是評估分類模型的特定工具。一方面,混淆矩陣量化了每個類別的正確和錯誤預(yù)測數(shù)量。這是一個易于解釋的指標(biāo),可以提取大量信息。另一方面,ROC曲線以圖形方式表示不同閾值的真陽性率與假陽性率(見圖4)。曲線下面積(AUC)是一個介于0和1之間的數(shù)值度量,可用于比較不同的模型,AUC越接近1,模型越準確[6]。

    8項研究中,研究1~4獲得了一個實際值作為輸出變量,而研究6~8獲得了管道的分類。研究6是一個特例,因為它估計了每個區(qū)域的所有變量,雖然研究6是一個分類系統(tǒng),但它的質(zhì)量指標(biāo)更像是回歸系統(tǒng)。

    3 結(jié)語

    本文研究了機器學(xué)習(xí)技術(shù)在供水網(wǎng)絡(luò)管理中的應(yīng)用趨勢。研究發(fā)現(xiàn),機器學(xué)習(xí)應(yīng)用時,當(dāng)結(jié)果的準確性占優(yōu)勢時建議使用ANN或SVM模型,目標(biāo)是分析和解釋結(jié)果以及變量的作用時,統(tǒng)計模型或BBNs模型是更好的選擇。數(shù)據(jù)處理時重要的是應(yīng)用特征選擇技術(shù)而不是專家意見的趨勢,此外,變量的縮放和轉(zhuǎn)換有利于模型的性能提升。本文研究鼓勵了供水網(wǎng)絡(luò)行業(yè)應(yīng)用機器學(xué)習(xí)系統(tǒng)。

    在未來的研究中,可以分析每項研究中使用的變量及其對管道故障的影響,更換和維護供水網(wǎng)絡(luò)管道的計劃通常包括供水管和下水道,因此,后續(xù)可對應(yīng)用于下水道的機器學(xué)習(xí)模型進行分析。

    猜你喜歡
    供水機器變量
    機器狗
    機器狗
    抓住不變量解題
    也談分離變量
    毗河供水一期工程
    未來機器城
    電影(2018年8期)2018-09-21 08:00:06
    分區(qū)分壓供水在雕鶚?biāo)畯S供水中的應(yīng)用
    供水產(chǎn)銷差的組成與管控建議
    SL(3,3n)和SU(3,3n)的第一Cartan不變量
    無敵機器蛛
    囊谦县| 宁陵县| 玉屏| 仁寿县| 长垣县| 武冈市| 邹城市| 定襄县| 那曲县| 罗田县| 洱源县| 大关县| 樟树市| 翼城县| 麻江县| 牡丹江市| 固阳县| 永川市| 左云县| 井研县| 泰兴市| 平江县| 修文县| 苏尼特左旗| 南溪县| 三台县| 新平| 丹巴县| 攀枝花市| 琼中| 云龙县| 苏州市| 泰州市| 关岭| 沙河市| 交城县| 西平县| 铜山县| 正镶白旗| 三都| 河东区|