• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于對稱百分誤差的線性回歸與印染工業(yè)應(yīng)用

      2021-11-12 02:29:50宋叢威張曉明
      關(guān)鍵詞:對數(shù)線性分量

      宋叢威,張曉明

      (北京雁棲湖應(yīng)用數(shù)學(xué)研究院, 北京 101408)

      0 引 言

      目前印染工業(yè)面臨的問題,是根據(jù)已知的顏色,給出染料濃度配比,使得布料染出所需顏色[1]。文獻(xiàn)[1]中已經(jīng)建立了一個(gè)高效的線性模型用于預(yù)測染料濃度,本文則討論另一種預(yù)測濃度的方案。工人通常會(huì)在正式染色前,對樣品進(jìn)行試驗(yàn)性的染色,得到一組濃度配比。這本身也是目前印染業(yè)標(biāo)準(zhǔn)生產(chǎn)流程的環(huán)節(jié)。理想情況下,樣品試驗(yàn)得到的是正式染色的濃度配比。但在實(shí)際效果上卻總是存在一定的誤差。為了利用樣品試驗(yàn)數(shù)據(jù)來預(yù)測正式染色時(shí)的染料濃度配比,提出了線性模型[2-3]:

      其中,x、y分別是樣品濃度配比和正式染色的濃度配比。

      注意:x是向量,代表樣品試驗(yàn)濃度配比,而y是數(shù)量,代表正式染色的濃度配比的一個(gè)分量。即使y是向量,也假定各分量是獨(dú)立的,則分別研究每個(gè)分量即可。

      為了便于理論分析,把所有參數(shù)整合成一個(gè)向量θ=(a,b),并把線性模型表示為[4]:

      (1)

      其中,Cφ(x)表示由x決定的一組基。在本文中由x的分量和1構(gòu)成??紤]到下述對數(shù)線性模型:

      (2)

      相當(dāng)于對y做對數(shù)化預(yù)處理。由于x、y有相同的物理意義,x也會(huì)做對數(shù)化預(yù)處理。

      設(shè)θ為p維向量,對于N個(gè)樣本,則有:

      (3)

      本文對相對誤差做一些改良。此時(shí),最小二乘法的代數(shù)方法不再適用,需用梯度下降法(GD)進(jìn)行優(yōu)化。這就是本文要解決的技術(shù)問題。最后的數(shù)值實(shí)驗(yàn)說明,在該誤差下,本文方法優(yōu)于普通的線性回歸。

      1 百分誤差與損失函數(shù)

      1.1 矩陣分析

      (4)

      (5)

      圖1 不同y值產(chǎn)生的誤差絕對值

      如此定義相對誤差的好處,就是對異常值不敏感。不對誤差取絕對值,是為了更準(zhǔn)確地反映誤差的分布。

      數(shù)值計(jì)算中,小數(shù)除法會(huì)導(dǎo)致溢出,必要時(shí)改造為:

      其中,C>0是一個(gè)合理的常數(shù),在程序?qū)崿F(xiàn)時(shí)考慮這一點(diǎn)。

      對于多維情形y=(y(1),…,y(n)),對每個(gè)分量計(jì)算誤差或直接用其2范數(shù)平方根取代:

      (6)

      注:本文用下指標(biāo)給樣本編號(hào),用上指標(biāo)表示分量。

      1.2 損失函數(shù)

      (7)

      這個(gè)損失函數(shù)被稱為(對稱)均方百分誤差。

      用代數(shù)方法可以求解絕對誤差下的損失函數(shù)最小化問題,但不能求解損失函數(shù)(7)的最小化問題。相反,本文采用一種常用的梯度下降法(GD)——Adam算法[11-12],預(yù)測可以得到比最小二乘法更好的解。

      (8)

      注:導(dǎo)數(shù)中可能出現(xiàn)小數(shù)的三次方除法,故在程序設(shè)計(jì)時(shí)需考慮溢出和梯度值異常。

      式中省略了歸一化參數(shù),C大致為方差的倒數(shù),這個(gè)值基本決定了置信度。該分布形狀類似于逆Gamma分布,如圖2所示(因?yàn)闅w一化因素的存在,y軸不必顯示刻度)。令相對誤差ε服從“緊支撐的正態(tài)分布”ε~exp{-Cε2},-1≤ε≤ 1,而絕對誤差變成了偏態(tài)的。

      圖2 不同估值下y的分布

      最后,損失函數(shù)的多維形式為:

      就本文的線性模型而言,多維輸出不是本質(zhì)的。因?yàn)槊總€(gè)分量均獨(dú)立,所以只需單獨(dú)對每個(gè)分量應(yīng)用GD,然后對其對應(yīng)的損失函數(shù)值求平均即可。

      1.3 損失函數(shù)其它形式

      損失函數(shù):

      (9)

      稱為(對稱)平均絕對值百分誤差[13]。此時(shí),梯度為(已省略次要系數(shù)):

      其中,符號(hào)函數(shù):

      等價(jià)于,假定y服從下述分布的極大似然估計(jì)。

      通??梢钥紤]:

      (10)

      不過對GD而言,p=2依然是首選。

      2 算法與實(shí)驗(yàn)

      本文算法利用Python3.8實(shí)現(xiàn), 運(yùn)行于MacOS10.15上,程序設(shè)計(jì)遵從scikit-learn的API設(shè)計(jì)規(guī)范[14-15]。已在Gitee上公開了所用數(shù)據(jù)、源代碼和運(yùn)行結(jié)果, 網(wǎng)址為https://gitee.com/williamzjc/relinear。

      2.1 算法

      在此,雖然最小二乘法不再適用,但可以用來初始化參數(shù)。對于可微性較好的相對誤差,采用梯度下降法;對于可微性較差的相對誤差,采用遺傳算法等智能算法。

      算法設(shè)計(jì)采用Adam算法優(yōu)化誤差函數(shù)?;咎幚磉^程概括如下:

      (1)輸入x、y。

      (2)可用最小二乘法初始化θ或隨機(jī)初始化。

      (3)根據(jù)式(8)計(jì)算梯度,并用Adam算法優(yōu)化L(θ),得到最終的θ。

      (4)預(yù)測測試數(shù)據(jù)。本算法還具有增量學(xué)習(xí)功能。學(xué)習(xí)未來產(chǎn)生的數(shù)據(jù)時(shí),可以從當(dāng)前存儲(chǔ)的θ開始迭代,無需初始化。

      2.2 實(shí)驗(yàn)

      實(shí)驗(yàn)數(shù)據(jù)來自紹興的一家印染工廠。輸入變量X是樣品在小缸中進(jìn)行實(shí)驗(yàn)的染料濃度,輸出變量Y是正式染色時(shí)的染料濃度。兩者維度為3,因此包含3個(gè)線性模型,每個(gè)模型有4個(gè)參數(shù),總共134條數(shù)據(jù)。

      數(shù)據(jù)被隨機(jī)分成訓(xùn)練數(shù)據(jù)(80%)和測試數(shù)據(jù)(20%)。損失函數(shù)選用式(7)來計(jì)算。將本文算法和多種常用的線性模型相關(guān)算法進(jìn)行比較,測試重復(fù)進(jìn)行50次,產(chǎn)生50份實(shí)驗(yàn)數(shù)據(jù)。最后取這50份實(shí)驗(yàn)數(shù)據(jù)的中位數(shù)作為最終的結(jié)果,并保留4位有效數(shù)字,實(shí)驗(yàn)結(jié)果見表1。

      表1 數(shù)值實(shí)驗(yàn)報(bào)告

      對數(shù)線性模型測試結(jié)果見表2。

      表2 對數(shù)線性模型的數(shù)值實(shí)驗(yàn)報(bào)告

      實(shí)驗(yàn)驗(yàn)證了本文算法的有效性。在線性模型中,其表現(xiàn)顯著超越所有算法。但在對數(shù)化模型中,所有算法整體上表現(xiàn)相當(dāng),其中本文算法的訓(xùn)練誤差稍優(yōu)于其它算法。就本問題而言,對數(shù)化處理似乎非常有效,以至于一定程度上掩蓋了本文算法的作用。為了降低誤差,設(shè)置較高的迭代次數(shù),同時(shí)也增加了訓(xùn)練時(shí)間。

      3 結(jié)束語

      在工業(yè)生產(chǎn)中,損失函數(shù)通常有實(shí)際意義,比如y值越小樣本權(quán)重越大。本文最終選擇式(4)和式(7)作為誤差函數(shù)和損失函數(shù)。對稱百分誤差導(dǎo)出的偏態(tài)分布一定程度上接近真實(shí)數(shù)據(jù)的分布情況。

      本文算法的核心是通過GD優(yōu)化誤差函數(shù),通過實(shí)驗(yàn)充分證實(shí)了本文算法的有效性,可應(yīng)用于工業(yè)領(lǐng)域。在精度方面顯著高于其它算法,但是效率較低,有待提高。

      未來工作主要尋找并研究其它可行的損失函數(shù)。損失函數(shù)與誤差的分布是聯(lián)系在一起的。因此,構(gòu)造合理的誤差分布也將是未來的任務(wù)之一。

      猜你喜歡
      對數(shù)線性分量
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      含有對數(shù)非線性項(xiàng)Kirchhoff方程多解的存在性
      指數(shù)與對數(shù)
      帽子的分量
      線性回歸方程的求解與應(yīng)用
      指數(shù)與對數(shù)
      一物千斤
      智族GQ(2019年9期)2019-10-28 08:16:21
      二階線性微分方程的解法
      對數(shù)簡史
      論《哈姆雷特》中良心的分量
      洮南市| 班戈县| 介休市| 城口县| 财经| 廊坊市| 杨浦区| 尚义县| 东港市| 象山县| 磐安县| 怀远县| 宿州市| 玉山县| 新郑市| 泾源县| 天峨县| 德格县| 会同县| 龙口市| 和龙市| 江阴市| 达拉特旗| 交城县| 靖宇县| 乌恰县| 阆中市| 彭泽县| 东光县| 湄潭县| 东海县| 汽车| 肇庆市| 河北区| 资兴市| 自贡市| 乐亭县| 江陵县| 英吉沙县| 慈溪市| 东乡县|