• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于MATLAB的極大似然估計(jì)分析木條數(shù)據(jù)合理性

    2017-07-09 21:02:05闞瑞祥
    關(guān)鍵詞:機(jī)器學(xué)習(xí)正態(tài)分布計(jì)算機(jī)

    闞瑞祥

    摘 要:現(xiàn)實(shí)生活中,數(shù)據(jù)多而復(fù)雜,處理起來(lái)有一定難度。針對(duì)這種情況,提出基于概率論中的極大似然估計(jì)的方法進(jìn)行處理。算法首先進(jìn)行相關(guān)指標(biāo)的快速求解,然后基于紋理分析進(jìn)行模擬的類的劃分,判定分類是否合理并統(tǒng)計(jì)分類合理的數(shù)據(jù)的個(gè)數(shù),最后上述結(jié)果為基礎(chǔ),計(jì)算數(shù)據(jù)分類的合理率。實(shí)驗(yàn)結(jié)果表明,在本組的數(shù)據(jù)中,準(zhǔn)確率高的達(dá)98%,低的也有80%,可信度較高。通過(guò)實(shí)驗(yàn)筆者得出構(gòu)建正態(tài)分布模型、提供利用極大似然估計(jì)的思想對(duì)木條相關(guān)的屬性數(shù)據(jù)進(jìn)行計(jì)算從而判決其合理與否的方法是可行的、合理的、有效的。

    關(guān)鍵詞:計(jì)算機(jī);MATLAB;正態(tài)分布;機(jī)器學(xué)習(xí);極大似然估計(jì)

    中圖分類號(hào): TP302.7 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-7394(2017)02-0028-06

    21世紀(jì)信息與數(shù)據(jù)被當(dāng)作重要的資源。但是數(shù)據(jù)本身具有抽象性,如同本文所舉的木條相關(guān)數(shù)據(jù),非專業(yè)人士,難以洞見(jiàn)其價(jià)值。針對(duì)這個(gè)棘手的情況,機(jī)器學(xué)習(xí)是方法,模式識(shí)別是目的。對(duì)數(shù)據(jù)挖掘而言,數(shù)據(jù)庫(kù)提供數(shù)據(jù)管理技術(shù),機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)提供數(shù)據(jù)分析技術(shù)。本文借助于數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)的知識(shí),通過(guò)相關(guān)軟件建立模型,通過(guò)計(jì)算判決其是否合理,解決這個(gè)問(wèn)題。

    1 理論基礎(chǔ)

    在數(shù)據(jù)挖掘或者是機(jī)器學(xué)習(xí)(machine learning)里面,數(shù)據(jù)的簇(cluster)處理成矩陣是一個(gè)創(chuàng)舉——它強(qiáng)調(diào)了數(shù)據(jù)的巨大的不相關(guān)性。如對(duì)于某學(xué)院,絕大多數(shù)情況下,無(wú)法從姓名推斷出其成績(jī)、性別身高一樣,一個(gè)類中的數(shù)據(jù)往往毫無(wú)相關(guān)性,這巨大的不相關(guān)性正好適合推廣到N維的空間中?;诰€性代數(shù)知識(shí),為數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)奠定了堅(jiān)實(shí)的思想基礎(chǔ)。

    2 重要的工具——MATLAB

    MATLAB是進(jìn)行相關(guān)研究的不可或缺的重要的工具。[1]本文基于大量的數(shù)學(xué)理論的基礎(chǔ),先進(jìn)行推導(dǎo),然后進(jìn)行大量的計(jì)算,再進(jìn)行比較。人力計(jì)算,耗時(shí)費(fèi)力而且無(wú)法保證準(zhǔn)確度。面向?qū)ο蟮母呒?jí)編程語(yǔ)言諸如Java、Python確實(shí)可以定義相關(guān)的函數(shù)與算法,但是代碼冗長(zhǎng)且易出錯(cuò)。所以冗長(zhǎng)復(fù)雜的數(shù)學(xué)計(jì)算的最佳辦法就是編寫(xiě)MATLAB程序進(jìn)行運(yùn)算。

    MATLAB在這個(gè)時(shí)代已經(jīng)為越來(lái)越多的計(jì)算機(jī)學(xué)院的學(xué)生所熟知,它的代碼簡(jiǎn)潔易懂而且定義了很多復(fù)雜的數(shù)學(xué)運(yùn)算類庫(kù)。MATLAB作為一個(gè)研究問(wèn)題分析的工具簡(jiǎn)直再適合不過(guò)了。對(duì)于大多數(shù)人而言,算出十維以及十維以上的矩陣的相關(guān)性矩陣以及逆矩陣的工作量都是驚人的,這一定會(huì)使得研究陷入瓶頸。然而使用MATLAB就沒(méi)有這些的困擾。[2]

    本文將會(huì)用到的函數(shù)有如下幾個(gè):MATLAB本身含有cov()求一個(gè)簇的協(xié)方差矩陣(臺(tái)灣地區(qū)譯作特異性矩陣), det表示求得模的值,inv表示求逆序列,“'”就表示轉(zhuǎn)置直接帶入即可。[3-4]

    3 相關(guān)數(shù)學(xué)基礎(chǔ)知識(shí)

    對(duì)于一個(gè)雜亂無(wú)章的簇(cluster),從數(shù)理統(tǒng)計(jì)的角度講,都可以默認(rèn)它是服從正態(tài)分布的。[1]正態(tài)分布在概率論中有著十分重要的地位,在各種的分布中也是具有首要的地位。

    正態(tài)分布可以寫(xiě)作:[P(x)=12πe-(x-μ)22σ2]

    其中[μ]表示期望,[σ2]表示方差

    上文提到的所謂數(shù)據(jù)的極不相關(guān)性,好比在一個(gè)學(xué)生的信息表中,除非極其特殊的情況,其他情況均認(rèn)為各個(gè)屬性是沒(méi)有關(guān)系的,這里就可以理解成class,即面向?qū)ο笾刑岬降念悺O挛木鶎㈩惐硎緸閇C]。

    這里還需要使用到條件概率,所謂條件概率指的是在滿足一定條件下某事件發(fā)生個(gè)概率,例如在滿足[Ci]條件下[P]發(fā)生的概率就可以表示為[5-6]:[p(xCi)]

    便有:

    [p(xCi)p(Ci)=P(x)]。

    最后一個(gè)概念是極大似然估計(jì)(也譯作是最大似然估計(jì))。這是一種求參數(shù)的經(jīng)典的方法,無(wú)論對(duì)于實(shí)踐還是理論研究都有重大的意義,它最早是高斯(Gauss)提出來(lái)的,1912年被重新發(fā)表。它的直接想法其實(shí)是若一個(gè)隨機(jī)事件有若干個(gè)可能的結(jié)果A,B,C……,若在一次試驗(yàn)中A出現(xiàn)了,則一般認(rèn)為對(duì)于A的出現(xiàn)有利,也就是A出現(xiàn)的概率可能是最大的,在此思想基礎(chǔ)上,通過(guò)相關(guān)運(yùn)算求出最合理的參數(shù)。

    至此理論準(zhǔn)備部分完成。

    4 數(shù)學(xué)推導(dǎo)敘述

    在機(jī)器學(xué)習(xí)或者是數(shù)據(jù)挖掘中,很多時(shí)候其實(shí)找的最根本的東西就是所謂邊界函數(shù)。如圖1:

    左右兩端有兩個(gè)簇(cluster),而中間的直線就是邊界函數(shù),這是通過(guò)相關(guān)的方法,諸如最小二乘法、拉普拉斯雙曲型方程等方法無(wú)限趨近來(lái)的。筆者這里的推導(dǎo),極大似然估計(jì)只是一個(gè)工具,這里用它的算法進(jìn)行筆者需要的推導(dǎo)。

    首先,對(duì)于一個(gè)大的類(class),它可以由很多的參數(shù),用矩陣表示可以寫(xiě)作:

    [X=X11 X12 … X1DX21 X22 … X2D ?XN1 XN2 … XND]

    這里的計(jì)算一律使用矩陣的原因是更加具有一般性,通常的概率論書(shū)中的例題中,無(wú)法符合筆者強(qiáng)調(diào)的多組數(shù)據(jù)的不相關(guān)性的要求。[7-8]基于此,對(duì)傳統(tǒng)的概率論相關(guān)的量進(jìn)行推廣是必要的,體現(xiàn)在維度的擴(kuò)充,期望就變?yōu)榱薣μ=μ1,…μdT],相關(guān)性(correlation,臺(tái)灣地區(qū)譯作相互性)就推廣成了

    [CORR(Xi,Xj)=pij=σijσiσj]

    在這個(gè)基礎(chǔ)之上,維度的N重性得到了必要的強(qiáng)調(diào),協(xié)方差矩陣就變成了:

    [=COV(X)=E((X-μ)(X-μ)T)]

    [X=σ11 σ12 … σ1Dσ21 σ22 … σ2D ?σN1 σN2 … σND],

    于是傳統(tǒng)意義上的計(jì)算公式就被筆者擴(kuò)充,對(duì)于某樣本它的期望就變?yōu)?/p>

    [mi=1NxTiN, i=1…,d]

    對(duì)于某一樣本,它的協(xié)方差矩陣就變?yōu)?/p>

    [Sij=1N(xti-mi)(xtj-mj)N],

    上文提到的正態(tài)分布的定義式

    [P(x)=12πe-(x-μ)22σ2],在這里就可以進(jìn)行推廣,

    對(duì)于[x~Nd(μ,)]得到: [ P(x)=1(2π)d212e-12(x-μ)T-1(x-μ)],

    使用MATLAB做出相關(guān)圖像,如圖2。

    而后便是對(duì)其進(jìn)行連乘運(yùn)算,[p(x)=1dpi(xi)],由于使用了經(jīng)典的極大似然估計(jì)的算法,通常使用的是左式、右式同時(shí)取對(duì)數(shù)的辦法,使得計(jì)算量大大減少。于是對(duì)于[p(xCi)~N(μi,i)],筆者得到

    [P(x)=1(2π)d2i12e-12(x-μ)T-1(x-μi)],

    通過(guò)條件概率的公式以及Ethem Alpaydin先生的《MIT.Introduction.to.Machine.Learning.3rd.Edition》一書(shū)中的結(jié)論[2]。

    于是有:

    [gi(x)=Inp(xCI)]+In[p(Ci)=-d2In2π-12Ini]

    [-12(x-μi)Ti-1(x-μi)+Inp(Ci)]

    然后根據(jù)此進(jìn)行大小的比較,這里的比較指的是與剩下的類分別進(jìn)行比較,及時(shí)統(tǒng)計(jì)合理的數(shù)據(jù)的個(gè)數(shù),根據(jù)個(gè)數(shù)求出準(zhǔn)確率,進(jìn)而決定數(shù)據(jù)的可信度。

    5 代碼敘述部分

    本算法的核心語(yǔ)句便是上述算式的大小比較,比較的對(duì)象在MATLAB分別由mean()與sigma求得,然后統(tǒng)計(jì)個(gè)數(shù)。大小的比較是建立在快速求出各類的期望以及方差、標(biāo)準(zhǔn)差的基礎(chǔ)之上。將這些數(shù)據(jù)進(jìn)行多維的比較,統(tǒng)計(jì)合理的數(shù)據(jù)的個(gè)數(shù),從而求得分類的正確率。所以在

    [gi(x)=Inp(xCI)]+In[p(Ci)=-d2In2π-12Ini][-12(x-μi)Ti-1(x-μi)+Inp(Ci)],等式中的[-d2In2π],它僅僅是個(gè)常數(shù),比較的時(shí)候?qū)⑵浜雎?。算式翻譯成MATLAB代碼,可以寫(xiě)作:d1=-1/2*log(det(sigma1))-(x-mu1)*inv(sigma1)*(x-mu1)'[7];

    det用來(lái)求得模的值,inv表示求逆序列,“'”就表示轉(zhuǎn)置直接帶入即可,特別聲明:注意字母編碼,否則程序無(wú)法運(yùn)行。

    所得的數(shù)據(jù)直接使用循環(huán)跟if判斷用來(lái)比較大小,為了減少書(shū)寫(xiě)量,本文不窮舉相關(guān)中間步驟的數(shù)據(jù)。

    木條(或者說(shuō)是軟木塞)的相關(guān)數(shù)據(jù)均來(lái)自于臺(tái)灣中華大學(xué)的官網(wǎng)。

    MATLAB按照常理,只需手動(dòng)將excel文件放到與.m文件同一目錄下就可以實(shí)現(xiàn)導(dǎo)入,甚至可以實(shí)際一個(gè)圖形界面直接手動(dòng)導(dǎo)入,然而在實(shí)際操作的過(guò)程中卻遇到了意想不到的麻煩:MATLAB與excel間隔每個(gè)數(shù)據(jù)使用的字符不一樣,導(dǎo)致數(shù)據(jù)無(wú)法分開(kāi)。筆者之前在建立hadoop的云空間的時(shí)候也遇到了類似的情況,發(fā)現(xiàn)無(wú)法帶入excel表格,關(guān)鍵是要使用split()將數(shù)據(jù)進(jìn)行再次分割,這里亦如此。

    關(guān)于這個(gè)實(shí)驗(yàn)最后說(shuō)兩點(diǎn):

    1.不同的數(shù)值如果單位是不能求均值的,所以這里所求的均值指的是列向量元素求均值。

    這里面還有一個(gè)理想的情況:分類錯(cuò)誤的所謂“損失函數(shù)”必須跟分類的具體的錯(cuò)誤無(wú)關(guān)。

    2.如果分類的錯(cuò)誤是有區(qū)別的,那么還需要引入相關(guān)的常數(shù)或者是函數(shù)。所謂“損失函數(shù)”可以將其視作是某種權(quán)重,比如說(shuō)登記入住酒店的時(shí)候,如果客戶的姓名弄錯(cuò)可能影響不大,但是性別弄錯(cuò)就會(huì)出現(xiàn)大麻煩。

    3.本代碼將具體的合理數(shù)據(jù)的個(gè)數(shù)分別放在了3*3矩陣的主對(duì)角線上,只是因?yàn)檫@樣美觀,便于觀察,實(shí)際上放在哪里與最終的運(yùn)算結(jié)果是沒(méi)有影響的。

    由于本文的篇幅有限,此處只是摘錄部分代碼,具體如下:

    mu1=mean(a);

    mu2=mean(b);

    mu3=mean(c);

    sigma1=cov(a);

    sigma2=cov(b);

    sigma3=cov(c);

    cc1=0;cc2=0;cc3=0;

    cc11=0;cc22=0;cc33=0;

    cc111=0;cc222=0;cc333=0;

    for i=1:1:50

    x=a(i,:);

    d1=-1/2*log(det(sigma1))-(x-mu1)*inv (sigma1)*(x-mu1)';

    d2=-1/2*log(det(sigma2))-(x-mu2)*inv (sigma2)*(x-mu2)';

    d3=-1/2*log(det(sigma3))-(x-mu3)*inv (sigma3)*(x-mu3)';

    if d1>d2 && d1>d3

    cc1=cc1+1;

    end

    cc1;

    if d2>d3 && d2>d1

    cc2=cc2+1;

    end

    cc2;

    if d3>d2 && d3>d1

    cc3=cc3+1;

    end

    cc3;

    end

    c1=[cc1,cc2,cc3];

    for i=1:1:50

    x=b(i,:);

    d1=-1/2*log(det(sigma1))-(x-mu1)*inv (sigma1)*(x-mu1)';

    d2=-1/2*log(det(sigma2))-(x-mu2)*inv (sigma2)*(x-mu2)';

    d3=-1/2*log(det(sigma3))-(x-mu3)*inv (sigma3)*(x-mu3)';

    if d1>d2 && d1>d3

    cc11=cc11+1;

    end

    cc11;

    if d2>d3 && d2>d1

    cc22=cc22+1;

    end

    cc22;

    if d3>d2 && d3>d1

    cc33=cc33+1;

    end

    cc33;

    end

    c2=[cc11,cc22,cc33];

    for i=1:1:50

    x=c(i,:);

    d1=-1/2*log(det(sigma1))-(x-mu1)*inv (sigma1)*(x-mu1)';

    d2=-1/2*log(det(sigma2))-(x-mu2)*inv (sigma2)*(x-mu2)';

    d3=-1/2*log(det(sigma3))-(x-mu3)*inv (sigma3)*(x-mu3)';

    if d1>d2 && d1>d3

    cc111=cc111+1;

    end

    c1;

    if d2>d3 && d2>d1

    cc222=cc222+1;

    end

    cc222;

    if d3>d2 && d3>d1

    cc333=cc333+1;

    end

    cc333;

    end

    c3=[cc111,cc222,cc333];

    C=[c1;c2;c3];

    disp(C);

    代碼中的a、b、c分別放了三個(gè)大類的木條的相關(guān)的數(shù)據(jù),MATLAB導(dǎo)入數(shù)據(jù)的方法有很多,根本版本的不同而略有不同。筆者導(dǎo)入數(shù)據(jù)使用的方法是將所有的數(shù)據(jù)全部粘貼進(jìn)一個(gè)數(shù)組內(nèi),本文代碼中將此部分略去。

    不同的MATLAB版本以及內(nèi)存的大小、CPU運(yùn)算速度會(huì)對(duì)數(shù)據(jù)的時(shí)間產(chǎn)生影響,但是結(jié)果相同。運(yùn)行結(jié)果如圖3。

    利用主對(duì)角線上的元素直接求正確率,可得:第一組數(shù)據(jù)分類正確的概率是94%,第二組數(shù)據(jù)分類正確的概率是80%,第三組數(shù)據(jù)分類正確的概率是98%。

    具體效果如何,有點(diǎn)類似運(yùn)用泰勒(Taylor)公式求等價(jià)無(wú)窮小的時(shí)候——只需要根據(jù)自己的要求來(lái)決定精確的位數(shù)[8],這里與之類似,根據(jù)自己的目標(biāo)決定所得的正確率合理與否。

    6 結(jié)果與展望

    本文較好地解決了三類木條且每一類含有50組數(shù)據(jù)的合理性的判決,本文代碼可以將之視為判決合理性的重要依據(jù)。根據(jù)實(shí)驗(yàn)結(jié)果可知:第二類的正確率偏低而第一類、第三類的正確率非常高。

    但本代碼是有其局限性的,根本原因在于,逆矩陣運(yùn)算時(shí)的條件——必須是方陣。這一點(diǎn)使得本代碼在推廣的時(shí)候遇到瓶頸,需要考慮逆矩陣的運(yùn)算條件以及一個(gè)類(class)中的數(shù)據(jù)的個(gè)數(shù),這個(gè)需要在代碼之中進(jìn)行必要的修改。

    雖然有局限性,但是筆者仍然欣喜地將其視作具有巨大潛能的代碼,以后可以將這個(gè)代碼進(jìn)行升級(jí),它的應(yīng)用將不僅僅局限于此,還可以進(jìn)行學(xué)科交叉,應(yīng)用于物聯(lián)網(wǎng)、數(shù)字信號(hào)處理、電子信息處理等學(xué)科中。比如:現(xiàn)如今諸多音樂(lè)播放器都有音樂(lè)的推薦,但往往不十分準(zhǔn)確,可不可以用類似的代碼對(duì)于推薦音樂(lè)的算法進(jìn)行優(yōu)化呢?將音樂(lè)播放器用戶喜歡的音樂(lè)進(jìn)行分析,主要分析其頻譜以及相關(guān)的一些音樂(lè)參數(shù),之后在云空間中對(duì)于所有的歌曲進(jìn)行此算法的識(shí)別,正確率大于90%的推薦,否則,不予推薦,也許這樣會(huì)取得意想不到的成功。在此基礎(chǔ)上,也可能寫(xiě)出相關(guān)的APP,進(jìn)而推廣的速度大大加快。

    參考文獻(xiàn) :

    [1] 張心心.MATLAB軟件在信號(hào)與系統(tǒng)在實(shí)踐教學(xué)中的意義[J].通訊世界,2016(12),DOI:10.3969/j.issn.1006-4222.2

    016.12.048.

    [2] 生靜.高職院校數(shù)學(xué)計(jì)算軟件MATLAB教學(xué)研究[J].山東農(nóng)業(yè)工程學(xué)院學(xué)報(bào),2016(4)69-70.

    [3] 張志涌.精通MATLAB R2011a[M].北京:北京航空航天大學(xué)出版社,2011.

    [4] 張建勇,陳亮,陳雨兒,等.基于MATLAB的微分方程課堂教學(xué)設(shè)計(jì)[J].教育教學(xué)論壇,2014(52):168-169.

    [5] 湯大林.概率論與數(shù)理統(tǒng)計(jì)[M].天津:天津大學(xué)出版社,2009.

    [6] ETHEM Alpaydin.MIT.Introduction.to.Machine.Learning. [M].3rd. ed.The MIT Press:Cambridge Massachusetts,2014.

    [7] 張建勇、肖慧娟、趙一方,等.MATLAB繪圖功能在高等數(shù)學(xué)教學(xué)中的應(yīng)用[J].臺(tái)州學(xué)院學(xué)報(bào),2016(3):63-68.

    [8] 茍長(zhǎng)義.高等數(shù)學(xué)分級(jí)指導(dǎo)與提高[M].天津:天津大學(xué)出版社,2008.

    Based on MATLAB and the Analysis of the Maximum Likelihood Estimation Batten Data Rationality Kan Ruixiang

    KAN Rui-xiang

    (Tianjin Technology University Computer and communication engineering institute of Internet of things engineerings Tianjin 300380,China)

    Abstract:There are too many complicated data in our daily life and processing up has the certain difficulty. For this kind of situation, based on the theory of maximum likelihood estimation method is proposed for processing. Fast solving algorithm firstly on relevant indicators, and then simulated class division based on texture analysis, determine the reasonable classification and the number of statistical classification and data, finally based on the above results, calculate the data classification. The experimental results show that in this group of data, high accuracy of 98%, low of 80%, being of higher credibility. Through the experiment the author concluded construction of normal distribution model by using the maximum likelihood estimation, the method of providing the attribute data of wood related calculation and judging whether it is reasonable or not is feasible and reasonable

    Key words:computer ; MATLAB;normal distribution;machine learning;maximum likelihood estimation

    責(zé)任編輯 祁秀春

    猜你喜歡
    機(jī)器學(xué)習(xí)正態(tài)分布計(jì)算機(jī)
    計(jì)算機(jī)操作系統(tǒng)
    基于計(jì)算機(jī)自然語(yǔ)言處理的機(jī)器翻譯技術(shù)應(yīng)用與簡(jiǎn)介
    科技傳播(2019年22期)2020-01-14 03:06:34
    信息系統(tǒng)審計(jì)中計(jì)算機(jī)審計(jì)的應(yīng)用
    基于對(duì)數(shù)正態(tài)分布的出行時(shí)長(zhǎng)可靠性計(jì)算
    正態(tài)分布及其應(yīng)用
    基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
    基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
    前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
    基于支持向量機(jī)的金融數(shù)據(jù)分析研究
    正態(tài)分布題型剖析
    克什克腾旗| 临高县| 湘潭县| 永平县| 广饶县| 南江县| 余干县| 紫阳县| 澄城县| 菏泽市| 湘潭县| 新晃| 乾安县| 峨边| 保靖县| 延庆县| 郯城县| 鲁山县| 隆德县| 江城| 庆阳市| 山东| 云霄县| 长泰县| 遂宁市| 朝阳县| 深水埗区| 大化| 古蔺县| 闸北区| 沭阳县| 安徽省| 那坡县| 波密县| 梅州市| 平南县| 罗田县| 西畴县| 诸暨市| 吉林市| 蓬溪县|