• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于語(yǔ)義聚類的典型日負(fù)荷曲線選取方法

    2013-09-13 06:13:22孟令奎段紅偉黃長(zhǎng)青
    關(guān)鍵詞:特征詞文檔典型

    孟令奎,段紅偉,黃長(zhǎng)青,孫 琤

    (1.武漢大學(xué) 遙感信息工程學(xué)院,湖北 武漢 430079;2.中兵勘察設(shè)計(jì)研究院,北京 100053)

    0 引言

    典型日對(duì)于電力負(fù)荷特性的研究具有重要的意義,通過(guò)典型日負(fù)荷曲線可以分析地區(qū)用電特點(diǎn)和影響因素,預(yù)估負(fù)荷特性變化趨勢(shì)。目前,典型日負(fù)荷曲線的選取方法沒(méi)有統(tǒng)一的規(guī)定,主要是從簡(jiǎn)單實(shí)用的角度出發(fā)或選取某一特定日,或基于簡(jiǎn)單的加權(quán)平均,在時(shí)段代表性和區(qū)域通用性上效果不太理想[1]。有學(xué)者利用數(shù)據(jù)挖掘和人工智能技術(shù)來(lái)解決上述不足,文獻(xiàn) [2]基于最短距離聚類與關(guān)聯(lián)度分析來(lái)優(yōu)化典型日負(fù)荷曲線的選取,文獻(xiàn) [3]利用K均值聚類算法,在相關(guān)指數(shù)基礎(chǔ)上提取日負(fù)荷特征曲線。還有學(xué)者[4~6]采用了其他魯棒性更好的算法來(lái)提高聚類的精度,進(jìn)而優(yōu)化典型日負(fù)荷曲線的提取。由于在時(shí)段和區(qū)域關(guān)聯(lián)分析上缺少潛在性語(yǔ)義分析,上述方法在時(shí)段和區(qū)域的通用性上靈活性不夠。

    概率潛在語(yǔ)義分析模型 (Probabilistic Latent Semantic Analysis,PLSA)是一種自然語(yǔ)言處理(NLP)技術(shù),最初用于提取文檔的語(yǔ)義信息來(lái)實(shí)現(xiàn)文檔主題提取和分類,目前已經(jīng)廣泛用于圖像聚類[7~9]、場(chǎng)景標(biāo)注和分類[10]等方面。

    本文將典型日負(fù)荷曲線的選取問(wèn)題轉(zhuǎn)化為基于統(tǒng)計(jì)學(xué)習(xí)的多元分類問(wèn)題,利用PLSA模型將其他典型日負(fù)荷曲線提取結(jié)果作為初始特征輸入,然后對(duì)電力負(fù)荷數(shù)據(jù)進(jìn)行語(yǔ)義潛在分析,通過(guò)概率學(xué)習(xí)來(lái)優(yōu)化典型日負(fù)荷曲線的選取。

    1 PLSA模型基礎(chǔ)

    PLSA模型[11]由 Hofmann提出,最早用于統(tǒng)計(jì)文本分析。PLSA通過(guò)分析由文檔和詞匯形成的共生矩陣,利用期望最大化算法 (Expectation Maximization,EM)來(lái)訓(xùn)練隱含類,從而獲取文檔與詞匯的語(yǔ)義信息。

    PLSA概率生成模型如圖1所示,其中方框表示隨機(jī)變量的重復(fù),字母N和M表示有N個(gè)目標(biāo),每個(gè)目標(biāo)可以用M個(gè)特征來(lái)描述。假定M個(gè)特征組成一組特征集 W={w1,w2,…,wm},其描述的N個(gè)目標(biāo)形成一個(gè)目標(biāo)集為 D={d1,d2,… ,dn},D和W形成一個(gè) N×M的共生矩陣 T=(t(wi,dj))ij,其中 t(wi,dj) 表示特征 wi在目標(biāo) dj中出現(xiàn)的頻率。共生矩陣T中,每一對(duì)觀測(cè)數(shù)據(jù)(wi,dj) 與一組潛在語(yǔ)義主題 Z={z1,z2,…,zk}相關(guān),其中k為人為指定的一個(gè)常數(shù)。

    PLSA在上述描述基礎(chǔ)上建立了一個(gè)生成式模型 (generative model),每對(duì) (wi,dj)都由下述過(guò)程產(chǎn)生。

    (1)首先根據(jù)目標(biāo)dj在目標(biāo)集D中出現(xiàn)的分布概率P(dj)從D中隨機(jī)抽樣選擇一個(gè)目標(biāo)dj;

    (2)選定 dj后,根據(jù) dj的主題 zk分布概率P(zk|dj)抽樣選擇dj的語(yǔ)義主題zk;

    (3)選定語(yǔ)義主題zk后,根據(jù)P(wi|zk)選擇 dj的特征詞 wi。

    上述過(guò)程中每組觀測(cè)數(shù)據(jù) (wi,dj)條件概率可以采用聯(lián)合概率模型來(lái)描述其概率分布,具體公式如式 (1)和式 (2)所示。

    圖1 PLSA概率生成模型圖Fig.1 The chart of PLSA probabilistic generative model

    P(w|z)和P(z|d)通過(guò)極大似然函數(shù)求解,函數(shù)定義如式 (3)[12]所示。

    似然函數(shù)L的最大化需要采用期望極大化(EM)算法進(jìn)行多次迭代,當(dāng)滿足收斂條件時(shí)停止迭代,獲得文檔與詞匯的語(yǔ)義信息。

    EM算法在兩個(gè)步驟交替,即 E-Step和 MStep。E-Step利用當(dāng)前估計(jì)的參數(shù)值計(jì)算潛在主題zk的后驗(yàn)概率 P(zk|wi,dj),如式(4)所示;M-Step基于所給后驗(yàn)概率更新參數(shù)值P(wi|zk)和P(zk|dj)。

    2 方法流程

    同其它數(shù)據(jù)挖掘和人工智能方法相比,PLSA模型的優(yōu)勢(shì)在于可以將這些方法的結(jié)果作為初始輸入,通過(guò)概率分析找到潛在的類別信息,從而進(jìn)一步優(yōu)化目標(biāo)識(shí)別和分類,并能建立識(shí)別和分類模型。

    圖2為基于PLSA的典型日選取方法流程圖。如圖2所示,將PLSA模型應(yīng)用于典型日負(fù)荷曲線選取時(shí)包括以下幾個(gè)步驟。

    (1)構(gòu)建特征詞-目標(biāo)矩陣

    首先利用適當(dāng)?shù)牟呗?,如特殊日法、加?quán)平均法、智能算法或綜合方法生成一組典型日。然后綜合考慮聚多種因素,將典型日進(jìn)行初始選取,選取結(jié)果形成一個(gè)觀測(cè)特征詞集合。根據(jù)電力負(fù)荷曲線結(jié)合的時(shí)間特性,對(duì)其進(jìn)行時(shí)段劃分,形成目標(biāo)文檔。最后將目標(biāo)文檔中的各電力負(fù)荷曲線同觀測(cè)特征值進(jìn)行閾值計(jì)算,統(tǒng)計(jì)各文檔中觀測(cè)特征值的頻數(shù),獲取特征詞-目標(biāo)共生矩陣。

    (2)計(jì)算文檔中特征詞的主題

    PLSA模型計(jì)算主題時(shí),首先需要確定主題(即聚類的類別)的數(shù)目,通過(guò)采用最優(yōu)指標(biāo)算法來(lái)求解最佳主題數(shù),從而形成最優(yōu)的聚類結(jié)果。然后根據(jù)主題數(shù)目和特征詞-目標(biāo)共生矩陣計(jì)算PLSA模型參數(shù)P(wi|zk),P(zk|dj)和P(zk|wi,dj),P(zk|wi,dj) 是一個(gè) 3 維矩陣,從中可以獲得每個(gè)目標(biāo)文檔中特征詞的潛在主題。

    (3)獲取各電力負(fù)荷曲線的主題

    在 (1)中,電力負(fù)荷曲線同特征詞的對(duì)應(yīng)關(guān)系可以通過(guò)哈希表進(jìn)行記錄,通過(guò)兩者的對(duì)應(yīng)關(guān)系,可以從P(zk|wi,dj)中獲得各電力負(fù)荷曲線的潛在主題,從而可以對(duì)日負(fù)荷曲線進(jìn)行新的類別劃分,形成新的聚類。

    (4)基于策略獲取典型日簇

    在求得的電力負(fù)荷曲線類別簇中,根據(jù)實(shí)際情況可以采用不同的典型日選取策略,從而建立進(jìn)而獲得各類別簇的典型日。這些典型日形成典型日簇,能夠代表時(shí)段內(nèi)不同時(shí)期的典型電力負(fù)荷。

    圖2 基于PLSA的典型日選取方法流程圖Fig.2 Typical day load selection flow chart based on PLSA

    3 實(shí)驗(yàn)與分析

    本文實(shí)驗(yàn)所用數(shù)據(jù)為某地區(qū)2007全年統(tǒng)調(diào)負(fù)荷曲線,每日負(fù)荷曲線為96個(gè)采樣點(diǎn),即采樣間隔15 min。初始的典型日采用K均值法聚類方法對(duì)上述數(shù)據(jù)計(jì)算求得。

    原始數(shù)據(jù)由EMS(Energy Manage System)系統(tǒng)自動(dòng)采集獲取,可能出現(xiàn)個(gè)別采樣點(diǎn)缺失、激變性壞數(shù)據(jù),因此在使用數(shù)據(jù)前需進(jìn)行數(shù)據(jù)預(yù)處理。圖3為經(jīng)過(guò)通過(guò)臨近負(fù)荷曲線分析,通過(guò)內(nèi)插得到的預(yù)處理結(jié)果。

    圖3 預(yù)處理后日負(fù)荷曲線簇Fig.3 preprocessing Typical Day Load Curves

    3.1 特征詞-目標(biāo)文檔共生矩陣

    為了建立特征詞-目標(biāo)文檔矩陣,本文首先基于K均值聚類方法,以聚類數(shù)為25得到25條聚類負(fù)荷曲線,每個(gè)聚類負(fù)荷曲線作為一個(gè)特征詞;然后將2007年全年負(fù)荷曲線按照季度劃分,從而建立4個(gè)觀測(cè)目標(biāo)文檔;最后計(jì)算各特征詞在目標(biāo)文檔中出現(xiàn)的頻數(shù),從而建立特征詞-目標(biāo)文檔共生矩陣。

    表1為建立4×25的目標(biāo) -特征詞共生矩陣,矩陣單元代表了特征詞在目標(biāo)中出現(xiàn)的頻數(shù)。

    表1 4×25目標(biāo)文檔-特征詞共生矩陣Tab.1 4 × 25 target document-characteristic words co-occurrence matrix

    3.2 PLSA主題數(shù)目

    PLSA模型計(jì)算中主題數(shù)目直接影響聚類結(jié)果。為了得到最佳的聚類結(jié)果,本文采用Davies-Bouldin(DB)[13]對(duì)聚類主題進(jìn)行分析。DB是關(guān)于聚類內(nèi)部緊致性和聚類之間分離度的有效性函數(shù),其函數(shù)表達(dá)式如下式所示。

    式中:k表示聚類個(gè)數(shù);Si獲取聚類內(nèi)部的緊致性;Bij獲得聚類之間分離度;DB值最小的k值表示最優(yōu)化主題數(shù)目。

    圖4為不同聚類主題數(shù)同DB指標(biāo)關(guān)系圖,從圖中可以看出,聚類主題數(shù)取2時(shí),DB指標(biāo)最高,代表聚類效果差。當(dāng)聚類主題數(shù)大于3時(shí),指標(biāo)下降并基本趨于穩(wěn)定。根據(jù)實(shí)際工作分析,本文選取聚類主題數(shù)k=5作為PLSA模型的主題數(shù)。

    圖4 聚類主題數(shù)同DB指標(biāo)關(guān)系Fig.4 The relationship between cluster number and DB Index

    3.3 PLSA模型計(jì)算

    PLSA通過(guò) EM迭代計(jì)算,其中 E-Step迭代計(jì)算潛在主題 zk的后驗(yàn)概率P(zk|wi,dj),M-Step基于P(zk|wi,dj)更新參數(shù)值P(wi|zk)和P(zk|dj)。在迭代過(guò)程中,利用上述參數(shù)計(jì)算 Log似然度,當(dāng)滿足收斂條件時(shí)停止迭代。

    (1)收斂條件設(shè)定

    為了設(shè)定收斂條件,假設(shè)PLSA第i(i>1)次迭代計(jì)算的 Log似然度 L(i),dL(i)為 L(i)和L(i-1)的差值。當(dāng)dL(i)小于設(shè)定的閾值時(shí)則迭代結(jié)束。

    圖5為閾值設(shè)定為0.01時(shí),dL的變化趨勢(shì)。當(dāng)?shù)螖?shù)為34時(shí),dL小于閾值,迭代結(jié)束。由于迭代計(jì)算中,各計(jì)算概率首先基于隨機(jī)參數(shù),所以在迭代初期,dL的數(shù)值和變化較大,隨著跌代數(shù)的增加,其數(shù)值和變化越來(lái)越小。

    圖5 dL迭代變化圖Fig.5 dL iteration chang chart

    (2)Log似然度

    Log似然度計(jì)算是PLSA模型計(jì)算的重要步驟,它不僅用于計(jì)算P(w|z)和P(z|d)概率參數(shù),同時(shí)也關(guān)系到迭代計(jì)算的收斂。

    圖6為L(zhǎng)og似然度隨迭代變化圖,其中橫坐標(biāo)代表代表迭代次數(shù),縱坐標(biāo)代表Log似然度。為了描述方便,本文將Log似然度進(jìn)行歸一化處理。

    圖6 Log似然度迭代變化圖Fig.6 Log-Likelihood iteration change chart

    可以看出,從第1次到第13次迭代,Log似然度收斂很快,而當(dāng)?shù)螖?shù)大于等于30的時(shí)候,Log似然度變化很小,基本上不再變化。表2為30至34迭代的歸一化Log似然度同dl的對(duì)照表。

    表2 30~34迭代的歸一化Log似然度同dl的對(duì)照表Tab.2 30 ~ 34 iteration comparison chart of Normalized Log-Likelihood and dl values

    3.4 典型日負(fù)荷曲線選取

    通過(guò)PLSA模型計(jì)算,可以獲得最終的概率參 數(shù), 包 括 P(zk|wi,dj),P(wi|zk) 和P(zk|dj)。而P(zk|wi,dj)為 4×25×5的三維矩陣,記錄了每個(gè)目標(biāo)文檔中特征詞的潛在主題的概率。由于初始聚類時(shí),各電力負(fù)荷曲線同特征詞之間具有對(duì)應(yīng)關(guān)系,因此可以通過(guò)對(duì)應(yīng)關(guān)系獲得各電力負(fù)荷曲線的潛在主題,形成新的聚類,進(jìn)而在各聚類中選取典型日。

    在各聚類中選取典型日,需根據(jù)實(shí)際工作情況,通過(guò)一定的選取策略獲得典型日負(fù)荷。這些策略一般基于最大負(fù)荷日,或者基于固定工作日,或者依據(jù)選擇一定天數(shù)的日負(fù)荷曲線進(jìn)行加權(quán)計(jì)算獲得,或者利用人工智能算法來(lái)獲取典型日,由于人工智能算法能夠減少隨機(jī)因素和主觀因素的影響,本文基于距聚類中心的平方差最小的選取方法來(lái)提取出最具代表性的負(fù)荷曲線。圖7為歸一化后的選取結(jié)果,5條典型日負(fù)荷曲線分別為2007年的2月23日、3月11日、5月30日、9月8日、11月5日。

    圖7 歸一化后的典型日負(fù)荷曲線Fig.7 Normalized Typical Day Load Curve

    在分析2007年氣候和節(jié)假日狀況后發(fā)現(xiàn),2月22日處于春節(jié)長(zhǎng)假期間,而其他4條日負(fù)荷曲線則反映2007年的春、夏、秋、冬4個(gè)季節(jié)的電力負(fù)荷特征??梢钥闯霰疚姆椒ㄕ_有效,能夠較好的反映節(jié)假日、氣候等要素對(duì)電力負(fù)荷的影響,同時(shí)由于采用了概率分析的方法,減少了主觀和隨機(jī)因素,對(duì)時(shí)間和區(qū)域的適應(yīng)性較好。

    4 結(jié)論

    本文將典型日負(fù)荷曲線的選取問(wèn)題轉(zhuǎn)化為基于統(tǒng)計(jì)學(xué)習(xí)的多元分類問(wèn)題,并將PLSA引入到問(wèn)題求解過(guò)程中,在 K均值聚類算法和 Davies-Bouldin指標(biāo)的基礎(chǔ)上,利用PLSA模型對(duì)電力負(fù)荷數(shù)據(jù)進(jìn)行語(yǔ)義潛在分析,從而優(yōu)化典型日負(fù)荷曲線的選取。實(shí)驗(yàn)表明,本文方法選取的典型日合理,能夠較好的反映節(jié)假日、氣候等要素對(duì)電力負(fù)荷的影響,適應(yīng)于任意時(shí)段電力負(fù)荷曲線的選取。

    然而同圖像、文本聚類相比,目前電力負(fù)荷曲線的聚類效果沒(méi)有具體的量化指標(biāo),而且典型日選擇時(shí)需要綜合考慮各種情況,帶有一定的預(yù)測(cè)性質(zhì),因此給出電力負(fù)荷曲線聚類質(zhì)量的量化指標(biāo)較為困難,也是進(jìn)一步研究的內(nèi)容。

    [1]牛東曉,曹樹華,盧建昌,等.電力負(fù)荷預(yù)測(cè)技術(shù)及其應(yīng)用 (第二版) [M].北京:中國(guó)電力出版社,2009.

    [2]蔡國(guó)偉,王大亮,王燕濤,等.一種基于最短距離聚類與關(guān)聯(lián)度分析的典型日選取新方法 [J].中國(guó)電力,2008,41(04):15-18.

    [3]劉莉,王剛,翟登輝.k-means聚類算法在負(fù)荷曲線分類中的應(yīng)用 [J].電力系統(tǒng)保護(hù)與控制,2011,39(23):65-73.

    [4]黎祚,周步祥,林楠.基于模糊聚類與改進(jìn)BP算法的日負(fù)荷特性曲線分類與短期負(fù)荷預(yù)測(cè) [J].電力系統(tǒng)保護(hù)與控制,2012,40(3),56-60.

    [5]李智勇,吳晶瑩,吳為麟,等.基于自組織映射神經(jīng)網(wǎng)絡(luò)的電力用戶負(fù)荷曲線聚類 [J].電力系統(tǒng)自動(dòng)化,2008,32(15):70-74.

    [6]蔡佳宏,劉俊勇.超短期負(fù)荷預(yù)測(cè)中相似日的選擇方法 [J].華北電力大學(xué)學(xué)報(bào) (自然科學(xué)版),2006,33(1):38-41.

    [7]Yi W B,Tang H,Chen Y H.An object-oriented semantic clustering algorithm for High-resolution remote sensing images using the aspect model[J].IEEE Geoscience ang Remote Sensing Letters,2011,8(03):522-526.

    [8]陶超,譚毅華,彭碧發(fā),等.一種基于概率潛在語(yǔ)義模型的高分辨率遙感影像分類方法 [J].測(cè)繪學(xué)報(bào),2011,40(2):156-162.

    [9]劉夢(mèng)玲,何楚,蘇鑫,等.基于 pLSA和 Topo-MRF模型的SAR圖像分類算法研究 [J].武漢大學(xué)學(xué)報(bào) (信息科學(xué)版),2011,36(1):122-125.

    [10]江悅,潤(rùn)生.基于多特征擴(kuò)展 PLSA模型的場(chǎng)景圖像分類 [J].信號(hào)處理,2010,26(4):539-544.

    [11]Hofmann T.Unsupervised learning by probabilistic latent semantic analysis[J].Machine Learning,2001,42(2):177-196.

    [12]鄭肇葆,鄭宏.利用PLSA技術(shù)進(jìn)行圖像分割 [J].武漢大學(xué)學(xué)報(bào) (信息科學(xué)版),2012,37(2):132-135.

    [13]白素琴,吳小俊.基于模糊聚類算法的有效性指標(biāo)[J].江南大學(xué)學(xué)報(bào) (自然科學(xué)版),2007,6(6):878-882.

    猜你喜歡
    特征詞文檔典型
    用最典型的事寫最有特點(diǎn)的人
    多項(xiàng)式求值題的典型解法
    有人一聲不吭向你扔了個(gè)文檔
    典型胰島素瘤1例報(bào)道
    基于改進(jìn)TFIDF算法的郵件分類技術(shù)
    產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    面向文本分類的特征詞選取方法研究與改進(jìn)
    不讓他人隨意下載Google文檔
    電腦迷(2012年4期)2012-04-29 06:12:13
    绥中县| 延川县| 莲花县| 东至县| 翁牛特旗| 银川市| 江达县| 且末县| 和硕县| 元朗区| 铁岭县| 合肥市| 安康市| 永平县| 永靖县| 舟山市| 通榆县| 遂平县| 姚安县| 德庆县| 敦煌市| 涪陵区| 益阳市| 清水河县| 镇原县| 哈密市| 永仁县| 珲春市| 永州市| 察隅县| 和田县| 图木舒克市| 宁晋县| 定襄县| 张家川| 日喀则市| 平顶山市| 新和县| 崇州市| 屯门区| 南汇区|