【關(guān)鍵詞】灰色關(guān)聯(lián)規(guī)則算法;電力營(yíng)銷;營(yíng)銷信息;多標(biāo)簽分類;分類方法
大數(shù)據(jù)時(shí)代的來(lái)臨,使得我國(guó)電力企業(yè)的營(yíng)銷信息呈現(xiàn)出爆炸式增長(zhǎng)態(tài)勢(shì)。多標(biāo)簽分類是處理具有多個(gè)標(biāo)簽的樣本數(shù)據(jù)的重要技術(shù),可以對(duì)電力營(yíng)銷信息進(jìn)行更細(xì)致、更全面的分析,為電力企業(yè)的市場(chǎng)策略制定和優(yōu)化提供有力支持。近年來(lái),隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,越來(lái)越多研究者開始關(guān)注如何將這些先進(jìn)技術(shù)應(yīng)用于多標(biāo)簽分類領(lǐng)域。楊峰等(2023)提出了一種基于量子競(jìng)爭(zhēng)決策算法的電力營(yíng)銷信息多標(biāo)簽分類方法,旨在提高分類的穩(wěn)定性和效率,但是該方法涉及量子計(jì)算和深度學(xué)習(xí)的技術(shù),需要專業(yè)的知識(shí)和經(jīng)驗(yàn)。[1]任彥凝等(2024)對(duì)一種融合標(biāo)簽信息的多標(biāo)簽文本分類方法進(jìn)行研究,但是在處理多個(gè)標(biāo)簽之間的關(guān)系和語(yǔ)義信息時(shí),該方法的計(jì)算復(fù)雜度相對(duì)較高。[2]這可能導(dǎo)致在處理大規(guī)模文本數(shù)據(jù)集時(shí),訓(xùn)練和預(yù)測(cè)的速度較慢,需要更多的計(jì)算資源和時(shí)間。因此,本文設(shè)計(jì)了一種基于灰色關(guān)聯(lián)規(guī)則算法的電力營(yíng)銷信息多標(biāo)簽分類方法,期望能夠解決傳統(tǒng)分類方法在處理高維度、非線性的電力營(yíng)銷信息時(shí)存在的問(wèn)題,促進(jìn)電力行業(yè)的可持續(xù)發(fā)展。
實(shí)際采集過(guò)程中,電力營(yíng)銷數(shù)據(jù)的質(zhì)量往往難以得到完全保障。本文首要任務(wù)就是對(duì)電力營(yíng)銷信息文本數(shù)據(jù)進(jìn)行預(yù)處理[3]。首先,為消除原始電力營(yíng)銷信息文本數(shù)據(jù)中的噪聲,本文引入詞頻—逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法對(duì)數(shù)據(jù)進(jìn)行清洗處理。該算法先通過(guò)計(jì)算每個(gè)詞在文檔中的出現(xiàn)頻率以及在整個(gè)語(yǔ)料庫(kù)中的稀有程度,來(lái)衡量一個(gè)詞在文檔中的重要性,如式(1)所示。
式中,P0(Ci)表示電力營(yíng)銷信息文檔C中第i個(gè)詞的TF-IDF值,P1(Ci)表示電力營(yíng)銷信息文檔C中第i個(gè)詞的詞頻,P2(C)表示電力營(yíng)銷信息文檔C的逆文檔頻率,iCn表示電力營(yíng)銷信息文檔C中第i個(gè)詞出現(xiàn)的次數(shù),NC表示電力營(yíng)銷信息文檔C中詞的數(shù)量,M表示語(yǔ)料庫(kù)中電力營(yíng)銷信息文檔的數(shù)量,iCm表示語(yǔ)料庫(kù)中包含詞i的電力營(yíng)銷信息文檔數(shù)量。技術(shù)人員根據(jù)電力營(yíng)銷信息文本數(shù)據(jù)的實(shí)際情況,設(shè)定一個(gè)合理閾值對(duì)式(1)所求TF-IDF值進(jìn)行過(guò)濾,將低于閾值的詞(噪聲詞)去除,以此提高電力營(yíng)銷信息文本數(shù)據(jù)的純凈度。
此外,由于我國(guó)電力企業(yè)的營(yíng)銷數(shù)據(jù)可能來(lái)源于多個(gè)系統(tǒng)或部門,如客戶管理系統(tǒng)、交易記錄系統(tǒng)、服務(wù)反饋系統(tǒng)等,這些數(shù)據(jù)在格式、單位和量綱上存在一定差異,所以還需要對(duì)原始不同源頭的電力營(yíng)銷信息文本數(shù)據(jù)進(jìn)行集成處理[4]。本文先通過(guò)數(shù)據(jù)映射來(lái)建立各數(shù)據(jù)源之間的連接關(guān)系,映射時(shí)主要采用XSLT語(yǔ)言編寫數(shù)據(jù)源代碼,并利用XML文檔翻譯代碼,然后按照上述映射關(guān)系進(jìn)行不同來(lái)源數(shù)據(jù)的連接整合,形成一個(gè)統(tǒng)一的數(shù)據(jù)集??傊ㄟ^(guò)數(shù)據(jù)清洗與數(shù)據(jù)集成,電力營(yíng)銷信息文本數(shù)據(jù)的質(zhì)量得到顯著提升,為后續(xù)多標(biāo)簽分類提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
灰色關(guān)聯(lián)規(guī)則算法作為一種基于灰色系統(tǒng)理論的數(shù)據(jù)分析方法,在電力營(yíng)銷中,引入該算法可以識(shí)別并提取出與電力營(yíng)銷信息最為相關(guān)的特征[5],有助于從海量文本信息數(shù)據(jù)中篩選出對(duì)分類結(jié)果更具決定性影響的特征。
首先,技術(shù)人員需要確定電力營(yíng)銷信息數(shù)據(jù)的參考序列和比較序列。其中,參考序列通常是反映系統(tǒng)行為特征的數(shù)據(jù)序列,所以本文將電力營(yíng)銷文本信息的標(biāo)簽當(dāng)作參考序列,設(shè)為(){}001,2,XxttT==???,其中t為時(shí)刻,T為序列個(gè)數(shù);比較序列則是影響系統(tǒng)行為的因素序列,所以本文將電力營(yíng)銷文本信息的關(guān)鍵特征當(dāng)作比較序列,設(shè)為(){}1,2,iiXxttT==???。
然后,技術(shù)人員需要進(jìn)行參考與比較序列之間關(guān)聯(lián)度的計(jì)算,主要用于衡量二者之間的關(guān)聯(lián)程度。本文采用灰色關(guān)聯(lián)規(guī)則算法中的鄧氏關(guān)聯(lián)度計(jì)算方法,如式(4)所示。
式中,η(t)表示電力營(yíng)銷文本信息數(shù)據(jù)特征和電力營(yíng)銷文本信息標(biāo)簽之間的灰色關(guān)聯(lián)系數(shù);μ表示分辨系數(shù),一般取值為0.5。在根據(jù)式(4)計(jì)算出每一個(gè)比較序列與參考序列在各個(gè)時(shí)刻點(diǎn)的關(guān)聯(lián)度之后,按從大到小順序排序,即可得到電力營(yíng)銷信息的灰色關(guān)聯(lián)序列,再根據(jù)以下相應(yīng)決策規(guī)則確定關(guān)鍵特征:提取的關(guān)鍵特征而具有最大灰色關(guān)聯(lián)度的規(guī)則;提取的關(guān)鍵特征需和其他特征的灰色關(guān)聯(lián)度差值大于設(shè)定閾值的規(guī)則。因此,根據(jù)實(shí)際情況選擇合適閾值,基于上述規(guī)則進(jìn)行電力營(yíng)銷信息文本數(shù)據(jù)關(guān)鍵特征的判定與提取,作為后續(xù)多標(biāo)簽分類模型的輸入。
在根據(jù)上述步驟提取出電力營(yíng)銷信息文本數(shù)據(jù)的關(guān)鍵特征后,技術(shù)人員即可根據(jù)該特征進(jìn)行信息的多標(biāo)簽分類[6]。綜合考慮電力營(yíng)銷信息的特點(diǎn),本文構(gòu)建了一個(gè)結(jié)合Transformer模型與生成式主題模型(Latent Dirichlet Allocation,LDA)主題模型的TRM-LDA多標(biāo)簽分類模型[7]。首先,技術(shù)人員把提取的關(guān)鍵特征輸入TRM-LDA模型,LDA模塊會(huì)通過(guò)分析文本中詞的共現(xiàn)關(guān)系,發(fā)現(xiàn)潛在的主題結(jié)構(gòu),以此生成待匹配標(biāo)簽,如式(5)所示:
(一)實(shí)驗(yàn)數(shù)據(jù)
為了對(duì)本文提出的電力營(yíng)銷信息多標(biāo)簽分類方法進(jìn)行有效性驗(yàn)證,以下引入楊峰等(2023)和任彥凝等(2024)的兩種方法,展開仿真對(duì)比實(shí)驗(yàn)。本次仿真對(duì)比實(shí)驗(yàn)中以某電力企業(yè)在2020年期間的電力營(yíng)銷信息為實(shí)驗(yàn)數(shù)據(jù),部分樣本如表1所示。
以表1中的1000組電力營(yíng)銷信息為實(shí)驗(yàn)數(shù)據(jù)樣本,分別采用本文方法、楊峰等(2023)方法和任彥凝等(2024)方法對(duì)實(shí)驗(yàn)數(shù)據(jù)樣本進(jìn)行多標(biāo)簽分類,對(duì)比不同方法所得的分類結(jié)果。
(二)仿真結(jié)果
在完成三種方法的多標(biāo)簽分類任務(wù)后,為評(píng)估各方法在分類中的性能,本文引入宏平均1γ與微平均2γ作為實(shí)驗(yàn)指標(biāo),其計(jì)算公式如式(7)所示:
式中,F(xiàn)1(i)表示電力營(yíng)銷信息標(biāo)簽i分類結(jié)果的F1值,I表示電力營(yíng)銷信息的整體標(biāo)簽集合,α表示電力營(yíng)銷信息多標(biāo)簽分類結(jié)果的準(zhǔn)確率,β表示電力營(yíng)銷信息多標(biāo)簽分類結(jié)果的召回率。在多標(biāo)簽分類任務(wù)中,宏平均和微平均是度量分類性能的關(guān)鍵指標(biāo),其值越大,則分類性能越優(yōu)良。為了避免實(shí)驗(yàn)結(jié)果的偶然性,實(shí)驗(yàn)從表1所示的樣本集中,隨機(jī)抽取不同百分比的數(shù)據(jù)進(jìn)行多標(biāo)簽分類。在經(jīng)過(guò)計(jì)算和統(tǒng)計(jì)之后,各方法下的分類結(jié)果如圖1所示:
本文提出了一種基于灰色關(guān)聯(lián)規(guī)則算法的電力營(yíng)銷信息多標(biāo)簽分類方法,文中通過(guò)灰色關(guān)聯(lián)算法提取了預(yù)處理后的電力營(yíng)銷信息文本數(shù)據(jù)的關(guān)鍵特征,并利用TRM-LDA模型實(shí)現(xiàn)了對(duì)電力營(yíng)銷信息的有效分類。未來(lái)的研究可進(jìn)一步完善和優(yōu)化本文提出的分類方法,為電力企業(yè)的營(yíng)銷決策提供更有力的支持。