摘 要:供電企業(yè)職工技術(shù)素質(zhì)直接關(guān)系到電網(wǎng)的正常運轉(zhuǎn),因此對職工進行專業(yè)訓練是十分必要的。本文針對電力企業(yè)員工培訓系統(tǒng)培訓問題、技術(shù)發(fā)展等現(xiàn)狀進行探討,結(jié)合AI和大數(shù)據(jù)設計電力企業(yè)員工培訓系統(tǒng)。本文采用FCM聚類算法、特征選擇算法、隨機森林算法以及協(xié)同過濾算法對數(shù)據(jù)進行處理。結(jié)果表明,AI大數(shù)據(jù)抓取下的電力企業(yè)員工培訓系統(tǒng)數(shù)據(jù)可視化,能夠了解培訓系統(tǒng)方向,員工掌握狀況,并提供最優(yōu)推薦方案。
關(guān)鍵詞:電力企業(yè)員工培訓系統(tǒng);大數(shù)據(jù);可視化
中圖分類號:F 27" 文獻標志碼:A
大數(shù)據(jù)人工智能(Big Data AI)是運用大數(shù)據(jù)對數(shù)據(jù)進行智能加工與自動管理,從而提升企業(yè)與社會的工作效能與智慧水平。在當前的數(shù)字化時代,隨著數(shù)據(jù)規(guī)??焖僭黾右约叭斯ぶ悄艿娘w速發(fā)展,大數(shù)據(jù)的人工智能已經(jīng)是企業(yè)和社會不可或缺的一項技術(shù)。大數(shù)據(jù)的研究重點在于對海量的海量數(shù)據(jù)進行深度挖掘與分析,進而為企業(yè)與社會實現(xiàn)智能化的決策支撐與自動管理。這就要求綜合運用大數(shù)據(jù)、人工智能、計算機科學技術(shù)以及計算機技術(shù)等多學科的理論與技術(shù),實現(xiàn)更加高效、智能化的數(shù)據(jù)分析與應用。
大數(shù)據(jù)AI正逐漸滲透到人們的日常工作中。互聯(lián)網(wǎng)已經(jīng)不再只是一項科技,更是一股巨大的變革力,正在逐步地影響企業(yè)的經(jīng)營和社會運行。對大數(shù)據(jù)進行深度挖掘,發(fā)現(xiàn)其中蘊含的深層規(guī)律,從而幫助企業(yè)與社會作出更加準確的決策,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新興科技的快速發(fā)展使海量的數(shù)據(jù)呈現(xiàn)爆炸式增長,而現(xiàn)有的分析手段已難以適應新時代的需要。大數(shù)據(jù)具有巨大的數(shù)據(jù)規(guī)模和復雜的組織形式,為人工智能的發(fā)展創(chuàng)造了條件。利用機器學習、深度學習等人工智能方法,將海量的大數(shù)據(jù)轉(zhuǎn)換成有價值的知識,并從中挖掘出規(guī)律與關(guān)聯(lián)。
大數(shù)據(jù)AI最大的優(yōu)點就是對海量數(shù)據(jù)有深刻理解。該算法不但可以對一般的統(tǒng)計資料進行處理,還可以對圖像、聲音、文字等進行有效處理。隨著信息時代的到來,智能化正在逐步向社會的各個領(lǐng)域深入發(fā)展,包括電力企業(yè)在內(nèi)。在此基礎(chǔ)上,結(jié)合人工智能技術(shù)和大數(shù)據(jù)技術(shù),提出了一種基于人工智能技術(shù)的人才培養(yǎng)模式。本文提出了一種面向大規(guī)模并行計算的方法,為了提高職工的工作能力,提高企業(yè)的效率和績效,是非常重要的。
1 基于AI大數(shù)據(jù)抓取下的電力企業(yè)員工培訓系統(tǒng)算法研究
1.1 功能分析
在電力企業(yè)員工培訓系統(tǒng)建設中,重點是應用人工智能大數(shù)據(jù)分析技術(shù)。在訓練過程中,數(shù)據(jù)量非常大,因此要求對其功能與架構(gòu)進行設計。在電力企業(yè)員工培訓系統(tǒng)中,有基本的功能模塊,也有以信息顯示、課程管理、培訓管理等為主要作用的,其中,培訓管理和員工管理是以員工的學習信息和課程信息為中心的。針對企業(yè)員工的多元化培訓需要,在培訓內(nèi)容和方法上進行個性化定制,提升培訓效果。在此基礎(chǔ)上,本文提出了一種基于網(wǎng)絡的新型人力資源管理方法,可以對培訓課程進行選擇,參與培訓等方面的操作。
1.2 相關(guān)算法
1.2.1 特征指標的提取
NCA算法的原理是以度量方式為馬氏距離的KNN分類算法為基礎(chǔ),不斷對算法進行處理,最終獲得數(shù)據(jù)降維后的轉(zhuǎn)換矩陣[4]。其中,KNN分類算法隨機選取兩個樣本為列向量,將原始數(shù)據(jù)集中的任意兩個樣本表示為xi (1≤i≤n)和xj(1≤j≤n)。Axi和Axj表示兩個樣本的轉(zhuǎn)換矩陣,行數(shù)均為,列數(shù)均為D,其中d為降維后的維度,D為原始數(shù)據(jù)維度。
設pij為映射空間中歐式距離的歸一化指數(shù)函數(shù)的概率值,其計算過程如公式(1)所示。
(1)
設pi為樣本i能被正確分類的概率,其計算過程如公式(2)所示。
(2)
式中:Ci 為與樣本i屬于同一類樣本的集合。
則優(yōu)化目標函數(shù)f(A)的計算過程如公式(3)所示。
(3)
根據(jù)公式(3),連續(xù)可微的矩陣函數(shù)結(jié)合算法,使f(A)最大化。對f(A)進行求偏導來優(yōu)化學習,用梯度法計算矩陣A,其梯度的計算過程如公式(4)、公式(5)所示。
(4)
xij=xi-xj " " " " " " " " " " " "(5)
簡化后的表達式如公式(6)所示。
(6)
根據(jù)公式(6)得出,傳達室可設定迭代次數(shù)和矩陣A的初始值A(chǔ)0。
假設學習率為β,A0的表達式如公式(7)所示。
A0=A0+βf '(A0) " " " " " " " " " "(7)
當求得矩陣A為非方陣時,即D≠d時,其維度為d。當D=d時,不用降維,但可實現(xiàn)距離測度學習,NCA分析方法降維時,分類模型可不設參數(shù),矩陣計算不復雜。
1.2.2 隨機森林算法
隨機森林包括多棵決策樹,可以用來執(zhí)行回歸和分類任務的機器學習算法。其輸出類別是由多棵決策樹的輸出類別的眾數(shù)所決定。
用N表示樣本個數(shù),M表示特征個數(shù)。從容量為N的原樣本集中進行重復抽樣,每次抽取的樣本容量也都為N ,抽樣N次,形成N個訓練集。這樣每次抽樣時原樣本集中數(shù)據(jù)未被抽中的概率為。
當N很大時,1/e為概率值,趨于0.368,如公式(8)所示。
(8)
這表示每次抽樣時,原樣本集中的數(shù)據(jù)有大概37%的樣本不會被抽中,這些數(shù)據(jù)是袋外數(shù)據(jù)。未被抽中的數(shù)據(jù)集可直接作為測試集,用于測試模型的預測精度。
按一定比例確定特征數(shù)(通常取總特征數(shù)的平方根),輸入k(k<K)個特征,作為決策樹上的決策點。以基尼系數(shù)下降最快來確定最優(yōu)的特征,將其作為決策點。用公式(9)求得基尼系數(shù)。
(9)
訓練完成形成N棵決策樹,用這N棵決策樹對分類結(jié)果進行簡單投票決定隨機森林模型最后輸出的分類結(jié)果。
例如現(xiàn)有由h1(x),h2(x),…,hk(x)構(gòu)成的隨機森林,邊際函數(shù)定義如公式(10)所示。
(10)
式中:mg(X,Y)為邊際函數(shù);avk(I(hk(X)=j))為正確分類下得到的票數(shù);為不正確分類的情況下得到得票數(shù)多。
邊際函數(shù)的意思是在正確分類的情況下得到的票數(shù)比在不正確分類的情況下得到的票數(shù)多的程度,函數(shù)越大,說明原分類器分類效果越可靠。
泛化誤差PE*定義如公式(11)所示。
PE*=PX,Y(mg(X,Y)lt;0)" " " " " " " " " " (11)
式中:X、Y為概率定義空間。
隨機森林邊緣函數(shù)如公式(12)所示。
(12)
式中:P(hk(X)=Y)是正確判斷的概率;為錯誤判斷的概率最大值。
當每棵決策樹生成隨機森林時,總是有一個初始數(shù)據(jù)集和沒有被抽取的數(shù)據(jù)集Ok(x)。 Q(x,yi)的計算過程如公式(13)所示。
(13)
式中: Q(x,yi)為x在Ok(x)中yj的比例,為正確分類的概率估計,由此可對隨機森林強度和相關(guān)性進行分析。
隨機森林強度定義如公式(14)所示。
(14)
將公式(13)代入公式(14),得到公式(15)。
(15)
隨機森林相關(guān)度定義如公式(16)所示。
(16)
式中:pu為I(ku(xi)=y) 的OBB估計。
pu和的計算過程如公式(17)、公式(18)所示。
(17)
(18)
式中:I為指示函數(shù);ku(xi)=y為觀測的真實結(jié)果;ku(xi)為觀測的預測結(jié)果。
按照上述運算,得到公式(19)。
(19)
隨機森林的性能體現(xiàn)在其收斂程度、強度和相關(guān)程度。收斂性體現(xiàn)在決策樹的泛化誤差都收斂,出差會有上限,說明隨機森林對未知事物具有良好的適應性,不會造成很大的誤差,也不易造成過擬合。
1.2.3 FCM聚類算法
高職院校創(chuàng)新創(chuàng)業(yè)課程電力企業(yè)員工培訓系統(tǒng)的主要算法為FCM聚類算法,利用算法可將同一類型的數(shù)據(jù)進行整合。FCM聚類算法[5]的基本原理是模糊理論,這種模糊理論是從客觀事實出發(fā)的,以處理模糊不確定的實物,又稱為模糊C均值算法。在確定了電力企業(yè)員工培訓系統(tǒng)模型的輸入輸出后,需要對輸入的數(shù)據(jù)進行形式化定義。FCM是將n個用戶數(shù)據(jù)作為n個向量xi,其中涉及隸屬關(guān)系,F(xiàn)CM算法的模糊隸屬度的取值為[0,1],F(xiàn)CM聚類算法的實質(zhì)是構(gòu)建模糊矩陣U,矩陣中每個要素都是各矢量的糊隸屬度,值為[0,1],歸類后的每一個元素的模糊隸屬度之和均為1。
FCM聚類算法[1]的表達式如公式(20)所示。
(20)
FCM聚類算法的目標函數(shù)的表達式如公式(21)所示。
(21)
式中:dij=||cj-xj||;uij為[0,1];dij為第i個聚類中心到第j之間的歐式距離;m為加權(quán)指數(shù),其取值為[1,∞]。
為使目標函數(shù)取得最小值,須作出改進,如公式(22)所示。
(22)
式中:λj為n個約束式的拉格朗日因子。
目標函數(shù)取得最小值需要前提,其必要條件如公式(23)、公式(24)所示。
(23)
(24)
1.2.4 協(xié)同過濾推薦算法
UCF的主要做法是找到一群愛好相似的用戶,即基于電力企業(yè)員工培訓系統(tǒng)用戶的(User-based)的CF或基于相鄰者的CF(Neighbor-based Collaborativen Filtering)[2]。用戶與用戶之間相似度通常用Jaccard公式或余弦相似度來計算。這樣兩個用戶的相似度可以更直觀的觀察到。設M(u)是用戶u的中意的項目的集合,M(v)為用戶v中意的項目的集合,則u和v相似度的計算公式如下。
余弦相似度的計算過程如公式(25)所示。
(25)
Jaccard的計算過程如公式(26)所示。
(26)
其中,UCF是對相關(guān)數(shù)據(jù)進行搜集,掌握使用者對員工培訓數(shù)據(jù);再根據(jù)用戶間的相似性,找出與此用戶相近的一群人,并根據(jù)員工培訓數(shù)據(jù)信息,推送相關(guān)員工培訓內(nèi)容。
基于項目的CF(Item-Based CF,ICF):隨著用戶數(shù)量增加,UCF所消耗的計算時間越來越長,這時出現(xiàn)另一種CF,即基于項目的協(xié)同過濾算法(Item-based Collaborative Filtering Algorithms)。ICF的基本假設:若用戶中意一個項目,則與該項目相似的其他項目也有可能引起用戶的興趣。用數(shù)學的方法計算項目之間的相似性[3]。項目的相似度的計算過程如公式(27)所示。
(27)
式中:|M(i)|是喜歡項目i的用戶數(shù),|M(j)|是喜歡項目j的用戶數(shù)[4]。
ICF的方法步驟如下。收集相應信息,計算已評價的項目和預測項目的相似度,并以此為基礎(chǔ),得到預測項目的預測分數(shù),最終產(chǎn)生推薦結(jié)果。
分類準確度:指判斷一個項目是否迎合了用戶的偏好,并且結(jié)果正確的比例,包括召回率和準確率。
設U為用戶集,Ru為用戶u的推薦列表,Bu為測試集中用戶給予正反饋的項目[5]。
準確率是指在推薦的結(jié)果中,用戶在現(xiàn)實中給過正反饋的項目所占的比例。單個用戶u準確率的計算過程如公式(28)所示。
(28)
整個推薦系統(tǒng)的準確率的計算過程如公式(29)所示。
(29)
召回率是指在測試集中,用戶給過正反饋的項目占測試集的比例。單個用戶u的召回率的計算過程如公式(30)所示。
(30)
整個系統(tǒng)的召回率的計算過程如公式(31)所示。
(31)
預測準確度:預測用戶對項目的評分的行為,包括均方根誤差(Root Mean Square Error,RMSE)和平均絕對誤差(Mean Absolute Error,MAE)。
均方根誤差RMSE的計算過程如公式(32)所示。
(32)
式中:Ωtest為測試集;ruv為用戶u對項目v的實際評分;yuv為預測評分。
平均絕對誤差MAE的計算過程如公式(33)所示。
(33)
2 基于AI大數(shù)據(jù)抓取下的電力企業(yè)員工培訓系統(tǒng)設計
2.1 系統(tǒng)聚類分析
電力企業(yè)員工培訓系統(tǒng)在進行聚類分析的過程中,需要確定分類效果,聚類有效度函數(shù)是評價聚類效果的一種方法,它能較好地評價聚類的分類效果,增強了對電力企業(yè)員工培訓的表示能力。計算時,其特性值并不是固定的,因此可以通過類間分離性和類內(nèi)緊性來間接判定聚類的效果,對聚類有效性函數(shù)進行分析,可以判定它們之間的相關(guān)性。
用戶與類內(nèi)用戶之間的相似度表達式[6]如公式(34)所示。
(34)
類內(nèi)平均值的表達式如公式(35)所示。
(35)
某一類數(shù)據(jù)的類內(nèi)緊密度表達式如公式(36)所示。
(36)
2.1.1 聚類評價指標
MIA指標:MIA函數(shù)的表達式[7]如公式(37)所示。
(37)
式中:N為用戶的個數(shù);MIA為類內(nèi)距離和的平均值,MIA的值越小,聚類效果越好。
CDI指標:函數(shù)的表達式如公式(38)所示。
(38)
式中:Xc為第c類用戶;CDI為類內(nèi)緊密度的平均值,CDI的值越小,聚類效果越好。
SI指標:函數(shù)的表達式如公式(39)所示。
(39)
式中:為每個向量與平均值之間距離和;為每一個聚類中心與平均值之間的距離和;SI的值越小,聚類效果越好。
DBI指標:函數(shù)的表達式如公式(40)所示。
(40)
式中:DBI為類內(nèi)距離與類間距離的比值,DBI的值越小,聚類效果越好。
2.1.2 聚類效果
該模型對電力企業(yè)員工培訓系統(tǒng)1000個員工樣本進行驗證,結(jié)合四項指標和聚類數(shù)目2~9,模型的指標或者模型樣本特征提取可作為模型輸入變量,下列指標分析見表1,利用FCM算法,對用戶數(shù)據(jù)(X3)、輸入數(shù)據(jù)(X1)和輸出數(shù)據(jù)(X2)進行論述。
由表1可知,當聚類數(shù)目為4時,各類指標值都達到了最小值,聚類效果最好。聚類時,電力企業(yè)員工培訓系統(tǒng)可結(jié)合需求,達到最好的聚類效果。
2.2 系統(tǒng)數(shù)據(jù)處理
數(shù)據(jù)采集:本次試驗使用的數(shù)據(jù)集是某電力企業(yè)數(shù)據(jù)集。通過AI和大數(shù)據(jù),收集培訓數(shù)據(jù),包括培訓進度、成績、反饋等信息。
數(shù)據(jù)處理:利用大數(shù)據(jù)AI技術(shù)對收集的數(shù)據(jù)進行清洗、分類、分析和挖掘,提取有價值的信息,為教學提供決策支持。
當數(shù)據(jù)爬取時,需要導入Requests庫和BeautifulSoup庫函數(shù)。
使用Requests抓取某電力企業(yè)數(shù)據(jù)庫,把要爬取的整個頁面抓取下來。
使用BeautifulSoup中的find()和find_all()抓取需要的標簽內(nèi)容。
2.3 試驗結(jié)果分析
使用上述設計的模型對處理好的數(shù)據(jù)進行訓練。其中,訓練數(shù)據(jù)用于訓練LDA模型,用測試數(shù)據(jù)對訓練好的模型測試推薦結(jié)果。在測試集上計算正確率,給定一組三元組<q,p,ngt;,若D(q,p)<D(p,n)則算正確,否則錯誤,具體結(jié)果見表2。
由試驗結(jié)果可以看到模型更能根據(jù)細粒度的內(nèi)容進行推薦,與傳統(tǒng)的推薦算法相比更具有優(yōu)勢,同時也不需要細粒度的標簽就能獲得這樣的效果。
2.4 系統(tǒng)實現(xiàn)
電力企業(yè)員工培訓系統(tǒng)可以提供豐富的培訓資源,包括課程資料、案例分析、實踐項目等,方便員工自主學習和團隊協(xié)作。為電力企業(yè)員工提供一個在線學習交流的平臺,方便電力企業(yè)員工之間的互動和討論,提高電力企業(yè)員工的參與度和學習效果。利用人工智能技術(shù),根據(jù)電力企業(yè)員工的學習情況和興趣愛好,為電力企業(yè)員工推薦相關(guān)的培訓資源和項目,提高電力企業(yè)員工的學習效率,幫助他們改進學習和教學。平臺如圖1所示。
3 結(jié)論
結(jié)合上述分析,需要進一步完善電力企業(yè)員工培訓系統(tǒng),并利用AI云計算技術(shù)對其進行設計。提高電力企業(yè)員工參與度,對其進行總體規(guī)劃,本文運用AI大數(shù)據(jù)技術(shù)對其進行了詳細分析,追根溯源,分析基于AI大數(shù)據(jù)抓取下的電力企業(yè)員工培訓系統(tǒng)的基本算法,包括特征指標選取、隨機森林算法、聚類分析算法以及協(xié)同過濾算法,對電力企業(yè)員工培訓數(shù)據(jù)進行整合,分析電力企業(yè)員工培訓信息,能夠根據(jù)電力企業(yè)員工情況進行數(shù)理分析,對冗雜的數(shù)據(jù)進行聚類分析,根據(jù)聚類分析結(jié)果進行協(xié)同過濾,能夠分析電力企業(yè)員工培訓信息,并提供相關(guān)培訓課程,有利于提升電力企業(yè)員工能力。
參考文獻
[1]張宏展,趙輝,于鵬.AI在大數(shù)據(jù)技術(shù)中的創(chuàng)新與應用[J].科技創(chuàng)新與應用,2024,14(21):16-19.
[2]曾劍文.基于AI技術(shù)的煤礦井下視頻智能分析系統(tǒng)設計[J].煤炭科技,2024,45(3):202-206.
[3]徐俊婷.基于大數(shù)據(jù)與AI的高校圖書館數(shù)字閱讀推廣優(yōu)化策略與實施路徑[J].造紙裝備及材料,2024,53(6):184-186.
[4]汪生福.科技向善:大數(shù)據(jù)技術(shù)與AI如何扶貧[J].中國外資,2024(11):79-83.
[5]王強,劉海德,牛清娜,等.基于場景化的大數(shù)據(jù)+AI算法倉平臺研究[J].電腦知識與技術(shù),2024,20(14):73-75.
[6]羅鵬舉,王彪,閆林,等.基于AI大數(shù)據(jù)的無線基站節(jié)能系統(tǒng)的設計與應用[J].數(shù)字通信世界,2024(3):114-117.
[7]黃陳,胡漢橋,羅如意,等.基于大數(shù)據(jù)與AI計算的收費稽核系統(tǒng)[J].中國交通信息化,2024(增刊1):303-305.