詹佳悅 陳國(guó)洪 葉心舒
(國(guó)網(wǎng)福建省電力有限公司物資分公司,福建 福州 350003)
近年來,云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、人工智能等技術(shù)快速發(fā)展,大數(shù)據(jù)時(shí)代正在改變電力企業(yè)的運(yùn)營(yíng)管理決策方式。項(xiàng)目物資申報(bào)作為電力行業(yè)的基礎(chǔ)業(yè)務(wù),是數(shù)字產(chǎn)業(yè)鏈的重要環(huán)節(jié)。物資申報(bào)難度大且復(fù)雜,涉及到ERP、ECP、國(guó)網(wǎng)商城等多個(gè)系統(tǒng);需要十余道審批,操作流程時(shí)間長(zhǎng)且復(fù)雜;涉及項(xiàng)目投資、目錄、價(jià)格、時(shí)間、技術(shù)規(guī)范、工廠、采購組、采購方式、交貨地點(diǎn)等數(shù)據(jù)屬性,影響項(xiàng)目管理、供應(yīng)鏈多個(gè)環(huán)節(jié)。以項(xiàng)目為例,物資需求量大,傳統(tǒng)的需求計(jì)劃方式更多依靠經(jīng)驗(yàn)、人力,有限的效率對(duì)項(xiàng)目中的物資采購、庫存等多個(gè)環(huán)節(jié)形成制約。隨著物料信息與項(xiàng)目需求數(shù)據(jù)的互聯(lián)互通,如何充分應(yīng)用大數(shù)據(jù)與人工智能技術(shù),運(yùn)用推薦算法技術(shù)[1],開展項(xiàng)目需求精準(zhǔn)預(yù)測(cè)、科學(xué)安排物資變得尤為重要。推薦算法技術(shù)已經(jīng)在購物、書籍、音像、文章、網(wǎng)頁、新聞等行業(yè)得到了廣泛應(yīng)用,抖音、淘寶、今日頭條等應(yīng)用都引入了推薦算法系統(tǒng)。
基于內(nèi)容的推薦算法[2]是基于資源描述和用戶興趣信息的匹配度對(duì)各個(gè)用戶進(jìn)行個(gè)性推薦,算法的設(shè)計(jì)思想簡(jiǎn)單,符合人們的思維習(xí)慣,也便于人們理解。
基于協(xié)同過濾的推薦算法[3]主要考慮項(xiàng)目與項(xiàng)目之間、用戶與用戶之間的關(guān)系,并基于此關(guān)聯(lián)關(guān)系進(jìn)行分析推薦。由于協(xié)同過濾推薦方法僅依賴評(píng)分對(duì)用戶進(jìn)行推薦算法,不需要深入的專業(yè)知識(shí),甚至不需要知道推薦資源的內(nèi)容,所以該方法適用于不同結(jié)構(gòu)類型的資源。但也正是因?yàn)橐蕾囋u(píng)分,該算法存在數(shù)據(jù)稀疏和冷啟動(dòng)問題。
關(guān)聯(lián)規(guī)則[4]挖掘主要分為兩個(gè)步驟,先從原始資料集合中找出頻繁項(xiàng)集,再依據(jù)頻繁項(xiàng)集找出關(guān)聯(lián)規(guī)則。在兩步完成的前提下,向用戶提供推薦算法供客戶參考和選擇,基于關(guān)聯(lián)規(guī)則推薦是對(duì)數(shù)據(jù)自身進(jìn)行分析,不需要專業(yè)知識(shí)就能很好地進(jìn)行推薦。但是隨著數(shù)據(jù)規(guī)則的増加,算法的復(fù)雜度會(huì)大大增加。
本文結(jié)合聚類方法、關(guān)聯(lián)規(guī)則、短文本相似度形成組合推薦算法[5],通過聚類方法,對(duì)數(shù)據(jù)進(jìn)行降維,能夠解決由于數(shù)據(jù)量大導(dǎo)致關(guān)聯(lián)規(guī)則算法復(fù)雜化和計(jì)算成本問題,同時(shí)考慮到輸入數(shù)據(jù)的不完整性,采用基于關(guān)聯(lián)規(guī)則文本相似度方法進(jìn)行物資推薦算法。
基于數(shù)據(jù)中臺(tái)建設(shè)成果,溯源整合項(xiàng)目模塊、物資模塊相關(guān)表數(shù)據(jù),開展數(shù)據(jù)分析及模型構(gòu)建工作。數(shù)據(jù)來源主要是ERP系統(tǒng),部分涉及ECP、規(guī)劃計(jì)劃系統(tǒng)、儲(chǔ)備庫系統(tǒng)回傳數(shù)據(jù)等。采集2018—2021年全省25909個(gè)配網(wǎng)項(xiàng)目和8739個(gè)零購項(xiàng)目數(shù)據(jù)及101萬條物料出入庫數(shù)據(jù),作為模型的基礎(chǔ)數(shù)據(jù)。在數(shù)據(jù)預(yù)處理階段,對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行缺失值、異常值清洗,剔除了投資金額為零等業(yè)務(wù)異常數(shù)據(jù),最終配網(wǎng)、零購項(xiàng)目數(shù)分別為24317個(gè)、8725個(gè)。
K-Means方法是最常用的聚類算法,但計(jì)算時(shí)間過長(zhǎng)、成本大。Mini Batch K-Means聚類模型在盡量保持聚類準(zhǔn)確性前提下大幅降低計(jì)算時(shí)間。針對(duì)電力物資數(shù)據(jù)量較大的情況,本文選用Mini Batch K-Means聚類算法來提高聚類效果。Mini Batch K-Means算法是K-Means算法的一種優(yōu)化變種,采用小規(guī)模的數(shù)據(jù)子集(每次訓(xùn)練使用的數(shù)據(jù)集是在訓(xùn)練算法的時(shí)候隨機(jī)抽取的數(shù)據(jù)子集),減少計(jì)算時(shí)間,同時(shí)試圖優(yōu)化目標(biāo)函數(shù)。利用Mini Batch K-Means聚類算法,對(duì)項(xiàng)目的物料使用數(shù)量進(jìn)行聚類,得到物料使用情況較為相似的24個(gè)項(xiàng)目群,對(duì)前20個(gè)項(xiàng)目群進(jìn)行項(xiàng)目分析,剔除異常項(xiàng)目群,提高分析的準(zhǔn)確性。
聚類之后,獲得了不同物料使用情況的項(xiàng)目群。針對(duì)同一個(gè)項(xiàng)目群,對(duì)所有項(xiàng)目的項(xiàng)目名稱進(jìn)行關(guān)鍵詞分析,獲取最有業(yè)務(wù)代表性的項(xiàng)目類型屬性。
選取項(xiàng)目數(shù)目較大的項(xiàng)目群,對(duì)分詞結(jié)果進(jìn)行關(guān)鍵詞提取。采用TF-IDF(詞頻—逆向文件頻率),詞頻最高的詞語將作為該簇的關(guān)鍵字。在一份給定的文件里,詞頻 (term frequency,TF) 指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù)。這個(gè)數(shù)字通常會(huì)被歸一化(分子一般小于分母,區(qū)別于IDF),以防止它偏向長(zhǎng)的文件。逆向文件頻率 (inverse document frequency,IDF) 是一個(gè)詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個(gè)文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。如配網(wǎng)項(xiàng)目基于關(guān)鍵字的類別,可分成3類關(guān)鍵字,一是柱上開關(guān)、環(huán)網(wǎng)柜、電纜管溝、分界開關(guān)、真空開關(guān)、箱式變、架空線、防雷裝置、漏保等37個(gè);二是延伸、聯(lián)絡(luò)、絕緣化、應(yīng)急、業(yè)擴(kuò)配套、跨年、搶修等27個(gè);三是線路改造、支線改造、配變新建、配變改造、送出配套、桿改造、改造、新建等28個(gè)。零購項(xiàng)目可分成2類關(guān)鍵字,一是便捷式、智能化、鉗形、激光、彩色、多功能等201個(gè);二是打印機(jī)、筆記本、一體機(jī)、避雷器測(cè)試儀、消諧器測(cè)試儀、抽水車等859個(gè)。每一個(gè)項(xiàng)目可能擁有多個(gè)關(guān)鍵字屬性作為其項(xiàng)目標(biāo)簽。
通過經(jīng)典的 Apriori 算法,對(duì)上述聚類后的項(xiàng)目集群、物料小類進(jìn)行挖掘,得到頻繁項(xiàng)集,并結(jié)合最小支持度和最小置信度獲取有價(jià)值的關(guān)聯(lián)規(guī)則。通過設(shè)定最小支持度,以迭代的方式挖掘頻繁項(xiàng)集。
構(gòu)建關(guān)聯(lián)規(guī)則的輸入,要對(duì)項(xiàng)目的基本屬性、關(guān)鍵字屬性進(jìn)行不同的數(shù)據(jù)預(yù)處理,將離散型變量,如地市轉(zhuǎn)為福州、龍巖等規(guī)范地市名稱;將電壓等級(jí)轉(zhuǎn)為110kV、10kV等大小寫一致;對(duì)關(guān)鍵字進(jìn)行一些近似詞的整理;將連續(xù)性變量,如項(xiàng)目周期、投資金額根據(jù)數(shù)據(jù)分布情況進(jìn)行離散化,分為五等分。
將項(xiàng)目的基本屬性(地市、變電站電壓等級(jí)、線路電壓等級(jí)、項(xiàng)目周期、投資金額)和基于聚類后得到的關(guān)鍵字屬性進(jìn)行合并,獲得關(guān)聯(lián)規(guī)則前項(xiàng)。關(guān)聯(lián)規(guī)則后項(xiàng)則為物料小類編碼。設(shè)置最小支持度為0.5,最小置信度為0.5,獲得關(guān)聯(lián)規(guī)則組合。合并5個(gè)項(xiàng)目基本屬性及三類關(guān)鍵字項(xiàng)目屬性后,配網(wǎng)項(xiàng)目、零購項(xiàng)目分別獲得7484個(gè)、3648個(gè)關(guān)聯(lián)規(guī)則。例如,[南平,35kV,10kV,開關(guān),改造,103,203] 項(xiàng)目信息是關(guān)聯(lián)規(guī)則前項(xiàng),交流三相隔離開關(guān)、線路柱式瓷絕緣子等物料小類是關(guān)聯(lián)規(guī)則后項(xiàng),即[南平,35kV,10kV,開關(guān),改造,103,203] 項(xiàng)目最有可能使用的物料小類為交流三相隔離開關(guān)、線路柱式瓷絕緣子等14個(gè)物料小類。
關(guān)聯(lián)規(guī)則對(duì)應(yīng)的物料數(shù)據(jù),采用基于統(tǒng)計(jì)的方法,獲取每個(gè)關(guān)聯(lián)規(guī)則下的物料編碼和物料數(shù)量。根據(jù)關(guān)聯(lián)規(guī)則前項(xiàng)、關(guān)聯(lián)規(guī)則后項(xiàng)進(jìn)行項(xiàng)目數(shù)量的聚合匯總,獲取每個(gè)關(guān)聯(lián)規(guī)則下,每個(gè)物料小類中出現(xiàn)在最多項(xiàng)目中的物料編碼,獲得物料編碼所在項(xiàng)目數(shù)量的比例及該物料編碼的平均數(shù)量,見表1。
表1 某項(xiàng)目類基于關(guān)聯(lián)規(guī)則的推薦清單
隨機(jī)選取200個(gè)配網(wǎng)、235個(gè)零購項(xiàng)目進(jìn)行算法驗(yàn)證。首先,通過數(shù)據(jù)中臺(tái)獲得項(xiàng)目的一些基本信息,其中,項(xiàng)目名稱、項(xiàng)目類型(配網(wǎng)、零購項(xiàng)目)為必填項(xiàng),而電壓等級(jí)、投資金額、時(shí)間為選填項(xiàng)。其次,對(duì)項(xiàng)目名稱進(jìn)行關(guān)鍵字提取,如地市、變電站電壓等級(jí)、線路電壓等級(jí)、關(guān)鍵字(福州、110kV、10kV、配套、送出等)、周期、投資金額等。再次,根據(jù)相似短文本,在配網(wǎng)項(xiàng)目關(guān)聯(lián)規(guī)則庫中進(jìn)行關(guān)聯(lián)。設(shè)置原始最小支持度和最小置信度為0.5,其查準(zhǔn)率(預(yù)測(cè)準(zhǔn)確的物料數(shù)量占預(yù)測(cè)物料總數(shù)比例)100%,但查全率(預(yù)測(cè)準(zhǔn)確的物料數(shù)量/實(shí)際物料編碼數(shù)量)低于50%。最后,通過優(yōu)化參數(shù),調(diào)整最小支持度、最小執(zhí)行度至0.4,發(fā)現(xiàn)各項(xiàng)目類型查準(zhǔn)率超過90%,查全率超過75%,可見整體推薦情況較準(zhǔn)、較全,滿足實(shí)際應(yīng)用要求。
推薦算法成功地推薦了合理的物料、數(shù)量等,提升了項(xiàng)目需求單位的便利程度。同時(shí),實(shí)際系統(tǒng)中通過提高標(biāo)準(zhǔn)物料、優(yōu)選物料的推薦系數(shù)進(jìn)一步提升了推進(jìn)的準(zhǔn)確性、針對(duì)性。下一步,將推薦算法應(yīng)用范圍從項(xiàng)目拓展到電網(wǎng)基建、營(yíng)銷項(xiàng)目、生產(chǎn)技改等16類項(xiàng)目,從僅物資物料推薦拓展到物資、服務(wù)同時(shí)推薦,進(jìn)一步提升項(xiàng)目物資的服務(wù)水平。