高攀,李飛,彭遠(yuǎn)豪,張璨輝,彭海君
(國網(wǎng)湖南省電力有限公司供電服務(wù)中心(計量中心),湖南 長沙 410116)
客戶分類是營銷差異化、精準(zhǔn)化的基礎(chǔ),是提高供電企業(yè)電力營銷水平的有效措施。電力客戶分類可以提高電力企業(yè)的服務(wù)水平及服務(wù)質(zhì)量,提升用戶的滿意度[1]。傳統(tǒng)的電力客戶分類主要是基于用戶電力屬性,按照電壓等級、用電類別、行業(yè)類別等進(jìn)行分類;或者是從電網(wǎng)安全管理視角將用電客戶分成重要客戶、一般客戶,以及高危客戶。這些電力客戶分類方法比較籠統(tǒng),分類手段也比較簡單,主要是因電力公司管理需要而設(shè)置的,未切實體現(xiàn)出以客戶本質(zhì)內(nèi)涵特征,不利于發(fā)現(xiàn)用戶的特殊需求,不利于更深層次服務(wù)目標(biāo)客戶。
隨著近年來大數(shù)據(jù)技術(shù)的應(yīng)用和成熟,電力客戶分類方法逐步數(shù)據(jù)化、自動化、智能化。例如冀明等圍繞客戶各項經(jīng)濟(jì)指標(biāo)構(gòu)建指標(biāo)體系,首次提出基于聚類分析模型實現(xiàn)客戶分類的想法[2]。丁浩則基于C4.5算法分類器,根據(jù)客戶的信用指標(biāo)完成對客戶的信用評級,實現(xiàn)電力客戶在信用角度的分類[3]?;矢h聰?shù)热嘶陟貦?quán)法與改進(jìn)的PCA聚類算法實現(xiàn)在電力客戶價值方面的分類[4]。以上分類算法都離不開電力系統(tǒng)中的客戶檔案信息、用電數(shù)據(jù)及其他外部數(shù)據(jù),但目前電力數(shù)據(jù)庫仍然存在數(shù)據(jù)缺失、數(shù)據(jù)錯誤等問題,導(dǎo)致對客戶進(jìn)一步深入分析時會受到數(shù)據(jù)質(zhì)量的諸多限制?,F(xiàn)有的方法大多需要多維且完善的客戶信息數(shù)據(jù),目前客戶信息存在缺失、錯誤、冗余等問題,因此本文提出一種基于jieba分詞的電力客戶精準(zhǔn)分類方法,將電力客戶的非結(jié)構(gòu)化文本數(shù)據(jù),例如客戶名稱中隱含的更多用戶細(xì)分信息加以利用,實現(xiàn)對客戶的高效、精準(zhǔn)分類。
本文提出的方法僅需提取客戶名稱,利用中文分詞技術(shù)挖掘其中隱含的分類信息,提高了分類方法對數(shù)據(jù)的容錯率,同時也能滿足當(dāng)前客戶差異化服務(wù)的需求。
電力客戶的非結(jié)構(gòu)化文本數(shù)據(jù)中蘊(yùn)含著很多客戶特征信息,且有一定規(guī)律性,如能夠?qū)⑦@些特征信息提取出來,可為客戶分類提供更多特征標(biāo)簽。如“XXX縣機(jī)關(guān)事務(wù)中心”(字母為隱化處理,下同)這一用戶名稱,可以根據(jù)“機(jī)關(guān)事務(wù)中心”這個關(guān)鍵詞確認(rèn)該客戶屬于社會類客戶中的行政職能機(jī)構(gòu),根據(jù)“縣”這個關(guān)鍵詞定位屬于縣級機(jī)構(gòu)。如“XX市廣播電視臺”可提取關(guān)鍵詞“電視臺”或者“廣播電視臺”確認(rèn)客戶的分類。這些對關(guān)鍵詞精準(zhǔn)高效地提取和分析技術(shù)就是中文分詞技術(shù)。
中文分詞作為實現(xiàn)機(jī)器處理中文的一項基礎(chǔ)任務(wù),是近幾年的研究熱點之一,也是自然語言處理任務(wù)的基礎(chǔ)步驟之一[5]。中文分詞通過各類方法實現(xiàn)文本字詞的明確劃分及詞性標(biāo)注等功能,常見的搜索引擎就是應(yīng)用場景,還有機(jī)器翻譯、語音合成、自動分類、自動摘要、自動校對均需使用到中文分詞技術(shù)[6]。
現(xiàn)有的中文分詞方法主要分為三大類,分別是基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法?;谧址ヅ涞姆衷~方法又稱機(jī)械分詞方法,是按照一定的策略將需要分析的中文字串與一個“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。該類算法的優(yōu)點是速度快、實現(xiàn)簡單,但對歧義和未登錄詞處理效果不佳?;诶斫獾姆衷~方法是通過計算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果,基本思想就是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象?;诮y(tǒng)計的分詞方法是在給定大量已經(jīng)分詞的文本的前提下,利用統(tǒng)計機(jī)器學(xué)習(xí)模型學(xué)習(xí)詞語切分的規(guī)律(稱為訓(xùn)練),從而實現(xiàn)對未知文本的切分,常見的統(tǒng)計方法有N元文法模型、隱馬爾可夫模型、最大熵模型、條件隨機(jī)場模型等。
Python的jieba分詞,分詞功能強(qiáng)大且適用面較廣,可以進(jìn)行簡單分詞、并行分詞、命令行分詞[7],算法是基于隱馬爾可夫模型[8],屬于統(tǒng)計模型方法。
以“XX省地質(zhì)測試研究院(國土資源部礦產(chǎn)資源監(jiān)督檢測中心)”為例,分析jieba分詞的3種模式分詞[9]。
精確模式:嘗試最精確地切割句子,適合文本分析。其精確模式分詞結(jié)果為:XX省/地質(zhì)/測試/研究院/(/國土資源部/礦產(chǎn)資源/監(jiān)督/檢測/中心/)。
完整模式:在句子中掃描所有可能變成詞的詞語,速度很快,但無法解決歧義。其完整模式分詞結(jié)果為:XX/XX省/省地/地質(zhì)/測試/研究/研究院/(/國土/國土資源/國土資源部/資源/部/礦產(chǎn)/礦產(chǎn)資源/資源/監(jiān)督/檢測/中心/)。
搜索引擎模式:在精確模式的基礎(chǔ)上,再對長詞進(jìn)行切分,提高召回率,適用于搜索引擎分詞。其搜索引擎分詞結(jié)果為:XX/XX省/地質(zhì)/測試/研究/研究院/(/國土/資源/國土資源部/礦產(chǎn)/資源/礦產(chǎn)資源/監(jiān)督/檢測/中心/)。
綜合考慮分詞效率和準(zhǔn)確性,本文將基于Python的jieba分詞中的精確模式實現(xiàn)電力客戶的非結(jié)構(gòu)化文本數(shù)據(jù)的分詞。
以某省電力用戶作為樣本,根據(jù)分類目標(biāo)對象電壓等級10 kV及以上正常用電的專變客戶等作為條件篩選,加上高危及重要客戶群體共計100 283個客戶,取得這些客戶的用戶名稱、行業(yè)分類、用電類別等數(shù)據(jù),其中用戶名稱作為非結(jié)構(gòu)化文本數(shù)據(jù)的實例進(jìn)行分析。
針對客戶名稱存在許多命名不規(guī)范的情況,對名稱進(jìn)行簡單清洗:
1)刪除用戶名稱中的空格和標(biāo)點符號[10]。用戶名稱采集不規(guī)范會導(dǎo)致單個詞語中間出現(xiàn)空格,空格和標(biāo)點符號屬于停用詞范圍,完整詞語將會被強(qiáng)制劃分,以“ML市博士裝飾材料有限公司”為例,無空格時的分詞結(jié)果為“ML市/博士/裝飾/材料/有限公司”,而“ML市博士裝 飾材料有限公司”的分詞結(jié)果為“ML市/博士/裝/ /飾/材料/有限公司”,空格使得“裝飾”被拆開。
2)將括號()、[]、#、數(shù)字等特殊符號刪除。與空格和標(biāo)點符號原理相同,這類符號在分詞中會額外分成一個分詞,但在分詞分析中意義不大,因此需要刪除,可以減少分詞結(jié)果的噪音冗余,能提高分類模型的訓(xùn)練速度。例如“ML市博士裝飾材料有限公司[59501005]”的分詞結(jié)果為“ML市/博士/裝飾/材料/有限公司/[/59501005/]”,多出了三個分詞。
3)其他停用詞的處理。本方法的分詞目標(biāo)均為一系列客戶名稱,不存在中文中的虛詞等非檢索用字,因此不需要額外在停用詞中添加。
根據(jù)上述步驟處理客戶名稱,得到示例數(shù)據(jù)見表1。
表1 文本數(shù)據(jù)預(yù)處理對比表
根據(jù)jieba分詞完整的技術(shù)路線和 Python 提供的成熟工具庫,實現(xiàn)對電力大客戶用戶名稱的中文分詞,過程如下:
1)首先導(dǎo)入Python語言工具包jieba[11],擴(kuò)展并加載停用詞詞典及包含未登錄詞的自定義詞典[12]。根據(jù)《事業(yè)單位分類目錄》和《國民經(jīng)濟(jì)行業(yè)分類》添加屬于自己的自定義字典,用來切分查找關(guān)鍵詞。例如使用默認(rèn)字典時“CS民政職業(yè)技術(shù)學(xué)院”分詞為“CS/民政/職業(yè)/技術(shù)/學(xué)院”;根據(jù)事業(yè)單位的公益二類包含單位,將“職業(yè)技術(shù)學(xué)院”添加到字典中后分詞為“CS/民政/職業(yè)技術(shù)學(xué)院”。這樣就可以有效縮小查找范圍,從而使得匹配完成度更高,時間更短。
2)接下來完成預(yù)處理的客戶名稱導(dǎo)入,通過Python的處理將分詞結(jié)果輸出到文件得到每個客戶名稱的分詞結(jié)果,然后根據(jù)分詞結(jié)果統(tǒng)計高頻詞并進(jìn)行分析。以某省電力用戶作為樣本得到的分詞結(jié)果中,詞頻較高的有“有限公司”,提取樣本中包含“有限公司”的客戶,發(fā)現(xiàn)一部分是無其他重點分詞的普通經(jīng)濟(jì)類經(jīng)營主體,也有少部分例如“CS市軌道交通運(yùn)營有限公司”“中國鐵路GZ局集團(tuán)有限公司CS供電段”“中國YD通信集團(tuán)XX有限公司CS分公司”等的社會類單位,而社會類單位明顯比經(jīng)濟(jì)類擁有更多關(guān)鍵詞,如“交通”“通信”“電力”等,因此需要總結(jié)這類規(guī)律,為提升后續(xù)分類效率奠定基礎(chǔ)。部分高頻詞及輔助關(guān)鍵詞分類特征庫見表2。
表2 分類特征庫
選擇BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)從分詞結(jié)果到客戶分類[13],為了提升分類模型的準(zhǔn)確率和效率,使用表2的分類特征庫,即“高頻詞+關(guān)鍵詞”規(guī)律作為預(yù)訓(xùn)練模型的數(shù)據(jù)集,避免從零開始訓(xùn)練。
準(zhǔn)備好預(yù)訓(xùn)練模型后,選取數(shù)據(jù)預(yù)處理后的500個用戶作為訓(xùn)練樣本,盡量包含不同客戶類別并數(shù)量相近;然后利用更新后的自定義字典對樣本完成分詞,并輸出分詞結(jié)果;將這些用戶的分詞結(jié)果作為輸入,客戶類別作為輸出,基于預(yù)訓(xùn)練模型繼續(xù)訓(xùn)練,經(jīng)過調(diào)優(yōu)調(diào)參將模型訓(xùn)練到滿意的準(zhǔn)確率;保存模型,然后把剩余樣本的分詞結(jié)果輸入到保存好的模型中,最后得到客戶的分類結(jié)果。部分示例見表3。
表3 大客戶分類結(jié)果對比表
對比電力系統(tǒng)數(shù)據(jù)庫中的原行業(yè)類別、用電類別,可以發(fā)現(xiàn)本文方法的分類結(jié)果更符合后續(xù)客戶營銷的需求。
本文基于jieba中文分詞技術(shù),提出了一種對電力大客戶精準(zhǔn)分類的方法。該方法通過對電力客戶的非結(jié)構(gòu)化文本信息進(jìn)行分詞,并總結(jié)關(guān)鍵詞頻率,構(gòu)建分類特征庫;然后搭建電力行業(yè)分詞字典以提高分詞效率;最后根據(jù)分類特征庫構(gòu)建預(yù)分類模型,完成客戶分類。通過用戶基礎(chǔ)數(shù)據(jù)快速高效地完成對客戶的精準(zhǔn)分類,解決電力數(shù)據(jù)庫中用戶屬性異常、專變臺賬不完善等數(shù)據(jù)異常問題,同時也解決依賴經(jīng)驗、費時費力的問題。該方法分類效果較好,對制定客戶差異化服務(wù)方案奠定基礎(chǔ),對有后續(xù)客戶服務(wù)管理研究具有重要意義,也為電力營銷數(shù)據(jù)挖掘提供借鑒和參考。