摘要:在電信行業(yè),客戶流失是一個(gè)關(guān)鍵指標(biāo),直接影響公司的盈利能力和市場(chǎng)份額。通過對(duì)客戶信息表單進(jìn)行流失客戶與留存客戶的分類分析,并在JupyterNotebook中使用Python語(yǔ)言的Pandas和Matplotlib庫(kù)對(duì)兩類群體的個(gè)人資料、合同信息、服務(wù)使用情況等數(shù)據(jù)進(jìn)行分析與可視化,可以幫助公司識(shí)別高流失風(fēng)險(xiǎn)的客戶群體。最后,利用XGBoost模型對(duì)客戶是否流失進(jìn)行預(yù)測(cè),從而制定針對(duì)性的營(yíng)銷策略和服務(wù)改進(jìn)措施,以有效留住現(xiàn)有客戶并吸引更多潛在客戶。
關(guān)鍵詞:大數(shù)據(jù)分析;可視化;電信客戶流失;Python;Pandas;Matplotlib;XGBoost
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)34-0007-04開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
0引言
在當(dāng)今競(jìng)爭(zhēng)激烈的電信市場(chǎng),客戶的留存率和滿意度已成為企業(yè)成功的關(guān)鍵因素。隨著消費(fèi)者需求的多樣化和服務(wù)的不斷升級(jí),深入分析客戶信息、服務(wù)使用情況及付費(fèi)行為,有助于電信運(yùn)營(yíng)商更好地理解客戶群體,從而制定更有效的市場(chǎng)策略和服務(wù)改進(jìn)方案[1]。
本文旨在通過對(duì)電信客戶數(shù)據(jù)的分析,揭示客戶流失的潛在因素以及熱門的服務(wù)與消費(fèi)類型,并提出針對(duì)性的建議,以提升客戶滿意度和忠誠(chéng)度,減少客戶流失。
1可視化分析流程
1)明確目標(biāo):電信客戶流失的可視化分析需要涵蓋客戶的基本屬性、服務(wù)類型選擇情況、付費(fèi)方式和任期等相關(guān)信息,以具體分析哪些類型的客戶是流失的主要群體。
2)數(shù)據(jù)收集與預(yù)處理:本次數(shù)據(jù)集來(lái)源于Kaggle比賽提供的CSV文件。首先對(duì)數(shù)據(jù)進(jìn)行了清洗,包括去除重復(fù)值和缺失值,隨后將數(shù)據(jù)分為流失客戶數(shù)據(jù)集和留存客戶數(shù)據(jù)集兩大類,以便更好地觀察流失和留存客戶的特征。
3)可視化分析:①對(duì)于客戶屬性,使用餅圖進(jìn)行可視化,以更直觀地觀察各客戶屬性的占比情況。②對(duì)服務(wù)類型,采用條形圖和折線圖分別查看每種服務(wù)類型的變化趨勢(shì)和數(shù)量分布。③對(duì)消費(fèi)方式和任期,選擇散點(diǎn)圖來(lái)觀察兩者之間的關(guān)系。
4)模型預(yù)測(cè):使用XGBoost模型對(duì)清洗后的數(shù)據(jù)進(jìn)行訓(xùn)練,通過分析不同特征的權(quán)重,預(yù)測(cè)客戶是否會(huì)流失,從而更有針對(duì)性地對(duì)客戶采取不同的干預(yù)措施。
5)總結(jié):對(duì)以上可視化分析的結(jié)果進(jìn)行總結(jié)與歸納,并根據(jù)分析情況提出改進(jìn)建議和未來(lái)展望。
2電信客戶數(shù)據(jù)簡(jiǎn)介
2.1數(shù)據(jù)分析需求
1)客戶信息分析:分析客戶的性別分布、是否有伴侶、是否有家屬、是否為老年人等特征的分布情況,從而了解客戶群體的基本特征。
2)服務(wù)使用情況分析:分析客戶使用的合同類型、互聯(lián)網(wǎng)服務(wù)、設(shè)備保護(hù)、電話服務(wù)等情況,以了解客戶在各種服務(wù)方面的偏好和需求。
3)付費(fèi)及費(fèi)用分析:分析客戶的付費(fèi)方式、月費(fèi)、總費(fèi)用等數(shù)據(jù),從中了解客戶的付費(fèi)行為習(xí)慣和消費(fèi)水平。
4)合同類型分析:分析不同合同類型的流失率和留存率,了解各種合同類型對(duì)客戶忠誠(chéng)度的影響,為未來(lái)合同的制定提供參考依據(jù)。
5)客戶流失預(yù)測(cè):通過分析合同類型、服務(wù)持續(xù)時(shí)間等因素,預(yù)測(cè)客戶的流失情況,并采取相應(yīng)措施降低客戶流失率,從而深入分析客戶流失的原因。
6)服務(wù)改進(jìn)建議:根據(jù)客戶的服務(wù)使用情況和反饋,提出相應(yīng)的服務(wù)改進(jìn)建議,以提升客戶滿意度和忠誠(chéng)度。
2.2數(shù)據(jù)來(lái)源
數(shù)據(jù)來(lái)源于Kaggle的《最簡(jiǎn)數(shù)據(jù)挖掘》系列。通過使用Pandas庫(kù)[2]中的df.info()函數(shù),可以獲取數(shù)據(jù)集的具體信息。本次數(shù)據(jù)共有15列屬性信息和5227行記錄。電信客戶的基本信息和消費(fèi)類型信息如表1所示。
2.3開發(fā)工具和編程語(yǔ)言
JupyterNotebook是一個(gè)靈活、可交互且可擴(kuò)展的工具,提供了一個(gè)方便的平臺(tái),使用戶能夠以交互式和可視化的方式探索數(shù)據(jù)、開發(fā)代碼,并以可共享的方式記錄和展示工作成果。
Python是當(dāng)前最受歡迎的數(shù)據(jù)科學(xué)編程語(yǔ)言之一,擁有豐富的數(shù)據(jù)處理、分析、可視化和機(jī)器學(xué)習(xí)庫(kù)。本次分析中使用了Pandas庫(kù)進(jìn)行數(shù)據(jù)處理與分析,Matplotlib庫(kù)進(jìn)行數(shù)據(jù)可視化[3],并利用XGBoost模型對(duì)數(shù)據(jù)的特征標(biāo)簽進(jìn)行訓(xùn)練,從而構(gòu)建了一個(gè)客戶流失預(yù)測(cè)模型。
3數(shù)據(jù)處理
3.1數(shù)據(jù)清洗
本文首先對(duì)數(shù)據(jù)進(jìn)行了分組和計(jì)數(shù)處理。通過info()方法查看數(shù)據(jù)的基本信息,并使用df.is1().sum()確認(rèn)數(shù)據(jù)中無(wú)缺失值。為了便于后續(xù)數(shù)據(jù)處理和更清晰的展示,將數(shù)據(jù)集中Label列中的yes和no兩個(gè)值,分別分組為“留存客戶”和“流失客戶”,以便對(duì)兩類客戶進(jìn)行獨(dú)立分析。隨后,對(duì)每個(gè)服務(wù)類型的數(shù)據(jù)進(jìn)行了計(jì)數(shù),為后續(xù)條形圖的可視化做好準(zhǔn)備。
對(duì)于重復(fù)值,使用df.duplicated().sum()方法進(jìn)行計(jì)數(shù)檢查,結(jié)果顯示數(shù)據(jù)中存在16行重復(fù)記錄。通過df.drop_duplicates()方法清除了這些重復(fù)值,從而保證數(shù)據(jù)的準(zhǔn)確性和完整性。
3.2數(shù)據(jù)分割
為了更好地分析客戶的流失和留存情況,本文對(duì)留存客戶和流失客戶進(jìn)行了數(shù)據(jù)分割。在獲取的數(shù)據(jù)中,Label列中yes表示留存客戶,no表示流失客戶。通過代碼df[df[\"Label\"]==\"no\"]和df[df[\"Label\"]==\"yes\"],分別提取了流失客戶和留存客戶的數(shù)據(jù)集,為后續(xù)的分析奠定了基礎(chǔ)。
4可視化分析
4.1流失客戶年齡與性別可視化
在電信客戶分析中,觀察客戶屬性是至關(guān)重要的環(huán)節(jié)。因此,本文對(duì)流失客戶的年齡與性別分布進(jìn)行了餅圖可視化,以觀察其占比情況。
通過分析得出,電信客戶中男性和女性的數(shù)量幾乎相等,而年輕人占據(jù)了客戶流失的主要比例。本文利用Matplotlib庫(kù)中的plt.pie()方法繪制了內(nèi)外圈餅圖[4],如圖1所示。該圖直觀地展示了流失客戶在性別和年齡上的分布特征,為后續(xù)的流失原因分析提供了參考依據(jù)。
由圖1可知,在流失客戶的年齡與性別分布中,老年客戶占比最高。這表明,老年客戶對(duì)電信服務(wù)的操作流程可能難以理解和適應(yīng)。因此,電信公司應(yīng)針對(duì)老年客戶設(shè)計(jì)更為細(xì)致入微的服務(wù)方案,例如提供簡(jiǎn)化的操作指南、定制化的咨詢服務(wù),以及專屬的客戶關(guān)懷活動(dòng),以幫助老年客戶更好地適應(yīng)現(xiàn)代電信技術(shù),從而降低其流失率。
4.2合同類型可視化
電信服務(wù)行業(yè)應(yīng)關(guān)注客戶最接受的合同類型,以及哪種合同類型在流失客戶中占比最多[5]。如圖2所示,在留存客戶中,每月合同占比最高,達(dá)到91%,而一年和兩年的合同占比較少。在流失客戶中,每月合同仍占大多數(shù),占比為49%,但一年和兩年合同的占比相較留存客戶有所上升。
由圖2可知,每月合同的高占比顯示出其受歡迎程度,電信公司應(yīng)繼續(xù)發(fā)揮這一優(yōu)勢(shì),進(jìn)一步擴(kuò)大市場(chǎng)份額。然而,一年合同在流失客戶中的占比相對(duì)較高,這表明一年合同模式可能存在問題,需要加以改進(jìn)。建議對(duì)一年合同的條款進(jìn)行全面評(píng)估,優(yōu)化合同內(nèi)容,確保其能夠更好地滿足客戶需求,從而提高客戶的滿意度和留存率。
4.3留存客戶與流失客戶服務(wù)類型可視化
通過對(duì)服務(wù)類型的可視化分析(如圖3和圖4所示),可以發(fā)現(xiàn)電話服務(wù)和互聯(lián)網(wǎng)服務(wù)是客戶使用的主要服務(wù)類型。這提示電信公司可以圍繞這兩項(xiàng)服務(wù)開展更多相關(guān)活動(dòng),以進(jìn)一步鞏固其優(yōu)勢(shì)地位。然而,在家屬服務(wù)這一項(xiàng)中,留存客戶的占比最低,而流失客戶的占比相對(duì)較高,這表明該項(xiàng)服務(wù)可能存在問題,導(dǎo)致客戶流失。
進(jìn)一步觀察圖3和圖4,可以發(fā)現(xiàn),對(duì)于每個(gè)服務(wù)類型,流失客戶的數(shù)量普遍高于對(duì)應(yīng)項(xiàng)目的留存客戶。這表明服務(wù)類型整體上可能存在某些缺陷,未能完全滿足客戶的需求。電信公司應(yīng)對(duì)各項(xiàng)服務(wù)進(jìn)行深入分析,找出潛在問題,并針對(duì)性地優(yōu)化服務(wù)內(nèi)容。例如,加強(qiáng)客戶反饋機(jī)制,了解客戶在使用服務(wù)過程中的具體痛點(diǎn),并通過改進(jìn)服務(wù)質(zhì)量來(lái)提升客戶的滿意度和忠誠(chéng)度[6]。
由圖3和圖4可知,在條形圖可視化中,電話服務(wù)和互聯(lián)網(wǎng)服務(wù)是訂閱數(shù)量最多的。因此,電話服務(wù)和互聯(lián)網(wǎng)服務(wù)是客戶最為青睞的項(xiàng)目。運(yùn)營(yíng)商應(yīng)考慮推出更多優(yōu)惠活動(dòng),以進(jìn)一步鞏固這些服務(wù)在市場(chǎng)中的地位。然而,家屬服務(wù)的流失問題仍需重點(diǎn)關(guān)注,建議盡快審查并優(yōu)化該服務(wù)的內(nèi)容和交付方式,以減少客戶流失。
4.4客戶消費(fèi)類型與任期可視化
分析客戶的消費(fèi)類型與任期之間的關(guān)系,有助于了解哪些消費(fèi)類型能夠有效提高客戶留存率。由圖5、圖6和圖7可知,每月花費(fèi)與任期之間無(wú)顯著相關(guān)性,而總花費(fèi)與任期具有較強(qiáng)的正相關(guān)性,每月花費(fèi)與總花費(fèi)之間也表現(xiàn)出較為強(qiáng)烈的相關(guān)性[7]。
這一結(jié)果表明,如果能夠讓客戶長(zhǎng)期持續(xù)使用產(chǎn)品或服務(wù),客戶對(duì)服務(wù)的信任度和依賴性可能會(huì)逐步增強(qiáng),從而有效減少客戶的流失。
散點(diǎn)圖可視化中,總花費(fèi)與任期具有強(qiáng)烈的正相關(guān)性,每月花費(fèi)與總花費(fèi)也表現(xiàn)出較強(qiáng)的正相關(guān)性。從標(biāo)簽中可以看出,隨著任期的增加,更多的客戶傾向于選擇留存。因此,建議實(shí)施一些激勵(lì)措施,鼓勵(lì)客戶長(zhǎng)期使用電信產(chǎn)品。長(zhǎng)期使用電信產(chǎn)品的客戶通常會(huì)產(chǎn)生更高的消費(fèi),為此可以采取以下措施:1)推出忠誠(chéng)客戶獎(jiǎng)勵(lì)計(jì)劃,例如積分兌換、專屬優(yōu)惠或贈(zèng)品服務(wù);2)提供長(zhǎng)期合約優(yōu)惠,以吸引客戶簽訂更長(zhǎng)時(shí)間的服務(wù)合同;3)不斷優(yōu)化服務(wù)質(zhì)量,提升客戶體驗(yàn),增強(qiáng)客戶對(duì)服務(wù)的滿意度和依賴性。
通過這些措施,電信公司不僅能夠促進(jìn)客戶的長(zhǎng)期留存和消費(fèi),還能夠在競(jìng)爭(zhēng)日益激烈的市場(chǎng)中實(shí)現(xiàn)可持續(xù)發(fā)展。同時(shí),這些策略將有助于提高客戶滿意度和忠誠(chéng)度,為企業(yè)的長(zhǎng)期成功奠定堅(jiān)實(shí)的基礎(chǔ)。
5XGBoost模型預(yù)測(cè)客戶流失
XGBoost是一種強(qiáng)大的機(jī)器學(xué)習(xí)模型,具有高效性、預(yù)測(cè)性能優(yōu)異、可解釋性強(qiáng)和可拓展性強(qiáng)等優(yōu)點(diǎn)。在預(yù)測(cè)電信客戶流失方面,XGBoost具有以下特點(diǎn):
1)主動(dòng)留存策略:通過識(shí)別可能流失的客戶,公司可以實(shí)施針對(duì)性的留存策略,例如提供個(gè)性化優(yōu)惠或改善客戶服務(wù),從而增強(qiáng)客戶的參與感和滿意度。
2)資源優(yōu)化:了解客戶流失模式可以幫助企業(yè)更有效地分配資源,將精力集中在高風(fēng)險(xiǎn)客戶身上,而不是進(jìn)行廣泛的、低效的營(yíng)銷活動(dòng)。
3)提升客戶洞察:分析導(dǎo)致客戶流失的因素能夠提供關(guān)于客戶行為、偏好和痛點(diǎn)的寶貴見解,從而幫助企業(yè)改進(jìn)產(chǎn)品和服務(wù)。
4)增加收入:減少客戶流失對(duì)收入增長(zhǎng)有直接影響,因?yàn)榱糇‖F(xiàn)有客戶通常比獲取新客戶更具成本效益。
5)競(jìng)爭(zhēng)優(yōu)勢(shì):能夠有效預(yù)測(cè)和管理客戶流失的企業(yè)可以獲得顯著的競(jìng)爭(zhēng)優(yōu)勢(shì),通過保持忠實(shí)客戶基礎(chǔ)來(lái)降低流失率,鞏固市場(chǎng)地位。
6)數(shù)據(jù)驅(qū)動(dòng)決策:利用像XGBoost這樣的機(jī)器學(xué)習(xí)模型,可以促進(jìn)數(shù)據(jù)驅(qū)動(dòng)的決策,使預(yù)測(cè)更加準(zhǔn)確,戰(zhàn)略規(guī)劃更加科學(xué)合理。
總之,預(yù)測(cè)客戶流失不僅有助于企業(yè)提升客戶滿意度和增強(qiáng)客戶忠誠(chéng)度,還能推動(dòng)企業(yè)的長(zhǎng)期盈利能力。這種基于數(shù)據(jù)的分析方法為企業(yè)在現(xiàn)代競(jìng)爭(zhēng)環(huán)境中提供了重要的決策支持。
整體準(zhǔn)確率:模型的準(zhǔn)確率為76.67%,說(shuō)明在所有預(yù)測(cè)中,約有76.67%的預(yù)測(cè)是正確的。TP(TruePositive):262(正確預(yù)測(cè)為流失的客戶);FP(FalsePositive):127(錯(cuò)誤預(yù)測(cè)為流失的客戶);TN(TrueNegative):540(正確預(yù)測(cè)為未流失的客戶);FN(FalseNegative):117(錯(cuò)誤預(yù)測(cè)為未流失的客戶)。
對(duì)于“未流失”類別(False),精確率(Precision):0.82,表示在所有預(yù)測(cè)為未流失的客戶中,82%實(shí)際上未流失;召回率(Recall):0.81,表示在所有實(shí)際未流失的客戶中,有81%被正確預(yù)測(cè)為未流失;F1分?jǐn)?shù)(F1-score):0.82,綜合考慮精確率和召回率的平衡。
對(duì)于“流失”類別(True),精確率(Precision):0.67,表示在所有預(yù)測(cè)為流失的客戶中,67%實(shí)際上是流失的。召回率(Recall):0.69,表示在所有實(shí)際流失的客戶中,有69%被正確預(yù)測(cè)為流失。F1分?jǐn)?shù)(F1-score):0.68,綜合考慮精確率和召回率的平衡。宏平均(MacroAverage):精確率、召回率和F1分?jǐn)?shù)均為0.75,表明模型在兩類之間的整體表現(xiàn)較為平衡。加權(quán)平均(WeightedAverage):加權(quán)平均精確率、召回率和F1分?jǐn)?shù)均為0.77,考慮了每個(gè)類別的支持度(樣本數(shù)量)。
模型在預(yù)測(cè)未流失客戶時(shí)表現(xiàn)良好,但在預(yù)測(cè)流失客戶時(shí)相對(duì)較弱。這可能是由于流失客戶的數(shù)據(jù)量相對(duì)較少,導(dǎo)致模型在該類別上的預(yù)測(cè)精度和召回率較低。因此,公司在實(shí)際應(yīng)用時(shí),可以通過訓(xùn)練更大規(guī)模的數(shù)據(jù)集來(lái)提高模型對(duì)流失客戶的預(yù)測(cè)精度和召回率,從而更有效地識(shí)別潛在流失客戶。
6結(jié)論
本文使用Python對(duì)電信客戶流失數(shù)據(jù)集進(jìn)行了分析,并將數(shù)據(jù)集中各種客戶屬性以圖表形式展示并進(jìn)行簡(jiǎn)單分析。企業(yè)應(yīng)當(dāng)搭建智能化的客戶可視化分析模型體系,充分利用數(shù)據(jù)可視化工具和技術(shù),基于問題橫向開展客戶數(shù)據(jù)的收集與加工,縱向?qū)Ρ瓤蛻舴治鲋笜?biāo),動(dòng)態(tài)調(diào)整分析結(jié)論。
通過這種方式,企業(yè)可以推動(dòng)業(yè)務(wù)發(fā)展,提高服務(wù)質(zhì)量,并吸引潛在客戶[8]。
參考文獻(xiàn):
[1]徐文昭.運(yùn)用Python及Pandas庫(kù)分組統(tǒng)計(jì)“最值”記錄方法探討[J].內(nèi)蒙古科技與經(jīng)濟(jì),2021(21):73-74.
[2]羅博煒.基于Python的數(shù)據(jù)可視化[J].信息記錄材料,2019,20(12):72-74.
[3]華振宇.兩個(gè)Python第三方庫(kù):Pandas和NumPy的比較[J].電腦知識(shí)與技術(shù),2023,19(1):71-73,76.
[4]劉瑩.基于大數(shù)據(jù)技術(shù)的電商用戶行為分析與可視化[J].電腦知識(shí)與技術(shù),2024,20(24):70-72,84.
[5]李望金.基于Python的電子商務(wù)數(shù)據(jù)分析與可視化研究[J].信息記錄材料,2024,25(7):206-209.
[6]何婷婷,胡杰,張璐,等.數(shù)據(jù)分析與可視化課程教學(xué)體系建設(shè)實(shí)踐探究[J].電腦知識(shí)與技術(shù),2024,20(13):144-146,158.
[7]李晶晶,紀(jì)寧.商業(yè)智能對(duì)企業(yè)數(shù)據(jù)可視化分析的作用[J].石油知識(shí),2023(5):46-47.
[8]李王珍.大數(shù)據(jù)及可視化技術(shù)與財(cái)務(wù)分析的融合研究[J].財(cái)會(huì)學(xué)習(xí),2024(8):20-22.
【通聯(lián)編輯:唐一東】
基金項(xiàng)目:河南工業(yè)大學(xué)2023年度教育教學(xué)改革研究與實(shí)踐項(xiàng)目(JXYJ2023015);認(rèn)知智能國(guó)家重點(diǎn)實(shí)驗(yàn)室(科大訊飛)開放基金(COGOS-2024HE01)