龔婷 普慧潔 張嘉偉 吳昊辰
摘要:本文采用K-means聚類方法,通過分析國內(nèi)外民航業(yè)的旅客細分及產(chǎn)品打包方法的優(yōu)缺點,以自己調(diào)研收集的數(shù)據(jù),對一定范圍內(nèi)的人群進行了旅客細分。在使用SPSS對旅客細分的過程中,經(jīng)過多次嘗試,最終確定K=3時聚類效果最好,即將旅客分為三類:公/商務(wù)旅客、探親旅游旅客、回家/返校學生團體,并為其設(shè)計了不同的產(chǎn)品組合。
Abstract: This paper adopts the K-means clustering method and analyzes the advantages and disadvantages of the passenger segmentation and product packaging methods in the civil aviation industry at home and abroad. Based on the data collected by the survey and study, the passengers within a certain range are subdivided. In the process of using SPSS to segment passengers, we have tried several times to finally determine the best clustering effect when K=3. This means that passengers are divided into three categories: public/business travelers, visiting relatives and tourists, home/back to school student groups and different product mixes were designed for them. However, due to the strong uncertainty in passenger demand, in the final APP, we will mainly push product accessories/free choice, and the product portfolio will supplement the sales approach to meet the needs of passengers for personalized and customized services.
關(guān)鍵詞:K-means;數(shù)據(jù)挖掘;產(chǎn)品組合;旅客細分
Key words: K-means;data mining;product portfolio;passenger segmentation
中圖分類號:F560? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2018)35-0052-03
0? 引言
在大數(shù)據(jù)時代,民航業(yè)有大量的旅客數(shù)據(jù)被閑置,得不到充分地利用。且航空運輸業(yè)飛速發(fā)展,旅客對民航業(yè)的要求已經(jīng)從簡單地運輸變成了對舒適、便捷的飛行服務(wù)的追求。針對需求各異的顧客,服務(wù)類型企業(yè)大多采用客戶細分方法進行研究應(yīng)用,以追求對盡可能多旅客需求的滿足,提高服務(wù)質(zhì)量及旅客滿意度,增強旅客粘性。盡管目前客戶細分的研究和應(yīng)用比較廣泛,但針對民航這一特殊市場的旅客細分研究還比較貧乏。在民航旅客分類上,通常會粗略地分為兩大類,公務(wù)旅客和閑暇旅客。很明顯,這種粗糙的分類方法并不能讓配套的產(chǎn)品滿足相應(yīng)的旅客需求,缺乏自由度的旅客可能會由此降低滿意度,這種被動的滿意度降低并不是航空公司想看到的,改進旅客聚類方法迫在眉睫。通過數(shù)據(jù)調(diào)查,運用目前數(shù)據(jù)挖掘技術(shù)中很普遍和常用的聚類分析方法——K-means算法,筆者發(fā)現(xiàn)民航旅客的分類可以在原來的基礎(chǔ)上再進行細分,最終可以由兩類細化為5類。通過總結(jié)細分后的旅客特征,為特定旅客制定并提供特定的產(chǎn)品組合選擇,這是本文的目的所在。通過本文研究,可以為航空公司日后更精確地給旅客提供定制化服務(wù)奠定一定基礎(chǔ),同時通過產(chǎn)品組合,可以優(yōu)化購票程序,提高旅客購票效率。
1? 數(shù)據(jù)采集和賦值
近年來,我國民航業(yè)發(fā)展迅速。十幾年前,由于價格較高,乘坐民航客機還是一種看似“高大上”的出行方式。現(xiàn)如今,居民平均生活水平提高,乘坐民航客機出行已不是什么新鮮事。由于乘坐目的不同,每位旅客對民航運輸服務(wù)的要求與需求也不同。為了使每位旅客的出行更加舒心,同時提高航空公司的收益,我們需要深入旅客市場,根據(jù)不同旅客的基本情況進行分類,再將旅客的出行目的及要求進行分類,從而對不同需求的旅客提供不同的產(chǎn)品組合。本次調(diào)查采用網(wǎng)上發(fā)布問卷調(diào)查方式,參與者覆蓋全國各個區(qū)域和各個年齡段,2017年10月-2017年11月調(diào)研小組對學生、在職人員等不同社會人員以線上調(diào)查問卷的方式進行了調(diào)查,一共發(fā)布600份問卷,回收了516份,其中有效問卷500份。其中,1、2、3、4題為本次調(diào)研的基本變量,即旅客職業(yè)、年齡、性別和月收入,之后所有的數(shù)據(jù)全部是基于這些旅客基本信息之上。5、6、9題主要是為了統(tǒng)計乘坐飛機方面的支出在旅客收入中所占的比例,即出門首選交通工具、每月交通收入占比和每年乘飛機次數(shù),以便計算機票價格與旅客需求之間的供需關(guān)系。7、12、14、15、16、17、18、19、21、22題收集的信息是在多維度旅客聚類方面的主要參考數(shù)據(jù),例如常選購買機票方式、購買機票首要考慮因素和飛行時長等因素,研究初期,我們將利用這些基本的數(shù)據(jù)對旅客進行聚類,劃分,進而推送更適合其的商品組合。8、10、11、20題是為了了解現(xiàn)如今旅客對民航業(yè)種種常見問題的看法,例如對產(chǎn)品組合的看法等,以便民航業(yè)針對這些要求作出相應(yīng)的改變,適應(yīng)十九大提出的新要求。
2? 聚類模型的建立
本文中采用SPSS(Statistical Product and Service Solutions)軟件所提供的K-均值聚類分析(K-means Cluster)。操作過程是首先選擇問卷中幾個具有代表性的關(guān)于旅客信息的問題,然后分別將這些問題的選項進行賦值型量化,使每道題的選項數(shù)值均值都為0(例如,將A、B、C、D四個選項分賦值為-2、-1、1、2)再將數(shù)據(jù)導入SPSS進行聚類分析操作,再對得出的結(jié)果進行檢驗和優(yōu)化。該步驟的特點是將文字型選項進行數(shù)值量化,用數(shù)學方法解決實際應(yīng)用問題,且每道問題選項均值為零,排除了某些選項占比不均的現(xiàn)象。該聚類模型的建立過程只需一次將數(shù)據(jù)導入SPSS軟件,在運算過程中可以隨時終止和重新開始操作,計算過程中數(shù)據(jù)會被自動迭代并根據(jù)設(shè)置的中心點分類。
K-means算法的公式如下:
其中,V表示樣本Xj到其所在類別聚類中心Ui的距離平方和,K表示聚類個數(shù),Xj表示第j個樣本,Ui表示第i個聚類中心。
3? 聚類過程
3.1 中心點的選擇
K-means算法本身思想比較簡單,但是合理的確定K值和K個初始類簇中心點對于聚類效果的好壞有很大的影響。K-means算法在聚類方法的分類中屬于劃分方法,首先要構(gòu)建劃分數(shù)目K值,然后進行迭代計算。對于給定的初始K值,則需要一定的探究,一旦初始值選取不當,容易出現(xiàn)一個局部最小的準則函數(shù)。目前初始聚類中心的選擇方法有以下的一些:
①任意的選取k個樣本作為初始聚類中心。
②憑經(jīng)驗選取有代表性的點作為起始聚類中心。根據(jù)個體性質(zhì),觀察數(shù)據(jù)結(jié)構(gòu),選出比較合適的代表點。
③把全部混合樣本直觀地分成k類,計算各類均值作為初始聚類中心。
④通過“密度法”選擇代表點作為初始聚類中心。
⑤按最大最小距離聚類法中尋找聚類中心的方法確定初始聚類中心。
⑥進行多次初值選擇、聚類,找出一組最優(yōu)的聚類結(jié)果。
由以上綜述可以看出,選取中心點的方法很多,可以通過隨機數(shù)選取、憑經(jīng)驗確定和科學計算等等,無論使用哪一種方法,都不應(yīng)該一次性得出絕對的結(jié)論,應(yīng)該經(jīng)過多次計算比對結(jié)果,篩選優(yōu)化中心點,最終得出最優(yōu)聚類結(jié)果。
3.2 實現(xiàn)K-means算法的聚類過程
通過對調(diào)查問卷結(jié)果的分類,我們將旅客分為五個樣本集,舍棄每個類別中無意義的孤立點即壞點,防止其對聚類結(jié)果產(chǎn)生不良影響。選取調(diào)查問卷中四個問題指標進行量化,分別是旅客職業(yè)、旅客性別、旅客在運輸方面的消費與收入占比、旅客平均飛行時長。對五個樣本集的四個指標分別進行聚類。
其中VAR00002為旅客職業(yè),VAR00003為旅客性別,VAR00004為運輸消費收入占比,VAR000005為旅客飛行時長。
3.3 聚類中心點的優(yōu)化
由初始聚類可以看出,第1和3類數(shù)據(jù)對象、第4和5類數(shù)據(jù)對象都極為相似,說明初始中心點選取有誤差,相似的數(shù)據(jù)樣本集可以合并為一類,除此之外處于類別中間模糊邊界上的點可以視作孤立點,對數(shù)據(jù)再一次進行迭代計算,此時將K取值為3進行優(yōu)化。
4? 聚類結(jié)果分析
從上述計算過程看出,各類別之間均值差距較大,已無法再次進行劃分,調(diào)查數(shù)據(jù)共被分為3類,分別是企事業(yè)單位工作人員、自由休閑人員和學生,性別均值為0,表示男女性旅客各占一半,運輸消費收入占比大部分在10-20%,有一類旅客群在運輸方面消費占比不超過10%。旅客的飛行時間平均不超過5小時,各旅客群有其對應(yīng)的飛行時長偏好。
為了使聚類結(jié)果更有說服力,筆者對分類結(jié)果進行了檢驗。將回收的問卷根據(jù)出行目的(即問題七)進行分類,然后將主觀的分類結(jié)果與聚類結(jié)果進行比對,分析發(fā)現(xiàn)聚類結(jié)果與主觀分類結(jié)果不謀而合。按照其出行目的,將航空旅客分為5個類別:公/商務(wù)旅客,旅游度假旅客,探親訪友旅客,返工/返鄉(xiāng)旅客,回家/返校的學生群體旅客,即設(shè)定k=5時聚類結(jié)果,此時與主觀分類結(jié)果相吻合。接著,我們對首次分類結(jié)果進行優(yōu)化,最終當我們得出當k=3時,聚類結(jié)果不再變化,即航空旅客可以分為3類:公/商務(wù)旅客,探親旅游旅客,回家/返校學生群體。其分類依據(jù)綜合考慮了出行目的、旅客對出行時間與價格的敏感度等影響因素。將返工/返鄉(xiāng)旅客與回家/返校的學生群體旅客合并成一類,除了學生旅客比打工旅客多了一個暑假外,這兩類旅客性質(zhì)基本相似。將旅游度假旅客與探親訪友旅客合二為一,因這兩類旅客對出行時間的敏感度弱于公務(wù)旅客和學生群體。
在對于公/商務(wù)旅客的產(chǎn)品推薦上,我們主打“兩艙+高端酒店+接送機+X”和“經(jīng)濟艙+舒適型酒店(報銷標準下)+接送機+X”兩種產(chǎn)品組合,并根據(jù)實際情況,對動態(tài)變量“X”進行調(diào)整,它可以是與航空旅客運輸相關(guān)的產(chǎn)品或服務(wù),也可以是與公/商務(wù)業(yè)務(wù)相關(guān)的產(chǎn)品或服務(wù)。針對探親旅游旅客,我們主要進行“機票+接送機+酒店+旅游景點門票+X”的組合,其中機票主要以經(jīng)濟艙為主,可適當加入少量公務(wù)艙,機票所附加的幾個小項可以進行自由組合,盡量滿足更多旅客需求。在對于學生旅客的產(chǎn)品打包上,我們首先應(yīng)該考慮的就是特價打折的機票。但是一般價格較低的機票其航班時刻都不是很好,考慮到學生到達或離開機場的便利性,我們便可以給其推薦可以拼車的接送機服務(wù)。同時,對于部分行李較多的學生,我們還可以給其提供相應(yīng)的快遞服務(wù),并給予優(yōu)惠。在對于一些特例旅客的處理上,我們可以增加一個全開放式自助組合板塊,讓旅客自由組合所需要的產(chǎn)品,而不僅僅局限于我們所提供的打包產(chǎn)品。同時通過后臺數(shù)據(jù)的積累,我們可以不定期推出某一類或某幾類旅客常用的產(chǎn)品組合,方便旅客的同時也提升了自身效率。
總之回家、返校/工作群體的特征相對明顯,對于價格的高度敏感和對于時間的不敏感將成為我們保持旅客粘性的關(guān)鍵,成為我們提供增值服務(wù)的重要切入點,旅客分類與需求特征如表7所示。
5? 結(jié)論與展望
本文在借鑒前人研究成果的基礎(chǔ)上,查閱國內(nèi)外相關(guān)參考文獻,對聚類算法及在航空旅客分析中的應(yīng)用做了一些研究,主要做了以下幾項研究。
①介紹了本文的研究背景及意義和數(shù)據(jù)挖掘、聚類算法方面的理論知識。
②借助SPSS分析工具,使用k-means算法對航空旅客的特點和需求進行聚類分析,基本思想是將電子問卷選項答案進行量化,將首次聚類的結(jié)果進行優(yōu)化,改變中心點k值,使優(yōu)化后的聚類中心有更高的準確度。
③將聚類結(jié)果與航空旅客需求聯(lián)系一起進行分析,對不同類型旅客推出不同產(chǎn)品組合建議,將數(shù)學分析與實際應(yīng)用更好地關(guān)聯(lián)。
在本項目的研究過程中,我們還發(fā)現(xiàn)如下可改進的問題:
①雖然電子問卷涉及各個職業(yè)領(lǐng)域,但本文所選數(shù)據(jù)樣本相對于當今時代的海量數(shù)據(jù)依然微不足道。
②對于本文研究所的結(jié)論,希望可以運用手機或電腦軟件將產(chǎn)品組合展示出來,將研究運用到具體實踐當中。
參考文獻:
[1]張建萍,劉希玉.基于聚類分析的K-means算法研究及應(yīng)用[J].計算機應(yīng)用研究,2007(05):166-168.
[2]袁方,周志勇,宋鑫.初始聚類中心優(yōu)化的k-means算法[J].計算機工程,2007(03):65-66.
[3]陳光宇,胡麗英,蘇勇.聚類分析在電信行業(yè)客戶關(guān)系管理中的應(yīng)用[J].微計算機信息,2006(33):210-211.
[4]丁青,周留根,朱愛兵,張義東.基于K-means聚類算法的校園網(wǎng)用戶行為分析研究[J].微計算機應(yīng)用,2010,31(06):74-80.
[5]馮曉蒲,張鐵峰.四種聚類方法之比較[J].微型機與應(yīng)用,2010,29(16):1-3.