趙文華
(中國福利彩票發(fā)行管理中心技術(shù)部,北京 100101)
福利彩票“快樂8”游戲是一款借助計算機(jī)網(wǎng)絡(luò)發(fā)行銷售,每天定期開獎(財政部發(fā)布的彩票休市日除外)的現(xiàn)代型數(shù)字游戲,廣泛借鑒了國際上的成功經(jīng)驗,具有玩法多樣,單注投注金額低,休閑娛樂,中獎面廣等特點(diǎn)?!翱鞓?”游戲于2020年率先在我國遼寧、江蘇、江西、山東、廣東等部分省市試點(diǎn)上市銷售,在總結(jié)試點(diǎn)省試運(yùn)行經(jīng)驗的基礎(chǔ)上,不斷復(fù)制推廣,于2021年底在全國范圍內(nèi)鋪開銷售,成為繼“雙色球”“3D”“七樂彩”后又一款在全國聯(lián)銷的福彩游戲,目前,平均期銷量達(dá)到七千多萬元,已經(jīng)發(fā)展成中國福利彩票的又一知名市場品牌。
2021年“快樂8”全年銷量約占福彩電腦彩票年銷量的20%以上,取得了良好的市場反響和預(yù)期效果。發(fā)行規(guī)模的擴(kuò)大意味著銷售投注方式數(shù)據(jù)的大量擴(kuò)容累積,充分挖掘和利用這些銷售投注數(shù)據(jù)之間的關(guān)系,更好反哺于游戲規(guī)則設(shè)置,是雙輪驅(qū)動游戲持續(xù)發(fā)展的關(guān)鍵手段之一。面對該游戲規(guī)則中設(shè)定的多種投注方式,無論是發(fā)行機(jī)構(gòu)還是銷售機(jī)構(gòu),都希望通過先進(jìn)的數(shù)據(jù)統(tǒng)計和分析技術(shù)從成千上萬的銷售數(shù)據(jù)中找尋它們之間的內(nèi)在聯(lián)系,從而為銷售機(jī)構(gòu)進(jìn)一步調(diào)整游戲規(guī)則、優(yōu)化設(shè)置獎級獎等獎金、更加科學(xué)合理地制定派獎促銷等市場營銷方案提供參考借鑒和設(shè)計指導(dǎo)。
數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則是一種基于規(guī)則的機(jī)器學(xué)習(xí)方法,是指物品之間存在的強(qiáng)關(guān)系,用于從數(shù)據(jù)集中尋找物品之間的隱含關(guān)系。通俗來講,就是買了某商品的人,很有可能又會買另一種商品。
綜上所述,筆者將關(guān)聯(lián)規(guī)則有關(guān)算法應(yīng)用于“快樂8”投注方式銷售數(shù)據(jù)中,通過建立模型和進(jìn)行算法分析,研究統(tǒng)計彩民在投注此游戲玩法時,選擇的不同投注方式之間可能存在的內(nèi)在關(guān)聯(lián)。
根據(jù)中福彩官方網(wǎng)站的介紹,福利彩票“快樂8”游戲是經(jīng)國家財政部門批準(zhǔn)在我國境內(nèi)上市銷售的一款KENO型游戲,具體玩法是從1至80共80個號碼中任意選擇一至十個號碼來購買投注,每一組一至十個號碼的組合稱為一注彩票?!翱鞓?”游戲包括選一、選二、選三、選四、選五、選六、選七、選八、選九和選十共計十種玩法。
上述玩法均支持單式投注、復(fù)式投注及膽拖投注。單式投注是指選一至選十單式投注的號碼個數(shù)分別為一個至十個。復(fù)式投注是指包含兩注及以上的單式投注,所選擇的號碼個數(shù)應(yīng)大于單式投注號碼個數(shù),每一種單式投注組合均為復(fù)式投注。以選二玩法為例,某彩民的復(fù)式投注為3、56和78,那么其投注的選二玩法分別為(3、56)、(3、78)和(56、78)三注彩票。膽拖投注是一種較為特殊的復(fù)式投注,具體由膽碼和托碼組成。膽碼是每注彩票必須包含的號碼,不同的托碼構(gòu)成一注不同的彩票,膽碼和托碼的個數(shù)之和應(yīng)大于單式投注所需號碼總和。以選二玩法為例,某彩民的膽拖投注為3、56和78,其中3為膽碼,托碼分別為56、78,那么其投注的選二玩法分別為(3、56)和(3、78)兩注彩票。“快樂8”游戲各獎級獎金設(shè)置結(jié)構(gòu)如圖1所示。
圖1 獎金設(shè)置結(jié)構(gòu)圖
關(guān)聯(lián)規(guī)則用于發(fā)現(xiàn)某些表面看似無關(guān)聯(lián)實(shí)際上數(shù)據(jù)之間可能存在的關(guān)系。在數(shù)據(jù)挖掘的過程中,關(guān)聯(lián)規(guī)則的生成主要包含兩個步驟:一是在原始數(shù)據(jù)集合中找出出現(xiàn)頻次較高的數(shù)據(jù)集合,在數(shù)據(jù)挖掘中通常也將其稱為頻繁項目集合;二是在這些頻繁項目集中,找尋出滿足預(yù)先設(shè)定的參數(shù)閾值的項目集合,也就是關(guān)聯(lián)規(guī)則,語義解釋是說明這些數(shù)據(jù)之間可能存在的關(guān)聯(lián)程度。
關(guān)聯(lián)規(guī)則挖掘的第一步是在原始數(shù)據(jù)集合中,挖掘找出所有頻繁項目集合。頻繁是指某一項目集合組出現(xiàn)的頻率必須達(dá)到某一頻次(相對于所有原始數(shù)據(jù)記錄而言),實(shí)際上就是達(dá)到程序事先設(shè)計的參數(shù)閾值。某一項目組出現(xiàn)的頻率又稱為支持度,以一個包含與兩個項目的項目集為例,可以由支持度計算公式得到包含{,}項目組的支持度,若支持度大于等于所設(shè)定的最小支持度,則{,}稱為高頻項目組。
關(guān)聯(lián)規(guī)則挖掘的第二步是形成關(guān)聯(lián)規(guī)則,從頻繁項目組產(chǎn)生關(guān)聯(lián)規(guī)則,即在第一階段形成的高頻項目組產(chǎn)生規(guī)則。在設(shè)定的最小可信度范圍內(nèi),若某一規(guī)則的可信度滿足最小信賴度,即將此規(guī)則稱為關(guān)聯(lián)規(guī)則。
2.2.1 支持度(support)
支持度表示購買某個(用表示)或某些商品與總體購買商品(用表示)之間的關(guān)系,那么的支持度可以用公式support()=#A/support()表示,實(shí)際使用過程中可以將出現(xiàn)的次數(shù)指定為閾值。
2.2.2 可信度(confidence)
可信度表示條件概率,即買了的人又買了的比例有多少,表示關(guān)聯(lián)性的強(qiáng)弱,或者說是規(guī)則的可靠性,即confidence(—)=support(U)/support(),其 中∩=Ф,Ф表示空集。
總的來說就是,設(shè)定支持度閾值,找出所有的頻繁項集,再針對每個頻繁項集所有可能的關(guān)聯(lián)項,計算其置信度,根據(jù)置信度閾值,得到最終符合要求的強(qiáng)規(guī)則。
針對早期Apriori算法的固有缺陷和先天不足,J. Han等人提出了不產(chǎn)生候選挖掘頻繁項目集的方法,即FP-樹頻集算法。采用自頂向下逐層分解的策略,經(jīng)過第一遍掃描后,將數(shù)據(jù)庫中的頻集壓縮進(jìn)一棵頻繁模式樹,同時保留其中的關(guān)聯(lián)信息,隨后將FP-tree分化成若干條件庫(每個庫與一個長度為1的頻集有關(guān)),然后再分別對這些條件庫進(jìn)行挖掘。待統(tǒng)計分析的初始數(shù)據(jù)量較大時,也可以考慮將一棵頻繁模式樹直接放入主要存儲器中,然后逐層逐步分解演繹。
筆者統(tǒng)籌考慮上述關(guān)聯(lián)規(guī)則算法的核心推理邏輯,調(diào)用互聯(lián)網(wǎng)開源算法fp-growth包,實(shí)現(xiàn)了“快樂8”游戲不同投注方式頻繁項目集與強(qiáng)規(guī)則的生成。程序流程為數(shù)據(jù)文件—事務(wù)數(shù)據(jù)集—頻繁集生成—頻繁集集合—強(qiáng)規(guī)則生成—更新關(guān)聯(lián)規(guī)則集,流程圖如圖2所示。
圖2 流程圖
其中,事務(wù)數(shù)據(jù)集主要接收原始游戲投注銷售數(shù)據(jù),經(jīng)過固定字段的特殊提煉和處理,生成由某些字段組合而成的單一事務(wù),事務(wù)的關(guān)鍵字用投注站編碼唯一標(biāo)識,所有被提取的游戲銷售數(shù)據(jù)形成相應(yīng)的事務(wù)數(shù)據(jù)集;在所產(chǎn)生的事務(wù)數(shù)據(jù)集的基礎(chǔ)上,頻繁集生成挖掘滿足最小支持度的最大頻繁項目集,并把相應(yīng)的頻繁集存放于頻繁項目集合中;強(qiáng)規(guī)則生成主要是在最大頻繁集中產(chǎn)生滿足最小可信度的關(guān)聯(lián)規(guī)則輸出或更新。
數(shù)據(jù)來源于某福彩投注站數(shù)十位彩民在一段時間內(nèi)購買“快樂8”游戲的銷售記錄,從中提取數(shù)個數(shù)據(jù)字段,具體包含投注站編號、票號、游戲玩法名稱、投注方式、投注金額、投注時間等。如果投注方式為復(fù)式投注或膽拖投注,則需要手動拆分為單式投注。
數(shù)據(jù)用文件輸入,每行代表某彩民某段時間內(nèi)對“快樂8”游戲的投注方式,由于數(shù)據(jù)字段不算特別長,故每行文件代表一個事務(wù),文件的所有行就組成了事務(wù)集合,文件總行數(shù)即為事務(wù)總數(shù)。以上事務(wù)集是關(guān)聯(lián)規(guī)則挖掘的前提,從這些事務(wù)集中尋找最大頻繁項目集與強(qiáng)規(guī)則。
十種投注方式分別為選一、選二、選三、選四、選五、選六、選七、選八、選九、選十,本程序產(chǎn)生的事務(wù)集共包含232條記錄,假設(shè)最小支持度與最小可信度分別為0.4和0.8,表1、表2為部分事務(wù)集。
表1 部分事務(wù)集
表2 部分事務(wù)集
程序輸出最大頻繁項目集和每個頻繁項目集所對應(yīng)的強(qiáng)關(guān)聯(lián)規(guī)則,每一行代表一個頻繁項目集和一條強(qiáng)規(guī)則,在強(qiáng)規(guī)則集中可以查看每條規(guī)則的支持度與可信度。
從模型運(yùn)行結(jié)果來看,產(chǎn)生的最大頻繁項目集有4個,分別是{選一,選二,選三}、{選二,選三,選四}、{選五,選六,選七}、{選八,選九,選十}等。從中可以看出,選二與選三是“快樂8”彩民選用最多的投注方式。在每一個最大頻繁項目集中,生成滿足最小可信度的強(qiáng)關(guān)聯(lián)規(guī)則,如表3所示。
表3 強(qiáng)關(guān)聯(lián)規(guī)則表
提取兩條規(guī)則來分析其語義,如:選一—選二、選三,:0.573 641 20、:1.0??芍撘?guī)則的支持度為0.573 641 20,可信度為1,即如果一個彩民投注了選一,那么該彩民約有57%的可能性也投注了(選二或選三)、(選八、選九—選十),:0.587 413 57、:0.901 456 31??芍撘?guī)則的支持度為0.587 413 57,可信度為0.901 456 31,即如果一個彩民投注了(選八和選九),那么該彩民約有58%的可能性也投注了選十。
由表3可以看出,選二和選三是彩民投注最多的方式,選一、選二和選三之間的關(guān)聯(lián)程度最高,投注選一和選二之后,購買選三的可信度最高,可達(dá)到65%。從往期“快樂8”的部分歷史中獎公告統(tǒng)計數(shù)據(jù)來看,如圖3所示,相較于其他投注方式,選一、選二、選三的中獎注數(shù)都呈現(xiàn)出高位運(yùn)行。絕大多數(shù)情況下,選一、選二的中獎注數(shù)分別大于選三的中獎注數(shù),這也反向說明了彩民在購買選一、選二之后再購買選三的概率較大,但也不是百分百的可能性。彩民跳號投注的購買意愿較低,體現(xiàn)在四組頻繁項目集中,例如,彩民投注選五和選七之后,再關(guān)聯(lián)購買中間投注方式選六的支持度都相對較低,僅僅略高于程序設(shè)定的參數(shù)指標(biāo)值。大號投注選八、選九、選十的關(guān)聯(lián)程度也比較高,特別是連續(xù)性投注,例如選八之后,投注選九和選十的支持度較高,同樣,彩民在購買選八和選九之后,再購買選十的意愿也遠(yuǎn)高于程序預(yù)先設(shè)定的可信度閾值0.4。
圖3 部分歷史中獎注數(shù)統(tǒng)計
由此可見,彩民在購買“快樂8”游戲時,連續(xù)性投注是他們比較青睞的投注方式,特別是選一、選二、選三的可信區(qū)間能達(dá)到1,這說明,彩票游戲設(shè)置簡單化是進(jìn)行市場推廣和獲得市場好評的關(guān)鍵性因素之一。對發(fā)行機(jī)構(gòu)來說,可以在設(shè)置獎等獎金方面適度予以傾斜,提升游戲的趣味性和娛樂性。同樣,選八、選九、選十組合投注方式的支持度也相對較高,原因是“快樂8”游戲的最大獎金設(shè)置在選十全中上,由此可見,中大獎對彩民有著不可低估的吸引力,目前“快樂8”游戲選十全中的中獎獎金主要取決于浮動獎獎池余額、當(dāng)期銷量以及中獎注數(shù)等幾個因素,是一個多因素變量影響的函數(shù)。接下來,為保證選十全中的獎金金額,可以優(yōu)化統(tǒng)籌考慮采用固定獎獎金加浮動獎獎金的模式。
綜上所述,連續(xù)性投注和中大獎投注是彩民購買該游戲的兩大特點(diǎn),分散性投注的關(guān)聯(lián)程度在本次數(shù)據(jù)分析中并不明顯,也可能是與本次選取的數(shù)據(jù)樣本量有關(guān)系,需要再次隨機(jī)選取數(shù)據(jù)樣本,創(chuàng)建模型統(tǒng)計分析驗證。由于關(guān)聯(lián)規(guī)則的提取需要預(yù)先設(shè)定支持度和可信度兩個不同的參數(shù)指標(biāo),因此參數(shù)的設(shè)置比較重要,對于已經(jīng)產(chǎn)生的強(qiáng)規(guī)則,表明可能存在某種聯(lián)系,也可能只是同時出現(xiàn)而已,這種情況下,需要聯(lián)系游戲玩法等實(shí)際情況進(jìn)行具體分析。
針對“快樂8”游戲玩法,筆者選取部分歷史投注數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則技術(shù)分析推理出連續(xù)性投注和中大獎投注是該游戲目前廣受青睞的投注方式,特別是簡單易玩的選一、選二、選三投注,為銷售機(jī)構(gòu)進(jìn)一步優(yōu)化游戲玩法規(guī)則,設(shè)置獎級獎等獎金,持續(xù)提高該游戲玩法的趣味性和娛樂性,降低博弈性和提升市場競爭能力提供一些思路。然而,關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘受制于算法本身的局限性,可能提取的數(shù)據(jù)關(guān)聯(lián)程度實(shí)際應(yīng)用中并沒有緊密關(guān)聯(lián),需要進(jìn)一步做主觀分析和判斷,而且對彩民的投注習(xí)慣等也無法分析預(yù)測。下一步,將借助最新數(shù)據(jù)挖掘算法、人工智能、云計算等先進(jìn)技術(shù)加大對歷史銷售數(shù)據(jù)的預(yù)處理和精準(zhǔn)分析,不斷提升數(shù)據(jù)處理的質(zhì)量,讓福彩大數(shù)據(jù)更好地服務(wù)于福彩發(fā)行的方方面面。