摘 要:為了解決首次代幣發(fā)行(ICO)欺詐檢測研究中存在的特征建模單一、模型缺乏可解釋性等問題,提出一種融合多源異構(gòu)數(shù)據(jù)的ICO欺詐預(yù)測和可解釋分析模型IICOFP。首先,融合ICO項目基本信息、評級分?jǐn)?shù)、社交媒體等多源異構(gòu)數(shù)據(jù),通過Lasso特征選擇和Tomek-Link欠采樣更有效地實現(xiàn)對ICO的特征建模;其次,基于GBDT算法訓(xùn)練ICO欺詐預(yù)測模型,并引入SHAP框架從多個角度分析欺詐型ICO的影響因素,有力增強模型的可解釋性。實驗結(jié)果表明,該模型的準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)和AUC值分別達(dá)到87.76%、85.37%、90.52%、87.87%和87.82%,各項性能比已有的最佳模型提高了約2%~10%,驗證了融合多源異構(gòu)數(shù)據(jù)進(jìn)行特征建模在ICO欺詐預(yù)測中的關(guān)鍵作用(實驗數(shù)據(jù)及代碼:https://github.com/Lujiarong1203/IICOFP)。
關(guān)鍵詞: 首次代幣發(fā)行(ICO); 欺詐預(yù)測; GBDT模型; SHAP框架; 可解釋性
中圖分類號: TP181 文獻(xiàn)標(biāo)志碼: A 文章編號: 1001-3695(2025)02-005-0357-08
doi: 10.19734/j.issn.1001-3695.2024.05.0220
Interpretable ICO fraud prediction model by fusing
multi-source heterogeneous data
Lu Jiarong1, Liao Bin2’, Liu Yi3, Chen Hailong1
(1. College of Statistics amp; Data Science, Xinjiang University of Finance amp; Economics, rümqi 830012, China; 2. College of Big Data Statistics, Guizhou University of Finance amp; Economics, Guiyang 550025, China; 3. School of Public Health, Xinjiang Medical University, rümqi 830017, China)
Abstract:Aiming at the problems of single feature modelling and models lacking interpretability in the current ICO fraud detection research, this paper proposed an interpretable ICO fraud prediction model (IICOFP) by fusing multi-source heteroge-neous data. Firstly, it fused the ICO project basic information, rating scores, social media and other multi-source heterogeneous data, and effectively achieved feature modelling of ICOs by Lasso feature selection and Tomek-Link under-sampling. Secondly, it trained the ICO fraud prediction model based on the GBDT algorithm, and introduced the SHAP framework to ana-lyze the main influencing factors of fraudulent ICOs from multiple perspectives, which strongly enhanced the interpretability of the model. The experimental results show that the proposed IICOFP model achieves accuracy, precision, recall, F1 score and AUC value of 87.76%, 85.37%, 90.52%, 87.87% and 87.82%, respectively, and the performance of each of them is improved by about 2%~10% over the existing best model, which verifies the key role of fusing multi-source heterogeneous data for feature modelling in ICO fraud prediction(experimental data and code: https://github.com/Lujiarong1203/IICOFP).
Key words:initial coin offering (ICO); fraud prediction; GBDT model; SHAP framework; interpretability
0 引言
首次代幣發(fā)行(ICO)是基于區(qū)塊鏈技術(shù)的最主要應(yīng)用之一,是指項目發(fā)行人向投資者發(fā)行項目代幣,籌集項目發(fā)展所需資金的一種新型融資模式。與股權(quán)融資、IPO 等傳統(tǒng)融資方式相比,ICO 的融資門檻更低、速度更快、效率更高。自2013年7月萬事達(dá)幣(Mastercoin)推出首個ICO以來,ICO市場規(guī)模迅速增長,并在2017—2018年經(jīng)歷了巨大的繁榮[1],僅2018 年前三個季度,區(qū)塊鏈企業(yè)通過 ICO 籌集了 20 億美元,而傳統(tǒng)風(fēng)險投資僅籌集了3.5億美元[2]。截止2021年1月,已有5 728個ICO項目募集了超過270億美元資金[3]。顯然,ICO能夠讓初創(chuàng)企業(yè)以更小的成本在短期內(nèi)募集大量的資金,并逐漸成為區(qū)塊鏈技術(shù)企業(yè)最受歡迎的融資模式。
然而,由于區(qū)塊鏈技術(shù)的去中心化和匿名性等特性,使得這種低成本、高回報的新型融資模式成為了詐騙、黑市交易、洗錢等違法犯罪活動的溫床。其中最具代表性的例子是2018年越南Modern Tech公司的ICO騙局,他們相繼發(fā)售了Pincoin和iFan兩種項目代幣,從大約3.2萬名投資者手中募集到了6.58億美元資金后攜款消失。而這只是近年來震撼加密貨幣社區(qū)的眾多欺詐案件之一。在2017—2020年期間進(jìn)行的數(shù)千次ICO中,約80%被認(rèn)定為騙局或失敗的項目。據(jù)估計,僅在2020年,投資者就因ICO騙局損失了超過19億美元[4]。國內(nèi)ICO市場亦是良莠不齊,據(jù)清華大學(xué)金融研究院研究簡報統(tǒng)計,我國的眾多 ICO 項目中90%的 ICO 項目涉嫌故意詐騙,而真正募集資金用作項目投資的 ICO項目不到 1%。因此,如何融合多源異構(gòu)的 ICO 信息,為投資者提供可靠的 ICO 欺詐預(yù)測和預(yù)警服務(wù),營造安全穩(wěn)定和持續(xù)健康的金融環(huán)境,是眾多金融監(jiān)管或服務(wù)機構(gòu)亟需解決的問題。為了增強項目透明度、建立信任以及吸引潛在投資者,ICO發(fā)布方會公開項目白皮書、募集金額、發(fā)售時間、代幣分配方案、團隊成員背景等基本信息。而這也為研究人員評估ICO項目的可行性、市場前景、欺詐風(fēng)險等提供了機會。文獻(xiàn)[5~9]通過深入分析ICO項目白皮書、網(wǎng)站、團隊規(guī)模等方面的信息,幫助投資者對ICO進(jìn)行盡職調(diào)查并作出明智的投資決策。此外,利用機器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處理等技術(shù)來分析和探索多源異構(gòu)的ICO數(shù)據(jù)已成為一個重要的研究方向,其主要分為兩個方面:a)利用機器學(xué)習(xí)技術(shù)建立ICO欺詐預(yù)測模型[10],其基本原理是通過特征工程技術(shù)提取項目基本信息、白皮書、網(wǎng)站等數(shù)據(jù)中的有效信息,實現(xiàn)對ICO的特征建模,再通過機器學(xué)習(xí)模型訓(xùn)練欺詐預(yù)測模型,但模型的檢測性能取決于對ICO完備的特征建模和充分的特征工程;b)利用深度學(xué)習(xí)技術(shù)建立ICO欺詐預(yù)測模型[11,12],其基本原理是將ICO項目白皮書、網(wǎng)站內(nèi)容等原始數(shù)據(jù)作為輸入,經(jīng)過自然語言處理或深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)和模型訓(xùn)練,并最終輸出欺詐預(yù)測結(jié)果。但該方法數(shù)據(jù)來源單一、計算成本較高,且模型缺乏可解釋性。
針對現(xiàn)有研究的不足,提出一種可解釋的ICO欺詐預(yù)測模型IICOFP。具體而言,該方法融合ICO項目基本信息、評級分?jǐn)?shù)、社交媒體平臺等多源異構(gòu)數(shù)據(jù),應(yīng)用Tomek-Link欠采樣和Lasso特征選擇對融合數(shù)據(jù)集進(jìn)行聯(lián)合預(yù)處理,更有效地實現(xiàn)了對ICO的特征建模;基于上述數(shù)據(jù)特征工程,建立預(yù)測模型,并引入SHAP框架有力地增強模型的可解釋性,為投資者盡職調(diào)查和金融監(jiān)管機構(gòu)風(fēng)險預(yù)警提供可靠依據(jù)。
1 相關(guān)研究
目前對ICO成功影響因素的探討和構(gòu)建ICO欺詐預(yù)測模型的研究一直是金融與加密領(lǐng)域的熱點問題之一,長期以來,學(xué)者們在這個領(lǐng)域進(jìn)行了大量的深入研究,形成了多種不同的理論框架和研究方法。對ICO成功影響因素的研究涵蓋了項目特征[13~15]、團隊背景[16, 17]、社交媒體[18]到市場環(huán)境和投資者行為[19, 20]等各個層面,這不僅為投資者對 ICO 項目進(jìn)行充分盡職調(diào)查創(chuàng)建了框架,也為ICO的特征建模提供了依據(jù)。Bian等人[21]開發(fā)了首個基于機器學(xué)習(xí)的ICO欺詐預(yù)測模型IcoRating,將一年后價格低于ICO發(fā)行價格1%的項目認(rèn)定為欺詐型ICO,并利用1 482個ICO項目信息建立了預(yù)測模型,其準(zhǔn)確率、召回率和F1值分別達(dá)到83%、77%和80%。作為首個欺詐型ICO預(yù)測模型,其ICO特征建模方法為后續(xù)研究提供了思路。Di等人[22]利用ground-truth理論將ICO分為失敗、有風(fēng)險和成功三類,并基于ICO網(wǎng)站數(shù)據(jù)構(gòu)建圖神經(jīng)網(wǎng)絡(luò)(GNN)模型,但其F1值僅為59%,遠(yuǎn)不能達(dá)到實際場景的應(yīng)用需求。Dürr等人[23]對ICO的特征建模方法比較新穎,從白皮書靜態(tài)文檔中提取出了9個特征,通過訓(xùn)練多個模型得到XGBoost的F1值為80.42%。Xu等人[24]采集了4 286個ICO項目的多方面信息并建立了A-BiRNN模型,其F1值為73.2%,并通過可視化權(quán)重使得模型具備了一定的可解釋性。Chursook等人[25]收集了237個ICO的Twitter數(shù)據(jù),通過情緒分析建立了ICO成功預(yù)測模型,其中邏輯回歸模型的F1值達(dá)到74.8%??偟膩碚f,前述研究為ICO的特征建模和構(gòu)建ICO欺詐預(yù)測模型奠定了基礎(chǔ),但仍存在兩個方面的問題值得進(jìn)一步探討:a)僅基于ICO白皮書或網(wǎng)站內(nèi)容等單方面數(shù)據(jù)建模可能存在信息不完整和不準(zhǔn)確的問題,需要考慮更多數(shù)據(jù)來源和更高維數(shù)據(jù)以提高模型的可靠性和預(yù)測性能;b)已有研究聚焦于提高模型的預(yù)測準(zhǔn)確率,忽視了模型的可解釋性,而對于ICO欺詐檢測問題,模型的可解釋性對合理決策、合規(guī)監(jiān)管至關(guān)重要。本文與已有工作的不同之處在于:a)融合ICO項目基本信息、評級分?jǐn)?shù)、社交媒體等多源異構(gòu)的信息,通過特征工程更完備地實現(xiàn)了對ICO的特征建模;b)基于預(yù)處理后的融合數(shù)據(jù)建立的ICO欺詐預(yù)測模型IICOFP的各項性能均優(yōu)于已有工作,并具有良好的泛化能力;c)引入SHAP框架分析了欺詐型ICO的影響因素,有力地增強了模型的可解釋性。
2 IICOFP模型的框架和方法
2.1 問題建模
本文建立的IICOFP模型其本質(zhì)是融合多源異構(gòu)的ICO數(shù)據(jù),預(yù)測未來發(fā)布的ICO是否為欺詐的二分類模型。具體地,設(shè)原始 ICO 數(shù)據(jù)集為D,特征空間為XM,其中M為特征數(shù)量,Y為標(biāo)簽空間。設(shè)i個樣本的第j個特征實例為xji=(x1i,x2i,…,xMi),其中i=1,2,…,n,j=1,2,…,M,n為樣本容量,模型預(yù)測的輸出為=1,2,…,n。因此,IICOFP旨在學(xué)習(xí)一個函數(shù)f:
f:XM→Y 或 =f(xji)(1)
如圖1所示,ICO欺詐預(yù)測模型IICOFP的構(gòu)建流程主要分為兩部分:a)特征工程,主要包括缺失值填充、One-Hot編碼、Tomek-Link欠采樣和Lasso特征選擇等工作;b)建模和可解釋性分析,主要包括模型構(gòu)建、與現(xiàn)有工作的比較、超參數(shù)調(diào)整、泛化能力分析和對欺詐型ICO影響因素的分析。
2.2 GBDT算法
本文選擇梯度提升決策樹(gradient boosting decision tree,GBDT)模型訓(xùn)練ICO欺詐檢測模型。GBDT是一種基于boosting集成學(xué)習(xí)思想的加法模型[26, 27],由于其決策樹基礎(chǔ)和逐步優(yōu)化前一步殘差的特點,使得該模型在處理多類別、復(fù)雜和多噪聲的ICO融合數(shù)據(jù)時比其他主流機器學(xué)習(xí)模型更具優(yōu)勢。具體而言,GBDT模型可表示為
F(x)=∑Tt=1αtht(x)(2)
其中:ht(x)為分類回歸樹(classification and regression trees,CART);T是梯度提升決策樹中需要構(gòu)建的CART樹的數(shù)量;αt是第t棵樹的權(quán)重。GBDT算法采用前向分布算法(forward stagewise algorithm),首先確定F0(x)為模型F(x)的初始值,第m步的模型可以表示為
Fm(x)=Fm-1(x)+αmFm(x)(3)
其中:Fm-1(x)為當(dāng)前模型。新添加的CART樹hm(x)通過最小化損失函數(shù)求得,如式(4)所示。
arg minh∑ni=1L(yi,F(xiàn)m-1(xi)+h(xi))(4)
其中:L為損失函數(shù)。GBDT算法采用梯度下降法來求解最優(yōu)模型,將損失函數(shù)在當(dāng)前模型Fm-1(x)的負(fù)梯度值作為梯度下降的方向:
Fm(x)=Fm-1(x)-αm∑ni=1ΔFL(y,F(xiàn)m-1(xi))(5)
其中:αm通過線性搜索求得。
αm=arg minα∑ni=1[L(yi,F(xiàn)m-1(xi))-αL(yi,F(xiàn)m-1(xi))Fm-1(xi)](6)
梯度提升決策樹的正則化,可以通過設(shè)置學(xué)習(xí)率來控制:
Fm(x)=Fm-1(x)+ναmhm(x)(7)
其中:ν表示學(xué)習(xí)率。學(xué)習(xí)率越小,則需要更多的CART,最終誤差會更小,但也會增加訓(xùn)練的時間。所以,需要同時控制學(xué)習(xí)率和 CART的個數(shù),以確定一個速度快且精度高的模型。
2.3 SHAP框架
為了增強ICO欺詐檢測模型的可解釋性,本文引入SHAP(Shapley additive explanations)框架對模型的預(yù)測過程進(jìn)行全面的解釋分析。SHAP 框架是由Lundberg等人[28]于 2017年提出,被廣泛應(yīng)用于機器學(xué)習(xí)領(lǐng)域的模型解釋性分析工具[29~32],其核心源于Shapley值這一合作博弈論概念,是一種根據(jù)眾多參與者對總支出的貢獻(xiàn)來為參與者分配支出的方法。本文將SHAP框架對機器學(xué)習(xí)模型的解釋原理和方法應(yīng)用到ICO欺詐檢測問題中,具體而言,總支出是模型對單個ICO實例的預(yù)測值,參與者是ICO實例的特征,支出是每個特征對模型預(yù)測過程的貢獻(xiàn),即SHAP 值,則模型對單個ICO實例的預(yù)測值是所有樣本預(yù)測值的平均值與每個特征的SHAP值之和:
i=ybase+∑Mj=1φ(xji)(8)
其中:xji表示ICO實例;i為模型的預(yù)測值;ybase為基線,表示模型對所有樣本預(yù)測值的均值;φ(xji)為各特征的SHAP值。
可以看出,模型的預(yù)測過程從基線ybase開始,在每個特征的SHAP值φ(xji)作用下達(dá)到最終的預(yù)測值i。當(dāng)φ(xji)gt;0時,表示該特征在模型預(yù)測過程中具有拉高預(yù)測值的作用,即驅(qū)使模型的輸出為1;反之,當(dāng)φ(xji)lt;0時,表示該特征在模型預(yù)測過程中具有拉低預(yù)測值的作用,即驅(qū)使模型的輸出為0。因此,本文引入 SHAP框架不僅能夠根據(jù)特征的SHAP值大小識別欺詐型ICO具有的顯著特征,而且能夠更好地理解模型的工作原理和決策過程,這對于提高監(jiān)管機構(gòu)的決策效率、增強投資者對模型預(yù)測的信任度具有重要意義。
3 模型構(gòu)建與結(jié)果分析
3.1 實驗環(huán)境與評價指標(biāo)
實驗環(huán)境:Intel? Core i7-7500U CPU 2.7 GHz,內(nèi)存8 GB和64位Windows 10操作系統(tǒng)。Python版本為 3.9,所有實驗均在PyCharm 2022.3編譯平臺上調(diào)用scikit-learn 1.0.1完成。本文選擇準(zhǔn)確率(Acc)、精確度(Pre)、召回率(Rec)、F1值 (F1)和AUC值五個分類算法評價指標(biāo)衡量模型的預(yù)測性能。
Acc=TP+TNTP+FP+TN+FN×100%,Pre=TPTP+FP×100%(9)
Rec=TPTP+FN×100%,F(xiàn)1=2×Pre×RecPre+Rec×100%(10)
其中:TP表示正確預(yù)測為成功類ICO的樣本數(shù);FP表示錯誤預(yù)測為成功類ICO的樣本數(shù);TN表示正確預(yù)測為欺詐類ICO的樣本數(shù);FN表示錯誤預(yù)測為欺詐類ICO的樣本數(shù)。AUC值是ROC曲線下的面積,ROC曲線反映了真陽性率(TPR)和假陽性率(FPR)在不同分類閾值下的關(guān)系,AUC值越接近1,模型分類性能越好。
3.2 數(shù)據(jù)融合與特征工程
3.2.1 數(shù)據(jù)融合
為更有效地實現(xiàn)對ICO的特征建模,本文融合多源異構(gòu)數(shù)據(jù)構(gòu)造ICO特征集。如表1所示,應(yīng)用Python爬蟲技術(shù)從不同網(wǎng)站收集ICO項目基本信息、項目開發(fā)信息、評級分?jǐn)?shù)、社交媒體等數(shù)據(jù)。對于多類別的多源異構(gòu)ICO數(shù)據(jù)集,本文采用Python的Pandas和Numpy庫進(jìn)行特征提取和融合。如表2所示,基于項目代幣發(fā)售的開始和結(jié)束時間計算代幣發(fā)售天數(shù),統(tǒng)計項目團隊人員數(shù)量作為衡量團隊規(guī)模的指標(biāo),統(tǒng)計出項目發(fā)展所涉及的領(lǐng)域個數(shù),反映項目多樣性和行業(yè)覆蓋范圍。
考慮到Ethereum具有成熟的智能合約功能、廣泛的開發(fā)者社區(qū)和流行的ERC-20代幣標(biāo)準(zhǔn),因此將交易依托平臺為Ethereum的值設(shè)為1。統(tǒng)計項目所接受的貨幣種類數(shù)反映項目的市場接受度和吸引更廣泛投資者的能力,將存在有效的白皮書和源代碼鏈接的值設(shè)為1來反映項目的發(fā)展前景和技術(shù)水平。統(tǒng)計項目公布的社交媒體平臺數(shù)量反映項目的社區(qū)參與度和品牌可見度。最后,計算團隊成員公開LinkedIn平臺、公布個人照片的比例來反映項目的專業(yè)性、透明度以及可執(zhí)行程度。
通過以上數(shù)據(jù)收集和特征融合,最終構(gòu)建了由1 181個ICO項目的多方面信息組成的融合數(shù)據(jù)集,其中包含577個融資成功的ICO項目以及604個欺詐的ICO項目,每一份數(shù)據(jù)都由項目ID、17個特征變量和1個標(biāo)簽變量組成。
3.2.2 特征工程
為了避免數(shù)據(jù)窺探且使得模型能夠充分學(xué)習(xí)到欺詐型ICO所具有的顯著特征,將融合數(shù)據(jù)集劃分為80%的訓(xùn)練集和20%的測試集,接下來對訓(xùn)練集進(jìn)行特征工程,并將結(jié)果應(yīng)用到測試集,以此充分提升模型對真實數(shù)據(jù)的預(yù)測能力和魯棒性。
1)缺失值填充 特征Accepting_Currency_Num為ICO接受的幣種數(shù)量,在原始數(shù)據(jù)中有153個樣本的值為unknown,將其作為缺失值進(jìn)行處理。該特征的樣本值為1~11的整數(shù)型數(shù)值,其中只接受一種貨幣的項目數(shù)達(dá)到571,為了保持?jǐn)?shù)據(jù)的統(tǒng)計特性和整體分布趨勢,選擇該特征的眾數(shù)填充其缺失值。
2)One-Hot編碼 特征Country_Region為字符型特征,是ICO項目所在的國家和地區(qū),不同國家ICO 的法律法規(guī)、監(jiān)管態(tài)度、投資者情緒、技術(shù)和市場基礎(chǔ)設(shè)施等因素對ICO有較大的影響。原始數(shù)據(jù)集中共出現(xiàn)了95個不同的國家和地區(qū),對其進(jìn)行One-Hot編碼處理,經(jīng)處理后ICO數(shù)據(jù)集的特征維度擴充到112維。
3)樣本采樣 類別不平衡將導(dǎo)致模型在訓(xùn)練過程中偏向于多數(shù)類別樣本而降低模型的泛化能力[33],而邊界模糊會使分類器對于噪聲或異常樣本更加敏感而降低模型的魯棒性。對數(shù)據(jù)集的采樣方法主要分為對少數(shù)類樣本的過采樣、對多數(shù)類樣本的欠采樣和混合采樣。為了確定針對多源異構(gòu)的ICO數(shù)據(jù)集的最佳自適應(yīng)方法,本文分別采用三種采樣方法的代表性算法SMOTE、Tomek-Link、SMOTE+Tomek-Link,聯(lián)合不同特征選擇方法進(jìn)行對比實驗,結(jié)果如表3所示。
4)特征選擇 特征選擇通過減少冗余和相關(guān)性較低的特征來構(gòu)建最優(yōu)特征集,以加快模型收斂速度和預(yù)測精度[34]。根據(jù)不同的評價方法,特征選擇方法分為過濾法(filter)、包裹法(wrapper)和嵌入法(embedded)[35]。為了確定最佳的預(yù)處理組合,分別采用互信息分類法(MIC)、遞歸特征消除法(RFE)和Lasso算法三種特征選擇的代表性算法,和三種采樣方法的組合對訓(xùn)練集進(jìn)行聯(lián)合預(yù)處理,實驗結(jié)果如表3所示,經(jīng)過Tomek-Link和Lasso兩種算法組合處理后,模型的準(zhǔn)確率、召回率、F1分?jǐn)?shù)、AUC值最高,最佳特征數(shù)為41。因此,本文選擇Tomek-Link欠采樣算法和Lasso特征選擇法對ICO融合數(shù)據(jù)集進(jìn)行聯(lián)合預(yù)處理,更有效地實現(xiàn)對ICO的特征建模。如圖2(a)(b)所示,Tomek-Link算法適當(dāng)?shù)匾瞥藘深悩颖局械脑肼朁c和邊界周圍的Tomek-Link對,使得模型能夠更好地學(xué)習(xí)到分類邊界。
3.3 模型構(gòu)建與對比
本文選擇GBDT模型訓(xùn)練ICO欺詐預(yù)測模型IICOFP,將通過特征工程后的訓(xùn)練集作為模型的輸入,并將模型主要超參數(shù)均設(shè)置為默認(rèn)值。在經(jīng)過多輪迭代訓(xùn)練后,采用5個評價指標(biāo)評估模型在測試集上的預(yù)測能力,并調(diào)整超參數(shù)多次訓(xùn)練模型得到其最佳性能。通過以上實驗得到,基于默認(rèn)參數(shù)的GBDT模型在測試集上的準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)和AUC值分別達(dá)到87.76%、85.37%、90.52%、87.87%和87.82%。結(jié)果表明,融合多源異構(gòu)數(shù)據(jù)能夠更有效地實現(xiàn)對ICO的特征建模,充分的特征工程使得模型具有較強的魯棒性。
為了進(jìn)一步驗證融合多源異構(gòu)數(shù)據(jù)對ICO進(jìn)行特征建模的優(yōu)勢,本文選擇IcoRating[21]、GNN[22]、XGBoost[23]、A-BiRNN[24]和LR[25]共五個模型與IICOFP進(jìn)行對比。如表4所示,IICOFP的準(zhǔn)確率和F1分?jǐn)?shù)比最佳的XGBoost提高了7.56%和7.45%,而精確率比最佳的IcoRating提高了2.37%。此外,IICOFP的召回率低于LR,這是由于Chursook等人[25]所采用的數(shù)據(jù)集樣本量較少且樣本類別不平衡,模型偏向于較多的正類樣本而導(dǎo)致召回率較高。綜合比較可得,IICOFP的綜合性能均優(yōu)于已有工作,這是由于:a)融合項目基本信息、評級信息、社交媒體信息等多源異構(gòu)數(shù)據(jù)對ICO進(jìn)行更完備的特征建模,因此模型具有更好的性能;b)通過Tomek-Link算法適當(dāng)移除了數(shù)據(jù)集中的噪聲點和Tomek-Link對,并應(yīng)用Lasso特征選擇構(gòu)造最優(yōu)特征集,充分提高了模型的分類能力。
為驗證GBDT算法對ICO融合數(shù)據(jù)集的適應(yīng)性和有效性,本文選擇15個主流機器學(xué)習(xí)模型與IICOFP進(jìn)行對比,為保證實驗的公平性,采用相同的訓(xùn)練集和測試集作為模型的輸入,并將所有模型的參數(shù)均設(shè)置為默認(rèn)值。如表5所示,IICOFP在準(zhǔn)確率、精確率、F1分?jǐn)?shù)和AUC值上取得了最佳性能。綜合比較可得,基于GBDT算法建立的IICOFP模型在眾多模型中脫穎而出,原因在于:a)決策樹本身能夠處理多種數(shù)據(jù)類型,并且在節(jié)點分裂時能夠靈活選擇合適的劃分方式,使得在處理多類別的ICO融合數(shù)據(jù)時更為高效;b)GBDT通過串行訓(xùn)練多棵決策樹,且在訓(xùn)練過程中的每一輪迭代都會擬合當(dāng)前模型的殘差,這使得GBDT不僅能夠有效地捕捉多源異構(gòu)ICO數(shù)據(jù)中復(fù)雜的非線性關(guān)系,而且對于含有異常值和噪聲點的特征(例如特征offering_days和coin_num)具有更好的魯棒性。
3.4 學(xué)習(xí)能力和泛化能力分析
首先在訓(xùn)練集上分析IICOFP對已有數(shù)據(jù)的學(xué)習(xí)能力,運用五折交叉驗證法繪制了SVM、LightGBM、AdaBoost和IICOFP的學(xué)習(xí)曲線。如圖3(a)所示,隨著訓(xùn)練樣本量的增加,SVM在訓(xùn)練集和驗證集上的得分均較低且逐漸接近,其中驗證集得分保持不變,說明SVM存在嚴(yán)重的欠擬合,也說明單一模型無法捕捉ICO數(shù)據(jù)間的復(fù)雜非線性關(guān)系;如圖3(b)所示,隨著訓(xùn)練樣本量的增加,AdaBoost在訓(xùn)練集和驗證集上的得分逐漸收斂,但在樣本量達(dá)到550后,驗證集得分呈現(xiàn)下降趨勢;如圖3(c)所示,隨著訓(xùn)練樣本量的增加,IICOFP在訓(xùn)練集和驗證集上的得分呈現(xiàn)持續(xù)收斂的趨勢,說明若繼續(xù)增加訓(xùn)練樣本量可能會提升模型的性能。綜合比較可得,IICOFP在驗證集上的得分最高,對已有的樣本具有最佳的學(xué)習(xí)能力,且可以通過增加訓(xùn)練樣本量進(jìn)一步提高模型性能。
其次在測試集上驗證IICOFP對未見數(shù)據(jù)的預(yù)測能力,測試集的樣本數(shù)為237,包含121例欺詐ICO和116例成功ICO。圖4對比了IICOFP與其他模型的混淆矩陣,可以看出,IICOFP正確預(yù)測了103例欺詐ICO和105例成功ICO,相較其他模型具有最佳的預(yù)測性能。圖5(a)為IICOFP與部分主流機器學(xué)習(xí)模型在測試集上的ROC曲線,對應(yīng)表3的AUC值可以看出,單一模型的AUC值均低于集成模型,而IICOFP對未見樣本具有最佳的預(yù)測性能。圖5(b)是IICOFP的KS曲線,可以看出,模型的最佳分類閾值為0.5,其KS值為0.756。圖5(c)是IICOFP的累計增益曲線,可以看出,模型的增益曲線呈現(xiàn)正向的偏移,對兩類樣本的分類能力明顯優(yōu)于隨機選擇。綜上比較可得,本文IICOFP模型能夠充分學(xué)習(xí)到ICO數(shù)據(jù)間的復(fù)雜非線性關(guān)系,從而對未見數(shù)據(jù)具有最佳的預(yù)測性能。
4 模型可解釋性分析
為了增強模型的可解釋性,本文將SHAP框架的模型解釋原理和方法引入到ICO欺詐檢測問題中,分別從全局角度、特征交互作用和樣本決策三個方面探討影響ICO欺詐的主要因素。
4.1 ICO欺詐的影響因素分析
本節(jié)從全局角度出發(fā)分析影響ICO欺詐的主要因素。如圖6所示,通過對比GBDT的特征重要性排序圖(圖6(a))和SHAP框架下的特征摘要圖(圖6(b))可得,特征overall_rating、coin_num和team_size在兩種模型中的重要性均排在前三位,其次為特征offering_days和social_media,而其他特征的排序各不一致。綜合可得,以上五個特征在ICO欺詐預(yù)測過程中起到了關(guān)鍵作用,接下來將應(yīng)用SHAP框架著重分析以上特征對模型預(yù)測過程的貢獻(xiàn)程度和正負(fù)作用。
a)綜合評級是投資者衡量項目質(zhì)量和風(fēng)險最直接的量化指標(biāo)。特征overall_rating是評級平臺對ICO項目的綜合評級分?jǐn)?shù),在多個模型中的重要性都排在第一,因此認(rèn)為overall_rating是特征集中對模型影響最大的特征。由圖6(b)可以看出,綜合評級分?jǐn)?shù)越大,SHAP值也越大,在模型預(yù)測過程中起著拉高預(yù)測值的作用(驅(qū)使模型輸出為1),說明綜合評級分?jǐn)?shù)越低,ICO欺詐的可能性越大。Liu等人[36]發(fā)現(xiàn)加密專家對項目的樂觀評級有助于ICO初創(chuàng)公司籌集資金,這與本文結(jié)論一致。ICO項目發(fā)行方會聘請區(qū)塊鏈、金融、法律等相關(guān)行業(yè)的專家對項目的白皮書、源代碼、團隊、財務(wù)、市場前景等方面進(jìn)行全面的評估,旨在向投資者緩解信息不對稱,傳遞項目的質(zhì)量和風(fēng)險信號,以輔助投資者決策。因此綜合評級分?jǐn)?shù)無疑是投資者了解項目質(zhì)量和衡量項目風(fēng)險最直接、最重要的量化指標(biāo)。
b)項目發(fā)行較少或適中數(shù)量的代幣更容易獲得成功。特征coin_num是ICO項目發(fā)行的代幣數(shù)量,由圖6(b)看出,發(fā)行代幣數(shù)量較大的樣本SHAP值在0的左右兩側(cè)均有分布。而發(fā)行代幣數(shù)量較小的樣本的SHAP值大部分在0的右側(cè),在模型預(yù)測過程中起到了拉高預(yù)測值的作用(驅(qū)使模型輸出為1),說明在特定情況下,發(fā)行較少代幣的項目更容易融資成功。一方面,ICO融資成功亦受到市場供求關(guān)系的影響,在市場上存在大量ICO時的情況下,發(fā)行代幣數(shù)量較少,意味著供給相對稀缺,在這種情況下,投資者可能更加傾向于選擇發(fā)行代幣數(shù)量較少的項目以獲得更高的潛在回報。另一方面,代幣數(shù)量的多少可能會影響投資者的風(fēng)險偏好。一些投資者更傾向于投資供應(yīng)量較少的代幣,因為這可能增加了代幣的稀缺性和價值潛力。在這種情況下,代幣數(shù)量較少的項目可能更容易吸引這些風(fēng)險偏好的投資者,并提高融資成功的可能性。
c)較小的團隊規(guī)模是識別ICO欺詐的顯著特征。特征team_size是ICO項目的創(chuàng)始團隊的人數(shù),由圖6(b)看出,團隊規(guī)模較小的樣本的SHAP值基本分布在0的左側(cè),在模型預(yù)測過程中起到拉低預(yù)測值的作用(驅(qū)使模型輸出為0),說明具有較小團隊規(guī)模的項目更有可能是欺詐型ICO。大量研究者證實了該結(jié)論[10, 13~15],團隊規(guī)模可以反映項目團隊的技術(shù)和執(zhí)行能力。較大規(guī)模的團隊通常集結(jié)了更多具備專業(yè)技術(shù)和豐富經(jīng)驗的人才,可以更好地進(jìn)行任務(wù)分工和協(xié)作而專注各自的領(lǐng)域,從而更有可能開發(fā)出高質(zhì)量的產(chǎn)品和方案。另外,團隊規(guī)模較大的項目通常能夠吸引更多的人才、資源和合作伙伴,從而提升項目的市場認(rèn)可度和影響力,以此吸引更多投資者和支持者,增加ICO的成功機會。
d)社交媒體平臺是ICO發(fā)布方宣傳和營銷項目代幣的有力渠道。特征social_media是ICO項目建立的社交媒體平臺數(shù)量,由圖6(b)看出,建立較少社交媒體網(wǎng)站的項目其SHAP值基本分布在0的左側(cè),說明具有較少的社交媒體網(wǎng)站的項目更有可能是欺詐型ICO。Lyandres等人[37]與Ante等人[38]的研究表明,ICO在社交媒體(Twitter、Facebook、Telegram和Reddit等)上的頁面是發(fā)布方宣傳和營銷項目代幣的有力工具,也是投資者了解和討論項目信息質(zhì)量的最佳渠道。一方面,ICO通過在社交媒體上發(fā)布和展示項目的信息、新聞、價值主張和愿景等,并將項目推廣給更多的潛在投資者和用戶,這不僅擴大了ICO的知名度,且建立和塑造了項目的品牌形象。另一方面,投資者利用社交媒體平臺分享對項目白皮書、團隊、技術(shù)水平和市場前景等的評價,發(fā)表一些正面和負(fù)面的討論和態(tài)度,以此緩解潛在的信息不對稱。因此,建立的社交媒體數(shù)量是識別ICO欺詐的關(guān)鍵因素。
e)具有冗長代幣發(fā)售階段的ICO更有可能是欺詐型項目。特征offering_days是ICO代幣的發(fā)售天數(shù),由圖6(b)看出,大部分代幣發(fā)售階段較短的樣本其SHAP值分布在0的右側(cè),在模型預(yù)測過程中起到拉高預(yù)測值的作用,說明具有較短代幣發(fā)售階段的ICO更容易獲得成功,這與Karimov等人的結(jié)論一致[18]。一方面,較長的代幣發(fā)售階段可能導(dǎo)致投資者興趣的減退,也使投資者有更多的選擇機會,這種情況下,投資者傾向于尋找更有吸引力、更緊迫的項目以獲得短期的回報。另一方面,較長的代幣發(fā)售階段意味著項目籌集資金的速度較慢,進(jìn)而引起投資者的擔(dān)憂,質(zhì)疑項目的執(zhí)行能力和時間管理能力。因此,具有較短代幣發(fā)售階段的ICO項目更容易獲得成功。
以上特征是在模型預(yù)測過程中較為重要的5個特征,但I(xiàn)CO項目融資成功受到多方面因素的綜合影響,如圖6(b)所示,接受的加密貨幣種類數(shù)、團隊評級分?jǐn)?shù)、是否公開CEO照片以及項目所涉及的領(lǐng)域數(shù)等因素對ICO欺詐都有不同程度的影響。
4.2 部分重要特征間的交互關(guān)系分析
本節(jié)應(yīng)用SHAP框架分析部分重要特征之間的交互作用,圖7為特征的SHAP依賴圖,其中橫軸是該特征的樣本值,縱軸是該特征的SHAP值,色條由藍(lán)色到紅色,對應(yīng)交互特征的樣本值由小到大(見電子版)。
圖7(a)為特征overall_rating和team_size的交互關(guān)系,可以看出,隨著綜合評級分?jǐn)?shù)的增大,其SHAP值也逐漸增大,說明綜合評級越高的項目更容易獲得成功。再根據(jù)交互特征team_size的著色來看,綜合評級分?jǐn)?shù)較高的項目其團隊規(guī)模也越大。圖7(b)為特征team_size和team_rating的交互關(guān)系,隨著團隊成員數(shù)量的增大,樣本的SHAP值也逐漸增大,而根據(jù)交互特征team_rating的著色來看,團隊成員數(shù)量超過10人左右的項目均具有較高的團隊評級分?jǐn)?shù)。圖7(c)為特征offering_days和coin_num的交互關(guān)系,可以看出,隨著代幣發(fā)售天數(shù)的增加,SHAP值逐漸減小,說明具有較短代幣發(fā)售階段的ICO更容易成功;而發(fā)售天數(shù)在30~100天的樣本,其SHAP值始終在0的附近波動,說明發(fā)售天數(shù)在此范圍內(nèi)對模型輸出的影響較小;當(dāng)發(fā)售天數(shù)大于100天時,樣本的SHAP值急劇減小,說明過長的代幣發(fā)售階段是ICO欺詐的顯著特征。另外,根據(jù)交互特征coin_num的著色來看,發(fā)售代幣數(shù)量較大的項目具有適中的發(fā)售階段。這說明,較短的代幣發(fā)售階段對ICO成功有積極的作用。圖7(d)為特征social_media和overall_rating的交互關(guān)系,項目建立的社交媒體網(wǎng)站越多,SHAP值越大,ICO更容易獲得成功。根據(jù)交互特征overall_rating的著色可得,項目擁有的社交媒體平臺數(shù)量是對項目進(jìn)行綜合評級的重要參考。
4.3 樣本決策分析
本節(jié)應(yīng)用SHAP力圖、SHAP瀑布圖和SHAP決策圖可視化模型對單個樣本進(jìn)行預(yù)測,并分析各特征在樣本決策過程中起到的不同作用。圖8是一例被正確預(yù)測為欺詐型ICO的可視化過程。圖8(a)為SHAP力圖, f(x)表示樣本的預(yù)測值,預(yù)測過程從基值開始,紅色箭頭表示該特征在預(yù)測過程中拉高預(yù)測值,藍(lán)色箭頭表示該特征拉低預(yù)測值,箭頭的長度表示該特征對模型預(yù)測的貢獻(xiàn)程度(見電子版)。從圖8可以看出該例樣本的多源異構(gòu)信息:該ICO項目發(fā)行的代幣數(shù)量巨大(約55億個),綜合評級分?jǐn)?shù)較低(2.8),項目發(fā)展涉及的領(lǐng)域繁多(7),以上特征的值對模型具有不同程度的負(fù)向作用,驅(qū)使模型將該樣本預(yù)測為欺詐型ICO;另外,該項目的團隊規(guī)模較大(17),該特征值對模型具有最大的正向作用,驅(qū)使模型將其預(yù)測為成功類ICO。圖8(b)(c)為SHAP瀑布圖和SHAP決策圖,分別展示了所有特征對模型的正負(fù)增益和模型預(yù)測的可視化過程,其中巨大的發(fā)行代幣數(shù)量對模型具有最大的負(fù)向增益,增益為-2.67,其次為較低的綜合評級分?jǐn)?shù)、較大的項目發(fā)展涉及領(lǐng)域數(shù)、未展示項目CEO照片、不存在社交媒體平臺等;而較大的團隊規(guī)模對模型具有最大的正向增益,增益為+0.4。綜上分析可得,IICOFP在各特征的不同作用下,最終將該樣本正確預(yù)測為欺詐型ICO。
5 結(jié)束語
本文融合ICO項目基本信息、專家評級、社交媒體等信息提出了一種可解釋的 ICO 欺詐預(yù)測模型IICOFP。首先,利用Lasso特征選擇法和Tomek-Link欠采樣法對ICO融合數(shù)據(jù)集進(jìn)行聯(lián)合預(yù)處理,更完備地實現(xiàn)對ICO的特征建模;其次選擇GBDT建立ICO欺詐預(yù)測模型IICOFP,其各項性能較已有模型提高了約2%~10%,并且具有良好的泛化能力;最后,引入SHAP框架對模型的預(yù)測過程進(jìn)行解釋,識別出影響ICO欺詐的決定性因素。結(jié)論顯示,較低的綜合評級分?jǐn)?shù)、較小的團隊規(guī)模,以及設(shè)立較少的社交媒體平臺等因素均是欺詐型ICO的顯著特征。另外,巨額的代幣發(fā)行數(shù)量以及冗長的代幣發(fā)售天數(shù)也是識別ICO欺詐的關(guān)鍵因素。相比于已有的研究,本文IICOFP能更準(zhǔn)確地預(yù)測ICO欺詐,且具有較強的可解釋性,為投資者對項目進(jìn)行盡職調(diào)查提供可靠依據(jù),為加強金融監(jiān)管和規(guī)范融資環(huán)境提供有力工具。下一步工作:首先,由于精確的ICO欺詐預(yù)測會對欺詐分子的非法收入產(chǎn)生影響,此時IICOFP很可能會遭受到精心設(shè)計的AI對抗攻擊(如data poisoning attack,model extraction attack,model inversion attack等);其次,隨著時間的推移或業(yè)務(wù)規(guī)則的改變,很可能出現(xiàn)特征漂移、標(biāo)簽漂移,甚至是概念漂移對模型的性能甚至是可用性產(chǎn)生影響。針對以上兩點不足,在將來的研究中,一方面需要在IICOFP使用過程中隨時應(yīng)用統(tǒng)計或時間尺度窗口等方法預(yù)測數(shù)據(jù)分布的變化;另一方面,需要在訓(xùn)練新版模型時,通過添加對抗樣本、去噪等方法以提高模型抵御攻擊的能力。
參考文獻(xiàn):
[1]Wats S, Joshi M, Singh S. Initial coin offerings: current trends and future research directions[J]. Quality amp; Quantity, 2024, 58: 1361-1387.
[2]Nolan A R G, Dartley E T, Baker M, et al. Initial coin offerings: key US legal considerations for ICO investors and sponsors[J]. Journal of Investment Compliance, 2018, 19(1): 1-9.
[3]Karpenko O, Blokhina T, Chebukhanova L. The initial coin offering (ICO) process: regulation and risks[J]. Journal of Risk and Financial Management, 2021, 14(12): 599.
[4]Lyandres E, Rabetti D. Initial coin offerings: a review[J/OL]. SSRN Electronic Journal. (2023-01-30) [2024-07-10]. http://dx.doi.org/10.2139/ssrn.4534554.
[5]Yadav M. Exploring signals for investing in an initial coin offering (ICO)[J/OL]. SSRN Electronic Journal. (2017-09-01) [2024-07-10]. http://dx.doi.org/10.2139/ssrn.3037106.
[6]Hornuf L, Kück T, Schwienbacher A. Initial coin offerings, information disclosure, and fraud[J]. Small Business Economics, 2022, 58(4): 1741-1759.
[7]Teng F, Griffin P, Koh A. Picking flowers in an ICO garden [EB/OL]. (2019-03). https://ink.library.smu.edu.sg/sis_research/5900.
[8]Phua K, Sang B, Wei C, et al. Don’t trust, verify: the economics of scams in initial coin offerings[J/OL]. SSRN Electronic Journal. (2022-01-01) [2024-07-10]. http://dx.doi.org/10.2139/ssrn.4064453.
[9]Tiwari M, Gepp A, Kumar K. The future of raising finance—a new opportunity to commit fraud: a review of initial coin offering (ICOs) scams[J]. Crime, Law and Social Change, 2020, 73: 417-441.
[10]Karimov B, Wójcik P. Identification of scams in initial coin offerings with machine learning[J]. Frontiers in Artificial Intelligence, 2021, 4: 718450.
[11]Chuanjie F, Koh A, Griffin P. Automated theme search in ICO whitepapers[J]. The Journal of Financial Data Science, 2019,1(4):140-158.
[12]Wang Jiayue, Chen Runyu, Xu Wei, et al. A document analysis deep learning regression model for initial coin offerings success prediction[J]. Expert Systems with Applications, 2022, 210: 118367.
[13]Amsden R, Schweizer D. Are blockchain crowdsales the new ‘gold rush’? Success determinants of initial coin offerings[J/OL]. SSRN Electronic Journal. (2018-4-16) [2024-07-10]. http://dx.doi.org/10.2139/ssrn.3163856.
[14]Fisch C. Initial coin offerings (ICOs) to finance new ventures[J]. Journal of Business Venturing, 2019, 34(1): 1-22.
[15]Belitski M, Boreiko D. Success factors of initial coin offerings[J]. The Journal of Technology Transfer, 2022, 47(6): 1690-1706.
[16]Ahmad M, Kowalewski O, Pisany P. What determines initial coin offering success: a cross-country study[J]. Economics of Innovation and New Technology, 2021, 32(5): 622-645.
[17]Ayarci N, Birkan A. Determinants of ICO investment decision: an exploratory factor analysis[J]. International Journal of Financial Research, 2020, 11(5): 69-78.
[18]Burns L, Moro A. What makes an ICO successful? an investigation of the role of ICO characteristics, team quality and market sentiment[J/OL]. SSRN Electronic Journal. (2018-09-01) [2024-07-10]. http://dx.doi.org/10.2139/ssrn.3256512.
[19]Dean T, Daluwathumullagamage D, Marsden A. Predictability of ICO success and returns[J]. Journal of Applied Business and Economics, 2020, 22(13): 20-36.
[20]Hsieh H, Oppermann J. Initial coin offerings and their initial returns[J]. Asia Pacific Management Review, 2021, 26(1): 1-10.
[21]Bian Shuqing, Deng Zhenpeng, Li Fei, et al. IcoRating: a deep-learning system for scam ICO identification[EB/OL]. (2018-03-08). https://arxiv.org/abs/1803.03670.
[22]Di D, Tam N. On leveraging deep learning models to predict the success of ICOs[J/OL]. Preprint. (2019-02-30) [2024-07-10]. https://doi.org/10.13140/RG.2.2.27268.99201.
[23]Dürr A, Griebel M, Welsch G, et al. Predicting fraudulent initial coin offerings using information extracted from whitepapers[C/OL]. Proc of the 28th European Conference on Information Systems. (2020-06). https://aisel.aisnet.org/ecis2020_rp/170.
[24]Xu Wei, Wang Ting, Chen Runyu, et al. Prediction of initial coin offering success based on team knowledge and expert evaluation[J]. Decision Support Systems, 2021, 147: 113574.
[25]Chursook A, Naktnasukanjn N, Chaimaim S, et al. Can Tweets predict ICO success? Sentiment analysis for success of ICO whitepaper: evidence from Australia and Singapore markets[C]// Proc of the 15th International Joint Symposium on Artificial Intelligence and Natural Language Processing. Piscataway, NJ: IEEE Press, 2020: 1-5.
[26]Friedman J. Greedy function approximation: a gradient boosting machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232.
[27]周杰英, 賀鵬飛, 邱榮發(fā), 等. 融合隨機森林和梯度提升樹的入侵檢測研究[J]. 軟件學(xué)報, 2021, 32(10): 3254-3265. (Zhou Jieying, He Pengfei, Qiu Rongfa, et al. Research on intrusion detection based on random forest and gradient boosting tree[J]. Journal of Software, 2021, 32(10): 3254-3265.)
[28]Lundberg S, Lee S. A unified approach to interpreting model predictions[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 4768-4777.
[29]Lin Kang, Gao Yuzhuo. Model interpretability of financial fraud detection by group SHAP[J]. Expert Systems with Applications, 2022, 210: 118354.
[30]He Weilin, Li Bin, Liao Riqiang, et al. An ISHAP-based interpretation-model-guided classification method for malignant pulmonary no-dule[J]. Knowledge-Based Systems, 2022, 237: 107778.
[31]周健, 張杰, 閆石. 基于鏈上數(shù)據(jù)的區(qū)塊鏈欺詐賬戶檢測研究[J]. 計算機應(yīng)用研究, 2022, 39(4): 992-997. (Zhou Jian, Zhang Jie, Yan Shi. Research on blockchain fraud account detection based on data on chain[J]. Application Research of Computers, 2022, 39(4): 992-997.)
[32]陳小昆, 左航旭, 廖彬, 等. 融合XGBoost與SHAP的冠心病預(yù)測及其特征分析模型[J]. 計算機應(yīng)用研究, 2022, 39(6): 1796-1804. (Chen Xiaokun, Zuo Xuhang, Liao Bin, et al. Coronary artery disease prediction and feature analysis model based on XGBoost and SHAP[J]. Application Research of Computers, 2022, 39(6): 1796-1804.)
[33]Gu Qinghua, Tian Jingni, Li Xuexian, et al. A novel random forest integrated model for imbalanced data classification problem[J]. Knowledge-Based Systems, 2022, 250: 109050.
[34]Bolón-Canedo V, Sánchez-Maro?o N, Alonso-Betanzos A. Recent advances and emerging challenges of feature selection in the context of big data[J]. Knowledge-Based Systems, 2015, 86, 33-45.
[35]Liu Huan, Motoda H, Setiono R, et al. Feature selection: an ever evolving frontier in data mining[C]// Proc of the 4th International Workshop on Feature Selection in Data Mining. [S.l.]:PMLR, 2010: 4-13.
[36]Liu Baixiao, Mcconnell J, Wang Jingfang. The ICO rating game: bia-sed ratings of crypto experts in initial coin offerings[J]. Gover-nance, 2021, 2021: 1-40.
[37]Lyandres E, Palazzo B, Rabetti D. Initial coin offering (ICO) success and post-ICO performance[J]. Management Science, 2022, 68(12): 8658-8679.
[38]Ante L, Sandner P, Fiedler I. Blockchain-based ICOs: pure hype or the dawn of a new era of startup financing? [J]. Journal of Risk and Financial Management, 2018, 11(4): 80.