• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于KNN的銀行基金購買預(yù)測系統(tǒng)

      2021-09-10 21:08:42盛泓楊
      科學(xué)與生活 2021年14期
      關(guān)鍵詞:準(zhǔn)確性

      盛泓楊

      摘要:數(shù)據(jù)分析和預(yù)測技術(shù)目前已被廣泛用于從醫(yī)學(xué)數(shù)據(jù)庫中挖掘知識信息,其中分類是一種有監(jiān)督的學(xué)習(xí)方法,可用于設(shè)計描述重要數(shù)據(jù)類別的模型。K近鄰算法(KNN)是一種易于實現(xiàn)、最受歡迎且高效的模式識別算法。但是,數(shù)據(jù)集的不均衡可能會產(chǎn)生不太準(zhǔn)確的結(jié)果。為了解決這個問題,我們將KNN與遺傳算法(GA)結(jié)合在一起進(jìn)行有效的分類。該方法使用每次迭代生成的合適個體擴展少數(shù)類集。通過這種方式使不同類之間數(shù)量達(dá)到平衡。

      關(guān)鍵詞:歸一化編碼;PCA;KNN;GA;召回率;準(zhǔn)確性

      1.引言

      該算法首先使用歸一化編碼對數(shù)據(jù)集中的20個客戶屬性進(jìn)行歸一化,然后通過PCA從20個數(shù)據(jù)集中提取與客戶是否會進(jìn)行定期存款有關(guān)的主要屬性,并消除次要屬性,從而將20維屬性減少為3維。為了建立準(zhǔn)確的預(yù)測模型,總客戶數(shù)據(jù)集的四分之三用作構(gòu)建模型的訓(xùn)練集,其余四分之一的數(shù)據(jù)用作測試集以測試預(yù)測模型的準(zhǔn)確性。該算法使用KNN預(yù)測個人的購買意愿。具體方法是選擇最接近該個體的k個人(歐拉距離),以投票的形式確定該個體的類別。同時,采用遺傳算法消除樣本不均衡性,提高了準(zhǔn)確性。測試數(shù)據(jù)時,召回率可以達(dá)到99%,相較未優(yōu)化時的結(jié)果有很大的提升。

      2.算法介紹

      2.1數(shù)據(jù)預(yù)處理

      為了充分利用每種數(shù)據(jù),該算法對原始數(shù)據(jù)進(jìn)行了歸一化,并將非數(shù)字?jǐn)?shù)據(jù)映射為Numbers。 為了提高模型訓(xùn)練速度,減少冗余,采用主成分分析(PCA)從多個屬性中提取主要成分,并在可以高度還原原始信息的情況下,將特征空間的維數(shù)減小為3維。功能標(biāo)準(zhǔn)化以平衡每個功能范圍:其中是特征j的平均值,Sj是特征j的標(biāo)準(zhǔn)偏差。計算協(xié)方差矩陣,使用SVD計算的特征向量,從U中取出前K個左奇異向量,構(gòu)成一個約減矩陣,計算新的特征向量,求各樣本的投影均方誤差,求數(shù)據(jù)的總變差,判斷下式是否成立,其取值可以為 0.001,0.005,0.010,…。其中當(dāng)選擇 =0.001,在特征間 99.9% 的差異性得到保留的情況下,可得k = 3,即選擇最大的三個特征值所對應(yīng)的特征向量做為主成分,將20維的數(shù)據(jù)空間降低至3維。

      2.2行為預(yù)測

      2.2.1 KNN

      該算法使用KNN算法預(yù)測客戶行為(即是否訂閱)。

      第一步是計算距離,即測試的客戶與訓(xùn)練集中的每個樣本之間的距離。 計算方法包括歐幾里得距離,曼哈頓距離,切比雪夫距離,余弦。四種計算距離的算法a=(,,) 和b=(,,) 在三維空間:

      1.歐氏距離:

      2.曼哈頓距離:

      3.切比雪夫距離:

      4.夾角余弦:

      經(jīng)過多次驗證,不同的距離算法對KNN的預(yù)測結(jié)果沒有顯著影響,但是在計算兩點之間的距離時,歐氏距離算法相對簡單并且運行速度很快。因此,選擇歐幾里德距離算法來計算被測客戶與訓(xùn)練集中每個樣本之間的距離。

      通過該算法,我們獲得了一長串關(guān)于測試客戶與訓(xùn)練集中每個樣本之間的距離的數(shù)據(jù),從最小到最大對它們進(jìn)行了排名,并選擇了最接近測試客戶的k個樣本。經(jīng)過一系列測試和驗證后,選擇了最合適的k值。

      最后,我們提取的k個樣本分為兩類:“是”和“否”。如果屬于“是”的樣本數(shù)量大于“否”,則測試的客戶將是“是”;否則,它們將為“否”。“是”表示客戶有訂購意向,“否”表示客戶無意訂購。

      2.2.2 SVM

      在機器學(xué)習(xí)中,支持向量機(SVM,也支持向量網(wǎng)絡(luò))是帶有相關(guān)學(xué)習(xí)算法的監(jiān)督學(xué)習(xí)模型,該算法分析用于分類和回歸分析的數(shù)據(jù)。當(dāng)給定一組訓(xùn)練樣本時,每個訓(xùn)練示例都標(biāo)記為屬于兩個類別中的一個或另一個,則SVM訓(xùn)練算法將構(gòu)建一個模型,該模型將新示例分配給一個類別或另一個類別,使其成為非概率二進(jìn)制線性分類器。SVM模型是將示例表示為空間中的點,并進(jìn)行了映射,以使各個類別的示例被盡可能寬的明顯間隙分開。然后,將新示例映射到相同的空間,并根據(jù)它們落在間隙的哪一側(cè)來預(yù)測屬于一個類別。

      首先,我們在SVM中使用擬合函數(shù),并且假設(shè)輸出數(shù)據(jù)大于0.5時,我們可以認(rèn)為輸入數(shù)據(jù)的類別為1,否則,我們認(rèn)為其類別為0。

      其次,我們在SVM中使用分類函數(shù),將數(shù)據(jù)輸入到SVM中,然后返回代表輸入數(shù)據(jù)類別的數(shù)字.

      由上述可知,使用SVM的準(zhǔn)確性和召回率不夠理想,我們認(rèn)為應(yīng)該使用更好的算法來描述數(shù)據(jù)。通過比較SVM算法和KNN算法的結(jié)果,可以看出KNN的召回率和準(zhǔn)確性率較高,因此本設(shè)計選擇了KNN算法。

      2.3算法優(yōu)化

      從表中可以看出,樣本中“是”和“否”的數(shù)量變化很大,樣本不平衡,導(dǎo)致預(yù)測模型的準(zhǔn)確率低于50%。 因此,我們需要優(yōu)化KNN算法。有兩種優(yōu)化方法。

      2.3.1遺傳算法

      遺傳算法屬于一類較大的進(jìn)化算法,它們使用自然進(jìn)化啟發(fā)的技術(shù)(例如繼承,變異,選擇和交叉)來生成優(yōu)化問題的解決方案。 該算法利用遺傳算法擴展少數(shù)族群,從而消除樣本不等式。

      ⅰ.選擇初始人口

      運算符用于選擇要復(fù)制的個人。 各種選擇方法有輪盤賭輪選擇,隨機選擇,等級選擇等。 由于訓(xùn)練集的樣本是離散的任意值。 為了適應(yīng)特征,該算法選擇“隨機選擇”以形成“初始種群”。

      ⅱ.交叉

      這是獲取兩個父染色體并從中產(chǎn)生一個子代的過程。 該運算符將應(yīng)用于創(chuàng)建新樣本。 各種類型的交叉算子有單點交叉,兩點交叉,N點交叉等等。 由于每個樣本僅具有3個屬性,因此單點交叉是最適合數(shù)據(jù)的運算符。

      ⅲ.突變

      該運算符用于更改新的解決方案以尋找更好的解決方案。 突變可防止GA陷入局部最小值。

      a( i ) 值1的概率為1 / m,0的概率為1-1 / m,通常m =20。L是染色體的長度。

      ⅳ.適應(yīng)度函數(shù)

      GA中的適應(yīng)度函數(shù)是其表型的目標(biāo)函數(shù)值。 必須先處理染色體,才能計算適應(yīng)度函數(shù)。

      2.3.3數(shù)據(jù)均衡方法(1)

      更改訓(xùn)練集樣本不同類別的權(quán)重,即將少數(shù)類所投票的權(quán)重增大,從而使少數(shù)類在投票時與多數(shù)類有相同的選擇權(quán)重.

      3.結(jié)果與討論

      根據(jù)以上數(shù)據(jù),如果僅對測試集使用KNN分析,則準(zhǔn)確性,召回率和準(zhǔn)確率相對較低,這是由于訓(xùn)練集中兩種類型的樣本嚴(yán)重失衡造成的。 因此,有必要對KNN算法進(jìn)行優(yōu)化。 具體做法包括權(quán)重法和遺傳算法,可以觀察到它們對KNN的三個指標(biāo)-準(zhǔn)確性,召回率和準(zhǔn)確率有不同的影響。 準(zhǔn)確度和準(zhǔn)確率與少數(shù)樣品的重量成反比,與GA后少數(shù)樣品的倍數(shù)成反比。 召回率相反。

      參考文獻(xiàn):

      [1]Kubat M,Matwin S.Addressing the course of imbalanced training sets:one-sided selection[C]//Proc of the 14th International Conference on Machine Learning,San Francisco,CA,1997:179-186.

      [2]Provost F.Machine leaning from imbalanced data sets.Proc of 17th Nat Conf AAAI,Workshop on Imbalanced Data Sets.Austin: TX,2000: 71—73

      猜你喜歡
      準(zhǔn)確性
      突破從句易錯點提高表達(dá)準(zhǔn)確性
      淺談如何提高建筑安裝工程預(yù)算的準(zhǔn)確性
      理解語境與名句的關(guān)系,提高默寫的準(zhǔn)確性
      美劇翻譯中的“神翻譯”:準(zhǔn)確性和趣味性的平衡
      論股票價格準(zhǔn)確性的社會效益
      超聲引導(dǎo)在腎組織活檢中的準(zhǔn)確性和安全性分析
      镇坪县| 葵青区| 都匀市| 延川县| 余庆县| 阿勒泰市| 兴宁市| 岑溪市| 晋中市| 洮南市| 冷水江市| 黄梅县| 博爱县| 常德市| 龙川县| 唐河县| 汤阴县| 高青县| 汤原县| 芦溪县| 鹤山市| 双牌县| 仁化县| 柘荣县| 赣州市| 六安市| 富阳市| 松溪县| 弋阳县| 吉安市| 旌德县| 文成县| 高尔夫| 刚察县| 元阳县| 土默特左旗| 台山市| 遵义市| 吉安市| 景德镇市| 郴州市|