• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于權(quán)重的SVM預(yù)測模型的設(shè)計與實現(xiàn)

      2019-03-15 01:29:58李開陽
      電子制作 2019年4期
      關(guān)鍵詞:升維菜系超平面

      李開陽

      (河南大學(xué)附屬中學(xué),河南開封,475000)

      0 前言

      隨著人們生活水平的不斷提高和消費意識的不斷改進,菜品的需求等級越來越高。為了便利人們并滿足其需求,本文利用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)分析存放在數(shù)據(jù)庫中大量的菜譜信息并以此預(yù)測世界各地的菜品及其分屬的菜系。論文的研究在于通過對分屬不同菜系的菜品進行以支持向量機(SVM)為主,以Python為輔的有效方法,并基于TFIDF加權(quán)技術(shù)進行數(shù)據(jù)分析。從多方面構(gòu)建數(shù)據(jù)挖掘模型,直觀有效地反映出數(shù)據(jù)挖掘的分析結(jié)果?;谝延械臄?shù)據(jù)分析模型,并根據(jù)最終的詳細分析數(shù)據(jù),把菜品的成分與其分屬的菜系進行有機結(jié)合。

      這些被挖掘并整理過后的數(shù)據(jù)和模型,不僅可以為餐廳或餐飲APP等餐飲機構(gòu)提供有效信息,還可以增進人們對餐飲文化的了解,豐富人們的知識。

      1 國內(nèi)外研究現(xiàn)狀

      1.1 國內(nèi)研究現(xiàn)狀

      近年來,大數(shù)據(jù)一度成為網(wǎng)絡(luò)熱詞,人工智能也不斷發(fā)展,二者的重要技術(shù)—數(shù)據(jù)挖掘,受到了更多人的關(guān)注。數(shù)據(jù)挖掘,就是從大量的,隨機的數(shù)據(jù)庫中,提取隱含在其中人們事先不知道,但又有潛在有用信息的過程。數(shù)據(jù)挖掘,它是一種多學(xué)科相互綜合、相互滲透的技術(shù),它以傳統(tǒng)的數(shù)據(jù)庫技術(shù)為基礎(chǔ),運用多種手段分析數(shù)據(jù),對海量數(shù)據(jù)進行知識發(fā)現(xiàn),并進行恰當(dāng)?shù)目梢暬硎?,是一種高效的預(yù)測決策系統(tǒng)解決方案。基于數(shù)據(jù)挖掘技術(shù)的預(yù)測決策系統(tǒng),利用挖掘技術(shù),通過構(gòu)建預(yù)測決策模型,對生產(chǎn)和計劃的完成情況及相關(guān)環(huán)境數(shù)據(jù)進行多角度、多層次的分析,幫助決策者及時掌握計劃的運行情況和發(fā)展趨勢。

      1.2 國外研究現(xiàn)狀

      1.2.1 TF-IDF(特征向量分類)

      IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區(qū)分能力。如果某一類文檔C中包含詞條t的文檔數(shù)為m,而其它類包含t的文檔總數(shù)為k,顯然所有包含t的文檔數(shù)n=m+k,當(dāng)m大的時候,n也大,按照IDF公式得到的IDF的值會小,就說明該詞條t類別區(qū)分能力不強。

      1.2.2 SVM(支持向量機)

      原始SVM算法由Vladimir N. Vapnik和Alexey Ya發(fā)明。當(dāng)時這方面的研究尚不十分完善,且數(shù)學(xué)上比較艱澀,大多數(shù)人難以理解和接受。近年來,許多關(guān)于SVM方法的研究,包括算法本身的改進和算法的實際應(yīng)用,都陸續(xù)被提了出來。隨著支持向量機的不斷發(fā)展,人們對支持向量機的研究也越來越細化,其要研究方向大致可分為:求解支持向量機問題,支持向量機多類分類問題,參數(shù)的選擇和優(yōu)化問題等。

      2 數(shù)據(jù)來源與處理和模型假設(shè)

      本研究選取了kaggle數(shù)據(jù)挖掘競賽網(wǎng)下載的世界各地的不同菜系所包含的主要成分,并賦予每個菜系不同的編號。

      研究中所有的菜系成分和可能影響因素皆來自Kaggle網(wǎng)站。這些數(shù)據(jù)均以微軟Excel表格形式存儲。

      面對66萬的訓(xùn)練數(shù)據(jù)和15萬測試數(shù)據(jù),數(shù)據(jù)較為龐雜,但內(nèi)容較為全面。不同菜系已經(jīng)用”id”編號。于是,我們對數(shù)據(jù)經(jīng)行了細致的檢查,并未發(fā)現(xiàn)數(shù)據(jù)有缺失或遺漏現(xiàn)象,且系統(tǒng)較為完備。我們參考了關(guān)于SVM的一些論文,建立了SVM模型。

      3 TF-IDF

      3.1 概念

      TF-IDF 的概念被公認為信息檢索中最重要的發(fā)明。在搜索、文獻分類和其他相關(guān)領(lǐng)域有廣泛的應(yīng)用。

      詞頻又叫TF-IDF,可以給重要的詞加上一個權(quán)重。我們經(jīng)常需要一個詞來概括并代表一篇文章的寫作意圖,而TF-IDF就可以對此進行統(tǒng)計,用以找出對于一份文件較為重要的詞匯。TF-IDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力適合用來分類。它能夠反映這篇文章的特性,某個詞對文章的重要性越高,它的TF-IDF值就越大。所以需要用TF-IDF來進行信息檢索。

      3.2 算法介紹

      現(xiàn)在有一個給定的文件,如果用詞數(shù)來度量該文件中一個詞的重要程度,這顯然是不合理的,因為在一個較長的文件里相同的一個詞語很有可能比在短文件中出現(xiàn)的次數(shù)高,但這個詞本身可能對該文件并不重要。用這個給定的詞語在文件中出現(xiàn)的頻率,也就是詞頻,來進行對詞數(shù)的歸一化,就可以防止它偏向長的文件。如圖1所示。

      圖 1 TF—IDF 流程圖

      在向量空間模型中,它經(jīng)常會和余弦相似度一同使用,用來判斷兩份文件之間是否相似。每種成分對該菜系的貢獻值由向量中每一個維度的大小來決定。根據(jù)余弦定理,可以求出特征向量之間的夾角(夾角在0度到90度之間)如圖2所示。

      圖2 特征向量的計算

      兩向量夾角的余弦等于1時,也就是夾角為0,說明這兩種菜系的成分完全相同;當(dāng)夾角的余弦接近1時,這兩種菜系的成分基本相同,也有可能完全一致,目標(biāo)菜系與該菜系基本相似,從而可以歸成一類;夾角的余弦越小,說明他們之間的成分差距越大。

      3.3 優(yōu)點與缺點

      優(yōu)點:一是解決了分類器不好處理離散數(shù)據(jù)的問題;二是在一定程度上也起到了擴充特征的作用。

      缺點:在文本特征表示上有些缺點就非常突出了。首先,它是一個詞袋模型,不考慮詞與詞之間的順序;其次,它假設(shè)詞與詞相互獨立(在大多數(shù)情況下,詞與詞是相互影響的);再次,它的獨立性不強;最后,它得到的特征是離散稀疏的。

      4 利用支持向量機模型來推測菜系

      4.1 支持向量機(SVM)

      支持向量機簡稱SVM,是20世紀末期發(fā)明的一種分類算法。其原理類似于種西瓜,切西瓜,即對低維的數(shù)據(jù)升維,將數(shù)據(jù)映射到高維特征空間,之后對生成的多維物體在特征空間內(nèi)用超平面切割從而再獲得分類后的低維數(shù)據(jù),達到分類的效果。

      4.2 升維與降維

      圖3 SVM流程圖

      升維是針對在低維不容易分類的元素,將其轉(zhuǎn)化成高維,再進行分類。升維的效果有兩種,一是針對低維的數(shù)據(jù)可以直接用升維后的本質(zhì)差別將其分離。如圖4所示。二是可以拉大低維數(shù)據(jù)間的差距使之容易分類例如10與9低維差距并不大,可是假如升維成(10,100)和(9,81)差距值增大且差值所占比例也增大了,這也更容易分出類別。

      圖4 低維數(shù)據(jù)映射分類

      4.3 超平面

      支持向量機的重點是高維分類,而高維分類的核心就是超平面。經(jīng)過升維后,計算機通過計算點間的距離,確定兩類間相鄰最近的兩點,在兩點間算出超平面使之與兩點間距離相等,作其中垂線并進行適當(dāng)升維,產(chǎn)生超平面。于是,數(shù)據(jù)就被輕松地分為了兩類。然而,有時由于存在異常數(shù)據(jù),SVM的精準度會大打折扣,容易導(dǎo)致其過擬合。我們引入了松弛變量,將超平面模糊化,使其變?yōu)橐粋€允許計算機出錯的范圍。為了提高精度,我們又引入了懲罰參數(shù),賦予每個結(jié)果一定權(quán)重,降低超平面附近結(jié)果以及異常數(shù)據(jù)的權(quán)重,從而提高精度。這個過程就叫做正則化。

      圖5 超平面模糊化

      圖6 正則化

      4.4 優(yōu)點與缺點

      優(yōu)點:支持向量機對于大部分數(shù)據(jù)具有極高的應(yīng)用價值,針對界限規(guī)則的數(shù)據(jù)它可以巧妙地運用維度的改變,快速建立起較為規(guī)范的模型,運用規(guī)范的超平面,快速分類。

      缺點:大多只用于二分類,多類會造成結(jié)果的不精確,因此較之于決策樹不具有普適性。且超平面的建立較為機械,無法進行自動規(guī)避,受異常數(shù)據(jù)干擾較大,魯棒性不強。

      5 循環(huán)語句

      循環(huán)語句出現(xiàn)較早,是一種類似于決策樹的推測方法。在漫長的篩選中,像離心機一樣,元素間差異會不斷被擴大,進而篩選出最相似的元素,排除噪聲元素,并輸出結(jié)果,達到精確導(dǎo)入,精確分類,精確輸出的效果。

      6 世界各地菜系推測與最常見的十種成分預(yù)測

      我們建立了三種模型,用測數(shù)據(jù)進行了實驗,表1是部分結(jié)果。

      通過基于python語言的循環(huán)語句,我們整理出了世界各地菜系中最常見的十種成分。經(jīng)過可視化處理后整理如圖8所示。

      由圖8可看出,十種成分由多到少分別是鹽、洋蔥、橄欖油、大蒜、糖、蒜瓣、黃油、黑胡椒粉、面粉。這與世界范圍內(nèi)不同菜品的受歡迎程度是有很大關(guān)系的。

      表1 部分預(yù)測結(jié)果

      圖8 十種常見成分

      7 結(jié)論與展望

      本文使用了Kaggle網(wǎng)站的數(shù)據(jù),利用多個維度的數(shù)據(jù)對菜品的菜系進行預(yù)測。

      通過這一系列操作,我們發(fā)現(xiàn)在世界各地的諸多菜品之中,最常見的成分有十種,按常見程度從高到低排列為鹽,洋蔥,橄欖油,水,大蒜,糖,蒜瓣兒,黃油,黑胡椒,面粉。根據(jù)成分的含量多少,國別,地區(qū),將世界各地的菜品大致分成了十幾種菜系。

      圖9 預(yù)測流程圖

      一般的 TF-IDF 算法常??赡芷帘芜@些出現(xiàn)次數(shù)較少的文字。因此我們探索了一些改進措施,例如 Mingmin Xu 等提出了一種基于 TF-IDF 的 改進算法,命名為信道分配信息,該方法通過原始數(shù)據(jù)的統(tǒng)計特征來識別核心詞。羅欣等則基于 TF 改進原始算法,該算法以詞頻差異為基礎(chǔ),用信息量來重新計算TF 值。

      上述兩種改進措施雖然能夠找到文本一些出現(xiàn)頻率較低的重要詞匯,并獲取該文本的特征向量,但它同時也增長了計算時間,使其變得復(fù)雜。再次查閱相關(guān)資料,我們還可以根據(jù)數(shù)據(jù)自身的特點,然后將行業(yè)專有詞典運用到原始的TF-IDF特性選擇的過程中,從而在獲取出現(xiàn)頻率較低的關(guān)鍵詞的同時避免了較大的時間復(fù)雜度,通過該算法獲取的特征空間結(jié)構(gòu)穩(wěn)定,能夠使其準確性提高。

      模型預(yù)計改進方案:

      經(jīng)過查閱資料,分析并對比,發(fā)現(xiàn)了一個較為有效的新模型—關(guān)聯(lián)規(guī)則分析模型。Apriori 算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。其主要操作流程如圖10所示。

      本文的研究工作有以下亮點:

      (1)基于TF-IDF加權(quán)技術(shù)構(gòu)建相對穩(wěn)定的支持向量機算法模型以達到比較準確的預(yù)測菜品所分屬的菜系的目的。

      (2)使用構(gòu)架好的數(shù)據(jù)模型分析了諸多菜品中最常出現(xiàn)的十種元素。但本文的研究尚存在一些不足,以后的研究中可以加入以下幾種方法:

      ①可以同時選取支持向量機算法模型、隨機森林算法模型以及邏輯斯蒂多元回歸預(yù)測法進行多次預(yù)測,分別得出結(jié)論后投票決定最佳分類;

      ②在本文中,由于篇幅原因尚未對比三種模型的預(yù)測結(jié)果。在未來的工作中,可以把三種模型的預(yù)測結(jié)果整合并對比和分析其優(yōu)劣。留給人們更多的操作空間。

      圖10 Apriori模型流程圖

      猜你喜歡
      升維菜系超平面
      專家談:講好中國品牌故事 推動品牌價值升維
      中國石化(2022年5期)2022-06-10 06:38:54
      讓美好生活更美好,保利發(fā)展的信心、堅守與升維
      全純曲線的例外超平面
      涉及分擔(dān)超平面的正規(guī)定則
      主動安全“升維”,護航數(shù)字經(jīng)濟
      基于機器學(xué)習(xí)下的SVM模型預(yù)測世界各國菜系
      電子制作(2019年14期)2019-08-20 05:43:30
      基于隨機森林的世界各地菜系預(yù)測及分析
      電子制作(2019年12期)2019-07-16 08:45:24
      以較低截斷重數(shù)分擔(dān)超平面的亞純映射的唯一性問題
      大江要津的“升維”圖譜
      當(dāng)上海菜系碰撞崇明特色
      美食(2016年10期)2016-08-22 03:29:40
      积石山| 安福县| 曲松县| 庄河市| 治县。| 惠来县| 罗甸县| 江川县| 深泽县| 新建县| 桐柏县| 天门市| 茌平县| 鱼台县| 凤凰县| 色达县| 成都市| 苍溪县| 丽水市| 铜山县| 本溪市| 沁源县| 石嘴山市| 延庆县| 丘北县| 横峰县| 乐清市| 金平| 泾阳县| 曲阜市| 芜湖市| 玉龙| 清新县| 北碚区| 永和县| 杂多县| 咸丰县| 林甸县| 会同县| 江北区| 余庆县|