• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)技術(shù)在高校創(chuàng)業(yè)生態(tài)建設(shè)中的應(yīng)用

      2023-12-29 01:39:18寧高倩
      中國新技術(shù)新產(chǎn)品 2023年22期
      關(guān)鍵詞:項集創(chuàng)業(yè)項目分類器

      寧高倩

      (湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽 421005)

      隨著全球信息化和數(shù)字經(jīng)濟的快速發(fā)展,大數(shù)據(jù)已經(jīng)成為人類社會的重要產(chǎn)業(yè)和基礎(chǔ)資源[1]。在該趨勢下,高校創(chuàng)業(yè)生態(tài)建設(shè)成為推動新一輪創(chuàng)新驅(qū)動發(fā)展的重要舉措之一。一方面高校創(chuàng)新、創(chuàng)業(yè)可以彌補國內(nèi)、外新興產(chǎn)業(yè)領(lǐng)域中的人才缺口,另一方面也可以促進科學(xué)研究成果轉(zhuǎn)化,對推動經(jīng)濟高質(zhì)量發(fā)展和實現(xiàn)創(chuàng)新驅(qū)動發(fā)展具有重要的戰(zhàn)略意義[2-3]。

      我國高校創(chuàng)新、創(chuàng)業(yè)生態(tài)建設(shè)仍存在很多不足,例如政策環(huán)境不友好、人才培養(yǎng)模式單一以及科技成果轉(zhuǎn)化難度大等[4]。

      該文從面向大數(shù)據(jù)時代的角度對高校創(chuàng)業(yè)生態(tài)建設(shè)進行研究,全面闡述相關(guān)概念、構(gòu)成要素、評價體系以及建設(shè)模式,分析大數(shù)據(jù)技術(shù)在高校創(chuàng)業(yè)生態(tài)中的作用,并對高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集進行建模。

      1 大數(shù)據(jù)技術(shù)

      1.1 大數(shù)據(jù)預(yù)處理

      為了清洗、轉(zhuǎn)換原始數(shù)據(jù)對大數(shù)據(jù)進行預(yù)處理,在后續(xù)的數(shù)據(jù)挖掘過程中可以更好地進行分析。

      對于存在缺失值的數(shù)據(jù),可以采用插補方法來填充缺失部分,其中常用方法之一是均值插補,如公式(1)所示。

      對于存在異常值的數(shù)據(jù),可以采用原則,將大于或小于3 倍標準差的樣本視為異常樣本,并通過刪除或替換異常值來修正數(shù)據(jù)。

      數(shù)據(jù)集成的目的是將來自不同數(shù)據(jù)源的數(shù)據(jù)集成為一個統(tǒng)一的數(shù)據(jù)集。在數(shù)據(jù)集成中,最基本的原理是數(shù)據(jù)匹配原則,即找到2 個數(shù)據(jù)集之間的聯(lián)系。例如可以使用聯(lián)合屬性或者主鍵等進行數(shù)據(jù)匹配。

      數(shù)據(jù)轉(zhuǎn)換是指將數(shù)據(jù)從一種格式或結(jié)構(gòu)轉(zhuǎn)換為另一種格式或結(jié)構(gòu)。數(shù)據(jù)轉(zhuǎn)換的基本原理是給每個指標賦予一個統(tǒng)一的比例尺,進行轉(zhuǎn)換之前需要對數(shù)值型指標進行標準化、歸一化或離散化等操作。標準化是將數(shù)據(jù)縮放到均值為0、標準差為1 的區(qū)間內(nèi),常用的標準化方法是z-score 標準化方法,如公式(2)所示。

      式中:xi為原始數(shù)據(jù);為原始數(shù)據(jù)的平均值;σ為原始數(shù)據(jù)的標準差。

      歸一化是將數(shù)據(jù)縮放到[0,1],最常用的歸一化方法是min-max 歸一化方法,如公式(3)所示。

      式中:xi為原始數(shù)據(jù);min(X)和max(X)分別為原始數(shù)據(jù)的最小值和最大值。

      數(shù)據(jù)規(guī)約是將大量的數(shù)據(jù)精簡為更小的數(shù)據(jù)集,以減少計算和存儲開銷。常用的規(guī)約方法包括抽樣、聚合、分區(qū)和維度規(guī)約等,其中抽樣和聚合是最常用的規(guī)約方法。

      1.2 大數(shù)據(jù)挖掘模型

      1.2.1 回歸分析

      線性回歸是回歸分析的一種經(jīng)典方法,可以預(yù)測因變量與一個或多個自變量之間的線性關(guān)系。其原理是尋找最佳擬合直線,使預(yù)測誤差最小。線性回歸如公式(4)所示。

      式中:y是因變量(要預(yù)測的變量);xk是自變量;βk是回歸系數(shù);ε是誤差項。

      1.2.2 分類

      XGBoost 是一種基于梯度提升樹(Gradient Boosting Decision Tree)的集成學(xué)習(xí)算法,通過多個決策樹的集成構(gòu)建1 個強分類器,其主要優(yōu)點是高效、可擴展性強以及在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中表現(xiàn)良好等。

      首先,對所有樣本賦予相同的權(quán)重,采用貪心算法,在當(dāng)前弱分類器的基礎(chǔ)上添加新的樹,并對樣本的權(quán)重進行更新。其次,計算每個樹的貢獻和加權(quán)損失函數(shù),根據(jù)損失函數(shù)的梯度更新樹的葉子節(jié)點權(quán)重。最后,將多個樹的結(jié)果加權(quán)求和作為最終預(yù)測結(jié)果。XGBoost 常用的損失函數(shù)及其梯度公式如下。

      均方誤差(Mean Squared Error,MSE)如公式(5)所示。

      式中:yi為第i個樣本真實值;i為第i樣本預(yù)測值;梯度為-2(yi-i)。

      二分類交叉熵(Binary Logistic Loss)如公式(6)所示。

      式中:pi為屬于第i類的概率;,梯度為pi-yi。

      多分類交叉熵(Multi-class Logistic Loss)如公式(7)所示。

      式中:k為第k個樣本;yik為第i類中第k個樣本;pik為第k個樣本屬于第i類的概率;,梯度為pik-yik。

      在XGBoost 中,每棵樹的生成通過貪心算法實現(xiàn)。每次添加一個節(jié)點時,計算該節(jié)點對損失函數(shù)的增益,將最大增益對應(yīng)的特征和節(jié)點值作為分裂點。節(jié)點分裂后,樣本被分配到左、右子樹中,并按照上述方式計算子樹的節(jié)點,反復(fù)迭代直到滿足終止條件。

      XGBoost 通過多個弱分類器的集成來構(gòu)建一個強分類器,逐步減少模型誤差,具有高效、可擴展性強、在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中表現(xiàn)良好等優(yōu)點,是一種非常實用的機器學(xué)習(xí)算法。

      通過小米手環(huán)的功能更新,我們可以看到,公司研發(fā)過程中是向著大眾更易接受,且能夠更加科學(xué)化管理自己運動過程的,不斷的更新功能,讓手環(huán)的存在增加大眾運動的興趣性和精準度,譬如心率的控制、卡路里的顯示、里程數(shù)的顯示等,都是努力地、無時不刻地提醒運動者運動要科學(xué)、要有數(shù)據(jù)、要精確。剛好這樣一個目標與我們田徑教學(xué)的目標有所契合,就是需要在教學(xué)過程中以教學(xué)目標為指導(dǎo),精準地制定教學(xué)內(nèi)容,而且能夠?qū)崟r控制教學(xué)節(jié)奏,幫助提高課程質(zhì)量,一切都不謀而合,所以引發(fā)我們的研究方向即小米手環(huán)在田徑教學(xué)過程中如何使用能夠讓田徑課程更加合理、科學(xué)化。

      1.2.3 聚類

      聚類模型是一種無監(jiān)督學(xué)習(xí)方法,用于將數(shù)據(jù)集中的樣本分為具有相似特征的群組或簇。聚類模型的目標是在沒有事先標記的情況下發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。

      常見的聚類算法包括K 均值聚類、層次聚類和DBSCAN等。這些算法的操作通?;跇颖局g的相似性或距離。

      1.2.4 關(guān)聯(lián)分析

      關(guān)聯(lián)分析是一種用于發(fā)現(xiàn)數(shù)據(jù)集中頻繁項集和關(guān)聯(lián)規(guī)則的方法。是關(guān)聯(lián)分析中常見的公式如下。

      支持度(support)用于衡量一個項集在所有事務(wù)中出現(xiàn)的頻率。設(shè)D為數(shù)據(jù)集,X為項集,項集X的支持度如公式(8)所示。

      式中:|D|為數(shù)據(jù)集D中的事務(wù)總數(shù);t為特定事務(wù)。

      式中:support(X∪Y)為項集X與項集Y的并集在數(shù)據(jù)集D中的支持度;support(X)為項集X在數(shù)據(jù)集D中的支持度。

      提升度(lift)用于衡量關(guān)聯(lián)規(guī)則中項集X對項集Y的提升程度。提升度如公式(10)所示。

      式中:confidence(X->Y)為從項集X推導(dǎo)出項集Y的置信度;support(Y)為項集Y在數(shù)據(jù)集D中的支持度。

      以上是關(guān)聯(lián)分析中比較常見的3 個公式,即支持度、置信度和提升度。這些公式可以用于發(fā)現(xiàn)頻繁項集和關(guān)聯(lián)規(guī)則,并應(yīng)用于市場籃子分析、推薦系統(tǒng)等領(lǐng)域。

      2 大數(shù)據(jù)技術(shù)在高校創(chuàng)業(yè)生態(tài)建設(shè)中的應(yīng)用

      2.1 高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集

      高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)如下:1)高校創(chuàng)業(yè)團隊數(shù)量和質(zhì)量數(shù)據(jù),包括創(chuàng)業(yè)團隊總數(shù)、成立年限、核心成員人數(shù)以及所在院校專業(yè)領(lǐng)域等信息。2)創(chuàng)業(yè)項目數(shù)量和質(zhì)量數(shù)據(jù),包括創(chuàng)業(yè)項目總數(shù)、所屬行業(yè)和領(lǐng)域、是否完成融資以及投資金額等信息。3)學(xué)校與外部合作機構(gòu)的數(shù)量和質(zhì)量數(shù)據(jù),包括與政府、企業(yè)、投資機構(gòu)等合作的數(shù)量、合作內(nèi)容以及合作效果等信息。4)各類支持服務(wù)平臺的數(shù)量和質(zhì)量數(shù)據(jù),包括創(chuàng)業(yè)孵化器、加速器、投資機構(gòu)等以及其提供的資源、服務(wù)、支持等信息。5)成功案例數(shù)量和質(zhì)量數(shù)據(jù),包括已經(jīng)成功上市或并購的公司數(shù)量、獲得過獎項或榮譽的創(chuàng)業(yè)項目數(shù)量等。6)師資力量和教育資源的數(shù)據(jù),包括創(chuàng)業(yè)導(dǎo)師、創(chuàng)業(yè)課程、創(chuàng)新實驗室等資源數(shù)量和質(zhì)量信息。

      2.2 數(shù)據(jù)預(yù)處理

      2.2.1 數(shù)據(jù)清洗

      對高校創(chuàng)業(yè)生態(tài)檢測數(shù)據(jù)進行去除重復(fù)數(shù)據(jù)、填補缺失值、修改數(shù)據(jù)類型等。對于“缺失值”,需要根據(jù)經(jīng)驗進行手工填寫;對于無法根據(jù)經(jīng)驗填寫的“缺失值”,則采用該特征數(shù)據(jù)的平均值來代替。

      2.2.2 數(shù)據(jù)集成

      將高校創(chuàng)業(yè)團隊、創(chuàng)業(yè)項目、學(xué)校與外部合作機構(gòu)、各類支持服務(wù)平臺、成功案例、師資力量和教育資源6 種類型數(shù)據(jù)的6 種表格進行數(shù)據(jù)集成,集成到一個綜合數(shù)據(jù)集并存儲。

      2.2.3 數(shù)據(jù)轉(zhuǎn)換

      將數(shù)據(jù)集中字符型數(shù)據(jù)轉(zhuǎn)換成數(shù)值型數(shù)據(jù),如“創(chuàng)業(yè)團隊”“所在院校專業(yè)領(lǐng)域”“政府”“企業(yè)”和“投資機構(gòu)”等字符型變量轉(zhuǎn)成數(shù)值型變量,便于后面數(shù)據(jù)處理和模型建立。

      2.3 數(shù)據(jù)挖掘

      2.3.1 數(shù)據(jù)集劃分

      建立XGBoost 模型時,先將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集,用于模型訓(xùn)練、參數(shù)調(diào)整和模型評價。數(shù)據(jù)集劃分方法如下:1)訓(xùn)練集(Trainingset),用于模型的訓(xùn)練和參數(shù)估計,占數(shù)據(jù)集的80%。2)驗證集(Validationset),用于模型的選擇和調(diào)整,占數(shù)據(jù)集的10%。可以利用驗證集來評估模型的泛化能力,選擇最優(yōu)的模型,并調(diào)整模型的超參數(shù)。3)測試集(Testset),用于模型的最終評價和預(yù)測精度的確定,占數(shù)據(jù)集的10%。使用測試集評估模型在未見過的新數(shù)據(jù)上的預(yù)測能力,以充分驗證模型的有效性和泛化能力。

      隨機打亂每個數(shù)據(jù)集的數(shù)據(jù)順序,以確保訓(xùn)練集、驗證集和測試集的數(shù)據(jù)分布相似,并保持隨機性的一致性,提高模型的魯棒性和泛化能力。

      2.3.2 特征提取和數(shù)據(jù)降維

      由于數(shù)據(jù)集特征維度比較多,并且全國高校歷年數(shù)據(jù)量比較龐大,為了降低模型的復(fù)雜度,提高模型的計算速度,因此需要對高校創(chuàng)業(yè)生態(tài)建設(shè)6 個維度的數(shù)據(jù)進行特征降維,主要采用主成分分析。訓(xùn)練集數(shù)據(jù)主成分分析中的前3 個主成分得分圖如圖1 所示。

      圖1 主成分分析得分圖

      2.3.3 分類模型

      將創(chuàng)業(yè)生態(tài)建設(shè)成功的分為一類,標記為0,創(chuàng)業(yè)生態(tài)建設(shè)失敗的分為另外一類,標記為1。因此,該文是一個大數(shù)據(jù)挖掘技術(shù)的分類問題,并且是二分類的模型,可以采用XGBoost 方法建立分類模型。將高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集作為XGBoost 模型的訓(xùn)練數(shù)據(jù)集,利用樣本數(shù)據(jù)中的特征變量(如高校的師資力量、教育資源和創(chuàng)業(yè)項目質(zhì)量等)預(yù)測其類別變量(成功/失?。?。建模時采用交叉驗證、正則化等技術(shù)來提高模型的預(yù)測精度和泛化能力。

      XGBoost 訓(xùn)練參數(shù)設(shè)置如下:學(xué)習(xí)率(learningrate)為0.005,樹的數(shù)量(n_estimators)為100,最大樹深度(max_depth)為50,列采樣比例(colsample_bytree)為0.6,正則化參數(shù)(lambda)為L2 正則化。

      模型的ROC 曲線如圖2 所示。從圖2 可以看出曲線在左側(cè)和頂部的邊界很接近,說明分類器在很大程度上正確地識別了正例且假正例率較低。曲線下的面積(Area Under Curve,AUC)越大,說明模型的性能越好。圖2 的AUC 看起來比較高,表明分類器的性能較好。

      圖2 XGBoost 模型ROC 曲線

      2.3.4 結(jié)果與分析

      XGBoost 是一種由多個弱分類器的集成構(gòu)建的強分類器,可用于高校創(chuàng)業(yè)生態(tài)數(shù)據(jù)的分類和預(yù)測。該文通過標注成功和失敗的創(chuàng)業(yè)項目,并結(jié)合項目特征,對高校創(chuàng)業(yè)團隊、創(chuàng)業(yè)項目、學(xué)校與外部合作機構(gòu)、各類支持服務(wù)平臺、成功案例、師資力量和教育資源6 種類型數(shù)據(jù)進行建模,利用XGBoost 模型進行訓(xùn)練,從而預(yù)測并分析未來的創(chuàng)業(yè)項目。

      3 結(jié)論

      隨著大數(shù)據(jù)時代的到來,高校可以利用大數(shù)據(jù)分析技術(shù),對創(chuàng)業(yè)生態(tài)數(shù)據(jù)進行分析,從而建立更準確、全面的模型預(yù)測。在該過程中,高校需要有足夠的存儲和計算資源,能夠處理海量且多樣化的數(shù)據(jù)。同時,有效的數(shù)據(jù)清洗、特征選擇與降維、模型評估與優(yōu)化等步驟也極為關(guān)鍵。只有在這些步驟都得到充分考慮和實踐的情況下,才能得到質(zhì)量可靠的模型,進而有效支持高校的創(chuàng)業(yè)活動。

      利用大數(shù)據(jù)分析技術(shù)建立XGBoost 模型預(yù)測,不僅可以輔助高校的創(chuàng)業(yè)支持工作,還可以幫助高校更好地理解創(chuàng)業(yè)生態(tài)、發(fā)現(xiàn)生態(tài)變化趨勢并及時調(diào)整創(chuàng)業(yè)政策和支持措施等,從而進一步提升高校創(chuàng)業(yè)環(huán)境的競爭力和吸引力,提高學(xué)校創(chuàng)新、創(chuàng)業(yè)的意識和能力。

      猜你喜歡
      項集創(chuàng)業(yè)項目分類器
      山西18個農(nóng)村創(chuàng)業(yè)項目獲資金補助
      促進大學(xué)生創(chuàng)新創(chuàng)業(yè)項目可持續(xù)發(fā)展的路徑研究
      大學(xué)(2021年2期)2021-06-11 01:13:46
      學(xué)創(chuàng)業(yè)應(yīng)用 如何選擇做健康事業(yè) 范俊宏康復(fù) 火爆創(chuàng)業(yè)項目
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      大學(xué)生創(chuàng)業(yè)項目實施的幾點體會
      一種頻繁核心項集的快速挖掘算法
      計算機工程(2014年6期)2014-02-28 01:26:12
      连城县| 瑞安市| 承德市| 白城市| 湘乡市| 全南县| 昆明市| 闽侯县| 湘阴县| 乐业县| 兴义市| 阿图什市| 新津县| 渝中区| 巫溪县| 思茅市| 鄯善县| 比如县| 合川市| 临清市| 淮安市| 厦门市| 集安市| 新河县| 托里县| 姚安县| 邵东县| 青冈县| 新化县| 长兴县| 中西区| 麻城市| 香港 | 云龙县| 仁化县| 新蔡县| 调兵山市| 青铜峡市| 长春市| 广德县| 文山县|