• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    邊緣大數(shù)據(jù)分析預(yù)測(cè)建模方法研究①

    2023-01-29 03:48:04鐘運(yùn)琴朱月琴焦守濤
    高技術(shù)通訊 2022年10期
    關(guān)鍵詞:云端邊緣樣本

    鐘運(yùn)琴 朱月琴 焦守濤

    (*中國科學(xué)院大學(xué)中國科學(xué)院大數(shù)據(jù)挖掘與知識(shí)管理重點(diǎn)實(shí)驗(yàn)室 北京 100190)

    (**國務(wù)院發(fā)展研究中心信息中心 北京 100010)

    (***中國地質(zhì)調(diào)查局發(fā)展研究中心 北京 100037)

    (****自然資源部地質(zhì)信息工程技術(shù)創(chuàng)新中心 北京 100037)

    0 引言

    隨著5G 應(yīng)用的推廣,實(shí)時(shí)大數(shù)據(jù)分析應(yīng)用場(chǎng)景不斷增多,涌現(xiàn)了基于大數(shù)據(jù)訓(xùn)練的智能分析預(yù)測(cè)算法模型,這些算法模型的訓(xùn)練過程通常利用強(qiáng)大的云計(jì)算能力訓(xùn)練海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集,從而達(dá)到準(zhǔn)確預(yù)測(cè)的目的[1-5]。云算力是遠(yuǎn)程云中心執(zhí)行大數(shù)據(jù)分析任務(wù),適用于非實(shí)時(shí)、長(zhǎng)周期歷史數(shù)據(jù)、全局決策的應(yīng)用場(chǎng)景[6-8]。但是,針對(duì)實(shí)時(shí)性、短周期數(shù)據(jù)、本地化決策等場(chǎng)景,云上執(zhí)行大數(shù)據(jù)分析任務(wù)的模式就表現(xiàn)不好,尤其在5G 控制、物聯(lián)網(wǎng)傳感器數(shù)據(jù)、監(jiān)控流數(shù)據(jù)、無人駕駛等應(yīng)用領(lǐng)域[9-13],如果將實(shí)時(shí)數(shù)據(jù)回傳到遠(yuǎn)程的云中心去處理,將會(huì)造成響應(yīng)延遲大、分析預(yù)測(cè)準(zhǔn)確率低,而且在大數(shù)據(jù)場(chǎng)景下的成本開銷大[13-18]。針對(duì)這類應(yīng)用問題,本文提出了邊緣側(cè)大數(shù)據(jù)分析預(yù)測(cè)建模方法,數(shù)據(jù)的分析預(yù)測(cè)需要在邊緣側(cè)本地?cái)?shù)據(jù)計(jì)算后立即做出響應(yīng),而不需要通過網(wǎng)絡(luò)傳輸?shù)却浦行哪P拖掳l(fā)和服務(wù)反饋,充分利用邊緣計(jì)算能力分而治之、化整為零地將分布在各個(gè)場(chǎng)景的數(shù)據(jù)進(jìn)行本地化處理,在實(shí)時(shí)性、短周期數(shù)據(jù)和本地決策等場(chǎng)景方面具有不可替代的作用。

    本文針對(duì)復(fù)雜場(chǎng)景的大數(shù)據(jù)分析預(yù)測(cè)任務(wù),提出邊緣側(cè)大數(shù)據(jù)分析方法既有大數(shù)據(jù)樣本訓(xùn)練而成的通用模型預(yù)測(cè)能力,也具有邊緣小樣本訓(xùn)練而成的特定預(yù)測(cè)能力。云計(jì)算和邊緣計(jì)算的范式不同,云計(jì)算的演化過程是將分布在各地的數(shù)據(jù)集匯聚到云上利用云的算力進(jìn)行集中式分析處理,它是中央處理的模式。邊緣計(jì)算的核心是將各地(分中心)的數(shù)據(jù)在邊緣側(cè)的服務(wù)器上處理,在實(shí)時(shí)數(shù)據(jù)處理方面顯示出很大的性能優(yōu)勢(shì)。它可以將收集的實(shí)時(shí)數(shù)據(jù)集如傳感器數(shù)據(jù)、監(jiān)控流數(shù)據(jù),在邊緣計(jì)算平臺(tái)上進(jìn)行預(yù)處理、清洗、訓(xùn)練小數(shù)據(jù)樣本模型和預(yù)測(cè)任務(wù),無需將全量數(shù)據(jù)通過網(wǎng)絡(luò)傳輸?shù)竭h(yuǎn)程的云平臺(tái)上處理,僅需將各個(gè)邊緣側(cè)清洗處理后的小樣本數(shù)據(jù)集共享到云平臺(tái)。同時(shí),多個(gè)邊緣側(cè)的數(shù)據(jù)集匯聚成了邊緣大數(shù)據(jù)保存在遠(yuǎn)程的云端,通過邊云協(xié)同網(wǎng)絡(luò)下發(fā)到邊緣平臺(tái),因而,邊緣側(cè)不僅獲得了云端模型的通用分析預(yù)測(cè)能力,還具備了邊緣側(cè)特定小樣本訓(xùn)練而構(gòu)建的精確場(chǎng)景分析能力。

    本文的主要貢獻(xiàn)為:(1)提出了邊緣側(cè)和云端協(xié)同的大數(shù)據(jù)分析處理框架,定義了在處理大數(shù)據(jù)分析任務(wù)時(shí)邊緣側(cè)訓(xùn)練和云端訓(xùn)練的邊界和邊云協(xié)同大數(shù)據(jù)分析理論框架,該理論框架能夠統(tǒng)一處理包括實(shí)時(shí)、短周期、本地決策分析任務(wù),以及非實(shí)時(shí)、長(zhǎng)周期和全局決策型分析任務(wù)。(2)提出了邊緣側(cè)大數(shù)據(jù)分析訓(xùn)練的分布式機(jī)器學(xué)習(xí)建模方法,分布在各個(gè)地方的邊緣計(jì)算平臺(tái)以多接入方式連接云平臺(tái),在云平臺(tái)上訓(xùn)練大樣本數(shù)據(jù)生成模型參數(shù),然后將模型下發(fā)到邊緣計(jì)算平臺(tái)。邊緣側(cè)收集到的特殊的小樣本數(shù)據(jù)通過遷移學(xué)習(xí)的方式共享云端模型參數(shù),本文設(shè)計(jì)了遷移學(xué)習(xí)方式在邊緣側(cè)對(duì)小樣本數(shù)據(jù)進(jìn)行模型訓(xùn)練,將云端模型參數(shù)作為邊緣側(cè)分析訓(xùn)練的初始參數(shù),邊緣計(jì)算平臺(tái)輸入小樣本數(shù)據(jù),使用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(deep learning neural network,DLNN)分類算法進(jìn)行訓(xùn)練,在邊緣側(cè)更新模型參數(shù)生成新的更加準(zhǔn)確的DLNN 模型用于分析預(yù)測(cè)任務(wù)。(3)實(shí)現(xiàn)了邊緣側(cè)大數(shù)據(jù)分析預(yù)測(cè)系統(tǒng)原型(edge big data analysis and predicate system prototype,EDAP)。EDAP 系統(tǒng)將實(shí)時(shí)大數(shù)據(jù)預(yù)測(cè)任務(wù)在邊緣側(cè)就地執(zhí)行,基于遷移學(xué)習(xí)方式在本地訓(xùn)練更新模型,無需將全量數(shù)據(jù)回傳到云端,能有效降低網(wǎng)絡(luò)開銷和時(shí)間成本,也提高了預(yù)測(cè)精度。實(shí)驗(yàn)結(jié)果顯示,EDAP 邊緣側(cè)大數(shù)據(jù)建模訓(xùn)練的效率平均提升了3.95 倍,網(wǎng)絡(luò)傳輸量平均減少了88.7%,在特定場(chǎng)景下訓(xùn)練出來的模型AUC 評(píng)估指標(biāo)值從云端模型精度的72.6%提升到了98.6%,邊緣側(cè)協(xié)同訓(xùn)練模型的預(yù)測(cè)準(zhǔn)確率、召回率和F1 值比傳統(tǒng)訓(xùn)練方法可以提升3%~9%;請(qǐng)求預(yù)測(cè)的響應(yīng)延遲平均降低了67.5%。因此,本文方法在科學(xué)計(jì)算、智能金融、決策控制等領(lǐng)域具有一定的借鑒價(jià)值。

    1 邊緣側(cè)和云端協(xié)同的大數(shù)據(jù)分析處理范式框架

    本文面向多源、異構(gòu)、區(qū)域分散的多個(gè)分中心采集到的大數(shù)據(jù),設(shè)計(jì)了邊緣側(cè)和云端協(xié)同(簡(jiǎn)稱“邊云協(xié)同”)(edge-cloud processing,ECP)的大數(shù)據(jù)分析處理范式框架,分析預(yù)測(cè)響應(yīng)時(shí)間通常為毫秒級(jí)到秒級(jí)。ECP 邊云協(xié)同框架能夠有效提升大數(shù)據(jù)分析應(yīng)用性能,并在邊緣側(cè)添加小樣本數(shù)據(jù)訓(xùn)練建模能力,由此更好地支撐實(shí)時(shí)分析和移動(dòng)分析應(yīng)用。

    ECP 邊緣大數(shù)據(jù)處理框架如圖1 所示。ECP 范式框架由3 大部分組成:應(yīng)用側(cè)、邊緣計(jì)算側(cè)、云數(shù)據(jù)中心側(cè)。這3 個(gè)部分以邊緣計(jì)算側(cè)為橋梁,縮小應(yīng)用側(cè)和云數(shù)據(jù)中心側(cè)的鴻溝。

    圖1 ECP 邊緣大數(shù)據(jù)處理范式框架

    邊緣計(jì)算側(cè)大數(shù)據(jù)分析平臺(tái)有多個(gè)邊緣計(jì)算節(jié)點(diǎn)和邊緣管理節(jié)點(diǎn)組成的邊緣大數(shù)據(jù)分析集群,邊緣計(jì)算節(jié)點(diǎn)用來執(zhí)行大數(shù)據(jù)分析處理任務(wù),并且由邊緣管理節(jié)點(diǎn)將訓(xùn)練任務(wù)和推理預(yù)測(cè)任務(wù)采用分治算法進(jìn)行劃分,按任務(wù)類型分階段調(diào)度到邊緣節(jié)點(diǎn)處理。邊緣側(cè)大數(shù)據(jù)分析平臺(tái)的處理方法包括以下4 個(gè)步驟。

    (1)將采集到的物聯(lián)網(wǎng)數(shù)據(jù)、傳感器數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù),匯聚到邊緣節(jié)點(diǎn),一個(gè)邊緣節(jié)點(diǎn)接入多個(gè)實(shí)時(shí)數(shù)據(jù)采集端,同時(shí)由多個(gè)邊緣節(jié)點(diǎn)并行分析處理。

    (2)邊緣節(jié)點(diǎn)將所管理的實(shí)時(shí)數(shù)據(jù)信息的元數(shù)據(jù)發(fā)送到邊緣管理節(jié)點(diǎn),由邊緣管理節(jié)點(diǎn)執(zhí)行元操作(metaoperation)。元操作包括設(shè)置大數(shù)據(jù)分析訓(xùn)練任務(wù)中機(jī)器學(xué)習(xí)算法的超參數(shù)和動(dòng)態(tài)參數(shù)。超參數(shù)(super parameters)是用啟發(fā)式算法在模型外部配置的變量參數(shù);動(dòng)態(tài)參數(shù)是歷史數(shù)據(jù)訓(xùn)練學(xué)習(xí)到的變量參數(shù)。當(dāng)在邊緣側(cè)針對(duì)特定問題調(diào)整機(jī)器學(xué)習(xí)算法時(shí),使用網(wǎng)絡(luò)搜索或隨機(jī)搜索時(shí)將調(diào)整模型或命令的超參數(shù),以發(fā)現(xiàn)一個(gè)可以使模型預(yù)測(cè)最熟練的模型參數(shù)。訓(xùn)練任務(wù)由邊緣計(jì)算節(jié)點(diǎn)執(zhí)行,邊緣管理節(jié)點(diǎn)保存邊緣節(jié)點(diǎn)每一步訓(xùn)練后的模型參數(shù),讓模型參數(shù)和超參數(shù)在所有邊緣節(jié)點(diǎn)之間共享與復(fù)用。邊緣計(jì)算節(jié)點(diǎn)的系統(tǒng)運(yùn)行狀態(tài)會(huì)以心跳方式主動(dòng)報(bào)告給邊緣管理節(jié)點(diǎn)。

    (3)邊緣管理節(jié)點(diǎn)承擔(dān)任務(wù)劃分、任務(wù)調(diào)度和容錯(cuò)處理。邊緣管理節(jié)點(diǎn)將模型參數(shù)和超參數(shù)發(fā)送到邊緣結(jié)算節(jié)點(diǎn),邊緣計(jì)算節(jié)點(diǎn)作為工作節(jié)點(diǎn),在上一輪參數(shù)的基礎(chǔ)上執(zhí)行損失函數(shù)最優(yōu)化算法訓(xùn)練運(yùn)算得到本輪的參數(shù)。邊緣管理節(jié)點(diǎn)根據(jù)評(píng)估樣本數(shù)據(jù)集計(jì)算準(zhǔn)確率(precision,P)、召回率(recall,R)、AUC 值(area under curve),以及損失函數(shù)值(loss function value,LFV),在分類模型和回歸模型訓(xùn)練中,不斷地更新模型參數(shù)和超參數(shù),直到損失函數(shù)值LFV 小于δ(δ 趨近于零),P 值、R 值和AUC 值無限接近于1,其中P,R,AUC ∈(0,1),表示訓(xùn)練的模型的預(yù)測(cè)效果更優(yōu)。

    (4)邊緣管理節(jié)點(diǎn)發(fā)送數(shù)據(jù)處理和建模訓(xùn)練程序指令給邊緣計(jì)算節(jié)點(diǎn),邊緣計(jì)算節(jié)點(diǎn)執(zhí)行數(shù)據(jù)加載、數(shù)據(jù)清洗、特征工程、特性屬性選擇、特征值處理、歸一化、算法訓(xùn)練、建模、評(píng)估、推理、預(yù)測(cè)。多個(gè)邊緣計(jì)算節(jié)點(diǎn)上存儲(chǔ)了訓(xùn)練樣本數(shù)據(jù)和評(píng)估樣本數(shù)據(jù)。機(jī)器學(xué)習(xí)訓(xùn)練算法根據(jù)數(shù)據(jù)并行策略同時(shí)在多個(gè)邊緣計(jì)算節(jié)點(diǎn)執(zhí)行,每個(gè)邊緣計(jì)算節(jié)點(diǎn)模型參數(shù)均共享自遠(yuǎn)程云數(shù)據(jù)中心的預(yù)訓(xùn)練模型參數(shù),因而,邊緣計(jì)算節(jié)點(diǎn)執(zhí)行遷移學(xué)習(xí)算法,輸入初始模型參數(shù),訓(xùn)練后的新模型文件用于后續(xù)推理與預(yù)測(cè)。各個(gè)邊緣計(jì)算節(jié)點(diǎn)訓(xùn)練后的模型文件傳輸至邊緣管理節(jié)點(diǎn),由邊緣管理節(jié)點(diǎn)存儲(chǔ)和分發(fā)模型。

    經(jīng)過以上4 個(gè)步驟,邊緣計(jì)算側(cè)的大數(shù)據(jù)分析的最終任務(wù)執(zhí)行結(jié)果——模型文件和評(píng)估結(jié)果,均匯聚到邊緣管理節(jié)點(diǎn),并由邊緣管理節(jié)點(diǎn)作為入口與應(yīng)用側(cè)和云數(shù)據(jù)中心執(zhí)行程序交互。

    邊緣計(jì)算側(cè)的大數(shù)據(jù)分析和云數(shù)據(jù)中心側(cè)的主要交互過程是:(1)邊緣側(cè)把數(shù)據(jù)質(zhì)量審核后的小樣本數(shù)據(jù)上傳到云數(shù)據(jù)中心,多個(gè)邊緣側(cè)的樣本數(shù)據(jù)回傳到云數(shù)據(jù)中心形成大樣本數(shù)據(jù)集。基于大樣本數(shù)據(jù)集訓(xùn)練機(jī)器學(xué)習(xí)算法形成通用模型文件,該通用模型文件針對(duì)某類問題具有很好的泛化。(2)在云端進(jìn)行訓(xùn)練算法,擬合出一個(gè)泛化能力較強(qiáng)的模型,并將通用模型保存在云端。(3)當(dāng)有新增樣本進(jìn)入云端,云端自動(dòng)啟動(dòng)訓(xùn)練程序迭代更新模型文件,并將模型下發(fā)到邊緣側(cè),邊緣側(cè)的模型定期地同步云端的模型。因此,邊緣側(cè)和云端就形成了良好的交互,云端的預(yù)訓(xùn)練模型定期分發(fā)到邊緣側(cè)的管理節(jié)點(diǎn),由管理節(jié)點(diǎn)分發(fā)至邊緣計(jì)算節(jié)點(diǎn),由邊緣計(jì)算節(jié)點(diǎn)根據(jù)預(yù)訓(xùn)練模型和特定小樣本在本地訓(xùn)練形成特定的訓(xùn)練模型,最終每個(gè)邊緣計(jì)算節(jié)點(diǎn)套用其訓(xùn)練模型執(zhí)行推理和分析預(yù)測(cè)任務(wù)。

    應(yīng)用側(cè)包括物聯(lián)網(wǎng)應(yīng)用、決策分析和實(shí)時(shí)流應(yīng)用,交互過程是:(1)邊緣側(cè)將訓(xùn)練好的模型文件以接口形式進(jìn)行封裝,應(yīng)用側(cè)通過邊緣網(wǎng)關(guān)調(diào)用接口進(jìn)行推理和分析預(yù)測(cè)。(2)應(yīng)用側(cè)將實(shí)時(shí)采集到的數(shù)據(jù)輸入到模型中運(yùn)算得到實(shí)時(shí)結(jié)果,并以接口服務(wù)形式返回。

    2 邊緣側(cè)大數(shù)據(jù)分析與分布式機(jī)器學(xué)習(xí)訓(xùn)練算法

    針對(duì)邊緣大數(shù)據(jù)分析訓(xùn)練任務(wù)提出了邊緣側(cè)機(jī)器學(xué)習(xí)(edge machine learning,EML)算法。EML 算法是一類在邊緣側(cè)實(shí)現(xiàn)的分布式機(jī)器學(xué)習(xí)算法,將機(jī)器學(xué)習(xí)任務(wù)運(yùn)算分布在多個(gè)邊緣計(jì)算節(jié)點(diǎn)協(xié)同執(zhí)行,每個(gè)邊緣計(jì)算節(jié)點(diǎn)均攤機(jī)器學(xué)習(xí)訓(xùn)練和推理預(yù)測(cè)工作負(fù)載。EML 算法解決了由于邊緣側(cè)設(shè)備算力性能低于云計(jì)算能力而不能訓(xùn)練大數(shù)據(jù)樣本的問題。

    在EML 算法框架中,大樣本數(shù)據(jù)集用于訓(xùn)練全局通用模型(global common model,GCM),由于邊緣側(cè)采集特定場(chǎng)景的新數(shù)據(jù),因此邊緣側(cè)采集的小樣本數(shù)據(jù)集在經(jīng)過清洗、過濾和特征工程操作后,可以用來訓(xùn)練專用領(lǐng)域模型(specific domain model,SDM)。

    全局的GCM 模型和特定領(lǐng)域的SDM 模型的關(guān)系是:兩者的訓(xùn)練算法完全一致,并且都是有監(jiān)督學(xué)習(xí)模型;SDM 是在GCM 模型參數(shù)的基礎(chǔ)上采用遷移學(xué)習(xí)訓(xùn)練而成;GCM 在多個(gè)邊緣側(cè)匯聚的大樣本量下使用機(jī)器學(xué)習(xí)算法訓(xùn)練,而SDM 通常利用單個(gè)邊緣側(cè)的小樣本量使用機(jī)器學(xué)習(xí)算法訓(xùn)練而成;SDM 輸入特定場(chǎng)景的標(biāo)注數(shù)據(jù)集,根據(jù)有監(jiān)督學(xué)習(xí)算法訓(xùn)練生成分類分析模型。

    EML 邊緣分布式機(jī)器學(xué)習(xí)算法框架如圖2 所示,該算法框架的主要執(zhí)行步驟包括7 步。

    圖2 EML 邊緣機(jī)器學(xué)習(xí)算法框架

    (1)將輸入數(shù)據(jù)集通過分布式消息系統(tǒng)推送至邊緣側(cè)處理,邊緣側(cè)的多個(gè)邊緣計(jì)算節(jié)點(diǎn)分布式地對(duì)各自分區(qū)的輸入數(shù)據(jù)集進(jìn)行清洗、轉(zhuǎn)化、歸一化、空缺值填充、特征選擇等數(shù)據(jù)處理操作,同時(shí)計(jì)算預(yù)測(cè)目標(biāo)字段和目標(biāo)值分布,形成標(biāo)注數(shù)據(jù)集。

    (2)結(jié)合IDS 數(shù)據(jù)集和LDS 標(biāo)注數(shù)據(jù)集,調(diào)用數(shù)據(jù)質(zhì)量審核接口對(duì)LDS 標(biāo)注數(shù)據(jù)集的質(zhì)量進(jìn)行評(píng)估,評(píng)估的維度主要包括:缺失值比例要低于10%,聚類法剔除異常值,指數(shù)平滑法對(duì)特征字段中的時(shí)序數(shù)據(jù)進(jìn)行加權(quán)平均提升其預(yù)測(cè)的平穩(wěn)程度。同時(shí),對(duì)歸一化的數(shù)據(jù)字段進(jìn)行正態(tài)分布驗(yàn)證,離群值剔除操作和標(biāo)準(zhǔn)差檢測(cè),審核LDS 標(biāo)注數(shù)據(jù)集,并將評(píng)分在85%以上的LDS 數(shù)據(jù)樣本作為最終的標(biāo)注數(shù)據(jù)集用于后續(xù)的機(jī)器學(xué)習(xí)訓(xùn)練。

    (3)將審核后的標(biāo)注數(shù)據(jù)集加載到邊緣計(jì)算節(jié)點(diǎn)學(xué)習(xí)訓(xùn)練,向邊緣管理節(jié)點(diǎn)注冊(cè)并記錄機(jī)器學(xué)習(xí)訓(xùn)練程序的任務(wù)執(zhí)行狀態(tài)。邊緣側(cè)機(jī)器學(xué)習(xí)算法主要有分類分析算法,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)算法。

    (4)通過邊緣側(cè)數(shù)據(jù)訓(xùn)練,結(jié)合云端的GCM 模型參數(shù)作為邊緣側(cè)SDM 模型的初始參數(shù),再利用卷積神經(jīng)網(wǎng)絡(luò)中的反向傳播(back propagation,BP)算法進(jìn)行迭代,迭代至損失函數(shù)交叉熵值趨近于零收斂,生成邊緣SDM 模型。

    (5)將多個(gè)邊緣側(cè)接入的邊緣SDM 模型和標(biāo)注數(shù)據(jù)集回傳到云計(jì)算側(cè),數(shù)據(jù)在多個(gè)邊緣側(cè)周期性地回傳匯聚到云端形成大樣本數(shù)據(jù)集,云計(jì)算側(cè)具有較強(qiáng)的運(yùn)算能力,支持分布式機(jī)器學(xué)習(xí)任務(wù)的并行執(zhí)行,能夠?qū)Υ髷?shù)據(jù)樣本進(jìn)行高效訓(xùn)練。

    (6)利用云平臺(tái)算力加載大數(shù)據(jù)樣本到神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)訓(xùn)練程序,經(jīng)過多輪迭代收斂,生成全局通用的GCM 模型,GCM 模型是一類深度學(xué)習(xí)模型,兼容CNN 模型。

    (7)更新參數(shù)后的云端側(cè)GCM 模型實(shí)時(shí)同步到邊緣側(cè),并且邊緣模型的初始參數(shù)來源于更新后的GCM 模型參數(shù),邊緣節(jié)點(diǎn)啟動(dòng)訓(xùn)練任務(wù),將各個(gè)邊緣側(cè)收斂后的最新參數(shù)作為新的邊緣SDM 模型參數(shù),用于邊緣側(cè)推理和預(yù)測(cè)分析應(yīng)用。

    EML 算法框架經(jīng)過以上7 個(gè)步驟的執(zhí)行,從應(yīng)用側(cè)輸入數(shù)據(jù)集,邊緣側(cè)的數(shù)據(jù)處理、數(shù)據(jù)標(biāo)注、機(jī)器學(xué)習(xí)算法執(zhí)行、邊緣SDM 模型訓(xùn)練,以及云端訓(xùn)練GCM 模型。通過GCM 模型做通用的分析預(yù)測(cè),并且將特定場(chǎng)景的分析預(yù)測(cè)任務(wù)交由SDM 模型完成。

    3 邊緣側(cè)大數(shù)據(jù)分析預(yù)測(cè)原型EDAP系統(tǒng)

    根據(jù)所設(shè)計(jì)邊緣側(cè)大數(shù)據(jù)分析預(yù)測(cè)建模方法實(shí)現(xiàn)了邊緣側(cè)大數(shù)據(jù)分析預(yù)測(cè)原型系統(tǒng)(edge big data analysis and predicate prototype system,EDAP),EDAP 系統(tǒng)實(shí)現(xiàn)了在邊緣側(cè)和云端協(xié)同訓(xùn)練DLNN深度學(xué)習(xí)算法模型。EDAP 系統(tǒng)實(shí)現(xiàn)了云端和邊緣側(cè)算法訓(xùn)練與預(yù)測(cè)程序。

    EDAP 原型系統(tǒng)的DLNN 深度學(xué)習(xí)訓(xùn)練算法工作原理如算法1 所示。

    EDAP 原型系統(tǒng)輸入訓(xùn)練數(shù)據(jù)集,傳輸?shù)剿惴?程序中進(jìn)行訓(xùn)練執(zhí)行,生成DLNN 模型參數(shù)文件,訓(xùn)練的超參數(shù)由系統(tǒng)設(shè)定的組合自動(dòng)選擇一套最優(yōu)的參數(shù)。多個(gè)邊緣側(cè)的數(shù)據(jù)集匯聚后的大樣本數(shù)據(jù)集的訓(xùn)練過程在云端完成,模型保存在云端,并且定期將模型下發(fā)到邊緣側(cè)。在云端模型參數(shù)的基礎(chǔ)上,邊緣側(cè)根據(jù)自身采集的數(shù)據(jù)集基于遷移學(xué)習(xí)方式進(jìn)行優(yōu)化模型訓(xùn)練,該過程在邊緣計(jì)算節(jié)點(diǎn)完成,并在邊緣管理節(jié)點(diǎn)保存邊緣模型文件。

    EDAP 原型系統(tǒng)的邊緣智能預(yù)測(cè)通過遷移學(xué)習(xí)技術(shù)來實(shí)現(xiàn),如圖3 所示的EDAP 原型系統(tǒng)原理架構(gòu),首先基于云端服務(wù)器集群的基礎(chǔ)數(shù)據(jù)集訓(xùn)練一個(gè)基礎(chǔ)模型,將重要特征遷移到邊緣側(cè)目標(biāo)模型,并以邊緣計(jì)算節(jié)點(diǎn)上收集的目標(biāo)標(biāo)注數(shù)據(jù)集進(jìn)行建模訓(xùn)練。在云端預(yù)先訓(xùn)練一個(gè)大規(guī)模通用預(yù)訓(xùn)練模型;然后通過遷移學(xué)習(xí)方式在邊緣集群結(jié)合本地?cái)?shù)據(jù)集與邊緣計(jì)算節(jié)點(diǎn)資源進(jìn)行輕量級(jí)的目標(biāo)模型訓(xùn)練和部署。EDAP 原型系統(tǒng)能夠顯著降低DLNN 深度學(xué)習(xí)模型在網(wǎng)絡(luò)邊緣訓(xùn)練的資源消耗,能夠大幅減少網(wǎng)絡(luò)通信量和計(jì)算資源消耗。

    圖3 EDAP 原型系統(tǒng)原理架構(gòu)

    4 實(shí)驗(yàn)結(jié)果分析

    本文設(shè)計(jì)了5 個(gè)實(shí)驗(yàn)來驗(yàn)證邊緣大數(shù)據(jù)分析方法的有效性和性能。實(shí)驗(yàn)平臺(tái)為:(1)云端服務(wù)器20 臺(tái),每個(gè)節(jié)點(diǎn)的配置為16 核CPU,32 GB 內(nèi)存和2 TB高速硬盤存儲(chǔ)空間;(2)邊緣節(jié)點(diǎn)30 個(gè),每個(gè)節(jié)點(diǎn)的物理配置是4 核低功耗CPU,8 GB 內(nèi)存和200 GB 固態(tài)硬盤;(3)軟件包括Linux 系統(tǒng)以及scikit-learn 和PyTorch 機(jī)器學(xué)習(xí)與深度學(xué)習(xí)框架,Python 3 編程語言。

    本文實(shí)驗(yàn)對(duì)比的數(shù)據(jù)包括:(1) 訓(xùn)練樣本為59 307張圖片標(biāo)注數(shù)據(jù)集(image datasets),共10 類標(biāo)簽,存儲(chǔ)在圖片鍵值存儲(chǔ)系統(tǒng);(2) 310 297 條結(jié)構(gòu)化金融行為標(biāo)注數(shù)據(jù)集(structured financial datasets),共10 類標(biāo)簽,存儲(chǔ)在對(duì)象關(guān)系數(shù)據(jù)庫中。測(cè)試評(píng)估樣本為28 963 張標(biāo)注圖片數(shù)據(jù)集,120 393 條結(jié)構(gòu)化數(shù)據(jù)集。

    4.1 邊緣側(cè)大數(shù)據(jù)訓(xùn)練的性能效率

    本實(shí)驗(yàn)使用結(jié)構(gòu)化數(shù)據(jù)集訓(xùn)練隨機(jī)森林(random forest,RF)算法模型,使用圖片數(shù)據(jù)集訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)CNN 算法模型。比較的實(shí)驗(yàn)環(huán)境包括云端(Cloud)和邊緣側(cè)協(xié)同(Edge-Cloud) 訓(xùn)練隨機(jī)森林和卷積神經(jīng)網(wǎng)絡(luò)模型的性能效率,并且驗(yàn)證了訓(xùn)練學(xué)習(xí)的性能效率與邊云集群節(jié)點(diǎn)規(guī)模的擴(kuò)展性。訓(xùn)練性能的實(shí)驗(yàn)結(jié)果如圖4 所示,RF Cloud 表示云端訓(xùn)練隨機(jī)森林,RF Edge-Cloud 表示邊緣側(cè)協(xié)同訓(xùn)練隨機(jī)森林;CNN Cloud 表示云端訓(xùn)練CNN 模型,CNN Edge-Cloud 表示邊緣側(cè)協(xié)同訓(xùn)練CNN 模型。

    圖4 云端和邊緣側(cè)分別訓(xùn)練隨機(jī)森林和卷積神經(jīng)網(wǎng)絡(luò)模型的性能效率

    4.2 邊緣側(cè)大數(shù)據(jù)分析模型的精度評(píng)估結(jié)果

    本文運(yùn)用測(cè)試樣本數(shù)據(jù)集對(duì)邊緣側(cè)RF 和CNN兩類算法模型進(jìn)行實(shí)驗(yàn)評(píng)估,評(píng)估指標(biāo)均使用準(zhǔn)確率(Precision,P),召回率(Recall,R) 和F1 值,RF 和CNN 模型文件生成后調(diào)用預(yù)測(cè)接口加載測(cè)試樣本,將每個(gè)樣本的預(yù)測(cè)值和實(shí)際值進(jìn)行比較,統(tǒng)計(jì)得出評(píng)估指標(biāo)值。如圖5 所示實(shí)驗(yàn)結(jié)果如下。

    圖5 邊緣側(cè)和云端訓(xùn)練的模型測(cè)試評(píng)估結(jié)果

    (1) RF Cloud 模型的P 值、R 值和F1 值分別為91.83%、93.27%、92.54%;

    (2) RF Edge-Cloud 模型的P 值、R 值和F1 值分別為97.35%、98.32%、97.83%;

    (3) CNN Cloud 模型的P 值、R 值和F1 值分別為93.78%、95.27%、94.52%;

    (4) CNN Edge-Cloud 模型的P 值、R 值和F1 值分別為96.58%、96.37%、96.47%。

    從圖5 展示的模型評(píng)估結(jié)果可以看出,邊云協(xié)同訓(xùn)練的算法模型,RF 模型和CNN 模型其準(zhǔn)確率、召回率和F1 值均比純?cè)贫擞?xùn)練模型的預(yù)測(cè)效果要更好,模型的準(zhǔn)確度提升了3%~9%,在特定場(chǎng)景下訓(xùn)練出來的模型AUC 評(píng)估指標(biāo)值由72.6%提升到了99.6%。邊云協(xié)同訓(xùn)練模型的準(zhǔn)確度均在96%以上,而且邊緣側(cè)模型的泛化能力很好,驗(yàn)證數(shù)據(jù)集上泛化誤差均小于2%。

    4.3 不同方法訓(xùn)練模型任務(wù)的網(wǎng)絡(luò)通信與I/O 讀寫性能測(cè)試結(jié)果

    本文設(shè)計(jì)實(shí)驗(yàn)對(duì)比純?cè)贫擞?xùn)練模型和邊云協(xié)同訓(xùn)練模型任務(wù)的網(wǎng)絡(luò)通信與I/O 讀寫量,如圖6 所示,邊云協(xié)同訓(xùn)練(Edge Cloud) 方法比純?cè)贫?Cloud Only)訓(xùn)練方法的網(wǎng)絡(luò)通信量與I/O 讀寫量總和平均減少了93.7%。在大數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)算法訓(xùn)練任務(wù)中,網(wǎng)絡(luò)傳輸與I/O 讀寫的時(shí)間占整個(gè)訓(xùn)練時(shí)間的比重通常比較大,因此邊云協(xié)同訓(xùn)練方法優(yōu)化了網(wǎng)絡(luò)與I/O 讀寫性能,訓(xùn)練任務(wù)執(zhí)行時(shí)間降低了3.78 倍,大幅提升了訓(xùn)練性能和效率。

    圖6 不同訓(xùn)練方法的網(wǎng)絡(luò)通信量與I/O 讀寫量性能比較

    4.4 模型預(yù)測(cè)任務(wù)在不同環(huán)境并發(fā)訪問量下的響應(yīng)性能結(jié)果

    本文基于純?cè)贫谁h(huán)境和邊云協(xié)同環(huán)境設(shè)計(jì)了不同并發(fā)訪問量場(chǎng)景下的模型預(yù)測(cè)任務(wù),實(shí)驗(yàn)結(jié)果如圖7 所示。在10~160 個(gè)并發(fā)用戶請(qǐng)求模型預(yù)測(cè)場(chǎng)景下,邊云協(xié)同方法比純?cè)贫朔椒ǖ牟l(fā)訪問響應(yīng)時(shí)間降低了5.78~7.35 倍,邊云協(xié)同預(yù)測(cè)方法的平均請(qǐng)求響應(yīng)時(shí)間均在10 ms 以內(nèi),因此對(duì)移動(dòng)應(yīng)用端使用模型預(yù)測(cè)具有很好的實(shí)用性。

    圖7 模型預(yù)測(cè)任務(wù)在不同環(huán)境并發(fā)訪問量下請(qǐng)求響應(yīng)性能比對(duì)

    5 結(jié)論

    綜上所述,邊云協(xié)同大數(shù)據(jù)分析建模方法能夠有效提升海量數(shù)據(jù)集的訓(xùn)練效率、預(yù)測(cè)性能和預(yù)測(cè)準(zhǔn)確率。在大數(shù)據(jù)應(yīng)用中海量異構(gòu)多源的結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)和圖片數(shù)據(jù)集分布在各個(gè)數(shù)據(jù)中心,可以通過邊云協(xié)同建模方法進(jìn)行統(tǒng)一建模,形成邏輯上集中大數(shù)據(jù)分析平臺(tái)和統(tǒng)一的分析預(yù)測(cè)模型調(diào)用服務(wù)平臺(tái)。隨著邊緣計(jì)算、云計(jì)算和大數(shù)據(jù)分析的進(jìn)一步融合,邊緣智能和云端智能將是支撐泛在智能分析應(yīng)用的重要基石。未來邊云智能協(xié)同架構(gòu)、算力調(diào)度、高速互聯(lián)、邊云AI 模型自動(dòng)設(shè)計(jì)、分布式AI 模型機(jī)制等也將是重要的研究方向。

    猜你喜歡
    云端邊緣樣本
    用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
    云端之城
    推動(dòng)醫(yī)改的“直銷樣本”
    美人如畫隔云端
    一張圖看懂邊緣計(jì)算
    隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
    行走在云端
    初中生(2017年3期)2017-02-21 09:17:43
    云端創(chuàng)意
    村企共贏的樣本
    在邊緣尋找自我
    雕塑(1999年2期)1999-06-28 05:01:42
    锡林浩特市| 恩平市| 昌平区| 微博| 宜丰县| 民权县| 砚山县| 黑水县| 千阳县| 鸡西市| 象山县| 清流县| 平度市| 宜昌市| 青岛市| 富顺县| 和林格尔县| 横山县| 临漳县| 福安市| 安仁县| 衢州市| 靖安县| 周口市| 昭觉县| 固始县| 肃宁县| 岳普湖县| 保亭| 马山县| 仁化县| 文山县| 沐川县| 沈阳市| 永福县| 启东市| 临泉县| 广宁县| 垣曲县| 西城区| 金堂县|