• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多尺度相位聚合軌跡表示的出行方式識別模型

      2023-10-17 05:50:16張馳顧益軍
      計(jì)算機(jī)工程 2023年10期
      關(guān)鍵詞:令牌高維特征提取

      張馳,顧益軍

      (中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京 100038)

      0 概述

      出行方式識別是指從給定的軌跡數(shù)據(jù)模型中推斷出用戶的出行方式,如步行、跑步、騎行、自駕、乘坐公交車和乘坐出租車。通過對出行分布方式的推斷,交通管理機(jī)構(gòu)能夠制定適當(dāng)策略緩解市民出行壓力、交通擁堵及空氣污染。

      近些年,機(jī)器學(xué)習(xí)方法被廣泛應(yīng)用于建立識別模型,并在出行方式識別方面起到了一定的作用,如K近鄰(KNN)[1]、支持向量機(jī)(SVM)[2-3]、決策樹(DT)[4]、隨機(jī)森林(RF)[2,5]和神經(jīng)網(wǎng)絡(luò)(多層感知機(jī)網(wǎng)絡(luò)[6-7]、卷積神經(jīng)網(wǎng)絡(luò)[8-10]、循環(huán)神經(jīng)網(wǎng)絡(luò)[11]等),其中支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林方法應(yīng)用較為廣泛。值得注意的是:一些研究利用隨機(jī)森林方法實(shí)現(xiàn)有效的出行方式分類;另一些研究將其他方法與隨機(jī)森林方法相結(jié)合進(jìn)行性能評估[12-14]。文獻(xiàn)[12-14]研究結(jié)果表明,在多數(shù)場景中,隨機(jī)森林方法通常能夠獲得最好或次好的評估性能。詹益旺等[15]將BIRCH 算法改進(jìn)為多閾值聚類算法(M-BIRCH),并與DBSCAN 相結(jié)合形成一種動態(tài)閾值聚類挖掘方法。李喆等[16]提出一種基于支持向量機(jī)的出行方式識別模型,利用粒子群算法優(yōu)化支持向量機(jī)參數(shù)進(jìn)行出行方式識別。但文獻(xiàn)[15-16]機(jī)器學(xué)習(xí)方法使用特征工程學(xué)方法提取特征作為輸入,通常需要一個復(fù)雜的特征提取過程,不適用于數(shù)據(jù)豐富的應(yīng)用環(huán)境。

      基于深度學(xué)習(xí)的軌跡挖掘方法往往能夠在較大數(shù)據(jù)量的環(huán)境中取得更好的效果。FANG等[7]開發(fā)一種基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的智能手機(jī)用戶出行方式識別模型,模型輸入軌跡被表示為固定大小的向量,DNN 模型的優(yōu)勢是可以自動從輸入向量中學(xué)習(xí)重要的高維特征。另外,在許多出行方式預(yù)測方案中已經(jīng)驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)擅長捕捉局部特征依賴關(guān)系[17-19]。DABIRI等[9]將每個軌跡表示為一個固定大小的矩陣,開發(fā)一個CNN 網(wǎng)絡(luò)來學(xué)習(xí)局部特征和時空相關(guān)性。DABIRI等[8]提出一種半監(jiān)督的卷積自動編碼結(jié)構(gòu)(SECA),根據(jù)GPS 軌跡并聯(lián)合有監(jiān)督和無監(jiān)督兩種方式來識別用戶出行方式。郭茂祖等[20]將CNN 網(wǎng)絡(luò)與GRU 網(wǎng)絡(luò)相結(jié)合,在通過CNN 網(wǎng)絡(luò)捕捉局部特征依賴關(guān)系的同時,利用GRU 網(wǎng)絡(luò)捕捉長序列間的語義關(guān)聯(lián),從而更好地識別用戶出行方式。YAZDIZADEH等[10]訓(xùn)練多個CNN 模型作為一組基礎(chǔ)學(xué)習(xí)器,并優(yōu)化所使用的每個基礎(chǔ)學(xué)習(xí)器的參數(shù),將平均投票數(shù)、投票總數(shù)等參數(shù)融入隨機(jī)森林模型。實(shí)驗(yàn)結(jié)果表明,集成模型性能會優(yōu)于單獨(dú)的CNN 模型,并且隨機(jī)森林模型可以更好地處理多種異構(gòu)的模型結(jié)果。但是上述方法僅關(guān)注數(shù)據(jù)的局部屬性而忽略軌跡數(shù)據(jù)中的全局信息,因此為了提取更精準(zhǔn)的局部特征,要求GPS 數(shù)據(jù)具有較短的采樣時間間隔和統(tǒng)一的采樣率。

      SOARES等[21]通過插入額外的傳感器(加速度計(jì)、陀螺儀等)來提供更多屬性特征,并探索了利用降維特征工程與基于自動機(jī)器學(xué)習(xí)(AutoML)的超參數(shù)優(yōu)化方式,在降低成本的前提下提高識別精度,但這種插入額外傳感器的工作方式限制了模型的實(shí)際使用范圍。

      在現(xiàn)實(shí)工作環(huán)境中提高GPS 采樣率或者插入更多傳感器會導(dǎo)致用戶移動設(shè)備的能耗大幅提高,從而極大降低用戶體驗(yàn),并且在現(xiàn)實(shí)應(yīng)用環(huán)境中難以對所有數(shù)據(jù)采集設(shè)備制定統(tǒng)一的參數(shù),因此采樣數(shù)據(jù)常常有著不同采樣率,這也對目前已有的出行方式識別模型的準(zhǔn)確率帶來更多的干擾。為了降低出行方式識別工作對高采樣率的依賴并降低由采樣率的不同帶來的干擾,本文提出基于多尺度相位聚合-深層神經(jīng)決策森林(Multi-scale Phase Aggregationdeep Neural Decision Forests,MPA-NDF)的出行方式識別模型。通過特征提取層分別提取原始軌跡數(shù)據(jù)中的局部和全局特征生成令牌,利用卷積的方法提取時空信息。使用相位檢測令牌混合(Phase-Aware Token Mixing,PATM)算法[22]從屬性的高維特征中捕捉關(guān)鍵特征來發(fā)現(xiàn)軌跡中的潛在信息,利用令牌間的相位關(guān)系相互聚合獲得令牌間的相關(guān)性,增加分類準(zhǔn)確度。采用深層神經(jīng)決策森林算法[23]作為最終分類器,提高分類結(jié)果的準(zhǔn)確率。

      1 相關(guān)定義

      對于原始GPS 軌跡數(shù)據(jù),為了獲取其中有效信息,需要提取數(shù)據(jù)文件中的用戶軌跡及其中的統(tǒng)計(jì)學(xué)特征。

      定義1 用戶軌跡是連續(xù)的GPS 點(diǎn)序列,即T={p1,p2,…,p|T|}(|T|表示用戶軌跡的總長度),每個軌跡點(diǎn)具有緯度、經(jīng)度和時間戳3 個屬性,即pi=的每條軌跡都與一種出行方式相關(guān)。

      定義2 軌跡段是軌跡T的子序列,將從i到j(luò)的軌跡段表示為Ti,j={pi,pi+1,…,pj}(i<j),在之后的步驟中將劃分用戶軌跡為k個子段以得到子軌跡。

      定義3設(shè)di,i+1表示為兩個GPS 軌跡點(diǎn)pi和pi+1間的直線距離,設(shè)ti,i+1表示pi和pi+1間的時間差,因此計(jì)算pi和pi+1間的局部速度為vi,i+1=di,i+1/ti,i+1。同樣地,在軌跡段Ti,j中的平均速度為vi,j=,相鄰速度差為Δvi,i+1=vi+1-vi。

      定義4 計(jì)算點(diǎn)pi和pi+1間的速度變化量為Δvi,i+1=vi+1-vi,計(jì)算軌跡中的 局部加速度特征表示為ai=Δvi,i+1/ti,i+1。

      定義5 加速度變化率為兩相鄰點(diǎn)間的加速度變化量與時間差的比值,且兩點(diǎn)間加速度的變化量為Δai,i+1=ai+1-ai,則加速度變化率表示為jpi=Δai,i+1/ti,i+1。

      定義6設(shè)點(diǎn)pi到pj的方向?yàn)闉橥被蛘戏较虻膴A角,則方位角變化率Bpi可表示如下:

      定義7 特征序列是使用特征工程學(xué)方法從用戶軌跡或軌跡段中取其中相鄰的2 個或3 個GPS 點(diǎn)(數(shù)量由屬性計(jì)算方法決定)計(jì)算出屬性特征,通過軌跡原有的時間順序排列得到的序列表示為A={a1,a2,…,an},其中,a表示屬性特征標(biāo)量。

      定義8 通過計(jì)算特征序列中屬性特征的期望值aavg、中位數(shù)amed、最大值amax等統(tǒng)計(jì)學(xué)指標(biāo),提取相應(yīng)軌跡數(shù)據(jù)中的出行特征,所得統(tǒng)計(jì)學(xué)指標(biāo)被稱為出行特征值。

      2 基于MPA-NDF 的出行方式識別模型

      本文提出的基于MPA-NDF 的出行方式識別模型結(jié)構(gòu)如圖1 所示。首先,為了降低模型對采樣率的依賴,使用一種多尺度特征提取方法,分別提取局部和全局屬性的出行特征值組成出行特征向量(稱為令牌)構(gòu)成出行特征矩陣,所提取屬性包括行駛速度、加速度、加速度變化率和方位角變化率等。局部出行特征矩陣中每個行向量包含了對應(yīng)軌跡段中相應(yīng)空間特征,同時各向量依照原有時間順序排列,使得出行特征矩陣保留了軌跡原有的時空分布特點(diǎn)。然后,引入卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出行特征矩陣中潛在的空間和時間特征,利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)感受野映射范圍內(nèi)數(shù)據(jù)相關(guān)性和高維特征的特點(diǎn),合理調(diào)整感受野范圍,使得到的出行特征矩陣的高維表示中每個元素都包含了對應(yīng)向量的時空信息,以此達(dá)到提取屬性出行特征矩陣中時空特征的目的。通過相位檢測令牌混合層學(xué)習(xí)軌跡長序列間的相位關(guān)系。最后,將得到的軌跡表示送入深層神經(jīng)決策森林層,確定用戶出行方式。具體而言,模型共由3 個主要部分組成:1)特征提取層,包括局部特征提取和全局特征提取兩部分,局部特征提取部分通過將軌跡劃分為不同尺度的軌跡段,并提取每個尺度上的局部屬性特征形成出行特征向量,全局特征提取部分針對整個用戶軌跡提取全局屬性出行特征值,形成全局出行特征向量,所構(gòu)成的兩種向量被視作令牌,通過卷積神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)其中高維特征;2)相位檢測令牌混合層,通過將CNN 提取的高維特征引入相位檢測令牌混合層進(jìn)行相位特征檢測與聚合,從而檢測不同出行方式的長序列異質(zhì)性特征;3)深層神經(jīng)決策森林層,以相位檢測令牌混合層的降維表示作為輸入,由包含一組深度神經(jīng)決策樹的神經(jīng)決策森林組成,準(zhǔn)確識別出行方式。

      圖1 基于MPA-NDF 的出行方式識別模型結(jié)構(gòu)Fig.1 Structure of travel mode identification model based on MPA-NDF

      2.1 軌跡特征提取層

      局部和全局特征提取層如圖2 所示。為了提取軌跡中隱藏的有效特征,采用卷積神經(jīng)網(wǎng)絡(luò)和全連接層組成的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為特征提取層的主要結(jié)構(gòu)。首先構(gòu)建局部和全局出行特征向量,然后使用卷積和全連接層提取它們的隱藏特征。

      圖2 局部和全局特征提取層結(jié)構(gòu)Fig.2 Structure of local and global feature extraction layers

      2.1.1 局部特征提取層

      局部特征提取層的輸入數(shù)據(jù)是用戶軌跡T={p1,p2,…,p|T|},從用戶軌跡中獲得對應(yīng)出行特征向量,即速度、加速度、加速度變化率、方位角變化率4種屬性的出行特征向量。首先,將用戶軌跡T={p1,p2,…,pi,…,p|T|}(0 <i≤|T|)平均劃分成不同粒度的k個等長軌跡段(k=4,6,8),每個子段中分別計(jì)算相鄰兩個點(diǎn)間的局部屬性,在用戶軌跡中每個子軌跡段的局部特征序列被表示為(0 ≤m<k),其中,a表示一種屬性的出行特征值,m表示在k個軌跡段中的第m個子段。然后,計(jì)算局部特征序列中相鄰兩項(xiàng)之差得到,并求中每個出行特征值的絕對值得到分別滿足最后,針對每個分別提取這3 種特征序列中的平均值、中位數(shù)和最大值共9 個元素,依次填充到第m個子段所對應(yīng)的9 維出行特征行向量中。總體而言,局部出行特征向量從對應(yīng)屬性的局部特征序列中提取出行特征值構(gòu)成,局部特征序列由被切分成的不同粒度的軌跡段計(jì)算得到。將由同一個軌跡段對應(yīng)的出行特征向量按原有順序排列形成用戶軌跡局部出行特征矩陣,表示為出行特 征矩陣xk∈Rk×9可以表示子軌跡段中的局部特征信息的二維分布矩陣,其中每個行向量被稱為一個令牌。令牌由卷積和全連接操作提取其中高維時空特征。

      在局部特征中,不同分段有著不同程度的重要性,分段之間的差異性和出行特征向量在時間維度上的分布特點(diǎn)是出行方式識別的一種高維特征。例如,自駕和乘坐公交車這兩種出行方式雖然在速度、加速度等表象特征上具有較高的一致性,使得兩種出行方式不容易區(qū)分,但對整個軌跡而言,由于包含公交車和地鐵在內(nèi)的公共交通需要在車站??浚瑫a(chǎn)生大量周期性的停留點(diǎn),而其他出行方式的速度等特征分布會更加平穩(wěn),使得區(qū)分這些出行方式成為可能。利用卷積神經(jīng)網(wǎng)絡(luò)和全連接層自動學(xué)習(xí)時空高維特征,設(shè)置卷積核尺寸包含相鄰行向量,即有,其中,*表示卷積 操作,s表示第s個卷積核和分別表示卷積神經(jīng)網(wǎng)絡(luò)的卷積核參數(shù)和偏置,且有(α表示卷積核的大小,取α=2),非線性激活單元ReLU 用作激活函數(shù)為卷積層加入非線性運(yùn)算單元。不同卷積核產(chǎn)生的列向量被連接產(chǎn)生最終輸出,其輸出結(jié)果為,其中,c表示卷積核的總數(shù)。輸出結(jié)果將被送入一個包含60 個神經(jīng)元的全連接層中,以提取更高緯度的信息并調(diào)整輸出形狀。該層最終得到局部特征提取結(jié)果,表示為

      通過上述特征提取過程,分別提取4 種屬性的局部出行特征矩陣,最終輸出結(jié)果是一個包含4 種屬性的局部出行特征矩陣,其中,SP、ACC、JK 和BR 分別表示速度、加速度、加速度變化率和方位角變化率4 種屬性。

      2.1.2 全局特征提取層

      由于僅依靠局部特征不能很好地識別不同出行方式在宏觀上的差異性,因此需要通過從樣本中抽取全局屬性特征來表達(dá)這種宏觀特征。所提取屬性包括速度、加速度、方位角變化率和全局時空特征。

      在提取全局速度特征前,首先需要計(jì)算的是GPS 點(diǎn)之間的平均局部屬性值ai,i+1(0 <i≤|T|-1),由此得到整個軌跡序列的特征序列。全局出行特征向量是從已計(jì)算完成的特征序列中抽取9 個出行特征值構(gòu)建而成,即xD∈R1×9,其中,下標(biāo)D 表示全局出行特征向量的屬性,即D ∈{SP,ACC,BR,ST},ST 表示軌跡全局時空特征。每個向量同樣稱為一個令牌。該向量包含9 個元素,每個元素分別代表一個出行特征值,其中前4 個元素分別為整個軌跡局部屬性的平均值aavg、中位數(shù)amed、最大值amax和整個序列的標(biāo)準(zhǔn)差astd,后5 個元素計(jì)算需要首先將序列按照從大到小順序排列,表示為AD={a1,a2,…,a|T|-1},再分別將長度乘以預(yù)設(shè)百分?jǐn)?shù)值(取10%、25%、50%、75%和90%),向下取整得到出行特征向量中元素在整個軌跡序列中的索引,表示為a10%、a25%、a50%、a75%和a90%。以a10%為例,在特征序列AD中的索引可表示為其中表示向下取整。最終得到的全局出行特征向量表示為xD={aavg,amed,amax,astd,a10%,a25%,a50%,a75%,a90%}。

      按照上述描述計(jì)算得到速度、加速度和方位角變化率3 種出行特征向量。值得注意的是,由于本文研究的是在GPS 采樣率較為稀疏情況下得到的軌跡數(shù)據(jù),此時全局加速度變化率屬性并沒有較好的區(qū)分度,因此在全局特征序列提取過程中,沒有加速度變化率的特征提取過程,取而代之的是提取當(dāng)前軌跡的全局時空特征得到的全局出行特征向量。全局時空出行特征向量包括軌跡的總路程、軌跡全程經(jīng)歷的總時間、軌跡起始時間點(diǎn)(不含日期,精確到h)和出行當(dāng)天星期幾4 種全局時空特征。

      全局特征提取的高維特征提取方式與局部特征提取相似,將提取的令牌送入卷積神經(jīng)網(wǎng)絡(luò)得到并同樣將所得向量送入全連接層,得到高維特征表示為因此,全部屬性的出行特征向量被提取后,最終得到全局特征提取層輸出為

      2.1.3 屬性高維特征提取

      把多軸系統(tǒng)簡化成單軸系,把阻轉(zhuǎn)轉(zhuǎn)矩Mf折算至變頻電動機(jī)軸上為Mr,此時把Mr看作等效的阻轉(zhuǎn)轉(zhuǎn)矩。將計(jì)算軸作為計(jì)算基準(zhǔn)點(diǎn),以確保系統(tǒng)的功率傳輸關(guān)系和機(jī)械總動能一定為折算原則,將系統(tǒng)轉(zhuǎn)動慣量化為兩部分:變頻電機(jī)端轉(zhuǎn)動慣量的和標(biāo)記為JⅠ;靠低速軸側(cè)的轉(zhuǎn)動慣量之和記作JⅡ[4],如圖2(b)所示。

      在出行方式識別工作中,學(xué)習(xí)不同的屬性間的關(guān)系可以給出行方式分類工作提供更高的準(zhǔn)確率。例如,在汽車行駛過程中,在有較多轉(zhuǎn)彎路段行駛時方位角變化率增大的同時常伴隨減速過程,而步行等出行方式不會有明顯減速,這可以有效區(qū)分多種不同的出行方式,因此通過引入高維特征提取層來獲取這種特征。如圖3 所示,輸入數(shù)據(jù)被表示為xL,G=xL⊕xG。

      圖3 屬性高維特征提取層結(jié)構(gòu)Fig.3 Structure of attribute high-dimensional feature extraction layer

      考慮到提取輸入數(shù)據(jù)高維特征的需要,首先將卷積神經(jīng)網(wǎng)絡(luò)特征映射至高維空間,即有其中l(wèi)表示第l個卷積核。采用的高維特征提取由兩層卷積神經(jīng)網(wǎng)絡(luò)層組成,每層卷積核表示為,其中c為本層輸入數(shù)據(jù)的通道數(shù),兩層卷積神經(jīng)網(wǎng)絡(luò)的卷積核數(shù)量分別為β和β×2。卷積神經(jīng)網(wǎng)絡(luò)輸出結(jié)果最終表示為xL,G,Conv。在每層卷積神經(jīng)網(wǎng)絡(luò)操作后,將結(jié)果送入一個自適應(yīng)平均池化函數(shù)以完成高維特征的下采樣,并調(diào)整輸出矩陣的維度。最終得到的高維特征提取層輸出矩陣可以被認(rèn)為是一個包含相位信息的令牌組成的軌跡表示矩陣。因此,需要使用相位檢測令牌混合算法通過學(xué)習(xí)其中的信息來獲得令牌間的相位關(guān)系。

      2.2 相位檢測令牌混合層

      對于軌跡數(shù)據(jù)而言,卷積神經(jīng)網(wǎng)絡(luò)只能學(xué)習(xí)相鄰令牌間的短序列特征關(guān)系,但令牌間的長序列相關(guān)性同樣是影響出行方式分類結(jié)果的重要因素。為了動態(tài)調(diào)整神經(jīng)網(wǎng)絡(luò)中令牌與固定權(quán)重的關(guān)系,獲得令牌間的相位關(guān)系,更好地捕獲軌跡的長序列間的相關(guān)性特征,引入相位感知令牌混合層。如圖4所示,該結(jié)構(gòu)的輸入為經(jīng)過上一層的卷積神經(jīng)網(wǎng)絡(luò)編碼后得到的輸出xL,G,Conv(β×2 表示其編碼后的通道數(shù))。將每個輸入的令牌視為一個既有振幅又有相位的波,用以動態(tài)調(diào)整識別模型中令牌與固定權(quán)重間的關(guān)系,更好地聚合令牌。

      圖4 相位檢測令牌混合層結(jié)構(gòu)Fig.4 Structure of phase-aware token mixing layer

      在之前模塊中提取的令牌可表示為具有振幅和相位的信息波:

      其中:i 表示為滿足i2=-1 的虛部;|·|表示絕對值運(yùn)算;⊙表示哈達(dá)瑪積;|xj|表示令牌振幅,是令牌內(nèi)容的實(shí)值特征;eiθj是一個周期函數(shù),元素總是具有單位范數(shù),θj表示相位,是令牌在周期內(nèi)的當(dāng)前位置。利用振幅和相位得到每個令牌在復(fù)數(shù)域中的投影。

      當(dāng)不同令牌疊加時相位θj將調(diào)整它們的疊加模式。設(shè)表示波函數(shù)表示的令牌疊加結(jié)果,則其振幅|xr|和相位θr可以表示如下:

      在式(5)中定義了復(fù)數(shù)域中的波狀令牌表示,為了將其嵌入神經(jīng)網(wǎng)絡(luò)體系中,該波狀令牌將歐拉公式展開,其結(jié)果以實(shí)部和虛部的形式表示,具體如下:

      在上述函數(shù)中,波表示令牌被視為兩個實(shí)值向量,分別表示實(shí)數(shù)部分和虛數(shù)部分,不同的令牌通過全連接層相互疊加形成新的令牌表示,具體如下:

      其中:Wt和Wi都是可學(xué)習(xí)的參數(shù)。在式(10)中相位θk可以根據(jù)輸入的數(shù)據(jù)的語義動態(tài)調(diào)整,因此θk同樣設(shè)置為可學(xué)習(xí)的參數(shù),以便于通過數(shù)據(jù)動態(tài)調(diào)整波狀令牌的相位檢測過程。

      綜上,在出行方式檢測過程中引入一個相位感知令牌混合模塊來執(zhí)行上述過程,由給定令牌送入卷積層得到輸出而來的軌跡表示矩陣,訓(xùn)練通道全連接層和相位檢測模塊生成振幅|xj|和相位θj,由波狀令牌以式(8)的方式展開并最終由式(10)相互疊加聚合生成輸出。通過將送入另外一個通道全連接層以增強(qiáng)表達(dá)能力,從而獲得最終的輸出。

      2.3 深層神經(jīng)決策森林層

      為了盡可能有效地利用已經(jīng)提取的高維軌跡表示矩陣,采用一種包含多個相互堆疊的神經(jīng)決策樹的深層神經(jīng)決策森林層作為分類器。為了降低計(jì)算成本、提升效率及排除冗余信息,在樣本被送入深層神經(jīng)決策森林層前需要做降維處理。

      將特征提取層的輸出和相位檢測令牌混合層輸出相連接得到本層輸入。由于當(dāng)前輸入矩陣中的每個元素都包含其對應(yīng)令牌的聚合信息,因此使用一個4 層的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為降維層,并且每2 層卷積層后加入一個自適應(yīng)平均池化函數(shù)得到樣本下采樣輸出。前2 層卷積核大小為16×1,卷積核數(shù)量分別為β和β/2;后2 層卷積核大小分別為2×1 和1×1,卷積核數(shù)量為β/4 和1。4 層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)均采用ReLU 函數(shù)作為激活函數(shù)。

      決策樹由決策節(jié)點(diǎn)(或分裂節(jié)點(diǎn),表示為N)和預(yù)測節(jié)點(diǎn)(或葉子節(jié)點(diǎn),表示為L)組成。每個預(yù)測節(jié)點(diǎn)l∈L都持有一個概率分布πl(wèi)。每個決策節(jié)點(diǎn)n∈N都持有一個由參數(shù)Θ決定路由策略的決策函數(shù)dn(x;Θ):X→[0,1]。在隨機(jī)路由的情況下,葉子節(jié)點(diǎn)的預(yù)測結(jié)果為到達(dá)葉子節(jié)點(diǎn)的期望值。因此,對于樣本x而言,樹T基于參數(shù)Θ的預(yù)測結(jié)果如下:

      其中:π=(πl(wèi))l∈L并且πl(wèi)表示樣本到達(dá)葉子節(jié)點(diǎn)l并被分類為y的概率;μl(x|Θ)表示樣本x到達(dá)葉子節(jié)點(diǎn)l的概率路由函數(shù)分別表示決策樹節(jié)點(diǎn)中的兩條分叉路徑;1p是以自變量p為條件的指示符函數(shù)。

      決策樹以隨機(jī)方式選擇從內(nèi)部節(jié)點(diǎn)到葉子節(jié)點(diǎn)以確保模型的可微性,隨機(jī)路徑的路由函數(shù)dn(x;Θ)定義如下:

      其中:fn(x;Θ)是一個由樣本x的參數(shù)Θ決定的實(shí)值函數(shù),通過嵌入函數(shù)fn來賦予深度森林特征學(xué)習(xí)能力。

      綜上,由森林F={T1,T2,…,Tτ}(τ表示森林中樹的總數(shù))輸出的分類結(jié)果最終概率分布是其構(gòu)成的平均概率分布,可表示如下:

      決策樹對可學(xué)習(xí)參數(shù)Θ(葉子節(jié)點(diǎn)層之前的路徑的影響參數(shù))和π(葉子節(jié)點(diǎn)的預(yù)測概率)的估計(jì)需要通過反向傳播算法求得。對于給定的數(shù)據(jù)集Γ而言,其整體最終損失函數(shù)可表示如下:

      其中:L(Θ,π;x,y)表示訓(xùn)練樣本對標(biāo)簽的損失函數(shù)。

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 實(shí)驗(yàn)設(shè)置

      3.1.1 環(huán)境設(shè)置

      實(shí)驗(yàn)運(yùn)行環(huán)境為GPU NVIDIA Tesla V100-SXM2-32 GB,操作系統(tǒng)為Windows 10 64位,開發(fā)環(huán)境為PyTorch 3.8。實(shí)驗(yàn)數(shù)據(jù)采用GeoLife 軌跡數(shù)據(jù)集[8,24]。

      3.1.2 數(shù)據(jù)處理

      僅考慮步行、騎行、乘坐公交車、自駕、乘坐軌道交通5 種出行方式。規(guī)定了軌跡內(nèi)兩點(diǎn)間最大時間間隔,如果兩個連續(xù)的GPS 點(diǎn)之間的時間間隔超過預(yù)先設(shè)定的閾值M,則劃分用戶的GPS 軌跡為多個子段。每段GPS 序列僅包含一個交通標(biāo)簽,因此軌跡將在出行方式轉(zhuǎn)換處斷開。GeoLife 軌跡數(shù)據(jù)集所包含信息如表1 所示。

      表1 GeoLife 軌跡數(shù)據(jù)集信息Table 1 Information of GeoLife trajectory dataset

      受數(shù)據(jù)采集設(shè)備的影響,GeoLife 數(shù)據(jù)集樣本中存在較多由噪聲、誤差等原因產(chǎn)生的錯誤值、離群點(diǎn)。為了盡可能刪除錯誤樣本的影響,設(shè)定以下過濾規(guī)則:1)刪除軌跡序列中時間戳大于其后一個軌跡點(diǎn)的樣本;2)設(shè)置每種出行方式的速度和加速度上限,如表2 所示。計(jì)算樣本中每個軌跡點(diǎn)與前一個軌跡點(diǎn)間的平均速度,并刪除超出速度上限的軌跡點(diǎn)。

      表2 每種出行方式的速度和加速度上限Table 2 Upper limits of speed and acceleration for each travel mode

      為了去除GeoLife 數(shù)據(jù)集樣本中所存在的噪聲干擾,引入Savitzky-Golay 濾波器[25]處理經(jīng)規(guī)則過濾后的軌跡數(shù)據(jù)。Savitzky-Golay 濾波器是一種低通濾波器,其主要思想是使每個樣本點(diǎn)在以該點(diǎn)為中心的奇數(shù)大小的窗口內(nèi)用高次多項(xiàng)式進(jìn)行最小二乘擬合,從而得到更加平滑的用戶軌跡。

      由于在GeoLife 數(shù)據(jù)集中,軌跡的GPS 采樣率較高,其中多數(shù)采樣時間間隔約為1 s,為了探索模型在低頻采樣率數(shù)據(jù)上的性能,對每個軌跡重新采樣,使得連續(xù)點(diǎn)間的時間間隔至少為rs,并在低頻重采樣數(shù)據(jù)集上完成對比實(shí)驗(yàn)。

      3.1.3 模型參數(shù)設(shè)置

      將高維特征提取層中定義的卷積核數(shù)量β和決策森林中樹的數(shù)量和樹的高度設(shè)置為超參數(shù),用于探索模型最佳結(jié)構(gòu)。將軌跡片段切分為至多200 個軌跡點(diǎn)的軌跡段,并分別提取局部和全局特征送入不同超參數(shù)的模型中,確定模型的最佳結(jié)構(gòu)。為了探索最佳的模型結(jié)構(gòu),使用原始高頻采樣數(shù)據(jù)集作為實(shí)驗(yàn)樣本,而低頻混合重采樣數(shù)據(jù)集會在與基線模型的對比實(shí)驗(yàn)中使用,以對比不同模型在不同采樣率狀況下的表現(xiàn)。

      對于高維特征提取層從淺層網(wǎng)絡(luò)開始,逐漸增加層數(shù),選擇最佳的高維特征提取層結(jié)構(gòu),其中卷積核設(shè)置為1×3,激活函數(shù)設(shè)置為ReLU 函數(shù),池化層設(shè)置為自適應(yīng)平均池化函數(shù),以保持其輸出結(jié)果和輸入每個通道的樣本尺寸相同。將NDF 層森林中樹的數(shù)量和高度設(shè)置為80 和10。測試不同β值對高維特征提取結(jié)構(gòu)的影響,如表3 所示。

      表3 不同β 值對高維特征提取結(jié)構(gòu)的影響Table 3 Influence of different β values on the structure of high-dimensional feature extraction

      同樣地,對于NDF 層需要確定決策森林中樹的最佳數(shù)量和每棵樹的最佳高度。在測試過程中設(shè)置β=32,結(jié)果如表4 所示。

      表4 不同β 值對NDF 結(jié)構(gòu)的影響Table 4 Influence of different β values on the structure of NDF

      綜上可知,所提模型的最佳網(wǎng)絡(luò)結(jié)構(gòu)為:在CNN 層中β=32,即CNN 層由32 個卷積核和64 個卷積核的2 個網(wǎng)絡(luò)結(jié)構(gòu)組成,NDF 層由高度為10 的80 顆樹組成。

      3.2 結(jié)果分析

      為了模擬現(xiàn)實(shí)情況下不同設(shè)備具有不同采樣率的狀況,與探索MPA-NDF 最佳網(wǎng)絡(luò)結(jié)構(gòu)所使用的訓(xùn)練集不同,使用3 種低頻重采樣數(shù)據(jù)。數(shù)據(jù)集分別劃分為訓(xùn)練集和測試集,劃分比例分別為8∶2,并把劃分后的訓(xùn)練集混合打亂重組后形成新的訓(xùn)練集,訓(xùn)練后的模型將在不同的低頻重采樣數(shù)據(jù)集中測試得到結(jié)果。低頻重采樣時間間隔r分別設(shè)置為10、20、30 s,分別表示重采樣后的軌跡點(diǎn)間隔時間不低于10、20 和30 s 的3 種不同的測試集。

      基線模型將采用出行方式檢測文獻(xiàn)中廣泛使用的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,包括K 近鄰、支持向量機(jī)、決策樹、多層感知機(jī)、隨機(jī)森林、CNN[8]模型。以往文獻(xiàn)中最優(yōu)的手動提取特征方法[4,26]被應(yīng)用于K 近鄰、支持向量機(jī)、決策樹、多層感知機(jī)機(jī)器學(xué)習(xí)模型,提取的特征包括GPS 段的總距離、平均速度、速度期望值、速度變化量、軌跡中前3 個速度、前3 個加速度、方位角變化率、出行方式??柯屎退俣茸兓省T陔S機(jī)森林、CNN 深度學(xué)習(xí)模型中,同樣使用在所提模型中的速度、加速度、加速度變化率、方位角變化率5 種特征屬性作為輸入,以便模型自動提取對應(yīng)高維特征。為了防止模型過擬合,當(dāng)訓(xùn)練集和測試集誤差達(dá)到5%則停止訓(xùn)練,并使用已得到的表現(xiàn)最好的權(quán)重參數(shù)作為模型參數(shù)進(jìn)行對比實(shí)驗(yàn)。通過將所提模型獲得的預(yù)測準(zhǔn)確率與上述基線模型進(jìn)行比較來評估總體性能,結(jié)果如表5 所示。

      表5 不同出行方式識別模型對比Table 5 Comparison of different travel mode identification model %

      由表5 可知,由于不同采樣率的干擾,因此基線模型在不同采樣率的數(shù)據(jù)集上的識別準(zhǔn)確率表現(xiàn)出不同程度的擾動,具體表現(xiàn)為在低頻重采樣數(shù)據(jù)集的較高采樣率的樣本(r=10 s)上的識別準(zhǔn)確率大幅度下降。所提模型在所有低頻重采樣數(shù)據(jù)上均具有最好的表現(xiàn),相比于傳統(tǒng)機(jī)器學(xué)習(xí)模型具有更好的抗干擾能力和更高的識別準(zhǔn)確度,并且識別結(jié)果優(yōu)于傳統(tǒng)人工提取特征學(xué)習(xí)和單一深度神經(jīng)網(wǎng)絡(luò)模型。

      4 結(jié)束語

      本文提出一種基于MPA-NDF 的出行方式檢測模型。通過預(yù)設(shè)規(guī)則切分用戶軌跡得到軌跡段,使用特征工程學(xué)方法提取軌跡段中屬性特征,并從屬性特征中獲得局部和全局出行特征向量(即令牌),通過將令牌按照用戶軌跡原有時間順序排列得到出行特征矩陣。引入卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和PATM 層分別提取行特征矩陣中的時空特征與相位特征,完成對用戶軌跡的多尺度相位聚合軌跡表示。最終使用NDF 層作為分類器,得到相應(yīng)的出行方式識別結(jié)果。實(shí)驗(yàn)結(jié)果表明,所提模型相較于基線模型在低頻重采樣數(shù)據(jù)集上表現(xiàn)更加出色。后續(xù)將利用更多類型的位置數(shù)據(jù)(如手機(jī)信令數(shù)據(jù)),完成出行方式檢測工作,并解決更多用戶的出行方式識別問題,進(jìn)一步擴(kuò)展模型適用場景。

      猜你喜歡
      令牌高維特征提取
      稱金塊
      基于路由和QoS令牌桶的集中式限速網(wǎng)關(guān)
      一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      動態(tài)令牌分配的TCSN多級令牌桶流量監(jiān)管算法
      基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
      Bagging RCSP腦電特征提取算法
      一般非齊次非線性擴(kuò)散方程的等價變換和高維不變子空間
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      高維Kramers系統(tǒng)離出點(diǎn)的分布問題
      库伦旗| 东乌珠穆沁旗| 体育| 简阳市| 改则县| 灵山县| 邵阳县| 宜都市| 大冶市| 柏乡县| 洪泽县| 蓬溪县| 黑水县| 克山县| 大邑县| 安泽县| 旌德县| 广德县| 鹤峰县| 平遥县| 锡林郭勒盟| 普定县| 高陵县| 靖江市| 驻马店市| 阿拉善左旗| 安图县| 宜兴市| 金平| 临清市| 罗山县| 禹城市| 富锦市| 青海省| 乐山市| 蒙阴县| 双辽市| 师宗县| 潍坊市| 巴里| 宁津县|