張成龍
(茅臺學院釀酒工程自動化系,貴州遵義564500)
基于旅游大數(shù)據(jù)的數(shù)據(jù)降維方法分析與研究
張成龍
(茅臺學院釀酒工程自動化系,貴州遵義564500)
當前,大數(shù)據(jù)技術(shù)在金融、貿(mào)易、和醫(yī)療健康等行業(yè)得到了較好的應用,但在旅游領(lǐng)域的應用還處于起步階段。該文首先對旅游大數(shù)據(jù)的特點進行了簡要的分析,針對這些數(shù)據(jù)特點系統(tǒng)總結(jié)分析了旅游大數(shù)據(jù)降維方法,并詳細介紹了當前應用最為廣泛的幾種數(shù)據(jù)降維方法,深入分析、比較了不同降維方法的優(yōu)缺點,最后提出了數(shù)據(jù)降維技術(shù)仍待解決的問題與今后的研究方向。
旅游大數(shù)據(jù);數(shù)據(jù)降維;主成分分析;拉普拉斯特征映射
近年來,隨著我國“互聯(lián)網(wǎng)+”發(fā)展戰(zhàn)略的提出,旅游行業(yè)得到大力發(fā)展,信息技術(shù)等高端技術(shù)在旅游產(chǎn)業(yè)廣泛應用,各大景區(qū)景點管理監(jiān)測系統(tǒng)不斷完善,以及同城旅游、飛豬等相關(guān)旅游APP的應用推廣,這些系統(tǒng)應用通過記錄與游客相關(guān)文本、圖像、音頻、視頻數(shù)據(jù),產(chǎn)生并積累了大量的旅游數(shù)據(jù)[1],這些數(shù)據(jù)組成類別多樣,同時還存在強非線性、樣本分布不均、低信噪比、高維度等特點,由于這些數(shù)據(jù)與傳統(tǒng)意義上的數(shù)據(jù)有很大的不同之處,因此在進行旅游數(shù)據(jù)的分析處理過程中,我們要根據(jù)不同數(shù)據(jù)的特點采取不同的技術(shù)方法。
數(shù)據(jù)降維技術(shù)是當前對大數(shù)據(jù)進行分析的最常用的方法,其目的是通過線性或非線性映射將樣本從高維空間映射到低維空間。對旅游行業(yè)來說,其主要的數(shù)據(jù)來源是旅游系統(tǒng)、應用不斷儲存積累記錄的與游客相關(guān)的文本、圖像、聲音、視頻等數(shù)據(jù),這些數(shù)據(jù)普遍具有高維性。如果用傳統(tǒng)的數(shù)據(jù)處理方法對數(shù)據(jù)進行處理往往會存在“維數(shù)災難”[2]與“空空間現(xiàn)象”[3]等問題,因此對旅游行業(yè)產(chǎn)生的數(shù)據(jù)進行降維處理就成了旅游大數(shù)據(jù)分析的一個重要步驟和組成部分。
目前大量國內(nèi)外研究學者提出了許多降維方法,單純從技術(shù)層面上講,降維方法可以分為線性以及非線性兩種類別,因此本文從兩種不同分類類別出發(fā),詳細闡述了現(xiàn)有幾種經(jīng)典降維方法以及它們之間的區(qū)別,并對所述方法進行系統(tǒng)分析比較,最后針對待解決的問題提出自己的觀點。
主成分分析方法[5](Principal Component Analysis),也被稱為PCA算法。它是最早開始使用的線性降維方法,該算法通過構(gòu)建樣本協(xié)方差矩陣進行特征提取,可以快速有效完成樣本數(shù)據(jù)的處理、壓縮和提取。
假設(shè)數(shù)據(jù)空間RD中的一個具有N個樣本的樣本集{Xi},樣本點的維度為d,協(xié)方差矩陣為M。其算法實現(xiàn)步驟如下:
Step 1:將樣本集表示成矩陣形式,并對矩陣進行歸一化處理。
Step 2:計算協(xié)方差矩陣,并求出對應的特征值及特征向量。
Step 3:降序排列特征值對應的特征向量,取前k行組成新矩陣M。
Step 4:計算Y=MX,Y即為降到k維后的低維數(shù)據(jù)。
盡管PCA算法被人們所廣泛使用,但PCA算法還是有一定的局限。第一,作為一種線性降維技術(shù)它不適用于非線性結(jié)構(gòu)數(shù)據(jù)分析;第二,當前還沒有精準可靠的方法代替過往經(jīng)驗,用來確定主成分保留程度。
線性判別分析法(Linear Discriminant Analysis),也被稱為LDA算法。作為一種經(jīng)典的模式識別算法,該算法主要采取映射實現(xiàn)原始數(shù)據(jù)到低維空間的投影,最大化不同類別的樣本點的類間距離,同時最小化同類別的樣本點的類內(nèi)距離。
其算法實現(xiàn)步驟如下:
Step 1:輸入原始數(shù)據(jù),并進行各類別的均值向量;
Step 2:針對輸入原始數(shù)據(jù),根據(jù)Step 1求解均值向量,分別計算樣本點總距離、類間距離、類內(nèi)距離;
Step 3:根據(jù)各類內(nèi)距離,構(gòu)建總體類內(nèi)距離的逆矩陣,并進行投影向量和閾值計算;
Step 4:完成原始數(shù)據(jù)到低維空間的投影。
LDA算法是一種高效的特征提取方法,相比較PCA算法,該算法在進行降維過程中針對樣本點進行信息標注,為樣本點分類提供明確的方向,可以更加有效的保證在高維數(shù)據(jù)空間下,實現(xiàn)不同類別數(shù)據(jù)在低維空間中的最佳分離。
當前環(huán)境下,數(shù)據(jù)結(jié)構(gòu)更加復雜,為了能夠針對高維數(shù)據(jù)中的非線性結(jié)構(gòu)數(shù)據(jù)進行處理,需要采用非線性方法進行數(shù)據(jù)降維,目前非線性數(shù)據(jù)降維方法主要分為基于核的非線性算法和基于流行學習的非線性算法兩種類別。
基于核的非線性方法能夠有效避免“維數(shù)災難”,減少降維運算的計算量,該算法主要通過引入核函數(shù)將樣本數(shù)據(jù)從原始空間映射到更高維的特征空間,進而采取現(xiàn)有的線性降維方法對高維空間數(shù)據(jù)進行降維[7]。我們可以理解為基于核的非線性降維方法是通過核函數(shù)實現(xiàn)對線性降維方法的擴展。
以核主成分分析法(Kernel Principal Component Analysis,KPCA)為例,我們可以將KPCA算法看成是PCA算法對于非線性結(jié)構(gòu)數(shù)據(jù)的推廣,其主要思想是把輸入數(shù)據(jù)X經(jīng)過一個非線性映射φ(X)映射到特征空間R,然后在特征空間中執(zhí)行線性PCA算法。此方法雖然在一定程度上起到非線性降維的作業(yè),但由于其本質(zhì)仍是在高維特征空間利用線性方法降維,所以有時在面對非線性結(jié)構(gòu)的數(shù)據(jù)時仍然無法處理,并且對起降維關(guān)鍵作用的核矩陣的設(shè)計目前仍然處于研究階段。
隨著對降維理論方法的不斷研究與探索,在實際應用領(lǐng)域人們逐漸發(fā)現(xiàn),現(xiàn)實問題中的許多高維數(shù)據(jù),往往具有內(nèi)在的低維流行結(jié)構(gòu),并且通過觀測發(fā)現(xiàn)這些高維數(shù)據(jù)其實往往只受幾個內(nèi)在約束變量控制。
例如對于某一對象X進行觀測,得到D個觀測變量(x1,x2,…,xD),對這些觀測變量而言其內(nèi)部僅由D個因素決定。這樣觀測n次,我們就能得到D維空間中的n個數(shù)據(jù)點,X=[x1,x2,…,xn]由于其內(nèi)在參數(shù)只有D維,因此這n個觀測數(shù)據(jù)將在D維的觀測空間中形成低維流行。通過對這D維流行的研究有助于對觀測對象X的影響因素進行了解。近年來許多專家學者針對流行學習算法進行了綜述,其中最為常用的基于流形學習的經(jīng)典算法拉普拉斯特征映射算法。
黃山云海攝影 鄧根寶
拉普拉斯特征映射(Laplacian Eigenmap),簡稱LE,它是由Bekin和Niyogi二人提出的一種基于局部的算法[8-9]。其思想是通過保持數(shù)據(jù)的局部性來發(fā)掘潛在的流行結(jié)構(gòu),也即高維空間中相互接近的點在低維的嵌入空間應該比較接近。此算法來源于圖譜理論,通過數(shù)據(jù)樣本及相鄰樣本間的邊構(gòu)成一個拉普拉斯圖,嵌入映射就通過求解拉普拉斯映射的特征向量得到,算法過程如下:
Step 1:構(gòu)造鄰域圖,主要是構(gòu)造邊系數(shù),如果兩個樣本點間是“接近的”,就在這兩個數(shù)據(jù)樣本間設(shè)置一條邊,否則兩個數(shù)據(jù)樣本間就不存在邊。
Step 2:計算拉普拉斯圖的邊系數(shù),即如果節(jié)點i與節(jié)點j之間存在一條邊,則Wij=1,否則Wij=0。
Step3:計算嵌入結(jié)果,為保持局部性,在低維空間中用各個樣本的近鄰重構(gòu)樣本數(shù)據(jù),使得在原始空間中相近的點,在低維嵌入空間中也比較接近,最小化以下目標函數(shù)如式1:
其中L被稱為拉普拉斯算子。L的特征向量近似等同于標準LEE算法中求M=(I-W)T(I-W)的特征向量。
數(shù)據(jù)降維方法的實施效率與算法的復雜度大小、參數(shù)選擇息息相關(guān),其中算法的時間復雜度以及空間復雜度大小直接關(guān)系到算法的可行性;算法的參數(shù)選擇影響到算法的穩(wěn)定性。因此本文分別從算法的數(shù)據(jù)集要求、參數(shù)設(shè)置、時間復雜度以及空間復雜度對上述各類降維算法進行分析對比。
數(shù)據(jù)降維方法的復雜度主要由樣本點的個數(shù)n、樣本原始維數(shù)D、目標維數(shù)d以及算法涉及的參數(shù)如近鄰點個數(shù)k和迭代次數(shù)協(xié)同決定。
數(shù)據(jù)降維算法的參數(shù)主要存在于非線性算法中,其主要參數(shù)為近鄰點數(shù)k與樣本目標維數(shù)d。
對于數(shù)據(jù)降維線性方法PCA算法和LDA算法,協(xié)方差矩陣時間復雜度為O(Dn),D×D協(xié)方差矩陣特征分析時間復雜度為O(D3);對于數(shù)據(jù)降維非線性方法KPCA算法,KPCA時間復雜度為O(Dn2),n×n矩陣特征分析時間復雜度為O(n3)。
拉普拉斯特征映射算法與KPCA算法相似,同樣需要對n×n矩陣進行特征分析,由于基于流形學習的非線性方法,其n×n矩陣為稀疏矩陣,降低了矩陣特征分析的時間復雜度,其時間復雜度為O(Pn2),同時對拉普拉斯建立稀疏的鄰近圖計算需要時間復雜度O(Dn logn),計算拉普拉斯高斯核需要O(PnD),其中P表示稀疏矩陣中非零元和零元的比率。
綜上所述,各算法對比情況如表1。
表1 各算法參數(shù)對比
本文針對旅游大數(shù)據(jù)分析中的數(shù)據(jù)降維方法進行了全面的總結(jié),并從待處理數(shù)據(jù)的性質(zhì)與幾何角度對幾種典型的數(shù)據(jù)降維方法進行了分類闡述、詳細比較??偨Y(jié)得出現(xiàn)存數(shù)據(jù)降維方法的缺點如下:
1)現(xiàn)存非線性數(shù)據(jù)降維方法實際應用效果較差,甚至效率低于傳統(tǒng)的非線性算法,因此對于非線性數(shù)據(jù)降維方法有待繼續(xù)深入研究;
2)基于核的數(shù)據(jù)降維方法其性能相較于傳統(tǒng)的數(shù)據(jù)降維方法有所提升,但是對與該方法的關(guān)鍵技術(shù)-核矩陣的設(shè)計還沒有一種明確的設(shè)計方法,需要后續(xù)繼續(xù)研究;
3)流形學習的提出為數(shù)據(jù)降維提供了非常有利的框架,但是它們大多都為局部方法,因此這類算法受噪音影響大,特別是面對低信噪比的旅游數(shù)據(jù)時,影響尤為明顯,如何減少噪音的干擾、提高算法的精度也是今后研究的一個重要方向。
[1]劉強,秦泗釗.過程工業(yè)大數(shù)據(jù)建模研究展望[J].自動化學報,2016(2):161-171.
[2]Bellman R.Adaptive Control Processes:A Guided Tour[M].Princeton,New Jersey:Princeton University Press,1961.
[3]Scott D,Thompson J.Probability density estimation in higher dimensions[C].In Proceedings of the 15thSymposium on the Interface Computer Science and Statistics,1983:173-179.
[4]吳曉婷,閆德勤.數(shù)據(jù)降維方法分析與研究[J].計算機應用研究,2009(8):2832-2835.
[5]李榮雨.基于PCA的統(tǒng)計過程監(jiān)控研究[D].杭州:浙江大學,2007.
[6]Kruskal A J.Linear discriminant[M]//Modern Multivariate Statistical Techniques.Springer New York,2013:237-280.
[7]詹宇斌.流形學習理論與方法及其應用研究[D].長沙:國防科學技術(shù)大學,2011.
[8]劉海紅,周聰輝.半監(jiān)督拉普拉斯特征映射算法[J].計算機工程與設(shè)計,2012(2):601-606.
[9]Zhang Z,Zha H.Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment[M].Society for Industrial and Applied Mathematics,2005.
[10]Zhang Z,Zha H.Linear low-rank approximation and nonlinear dimensionality reduction[J].Science China Mathematics,2004,47(6):908-920.
[11]Zhan Y,Yin J.Robust local tangent space alignment via iterativeweighted PCA[J].Neurocomputing,2011,74(11):1985-1993.
TP311 文獻標識碼:A 文章編號:1672-7517(2017)07-0097-03
2017-06-12
2017-06-25
張成龍(1992—),男,山東棗莊人,碩士,研究方向為大數(shù)據(jù)分析,多源數(shù)據(jù)融合與集成。