吳紅
(首都經(jīng)濟(jì)貿(mào)易大學(xué),北京 100070)
基于移動(dòng)互聯(lián)網(wǎng)的數(shù)據(jù)挖掘概述
吳紅
(首都經(jīng)濟(jì)貿(mào)易大學(xué),北京 100070)
隨著移動(dòng)互聯(lián)網(wǎng)的不斷發(fā)展,海量移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)不斷涌現(xiàn),由于數(shù)據(jù)本身的價(jià)值,針對(duì)移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)的挖掘更為重要。分析了移動(dòng)互聯(lián)網(wǎng)信息價(jià)值,介紹了數(shù)據(jù)挖掘以及LBS在數(shù)據(jù)挖掘中的應(yīng)用,最后從數(shù)據(jù)量、安全性和數(shù)據(jù)質(zhì)量三方面對(duì)移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)存在的問題進(jìn)行了闡述。
移動(dòng)互聯(lián)網(wǎng) 數(shù)據(jù)挖掘 信息價(jià)值 LBS
隨著各種移動(dòng)設(shè)備、物聯(lián)網(wǎng)和云存儲(chǔ)等技術(shù)的發(fā)展,人和物的所有軌跡都可以被記錄。與互聯(lián)網(wǎng)不同的是,在移動(dòng)互聯(lián)網(wǎng)中的核心網(wǎng)絡(luò)節(jié)點(diǎn)是人,不再是網(wǎng)頁。隨著數(shù)據(jù)大爆炸時(shí)代的到來,怎樣挖掘這些數(shù)據(jù),同樣面臨著技術(shù)與商業(yè)的雙重挑戰(zhàn)。對(duì)于數(shù)據(jù)挖掘來說,移動(dòng)互聯(lián)網(wǎng)的特殊性首先在于它能夠鎖定一個(gè)特定用戶,其次在于它能夠獲取用戶地理位置信息,再次是在于移動(dòng)互聯(lián)網(wǎng)上的時(shí)空信息等多樣化的數(shù)據(jù)種類。而因?yàn)檫@三點(diǎn),導(dǎo)致移動(dòng)互聯(lián)網(wǎng)上的數(shù)據(jù)數(shù)量會(huì)比傳統(tǒng)互聯(lián)網(wǎng)更大,形式也比傳統(tǒng)互聯(lián)網(wǎng)更加豐富,從而也有更高的價(jià)值。
2.1 移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)形式
移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)形式多種多樣,在互聯(lián)網(wǎng)上存在的各種數(shù)據(jù)類型只是移動(dòng)互聯(lián)網(wǎng)上的一個(gè)子集。同樣的互聯(lián)網(wǎng)信息,在移動(dòng)端訪問的方式也使內(nèi)容變得更加豐滿。同樣是都是圖片,但是在移動(dòng)設(shè)備中存在的與位置相關(guān)的圖片要比單存在于互聯(lián)網(wǎng)上的圖片價(jià)值高很多,或者說同樣都是一句評(píng)論,但是有場(chǎng)景的評(píng)論和場(chǎng)景的評(píng)論相比前者更有挖掘的價(jià)值。
與傳統(tǒng)互聯(lián)網(wǎng)的數(shù)據(jù)不同的是,在移動(dòng)互聯(lián)網(wǎng)的數(shù)據(jù)中,文字以外的其他信息占到更加重要的比例。從數(shù)據(jù)的屬性上來講,移動(dòng)互聯(lián)網(wǎng)上的數(shù)據(jù)比傳統(tǒng)互聯(lián)網(wǎng)更加復(fù)雜,其中一個(gè)原因是這些數(shù)據(jù)包含了大量的時(shí)間和空間的信息,也就是需要把數(shù)據(jù)挖掘延伸到時(shí)空數(shù)據(jù)挖掘的領(lǐng)域(Spatio-temporal Data Mining)。因?yàn)槎嗔艘粋€(gè)維度,時(shí)空數(shù)據(jù)挖掘的復(fù)雜度比一般的數(shù)據(jù)挖掘又深了一層,雖然說研究方法和算法還是類似的。
2.2 移動(dòng)用戶價(jià)值
從本質(zhì)上,在移動(dòng)互聯(lián)網(wǎng)上的挖掘的目的和傳統(tǒng)互聯(lián)網(wǎng)數(shù)據(jù)挖掘的目的是一樣的:都是為了從原始數(shù)據(jù)上找出有用的信息,進(jìn)而轉(zhuǎn)化成可用的知識(shí)。但移動(dòng)互聯(lián)網(wǎng)有其特殊性,即移動(dòng)互聯(lián)網(wǎng)的某一個(gè)終端通常是由同一個(gè)個(gè)體使用的,所以用戶在移動(dòng)終端上的所有行為是具有一定延續(xù)性的,通過收集用戶信息,可以建立用戶檔案(Profile)。
在移動(dòng)互聯(lián)網(wǎng)上,即使沒有Cookie,依然可以鎖定用戶,即使因?yàn)殡[私和用戶規(guī)則等原因,我們不主動(dòng)獲取用戶的個(gè)人信息資料,但至少可以知道用戶是否和之前的某個(gè)訪客是同一個(gè)個(gè)體。這樣能夠通過移動(dòng)互聯(lián)網(wǎng)應(yīng)用獲取用戶當(dāng)前的位置信息和參加活動(dòng)的一些信息,并把這些信息記錄收集下來,從而積累成關(guān)于某個(gè)用戶的豐富檔案信息。這些信息積累將是一大筆財(cái)富,從一些位置信息中可以分析出用戶的大概活動(dòng)范圍,經(jīng)常出差還是常住,甚至可以預(yù)測(cè)用戶此刻需要什么。
2.3 移動(dòng)互聯(lián)網(wǎng)地理位置信息價(jià)值
通過分析移動(dòng)互聯(lián)網(wǎng)的數(shù)據(jù),可以真正實(shí)現(xiàn)用戶的行為定向,通過用戶使用各種應(yīng)用的習(xí)慣與場(chǎng)景,還原用戶屬性,了解用戶興趣和喜好,預(yù)測(cè)用戶消費(fèi)習(xí)慣和消費(fèi)意圖,實(shí)現(xiàn)真正的精準(zhǔn)定向。基于移動(dòng)互聯(lián)網(wǎng)地理位置信息,可以推薦針對(duì)某一人群的服務(wù),比如可以再節(jié)假日之前提供北京往返機(jī)票和優(yōu)惠禮品券,在平時(shí)提供商務(wù)人員需要的個(gè)性化產(chǎn)品等。
LBS(Location-Based Service)是與位置相關(guān)的軟件服務(wù)的英文縮寫,指的是一類利用和控制與位置與時(shí)間相關(guān)的計(jì)算機(jī)軟件服務(wù)。LBS通常是在移動(dòng)終端實(shí)現(xiàn)的,現(xiàn)在很多原本只是在互聯(lián)網(wǎng)上的應(yīng)用都有了LBS服務(wù)?;谖恢玫臄?shù)據(jù)挖掘非常具有挑戰(zhàn)力,如幫助用戶尋找他所在地附近可能有用的商業(yè)地點(diǎn),并按照一定的規(guī)則排序,實(shí)現(xiàn)并不那么容易。
任何與位置相關(guān)的數(shù)據(jù)挖掘的工作必不可少的第一步就是搜集關(guān)于地點(diǎn)的可靠數(shù)據(jù)。在這個(gè)過程中,常會(huì)面對(duì)多個(gè)不同的數(shù)據(jù)源,有些來自互聯(lián)網(wǎng),而有些來自于線下,所以第一步面臨的常常就是數(shù)據(jù)的整合與清理。與位置相關(guān)的數(shù)據(jù)量常是在GB字節(jié)上下,對(duì)于這個(gè)量級(jí)的數(shù)據(jù)頻繁的整理、提取、集成和存儲(chǔ)都有一定的難度,但目前有一些框架和應(yīng)用工具解決此問題,如Hadhoop和HBase等。各個(gè)地點(diǎn)之間的關(guān)聯(lián)性是需要通過數(shù)據(jù)挖掘才能完成的任務(wù)。每個(gè)地點(diǎn)都有多種屬性,而地點(diǎn)之間的關(guān)聯(lián)度是根據(jù)他們各自的屬性匹配所得到的。目前有一些相關(guān)挖掘領(lǐng)域及算法,如利用PU(Learning from Positive and Unlabeled examples)學(xué)習(xí)算法做文本挖掘,利用相似匹配算法做地點(diǎn)挖掘等。
LBS應(yīng)用最有價(jià)值的地方在于藉此能夠?qū)τ脩糇鼍珳?zhǔn)的地域定向,這樣的廣告價(jià)值相對(duì)要高很多。如一家餐館可以對(duì)它周圍1公里的用戶發(fā)送折扣券,一個(gè)搬家公司可以選擇對(duì)它周圍10公里的用戶發(fā)送廣告,等等。
移動(dòng)互聯(lián)網(wǎng)有它的特殊性,而移動(dòng)互聯(lián)網(wǎng)上的數(shù)據(jù)除了它的特殊價(jià)值之外,也有和傳統(tǒng)互聯(lián)網(wǎng)不完全相同的問題。下面從數(shù)據(jù)量、安全性和數(shù)據(jù)質(zhì)量三方面分別介紹了移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)存在的問題。
4.1 數(shù)據(jù)量
移動(dòng)互聯(lián)網(wǎng)可能產(chǎn)生的數(shù)據(jù)量是一個(gè)需要考慮的問題。據(jù)統(tǒng)計(jì),在中國,2012年約有不到6億移動(dòng)互聯(lián)網(wǎng)用戶,其中有約1.8億是手機(jī)應(yīng)用商店的使用者,而且這個(gè)數(shù)字正在飛速增長之中。每個(gè)用戶產(chǎn)生的所有數(shù)據(jù),包括即時(shí)的位置信息、路徑信息、訪問信息等都需要實(shí)時(shí)分析,那么處理數(shù)據(jù)過程的負(fù)擔(dān)就加大。
4.2 安全性
互聯(lián)網(wǎng)安全性一直是關(guān)注的熱點(diǎn),那么移動(dòng)互聯(lián)網(wǎng)上的安全因素也需要考慮和解決。在移動(dòng)互聯(lián)網(wǎng)上有很多惡意的應(yīng)用程序,這些應(yīng)用程序侵入用戶的移動(dòng)設(shè)備來竊取個(gè)人信息。另外,移動(dòng)終端和個(gè)人身份信息密切相關(guān),在移動(dòng)互聯(lián)網(wǎng)上更加要重視個(gè)人隱私問題。
4.3 數(shù)據(jù)質(zhì)量
移動(dòng)互聯(lián)網(wǎng)的數(shù)據(jù)價(jià)值顯而易見,但數(shù)據(jù)質(zhì)量卻令人擔(dān)憂。移動(dòng)互聯(lián)網(wǎng)行業(yè)結(jié)構(gòu)目前并不明朗,盈利模式也不清晰。大量的移動(dòng)應(yīng)用通過刷量來沖擊移動(dòng)互聯(lián)網(wǎng)應(yīng)用排行榜以追求投資人的青睞。大量移動(dòng)互聯(lián)網(wǎng)公司付費(fèi)給水軍來給自己的移動(dòng)應(yīng)用發(fā)五星好評(píng),給競(jìng)爭對(duì)手的應(yīng)用打一星差評(píng)。這些數(shù)據(jù)所占據(jù)的比例過高,已經(jīng)嚴(yán)重干擾了數(shù)據(jù)的準(zhǔn)確性,而這些行為實(shí)際上大大降低了移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)的整體價(jià)值。所以提高數(shù)據(jù)質(zhì)量問題不容忽視。
移動(dòng)互聯(lián)網(wǎng)不斷發(fā)展,從而產(chǎn)生大量數(shù)據(jù),海量數(shù)據(jù)中包含著重要信息,對(duì)各行業(yè)都有不可估量的價(jià)值。本文分析了移動(dòng)互聯(lián)網(wǎng)信息價(jià)值,介紹了數(shù)據(jù)挖掘以及LBS在數(shù)據(jù)挖掘中的應(yīng)用,最后從數(shù)據(jù)量、安全性和數(shù)據(jù)質(zhì)量三方面對(duì)移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)存在的問題進(jìn)行了闡述?;谝苿?dòng)互聯(lián)網(wǎng)的數(shù)據(jù)挖掘意義重大,本文希望能為以后在移動(dòng)互聯(lián)網(wǎng)方面針對(duì)數(shù)據(jù)挖掘的研究打下一定的基礎(chǔ)。
[1]Goh,Jen and Taniar,David.An Efficient Mobile Data Mining Model:Parallel and Distributed Processing and Applications. Springer Berlin,2005.
[2]趙占純,李濤,戚帥.移動(dòng)互聯(lián)網(wǎng)信息挖掘的實(shí)現(xiàn)及應(yīng)用淺析[J].郵電設(shè)計(jì)技術(shù).2012(8).
[3]Nafiseh Shabib,John Krogstie.The use of data mining techniques in location-based recommender system.in Processing WIMS’11 Proceedings of the International Conference on Web Intelliengence,Mining and Semantics,2011.
[4]梁曉音.2012年中國移動(dòng)互聯(lián)網(wǎng)應(yīng)用趨勢(shì)預(yù)測(cè)[J].硅谷,2012(16).
[5]蔡梓鏵.2012年移動(dòng)互聯(lián)網(wǎng)初探[J].軟件工程師,2012(Z1).