徐 俊 夏驕雄 周時(shí)強(qiáng)
1(上海廣播電視臺(tái)技術(shù)運(yùn)營(yíng)中心 上海 200051)2(上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院 上海 200444)3(上海市教育委員會(huì)信息中心 上海 200003)
?
數(shù)據(jù)斷層分析在廣播電臺(tái)數(shù)據(jù)處理中的應(yīng)用
徐俊1,2夏驕雄2,3周時(shí)強(qiáng)2
1(上海廣播電視臺(tái)技術(shù)運(yùn)營(yíng)中心上海 200051)2(上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院上海 200444)3(上海市教育委員會(huì)信息中心上海 200003)
隨著大數(shù)據(jù)技術(shù)的不斷升溫,數(shù)據(jù)斷層現(xiàn)象的分析與處理已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域重要的方式與手段。數(shù)據(jù)斷層理論作為描述數(shù)據(jù)對(duì)象之間發(fā)生局部位移趨勢(shì)的分析理論,對(duì)于數(shù)據(jù)預(yù)處理過(guò)程具有十分重要的指導(dǎo)性意義。在初步描述數(shù)據(jù)斷層理論基本概念的基礎(chǔ)上,以上?!皠?dòng)感101”音樂(lè)電臺(tái)的移動(dòng)客戶(hù)端應(yīng)用日志數(shù)據(jù)為例,構(gòu)建數(shù)據(jù)斷層理論分析系統(tǒng)來(lái)處理電臺(tái)數(shù)據(jù)中所存在的數(shù)據(jù)斷層現(xiàn)象,提高了數(shù)據(jù)對(duì)象預(yù)處理的質(zhì)量,得到了有效的電臺(tái)決策輔助信息,從而充分說(shuō)明了數(shù)據(jù)斷層理論的科學(xué)性和有效性,為進(jìn)一步研究奠定了堅(jiān)實(shí)基礎(chǔ)。
數(shù)據(jù)斷層數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理日志數(shù)據(jù)分析移動(dòng)客戶(hù)端應(yīng)用
在大數(shù)據(jù)時(shí)代,眾多信息的迅速傳播正由平面媒體轉(zhuǎn)向以互聯(lián)網(wǎng)為代表的先進(jìn)移動(dòng)終端媒體[1]。通過(guò)把握這一契機(jī),在手機(jī)、平板電腦等移動(dòng)設(shè)備平臺(tái)上開(kāi)發(fā)一系列應(yīng)用程序,并通過(guò)網(wǎng)絡(luò)載體主動(dòng)地推送到用戶(hù)面前,將極大提高人們獲取有用信息的效率。用戶(hù)訪(fǎng)問(wèn)應(yīng)用時(shí),服務(wù)器將產(chǎn)生大量的日志文件,包括用戶(hù)的IP地址、訪(fǎng)問(wèn)時(shí)間、終端類(lèi)型號(hào)等。對(duì)于這些日志文件進(jìn)行數(shù)據(jù)挖掘,可以得到日志數(shù)據(jù)的總體特征,及時(shí)掌握與日志文件產(chǎn)生有關(guān)的應(yīng)用程序使用情況,并可以進(jìn)一步預(yù)測(cè)該應(yīng)用程序未來(lái)的發(fā)展趨勢(shì),從而為決策支持提供支撐[2,3]。
與應(yīng)用程序配套的日志文件信息是按照一定格式存儲(chǔ)的,屬于半結(jié)構(gòu)化的數(shù)據(jù),其中包含著一些不完整的、冗余的、錯(cuò)誤的數(shù)據(jù)。同時(shí),根據(jù)不同用戶(hù)的需求,也有可能存在大量的不相關(guān)數(shù)據(jù)。這些數(shù)據(jù)造成了數(shù)據(jù)斷層現(xiàn)象,對(duì)數(shù)據(jù)挖掘的準(zhǔn)確性有著一定的負(fù)面影響[4]。因此,對(duì)這類(lèi)數(shù)據(jù)斷層進(jìn)行分析和處理,是更好獲取應(yīng)用程序使用情況的有效途徑。
文獻(xiàn)[5]結(jié)合大數(shù)據(jù)環(huán)境,借鑒地質(zhì)學(xué)的理論,首次在數(shù)據(jù)挖掘領(lǐng)域提出數(shù)據(jù)斷層的理論體系。通過(guò)數(shù)據(jù)斷層剖面的分析,系統(tǒng)闡述了數(shù)據(jù)預(yù)處理過(guò)程中的數(shù)據(jù)斷層現(xiàn)象,并給出數(shù)據(jù)斷層在顯隱斷層、內(nèi)間斷層之間相互轉(zhuǎn)化的規(guī)則和算法。初步說(shuō)明了數(shù)據(jù)斷層理論體系的基礎(chǔ)。
定義1數(shù)據(jù)斷層大數(shù)據(jù)環(huán)境中,各個(gè)數(shù)據(jù)對(duì)象之間的性質(zhì)隨著各種主題、結(jié)構(gòu)、時(shí)效屬性等維度變化而變化所產(chǎn)生相關(guān)性描述的具體表象,稱(chēng)為數(shù)據(jù)斷層。
按照不同的分類(lèi)原則,數(shù)據(jù)斷層有不同的分類(lèi)。根據(jù)數(shù)據(jù)斷層的表現(xiàn)形式,可以將其劃分為數(shù)據(jù)顯斷層和數(shù)據(jù)隱斷層。
定義2數(shù)據(jù)顯斷層相對(duì)于大數(shù)據(jù)環(huán)境,常存在于數(shù)據(jù)庫(kù)與數(shù)據(jù)庫(kù)之間,受到主題、結(jié)構(gòu)、時(shí)效等因素影響而發(fā)生變化的數(shù)據(jù)斷層稱(chēng)為數(shù)據(jù)顯斷層。
定義3數(shù)據(jù)隱斷層相對(duì)于大數(shù)據(jù)環(huán)境,常存在于數(shù)據(jù)庫(kù)內(nèi)部,受到結(jié)構(gòu)、成分、數(shù)據(jù)關(guān)系等因素影響而發(fā)生變化的數(shù)據(jù)斷層稱(chēng)為數(shù)據(jù)隱斷層。
本文引入數(shù)據(jù)庫(kù)中的孔隙定義,用于描述造成顯斷層的問(wèn)題數(shù)據(jù)對(duì)象。
定義4孔隙數(shù)據(jù)庫(kù)中存在的各種無(wú)關(guān)用戶(hù)主題的異常數(shù)據(jù)對(duì)象,包括噪聲數(shù)據(jù)對(duì)象、空白數(shù)據(jù)對(duì)象、重復(fù)數(shù)據(jù)對(duì)象等,統(tǒng)稱(chēng)為孔隙。
定義5孔隙度某一特定主題的數(shù)據(jù)資源中,存在的孔隙數(shù)量與數(shù)據(jù)對(duì)象總數(shù)量之間的比值,稱(chēng)為孔隙度。
孔隙度反映數(shù)據(jù)資源中數(shù)據(jù)對(duì)象關(guān)于特定主題的緊密程度。顯然,孔隙度越小,數(shù)據(jù)質(zhì)量越高。事實(shí)上,實(shí)際應(yīng)用中的數(shù)據(jù)庫(kù)所包含的孔隙往往不能完全被消除,在數(shù)據(jù)對(duì)象不斷更新的情況下,對(duì)孔隙的處理只能以盡可能地減少孔隙為目標(biāo),從而減小孔隙對(duì)數(shù)據(jù)對(duì)象分析的影響。為了進(jìn)行正常的數(shù)據(jù)分析和處理工作,必須對(duì)數(shù)據(jù)庫(kù)進(jìn)行孔隙檢測(cè),剔除盡可能多的孔隙。
定義6數(shù)據(jù)壓實(shí)了減小孔隙對(duì)數(shù)據(jù)分析結(jié)果的影響而對(duì)數(shù)據(jù)對(duì)象進(jìn)行各種處理操作的過(guò)程,包括處理空白數(shù)據(jù)對(duì)象、轉(zhuǎn)換格式不一致的數(shù)據(jù)對(duì)象、刪除重復(fù)數(shù)據(jù)對(duì)象等,稱(chēng)為數(shù)據(jù)壓實(shí)。
同樣,對(duì)于隱斷層數(shù)據(jù)對(duì)象,可以將其提取出來(lái)進(jìn)行分析;若是無(wú)用數(shù)據(jù)對(duì)象,則需要使用數(shù)據(jù)壓溶技術(shù)對(duì)數(shù)據(jù)對(duì)象進(jìn)行處理。
定義7數(shù)據(jù)壓溶對(duì)與用戶(hù)需求不相關(guān)的數(shù)據(jù)進(jìn)行處理得到有用信息的過(guò)程稱(chēng)為數(shù)據(jù)壓溶。
廣播電臺(tái)是公共媒介的一種重要表現(xiàn)形式。通常情況下,人們收聽(tīng)電臺(tái)廣播都是通過(guò)傳統(tǒng)方式(即利用無(wú)線(xiàn)電波向一定區(qū)域的聽(tīng)眾傳送聲音節(jié)目信號(hào)方式),利用收音機(jī)等設(shè)備接收信號(hào)[6]。20世紀(jì)90年末期,通過(guò)互聯(lián)網(wǎng)收聽(tīng)廣播電臺(tái)節(jié)目的方式應(yīng)運(yùn)而生[7]。只要在能夠訪(fǎng)問(wèn)互聯(lián)網(wǎng)的地方,用戶(hù)就能夠在計(jì)算機(jī)或者各種先進(jìn)移動(dòng)終端上收聽(tīng)到全世界范圍內(nèi)的廣播電臺(tái)節(jié)目。
本文以“全亞洲頂尖華語(yǔ)音樂(lè)電臺(tái)”——上海“動(dòng)感101”移動(dòng)客戶(hù)端為例,研究用戶(hù)訪(fǎng)問(wèn)的日志數(shù)據(jù),構(gòu)建數(shù)據(jù)斷層理論分析系統(tǒng)來(lái)分析并處理日志中存在的數(shù)據(jù)斷層,獲取有關(guān)決策支持信息。
“動(dòng)感101”自1992年以來(lái),一直是上海市收聽(tīng)率第一的電臺(tái)。進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代,“動(dòng)感101”也于2011年9月與時(shí)俱進(jìn)地推出了移動(dòng)客戶(hù)終端應(yīng)用程序(如圖1所示)。移動(dòng)終端用戶(hù)可以通過(guò)Android或IOS系統(tǒng)的移動(dòng)設(shè)備訪(fǎng)問(wèn)該應(yīng)用程序,不僅可以隨時(shí)隨地地收聽(tīng)廣播節(jié)目,更融合了錄音、歌曲查詢(xún)、一鍵互動(dòng)、在線(xiàn)評(píng)論等一系列實(shí)用功能。
圖1 “動(dòng)感101”應(yīng)用程序界面
數(shù)據(jù)斷層理論分析系統(tǒng)的數(shù)據(jù)來(lái)源于“動(dòng)感101”電臺(tái)移動(dòng)客戶(hù)端的日志訪(fǎng)問(wèn)記錄,分別從IP為222.XXX.YYY.167、222.XXX.YYY.207、222.XXX.YYY.208三臺(tái)服務(wù)器下載用戶(hù)訪(fǎng)問(wèn)的日志信息。選取從2012年5月28日0時(shí)到2012年6月3日24時(shí)的日志數(shù)據(jù)用于分析,日志文件大小為3.63 GB。日志文件中每條記錄分別為一個(gè)切片,每個(gè)切片代表用戶(hù)訪(fǎng)問(wèn)了十秒鐘的時(shí)長(zhǎng)。
日志文件分析主要是通過(guò)分析日志數(shù)據(jù),獲得用戶(hù)的行為模式和各種數(shù)據(jù)資源之間的關(guān)聯(lián)關(guān)系,以便了解用戶(hù)對(duì)哪些數(shù)據(jù)資源比較感興趣。然后根據(jù)數(shù)據(jù)挖掘的結(jié)果來(lái)預(yù)測(cè)未來(lái)發(fā)展趨勢(shì)及行為,做出前瞻性決策,改善服務(wù)器的性能,提高服務(wù)質(zhì)量[8]。
通過(guò)數(shù)據(jù)斷層理論分析系統(tǒng)對(duì)電臺(tái)日志文件進(jìn)行分析,不僅可以掌握用戶(hù)收聽(tīng)“動(dòng)感101”的情況,而且可以針對(duì)現(xiàn)有情況做出調(diào)整,從而提高電臺(tái)客戶(hù)端的實(shí)用價(jià)值和廣播節(jié)目的收聽(tīng)率。分析日志數(shù)據(jù)必然涉及統(tǒng)計(jì)數(shù)據(jù)環(huán)節(jié),本文案例中需要統(tǒng)計(jì)的信息主要有三個(gè)方面:一周內(nèi)每天收聽(tīng)節(jié)目的總時(shí)長(zhǎng)和聽(tīng)眾人數(shù);一周內(nèi)每天收聽(tīng)觀(guān)眾的地區(qū)分布情況;一周內(nèi)每個(gè)時(shí)段的收聽(tīng)總時(shí)長(zhǎng)和聽(tīng)眾人數(shù)。
針對(duì)“動(dòng)感101”電臺(tái)日志文件數(shù)據(jù)的特點(diǎn)和用戶(hù)的實(shí)際需求,數(shù)據(jù)斷層理論分析系統(tǒng)設(shè)計(jì)了如圖2所示的總體結(jié)構(gòu)圖。主要分為四個(gè)模塊,即日志集中模塊、日志存儲(chǔ)模塊、日志處理模塊和日志分析模塊。系統(tǒng)主要在日志處理模塊和日志分析模塊中對(duì)顯斷層和隱斷層的數(shù)據(jù)進(jìn)行重點(diǎn)分析。
圖2 數(shù)據(jù)斷層理論分析系統(tǒng)的具體架構(gòu)
在日志集中模塊、日志存儲(chǔ)模塊和日志處理模塊主要使用C#和SQL Server數(shù)據(jù)庫(kù)方式實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)、處理算法和數(shù)據(jù)統(tǒng)計(jì)等功能。在日志分析模塊結(jié)合Excel、Matlab等工具進(jìn)行分析。通過(guò)使用多種工具,較好地完成了利用移動(dòng)客戶(hù)端收聽(tīng)“動(dòng)感101”電臺(tái)節(jié)目日志文件數(shù)據(jù)對(duì)象的數(shù)據(jù)斷層分析和處理工作。
用戶(hù)利用移動(dòng)客戶(hù)端收聽(tīng)“動(dòng)感101”電臺(tái)節(jié)目時(shí),用戶(hù)的移動(dòng)設(shè)備會(huì)自動(dòng)連接到一個(gè)虛擬的IP地址。虛擬IP地址接受到用戶(hù)的請(qǐng)求后,根據(jù)各服務(wù)器的負(fù)載量,“動(dòng)感101”電臺(tái)負(fù)載均衡LVS(Linux Virtual Server)選擇調(diào)度算法,將用戶(hù)的請(qǐng)求路由連接到最適合的服務(wù)器上。
移動(dòng)客戶(hù)端收聽(tīng)“動(dòng)感101”電臺(tái)節(jié)目的原始日志數(shù)據(jù)數(shù)量巨大,涉及十個(gè)以上的數(shù)據(jù)屬性,但是并不是所有的數(shù)據(jù)屬性都屬于日志數(shù)據(jù)分析的范疇。為了減小存儲(chǔ)空間,在日志數(shù)據(jù)文件導(dǎo)入SQL Server數(shù)據(jù)庫(kù)的過(guò)程中,數(shù)據(jù)斷層理論分析系統(tǒng)只選擇了部分?jǐn)?shù)據(jù)屬性(如表1所示選擇了五個(gè)數(shù)據(jù)屬性),按照固定格式制作規(guī)范化文檔。然后在導(dǎo)入程序中引用格式文檔,導(dǎo)入后的數(shù)據(jù)狀態(tài)可以由半結(jié)構(gòu)化狀態(tài)轉(zhuǎn)化為結(jié)構(gòu)化狀態(tài),實(shí)現(xiàn)了數(shù)據(jù)屬性的約簡(jiǎn)。這樣不僅有利于對(duì)日志數(shù)據(jù)的管理,而且為后續(xù)的數(shù)據(jù)處理和分析提供了極大的便利條件。
表1 SQL Server數(shù)據(jù)庫(kù)中數(shù)據(jù)屬性所表示的含義
數(shù)據(jù)斷層理論分析系統(tǒng)的SQL Server數(shù)據(jù)庫(kù)中,按照服務(wù)器的不同可以分為三個(gè)數(shù)據(jù)對(duì)象集合。三臺(tái)服務(wù)器的數(shù)據(jù)對(duì)象按照格式化文檔導(dǎo)入,有相同的格式,所以三個(gè)數(shù)據(jù)對(duì)象集合在屬性上是相同的,且都屬于同一主題的數(shù)據(jù)庫(kù),消除了宏觀(guān)數(shù)據(jù)斷層中結(jié)構(gòu)不一致的問(wèn)題。但在數(shù)據(jù)數(shù)量和數(shù)據(jù)內(nèi)容上仍然存在差異,屬于微觀(guān)數(shù)據(jù)斷層范疇。
日志處理模塊主要采用數(shù)據(jù)斷層理論的四種處理方法,即孔隙檢測(cè)、數(shù)據(jù)壓實(shí)、隱斷層檢測(cè)和數(shù)據(jù)壓溶。對(duì)顯斷層數(shù)據(jù)和隱斷層數(shù)據(jù)的檢測(cè)和處理并無(wú)嚴(yán)格意義上的先后順序,但是為了保證顯斷層數(shù)據(jù)的處理不會(huì)影響隱斷層數(shù)據(jù)分析結(jié)果的準(zhǔn)確性。因此,數(shù)據(jù)斷層理論分析系統(tǒng)采用“先處理顯斷層數(shù)據(jù),后分析隱斷層數(shù)據(jù)”的模式。
顯斷層數(shù)據(jù)分析分為孔隙檢測(cè)和數(shù)據(jù)壓實(shí)兩個(gè)步驟。
4.1孔隙檢測(cè)的處理與分析
數(shù)據(jù)斷層理論分析系統(tǒng)按照以下步驟對(duì)孔隙進(jìn)行檢測(cè)。
1) 以其中一臺(tái)服務(wù)器的數(shù)據(jù)對(duì)象集合為樣本例,按照日期將整個(gè)數(shù)據(jù)對(duì)象集合分為7個(gè)分區(qū),分別命名為{p1,p2,…,p7},其中p1代表2012年5月28日的日志數(shù)據(jù),依次類(lèi)推。
2) 對(duì)分區(qū)內(nèi)的所有數(shù)據(jù)對(duì)象進(jìn)行層次聚類(lèi)。
(1) 將分區(qū)內(nèi)的每個(gè)數(shù)據(jù)對(duì)象看作一個(gè)類(lèi),若兩個(gè)數(shù)據(jù)對(duì)象的值相等,則直接歸并為一類(lèi),否則計(jì)算各類(lèi)之間的相關(guān)能。由于數(shù)據(jù)對(duì)象屬于非數(shù)值型數(shù)據(jù),所以按照文本的長(zhǎng)度作為計(jì)算能量的標(biāo)準(zhǔn)。
(2) 將相關(guān)能最大且滿(mǎn)足閾值條件的兩類(lèi)歸并為一類(lèi),不滿(mǎn)足閾值條件的歸為另一類(lèi)。
(3) 重新計(jì)算新類(lèi)和其他類(lèi)之間的相關(guān)能。
(4) 重復(fù)執(zhí)行步驟(2)和步驟(3),直到分區(qū)內(nèi)所有數(shù)據(jù)對(duì)象都經(jīng)過(guò)閾值條件驗(yàn)證為止。
3) 若經(jīng)過(guò)步驟2)的層次聚類(lèi)后的分區(qū)只有一個(gè)類(lèi),則該分區(qū)不包含異常數(shù)據(jù),將該分區(qū)剪除。
4) 在剩余的分區(qū)內(nèi)重復(fù)步驟2)和步驟3),直到7個(gè)分區(qū)都被檢測(cè),保留存在異常數(shù)據(jù)的分區(qū)作進(jìn)一步分析和處理。
一般情況下,若分區(qū)越多,則執(zhí)行這樣步驟的孔隙檢測(cè)方法的效率將越高。數(shù)據(jù)斷層理論分析系統(tǒng)對(duì)移動(dòng)客戶(hù)端收聽(tīng)“動(dòng)感101”電臺(tái)節(jié)目的原始日志數(shù)據(jù)按日期分區(qū),每天的數(shù)據(jù)數(shù)量巨大,且每個(gè)分區(qū)都存在孔隙,所以沒(méi)有剪除分區(qū)操作。
通過(guò)孔隙檢測(cè),數(shù)據(jù)斷層理論分析系統(tǒng)實(shí)驗(yàn)數(shù)據(jù)的孔隙主要有三種。
一是缺失數(shù)據(jù)。在數(shù)據(jù)屬性ts中,存在部分記錄顯示為空,此類(lèi)記錄為訪(fǎng)問(wèn)內(nèi)部IP地址222.XXX.YYY.168,并沒(méi)有下載或上傳任何信息。
二是噪聲數(shù)據(jù)。在數(shù)據(jù)屬性mobile中,存在部分記錄顯示為L(zhǎng)iveRadioEncoder,該記錄為內(nèi)部編碼器向服務(wù)器發(fā)送音頻切片文件的訪(fǎng)問(wèn)記錄;另外還有部分記錄顯示為ChinaCache,這些記錄對(duì)數(shù)據(jù)對(duì)象集合而言是一種噪聲數(shù)據(jù)。
三是重復(fù)數(shù)據(jù)。數(shù)據(jù)庫(kù)中每個(gè)數(shù)據(jù)屬性都相同的記錄屬于重復(fù)數(shù)據(jù),多見(jiàn)于訪(fǎng)問(wèn)頁(yè)面的記錄,而下載ts流量的重復(fù)數(shù)據(jù)相對(duì)較少。
由以上分析可知,影響數(shù)據(jù)質(zhì)量的訪(fǎng)問(wèn)記錄大多數(shù)產(chǎn)生于內(nèi)部IP地址對(duì)應(yīng)用程序的訪(fǎng)問(wèn),所以在數(shù)據(jù)統(tǒng)計(jì)和分析之前需要對(duì)這些孔隙進(jìn)行相應(yīng)的處理。
存儲(chǔ)的日志數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù),相對(duì)于半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)而言,存在的顯斷層數(shù)據(jù)比較少。在數(shù)據(jù)斷層理論分析系統(tǒng)中,通過(guò)孔隙檢測(cè)檢測(cè)出來(lái)的孔隙,三臺(tái)服務(wù)器一周的總孔隙數(shù)量達(dá)到1 902 949條記錄,相對(duì)于總切片數(shù)量20 867 199條記錄來(lái)說(shuō),孔隙度大約在9%左右。
通過(guò)統(tǒng)計(jì)每一天的孔隙度,可以在一定程度上了解電臺(tái)日志數(shù)據(jù)的訪(fǎng)問(wèn)情況。在數(shù)據(jù)斷層理論分析系統(tǒng)中,工作日(2012年5月28日至2012年6月1日)的日志數(shù)據(jù)孔隙度結(jié)果如圖3所示,維持在比較穩(wěn)定的水平,在8%~10%之間波動(dòng),而周末兩天(2012年6月2日至2012年6月3日)的孔隙度明顯提高。這說(shuō)明在內(nèi)部系統(tǒng)對(duì)應(yīng)用程序訪(fǎng)問(wèn)量不變的情況下,用戶(hù)對(duì)應(yīng)用程序的訪(fǎng)問(wèn)量減少,從而導(dǎo)致孔隙度增加。針對(duì)以上各種孔隙類(lèi)型,結(jié)合數(shù)據(jù)斷層理論分析系統(tǒng)的實(shí)驗(yàn)需求,需要對(duì)孔隙進(jìn)行數(shù)據(jù)壓實(shí)操作。
圖3 電臺(tái)數(shù)據(jù)的孔隙度
4.2數(shù)據(jù)壓實(shí)的處理與分析
缺失數(shù)據(jù)和噪聲數(shù)據(jù)主要是由應(yīng)用程序內(nèi)部訪(fǎng)問(wèn)服務(wù)器所產(chǎn)生的。不同IP地址代表不同的用戶(hù),但相同IP地址未必是同一用戶(hù),所以重復(fù)數(shù)據(jù)可能是因?yàn)槎鄠€(gè)設(shè)備收聽(tīng)節(jié)目時(shí)使用的是同一個(gè)公網(wǎng)IP地址,基于端口轉(zhuǎn)換的NAT、代理、防火墻等都有可能導(dǎo)致多個(gè)用戶(hù)使用同一個(gè)公網(wǎng)IP地址進(jìn)行訪(fǎng)問(wèn)。根據(jù)以上分析,數(shù)據(jù)斷層理論分析系統(tǒng)的數(shù)據(jù)壓實(shí)步驟中主要采用刪除的方法,便可以較好地處理數(shù)據(jù)顯斷層。
數(shù)據(jù)斷層理論分析系統(tǒng)中顯斷層分析系統(tǒng)界面如圖4所示,選擇需要處理的時(shí)間段和服務(wù)器,然后按照孔隙檢測(cè)方法執(zhí)行檢測(cè),最后對(duì)孔隙進(jìn)行數(shù)據(jù)壓實(shí)操作。
圖4 顯斷層分析界面
完成顯斷層數(shù)據(jù)的處理,日志處理模塊將對(duì)隱斷層數(shù)據(jù)進(jìn)行分析和處理。隱斷層數(shù)據(jù)分析分為隱斷層檢測(cè)和數(shù)據(jù)壓溶兩個(gè)步驟。
5.1隱斷層檢測(cè)的處理與分析
數(shù)據(jù)對(duì)象集合中存在的隱斷層數(shù)據(jù)隨著用戶(hù)需求的不同而會(huì)有不同的結(jié)果。根據(jù)“動(dòng)感101”電臺(tái)的需求,數(shù)據(jù)斷層理論分析系統(tǒng)中需要檢測(cè)的隱斷層類(lèi)型主要有四種:
第一種為確定用戶(hù)收聽(tīng)情況時(shí),不是從服務(wù)器下載ts流量的記錄不屬于分析范圍;
第二種為北京時(shí)間2:00-6:00屬于“動(dòng)感101”電臺(tái)停播時(shí)間段,此段時(shí)間數(shù)據(jù)記錄屬于隱斷層數(shù)據(jù);
第三種為檢測(cè)服務(wù)器發(fā)生故障、主持人變更等突發(fā)狀況發(fā)生時(shí)產(chǎn)生的隱斷層數(shù)據(jù);
第四種為檢測(cè)用戶(hù)的地區(qū)分布差異引起的隱斷層數(shù)據(jù)。
針對(duì)以上四種隱斷層類(lèi)型檢測(cè)內(nèi)容,需要制定不同的檢測(cè)方法。簡(jiǎn)單的隱斷層數(shù)據(jù)不需要算法便可以檢測(cè)出來(lái);有的隱斷層數(shù)據(jù)則需要通過(guò)計(jì)算其信息熵,再與用戶(hù)閾值條件進(jìn)行比較才能確定隱斷層的實(shí)際狀態(tài)。例如:通過(guò)觀(guān)察法可知,第一種隱斷層數(shù)據(jù)還包括網(wǎng)頁(yè)訪(fǎng)問(wèn)和圖片下載的記錄;第二種隱斷層數(shù)據(jù)就是停播時(shí)間段內(nèi)的數(shù)據(jù);第三種和第四種隱斷層數(shù)據(jù)的發(fā)現(xiàn)相對(duì)復(fù)雜,需要一系列步驟進(jìn)行檢測(cè)。
1) 用戶(hù)地區(qū)分布差異的獲取
數(shù)據(jù)斷層理論分析系統(tǒng)以第四種隱斷層數(shù)據(jù)為例,設(shè)計(jì)移動(dòng)客戶(hù)端收聽(tīng)“動(dòng)感101”電臺(tái)節(jié)目地區(qū)分析系統(tǒng),展示隱斷層數(shù)據(jù)檢測(cè)的方法。將一周內(nèi)訪(fǎng)問(wèn)“動(dòng)感101”電臺(tái)應(yīng)用程序的IP地址做無(wú)重復(fù)的數(shù)據(jù)統(tǒng)計(jì),可以獲得一周的用戶(hù)人數(shù),將這些數(shù)據(jù)對(duì)象看作一個(gè)數(shù)據(jù)空間,對(duì)數(shù)據(jù)空間里的所有數(shù)據(jù)對(duì)象通過(guò)統(tǒng)計(jì)、計(jì)算信息熵和斷層概率的方法進(jìn)行隱斷層檢測(cè)。
由于“動(dòng)感101”在不同地區(qū)的知名度并不一樣,所以用戶(hù)的地區(qū)分布必然存在著差異性。地域相差較遠(yuǎn)的不同省市之間存在數(shù)據(jù)斷層是一種客觀(guān)現(xiàn)象,而數(shù)據(jù)斷層理論分析系統(tǒng)通過(guò)處理方法檢測(cè)數(shù)據(jù)斷層是針對(duì)同一區(qū)域內(nèi)的。所以需要先對(duì)數(shù)據(jù)對(duì)象進(jìn)行分區(qū),然后逐步細(xì)化分析,最后確定隱斷層數(shù)據(jù)產(chǎn)生的原因。
(1) 匯總需要檢測(cè)的數(shù)據(jù)對(duì)象
本文實(shí)驗(yàn)以中國(guó)地區(qū)的數(shù)據(jù)對(duì)象為主要研究對(duì)象,所以需要對(duì)國(guó)外訪(fǎng)問(wèn)的數(shù)據(jù)對(duì)象進(jìn)行溶蝕操作,即提取每天不重復(fù)的IP地址,查詢(xún)其歸屬地區(qū),然后將國(guó)外的訪(fǎng)問(wèn)記錄分離出去。
(2) 統(tǒng)計(jì)IP地址數(shù)量
圖5是數(shù)據(jù)斷層理論分析系統(tǒng)實(shí)驗(yàn)數(shù)據(jù)所在的一周內(nèi)每天訪(fǎng)問(wèn)服務(wù)器的IP地址數(shù)量。在這一周內(nèi)數(shù)據(jù)波動(dòng)并不顯著,初步可以看出前四天的IP地址數(shù)量比較平衡地微微增加,周四達(dá)到最高值,而周末兩天訪(fǎng)問(wèn)IP地址的數(shù)量明顯下降。這種變化與人們的生活作息習(xí)慣、周末電臺(tái)節(jié)目的變化等多種因素密切相關(guān)。
圖5 一周內(nèi)每天訪(fǎng)問(wèn)IP數(shù)量圖
由于中國(guó)地區(qū)數(shù)量較多,每個(gè)地區(qū)依次分析需要投入較大的工作量。因此數(shù)據(jù)斷層理論分析系統(tǒng)根據(jù)“數(shù)據(jù)空間進(jìn)行初步分區(qū)”的思想,采取先對(duì)IP地址按地區(qū)分為多個(gè)集合,然后進(jìn)行統(tǒng)計(jì)和分析。由于“動(dòng)感101”是屬于上海的電臺(tái),其在傳統(tǒng)收聽(tīng)模式下的知名度和支持度就較高,上海的用戶(hù)眾多是必然的。另外,江蘇和浙江與上海毗鄰,“動(dòng)感101”節(jié)目在江蘇和浙江的用戶(hù)數(shù)也不在少數(shù)。所以東部沿海地區(qū)的用戶(hù)數(shù)量遠(yuǎn)遠(yuǎn)高于其他地區(qū)也屬正常情況,并進(jìn)而導(dǎo)致東部沿海地區(qū)與其他地區(qū)之間在用戶(hù)數(shù)量上產(chǎn)生了明顯的斷層。
2) 用戶(hù)地區(qū)斷層分布的獲取
盡管通過(guò)分析可以判斷出東部沿海地區(qū)數(shù)據(jù)存在著斷層,但并不是所有的案例都有如此明顯的數(shù)據(jù)特征。所以必須通過(guò)科學(xué)方法來(lái)計(jì)算與驗(yàn)證,增強(qiáng)說(shuō)服力,進(jìn)一步反映數(shù)據(jù)斷層的狀態(tài)。數(shù)據(jù)斷層理論分析系統(tǒng)采取的方法是:先根據(jù)定義計(jì)算各個(gè)地區(qū)集合的信息熵,找出斷層最為顯著的地區(qū);然后計(jì)算該地區(qū)內(nèi)各個(gè)數(shù)據(jù)對(duì)象的斷層概率,確定數(shù)據(jù)斷層數(shù)據(jù)所對(duì)應(yīng)的省份;最后分析該省存在數(shù)據(jù)斷層的原因。
(1) 計(jì)算各地區(qū)集合的信息熵
圖6 地區(qū)分析程序界面
(2) 計(jì)算集合對(duì)象的斷層概率
通過(guò)計(jì)算各地區(qū)集合的信息熵從而確定了數(shù)據(jù)斷層存在的區(qū)域之后,需要進(jìn)一步追蹤該區(qū)域的重點(diǎn)數(shù)據(jù)對(duì)象,獲得相應(yīng)的斷層概率分布。在確定東部沿海地區(qū)是存在數(shù)據(jù)斷層的地區(qū)之后,追蹤東部沿海地區(qū)所包含的城市,查看IP地址數(shù)量,獲得各個(gè)省市的斷層概率。例如:上海市的用戶(hù)人數(shù)為24 895人,斷層概率為0.5302;浙江省的用戶(hù)人數(shù)為1286人,斷層概率為0.2887;江蘇省的用戶(hù)人數(shù)為2648人,斷層概率為0.2415等。
5.2數(shù)據(jù)壓溶的處理與分析
根據(jù)實(shí)際情況,不同的隱斷層有著不同的處理方式。有的隱斷層正好是被分析的數(shù)據(jù)對(duì)象,有的隱斷層則需要進(jìn)行數(shù)據(jù)壓溶處理。對(duì)于以用戶(hù)分布情況為例的隱斷層檢測(cè)結(jié)果,由于電臺(tái)方面的需求只為了解分布情況和哪些地區(qū)存在斷層情況,所以并不需要進(jìn)行數(shù)據(jù)壓溶。
通常情況下,圍繞系統(tǒng)用戶(hù)的需求,類(lèi)似案例中可能需要進(jìn)行數(shù)據(jù)壓溶的處理內(nèi)容主要有三方面。
一是那些不是ts流的數(shù)據(jù)對(duì)象。因?yàn)閲@統(tǒng)計(jì)用戶(hù)收聽(tīng)時(shí)間的需求,訪(fǎng)問(wèn)頁(yè)面的aspx相關(guān)內(nèi)容并不在分析范圍之內(nèi),只需要統(tǒng)計(jì)用戶(hù)從服務(wù)器下載的ts流數(shù)據(jù)即可。
二是處理那些收聽(tīng)不超過(guò)10秒的切片。因?yàn)槿裟硹l記錄在連續(xù)時(shí)間里只出現(xiàn)一次,訪(fǎng)問(wèn)應(yīng)用的時(shí)間不超過(guò)10秒,很可能是用戶(hù)操作失誤或無(wú)意訪(fǎng)問(wèn)應(yīng)用造成的。這些數(shù)據(jù)信息會(huì)對(duì)統(tǒng)計(jì)結(jié)果產(chǎn)生一定的誤差,不利于有用信息的獲取。
三是處理那些每天停播時(shí)間段的數(shù)據(jù)對(duì)象。因?yàn)楸本r(shí)間凌晨?jī)牲c(diǎn)到六點(diǎn)是沒(méi)有節(jié)目的,而這段時(shí)間內(nèi)若存在大量數(shù)據(jù)對(duì)象,則需要將這些數(shù)據(jù)對(duì)象單獨(dú)提取出來(lái)進(jìn)行分析。
經(jīng)過(guò)斷層處理的數(shù)據(jù)對(duì)象相比原始數(shù)據(jù)對(duì)象而言,其數(shù)量將明顯減少,而且會(huì)更加符合用戶(hù)需求,對(duì)這些數(shù)據(jù)對(duì)象進(jìn)行分析得出的結(jié)果將有助于得到更加準(zhǔn)確的信息。對(duì)于不同的需求,有著不同的統(tǒng)計(jì)結(jié)果數(shù)據(jù)斷層分析思路。針對(duì)數(shù)據(jù)斷層理論分析系統(tǒng)而言,斷層分析的主要需求包括三個(gè)方面。
6.1每天的ts切片數(shù)量和IP數(shù)量
通過(guò)數(shù)據(jù)斷層理論分析系統(tǒng)統(tǒng)計(jì)每天的ts切片數(shù)量和IP數(shù)量,可以計(jì)算出收聽(tīng)的總時(shí)長(zhǎng)和平均收聽(tīng)時(shí)長(zhǎng)。
為了對(duì)比斷層處理后的數(shù)據(jù)對(duì)象與原始數(shù)據(jù)對(duì)象之間的差別,通過(guò)統(tǒng)計(jì)原始數(shù)據(jù)對(duì)象和斷層處理后數(shù)據(jù)對(duì)象的相關(guān)內(nèi)容,得到的結(jié)果如表2和表3所示。
表2 原始數(shù)據(jù)對(duì)象的統(tǒng)計(jì)表
表3 斷層處理后數(shù)據(jù)對(duì)象的統(tǒng)計(jì)表
其中,總切片數(shù)是指導(dǎo)入的所有記錄數(shù)量,包括ts切片、aspx切片以及其他記錄數(shù)據(jù);總IP數(shù)是指對(duì)所有訪(fǎng)問(wèn)的IP地址進(jìn)行的數(shù)量統(tǒng)計(jì);下載(ts)切片數(shù)是指只有下載ts流的記錄數(shù)量統(tǒng)計(jì);收聽(tīng)I(yíng)P數(shù)是指下載ts切片的IP地址數(shù)量統(tǒng)計(jì);收聽(tīng)時(shí)長(zhǎng)是指ts切片數(shù)的10倍除以3600得到的小時(shí)數(shù)。通過(guò)分析表2和表3,斷層處理后壓實(shí)了孔隙,有助于清楚地了解實(shí)際收聽(tīng)情況。
6.2每小時(shí)的切片數(shù)和收聽(tīng)時(shí)間
若需要了解每檔節(jié)目的收聽(tīng)情況,就不可避免地需要統(tǒng)計(jì)每小時(shí)的數(shù)據(jù)對(duì)象。通過(guò)對(duì)這些數(shù)據(jù)對(duì)象一周內(nèi)的波動(dòng)情況,了解某個(gè)節(jié)目的收聽(tīng)趨勢(shì),從而做出相應(yīng)地調(diào)整。
通過(guò)數(shù)據(jù)斷層理論分析系統(tǒng),可以得到所選的服務(wù)器在00:00-24:00之間每個(gè)小時(shí)的統(tǒng)計(jì)數(shù)據(jù)。一周內(nèi)不同時(shí)間段的數(shù)據(jù)是三臺(tái)服務(wù)器統(tǒng)計(jì)數(shù)據(jù)的總和。因此,分別統(tǒng)計(jì)三臺(tái)服務(wù)器的數(shù)據(jù),然后進(jìn)行匯總,得到如表4所示的統(tǒng)計(jì)結(jié)果。
表4中,北京時(shí)間22:00-24:00時(shí)間段的平均收聽(tīng)時(shí)長(zhǎng)占比較低,而在該時(shí)間段內(nèi)的收聽(tīng)時(shí)長(zhǎng)和用戶(hù)(聽(tīng)眾)數(shù)量卻處于較高水平。這說(shuō)明總時(shí)長(zhǎng)增長(zhǎng)的比率遠(yuǎn)遠(yuǎn)趕不上用戶(hù)(聽(tīng)眾)增長(zhǎng)的比率,較多的用戶(hù)(聽(tīng)眾)在該時(shí)間段內(nèi)通過(guò)移動(dòng)設(shè)備收聽(tīng)節(jié)目,但收聽(tīng)時(shí)間較短。平均收聽(tīng)時(shí)長(zhǎng)占比最高的19:00-20:00區(qū)間上,收聽(tīng)時(shí)長(zhǎng)不高,但是用戶(hù)(聽(tīng)眾)人數(shù)明顯下降,所以收聽(tīng)時(shí)長(zhǎng)占比反而提高。
綜合分析表4,在北京時(shí)間15:00和23:00左右,用戶(hù)通過(guò)移動(dòng)客戶(hù)端收聽(tīng)電臺(tái)的收聽(tīng)時(shí)長(zhǎng)和用戶(hù)(聽(tīng)眾)數(shù)量達(dá)到較高峰。這兩個(gè)時(shí)間點(diǎn)分別對(duì)應(yīng)于接近下班的時(shí)間和臨睡覺(jué)的時(shí)間,人們通過(guò)手機(jī)等智能移動(dòng)客戶(hù)端設(shè)備收聽(tīng)電臺(tái),也符合當(dāng)前人們的生活作息時(shí)間。盡管北京時(shí)間2:00-6:00是節(jié)目停播時(shí)間,但是仍然存在有用戶(hù)收聽(tīng)的情況,原因在于用戶(hù)在移動(dòng)設(shè)備上沒(méi)有關(guān)閉動(dòng)感101的客戶(hù)端。即便此時(shí)沒(méi)有節(jié)目信息,應(yīng)用程序仍然在后臺(tái)運(yùn)行,從服務(wù)器下載的切片處于忙碌狀態(tài)。
表4 一周不同時(shí)間段的統(tǒng)計(jì)表
續(xù)表4
6.3其他情況
除了以上情況之外,還存在著其他各種數(shù)據(jù)斷層的情況,例如三臺(tái)服務(wù)器出現(xiàn)故障的情況,可能的原因是編碼器到流媒體服務(wù)器的網(wǎng)絡(luò)中斷或者流媒體服務(wù)器服務(wù)中斷。具體在日志文件中會(huì)有所體現(xiàn),即一段時(shí)間內(nèi)沒(méi)有新的ts流文件被下載。但是服務(wù)器出現(xiàn)故障的情況一年不會(huì)超過(guò)5次,屬于特殊情況,本論文不作詳細(xì)分析。
本文以上?!皠?dòng)感101”電臺(tái)移動(dòng)客戶(hù)端的日志訪(fǎng)問(wèn)記錄數(shù)據(jù)為分析對(duì)象,構(gòu)建了數(shù)據(jù)斷層理論分析系統(tǒng)。分四個(gè)模塊對(duì)數(shù)據(jù)對(duì)象進(jìn)行處理和分析,檢測(cè)數(shù)據(jù)對(duì)象中存在的顯、隱斷層。然后進(jìn)行數(shù)據(jù)壓實(shí)和數(shù)據(jù)壓溶操作,得到高質(zhì)量的數(shù)據(jù)對(duì)象。最后針對(duì)不同的需求,對(duì)數(shù)據(jù)對(duì)象進(jìn)行分析得到有用的決策輔助信息。
數(shù)據(jù)斷層理論分析系統(tǒng)的具體實(shí)踐表明,在廣播電臺(tái)數(shù)據(jù)這樣實(shí)時(shí)性較強(qiáng)的數(shù)據(jù)處理應(yīng)用中,數(shù)據(jù)斷層理論具有較好的科學(xué)性和有效性。
[1] Yi Sun,Yang Guo,Xiaobing Zhang,et al.The Case for P2P Mobile Video System over Wireless Networks:A Practical Study of Challenges for A Mobile Video Provider[J].IEEE Network,2013,27(2):22-27.
[2] Francesco Bonchi,Fosca Giannotti,Cristian Gozzi,et al.Web Log Data Warehousing and Mining for Intelligent Web Caching[J].Data and Knowledge Engineering,2001,39(2):165-189.
[4] 夏驕雄.?dāng)?shù)據(jù)資源的聚類(lèi)預(yù)處理[M].上海:上??茖W(xué)普及出版社,2011.
[5] 夏驕雄,汪晶玲,嚴(yán)琛瓊,等.?dāng)?shù)據(jù)斷層現(xiàn)象的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(8):9-13,77.
[6] Philippe Perebinossoff,Brian Gross,Lynne Schafer Gross.Programming for TV,Radio,and the Internet:Strategy,development,and evaluation[M].Burlington,MA:Focal Press,2005.
[7] Gene Youngblood.Secession from the Broadcast:The Internet and the Crisis of Social Control[J].Millennium Film Journal,2013(58):174-189.
[8] Naga Lakshmi,Raja Sekhara Rao,Sai Satyanarayana Reddy.An Overview of Preprocessing on Web Log Data for Web Usage Analysis[J].International Journal of Innovative Technology and Exploring Engineering,2013,2(4):274-279.
APPLICATION OF DATA FAULTAGE ANALYSIS IN RADIO DATA PROCESSING
Xu Jun1,2Xia Jiaoxiong2,3Zhou Shiqiang2
1(Technical Center,Radio and Television Shanghai,Shanghai 200051,China)2(SchoolofComputerEngineeringandScience,ShanghaiUniversity,Shanghai200444,China)3(InformationCentre,ShanghaiMunicipalEducationCommission,Shanghai200003,China)
With the increasing heating up of big data,analysis and process on data faultage phenomena has become the important ways and means in data mining field.Data faultage theory,as the analysis theory describing the tendency of partial displacement between data objects,has the extremely instructive significance on data preprocessing.Based on the preliminary description on the rationale of data faultage theory,we took the log data of mobile client application on “Shanghai Music Radio FM 101.7” as an example and built an analysis system of data faultage theory to deal with the data faultage phenomena in radio log data so as to improve the quality of data objects preprocessing,and gained the effective auxiliary information of radio decision-making.Therefore,the scientific property and effectiveness of data faultage theory are fully explained,this lays the sound foundation for further studies.
Data faultageData miningData preprocessingLog data analysisMobile client application
2015-04-06。國(guó)家自然科學(xué)基金項(xiàng)目(40976108,61303097);上海市重點(diǎn)學(xué)科建設(shè)項(xiàng)目(J50103);上海大學(xué)研究生創(chuàng)新基金項(xiàng)目(SHUCX070037,SHUCX120105)。徐俊,工程師,主研領(lǐng)域:數(shù)據(jù)挖掘,智能決策支持系統(tǒng)。夏驕雄,研究員。周時(shí)強(qiáng),助理工程師。
TP311.131G202
A
10.3969/j.issn.1000-386x.2016.09.009