程 豪,呂曉玲,鐘 琰,范 超,趙 昱
(1.中國人民大學(xué) 應(yīng)用統(tǒng)計科學(xué)研究中心,北京 100872;2.美國哥倫比亞大學(xué) 梅爾曼公共衛(wèi)生學(xué)院,紐約 10032;3.中國人民大學(xué) a.統(tǒng)計咨詢研究中心,b.統(tǒng)計學(xué)院,c.數(shù)據(jù)挖掘中心,北京 100872;4.國家統(tǒng)計局國際統(tǒng)計信息中心,北京 100826;5.QuestMobile&人大統(tǒng)計移動互聯(lián)網(wǎng)大數(shù)據(jù)研究院,北京 100015)
大數(shù)據(jù)背景下智能手機APP組合推薦研究
程豪1,2,3a,3b,3c,呂曉玲1,3b,3c,5,鐘琰3b,3c,范超3b,4,趙昱5
(1.中國人民大學(xué) 應(yīng)用統(tǒng)計科學(xué)研究中心,北京 100872;2.美國哥倫比亞大學(xué) 梅爾曼公共衛(wèi)生學(xué)院,紐約 10032;3.中國人民大學(xué) a.統(tǒng)計咨詢研究中心,b.統(tǒng)計學(xué)院,c.數(shù)據(jù)挖掘中心,北京 100872;4.國家統(tǒng)計局國際統(tǒng)計信息中心,北京 100826;5.QuestMobile&人大統(tǒng)計移動互聯(lián)網(wǎng)大數(shù)據(jù)研究院,北京 100015)
摘要:面對當(dāng)下智能手機APP種類繁多、層出不窮的局面,數(shù)據(jù)提取方案的提出和常見APP組合規(guī)律的深度挖掘已成為大數(shù)據(jù)時代的研究熱點。在重新界定不同APP類別間關(guān)系度量方式的前提下,推出一套完整的關(guān)系型數(shù)據(jù)提取方案。借助社會網(wǎng)絡(luò)可視化工具初步發(fā)現(xiàn)了不同APP類別間的關(guān)系程度及分布,而concor模型為APP組合的多層次劃分和推薦提供了可靠的方法學(xué)依據(jù)。研究發(fā)現(xiàn)APP的多層次組合劃分實現(xiàn),對現(xiàn)實生活中經(jīng)常同時使用的APP類別組的挖掘、劃分結(jié)果具有較好的解釋性和現(xiàn)實意義,為智能手機生產(chǎn)者提供了APP研發(fā)方向,并能推進智能生產(chǎn)和生活的發(fā)展進程。
關(guān)鍵詞:智能手機;APP應(yīng)用程序;組合多層次劃分;推薦研究
一、引 言
作為大數(shù)據(jù)時代的研究熱點,智能手機海量數(shù)據(jù)的深度挖掘往往關(guān)注于用戶行為信息研究方面[1],比如Pablo根據(jù)行為理解提煉出用戶行為模式[2];Leskovec等人在考慮時間因素下討論了社交關(guān)系[3];David等人根據(jù)地理信息完成服務(wù)推薦研究等[4]。盡管智能手機APP具有與人們的生活聯(lián)系緊密、信息資源豐富、不涉及用戶私密行為信息等特點,但APP應(yīng)用程序的相關(guān)研究仍較為空缺。
綜觀大數(shù)據(jù)網(wǎng)絡(luò)關(guān)系研究方法,社會網(wǎng)絡(luò)分析方法的相關(guān)研究成果為解決APP組合推薦問題提供了借鑒和參考。彭小川等人應(yīng)用社群圖和矩陣法概括了BBS群體的基本特征,并對群體中成員地位的形成、意見領(lǐng)袖的特點和群體內(nèi)部人際交往的特征進行了探討[5];S. Parthasarathy, Y. Ruan和V. Satuluri引入了社會網(wǎng)絡(luò)分析理論而非傳統(tǒng)的聚類方法,通過研究節(jié)點及節(jié)點間的連接情況,分析同一社區(qū)內(nèi)的網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系,并進一步研究了社區(qū)內(nèi)成員的親屬關(guān)系。同時,Smriti Bhagat, Graham Cormode和S. Muthukrishnan探討了結(jié)點分類(node classification)問題[6]79-146。
HTML5是HTML規(guī)范的當(dāng)前最新版本,同時也是一系列Web相關(guān)技術(shù)的總稱,其中最重要的3項技術(shù)就是HTML5核心規(guī)范、CSS3(Cascading Style Sheet,層疊樣式表的最新版本)和JavaScript(腳本語言的一種,用于增強網(wǎng)頁的動態(tài)效果)。
面對不同種類APP應(yīng)用程序的不斷涌現(xiàn),利用網(wǎng)絡(luò)信息定義一種全新的關(guān)系測度方式(權(quán)重),提出一套清晰合理的智能手機監(jiān)測數(shù)據(jù)及APP關(guān)系型數(shù)據(jù)的提取方案,實現(xiàn)APP組合規(guī)律的深度挖掘,并對業(yè)界提供一些實用的合理化建議,已成為一項鮮有人嘗試卻頗具價值的研究課題。
綜上所述,對于工程造價信息化建設(shè)工作的落實,其在當(dāng)前確實表現(xiàn)出了較強的發(fā)展作用價值,相對于傳統(tǒng)工程造價管理模式具備多方面優(yōu)勢,這也就需要加大推廣力度,詳細(xì)分析探究現(xiàn)階段存在的各個方面問題,然后采取有效措施予以解決。
二、關(guān)系型數(shù)據(jù)提取方案
(一)數(shù)據(jù)簡介
1.選擇優(yōu)良苗種,加州鱸魚苗的質(zhì)量會直接關(guān)系到自身的抗病能力,選擇健康優(yōu)質(zhì)的種苗,可以提高育苗成活率和提高魚仔活力和健康指數(shù),從而為后期的成魚養(yǎng)殖提供可靠的保障,使加州鱸養(yǎng)殖效益提高。
本文數(shù)據(jù)來自QuestMobile智能設(shè)備混合數(shù)據(jù)池,為智能手機監(jiān)測數(shù)據(jù)。該數(shù)據(jù)橫跨2015年2月1日到5月17日共106天,涉及13余萬安卓系統(tǒng)用戶。數(shù)據(jù)總量高達1.8T,包括用戶地理位置信息(個人ID、記錄時間、地點等)、手機型號信息(品牌、型號、分辨率、尺寸等)、手機APP使用信息(個人ID、使用APP名、APP包名、使用起止時間、使用時長、上下行流量等)三部分。所有數(shù)據(jù)以日為單位,依據(jù)用戶即時行為生成,所有內(nèi)容記錄在4張表中,用戶行為信息較為混雜。僅以個人ID作為唯一標(biāo)識,且在時間上并不具備一一對應(yīng)性。易知,該數(shù)據(jù)具備數(shù)據(jù)量巨大(Volume)、增長速度快(Velocity)、內(nèi)容多樣化(Variety)、價值密度低(Value)的4V特征。手機APP使用信息數(shù)據(jù)(記錄在Sessiong表中)包含個人ID、使用APP名、APP包名、使用起止時間、使用時長、上下行流量等APP使用的詳細(xì)記錄,其中APP類型涵蓋網(wǎng)絡(luò)購物、本地生活、網(wǎng)絡(luò)視頻、汽車服務(wù)、新聞資訊、通信聊天、系統(tǒng)工具、主題美化、網(wǎng)絡(luò)金融、數(shù)字閱讀、網(wǎng)絡(luò)音樂、教育培訓(xùn)、麗人母嬰、實用工具、圖像服務(wù)、網(wǎng)絡(luò)社交、旅游出行、健康醫(yī)療、效率辦公、游戲等方面的20類上萬種APP。
(二)方案設(shè)計
STEP3:經(jīng)多次迭代,得到一個元素只有1和-1的矩陣,記為Cn。
在提取APP關(guān)系型數(shù)據(jù)之前,本文以Python為工具[7],選擇用戶使用時間作為反映APP偏好或受歡迎程度的依據(jù),提出一種界定不同APP類別間關(guān)系的度量方式,即APP社會網(wǎng)絡(luò)中的權(quán)重。用矩陣W=(wij)20×20表示20類APP關(guān)系型數(shù)據(jù),即為測度APP間關(guān)系的權(quán)重矩陣。顯然,M為對稱陣,行和列均表示APP類別(20類APP出現(xiàn)的順序見數(shù)據(jù)簡介)。其中第i行、第i列表示在106天內(nèi)所有用戶在第i類APP上花費的總?cè)舜翁鞌?shù);第i行、第j列表示第i類APP與第j類APP被一個用戶在一天當(dāng)中同時使用的總?cè)舜翁鞌?shù)。APP關(guān)系型數(shù)據(jù)的提取流程如下:
STEP1:由于數(shù)據(jù)中APP種類繁多,數(shù)量過萬,很多APP僅有極少數(shù)人使用。因此,本文利用額外的信息對APP進行打標(biāo)簽處理,挑選出5 000個相對熱門的APP,將其分為數(shù)據(jù)簡介中所示的20類為代表。
學(xué)生審題能力在“趣味四部曲”中悄然提升,相信其他方面的學(xué)習(xí)如果能緊緊抓住“趣味性”這一主線,一定可以讓學(xué)生在輕松、愉悅的氛圍之中主動學(xué)習(xí)并掌握。
STEP2: 對每天每個用戶的APP使用時間,依照APP使用分揀表進行分類匯總,得到每一天存在記錄的用戶使用每種類別的APP的使用時間。
STEP3:統(tǒng)計每一天內(nèi)每類APP的使用人數(shù)以及同時使用每兩類APP的人數(shù)。
STEP4:將106天的每類APP及每兩類APP使用人數(shù)加總,并用矩陣形式存儲,得到106天的使用人數(shù)矩陣。
STEP5:對矩陣中各元素取自然對數(shù),作為最終由20類APP構(gòu)成的關(guān)系型數(shù)據(jù)。
三、APP多層次劃分的方法選擇
因此,需要對“派系”進行推廣,通過設(shè)定節(jié)點間的最大距離n,產(chǎn)生n-派系。n-派系存在一定應(yīng)用層面的局限性。第一,當(dāng)n等于2時,可以直接解釋有共同中間節(jié)點的關(guān)系;但當(dāng)n大于2時,盡管節(jié)點間相對較弱的關(guān)系可能對網(wǎng)絡(luò)的總體結(jié)構(gòu)非常重要,但具體意義還不是很清晰。第二,n-派系的直徑有可能大于n。雖然n-派系要求各個節(jié)點間通過長度不超過n的路徑連接在一起,但并不能保證這些路徑仍然保留在子結(jié)構(gòu)之中。第三,一個n-派系可能包含n-派系外的點,即可能是一個不關(guān)聯(lián)圖。因此,n-派系往往不是一個具有較高凝聚性的凝聚子群。
APP組合的形成過程實際上是APP多層次劃分的過程,即以所有APP為網(wǎng)絡(luò)節(jié)點,根據(jù)節(jié)點間關(guān)系信息,將整個網(wǎng)絡(luò)中的所有節(jié)點進行重排,劃分為多個子結(jié)構(gòu),再對子結(jié)構(gòu)進行凝聚,形成規(guī)模較大的子結(jié)構(gòu)集合。這種“先劃分再凝聚”思想的實現(xiàn),需要以社會網(wǎng)絡(luò)分析理論為基礎(chǔ),借助“凝聚子群分析”和“網(wǎng)絡(luò)與角色的對等性思想”來完成[8]148-265[9]5-25。早期的社會網(wǎng)絡(luò)學(xué)者在霍桑工廠和楊基城報告中曾涉及到“派系”的思想,在無向關(guān)系網(wǎng)絡(luò)中派系(至少包含三個點的最大完備子圖)中的任何兩點都必須彼此鄰接,不能間接相連,且不能被其他派系所包含。作為凝聚子群分析中最早提出的概念,派系分析具有如下四個相互關(guān)聯(lián)的局限性:第一,由于去掉派系中的任何一個關(guān)系,都無法稱為派系,因此定義過于嚴(yán)格導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)的劃分常常不夠穩(wěn)定;第二,派系的規(guī)模會受到點度數(shù)的限制,即如果網(wǎng)絡(luò)中任一個節(jié)點至多與其他節(jié)點存在k個關(guān)系,那么不可能包含超過k個節(jié)點的派系;第三,現(xiàn)實中出現(xiàn)的派系常常規(guī)模太小,并且重疊很多,對于大規(guī)?;蛳∈栊途W(wǎng)絡(luò),派系的概念就失去意義;第四,派系內(nèi)節(jié)點沒有任何分化,即同一個派系中的節(jié)點在圖論的意義上都是等同的。此外,派系建立在節(jié)點間鄰接基礎(chǔ)上,忽視通過間接關(guān)系建立的小結(jié)構(gòu)。
晏殊長期以來得不到公正、合理的評價,受到嚴(yán)重的“污名化”,與大量真相被嚴(yán)重遮蔽或者錯誤釋讀有關(guān)之外,傳統(tǒng)的君子小人、非白即黑以及黨爭思維方式,也具有相當(dāng)大的負(fù)面影響。
STEP4:重排Cn,得到矩陣分區(qū),即“塊”。
網(wǎng)絡(luò)密度、點與圖的中心度等量化指標(biāo)有助于研究者結(jié)合知識圖譜深度解讀正念療法領(lǐng)域研究議題的總體概況及內(nèi)部構(gòu)建。網(wǎng)絡(luò)密度映射網(wǎng)絡(luò)成員間的聯(lián)系強弱度,密度值越大,網(wǎng)絡(luò)成員間關(guān)系越密切[16]。網(wǎng)絡(luò)密度越接近1說明網(wǎng)絡(luò)聯(lián)系越密切。圖3共現(xiàn)網(wǎng)絡(luò)密度為0.8658,標(biāo)準(zhǔn)差為1.6837,密度程度較強。由圖3得知正念、正念訓(xùn)練、心理健康處于核心位置,與其聯(lián)系的關(guān)鍵詞眾多,同時位于網(wǎng)絡(luò)圖中心的關(guān)鍵詞同周圍關(guān)鍵詞連線較多且粗,網(wǎng)絡(luò)邊緣關(guān)鍵詞間的聯(lián)系卻較弱。
圖1 基于凝聚子群分析的多層次結(jié)構(gòu)劃分方法結(jié)構(gòu)圖
劉佳騎著一只破舊的木馬,白凈的臉上泛著靦腆的紅暈,這是他第一次當(dāng)新郎倌,說話都有些結(jié)巴。我看得眼睛都直了,直接從許飛的背上跳下來,沖到他面前撅著嘴往他嘴上叭唧親了一口。
因此,在基于凝聚子群分析的多層次結(jié)構(gòu)劃分方法中,當(dāng)只關(guān)注子結(jié)構(gòu)內(nèi)節(jié)點間關(guān)系來進行多層次結(jié)構(gòu)劃分時,n-宗派和k-核均為較理想的方法。當(dāng)需要兼顧子結(jié)構(gòu)內(nèi)節(jié)點間關(guān)系強度或頻次相對于子結(jié)構(gòu)內(nèi)、外節(jié)點間關(guān)系強度或頻次時,lambda集合則較為理想,但由于lambda集合沒有對同一個子結(jié)構(gòu)中的節(jié)點間距離進行限定,所以劃分到同一個子結(jié)構(gòu)內(nèi)節(jié)點間距離可能很遠(yuǎn)。
在此,需要從對等性思想的角度考慮一些不同的方法。網(wǎng)絡(luò)與角色的對等性思想本質(zhì)上關(guān)注社會網(wǎng)絡(luò)研究中的“相似性”,至少包含“結(jié)構(gòu)對等性”、“自同構(gòu)對等性”、“規(guī)則對等性”三種不同的類型[12]。結(jié)構(gòu)上對等的行動者在任何結(jié)構(gòu)屬性(比如度數(shù))上都相同,則可以相互替代。以截面相似性(即鄰接矩陣中行和列的信息)可以說明節(jié)點間關(guān)系,截面相似性的具體測度方法包括對比法、相關(guān)法和歐氏距離法等。自同構(gòu)對等性要求當(dāng)兩個節(jié)點相互替換位置時,允許所有其他節(jié)點都調(diào)換位置,且保證網(wǎng)絡(luò)的性質(zhì)不改變,而測量自同構(gòu)對等性包括測地線對等性、Maxism算法、Tabu搜索法等方法。Sailer提出的規(guī)則對等性要求一系列節(jié)點的對等性,現(xiàn)實世界的網(wǎng)絡(luò)在節(jié)點對等性的定義上往往不滿足自同構(gòu)對等性和規(guī)則對等性的假定,因此需要根據(jù)結(jié)構(gòu)上的對等性,構(gòu)建結(jié)構(gòu)對等性矩陣,矩陣中第(i,j)項表示節(jié)點i和j的截面相似性測度。圖2清楚展示出基于對等性思想的多層次結(jié)構(gòu)劃分方法及其間的關(guān)系。
R.J.Mokken提出的n-宗派,是對n-派系概念的推廣。n-宗派和n-派系最主要的區(qū)別在于對“距離”的理解:n-派系中的“距離”指兩點在整個網(wǎng)絡(luò)中的距離;n-宗派是指兩節(jié)點在子結(jié)構(gòu)中的距離,由此可知n-宗派比n-派系的概念更加嚴(yán)格。與n-派系相似,k-叢實質(zhì)上也是對派系概念的一個推廣。Seidman和Foster觀察到n-派系常常不穩(wěn)健,即去掉網(wǎng)絡(luò)中一個或幾個點后,網(wǎng)絡(luò)結(jié)構(gòu)會受到很大影響。與n-派系相比,k-叢更能體現(xiàn)凝聚力的思想。k-核與k-叢不同,k-叢則要求各個節(jié)點都至少與k個點之外的其他節(jié)點相連,而k-核則要求任何節(jié)點至少與k個點相連[10]。k-核的優(yōu)勢在于研究者可以自行決定k值的大小,從而發(fā)現(xiàn)一些有意義的節(jié)點組合。雖然k-核不一定具有高度凝聚力的指標(biāo)群體,但是仍然表現(xiàn)出與派系類似的性質(zhì)。如果整個結(jié)構(gòu)可分為幾個子結(jié)構(gòu),每個子結(jié)構(gòu)內(nèi)節(jié)點存在關(guān)聯(lián),但各子結(jié)構(gòu)間沒有關(guān)聯(lián),則稱為成分。通過圖1可以更清楚地展示出基于凝聚子群分析的多層次結(jié)構(gòu)劃分方法及其之間的關(guān)系。
圖2 基于對等性思想的多層次結(jié)構(gòu)劃分方法結(jié)構(gòu)圖
作為研究網(wǎng)絡(luò)位置模型的方法之一,塊模型最早由White,Boorman和Breiger提出,是對社會角色的描述性代數(shù)分析,可以更好地理解各個節(jié)點及所屬結(jié)構(gòu)間異同點。一個塊模型包含兩部分:第一,按照一定標(biāo)準(zhǔn),把一個網(wǎng)絡(luò)中的各個節(jié)點分成幾個離散的子結(jié)構(gòu),稱為“塊”;第二,考慮每個“塊”之間是否存在關(guān)系。塊模型就是一種關(guān)于多元關(guān)系網(wǎng)絡(luò)的假設(shè),所提供的信息是關(guān)于各個“塊”之間的關(guān)系,而不是每個節(jié)點間的關(guān)系,因此研究的是網(wǎng)絡(luò)的總體特點,而且每個“塊”中的各個節(jié)點都具有結(jié)構(gòu)對等性。Concor模型是塊模型最常用的方法,其多層次劃分結(jié)果的可視化成為該方法的一大優(yōu)勢,其基本算法思想如下:
STEP1:計算矩陣各行(列)間的相關(guān)系數(shù),得到相關(guān)系數(shù)C1。
STEP2:輸入C1,繼續(xù)計算各行(列)間的相關(guān)系數(shù),得到C2。
其驗證流程也十分簡明,客戶端使用用戶憑據(jù)登錄系統(tǒng),服務(wù)器驗證通過后,依據(jù)上述規(guī)則生成jwt 返回給客戶端??蛻舳酥笤谙蚍?wù)器請求時,通過header 中的Authorization 字段以Bearer 形式攜帶此token 來發(fā)送至服務(wù)器端驗證身份和權(quán)限。一般的token流程可以由圖2 來表示,申請為1~2 步驟進行,請求資源以3~6 步驟進行。
由于水泥砂漿需要凝固時間,因此有必要對滲透膠漿進行一定的養(yǎng)生[3]。當(dāng)施工氣溫在30℃以下時,不需要特殊的養(yǎng)護方式,只需常溫下養(yǎng)護2~3d即可;而當(dāng)施工氣溫在30℃以上時,需要采用塑料薄膜進行覆蓋養(yǎng)生。如在砂漿中使用的是早強水泥或摻加了早強劑,則可在養(yǎng)護數(shù)小時砂漿硬化后開放交通[2]。
首句透露了詩人失偶的痛苦而點到即止,立即援引荀息、屈平典故,轉(zhuǎn)向?qū)φ煞蚬?jié)行的表彰,體現(xiàn)出作者的深明大義。當(dāng)然,商景蘭不可能將全部的心緒都反映在這首廣為傳誦、具有公眾性的悼亡詩中,但詩中欲語還休、隱隱透出的怨意,已經(jīng)奠定了她后半生詩作的感情基調(diào)。
STEP5:經(jīng)多次迭代,得到concor樹形圖,展示多層次劃分結(jié)果。
四、APP多層次劃分的實現(xiàn)
(一)APP信息可視化初探
然而,上述方法都是根據(jù)子結(jié)構(gòu)內(nèi)部節(jié)點間關(guān)系來完成對節(jié)點進行多層次結(jié)構(gòu)劃分的。Alba指出,一個結(jié)構(gòu)既要重點關(guān)注結(jié)構(gòu)內(nèi)部的關(guān)系,又要比較結(jié)構(gòu)內(nèi)部節(jié)點間相對于結(jié)構(gòu)內(nèi)、外節(jié)點間的關(guān)系強度或頻次。LS集合要求子結(jié)構(gòu)內(nèi)節(jié)點間關(guān)系相對較緊密,但與其他子結(jié)構(gòu)節(jié)點關(guān)系相對較小。Borgatti等人推廣了LS,提出了Lambda集合,其重要性質(zhì)是集合中的點不一定具有凝聚性。因為Lambda集合對各節(jié)點間距離不加限制,所以同一子結(jié)構(gòu)中各個節(jié)點間可能距離很遠(yuǎn)[11]。
20類APP的關(guān)系型數(shù)據(jù)W中,{wij,i,j=1,2,…,20}表示關(guān)系強弱,稱為權(quán)重。經(jīng)統(tǒng)計,權(quán)重最大值為16.4,最小值為7.6。最大值位于W第6行第6列的w66,表示通信聊天的總?cè)舜翁鞌?shù)的自然對數(shù);最小值位于W第12行第18列的w12,18,表示教育培訓(xùn)與健康醫(yī)療通信聊天被一個用戶在一天當(dāng)中同時使用的總?cè)舜翁鞌?shù)的自然對數(shù)。根據(jù)權(quán)重取值,從[7.00,16.4)、[8.00,16.40)、[9.00,16.40)、[10.00,16.40)、[11.00,16.40)、[12.00,16.40)、[13.00,16.40)、[14.00,16.40)、[15.00,16.40)、[16.00,17.00)10個權(quán)重限定條件下,繪制10個20類APP社群圖(見圖3)。
圖3 20類APP社群圖
為了清晰展示不同權(quán)重限制條件下社群圖的變化情況,圖3只展示了部分APP社群圖。不難發(fā)現(xiàn),20類APP間確實存在不同程度的關(guān)系,隨著權(quán)重的增加,APP社群圖結(jié)構(gòu)越來越簡潔。20類APP海量信息的可視化初探,為APP組合的多層次劃分提供了可能和基礎(chǔ)。
(二)APP多層次劃分全程
根據(jù)Concor模型可以完成對20類APP的多層次劃分,劃分全程及結(jié)果如圖4所示[13]13-26。
圖4 Concor樹形圖
圖4由右到左實現(xiàn)了APP類別組合由粗到細(xì)的劃分(層數(shù)為6時的劃分為可實現(xiàn)的最大程度的劃分)。顯然,當(dāng)層數(shù)為1時,所有APP類別屬于同一組合;當(dāng)層數(shù)為2時,APP類別組合情況為:{(網(wǎng)絡(luò)購物、網(wǎng)絡(luò)視頻、通信聊天、系統(tǒng)工具、數(shù)字閱讀、游戲、圖像服務(wù)、主題美化、網(wǎng)絡(luò)音樂、網(wǎng)絡(luò)社交),(麗人母嬰),(實用工具、本地生活、健康醫(yī)療),(汽車服務(wù)、新聞資訊、網(wǎng)絡(luò)金融、旅游出行、教育培訓(xùn)、效率辦公)};當(dāng)層數(shù)為3時、APP類別組合情況為:{(網(wǎng)絡(luò)購物、網(wǎng)絡(luò)視頻、通信聊天、系統(tǒng)工具、數(shù)字閱讀、游戲),(圖像服務(wù)、主題美化、網(wǎng)絡(luò)音樂、網(wǎng)絡(luò)社交),(麗人母嬰),(實用工具、本地生活),(健康醫(yī)療),(汽車服務(wù)、新聞資訊、網(wǎng)絡(luò)金融、旅游出行),(教育培訓(xùn)、效率辦公)};當(dāng)層數(shù)為4時、APP類別組合情況為:{(網(wǎng)絡(luò)購物),(網(wǎng)絡(luò)視頻、通信聊天、系統(tǒng)工具、數(shù)字閱讀、游戲),(圖像服務(wù)、主題美化),(網(wǎng)絡(luò)音樂、網(wǎng)絡(luò)社交),(麗人母嬰),(實用工具、本地生活),(健康醫(yī)療),(汽車服務(wù)、新聞資訊、網(wǎng)絡(luò)金融),(旅游出行),(教育培訓(xùn)、效率辦公)};當(dāng)層數(shù)為5時、APP類別組合情況為:{(網(wǎng)絡(luò)購物)、(網(wǎng)絡(luò)視頻、通信聊天、系統(tǒng)工具),(數(shù)字閱讀、游戲),(圖像服務(wù)、主題美化),(網(wǎng)絡(luò)音樂、網(wǎng)絡(luò)社交),(麗人母嬰),(實用工具、本地生活),(健康醫(yī)療),(汽車服務(wù)),(新聞資訊、網(wǎng)絡(luò)金融),(旅游出行),(教育培訓(xùn)、效率辦公)};當(dāng)層數(shù)為6時、APP類別組合情況為:{(網(wǎng)絡(luò)購物),(網(wǎng)絡(luò)視頻),(通信聊天、系統(tǒng)工具),(數(shù)字閱讀、游戲),(圖像服務(wù)、主題美化),(網(wǎng)絡(luò)音樂、網(wǎng)絡(luò)社交),(麗人母嬰),(實用工具、本地生活),(健康醫(yī)療),(汽車服務(wù)),(新聞資訊、網(wǎng)絡(luò)金融),(旅游出行),(教育培訓(xùn),效率辦公)}。
五、APP組合推薦
考慮到每類APP存在多種實際軟件,對劃分結(jié)果最細(xì)的APP組合(層數(shù)為6)進行研究。
(一)單類APP組合
單類APP組合是指組合劃分結(jié)果中一個組合只包含一類APP的情況。網(wǎng)絡(luò)購物(淘寶、微店等),網(wǎng)絡(luò)視頻(優(yōu)酷、直播吧等),麗人母嬰(明星衣櫥、寶寶故事等),健康醫(yī)療(健身寶典、用藥助手),汽車服務(wù)(滴滴打車、駕校一點通),旅游出行(高德導(dǎo)航、攜程旅游)仍然保持該類別獨立成為一個組合。由此說明,這些類別的APP在所涉及功能方面較為全面,智能手機用戶在使用該類APP時一般不考慮或不需要同時借助其他類別的APP,因此在引導(dǎo)APP功能拓展研發(fā)方面的作用較不明顯。
(二)多類APP組合
多類APP組合是指組合劃分結(jié)果中一個組合不止包括一類APP的情況。對于通信聊天和系統(tǒng)工具類APP組合來說,通信聊天包括微信、Skype、QQ等,系統(tǒng)工具包括Firefox、百度手機衛(wèi)士等。根據(jù)日常生活工作經(jīng)驗,如果人們使用通信聊天類是為了非事務(wù)性的,則在等候?qū)Ψ交貜?fù)時很可能會同時打開系統(tǒng)工具,通過瀏覽網(wǎng)頁或查收郵件等打發(fā)時間;如果以事務(wù)性為目的,比如會議等,則現(xiàn)有的會議報告或研究材料可能屬于網(wǎng)頁格式,亦或需要在聯(lián)絡(luò)途中同時檢索,這些情況都為通信聊天和系統(tǒng)工具兩類APP成為組合與同時使用提供可能的機會。對于數(shù)字閱讀和游戲類APP組合來說,數(shù)字閱讀包括iReader、漫畫人等APP,游戲類相對較容易理解。兩類APP均屬于休閑娛樂的范疇,為數(shù)字閱讀類型的游戲研發(fā)提供一些啟迪。此外,由于功能上的相似性,圖像服務(wù)和主題美化類APP屬于同一組合不難理解。根據(jù)人們?nèi)粘P袨楹徒?jīng)驗判斷,網(wǎng)絡(luò)音樂和網(wǎng)絡(luò)社交、實用工具和本地生活、新聞資訊和網(wǎng)絡(luò)金融、教育培訓(xùn)和效率辦公這四大組合的出現(xiàn),也符合邏輯推理(此處不再贅述)。
隨著智能手機的推廣和普及,APP的研發(fā)速度會不斷增加,不同APP的使用率也會日益提高。一方面,一套清晰完整的數(shù)據(jù)提取方案的提出為后續(xù)研究工作提供數(shù)據(jù)保證;另一方面,通過對智能手機APP組合實現(xiàn)多層次劃分,不僅可作為不同類APP功能打碎重組的依據(jù),并為多功能APP的研發(fā)提供方向,可進一步滿足用戶需求與拓展市場,而且消費者也可從中發(fā)現(xiàn)當(dāng)下常見的APP組合使用規(guī)律,為手機APP的選擇和安裝提供依據(jù),提高生活和工作效率。在產(chǎn)品使用階段,建議生產(chǎn)商進行APP組合調(diào)整后的手機用戶對多樣性和相容性的滿意程度進行調(diào)查[14],進一步預(yù)測客戶選擇偏好和流失情況[15]。但需要說明的是,本文以安卓系統(tǒng)的智能手機用戶為例,沒有涉及蘋果手機用戶,雖然蘋果手機在APP方面與其他手機品牌不存在兼容性問題,但考慮到購買和使用人群的不同,本文關(guān)于智能手機APP組合推薦得出的研究結(jié)論是否適用于所有智能手機數(shù)據(jù),還將有待進一步研究。
參考文獻:
[1]陳康, 黃曉宇, 王愛寶, 等. 基于位置信息的用戶行為軌跡分析與應(yīng)用綜述[J]. 電信科學(xué), 2013(4).
[2]Pablo B. Extracting Patterns from Locationhistory[C]. In Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, 2011, San Jose, California, USA.
[3]Leskovec J, Kleinberg J, Faloutsos C. Graphs over Time: Densification Laws, Shrinking Diameters and Possible Explanations[C]. Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining, 2005, Chicago, Illinois, USA.
[4]David J, Backstromb L, Cosleyc D. Inferring Social Ties from Geographic Coincidences[C]. Proceedings of the National Academy of Sciences of the United States of America, 2010.
[5]彭小川, 毛曉丹. BBS群體特征的社會網(wǎng)絡(luò)分析[J]. 青年研究, 2004(4).
[6]Charu C, Social Network Data Analytics[M]. New York:Springer, 2011.
[7]Miller T W.Modeling Techniques in Predictive Analytics with Python and R:A Guide to Data Sciendce[C]: A Guide to Data Science. Pearson Education Inc., 2014.
[8]劉軍. 社會網(wǎng)絡(luò)分析導(dǎo)論[M].北京:社會科學(xué)文獻出版社, 2004.
[9]Charu C. Aggarwal. An Introduction to Social Network Data Analysis[M]. New York:Springer, 2011.
[10]Borgatti S P, Everett M G. Models of Core/Periphery Structures[J]. Social Network, 1999(21).
[11]Borgatti S P, Everett M G, Shirey P R. LS Sets, Lamda Sets and Other Cohesive Subsets[J]. Social Network, 1990(12).
[12]Borgatti S P. A Comment on Doreian’s Regular Equivalence in Symmetric Structures[J]. Social Network, 1988(10).
[13]Borgatti S P, Everett M G, Freeman L C. Ucinet for Windows: Software for Social Network Analysis[M]. Harvard: Analytic Technologies, 2002.
[14]賴俊明. 大型購物中心的租戶組合對消費者的影響作用研究[J]. 統(tǒng)計與信息論壇, 2016(3).
[15]張宇, 張之明. 一種基于C5.0決策樹的客戶流失預(yù)測模型研究[J]. 統(tǒng)計與信息論壇, 2015(1):89.
(責(zé)任編輯:郭詩夢)
Research in Smartphone APP Combinations Recommendation under the Background of Big Data
CHENG Hao1,2,3a,3b,3c,LU Xiao-ling1,3b,3c,5,ZHONG Yan3b,3c,F(xiàn)AN Chao3b,4,ZHAO Yu5
(1.Center for Applied Statistics, Renmin University of China, Beijing 100872;2.Mailman School of Public Health, Columbia University, New York 10032; 3.a.Center for Statistical Consultation,b.School of Statistics, c.Data Mining Center, Renmin University of China, Beijing 100872;4.International Statistics Information Center, National Bureau of Statistics, Beijing 100826;5.QM&Rucstat Mobile Big Data Research Institute, Beijing 100015)
Abstract:Be confronted with existed and emerging varieties of APP, a new data extraction program and deep researches on APP combinations have become a hot topic in big data era. With redefining the relationship measurement method among different kinds of APP, the paper comes up with a complete relational data extraction program. The social network visualization tool helps to find the relationship degree and distribution among different kinds of APP. Concor model provides a trustworthy methodology foundation in multi-level division of APP and its recommendation. The research shows that multi-level division of APP combinations mines the common APP sets in real life and gives good explanatory and practical significance, providing direction for the development of the smartphone APP producers and promoting the development of intelligent life and production process.
Key words:smartphone; APP application; multi-level division of combinations; recommendation research
收稿日期:2015-11-18;修復(fù)日期:2016-04-12
基金項目:中國人民大學(xué)科學(xué)研究基金《消費者網(wǎng)絡(luò)購物行為統(tǒng)計建模研究》(2011030017)
作者簡介:程豪,男,山西長治人,博士生,研究方向:數(shù)據(jù)挖掘,結(jié)構(gòu)方程模型,社會網(wǎng)絡(luò);
中圖分類號:C811
文獻標(biāo)志碼:A
文章編號:1007-3116(2016)06-0086-06
呂曉玲,女,吉林省吉林市人,管理學(xué)博士,副教授,研究方向:統(tǒng)計學(xué)與消費者行為分析;
范超,男,北京人,博士生,研究方向:數(shù)據(jù)挖掘與機器學(xué)習(xí);
鐘琰,男,黑龍江哈爾濱人,碩士生,研究方向:數(shù)據(jù)挖掘與機器學(xué)習(xí);
趙昱,女,北京人,碩士生,研究方向:移動互聯(lián)網(wǎng)。
【統(tǒng)計應(yīng)用研究】