摘 要:近年來,隨著數字化和信息化的快速發(fā)展,越來越多的人開始使用智能手機。文章基于某公司某年連續(xù)21天4萬多位智能手機用戶的監(jiān)測數據,通過邏輯回歸模型對智能手機用戶的監(jiān)測數據進行挖掘和分析,有效地統(tǒng)計和歸納了用戶對于A類APP的使用情況,模型準確度達到了98.06%,同時對于智能手機APP的開發(fā)和使用提出了相應的建議。該研究的數據驅動的分析和決策,有助于精準了解用戶的行為和需求,可為推薦系統(tǒng)的智能推薦和個性化營銷等提供重要的決策依據,有力地促進了我國智能手機市場的持續(xù)健康發(fā)展。
關鍵詞:智能手機用戶;APP;監(jiān)測數據;邏輯回歸
中圖分類號:TP311.1;TN929.53 文獻標識碼:A 文章編號:2096-4706(2024)08-0036-04
DOI:10.19850/j.cnki.2096-4706.2024.08.009
0 引 言
近年來,隨著中國創(chuàng)造的不斷崛起,中國智能手機發(fā)展迅猛,成為全球最大的智能手機市場[1]。與此同時,伴隨著在技術創(chuàng)新、產品質量和市場營銷等方面所取得的顯著進步[2,3],智能手機軟件也得到了很好的發(fā)展,就目前來講,智能手機APP涵蓋社交、出行、資訊、購物、理財、娛樂、游戲等方方面面,給人們的生活帶來了極大的便利和豐富的趣味。研究智能手機用戶的監(jiān)測數據(包括APP的使用情況、點擊偏好、停留時間等),有助于精準了解用戶的行為、偏好和需求,從而優(yōu)化產品設計、改進所需服務和制定營銷策略,給人們帶來更好的體驗并提升用戶滿意度,進一步促進智能手機市場的繁榮發(fā)展。
1 問題描述
本研究收集了某公司某年連續(xù)21天4萬多位智能手機用戶的監(jiān)測數據[4,5],共包含兩個數據集:手機使用數據和手機類別數據。對于手機使用數據,每天的數據為1個txt文件,包含uid、appid、app_type、start_day、start_time、end_day、end_time、duration、up_flow和down_flow十列,其中,uid為用戶的ID,appid為APP的ID,app_type為APP的類型,start_day為使用起始日期,start_time為使用起始時間,end_day為使用結束日期,end_time為使用結束時間,duration為使用時長,up_flow為上行流量,down_flow為下行流量。對于手機類別數據app_class.csv,其包含appid和app_class兩列,其中,appid依然為APP的ID,app_class為APP的所屬類別,如社交類、影視類、教育類、出行類等,并采用英文字母A-T來表示,共20個常用的所屬類別。
本研究旨在預測用戶對A類APP的使用情況,通過分析用戶在第1天至第11天對A類APP的使用數據,來預測用戶在第12天至第21天是否會繼續(xù)使用該類APP,并且計算預測結果與真實結果相比的準確率。通過這種方法,更好地理解用戶的行為模式和軌跡趨勢,為手機APP的未來優(yōu)化和市場營銷提供有力的決策依據和有效建議。
2 問題分析
由于用戶在第12天至第21天是否使用A類APP的結果只有使用與不使用兩種情況,這是機器學習中典型的二分類問題[6]。因此,本研究使用邏輯回歸模型[7]進行問題求解。眾所周知,邏輯回歸是一種用于解決分類問題的有監(jiān)督學習算法,其在線性回歸模型的基礎上,通過Sigmoid函數將回歸結果轉換為0和1兩種類別,在機器學習算法中,其包括數據預處理[8]、模型訓練、模型評估和模型預測四個過程[9]。因此在本研究中,第一,對所提供的數據進行預處理,包括重復值檢測和處理、缺失值檢測和處理、異常值檢測和處理、數據離散化等。第二,需要將所提供的第1天至第11天的數據和app_class.csv合并為merged_data1,同時將第12天至第21天的數據和app_class.csv合并為merged_data2。第三,調用sklearn庫中的train_test_split函數,將merged_data1劃分為訓練集和測試集,并調用LogisticRegression模型使訓練集進行學習,使用測試集對模型精度進行驗證。第四,使用學習后的模型對merged_data2進行預測,并得到是否使用A類APP的預測結果。最后,使用評估分類模型的指標(準確度、精確度、召回率、ROC曲線和混淆矩陣等)對預測結果的性能進行評估。具體來說,基于預測結果和真實監(jiān)測數據,使用混淆矩陣得到模型在測試集上的預測結果與實際結果之間的對應關系,并計算預測結果和真實結果相比的準確率,同時,可以根據預測結果來計算假陽率(FPR)和真陽率(TPR),并將其繪制成ROC曲線圖形進行解讀[10]。
3 模型求解
3.1 數據預處理
首先,將第1天至第11天的智能手機用戶監(jiān)測數據進行逐一合并,合并后的數據為data1,同時,為每一列添加標題uid、appid、app_type、start_day、start_time、end_day、end_time、duration、up_flow和down_flow。其次,將data1數據的appid列與app_class數據的appid列進行合并,合并后的數據為merged_data1。最后,將app_type里面的用戶、usr和sys分別轉換成數字1、1和0。分別剔除start_day、duration、up_flow和down_flow中為0的數據,并在data數據最末處新增app_class和isa兩列,其中app_class與appid一一對應,isa列用于標記用戶是否使用A類APP,如果使用為1,否則為0。具體操作如下:
merged_data1['isa'][merged_data1['app_class']=='a']=1
merged_data1['isa'][merged_data1['app_class']!='a']=0
經過以上處理,得到的數據如圖1所示。
與之對應,完成第12天至第21天數據和app_class.csv的合并,合并后的數據為merged_data2。
3.2 模型建立
在問題分析中已經指出,本研究需要通過邏輯回歸模型進行問題求解,即導入sklearn中的LogisticRegression模型。具體操作如下:
from sklearn.linear_model import LogisticRegression as LR
Lr=LR( )
在此之前,需要篩選自變量和因變量,根據本研究的問題,篩選appid、app_type、duration、up_flow和down_flow五列作為自變量x,isa列作為因變量y。具體操作如下:
x=merged_data1[['appid','app_type','duration','up_flow','down_flow']]
y=merged_data1[['isa']]
接下來,使用train_test_split函數生成訓練集和測試集。具體操作如下:
x_train,x_test,y_train,y_test=train_test_split(x,y,train_size=0.8)
然后,通過fit方法擬合訓練集數據,并通過score方法對測試集數據進行打分。具體操作如下:
lr.fit(x_train,y_train)
lr.score(x_test,y_test)
最后,使用訓練后模型的predict方法對merged_data2數據中的待預測數據test_x進行預測,并得到預測結果pre_y。具體操作如下:
test_x=merged_data2[['appid','app_type','duration',
'up_flow', 'down_flow']]
pre_y=lr.predict(test_x)
3.3 模型評估
首先,介紹常見的評估指標。
TP(True Positive):預測為1,實際為1,預測正確。
FP(False Positive):預測為1,實際為0,預測錯誤。
FN(False Negative):預測為0,實際為1,預測錯誤。
TN(True Negative):預測為0,實際為0,預測正確。
同時,基于TP、FP、FN和TN得到混淆矩陣,如表1所示。
根據混淆矩陣得到評價分類模型的指標如下:
1)準確率(Accuracy):預測正確的結果占總樣本的百分比,計算式為:
(1)
2)召回率(Precision):在實際為正的樣本中被預測為正樣本的概率,計算式為:
(2)
3)精確率(Recall):在所有預測為正的樣本中實際為正樣本的概率,計算式為:
(3)
4)F1分數(F1-score):同時考慮精確率和召回率,讓兩者同時達到最高,取得平衡,計算式為:
(4)
根據預測結果pre_y和真實監(jiān)測數據即merged_data2中的isa列,使用Python中的sklearn.metrics模塊進行完整的二分類混淆矩陣檢驗。模型評估結果如圖2所示。
由圖2中的數據可知,該模型在總體上表現(xiàn)良好,準確率高達98%,并且能夠正確分類大部分負類樣本。然而,該模型對正類樣本的分類性能較差,模型無法正確識別正類樣本。為了提高該模型對正類樣本的分類能力,可以嘗試改進模型或解決數據不平衡的問題,從而提高模型整體的分類性能。
同時,對pre_y和merged_data2[['isa']]中的0和1進行統(tǒng)計,得到真實檢測數據和預測結果的混淆矩陣,如表2所示。
由表3可知,準確度= (27060571 + 0)/(27060571 + 7 + 536517 + 0)×100% = 98.06%,即模型的準確率為98.06%,模型的預測結果較好。
最后,計算假陽率(FPR)和真陽率(TPR)并繪制其ROC曲線,如圖3所示。
由圖3可知,模型的ROC曲線接近于1,且AUC值為0.98,可見模型的泛化能力較好。
4 結 論
本研究以某公司某年連續(xù)21天4萬多位智能手機用戶的監(jiān)測數據為研究對象,通過用戶已有的APP使用記錄預測用戶未來的APP使用情況。具體來講,通過用戶第1天至第11天對A類APP的使用記錄數據,預測用戶在第12天至第21天是否使用A類APP。由于是否使用A類APP只有使用與不使用兩種情況,是一個典型的二分類問題。因此,本研究選用機器學習中的邏輯回歸模型,篩選用戶在第1天至第11天對A類APP使用記錄中的可量化數據進行學習,并根據用戶在第12天至第21天的監(jiān)測數據對其是否使用A類APP進行預測。同時,將預測結果和真實監(jiān)測數據進行比較,通過計算準確率來評估模型的性能。結果表明,模型預測結果的準確度高達98.06%。
綜上,對用戶各類APP的使用情況進行精準的分析和預測,不僅能夠幫助了解用戶的行為和需求,還能為用戶畫像、推薦系統(tǒng)、個性化營銷等提供決策依據。這樣的數據驅動決策能夠進一步優(yōu)化用戶體驗和品牌競爭力,推動我國信息產業(yè)的建設和發(fā)展。另一方面,通過深入挖掘用戶數據,可以更好地了解用戶的偏好和習慣,為用戶量身定制個性化的服務和推薦,提升用戶滿意度和忠誠度。與此同時,有效的數據分析和預測也可以幫助企業(yè)更好地把握市場趨勢,及時調整產品策略和營銷策略,增強市場競爭力,實現(xiàn)可持續(xù)發(fā)展。
參考文獻:
[1] 朱祖平,婁小亭,張宇航.數字經濟背景下創(chuàng)新驅動發(fā)展的路徑研究——基于智能手機行業(yè)的實證分析 [J].福州大學學報:哲學社會科學版,2023,37(3):39-52+170-171.
[2] 王福祥.創(chuàng)新生態(tài)系統(tǒng)視角下華為智能手機技術創(chuàng)新趕超路徑研究 [D].哈爾濱:哈爾濱理工大學,2021.
[3] 朱健珣.公司智能手機產品精準營銷策略研究 [D].蘇州:蘇州大學,2022.
[4] 凌寶慧.基于數據挖掘技術的智能手機用戶行為分析 [J].科技信息,2012(36):306.
[5] 劉新帥,林強,曹永春,等.基于智能手機使用數據的用戶行為提取與分析 [J].西北民族大學學報:自然科學版,2019,40(3):26-33+43.
[6] 代雯月,王玲玲.基于分類技術的信用評分模型研究 [J].自動化應用,2023,64(12):180-183.
[7] 張俠.基于SVM和邏輯回歸的糖尿病數據分析與研究 [J].滄州師范學院學報,2023,39(1):19-23+84.
[8] 李小聰.基于機器學習的數據預處理框架研究 [J].中國信息化,2023(7):67-68.
[9] 阿布,胥嘉幸.機器學習之路 [M].北京:電子工業(yè)出版社,2017.
[10] 潘錫龍,陳麗,梁利斯.基于Logistic回歸和ROC曲線評價外周血PCT,CRP,NEU%和PLT水平在血流感染中的聯(lián)合預測價值 [J].現(xiàn)代檢驗醫(yī)學雜志,2020,35(6):119-124.
作者簡介:戴道成(1995.08—),男,漢族,陜西西安人,講師,碩士研究生,研究方向:數據挖掘和機器學習;于琛洋(2003.08—),女,漢族,陜西咸陽人,本科在讀,研究方向:數據分析;宋吉昊(2003.03—),男,漢族,陜西寶雞人,本科在讀,研究方向:數據分析;郭小亮(2007.06—),男,漢族,河南南陽人,本科在讀,研究方向:數據分析。
收稿日期:2023-10-16
Analysis of Smartphone User Monitoring Data Based on Logistic Regression
DAI Daocheng, YU Chenyang, SONG Jihao, GUO Xiaoliang
(School of Finance and Data Science, Xi'an Eurasia University, Xi'an 710065, China)
Abstract: In recent years, with the rapid development of digitization and informatization, more and more people have started to use smartphones. This article is based on the monitoring data of over 40000 smartphone users in a certain company for 21 consecutive days in a certain year. By using a logistic regression model to mine and analyze the monitoring data of smartphone users, the usage of Class A apps by users is effectively calculated and summarized. The accuracy of the model reaches 98.06%, and corresponding suggestions are proposed for the development and use of smartphone apps. The data-driven analysis and decision-making in this study contribute to a precise understanding of user behavior and needs, providing important decision-making basis for intelligent recommendations and personalized marketing in recommendation systems, and effectively promoting the sustained and healthy development of China's smartphone market.
Keywords: smartphone user; APP; monitoring data; logistic regression