劉慶旭,夏小青
(南京工業(yè)大學(xué)浦江學(xué)院 圖書(shū)館,江蘇 南京 211200)
2012年3月,教育部頒發(fā)了《教育信息化十年發(fā)展規(guī)劃(2011-2020)》,就“促進(jìn)優(yōu)質(zhì)教育資源的建設(shè)與共享”等教育信息化資源建設(shè)內(nèi)容作了重點(diǎn)闡述[1]。2018年教育部印發(fā)《教育信息化2.0行動(dòng)計(jì)劃》,強(qiáng)調(diào)以信息化引領(lǐng)構(gòu)建以學(xué)習(xí)者為中心的全新教育生態(tài),實(shí)現(xiàn)公平而有質(zhì)量的教育,并提出要到2022年基本實(shí)現(xiàn)“三全兩高一大”的發(fā)展目標(biāo),其中,“兩高”指的是信息化應(yīng)用水平和師生信息素養(yǎng)普遍提高[2]。高校圖書(shū)館網(wǎng)站是高校落實(shí)教育部規(guī)劃,積極推進(jìn)教育信息化的重要組成部分,高校圖書(shū)館網(wǎng)站建設(shè)水平直接關(guān)系到高校信息化的推進(jìn)程度。
目前,高校圖書(shū)館網(wǎng)站研究是學(xué)術(shù)界研究的重點(diǎn)領(lǐng)域,國(guó)內(nèi)外學(xué)者均給予重點(diǎn)關(guān)注和研究。White E等[3]研究了門(mén)戶網(wǎng)站的內(nèi)容對(duì)學(xué)術(shù)圖書(shū)館員和其他利益相關(guān)者的教育作用,同時(shí)還以恩克魯瑪科技大學(xué)作為案例,研究了圖書(shū)館門(mén)戶網(wǎng)站在增強(qiáng)用戶學(xué)術(shù)交流培訓(xùn)方面所起到的作用。Desmarais B等[4]描述了2020年春季學(xué)期在東北州立大學(xué)進(jìn)行的一項(xiàng)研究,該研究詳細(xì)介紹了網(wǎng)站重新設(shè)計(jì)過(guò)程的初始階段,這些過(guò)程是從網(wǎng)站設(shè)計(jì)和功能的在線調(diào)查中收集到的反饋信息。用戶體驗(yàn)調(diào)查后得到的結(jié)果用于衡量受訪者對(duì)圖書(shū)館網(wǎng)站的滿意度,并為以后的重新設(shè)計(jì)策略提供信息。數(shù)據(jù)將用于規(guī)劃和評(píng)估大學(xué)網(wǎng)站設(shè)計(jì)項(xiàng)目的下一階段。Brunskill A[5]采訪了12名殘疾大學(xué)生,了解他們對(duì)學(xué)術(shù)圖書(shū)館門(mén)戶網(wǎng)站導(dǎo)航、搜索詞以及網(wǎng)頁(yè)界面的看法,這些訪談揭示了圍繞網(wǎng)站可訪問(wèn)性和包容性的許多重要考慮因素,并據(jù)此編制了一份建議清單。國(guó)內(nèi)學(xué)者張超[6]從用戶角度對(duì)高校圖書(shū)館網(wǎng)站進(jìn)行了多維分類。劉薈嶺[7]選取30所農(nóng)業(yè)類高校圖書(shū)館網(wǎng)站進(jìn)行調(diào)查,針對(duì)傳統(tǒng)服務(wù)、個(gè)性化信息服務(wù)、參考咨詢服務(wù)和用戶分類服務(wù)等欄目展開(kāi)分析,并結(jié)合網(wǎng)站服務(wù)現(xiàn)狀提出了一些建議。宋愛(ài)林[8]基于前期調(diào)查的結(jié)果,設(shè)計(jì)一個(gè)包含TAG標(biāo)簽的復(fù)合分類導(dǎo)航系統(tǒng),并闡述了實(shí)現(xiàn)方案,力求創(chuàng)建一種允許讀者參與的立體化數(shù)字資源導(dǎo)航模式。
從現(xiàn)有研究成果看,國(guó)內(nèi)外學(xué)者對(duì)圖書(shū)館網(wǎng)站都保持了較高關(guān)注度和研究熱情,但運(yùn)用數(shù)據(jù)挖掘的方法,將決策樹(shù)算法運(yùn)用到高校圖書(shū)館網(wǎng)站分類的研究成果還較少。筆者將決策樹(shù)算法和鏈接分析法相結(jié)合運(yùn)用到高校圖書(shū)館網(wǎng)站分類研究中,以期解決如下三方面的問(wèn)題:①哪些指標(biāo)對(duì)高校圖書(shū)館網(wǎng)站分類能夠產(chǎn)生較大影響?②各項(xiàng)指標(biāo)按照重要性如何排序?③基于決策樹(shù)算法和鏈接分析法的高校圖書(shū)館網(wǎng)站如何分類?文中的研究從理論層面可以推動(dòng)我國(guó)高校圖書(shū)館網(wǎng)站分類研究的理論分析,在實(shí)踐層面上可以為高校圖書(shū)館網(wǎng)站的建設(shè)和分類起到參考和借鑒作用。
決策樹(shù)算法是一種以決策樹(shù)數(shù)據(jù)結(jié)構(gòu)為基礎(chǔ)的分類算法[9],其基本思想是通過(guò)一些判斷條件對(duì)原始數(shù)據(jù)集逐步二分和細(xì)化。其中,每一個(gè)分叉點(diǎn)代表一個(gè)決策判斷條件,每個(gè)分叉點(diǎn)下有兩個(gè)葉節(jié)點(diǎn),分別代表滿足條件和不滿足條件[10]。決策樹(shù)算法的目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)中潛在的分類規(guī)則,因而其核心內(nèi)容是構(gòu)造一個(gè)高精度、小規(guī)模的決策樹(shù),通過(guò)從數(shù)據(jù)集中自動(dòng)地構(gòu)造決策樹(shù),從而可以根據(jù)這個(gè)決策樹(shù)對(duì)任意實(shí)例進(jìn)行判定[9]。
所謂鏈接分析法,是指一種基于引文分析法發(fā)展起來(lái)的,以網(wǎng)絡(luò)鏈接為研究對(duì)象,利用搜索引擎、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)和數(shù)學(xué)統(tǒng)計(jì)分析方法,對(duì)網(wǎng)絡(luò)鏈接的分布規(guī)律和網(wǎng)絡(luò)信息單元之間的鏈接規(guī)律進(jìn)行分析研究的一種定量分析方法[11]。鏈接分析法是客觀定量評(píng)價(jià)中較為重要的方法之一。它主要利用網(wǎng)絡(luò)站點(diǎn)間鏈接正向肯定關(guān)系而對(duì)網(wǎng)站自身信息組織和揭示的科學(xué)性和合理性以及網(wǎng)站影響力進(jìn)行間接評(píng)價(jià)[12]。
本次高校名單來(lái)源于2021年江蘇省大學(xué)排名一覽表中所發(fā)布的高等院校,共收集到江蘇省高校數(shù)量137家,由于部分網(wǎng)站無(wú)法訪問(wèn)或收集不到數(shù)據(jù)19家,實(shí)際共收集高校數(shù)據(jù)118家。本次研究將以所收集到的118家高校圖書(shū)館網(wǎng)站數(shù)據(jù)為基礎(chǔ)進(jìn)行分析,部分高校圖書(shū)館網(wǎng)站原始數(shù)據(jù)及指標(biāo)如圖1所示。
本次數(shù)據(jù)收集指標(biāo)共包括12項(xiàng),分別為總網(wǎng)頁(yè)數(shù)、總鏈接數(shù)、網(wǎng)絡(luò)影響因子、PC詞數(shù)、移動(dòng)詞數(shù)、反鏈數(shù)、索引量、一月收錄、百度權(quán)重、移動(dòng)權(quán)重、360權(quán)重、搜狗權(quán)重,總網(wǎng)頁(yè)數(shù)、總鏈接數(shù)、網(wǎng)絡(luò)影響因子指標(biāo)采集方式及其含義來(lái)自已有文獻(xiàn),總網(wǎng)頁(yè)數(shù)指標(biāo)數(shù)據(jù)采集方式為“site+域名”,總鏈接數(shù)指標(biāo)數(shù)據(jù)采集方式為“http://+域名”,網(wǎng)絡(luò)影響因子指標(biāo)數(shù)據(jù)為總鏈接數(shù)與總網(wǎng)頁(yè)數(shù)的比值。PC詞數(shù)、移動(dòng)詞數(shù)、反鏈數(shù)、索引量、一月收錄、百度權(quán)重、移動(dòng)權(quán)重、360權(quán)重、搜狗權(quán)重均通過(guò)第三方網(wǎng)站站長(zhǎng)工具查詢獲得。百度權(quán)重、移動(dòng)權(quán)重、360權(quán)重、搜狗權(quán)重其含義類似,但是考慮到百度PC端、百度移動(dòng)端、360搜索、搜狗搜索在我國(guó)搜索引擎中均具有較大數(shù)量的用戶群,因此,筆者未做取舍,全部對(duì)數(shù)據(jù)進(jìn)行了收集。各項(xiàng)指標(biāo)的具體含義如下所述。
ZB1總網(wǎng)頁(yè)數(shù)[12]:是指網(wǎng)站內(nèi)網(wǎng)頁(yè)的總數(shù),在一定程度上反映了網(wǎng)站的規(guī)模和內(nèi)容的豐富程度。
ZB2總鏈接數(shù)[12]:即所有鏈接到該網(wǎng)站的鏈接數(shù)量,被普遍用于衡量網(wǎng)站的影響力和網(wǎng)絡(luò)輻射力。
ZB3網(wǎng)絡(luò)影響因子=總鏈接數(shù)/總網(wǎng)頁(yè)數(shù),反映了網(wǎng)站網(wǎng)頁(yè)被鏈接的能力。
ZB4 PC詞數(shù):指在電腦端有排名的關(guān)鍵詞詞數(shù)。
ZB5移動(dòng)詞數(shù):指在移動(dòng)端有排名的關(guān)鍵詞詞數(shù)。
ZB6反鏈數(shù)[13]:就是指從別的網(wǎng)站導(dǎo)入某網(wǎng)站的鏈接數(shù)量,導(dǎo)入鏈接對(duì)于網(wǎng)站優(yōu)化來(lái)說(shuō)是非常重要的一個(gè)過(guò)程,導(dǎo)入鏈接的質(zhì)量直接決定了某網(wǎng)站在搜索引擎中的權(quán)重。
ZB7索引量:指的是搜索引擎抓取網(wǎng)頁(yè)并經(jīng)過(guò)層層篩選后選取的頁(yè)面數(shù)量,即當(dāng)網(wǎng)站提交給搜索引擎后,它會(huì)派蜘蛛或機(jī)器人去目標(biāo)網(wǎng)站抓取頁(yè)面,獲取到的網(wǎng)址會(huì)被整理,按照一定層次分配到索引庫(kù)中,對(duì)網(wǎng)站SEO優(yōu)化有很大的幫助。
ZB8一月收錄:指一個(gè)月內(nèi)網(wǎng)站中的某個(gè)頁(yè)面被百度收錄的次數(shù)。
ZB9百度權(quán)重:指的是站長(zhǎng)工具等第三方平臺(tái)以百度關(guān)鍵詞排名情況所帶來(lái)的預(yù)估流量為標(biāo)準(zhǔn),對(duì)網(wǎng)站劃分等級(jí)。
ZB10移動(dòng)權(quán)重:指的是站長(zhǎng)工具等第三方平臺(tái)以百度移動(dòng)端關(guān)鍵詞排名情況所帶來(lái)的預(yù)估流量為標(biāo)準(zhǔn),對(duì)網(wǎng)站劃分等級(jí)。
ZB11 360權(quán)重:指的是站長(zhǎng)工具等第三方平臺(tái)以360關(guān)鍵詞排名情況所帶來(lái)的預(yù)估流量為標(biāo)準(zhǔn),對(duì)網(wǎng)站劃分等級(jí)。
ZB12搜狗權(quán)重:指的是站長(zhǎng)工具等第三方平臺(tái)以搜狗關(guān)鍵詞排名情況所帶來(lái)的預(yù)估流量為標(biāo)準(zhǔn),對(duì)網(wǎng)站劃分等級(jí)。
本次共收集到118家江蘇高校圖書(shū)館網(wǎng)站數(shù)據(jù)參與研究,對(duì)高校所屬地域和層次進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),南京占比最大,共有39家,緊隨其后的是蘇州、常州等城市,數(shù)量最多的為高職院校,普通本科院校、民辦院校、重點(diǎn)高校的數(shù)量依次遞減。具體統(tǒng)計(jì)結(jié)果如圖2和圖3所示。運(yùn)用R語(yǔ)言軟件對(duì)各項(xiàng)統(tǒng)計(jì)指標(biāo)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)并總結(jié),統(tǒng)計(jì)結(jié)果包括各項(xiàng)指標(biāo)的最小值、第一分位數(shù)、中位數(shù)、平均值、第三分位數(shù)、最大值,各項(xiàng)統(tǒng)計(jì)指標(biāo)具體描述結(jié)果如表1所示。
表1 原始數(shù)據(jù)統(tǒng)計(jì)指標(biāo)數(shù)據(jù)
本次決策樹(shù)構(gòu)建使用rpart函數(shù),因總網(wǎng)頁(yè)數(shù)相對(duì)于其他指標(biāo)更能反映出網(wǎng)站建設(shè)的規(guī)模和質(zhì)量,因此選擇“總鏈接數(shù)”“網(wǎng)絡(luò)影響因子”“PC詞數(shù)”“移動(dòng)詞數(shù)”“反鏈數(shù)”“索引量”“一月收錄”“百度權(quán)重”“移動(dòng)權(quán)重”“360權(quán)重”“搜狗權(quán)重”共11個(gè)變量對(duì)“總網(wǎng)頁(yè)數(shù)”變量建立決策樹(shù),且選擇樹(shù)的類型為回歸樹(shù)。具體執(zhí)行代碼如下所示:
> setwd("D:")
> getwd
function ()
.Internal(getwd())
> dat<-read.csv("gaoxiaoshuju.csv",header=F)
> dat<-read.csv("gaoxiaoshuju.csv",header=F)[,7:18]
> library(rpart)
Warning message:
程輯包‘rpart’是用R版本4.0.5 來(lái)建造的
> dat<-read.csv("gaoxiaoshuju.csv",header=T)[,7:18]
> formula=總網(wǎng)頁(yè)數(shù)~.
> rp=rpart(formula,dat,method="anova")
> print(rp)
n= 118
node), split, n, deviance, yval
* denotes terminal node
1) root 118 92068310000 13660.840
2) PC詞數(shù)< 38 78 2358097000 3125.372 *
3) PC詞數(shù)>=38 40 64170020000 34205.000
6) 一月收錄>=23.5 15 2327233000 4866.667 *
7) 一月收錄< 23.5 25 41185080000 51808.000
14) 百度權(quán)重< 1.5 10 1300020000 18900.000 *
15) 百度權(quán)重>=1.5 15 21836120000 73746.670 *
通過(guò)R語(yǔ)言軟件對(duì)本次構(gòu)建的決策樹(shù)進(jìn)行總結(jié),得出如下研究結(jié)果。
> summary(rp)
Call:
rpart(formula = formula, data = dat, method = "anova")
n= 118
CP nsplit rel errorxerrorxstd1 0.277 404 80 1.000 000 01.022 666 90.351 137 22 0.224 373 71 0.722 595 20.992 011 20.349 869 63 0.196 038 62 0.498 221 50.975 368 00.332 783 94 0.010 000 03 0.302 182 91.066 251 30.395 664 9
Variable importance
PC詞數(shù)移動(dòng)詞數(shù)百度權(quán)重一月收錄移動(dòng)權(quán)重總鏈接數(shù)收錄量反鏈數(shù) 2017151512777
Node number 1: 118 observations, complexity param=0.2774048
mean=13660.84, MSE=7.802399e+08
left son=2 (78 obs) right son=3 (40 obs)
Primary splits:
PC詞數(shù) < 38 to the left, improve=0.277 404 8, (0 missing)
百度權(quán)重 < 1.5 to the left, improve=0.266 369 3, (0 missing)
移動(dòng)詞數(shù) < 20 to the left, improve=0.241 070 4, (0 missing)
總鏈接數(shù) < 84950 to the left, improve=0.179 401 9, (0 missing)
收錄量 < 710.5 to the left, improve=0.152 049 4, (0 missing)
Surrogate splits:
移動(dòng)詞數(shù) < 20 to the left, agree=0.924, adj=0.775, (0 split)
百度權(quán)重 < 1.5 to the left, agree=0.881, adj=0.650, (0 split)
收錄量 < 710.5 to the left, agree=0.873, adj=0.625, (0 split)
一月收錄 < 4.5 to the left, agree=0.839, adj=0.525, (0 split)
移動(dòng)權(quán)重 < 1.5 to the left, agree=0.839, adj=0.525, (0 split)
Node number 2: 78 observations
mean=3125.372, MSE=3.023201e+07
Node number 3: 40 observations, complexity param=0.224 373 7
mean=34205, MSE=1.604 25e+09
left son=6 (15 obs) right son=7 (25 obs)
Primary splits:
一月收錄 < 23.5 to the right, improve=0.32192150, (0 missing)
總鏈接數(shù) < 14 to the left, improve=0.29964500, (0 missing)
網(wǎng)絡(luò)影響因子 < 0.93 to the left, improve=0.26043570, (0 missing)
收錄量 < 6566.5 to the right, improve=0.12198390, (0 missing)
反鏈數(shù) < 87 to the right, improve=0.06842155, (0 missing)
Surrogate splits:
總鏈接數(shù) < 7.5 to the left, agree=0.800, adj=0.467, (0 split)
移動(dòng)詞數(shù) < 62.5 to the right, agree=0.800, adj=0.467, (0 split)
PC詞數(shù) < 198 to the right, agree=0.775, adj=0.400, (0 split)
反鏈數(shù) < 95.5 to the right, agree=0.775, adj=0.400, (0 split)
移動(dòng)權(quán)重 < 2.5 to the right, agree=0.775, adj=0.400, (0 split)
Node number 6: 15 observations
mean=4866.667, MSE=1.551 489e+08
Node number 7: 25 observations, complexity param=0.196 038 6
mean=51808, MSE=1.647 403e+09
left son=14 (10 obs) right son=15 (15 obs)
Primary splits:
百度權(quán)重 < 1.5 to the left, improve=0.4382398, (0 missing)
搜狗權(quán)重 < 1.5 to the left, improve=0.3660384, (0 missing)
PC詞數(shù) < 87 to the left, improve=0.3509475, (0 missing)
移動(dòng)詞數(shù) < 24.5 to the left, improve=0.2264878, (0 missing)
總鏈接數(shù) < 78 to the left, improve=0.1951082, (0 missing)
Surrogate splits:
PC詞數(shù) < 65 to the left, agree=0.88, adj=0.7, (0 split)
移動(dòng)詞數(shù) < 19 to the left, agree=0.84, adj=0.6, (0 split)
總鏈接數(shù) < 14 to the left, agree=0.76, adj=0.4, (0 split)
反鏈數(shù) < 14.5 to the left, agree=0.76, adj=0.4, (0 split)
移動(dòng)權(quán)重 < 1.5 to the left, agree=0.76, adj=0.4, (0 split)
Node number 14: 10 observations
mean=18900, MSE=1.300 02e+08
Node number 15: 15 observations
mean=73746.67, MSE=1.455 741e+09
> library(rpart.plot)
Warning message:
程輯包‘rpart.plot’是用R版本4.0.5 來(lái)建造的
> rpart.plot(rp)
>
由圖4可知,在分類模型構(gòu)建過(guò)程中,PC詞數(shù)、一月收錄、百度權(quán)重3個(gè)指標(biāo)對(duì)整個(gè)決策樹(shù)構(gòu)建起到至關(guān)重要的作用。通過(guò)運(yùn)用決策樹(shù)算法和鏈接分析法對(duì)江蘇高校圖書(shū)館網(wǎng)站收集的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)本次高校圖書(shū)館網(wǎng)站的決策樹(shù)構(gòu)建共產(chǎn)生4個(gè)葉子節(jié)點(diǎn),且以PC詞數(shù)、一月收錄和百度權(quán)重作為了主要分類標(biāo)準(zhǔn),最終分類結(jié)果被劃分為四大類。第一類為PC詞數(shù)<38,占據(jù)樣本量的66%;第二類為PC詞數(shù)>38且一月收錄≥24,占據(jù)樣本量的13%;第三類為PC詞數(shù)>38且一月收錄<24且百度權(quán)重<2,占據(jù)樣本量的8%;第三類為PC詞數(shù)>38且一月收錄<24且百度權(quán)重≥2,占據(jù)樣本量的13%。在建立決策樹(shù)的過(guò)程中,各個(gè)變量按照重要性排序依次為:PC詞數(shù)、移動(dòng)詞數(shù)、百度權(quán)重、一月收錄、移動(dòng)權(quán)重、總鏈接數(shù)、收錄量、反鏈數(shù)。PC詞數(shù)和一月收錄指標(biāo)和網(wǎng)頁(yè)內(nèi)容的豐富度密切相關(guān),百度權(quán)重和網(wǎng)站的瀏覽量和檢索量密切相關(guān)。因此,優(yōu)化高校圖書(shū)館網(wǎng)站的重點(diǎn)在于網(wǎng)頁(yè)豐富度和網(wǎng)站瀏覽量。
以上研究成果表明,江蘇高校圖書(shū)館網(wǎng)站的決策樹(shù)分類模型構(gòu)建結(jié)果與PC詞數(shù)、一月收錄、百度權(quán)重3個(gè)指標(biāo)有較大關(guān)系,而這3個(gè)指標(biāo)又最終落腳于網(wǎng)頁(yè)豐富度和網(wǎng)站的瀏覽量。因此,筆者提出如下優(yōu)化策略:①合理設(shè)置網(wǎng)頁(yè)版面,豐富網(wǎng)頁(yè)內(nèi)容。網(wǎng)頁(yè)版面的設(shè)置并非越多越好,也并非越少越好,需要找到合適的數(shù)量。簡(jiǎn)潔明快的網(wǎng)頁(yè)版面會(huì)增加網(wǎng)站內(nèi)容的清晰度,讓用戶對(duì)其使用功能一目了然,同時(shí),也會(huì)增加用戶了解和使用圖書(shū)館網(wǎng)站的興趣。因此,需要在明確網(wǎng)站版面的同時(shí),擴(kuò)充網(wǎng)頁(yè)的內(nèi)容。②及時(shí)更新網(wǎng)頁(yè)內(nèi)容,增強(qiáng)網(wǎng)站與用戶間的交流,提高用戶黏度。網(wǎng)站內(nèi)容的新穎度直接影響用戶對(duì)網(wǎng)站的瀏覽量,網(wǎng)站更新越及時(shí)、內(nèi)容越新穎,越容易提高用戶的檢索興趣和檢索行為。因此,當(dāng)與用戶和圖書(shū)館相關(guān)的通知、會(huì)議、新聞報(bào)道等出現(xiàn)時(shí),應(yīng)及時(shí)對(duì)圖書(shū)館網(wǎng)站的內(nèi)容進(jìn)行更新。③廣泛運(yùn)用新媒體資源,增加宣傳和推廣。當(dāng)今時(shí)代是新媒體盛行的時(shí)代,以“兩微一端”為代表的新媒體匯集了大量的用戶群體。新媒體的廣泛應(yīng)用增加了用戶接觸和了解圖書(shū)館網(wǎng)站的機(jī)會(huì),同時(shí)新媒體信息傳播范圍廣、受眾面大的特點(diǎn)也有利于圖書(shū)館網(wǎng)站使用功能的傳播。傳播量的增加必然會(huì)增加網(wǎng)站的索引量。因此,高校圖書(shū)館網(wǎng)站可綜合運(yùn)用微信、微博、App客戶端以及抖音短視頻等平臺(tái),增加圖書(shū)館網(wǎng)站功能的傳播。
筆者將數(shù)據(jù)挖掘中的決策樹(shù)算法引入高校圖書(shū)館網(wǎng)站分類研究中,利用決策樹(shù)算法和鏈接分析法相結(jié)合的方法,對(duì)高校圖書(shū)館網(wǎng)站的相關(guān)指標(biāo)數(shù)據(jù)進(jìn)行了收集和分析。研究結(jié)果表明,本次高校圖書(shū)館網(wǎng)站可分為四大類,在涉及的所有指標(biāo)中,PC詞數(shù)、一月收錄、百度權(quán)重3個(gè)指標(biāo)在決策樹(shù)分類模型構(gòu)建中占據(jù)重要位置。除此之外,PC詞數(shù)、移動(dòng)詞數(shù)、百度權(quán)重、一月收錄、移動(dòng)權(quán)重、總鏈接數(shù)、收錄量、反鏈數(shù)指標(biāo)對(duì)整個(gè)決策樹(shù)分類模型構(gòu)建的重要性依次降低?;谝陨涎芯砍晒P者提出合理設(shè)置網(wǎng)頁(yè)版面,豐富網(wǎng)頁(yè)內(nèi)容;及時(shí)更新網(wǎng)頁(yè)內(nèi)容,增強(qiáng)網(wǎng)站與用戶間的交流,提高用戶黏度;廣泛運(yùn)用新媒體資源,增加宣傳和推廣。誠(chéng)然,本次研究還有諸多不足,如數(shù)據(jù)量較小,指標(biāo)維度較少等,在日后的研究中,將進(jìn)一步收集網(wǎng)站信息,增加數(shù)據(jù)樣本量,同時(shí)拓寬指標(biāo)維度范圍,以提升研究成果的科學(xué)性。
內(nèi)蒙古科技與經(jīng)濟(jì)2022年15期