浙江省科技信息研究院 陳驍
為了降低由于科技政策信息與創(chuàng)新主體需求之間匹配度較低引起的推送效果差的問(wèn)題,提出基于數(shù)據(jù)挖掘技術(shù)的科技政策信息推送算法。首先利用Python組件對(duì)信息中的詞匯進(jìn)行預(yù)處理,利用深度挖掘的方式確定數(shù)據(jù)簇的中心以及半徑,將其作為用戶信息需求匹配的參照,將用戶信息與數(shù)據(jù)簇之間建立匹配關(guān)系,將相似度最高的數(shù)據(jù)簇中對(duì)應(yīng)的信息作為推送內(nèi)容,完成信息推送。通過(guò)實(shí)驗(yàn)測(cè)試所提方法的推送效果,結(jié)果表明其推送的誤差均值在10%以內(nèi),用戶滿意度均值為94.13%,錯(cuò)誤推送率僅為0.93%。
信息爆炸的時(shí)代,信息傳播的體量越來(lái)越大,與此同時(shí),受眾對(duì)于信息的敏感度也越來(lái)越低[1]。為了實(shí)現(xiàn)信息與接收者之間的高度匹配,提高信息傳播的效果,進(jìn)行個(gè)性化的推送成為了重要方式[2]??萍颊呤歉骷?jí)科技管理部門(mén)為了促進(jìn)科技創(chuàng)新發(fā)展而制定的科技創(chuàng)新活動(dòng)基本規(guī)則,對(duì)科技發(fā)展方向具有指導(dǎo)意義,能夠激活創(chuàng)新資源、提高利用效率;激發(fā)創(chuàng)新潛力、增強(qiáng)創(chuàng)新實(shí)力;優(yōu)化創(chuàng)新環(huán)境、促進(jìn)創(chuàng)新合作[3]??萍颊咝畔⑼扑偷挠脩魧?duì)象主要包括企業(yè)、高校、科研機(jī)構(gòu)、創(chuàng)投機(jī)構(gòu)、孵化載體運(yùn)營(yíng)機(jī)構(gòu)等各類創(chuàng)新主體和創(chuàng)新服務(wù)主體。但是如何實(shí)現(xiàn)信息的精準(zhǔn)推送成為了現(xiàn)階段面臨的主要問(wèn)題[4]。數(shù)據(jù)挖掘技術(shù)是建立在大數(shù)據(jù)基礎(chǔ)之上的,以目標(biāo)信息為基礎(chǔ),分析具有相關(guān)特征的信息,或者分析一類信息的特征[5]。因此,將其應(yīng)用到信息推送中具有十分巨大的價(jià)值潛力。借助數(shù)據(jù)挖掘技術(shù),對(duì)創(chuàng)新主體和創(chuàng)新服務(wù)主體進(jìn)行識(shí)別,通過(guò)行為分析,確定存在特定科技政策需求的群體,以此為基礎(chǔ)實(shí)現(xiàn)更具針對(duì)性的個(gè)性化信息推送,對(duì)于提高信息傳播效果將產(chǎn)生積極作用[6-7]。
為此,本文提出基于數(shù)據(jù)挖掘技術(shù)的科技政策信息推送方法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了所提方法的有效性。通過(guò)本文的研究,以期為科技政策信息在更大范圍內(nèi)發(fā)揮實(shí)際價(jià)值提供幫助。
要實(shí)現(xiàn)科技政策信息的精準(zhǔn)推送,首先要對(duì)目標(biāo)用戶建立充分的了解,為此,本文利用深度挖掘技術(shù)實(shí)現(xiàn)對(duì)特征的描述,并以此為基礎(chǔ)建立了相應(yīng)的用戶畫(huà)像[8]。
在對(duì)用戶特征進(jìn)行挖掘之前,首先需要對(duì)用戶的行為信息進(jìn)行初步預(yù)處理??紤]到在實(shí)際的行為數(shù)據(jù)中,數(shù)據(jù)的形式具有明顯的多樣化特征[9],本文首先對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理。利用中文分詞包配套的Python組件作為數(shù)據(jù)核心內(nèi)容提煉工具,實(shí)現(xiàn)對(duì)數(shù)據(jù)中完整詞匯的分解操作,將停用詞表作為判斷依據(jù),當(dāng)完成對(duì)數(shù)據(jù)的完整遍歷后,對(duì)于部分無(wú)意義的停用詞,以及不具有實(shí)際意義詞匯進(jìn)行過(guò)濾處理,將過(guò)濾后的數(shù)據(jù)內(nèi)容整合成新的詞匯表。以此作為深度挖掘的數(shù)據(jù)基礎(chǔ)。
在新得到的詞匯表中,首先按照屬性將具有同種屬性的詞匯有序放置在同一數(shù)據(jù)簇中,再通過(guò)深度挖掘技術(shù)計(jì)算各種詞匯對(duì)應(yīng)索引值。假設(shè)新的詞匯表中,數(shù)據(jù)匯總包含x個(gè)數(shù)據(jù)簇,每個(gè)數(shù)據(jù)簇中的信息量為i,以此為基礎(chǔ)確定對(duì)應(yīng)不同數(shù)據(jù)簇的特征,就可以將待推送目標(biāo)的屬性特征與之進(jìn)行匹配,以此確定其需要的科技政策信息類型。對(duì)不同數(shù)據(jù)簇的數(shù)據(jù)進(jìn)行分類時(shí),首先要確定該簇的中心,其基本原理如圖1所示。
圖1 數(shù)據(jù)簇中心確定方法Fig.1 Method of determining data cluster center
從圖1中可以看出,對(duì)于不同的數(shù)據(jù)簇,其半徑是不同的,簇內(nèi)數(shù)據(jù)的密度也存在一定差異,這是因?yàn)椴煌~匯表中的信息在用戶畫(huà)像中的權(quán)重不同。在確定簇半徑時(shí),本文以詞匯出現(xiàn)的頻率作為評(píng)價(jià)標(biāo)準(zhǔn),當(dāng)詞匯出現(xiàn)的頻率為p時(shí),那么其在整個(gè)詞匯表中的權(quán)重計(jì)算方式為
其中,W表示詞匯的權(quán)重值,Pn表示數(shù)據(jù)簇的總頻率。通過(guò)這樣的方式,確定數(shù)據(jù)的數(shù)簇的權(quán)重,將頻率最高的詞匯作為中心,對(duì)應(yīng)的半徑即為數(shù)據(jù)簇權(quán)重在整體詞匯中的占比。
通過(guò)這樣的方式,將推送信息轉(zhuǎn)變?yōu)橛扇舾蓚€(gè)數(shù)據(jù)簇組成的單元,在確定推送目標(biāo)與推送內(nèi)容時(shí),通過(guò)將用戶的行為數(shù)據(jù)特征與之建立匹配關(guān)系即可實(shí)現(xiàn)。
在上述基礎(chǔ)上,為了實(shí)現(xiàn)信息的精準(zhǔn)推送,要建立起推送對(duì)象與信息之間的匹配關(guān)系。
首先對(duì)待推薦對(duì)象的行為信息進(jìn)行提取,并以上文劃分的數(shù)據(jù)屬性結(jié)果為依據(jù),分別進(jìn)行關(guān)聯(lián)性對(duì)比。當(dāng)確定與用戶行為相近的數(shù)據(jù)簇后,以數(shù)據(jù)簇內(nèi)詞匯對(duì)應(yīng)的科技政策信息為推送內(nèi)容,以此提高信息推送的有效性。其中,信息匹配的方式如圖2所示。
在圖2中,o點(diǎn)表示對(duì)應(yīng)數(shù)據(jù)簇的中心,分散的點(diǎn)表示用戶行為數(shù)據(jù),通過(guò)這樣的方式確定用戶對(duì)于科技政策信息的需求,將與之存在匹配關(guān)系數(shù)據(jù)簇內(nèi)對(duì)應(yīng)的信息作為推送內(nèi)容,實(shí)現(xiàn)精準(zhǔn)的信息推送,提高用戶對(duì)推送內(nèi)容的滿意度。
圖2 用戶屬性特征匹配方式Fig.2 Matching method of user attribute characteristics
需要注意的是,部分用戶的行為數(shù)據(jù)會(huì)表現(xiàn)出單一屬性特征,由于數(shù)據(jù)之間都是存在一定關(guān)聯(lián)的,出現(xiàn)該情況極有可能是因?yàn)樾畔⒌牟杉煌暾?,用戶?shù)據(jù)的提取存在誤差,因此需要對(duì)數(shù)據(jù)信息進(jìn)行檢驗(yàn),以此確保計(jì)算結(jié)果的可靠性,為推送提供可靠保障。
為了測(cè)試本文提出的信息推薦算法的效果,采用傳統(tǒng)的基于協(xié)同過(guò)濾推薦方法[10]和基于模糊遺傳的推薦方法作為實(shí)驗(yàn)的對(duì)照組,通過(guò)分析三種方法的推薦效果,實(shí)現(xiàn)對(duì)本文設(shè)計(jì)算法的客觀評(píng)價(jià)。
實(shí)驗(yàn)測(cè)試是在Windows10環(huán)境下進(jìn)行的,并利用仿真軟件搭建了用戶行為關(guān)系網(wǎng),為了確保實(shí)驗(yàn)設(shè)計(jì)最大限度接近實(shí)際情況,本文選取了浙江科技大腦的100個(gè)用戶行為數(shù)據(jù)作為實(shí)驗(yàn)測(cè)試的樣本。當(dāng)其接收到推送信息后,根據(jù)自身設(shè)定的數(shù)據(jù)與接收信息之間的匹配度,對(duì)其進(jìn)行評(píng)分,評(píng)分的閾值為[0,1]。以此為基礎(chǔ)對(duì)比三種方法信息推送的精度,直接對(duì)精度進(jìn)行統(tǒng)計(jì)難度較大,本文將平均絕對(duì)誤差MAE作為度量推送系統(tǒng)精度的指標(biāo),其計(jì)算方式為
其中,Di表示第i個(gè)用戶對(duì)推送信息的評(píng)分,n表示實(shí)驗(yàn)設(shè)計(jì)的用戶總量。
在此基礎(chǔ)上,利用三種方法進(jìn)行信息推送,并對(duì)比推送的效果。
在上述基礎(chǔ)上,分別對(duì)比了三種方法的推送效果,為了提高測(cè)試結(jié)果的可靠性,測(cè)試共進(jìn)行了5次,具體如表1所示。
表1 不同推送方法的平均絕對(duì)誤差統(tǒng)計(jì)表Tab.1 Statistical table of average absolute error of different push methods
從表1中可以看出,基于協(xié)同過(guò)濾推薦方法平均絕對(duì)誤差基本在20%左右,處于較高的水平,基于模糊遺傳的推薦方法與之相比有所下降,但也達(dá)到了42%,本文方法的平均絕對(duì)誤差基本穩(wěn)定在10以內(nèi),初始測(cè)試時(shí)達(dá)到10.96,但隨著數(shù)據(jù)挖掘的深入,誤差始終穩(wěn)定在10%以內(nèi)。表明本文提出的算法可以實(shí)現(xiàn)對(duì)于信息的高精度推送。
為了進(jìn)一步分析三種方法的推送效果,對(duì)數(shù)據(jù)進(jìn)行了詳細(xì)分析,分析了該部分信息推送用戶對(duì)信息的需求度,該值以用戶匹配結(jié)果為指標(biāo)進(jìn)行統(tǒng)計(jì),得到的數(shù)據(jù)如表2所示。
表2 推送需求度分析表/%Tab.2 Analysis table of degree of push demand/%
從表2中可以看出,協(xié)同過(guò)濾推薦方法的推薦結(jié)果中,用戶的整體需求度均值為63.95%,勉強(qiáng)達(dá)到及格水平,無(wú)需求規(guī)模均值達(dá)到了5%以上,模糊遺傳推薦方法的推薦結(jié)果中,用戶整體需求度均值為73.77%,處于良好水平,無(wú)需求規(guī)模均值也僅為3.26%,但與本文方法相比,其仍存在一定提升空間,本文方法推薦結(jié)果中,整體需求度均值為94.13%,無(wú)需求規(guī)模均直接0.83%,明顯低于對(duì)比方法的5.13%和3.26%。表明本文設(shè)計(jì)的信息推送算法綜合性能較優(yōu)。
科技政策信息對(duì)于各類創(chuàng)新主體和創(chuàng)新服務(wù)主體發(fā)展具有重要的指導(dǎo)作用,所以通過(guò)精準(zhǔn)匹配實(shí)現(xiàn)精準(zhǔn)推送具有十分重要的價(jià)值。本文提出的基于數(shù)據(jù)挖掘技術(shù)的科技政策信息推送算法,在對(duì)用戶行為進(jìn)行深度挖掘分析的基礎(chǔ)上,實(shí)現(xiàn)了高精度的信息推送。通過(guò)本文的研究,希望幫助相關(guān)科技政策信息能夠?qū)崿F(xiàn)更加有效的傳播,助力科技創(chuàng)新事業(yè)發(fā)展。