鮑慶森 董艷雪
摘 要:問卷發(fā)布者由問卷用戶獲取海量調(diào)研數(shù)據(jù),通過分析用戶的以往行為記錄,使用Jaccard相似系數(shù)計(jì)算用戶之間的相似度,應(yīng)用基于用戶的協(xié)同過濾算法,并輔以問卷的類別限制對推薦進(jìn)行調(diào)整,從而實(shí)現(xiàn)問卷的定向推薦。將協(xié)同過濾算法應(yīng)用于問卷用戶的問卷定制,可以有效提高問卷平臺的問卷回收率和有效率,明顯提升問卷平臺的使用效率。
關(guān)鍵詞:問卷平臺;協(xié)同過濾算法;Jaccard系數(shù)
近年來,隨著我國網(wǎng)絡(luò)信息化的發(fā)展,各種網(wǎng)絡(luò)調(diào)查問卷平臺應(yīng)運(yùn)而生。網(wǎng)絡(luò)調(diào)查問卷平臺是提供給調(diào)研人員,在網(wǎng)絡(luò)上通過制定詳細(xì)周密的問卷,要求被調(diào)查者據(jù)此進(jìn)行回答以收集資料的工具。經(jīng)調(diào)研發(fā)現(xiàn),市面上的調(diào)查問卷平臺存在以下幾點(diǎn)不足:
1.問卷不能有指向性地推薦給目標(biāo)人群,發(fā)布者也就不能高效獲取到準(zhǔn)確的調(diào)研數(shù)據(jù);
2.問卷平臺缺乏良好的運(yùn)營模式,無法實(shí)現(xiàn)問卷發(fā)布者與被調(diào)研者間的“共贏”;
3.對于手機(jī)等移動端的適配不夠便捷完善。
目前,許多平臺如亞馬遜網(wǎng)站、豆瓣網(wǎng)、今日頭條等都采用了頁面定制的功能,即采用過濾算法,向用戶實(shí)現(xiàn)個(gè)性化頁面呈現(xiàn),其中應(yīng)用較廣泛的算法是基于領(lǐng)域的協(xié)同過濾算法。
本文主要探討協(xié)同過濾算法在網(wǎng)絡(luò)調(diào)查問卷平臺中的研究與應(yīng)用。
1、相關(guān)研究
1.1協(xié)同過濾算法
協(xié)同過濾算法分為基于用戶的和基于物品的兩種:
(1)基于用戶的協(xié)同過濾(User CF,User Based Collaborative Filtering)
算法思想包含兩步,首先,計(jì)算登錄用戶a與其他用戶之間的相似度,依據(jù)相似度進(jìn)行排序后得到與用戶a相似度最高的用戶集合;然后,找出這個(gè)集合中的用戶做過的,且用戶a沒有做過的問卷進(jìn)行推薦。任意兩個(gè)用戶a,b之間相似度的計(jì)算可以通過Jaccard相似度系數(shù)求得,公式如下:
考慮到系統(tǒng)中存在大量并無交集的用戶,為了提高計(jì)算效率,首先排除與被推薦用戶a沒有交集的用戶,得到U(a,k),其中k表示用戶數(shù)量,a表示被推薦用戶;其次,利用相似度公式(式1-1)計(jì)算用戶相似度 Wab;最后,通過(式1-2)計(jì)算問卷的推薦指數(shù),其中,i表示問卷編號,N(i)表示完成問卷i的用戶集合,表示用戶b對i問卷的興趣度,在這里默認(rèn)為1。
它同樣需要兩步,首先計(jì)算出問卷與問卷之間的相似度序列,從中得到用戶做過問卷的相似度集合;然后,排序后找出問卷相似最高的問卷集合,排除掉用戶已經(jīng)做過的問卷之后給出推薦。與User CF不同的是,Item CF是以問卷為計(jì)算的主體,其相似度計(jì)算同User CF。
2、基于用戶的協(xié)同過濾推薦問卷的實(shí)現(xiàn)
2.1 問卷平臺推薦模型
2.2推薦算法應(yīng)用
通過對協(xié)同過濾算法的研究,筆者認(rèn)為用戶對問卷的行為記錄是實(shí)現(xiàn)推薦功能的關(guān)鍵信息,所以選擇了基于用戶的協(xié)同過濾算法和使用Jaccard相似度系數(shù)來計(jì)算用戶之間的相似度。
前臺設(shè)置推薦按鈕,用戶登陸后點(diǎn)擊,進(jìn)入推薦問卷頁面。后臺設(shè)置存儲推薦問卷號的數(shù)組Recommend,存儲相似度的數(shù)組Similar,存儲交集問卷數(shù)的數(shù)組In與存儲并集問卷數(shù)的數(shù)組Unt。首先使用SQL查詢語句到數(shù)據(jù)庫查詢登錄用戶有過行為記錄的問卷號,和與登錄用戶有交集的用戶號,并存入U(xiǎn)ser數(shù)組中。然后使用Jaccard相似度系數(shù)計(jì)算出用戶相似度存儲在數(shù)組Similar中,對Similar排序后取出前五位用戶號。再次到后臺數(shù)據(jù)庫分別查詢該五位用戶和目標(biāo)用戶有過行為記錄的問卷號,進(jìn)行差運(yùn)算后,將目標(biāo)用戶沒有做過的問卷號放入數(shù)組Recommend中,最后使用公式1-2來進(jìn)行問卷推薦值的計(jì)算。
平臺在運(yùn)用協(xié)同過濾算法的同時(shí),加入了問卷的類別限制。創(chuàng)建問卷時(shí),問卷發(fā)布者可以選擇問卷的目標(biāo)人群基本信息,比如性別,職業(yè),年齡等,先對用戶群體進(jìn)行初步的過濾,因?yàn)槊课挥脩粼谧詴r(shí)都填寫了用戶信息存儲在數(shù)據(jù)庫中,所以系統(tǒng)輔以對這些條件的限制,對推薦的結(jié)果進(jìn)行了進(jìn)一步的修正。推薦界面使用bootstrap提供的星級評價(jià)插件:bootstrap-star-rating來顯示問卷的推薦指數(shù),從而形象地提示用戶問卷的推薦值。
2.3 結(jié)果分析
驗(yàn)證推薦算法應(yīng)用到問卷平臺的效果,筆者從數(shù)據(jù)庫中隨機(jī)選取若干用戶登錄平臺進(jìn)行測試,登錄后,進(jìn)入問卷推薦頁面,頁面可展示推薦問卷以及問卷的推薦指數(shù),點(diǎn)擊問卷可進(jìn)入問卷調(diào)研。說明問卷類別限制與推薦算法可以正確運(yùn)行,從而實(shí)現(xiàn)了基本的個(gè)性化推薦功能。
3、結(jié)語
進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)顯得尤為重要,哪一個(gè)企業(yè)掌握了更加準(zhǔn)確全面的市場信息,哪個(gè)企業(yè)就掌握了競爭的主動權(quán),因此,能否準(zhǔn)確及時(shí)方便地找到目標(biāo)人群,獲取到需要的數(shù)據(jù)信息成為了各個(gè)企業(yè)之間競爭的關(guān)鍵。本平臺對用戶問卷行為進(jìn)行挖掘,通過基于用戶的協(xié)同過濾算法,實(shí)現(xiàn)了問卷的推薦,并加入生成問卷二維碼的功能,來方便移動用戶。對于推薦算法,筆者只是剛剛打開這扇大門,有關(guān)推薦系統(tǒng)的冷啟動問題與如何提高推薦算法的性能還有待筆者進(jìn)行進(jìn)一步的研究。
參考文獻(xiàn):
[1]項(xiàng)亮. 推薦系統(tǒng)實(shí)踐[M]. 人民郵電出版社, 2012.
[2]潘麗芳, 張大龍, 李慧. 基于用戶的協(xié)同過濾(UserCF)新聞推薦算法研究[J]. 山西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2018, 32(04):31-35.
[3]邱均平, 張聰. 高校圖書館館藏資源協(xié)同推薦系統(tǒng)研究[J]. 圖書情報(bào)工作, 2013, 57(22):132-137.
作者簡介:
鮑慶森(1996-),男,山東泰安人,本科在讀,計(jì)算機(jī)科學(xué)與技術(shù)專業(yè).董艷雪(1979-),女,山東淄博人,碩士研究生,講師,研究方向?yàn)橛?jì)算機(jī)應(yīng)用技術(shù)