• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      體育賽事用戶情感監(jiān)測系統(tǒng)搭建實驗
      ——以斯巴達(dá)勇士中國區(qū)賽事為例

      2023-08-02 09:00:56郭雨絲
      當(dāng)代體育科技 2023年19期
      關(guān)鍵詞:斯巴達(dá)賽事問卷

      郭雨絲

      (首都體育學(xué)院 北京 100191)

      隨著社會經(jīng)濟(jì)發(fā)展,休閑體育活動和體育賽事逐漸受到越來越多人的青睞,但是由于產(chǎn)業(yè)處于發(fā)展初期,各項體育賽事發(fā)展參差不齊。隨著高速發(fā)展而帶來的風(fēng)險與問題層出不窮。2021 年,甘肅白銀百公里越野賽21人遇難,更是將賽事運營的專業(yè)性和各類比賽體驗差別的討論推向了輿論高峰。通過賽后問卷中參賽者的評分和評價內(nèi)容,對文本信息進(jìn)行挖掘,從而可以制作一個用戶的情感分析器,該系統(tǒng)經(jīng)過長時間的數(shù)據(jù)積累和分析校正,可以用于監(jiān)控相關(guān)賬戶社交媒體、微信群中的用戶情感狀態(tài),可以在數(shù)據(jù)初篩和監(jiān)測方面起到重要作用。

      現(xiàn)階段,對于數(shù)據(jù)的收集、整理、分析多通過人工進(jìn)行,在數(shù)據(jù)量較小、賽事分布不夠密集的時候尚可進(jìn)行,而在未來產(chǎn)業(yè)的高速發(fā)展中,機(jī)器學(xué)習(xí)和文本挖掘在體育賽事用戶情感信息的反饋和監(jiān)控中將發(fā)揮巨大效用。

      1 相關(guān)已有研究

      以“體育賽事”和“文本挖掘”為檢索詞,在中國知網(wǎng)(CNKI)、萬方、維普三大平臺內(nèi)進(jìn)行搜索,僅有1 篇相關(guān)文章,通過對微博相關(guān)內(nèi)容進(jìn)行文本挖掘,研究東京奧運會的網(wǎng)民情感情況,以期對北京冬奧會的輿情管理提供建議。以大眾體育賽事為研究對象,關(guān)注賽事運營本身的質(zhì)量和參賽者體驗的研究尚未出現(xiàn)。

      研究方法方面,沈昕怡等[1]在對東京奧運會的網(wǎng)絡(luò)輿情研究中,選擇使用Python 對微博平臺的熱搜話題數(shù)據(jù)及對應(yīng)推文進(jìn)行爬取,通過詞頻統(tǒng)計、感情分析等方法,了解社交網(wǎng)絡(luò)媒體中網(wǎng)民所關(guān)注的奧運會主題及感情傾向,而對具體使用的算法并未提及;王瑾璟[2]在對五星級酒店在線外賣評價的研究中,使用八爪魚采集器對餓了么和美團(tuán)外賣平臺的相關(guān)點評進(jìn)行數(shù)據(jù)爬取,并使用Python中的jieba工具進(jìn)行分詞,人工標(biāo)注1 000 條情感傾向評論數(shù)據(jù)(有效數(shù)據(jù)共1 595條),通過樸素貝葉斯模型進(jìn)行情感分析,使用算法工具包sklearn 中的feature_extraction.text.CountVectorizer工具實現(xiàn)詞向量的標(biāo)記,并通過native_bayes 工具包構(gòu)建模型,最終模型的測試準(zhǔn)確率為0.835;郭凌云等[3]在對民宿用戶滿意度的研究中,使用Python爬取途家網(wǎng)、攜程網(wǎng)、Airbnb和繽客網(wǎng)的民宿用戶評論數(shù)據(jù),并使用LDA 主題聚類模型進(jìn)行聚類分析,從而得出中美兩國影響民宿用戶滿意度的因素及程度;邱冬陽等[4]在對雙十一活動消費者滿意度的研究中,使用Python 爬蟲程序?qū)Σ煌瑫r期美妝品類的消費者評論進(jìn)行獲取、清洗,利用jieba 分詞工具將句子進(jìn)行切分,并引入SnowNlp 情感分析,通過情感詞庫匹配法實現(xiàn)情感分類,建立LDA(latent dirichlet allocation)主題模型,進(jìn)一步分析滿意度的影響因素及形成因子。

      2 數(shù)據(jù)來源與選擇

      此次實驗以斯巴達(dá)勇士賽中國賽區(qū)的比賽為例。斯巴達(dá)勇士賽(Spartan Race)是一項風(fēng)靡全球的系列障礙賽,自2009年起源于美國以來,已有來自美洲、歐洲、亞洲、大洋洲、非洲的20 個國家和地區(qū)被授權(quán)舉辦這項頂級賽事,2016 年,斯巴達(dá)勇士賽正式登陸中國,并在3年內(nèi)高速發(fā)展為13座城市36場的大型系列賽事。斯巴達(dá)勇士賽與其他障礙路跑有些許不同,其擁有完善的競賽體系、進(jìn)階體系和榮譽體系[5]。在同一套的賽事體系、賽事規(guī)則、執(zhí)行標(biāo)準(zhǔn)和運營團(tuán)隊指導(dǎo)的前提下,其數(shù)據(jù)量和用戶數(shù)量快速增長,已經(jīng)基本可以達(dá)到引入機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的需求。

      2.1 數(shù)據(jù)來源

      2016年,第一場斯巴達(dá)勇士賽中國賽舉辦后,舉辦方即開始了賽后問卷的收集工作,問卷內(nèi)容不斷更新修改,于2018年開始基本確定整體框架,主要分為區(qū)域滿意度評分、賽事信息服務(wù)評分、整體意見、歷史參賽情況、本次參賽相關(guān)信息、運動習(xí)慣等個人信息,共計6大部分,70余項內(nèi)容。

      2.2 數(shù)據(jù)的選擇

      此次實驗選用2018 年的6 場賽后數(shù)據(jù)作為訓(xùn)練組,2019年的5場賽后數(shù)據(jù)作為實驗組,賽事級別和賽事規(guī)模相對接近,舉辦城市、參與人群均存在部分的重疊。通過整理和篩選,此次實驗僅使用凈推薦值(NPS)、綜合評分、文字形容、賽后意見4 項內(nèi)容,詳見表1。

      表1 數(shù)據(jù)選擇及相關(guān)信息

      3 實驗方法及過程

      3.1 數(shù)據(jù)提取及預(yù)處理

      該實驗使用Python 對數(shù)據(jù)進(jìn)行處理,首先引用pandas包對相關(guān)數(shù)據(jù)表格進(jìn)行閱讀,并使用切片語句,將上述提到的4列數(shù)據(jù)分別進(jìn)行切片和查看。由于各場比賽的賽后問卷結(jié)構(gòu)不是完全相同的,需要分別進(jìn)行切片。

      數(shù)據(jù)的整合過程中,由于各表格的標(biāo)題內(nèi)容不完全一樣,需要提前使用rename 函數(shù)將所有表格的標(biāo)題分別進(jìn)行修改和重命名,分別將“您會向同事或者朋友推薦斯巴達(dá)勇士賽嗎(滿分10分)?”改為“NPS”;將“您如何評價本次斯巴達(dá)勇士賽的整體體驗(滿分10分)?”改為“評分”;將“請用一個詞形容您心中的斯巴達(dá)勇士賽”改為“形容”;將“斯巴達(dá)賽事如何可以做得更好?請您留下任何可以想到的意見!”改為“意見”,從而獲得標(biāo)題統(tǒng)一的多個數(shù)據(jù)集。

      3.2 文本分詞

      引入停用詞stopwords 詞表,包含各類標(biāo)點,如“;”“.”“。”“?”“!”“-”“~”等,以及一些沒有實際意義的語氣詞,如“啊”“唉”“吧”“被”“而且”“不過”等,共768個詞組,對文本進(jìn)行分割,在分割內(nèi)容后插入空格。并使用jieba分詞工具將評論語句進(jìn)行分詞。

      3.3 訓(xùn)練數(shù)據(jù)集

      引用sklearn中的TfidfVectorizer和LogisticRegression 包,對數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的中文語言處理,通過對詞項的IDF 值進(jìn)行定義和判斷,機(jī)器實現(xiàn)數(shù)字與文字的對應(yīng),將每段文字賦予一個數(shù)字化的向量值(學(xué)習(xí)),再通過邏輯回歸的方式,計算文字所對應(yīng)的向量值(預(yù)測),并與原標(biāo)記值進(jìn)行比對(測準(zhǔn))。

      sklearn 庫全稱為Scikit-learn,是基于Python 編程語言用作機(jī)器學(xué)習(xí)的開源數(shù)據(jù)包,具有分類、回歸、聚類、數(shù)據(jù)預(yù)處理等算法,具體包括支持向量機(jī)(SVM)、隨機(jī)森林、k-Means、DBSCAN、主成分分析(PCA)等方法[6]。

      此次數(shù)據(jù)采用了兩組10 分指標(biāo)和兩組文字評價。凈推薦值(NPS值)是指是否愿意將賽事推薦給自己的朋友,是一種計量某個客戶將會向其他人推薦某個企業(yè)或服務(wù)可能性的指數(shù)。作為一個流行的顧客忠誠度分析指標(biāo),研究顧客口碑如何影響企業(yè)或品牌的成長,多家國際公司都用其作為評價市場口碑情況的重要數(shù)據(jù)。這個數(shù)值一定程度上表現(xiàn)了用戶滿意度,但是對比發(fā)現(xiàn),用戶的整體體驗評分與NPS仍有一定差異,通過兩個數(shù)值與文字的匹配回歸結(jié)果來看,整體體驗評分的準(zhǔn)確值更高。

      文字內(nèi)容的選擇上,由于問卷問題的設(shè)計“請用一個詞形容您心中的斯巴達(dá)勇士賽”在最初是用作“用戶第一印象”的文字云作為表達(dá)的,簡短的詞匯或詞組很難表達(dá)用戶的情緒,且單個形容詞或名詞的表述與評分?jǐn)?shù)值的相關(guān)性較差;“斯巴達(dá)賽事如何可以做得更好?請您留下任何可以想到的意見!”項內(nèi)容,由于提問方式的表達(dá)問題,整體文本偏負(fù)面,但相比單詞形容來講,其測算出的準(zhǔn)確值相對高一些。

      因此,在該實驗的測試集中,選用“評分”和“意見”兩組數(shù)據(jù)進(jìn)行訓(xùn)練與測試。

      3.4 實驗對比

      由于實驗初期對于數(shù)據(jù)的選用和數(shù)據(jù)量的劃分情況難以確定,因此做了多組對比實驗,包括不同數(shù)據(jù)內(nèi)容間的對比、不同數(shù)據(jù)集的對比、不同數(shù)據(jù)量的對比、不同的訓(xùn)練集與測試集的比例等之間的對比等,通過訓(xùn)練集和測試集的預(yù)測精確度進(jìn)行方法和數(shù)據(jù)的選擇。

      3.5 數(shù)據(jù)優(yōu)化

      在數(shù)據(jù)選擇和新數(shù)據(jù)引入中,發(fā)現(xiàn)文字處理和回歸的過程無法對Int格式和float格式的內(nèi)容進(jìn)行處理,因此,在數(shù)據(jù)預(yù)處理的部分增加了遍歷并刪除的工作。使用iterrows 函數(shù),對dataframe 進(jìn)行遍歷,搜索到格式為整數(shù)或浮點數(shù)的行進(jìn)行刪除[7]。

      在嘗試提高精確度的過程中,發(fā)現(xiàn)無論是對賽事感受較好的10 分選手還是感受較差的0~5 分選手,均存在未提意見的現(xiàn)象,造成同樣的文字對應(yīng)不同評分,對訓(xùn)練過程造成干擾。因此,在數(shù)據(jù)預(yù)處理部分增加了遍歷空值并刪除對應(yīng)行的工作。

      對于TfidfVectorizer 函數(shù)來講,訓(xùn)練集與測試集的比例會影響TF-IDF 值的計算[8],因此,在后期計算中,將訓(xùn)練集與測試集大致為1∶1的比例調(diào)整為大約5∶2,但是結(jié)果顯示精確度變化不大。

      4 實驗結(jié)果與問題

      4.1 實驗結(jié)果

      通過以上實驗過程,最終使用2018 年的6 場賽后問卷數(shù)據(jù)和2019 年的1 場賽后問卷數(shù)據(jù)作為訓(xùn)練集,共計4 897 條,經(jīng)過篩選處理,將不符合要求的格式內(nèi)容以及空值內(nèi)容刪除后,有效數(shù)據(jù)4 566 條;使用2019年的4場賽后問卷數(shù)據(jù)作為測試集,共計2 112條,經(jīng)過篩選處理,將不符合要求的格式內(nèi)容以及空值內(nèi)容刪除后,有效數(shù)據(jù)2 031條。

      訓(xùn)練集的模型評估報告如圖1 所示,10 分評論占全部數(shù)據(jù)的40.87%,7~9分評論占全部數(shù)據(jù)的55.32%,0~5 分的評論數(shù)量非常少,僅為全部數(shù)據(jù)的3.81%,由此可見,對于低分評論的訓(xùn)練內(nèi)容非常有限。且在高分評論中,很多選手雖然整體感受滿意度較高,但是仍為賽事提出了一些建設(shè)性的意見,導(dǎo)致模型整體的準(zhǔn)確率較低。

      圖1 訓(xùn)練集模型評估報告

      在測試集中,10分評論占全部數(shù)據(jù)量的51.6%,7~9分的高分評論占全部數(shù)據(jù)的46.58%,0~5分的低分評論僅有3條,且其準(zhǔn)確率較低,整體拉低了模型的準(zhǔn)確程度。

      4.2 遇到的問題

      4.2.1 數(shù)據(jù)集的有效性問題

      即使在實驗過程中進(jìn)行了多次優(yōu)化,實驗數(shù)據(jù)本身仍然存在許多無效信息未被排除,此次僅對浮點、整數(shù)格式以及“(空)”值和“無”值進(jìn)行刪除,但在瀏覽過程中發(fā)現(xiàn),仍存在“沒有”“暫無”等信息,需要進(jìn)一步進(jìn)行優(yōu)化,人工進(jìn)行排除,提高數(shù)據(jù)集本身的質(zhì)量。

      4.2.2 數(shù)據(jù)集的信息來源問題

      由于此次選用的數(shù)據(jù)本身存在負(fù)面性,其文字所提即為意見內(nèi)容,即使是10 分評價,可能也會出現(xiàn)部分負(fù)面詞語,而通過與賽事運營人員的溝通,了解到問卷的回收機(jī)制本身即是自愿填寫,而其福利為“折扣復(fù)購”,因此,大量抱怨的參賽者并不會填寫這個相對內(nèi)容較為冗雜的問卷內(nèi)容,從而導(dǎo)致低分評價非常少,并不是不存在,只是未被收集。

      4.2.3 評分量表分散的問題

      已有研究中,大量的情感分析均只用0、1 的二級量表,僅對文字信息進(jìn)行正面、負(fù)面的兩性判斷,部分進(jìn)行了0、1、2 的三級量表,增加了“中立性”的內(nèi)容[9-10]。而該實驗采用的10 計量表,將用戶的情緒進(jìn)行了分散,且不同用戶對自己的情緒感受評價非常主觀,對于機(jī)器學(xué)習(xí)并不友好。

      5 結(jié)語

      總體來看,此次實驗的結(jié)果雖然準(zhǔn)確率不高,但是為未來的研究提供了一種可能,建議未來對于問卷數(shù)據(jù)的收集過程中,應(yīng)盡量做到數(shù)據(jù)分層,有效對不同情緒感受的參賽者征集全面的情感信息,尤其要增加負(fù)面情緒的表達(dá)內(nèi)容及相關(guān)信息;對于數(shù)據(jù)的有效性和量表的一致性問題,在數(shù)據(jù)庫建立初期,可以考慮通過人工分揀的方式,對不同信息的內(nèi)容進(jìn)行二級或三級的分類,以增加機(jī)器學(xué)習(xí)和監(jiān)測系統(tǒng)的準(zhǔn)確性;或可以考慮使用已有的“中文正面/負(fù)面評價”詞表對數(shù)據(jù)進(jìn)行賦值,并人工修正。

      后期可以通過自動爬取微信群、社交媒體和網(wǎng)絡(luò)信息中對于相關(guān)賽事的評論,預(yù)判賽事在區(qū)域的影響力和城市參與度,并在一定程度上預(yù)測報名情況,對賽事運營前期的籌備和中期的組織具有較大作用。

      猜你喜歡
      斯巴達(dá)賽事問卷
      數(shù)獨小知識數(shù)獨賽事介紹(二)
      本月賽事
      羽毛球(2022年7期)2022-07-05 03:18:24
      問卷網(wǎng)
      橫眉與俯首
      橫眉與俯首
      問卷大調(diào)查
      賽事贊助溝通對感知匹配的影響
      問卷你做主
      爆笑卡卡
      宁夏| 堆龙德庆县| 黔东| 南澳县| 南宫市| 新巴尔虎左旗| 海南省| 双城市| 昆山市| 金沙县| 澄江县| 康乐县| 平泉县| 南康市| 观塘区| 英吉沙县| 诏安县| 高淳县| 杨浦区| 新建县| 连城县| 洛扎县| 平顺县| 昌宁县| 沙田区| 庆元县| 台州市| 东阳市| 太仓市| 武威市| 衡南县| 株洲县| 陆河县| 江城| 宜章县| 集安市| 大英县| 库伦旗| 南安市| 汕头市| 龙胜|