劉迅雷 葛金琰
(西安交通大學(xué)體育中心 陜西 西安 710049)
大型體育場館高額的建設(shè)成本及運行成本,對國家和地方財政造成巨大壓力,加之大多數(shù)大型體育場館管理體制落后,運行機制滯后,更加加劇了場館經(jīng)營困難的局面。同時,大型體育場館面向社會運營管理問題也是擺在各級政府面前的難題,由于我國大型體育場館特殊的社會屬性和運營中存在的諸多問題,對大型體育場館運營管理的研究一直是學(xué)者們研究的重點。大型體育場館的運營客流量大,涉及的服務(wù)管理面廣,同時管理者的主觀判斷又非常依賴管理者的經(jīng)驗和能力水平,面對每天產(chǎn)生的巨量管理數(shù)據(jù),管理者很難做出有效的分析與整理,這在很大程度上影響了管理的經(jīng)營預(yù)測與決策,這也是單純?nèi)藶楣芾淼木窒扌裕徊煌诤唵蔚慕y(tǒng)計、計算、抽樣等數(shù)據(jù)分析方法,數(shù)據(jù)挖掘采用機器學(xué)習(xí)或者深度學(xué)習(xí)的方法幫助計算機學(xué)習(xí)蘊含在海量數(shù)據(jù)間的深層次知識(比如屬性之間的規(guī)律性,或者某些屬性的特征表征方式)。簡單來說,數(shù)據(jù)分析是把數(shù)據(jù)變成信息的工具,而數(shù)據(jù)挖掘是把信息變成認知的工具,可以將數(shù)據(jù)分析得出的信息轉(zhuǎn)化為有效的預(yù)測和決策。因此,本文希望通過數(shù)據(jù)挖掘的方法,充分利用起體育場館中獲得的海量數(shù)據(jù),將其轉(zhuǎn)換成我們之前沒有發(fā)現(xiàn)的規(guī)律或者信息,輔助大型體育場館的管理與發(fā)展。
數(shù)據(jù)挖掘,就是從海量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識的過程。數(shù)據(jù)采集/獲取和存儲得到的海量數(shù)據(jù)通過數(shù)據(jù)挖掘的方式轉(zhuǎn)換成有用的信息和知識,并進行廣泛的使用,涵蓋了商務(wù)管理、生產(chǎn)控制、市場分析、科學(xué)探索等多個領(lǐng)域。人們事先不知道、但又是潛在有用的信息和知識,這句話比較抽象。啤酒尿布的數(shù)據(jù)挖掘中應(yīng)用最早且最經(jīng)典的例子:沃爾瑪公司發(fā)現(xiàn)了一個非常有趣的現(xiàn)象,就是把尿布和啤酒這兩種毫不相關(guān)的商品擺在一起,能夠大幅度增加兩者的銷量。原因在于:美國的婦女通常在家照顧孩子,所以常常會囑咐丈夫在下班后為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。沃爾瑪公司正是從數(shù)據(jù)積累中挖掘出這種隱含的關(guān)聯(lián)性,因此將兩種商品并置,從而大大提高了關(guān)聯(lián)銷量,這就是數(shù)據(jù)挖掘的功勞。
(1)定義問題。在開始知識發(fā)現(xiàn)之前最先的也是最重要的就是定義業(yè)務(wù)需求。必須要對目標(biāo)有一個清晰明確的定義,即決定到底想干什么。比如,要發(fā)現(xiàn)體育場館客流量的變化規(guī)律;發(fā)現(xiàn)顧客的滿意度和體育場館的哪些方面有關(guān);
(2)數(shù)據(jù)清洗。數(shù)據(jù)的采集/獲取和存儲獲得的數(shù)據(jù)還無法達到分析的階段。因為其中包含了許多錯誤以及噪聲數(shù)據(jù),如,體育場館中由于某一天沒有營業(yè),或者前臺工作人員的疏忽,對當(dāng)天的盈利或者客流量的數(shù)據(jù)記錄出現(xiàn)錯誤等情況,必須通過數(shù)據(jù)清洗濾掉無用數(shù)據(jù),保證數(shù)據(jù)分析的準確性;
(3)建立模型。根據(jù)數(shù)據(jù)類型、分析方法以及問題定義的不同,選擇不同的模型對數(shù)據(jù)進行分析,不同的模型對不同場景的適用性是不同的。選擇最符合問題的模型,是這一步的關(guān)鍵;
(4)評價模型。模型建立好之后,必須評價得到的結(jié)果、解釋模型的價值。由于我們采集的數(shù)據(jù)不能代表所有情況,希望模型可以應(yīng)用于真實場景下,需要先在小范圍內(nèi)應(yīng)用,取得測試數(shù)據(jù),覺得滿意之后再向大范圍推廣;
(5)實施。模型建立并經(jīng)驗證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應(yīng)用到真實場景中。
數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是利用一種裝置,從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個接口。而隨著科技的發(fā)展,數(shù)據(jù)采集的技術(shù)呈現(xiàn)多樣化的發(fā)展趨勢,在大型體育場館的管理中表現(xiàn)為,如,通過攝像頭采集的視頻數(shù)據(jù)(出入口以及場館內(nèi)等)、工作人員操作電腦采集的每天售票量(客流量)的數(shù)據(jù)、客人意見簿采集到的評價文本數(shù)據(jù)等等。
數(shù)據(jù)存儲,是數(shù)據(jù)以某種格式記錄在計算機內(nèi)部或外部存儲介質(zhì)上。隨著硬件技術(shù)以及云技術(shù)的發(fā)展,海量數(shù)據(jù)的存儲變得簡單,不僅包括了傳統(tǒng)的硬件存儲方式(NAS、NDS等),還涵蓋了云存儲這種網(wǎng)上在線存儲方式。這兩類技術(shù)的發(fā)展,加之?dāng)?shù)據(jù)生成與傳播的便捷性,致使體育場館的數(shù)據(jù)爆炸性增長,為數(shù)據(jù)挖掘提供了數(shù)據(jù)基礎(chǔ)以及發(fā)展前提。
(1)分類:將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別。判斷體育場館今天的客流量是多—中等—少三種情況中的哪一類;
(2)回歸:發(fā)現(xiàn)某兩個要素間的關(guān)聯(lián)關(guān)系,用函數(shù)的形式表達出來。如,判斷體育場館的顧客滿意度和體育場館大小、服務(wù)態(tài)度、設(shè)備種類、環(huán)境衛(wèi)生幾個要素間的關(guān)系,用函數(shù)滿意度=f(場館大小、服務(wù)態(tài)度、設(shè)備種類、衛(wèi)生環(huán)境)表示;
(3)聚類:與分類問題類似,把一組數(shù)據(jù)按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。
(1)空閑場館檢測。
應(yīng)用場館:籃球、羽毛球、乒乓球場館等分場地的場館。
應(yīng)用背景:籃球場館除了場地預(yù)約情況外,進入場館的人可以自由選擇在哪一片場地運動,有的喜歡單獨在一片空場地,有的喜歡和其他人一起運動。因此,實時監(jiān)控籃球場內(nèi)各個場館的活動密集度(活動人數(shù))以及空閑場地數(shù)目非常重要。
應(yīng)用意義:幫助管理者了解場館內(nèi)各個場地的密集度,調(diào)整管理策略,控制客流量;也幫助運動者在進入場館后了解空閑場地的情況,提高場地的利用效率。
應(yīng)用技術(shù):計算機視覺領(lǐng)域——是指用攝影機和電腦代替人眼對目標(biāo)進行識別、跟蹤和測量等機器視覺,并進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。在體育場館中,攝像頭收集的視頻數(shù)據(jù)為CV的研究提供了視頻數(shù)據(jù)的支持,通過CV技術(shù)發(fā)現(xiàn)圖像或者視頻中的規(guī)律,在發(fā)現(xiàn)自動發(fā)現(xiàn)違規(guī)行為、危險發(fā)現(xiàn)、客流量統(tǒng)計、密集度預(yù)測的方面有重要作用。
功能:實時顯示如場地密集程度及場地的空閑程度,便于管理者適時調(diào)配,提高場地的利用效率。
(2)客人意見智能反饋。
應(yīng)用場館:所有提供意見簿或者客人意見反饋的場館。
應(yīng)用背景:現(xiàn)在許多場館會提供客人意見反饋的功能,顧客可以通過網(wǎng)絡(luò)或者記事本的形式表達自己對該場館的建議,這些建議對場館的建設(shè)和后續(xù)管理方面有著重要作用。
應(yīng)用意義:幫助場館了解顧客的建議和反饋,致力于為顧客提供更好的場館服務(wù)。
應(yīng)用技術(shù):自然語言處理——用計算機來處理、理解以及運用人類語言的過程。體育場館中關(guān)于語言數(shù)據(jù)的收集并不常見,如,顧客的意見和留言,但是這些語言數(shù)據(jù)是反映顧客滿意度以及建議的重要表現(xiàn)形式。合理分析語言數(shù)據(jù),發(fā)現(xiàn)顧客滿意度的內(nèi)在規(guī)律性,對體育場館提高管理質(zhì)量、吸引客流量等方面有重要意義。
(1)應(yīng)用場館:所有參與運營的體育場館;
(2)應(yīng)用背景:體育場館收集的數(shù)據(jù)很大一部分帶有時序性,如每天的客流量,每天的盈利,每天的管理費用等等。發(fā)現(xiàn)蘊含與時序數(shù)據(jù)中的規(guī)律性;
(3)應(yīng)用意義:通過對時序數(shù)據(jù)的研究,找出體育場館隨時序性變化而產(chǎn)生的規(guī)律,合理安排用工,提高管理效率;
(4)應(yīng)用技術(shù):時序數(shù)據(jù)分析——時間序列是指按時間順序排列的一組數(shù)據(jù),是一類重要的復(fù)雜數(shù)據(jù)對象。體育場館收集的數(shù)據(jù)很大一部分帶有時序性,如,每天的客流量,每天的盈利,每天的管理費用等等。發(fā)現(xiàn)蘊含與時序數(shù)據(jù)中的規(guī)律性,如客流量的時序變化,周一可能比較少,周末可能比較多;
(5)功能:借助對體育場館中的時序數(shù)據(jù)的收集與分析,對體育場館的未來運營風(fēng)險及時發(fā)現(xiàn)并提出警報,有利與提前制定預(yù)案。
當(dāng)前隨著存儲設(shè)備的性能提升、云時代的到來,大數(shù)據(jù)也吸引了越來越多的關(guān)注,大數(shù)據(jù)的分析也呈現(xiàn)火熱的發(fā)展趨勢,如支持向量機(SVM)、決策樹等。而如今,基于深度學(xué)習(xí)的方法成為大數(shù)據(jù)分析的主流方法,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶網(wǎng)絡(luò)(LSTM)。其中長短期記憶網(wǎng)絡(luò)主要解決具有顯著時間序列特征的數(shù)據(jù),在預(yù)測、分類任務(wù)上取得了很好的成果。本文的主要任務(wù)是通過對數(shù)據(jù)挖掘技術(shù)的定義方法及分類提出了體育場館管理的數(shù)據(jù)解決方案,并就計算機視覺、自然語言處理、時序數(shù)據(jù)研究的應(yīng)用進行了相關(guān)的分析與闡述,但這只是大數(shù)據(jù)背景下技術(shù)運用的很小一部分,未來隨著數(shù)字技術(shù)的發(fā)展與進步,必將有更加強大的數(shù)字處理工具應(yīng)用于大型體育場館的管理當(dāng)中,提高管理效率,降低管理成本,更好的服務(wù)于大眾健康事業(yè)。