胡繼明(濱州醫(yī)學院體育教研室 山東濱州 256603)
數(shù)據(jù)挖掘在體育信息化中應用與支持
胡繼明(濱州醫(yī)學院體育教研室 山東濱州 256603)
在現(xiàn)代計算機科學技術飛速發(fā)展的今天,體育行業(yè)的信息化產(chǎn)生了大量數(shù)據(jù),在對這些數(shù)據(jù)的分析和處理過程中,數(shù)據(jù)挖掘技術開始扮演越來越重要的角色。數(shù)據(jù)挖掘技術在運動訓練、實時決策、電子政務方面都有應用的潛力和研究價值。
體育信息化 數(shù)據(jù)挖掘 體育運動 支持決策 電子政務 訓練
隨著信息技術的不斷發(fā)展,體育行業(yè)的信息化成為一種新的需求。在西方各國,采用信息技術對體育全行業(yè)改造,取得競賽成績和經(jīng)濟效益的明顯提高。自1992年以來,科技奧運的概念己漸入人心。在我國,國家體育總局作為實施信息化建設較早的部門之一,在20世紀80年代中期,己開始把計算機技術應用于文字處理、文件管理等,辦公自動化從無到有,開始起步。20世紀90年代初陸續(xù)建設了辦公局域網(wǎng),完成了政府上網(wǎng)工程,實現(xiàn)了網(wǎng)上公文追蹤、公文流轉。進入新世紀,總局成立了體育信息化領導小組,加強了對體育信息化的領導,加大了信息化建設的投入,體育信息化建設取得了長足的發(fā)展。然而,對于體育信息化過程中產(chǎn)生的大量數(shù)據(jù),現(xiàn)有的系統(tǒng)和研究方法無法充分利用這些信息,使這些數(shù)據(jù)變成“死數(shù)據(jù)”,無法發(fā)揮IT技術的真正作用。在國外,在對這種大量數(shù)據(jù)的分析和處理過程中,數(shù)據(jù)挖掘技術開始扮演越來越重要的角色。
數(shù)據(jù)挖掘(Data Mining),也被作是數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery from Database,簡稱KDD),數(shù)據(jù)挖掘是一個非常復雜的過程,主要指的是從繁多的數(shù)據(jù)中,有價值的、未知的模式或者規(guī)律等知識得到抽取和挖掘。
以下是一個典型的數(shù)據(jù)挖掘系統(tǒng)包括的主要部件。
(1)數(shù)據(jù)倉庫(Data Warehouse)、數(shù)據(jù)庫(Database)以及其它信息庫:它表明一個(或組)數(shù)據(jù)表單、數(shù)據(jù)倉庫、數(shù)據(jù)庫、其它信息數(shù)據(jù)庫組成了數(shù)據(jù)挖掘對象,初步處理這些數(shù)據(jù)對象,常常采用數(shù)據(jù)清洗和數(shù)據(jù)集成操作的方法。
(2)數(shù)據(jù)倉庫、數(shù)據(jù)庫服務器:它的責任是由用戶提出的數(shù)據(jù)挖掘的要求,來讀取有關數(shù)據(jù)的。
(3)知識庫:數(shù)據(jù)挖掘時所需的領域知識存放在此,指導數(shù)據(jù)挖掘搜索的過程以及對挖掘結果的評估都會用到這些知識。最簡單的領域知識有挖掘算法中所使用的用戶定義的閾值。
(4)數(shù)據(jù)挖掘引擎:它是數(shù)據(jù)挖掘系統(tǒng)的最基本部件,具有一組挖掘功能模塊,用于定性歸納、偏差分析、分類歸納、關聯(lián)分析、進化計算等挖掘功能的完成。
(5)模式評估模塊:這個模塊能根據(jù)趣味標準(Interestingness Measures),來協(xié)助數(shù)據(jù)挖掘模塊使得聚焦挖掘更具意義的模式知識。要想使數(shù)據(jù)挖掘的時間和空間復雜度降低,可以使知識評估方法和數(shù)據(jù)挖掘算法進行有機結合。
(6)可視化模塊:是一個供用戶與數(shù)據(jù)挖掘系統(tǒng)交流的界面。一方面用戶自己的要求和任務通過它提交給系統(tǒng);另一方面系統(tǒng)向用戶通過它展示、解釋數(shù)據(jù)挖掘的結果,通過很多形式展示挖掘出的模式知識。
由于現(xiàn)代計算機科學技術發(fā)展,在體育運動訓練方面采用電子技術對運動員訓練狀況進行檢測成為可能,而面對各種檢測設備產(chǎn)生的大量數(shù)據(jù),要將轉化成其迅速、明確、基于事實的,可以指導教練員對訓練進行決策的信息,可以基于數(shù)據(jù)可視化技術以及數(shù)據(jù)挖掘技術開發(fā)運動訓練計算機輔助系統(tǒng)。
為了客觀地控制運動訓練過程,了解訓練效果和運動員當前狀態(tài),必須對運動員身體機能狀況進行評定。在有先進電子檢測設備的情況下,對運動員狀態(tài)數(shù)據(jù)的處理和分析成為一個重要問題。由于在實際訓練中的某些情況下,教練員需要迅速、直觀了解訓練狀態(tài)或與運動員過往數(shù)據(jù)進行對比,這里就要求幫助教練員創(chuàng)建數(shù)據(jù)挖掘模型,并利用模型發(fā)現(xiàn)各種狀態(tài)數(shù)據(jù)中存在的模式,從而對教練員進行決策支持,并且能夠指導研究人員對運動科學進行創(chuàng)新性研究。
在這里可以以前蘇聯(lián)《田徑運動》曾經(jīng)介紹的PWC170預測競走比賽成績的方法作為例子說明這種應用:在50公里競走項目中,為了根據(jù)運動員賽前狀態(tài)制定比賽戰(zhàn)術,常常需要對運動員的比賽成績進行預測。而根據(jù)PWC(Physical Working Capacity身體工作能力)的V值通過一定模式大致推出比賽的可能成績:
其中K值和這個模式(規(guī)律)本身是來自于以往的訓練數(shù)據(jù)和教練員的經(jīng)驗總結。這里可以看到,訓練數(shù)據(jù)中能夠發(fā)現(xiàn)有作用有意義的模式和知識。而這些規(guī)律的發(fā)現(xiàn),需要大量的實驗和數(shù)據(jù)統(tǒng)計分析。在這種情況下采用數(shù)據(jù)挖掘技術可幫助我們快速發(fā)現(xiàn)類似的新的未知知識,以促進訓練效果的進一步提高。
根據(jù)國家體育總局辦公廳副主任王路生同志在全國體育信息工作會議上的所作的《夯實基礎、注重實效、不斷推進體育政務信息化》講話上提出的發(fā)展目標和計劃。要求在體育產(chǎn)業(yè)的信息管理系統(tǒng)開發(fā)要在基于流程和數(shù)據(jù)挖掘技術為核心的b/s構架基礎上進行,界面友好,功能強大,能夠提高辦公效率。
在體育產(chǎn)業(yè)信息化的過程中,由于異構系統(tǒng)和未知需求等等問題的出現(xiàn),要求信息的提供要支持簡單數(shù)據(jù)挖掘的OLAP(在線數(shù)據(jù)分析)或OLTP(在線事務處理)技術。面對實現(xiàn)互聯(lián)互通,資源共享要求,為了消除信息孤島現(xiàn)象,不僅要建立覆蓋全國的體育信息渠道,還需要開發(fā)知識提取的通用模塊,對數(shù)據(jù)進行通用的邏輯處理,方便系統(tǒng)整合,提高各部門辦事效率和參與的積極性,從而有效掌握和利用各類信息為體育事業(yè)服務。
對于業(yè)務信息的挖掘,更對體育產(chǎn)業(yè)的有著重要意義。采用D M技術的決策支持系統(tǒng),能夠應用各種數(shù)學和知識模型對數(shù)據(jù)進行結構化或半結構化分析。為有關管理人員的提供聯(lián)機狀況查詢、趨勢分析、異常報告等服務,并通過抽取、篩選和跟蹤廣泛范圍內的內部信息和外部信息提供執(zhí)行管理和決策支持。
采用信息技術進行信息處理的特點之一是響應速度快,能夠快速得到結果,以致于可以利用于競賽時的實時數(shù)據(jù)的處理,為運動員或教練員的作出迅速而正確的技戰(zhàn)術決策提供幫助。在國內外也陸續(xù)出現(xiàn)了利用數(shù)據(jù)挖掘技術開發(fā)有類似功能的軟件。中國此類軟件的代表是上海瑞燁信息技術有限公司自主開發(fā)的RichTech SIS_TM(Soccer Information System)和RichTech MAS TM(MultiMedia System)可實時進行足球比賽的分析,分析數(shù)據(jù)可實時間提供給球隊,以便教練作出最準確和及時的判斷。
但是由于競技比賽項目差異,大部分項目都沒有這一類的輔助軟件。而且這類軟件還可以為電視轉播提供比賽分析服務,并可以應用于奧運會的組織籌備工作當中,由此我們可以看到數(shù)據(jù)挖掘技術的廣闊的市場前景和深遠的社會意義。
概念描述指的就是概述性的總結具有大量數(shù)據(jù)的數(shù)據(jù)集合,并由此得到準確的、簡明的描述。以下兩種主要就是得到概念描述的方法。
(1)對所分析數(shù)據(jù)利用更為廣義的屬性進行概要總結,這當中被稱為目標數(shù)據(jù)集就是被分析的數(shù)據(jù)。
(2)對比兩類所分析的數(shù)據(jù)特點,并采用概要性總結的方式來對比結果,而這當中被稱為目標數(shù)據(jù)集和對比數(shù)據(jù)集的就是兩類被分析的數(shù)據(jù)集。
數(shù)據(jù)概要總結指的是歸納和描述利用數(shù)據(jù)描述屬性中更廣義的(屬性)內容。通過簡單的數(shù)據(jù)庫查詢來獲得這當中被分析的數(shù)據(jù)。如:概要總結運動員的體質情況(給出概念描述)。數(shù)據(jù)概要總結通常都用更廣義的關系表或特征描述規(guī)則來加以輸出表示。
通過這種分析,可以總結處理訓練數(shù)據(jù),一般常用對比概念總結與橫向比較對手情況,更容易發(fā)現(xiàn)關鍵問題的所在。幫助教練員對當時訓練情況有清晰的認識。
關聯(lián)分析指的是從給定的數(shù)據(jù)集中獲取頻繁出現(xiàn)的項集模式知識(又稱為關聯(lián)規(guī)則)的這個過程。
通常關聯(lián)規(guī)則:X=Y形式,即“A1∧A2∧...∧Am∧→B1∧...∧Bn”;其 中Ai(i∈{1,...,m})和 Bj(j∈ {1,...,n})均 為 屬 性 -值(屬性=值)形式。關聯(lián)規(guī)則X=Y表明“數(shù)據(jù)庫中z的滿足Y中條件的記錄(tuple),也一定會滿足X中的條件”。
在國外,通過采用這種關聯(lián)分析算法的數(shù)據(jù)挖掘軟件得到類似這樣的結果:當XX運動員在40%的籃球比賽中每場得到10分以上,在這40%中的80%的比賽本隊將會獲勝。這種結果看似沒有因果聯(lián)系,實際上這種分析對球隊的戰(zhàn)術安排有著很重要的指導意義。
上面例子的模式以公式表示以下形式:
分類指的是獲得一組可以描述數(shù)據(jù)集合典型特征的模型(或函數(shù)),以便能夠分類識別未知數(shù)據(jù)的歸屬或類別,即將未知事例映射到某種離散類別的過程。這種方法在體育方面較少應用,不再累敘。
聚類分析所分析處理的數(shù)據(jù)均是無類別歸屬的。聚類分析中,首先需要根據(jù)“各聚集內部數(shù)據(jù)對象間的相似度最大化;而各聚集對象間相似度最小化”的基本聚類分析原則,以及度量數(shù)據(jù)對象之間相似度的計算公式,將聚類分析的數(shù)據(jù)對象劃分為若干組。因此一個組中數(shù)據(jù)對象間的相似度要比不同組數(shù)據(jù)對象間的相似度要大。每一個聚類分析所獲得的組就可以視為是一個同類別歸屬的數(shù)據(jù)對象集合,更進一步從這些同類別數(shù)據(jù)集,又可以通過分類學習獲得相應的分類預測模型(規(guī)則),從而得到知識的過程。此外通過反復不斷地對所獲得的聚類組進行聚類分析,還可獲得初始數(shù)據(jù)集合的一個層次結構模型。
此外數(shù)據(jù)挖掘還有異類分析、演化分析等等,具體算法請參考有關專業(yè)資料。
數(shù)據(jù)挖掘是一個交叉的多學科領域,如:機器學習、數(shù)據(jù)庫系統(tǒng)、可視化、統(tǒng)計學、信息科學都是這類交叉科學。此外由于因數(shù)據(jù)挖掘任務不同,數(shù)據(jù)挖掘系統(tǒng)是可能采用一些其它學科的技術方法的,例如:模糊邏輯、神經(jīng)網(wǎng)絡、粗糙集、知識表示、高性能計算、推理邏輯編程等。有由于所挖掘的數(shù)據(jù)和挖掘應用背景,數(shù)據(jù)挖掘系統(tǒng)也可以集成其它領域的一些技術方法,這當中包含:信息檢索、空間數(shù)據(jù)分析、模式識別、互聯(lián)網(wǎng)技術、信號處理、圖象分析、計算機圖形學等。正因為數(shù)據(jù)挖掘技術方法的多樣性,也就導致了數(shù)據(jù)挖掘系統(tǒng)的多樣性。根據(jù)這種多樣性的特點,在體育科學的方面采用數(shù)據(jù)挖掘技術進行研究在理論上是可行的。
在IT技術不斷發(fā)展的今天,我國體育事業(yè)正面臨著前所未有的發(fā)展機遇。為了充分開發(fā)利用信息資源,推進體育信息化的快速發(fā)展,在體育行業(yè)進行數(shù)據(jù)挖掘技術的研究可以成為一個新的課題。這種已經(jīng)被大量商業(yè)應用證明了的IT技術,在體育產(chǎn)業(yè)方面也會將會產(chǎn)生重要的科研價值和社會意義。本文在這里提出了一種新的工作和研究的方向,希望通過這次討論,引起體育工作者對數(shù)據(jù)挖掘技術的注意,在國內廣泛開展這個方面的研究,為實現(xiàn)體育的現(xiàn)代化建設作出貢獻。
[1]George M,Marakas.21世紀的決策支持系統(tǒng)[M].朱巖,譯.機械工業(yè)出版社,2003.
[2]高洪深.決策支持系統(tǒng)DSS:理論、方法、案例[M].2版.電子工業(yè)出版社,1999.
[3]Michelin Kamber.數(shù)據(jù)挖掘概念與技術[M].機械工業(yè)出版社,2001.
[4]David Hand.Principles of Data(數(shù)據(jù)挖掘原理英文版)Mining[M].機械工業(yè)出版社,2002.
G642
A
2095-2813(2013)04(a)-0147-02