高大菊
(滁州城市職業(yè)學院,安徽 滁州 239000)
高校科研的核心力量是教師隊伍,科研項目的立項是評價教師科研能力的主要依據,也是學??蒲泄芾砉ぷ鞯囊环N重要方式。數據挖掘技術的產生和發(fā)展為教師科研工作提供了強大支撐,通過關聯規(guī)則技術可以對科研數據進行分析,發(fā)現影響科研結果的關鍵性因素,并根據這些因素之間的聯系規(guī)律,為高校組織、協調和評價教師科研工作、作出科研決策提供科學依據。因此,如何從眾多科研項目申報資料中挖掘出隱藏的規(guī)律與知識,為高校教育和科研決策提供支持成為重要的研究項目。
1.1.1 數據項與數據項集
假設I={i1,i2,…,im}為m個項目的集合,其中ix(k=1,2,…,m)被稱作數據項 (Item),I為數據項集,簡稱項集(Itemset),項集的元素數量被稱作該項集的長度,如長度為k的項集簡稱為k-項集[1]。
1.1.2 事務
事務T表示項集I中的子集,兩者關系表示為T?I,所有事務有且只有一個關聯的標識符TID,不同事務組合成事務數據庫D。
1.1.3 項集支持度
假設X?I表示數據項集,B表示事務集D中包含項數據項集X的事務數量,A表示事務集D包含的事務總數量,數據項集X的支持度Support表示為:
其中,Support(X)表示項集X的重要性。
1.1.4 關聯規(guī)則
關聯規(guī)則的表達式為:R:X?Y,其中X?I,Y?I,同時X∩Y=Φ,表示項集X如包含在某一事務,則項集Y必定也包含在同一事務中。X為關聯規(guī)則先決條件,Y為關聯規(guī)則結果[2]。
1.1.5 關聯規(guī)則置信度
關聯規(guī)R的置信度(Confidence)可表示為:
規(guī)則置信度衡量的是關聯規(guī)則的可靠程度。
1.1.6 最小支持度與頻繁項集
最小支持度表示發(fā)現關聯規(guī)則的情況下,數據項需要滿足的最低支持門限值,衡量的是項集的最低重要程度。只有滿足最小支持度的情況下,數據項集才可能出現在關聯規(guī)則中,支持度高于最小支持度的數據項集叫做頻繁項集,反之,則為非頻繁項集。
1.1.7 最小置信度
最小置信度表示關聯規(guī)則需要達到的最低可信度,衡量的是關聯規(guī)則的最小可靠性。
挖掘關聯規(guī)則基本流程如下[3]:
(1)對數據進行預處理,包括數據清理、數據填充、數據離散化;
(2)確定支持門限最小值,置信度的最小值;
(3)基于關聯規(guī)則挖掘算法挖掘出頻繁項集,生成關聯規(guī)則;
(4)對關聯規(guī)則進行可視化生成和評價。
可見,將關聯規(guī)則的數據挖掘涉及以下兩個關鍵問題:
(1)查找所有能符合最小支持度要求的頻繁項集,這一過程是數據挖掘中最關鍵的環(huán)節(jié);
(2)基于最小置信度生成頻繁項集的決策規(guī)則。
Apriori是最典型的關聯法則的數據挖掘方法,該算法通過多趟掃描事務集D的方式找出全部頻繁項集[4]。其運算主要基于以下兩個基本性質:
(1)一個頻繁項集的子集必然也是頻繁項集。
(2)一個非頻繁項集的超集必然也是非頻繁項集。
如圖1所示,應用Apriori算法進行第一趟數據庫掃描時,需計算項集I中所有數據項的支持度,找出符合最小支持度要求的1-頻繁項集L1。在接下來的第k趟掃描中,先將第k-1趟掃描找出的包含k-1個元素的頻繁項集的集合Lk-1組做為種子集,據此產生新的潛在k頻繁項集的集合,也就是候選集Ck,接著對數據庫進行掃描,計算候選項的支持度,從中選出一組符合最小支持度要求的k頻繁項集集合Lk,并將其用作下一次掃描的種子集,不斷重復直到產生最后一個頻繁項集[5]。
假定在數據庫中,所有事務的數據項均按字母次序排列,對于一個事務數據庫D,一個數據項集的支持度可被視為包括這個數項集的事務數。每個數據項集都有一個域Count用于存儲其支持度。
挖掘過程包括數據準備、關聯規(guī)則挖掘實現、規(guī)則解釋與表達三個部分[6]。以高校全部科研項目申報書中的信息為關聯規(guī)則挖掘對象,從多個相關數據表中挖掘出合適的屬性,構建源數據表,并實現數據標準化、離散化,進而得到相應的事務數據庫。
2.1.1 數據收集
收集廣州城市職業(yè)學院2021年度的所有科研申報信息以及研人員人事數據,并整理導出到excel表中,數據源主要包括教師個人信息表、立項科研項目信息表、未立項科研項目信息表。其中教師個人信息表主要包括員工編號、姓名、部門號、性別、出生日期、學位、學歷、專業(yè)、專業(yè)技術任職資格等;立項科研項目信息表主要包括項目編號、項目名稱、項目負責人編號、項目來源、項目級別、立項時間、計劃結項時間、資助經費、學校配套等;未立項科研項目信息表主要包括項目編號、項目名稱、負責人編號、項目來源、項目級別、計劃開始時間、計劃結項時間、申請經費等。
圖1 Apriori算法流程
2.1.2 數據預處理
實踐中收集的數據往往存在噪聲、空缺、不一致等情況,需對其進行預處理,以清楚噪聲,糾正不一致,確保數據挖掘效果。常用的預處理技術包括數據清理、數據集成、數據變換、數據歸約。
(1)數據清理。數據清理的方式主要包括填補空缺值,平滑噪聲數據,識別、刪除孤立點等。采用計算機檢查和人工檢查結合的方式進行數據清理。用屬性平均值或典型值填補空缺值,如年齡可用平均年齡填補空缺,職稱信息可用無職稱填補空缺,同時鏟掉冗余數據,糾正數據不一致。
(2)數據集成。集成不同數據源中的數據并存儲在同一個數據存儲中。如將已立項、未立項的科研項目信息、人員信息、申報書中的項目基礎數據集成構成數據表,其結構如表1所示。
表1 集成后的科研項目數據表
(3)數據歸約。集成后的數據量非常大,對其進行分析挖掘需很大的資源開銷,為節(jié)省資源,提高挖掘效率,需進行數據歸約,在保證數據完整性的前提下盡量縮小數據挖掘規(guī)模。數據歸約方法主要包括立方體聚集、維歸約、數據壓縮、數值壓縮、離散化等。本次研究采用維歸約、數值壓縮、離散化三種方式縮減數據量。
維規(guī)約,對于項目編號、項目名稱、負責人編號、負責人姓名等對項目是否立項沒有顯著影響的屬性可刪除;而副高職稱以上人員的比例及碩士學位以上人員的比例與人員的絕對數相比較,更能體現項目成員結構,因此可刪除副高以上人數、碩士以上人數者兩個屬性;此外,該高校只有少量項目存在合作單位,故刪除該屬性。
先選取一批凝聚點,再使樣品向最近凝聚點凝聚成類,得到原始分類,樣品歸入后重新計算分類的重心,替換原有的凝聚點,再計算下一個樣品的歸類,直至全部樣品均歸類。動態(tài)聚類的基本原理如圖2所示。
圖2 動態(tài)聚類基本原理
合理劃分屬性區(qū)間,建立各屬性對應的變量映射表,逐條掃描數據庫記錄,按照映射表中的對應變量名填充到事務數據表中的對應位置,掃描完整個數據庫時即完成了關系數據庫到事務數據庫的轉換。
運用Apriori算法,結合實際數據以及經試驗得到最小支持度閾值為0.10,最小置信度閾值為0.80進行關聯規(guī)則挖掘,同時滿足上述閾值要求的為強關聯規(guī)則,共計得到973條強關聯規(guī)則。
由于本次研究重點在于各指標和項目是否立項的關聯,故以是否立項作為約束條件,篩選出前、后條件包含項目是否立項的關聯規(guī)則,共計11條,如表2所示。
表2 關聯規(guī)則的解釋及表達
根據上述關聯規(guī)則可得如下結論:
(1)項目負責人學歷均為碩士以上,職稱均為講師以上,因此,教師需重視自己的學歷、學位和職稱的提高,同時學校應該采取合理的激勵措施,促進青年教師的專業(yè)發(fā)展,促進高校科研水平的提升;
(2)項目組人員結構:市廳級項目組人員數量通常為5-7個,其它項目可以適當增減,其中副高級以上的人員占比應不低于29%,碩士以上學位的人員占比應不低于49%,否則不大可能立項。審核科研申報項目時可以參考這個結論給負責人提出人員結構優(yōu)化建議;
(3)研究依據:對相關研究成果的數量要求因人而異,其中,中級職稱教師的相關研究成果數應不低于6個,副高級教師的相關研究成果數應不低于12個;
由于抽樣資料來自于單一高校的單年度科研項目申報數據,研究結論存在局限,受最小支持度和最小置信度的閾值選擇的影響,產生的關聯規(guī)則不夠全面精準。