胡 乙
(江蘇經(jīng)貿(mào)職業(yè)技術(shù)學院,江蘇 南京 211168)
針對智慧館員數(shù)據(jù)分析課程教學研究,目前國內(nèi)外尚未有專門論述。羅格爾[1]從培養(yǎng)數(shù)據(jù)科學家角度,主張以python為工具,系統(tǒng)地介紹當今數(shù)據(jù)科學與數(shù)據(jù)分析中使用的通用算法及背后的數(shù)學思想。針對初學者,周紅[2]主張利用電子表格Excel強大的函數(shù)功能學習線性回歸、聚類、交叉驗證等數(shù)據(jù)挖掘方法。國內(nèi)研究中,呂盛坪[3]、王海林、李君討論了現(xiàn)有數(shù)據(jù)分析與挖掘軟件的不足,提出重新開發(fā)個性化的學習平臺以適應(yīng)數(shù)據(jù)分析教學需要。但目前多數(shù)數(shù)據(jù)分析軟件或者平臺對學生隱藏了數(shù)學模型的構(gòu)建步驟,省略了幾乎所有公式的建立與推導過程,故學生難以理解數(shù)據(jù)挖掘與分析背后隱藏的數(shù)學原理。區(qū)別于流行的工具,Excel可以讓學生以一種完全透明的方式處理數(shù)據(jù)。對于初學者而言,Excel是物美價廉且功能強大的數(shù)據(jù)分析學習工具,值得學生實踐。據(jù)此,研究擬從數(shù)理統(tǒng)計理論與數(shù)據(jù)分析軟件實踐兩方面出發(fā),引導學生理解回歸分析、回歸模型、回歸方程、估計的回歸方程、判定系數(shù)等相關(guān)概念。同時,以Excel為工具建立樣本數(shù)據(jù)庫,引導學生分步驟建立所有相關(guān)公式,使學生深入了解回歸分析的數(shù)學原理與軟件操作方法,為后續(xù)學習更高級的數(shù)據(jù)挖掘與分析課程打下理論與實踐基礎(chǔ)。
智慧圖書館的特征就是收集、形成大數(shù)據(jù),并利用算法進行數(shù)據(jù)挖掘與分析,以提供智慧與知識服務(wù)。
伴隨物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)分析等信息技術(shù)的不斷進步,特別是阿爾法機器人在圍棋比賽中的出色表現(xiàn),智慧圖書館與人工智能技術(shù)日益受到學界重視。智慧圖書館一詞,最早于2003年由芬蘭奧盧大學圖書館Aittola等人提出,智慧圖書館是不受空間限制的,可被感知的移動圖書館[4]。大數(shù)據(jù)是海量龐雜的數(shù)據(jù),其特征包括數(shù)據(jù)大量化、類型多樣化、處理快速化、分析復雜化等。智慧圖書館的智慧來源就是大數(shù)據(jù),圖書館的大數(shù)據(jù)分為生產(chǎn)大數(shù)據(jù)與分析大數(shù)據(jù)兩方面。此外,圖書館保留了科研與生產(chǎn)數(shù)據(jù),且科研數(shù)據(jù)管理與服務(wù)也成為智慧圖書館服務(wù)的新熱點??蒲袛?shù)據(jù)管理涵蓋了數(shù)據(jù)管理標準制定、元數(shù)據(jù)創(chuàng)建、語義注釋、數(shù)據(jù)關(guān)聯(lián)等活動。而科研數(shù)據(jù)服務(wù)一般包括創(chuàng)造和管理機構(gòu)數(shù)據(jù)、提供數(shù)據(jù)挖掘與可視化工具等,要實現(xiàn)以上目標,開展智慧館員數(shù)據(jù)分析教學研究刻不容緩。
“沒有智慧館員,就沒有智慧圖書館”[5]。伊安·約翰遜深刻指出了智慧館員對于智慧圖書館建設(shè)的重要性。由于目前國內(nèi)外尚缺乏統(tǒng)一定義,研究將智慧館員定義為在新興技術(shù)背景下,以滿足用戶個性化需求為目的,能提供數(shù)據(jù)管理服務(wù)、智慧智能服務(wù)的新型圖書館學情報學人才。其能在數(shù)據(jù)管理基礎(chǔ)上,為科研人員提供數(shù)據(jù)開發(fā)、數(shù)據(jù)搜集、數(shù)據(jù)分析等科學數(shù)據(jù)服務(wù)。據(jù)此,智慧館員型圖情專業(yè)學生應(yīng)學習數(shù)據(jù)科學與分析課程,掌握數(shù)據(jù)分析概念、數(shù)據(jù)性質(zhì)、數(shù)據(jù)分析過程。其中,回歸分析是解決變量間關(guān)系難題的最基本的數(shù)據(jù)分析方法,深刻理解回歸分析背后的數(shù)學原理與實踐過程,有助于學生學習數(shù)據(jù)分析與挖掘高級技術(shù),成為更好地知識服務(wù)提供者與指導者。
數(shù)據(jù)分析中最常見的是對兩個變量之間關(guān)系的分析。例如,管理人員可運用最高氣溫與圖書館自習人數(shù)的關(guān)系,根據(jù)未來最高氣溫的預報值,來估計對應(yīng)圖書館的自習人數(shù)。傳統(tǒng)上人們經(jīng)常依靠個人直覺與經(jīng)驗判斷兩個變量的關(guān)系,但如果能取得樣本數(shù)據(jù),則可以運用數(shù)據(jù)分析方法建立方程來描述變量之間相互關(guān)系,以上方法即為回歸分析。
1.回歸模型與回歸方程
在回歸分析中,被預測的變量y為因變量,而用來預測因變量的一個或者多個變量稱為自變量x。其中最簡單的回歸分析稱為簡單線性回歸,它只包括一個自變量與因變量,可以用一條直線近似描述二者關(guān)系。以氣溫與圖書館自習人數(shù)為例,因為圖書館有免費空調(diào)和免費書刊等學習資源,故通常氣溫越高,則圖書館自習人數(shù)越多。從回歸分析中可以建立氣溫影響自習人數(shù)的方程。區(qū)別于單一的樣本,從總體考慮,假設(shè)總體是由所有特定類型圖書館組成的集合,則對于總體中每一個圖書館都有一個氣溫值x與自習人數(shù)y,描述y依賴x與誤差項的方程稱為回歸模型,其中簡單線性回歸的回歸模型為y=β0+β1x+ε。模型表示:β0與β1為模型的參數(shù),ε為誤差項,誤差項描述了包含在y中但不能被x與y之間線性關(guān)系解釋的變異性。圖書館總體也可以視為由若干圖書館子集組成的全集,每一個子集都對應(yīng)一個y的分布,而y的每一個分布都有自己的平均值或者期望值。據(jù)此可引出回歸方程概念?;貧w方程是描述x如何影響y的期望值E(y)的方程,其中,簡單線性回歸方程為:E(y)=β0+β1x[6]。該方程的圖形是一條直線,β0是回歸直線的y軸截距,β1是斜率或者導數(shù),
2.估計的回歸方程系數(shù)與最小二乘法
公式1
公式2
3.誤差平方和與判定系數(shù)
在課堂教學中,Excel能以一種清晰的方式處理數(shù)據(jù),在Excel中有三種方法可構(gòu)建估計的回歸方程,即組合函數(shù)、數(shù)組函數(shù)、趨勢線。
第二種計算系數(shù)的方法是利用電子表格內(nèi)置的Linest函數(shù),在M1中輸入b1,在N1中輸入b0,選中M2:N2,輸入“=LINEST(C2:C11;B2:B11,TRUE,TRUE)”,按住CTRL+SHIFT+ENTER后顯示b1、b0。該函數(shù)為數(shù)組函數(shù),輸出個數(shù)為n+1,其中n是自變量個數(shù)。該函數(shù)先計算斜率,后計算常數(shù)。同時,該函數(shù)先輸入因變量數(shù)組,后輸入自變量數(shù)組,數(shù)組公式中出現(xiàn)大括號表示函數(shù)是數(shù)組函數(shù)。
以此類推,可計算SSE=308,SST=3812。在J12中輸入“=(H12-G12)/H12”,可得r2=0.919,可見,圖書館自習人數(shù)變異性的約92%能被估計的回歸方程所解釋,擬合程度較高。
大數(shù)據(jù)為智慧圖書館發(fā)展提供了難得的機遇,分析應(yīng)用大數(shù)據(jù)是獲得智慧的關(guān)鍵。建設(shè)智慧圖書館,提供知識服務(wù),首先要培養(yǎng)合格的智慧館員。智慧館員應(yīng)掌握信息分析、數(shù)據(jù)挖掘、機器學習、網(wǎng)絡(luò)安全與維護等技術(shù)與知識。智慧館員在一定程度上可以說是一名優(yōu)秀的數(shù)據(jù)科學工作者。當前隨著數(shù)據(jù)量急劇增加,從已知大數(shù)據(jù)中發(fā)現(xiàn)統(tǒng)計規(guī)律,進而利用這些規(guī)律來計算未來生產(chǎn)、工作中的估計值,已經(jīng)成為智慧館員智慧服務(wù)的熱點之一。深入學習簡單線性回歸概念及應(yīng)用、有助于為后續(xù)學習打下堅實基礎(chǔ)。
在進行回歸分析時,對于簡單線性回歸方程,可利用最小二乘法分別求出方程參數(shù)β0、β1的估計值b0、b1,從而得到估計的回歸方程。
利用r2能測量估計的回歸方程的擬合度,但僅僅根據(jù)判定系數(shù)值,不能得出變量間關(guān)系在統(tǒng)計學上是否顯著的結(jié)論。這一結(jié)論必須建立在對最小二乘法估計量抽樣分布性質(zhì)的研究上。在對假定模型的合理性進行檢驗前,仍然不能應(yīng)用這個估計的回歸方程,要確定假定的模型是否合理,則要對變量間關(guān)系的顯著性進行檢驗。
未來課堂教學研究應(yīng)引導學生對模型的誤差項ε作出概率假設(shè),并對變量間關(guān)系的顯著性進行統(tǒng)計檢驗,同時運用Excel創(chuàng)新實踐教學研究。