王 超,袁德強,管夢妮
(安陽師范學院 數學與統(tǒng)計學院,河南 安陽 455000)
應用統(tǒng)計學作為一門應用性極強的學科,一直以來都是將數據作為研究對象的。由于數據源自不同行業(yè)或領域的具體業(yè)務場景,因而具有極強的時代性,應用統(tǒng)計學學科也具有鮮明的時代特點。21世紀以來,伴隨著數據科學時代的來臨,統(tǒng)計數據發(fā)生了巨大的變化,呈現出了“獲取方式多樣、數據形式多樣、數據體量龐大”的典型特點。由傳統(tǒng)的以結構化數據為主要研究對象的應用統(tǒng)計學學科向以非結構化數據為主要研究對象的轉變。目前,大數據技術被廣泛用于分析、處理和解析多個部門的海量數據集,如衛(wèi)生保健、電子商務、銀行與金融科技、安全、制造業(yè)、自然資源管理和利用等。大數據與人工智能、機器學習和其他技術正在推動第四次工業(yè)革命。
應用統(tǒng)計學專業(yè)人才培養(yǎng)方案是高等學校應用統(tǒng)計專業(yè)人才培養(yǎng)的指南和綱領。從培養(yǎng)目標的制定到專業(yè)課程設置,從理論課程學習到社會實習實踐,都決定了應用統(tǒng)計學專業(yè)人才培養(yǎng)的質量。數據科學時代,對應用統(tǒng)計學專業(yè)的人才培養(yǎng)提出了更高的要求。基于此,本文探討了數據科學時代應用統(tǒng)計學專業(yè)人才培養(yǎng)方案的修訂建議,以期為完善高等院校應用統(tǒng)計學專業(yè)人才培養(yǎng)體系、提高人才培養(yǎng)質量提供一定的參考。
1690年,英國統(tǒng)計學家威廉配第《政治算術》一書的發(fā)表標志著統(tǒng)計學的誕生。從此,統(tǒng)計學作為一門學科開始走上歷史舞臺。經過3個多世紀的發(fā)展,統(tǒng)計學已經成功應用于從自然科學到社會科學的方方面面,在國家管理、商業(yè)決策、工業(yè)生產中發(fā)揮了重要的作用。1946年,計算機的發(fā)明改變了人類文明的發(fā)展進程,也對統(tǒng)計學科的發(fā)展產生了巨大影響。20世紀70年代,SAS,SPSS等商業(yè)統(tǒng)計軟件的出現極大拓展了統(tǒng)計方法的使用范圍。進入21世紀,在互聯網和科技發(fā)展的推動下,數據的獲取能力急劇增強,數據形式愈發(fā)多樣,數據容量呈現出了爆發(fā)式增長。2011年,世界著名咨詢公司麥肯錫發(fā)表了《大數據:下一個創(chuàng)新、競爭和生產率的前沿》的研究報告。2012 年,達沃斯世界經濟論壇發(fā)布了《大數據,大影響》(Big Data, Big Impact)。與此同時,世界著名刊物Nature于2008 年出版了大數據專刊“Big Data”,專門討論了巨量數據對于互聯網、經濟、環(huán)境以及生物等各方面的影響與挑戰(zhàn)[1]。Science也于2011年出版了如何應對數據洪流(Data Deluge)的??癉ealing with Data”,指出如何利用寶貴的數據資產推動人類社會的發(fā)展[2]。這說明大數據已經引起了政界、業(yè)界以及學界的共同關注,這意味著一個全新的時代——數據科學時代來臨了。
什么是數據科學呢?數據科學聯盟認為數據科學指為創(chuàng)造意義而對數據的創(chuàng)建、驗證和轉換進行的科學研究。《劍橋詞典》將數據科學定義為使用科學方法從計算機數據,尤其是大量數據中獲取有用信息。英國國家統(tǒng)計局更廣泛地將數據科學描述為應用數字和數據時代的工具、方法及實踐,以創(chuàng)造新的理解并改善決策。也就是說,只要是從數據中提取有價值信息的理論或實踐都應該稱之為數據科學,只不過數據科學時代所使用數據更多的是指體量大、形式多的大數據。
統(tǒng)計學家很早就注意到統(tǒng)計學和數據科學的關系。1962年,美國著名的統(tǒng)計學家Tukey在《統(tǒng)計學未來》一文中提出,數據分析是一種全新的科學,統(tǒng)計學并不等于數據分析,而是數據分析的一部分。數據分析的概念類似于今天的數據科學。
伴隨著數據科學時代的來臨,中外統(tǒng)計學者也表達了自己的看法。2014年,《統(tǒng)計研究》迎來創(chuàng)刊30周年,在新年獻詞中提到“一個創(chuàng)造、分享、利用大數據的時代,已經來到了”,并刊登了3篇有關大數據的研究論文[3-5]。2016年,《統(tǒng)計與信息論壇》在創(chuàng)刊30周年之際,以“探討統(tǒng)計學創(chuàng)新之路 迎接大數據時代挑戰(zhàn)”為題,邀請眾多專家學者暢談大數據時代統(tǒng)計學科的發(fā)展[6]。除此之外,中國統(tǒng)計學學會又多次組織有關研討會,深入探討大數據時代下統(tǒng)計學面臨的機遇與挑戰(zhàn)。
2018年,國際著名的統(tǒng)計刊物《統(tǒng)計與概率快報》發(fā)表了《大數據時代的統(tǒng)計學作用》特刊。該期特刊收集了來自統(tǒng)計學、機器學習、計算機、應用數學和工程學等方面不同科學家的各種觀點[7]。
綜合國內外有關研究可以發(fā)現,未來的應用統(tǒng)計學專業(yè)人才培養(yǎng)一定是全方位的,即統(tǒng)計學、計算機科學和數學的有機結合。
2020年,人力資源和社會保障部發(fā)布了《新職業(yè)——大數據工程技術人員就業(yè)景氣現狀分析報告》,預計2020年年末,中國大數據行業(yè)人才需求規(guī)模將達210萬人。2025年前大數據人才需求仍將保持30%~40%的增速,需求總量在2 000萬人左右。以下根據國內外求職網址有關職位需求的狀況進行簡要分析。
國內方面,從51job網站爬取得到2022年9—11月共計6 110個完整數據分析師職位需求信息,計算得出全國數據分析師職位需求較多的幾個城市的月薪資水平資料,描述統(tǒng)計結果,如表1所示。
表1 不同地區(qū)數據分析師月薪資水平描述統(tǒng)計分析
國外方面,美國在線求職招聘網站Glassdoor統(tǒng)計發(fā)現,2022年美國50個最佳工作中與數據有關的工作包括數據科學家、數據工程師、數據分析師等3個職位,按照收入中位數確定的收入分別為12.0萬美元、11.4萬美元以及7.4萬美元。
數據科學時代到底需要什么樣的技能呢?大多數研究認為數據科學時代,大數據人才是統(tǒng)計學、數學、計算機科學乃至其他科學相互交叉的復合型人才[8]。美國國家科學院、工程院和醫(yī)學院(NASEM)于2018年發(fā)布的《本科生數據科學共識報告》(NASEM2018)提出了數據敏銳度(Data Acumen)的概念,認為在未來,本科學生應該具有數學基礎、計算基礎、統(tǒng)計基礎、數據管理和規(guī)劃、數據描述和可視化、數據建模和評估、工作流程和可重復性、溝通和團隊合作以及倫理等8個方面的基本意識和能力。
隨著數據科學時代的來臨,數據變得比以往任何時候都更為重要。數據已經逐漸成為一種資產,是一種新的經濟資產類別,如同現有流通的貨幣甚至是黃金。黨的十九屆四中全會通過的《中共中央關于堅持和完善中國特色社會主義制度、推進國家治理體系和治理能力現代化若干重大問題的決定》中首次將數據列為與勞動、資本、土地、知識、技術、管理并列的生產要素。以數據為原材料的各種數據產品的生產與銷售已然成為經濟發(fā)展進程中一個新的領域。人類社會需要逐漸在數據驅動情形下生活與工作。為此,需要重新審視數據的重大價值,重新定義數據科學的內涵。在此情形下,應用統(tǒng)計學專業(yè)更有責任與義務培養(yǎng)“熟諳數據思維、發(fā)現數據價值”的應用型人才。
數據科學是一門交叉的學科,涉及很多的領域。這些領域涵蓋了統(tǒng)計學、數學、計算機、人工智能、機器學習、數據庫、模式識別、可視化技術等多個學科。對高校而言,不同的學科涉及不同的專業(yè)。不同的專業(yè)又具有不同的人才培養(yǎng)方案,不同的人才培養(yǎng)方案又對應不同的課程設置體系。應用統(tǒng)計學專業(yè)不可能“獨攬全局”,也不可能“獨善其身”,因此在課程設置上要突出交叉特點,相互融合、取長補短、共同發(fā)展。為此,統(tǒng)計學專業(yè)應該增加數學、計算機、可視化等方面的課程。
一方面,應用統(tǒng)計學專業(yè)的培養(yǎng)目標是讓學生具有較強的實踐能力。本專業(yè)目的是培養(yǎng)了解統(tǒng)計學理論、掌握統(tǒng)計學方法,具有利用計算機軟件分析數據的能力,能在經濟、管理、金融、商業(yè)等相關領域工作的高素質、復合型的統(tǒng)計應用人才。也就是說,應用統(tǒng)計學是工具、方法與實踐的高度融合。因此,應用統(tǒng)計學專業(yè)的學生只有增強實踐技能才能滿足不斷變化的社會需求。
另一方面,增強應用統(tǒng)計學專業(yè)技能與國家的教育政策是高度吻合的。2020年7月15日,為了貫徹《中共中央國務院關于全面加強新時代大中小學勞動教育的意見》,教育部印發(fā)了《大中小學勞動教育指導綱要(試行)》的通知,對普通高等學校學生的勞動教育提出了“重視新知識、新技術、新工藝、新方法的運用,提高在生產實踐中發(fā)現問題和創(chuàng)造性解決問題的能力”的具體要求。事實上,應用統(tǒng)計學專業(yè)的突出實踐技能與教育部關于勞動教育的要求兩者之間并不矛盾,而是具有高度的內在一致性與融合性,即通過高質量勞動教育增強實踐技能水平,在實踐技能提高中高質量完成勞動教育。
顯然,培養(yǎng)應用型統(tǒng)計人才是應用統(tǒng)計學專業(yè)的培養(yǎng)目標。同時,在培養(yǎng)目標的具體描述中一般都會體現“應用于哪些領域、需要具備哪些技能、最終要達到什么目的”等3個方面的內容。為了體現數據科學時代特征,就需要在這3個方面進行仔細分析。
首先,應用于哪些領域。統(tǒng)計學發(fā)展至今,已經普遍應用于從自然科學到社會科學的眾多領域。數據科學時代,除了傳統(tǒng)的應用領域,還會用于如社會網絡分析、智能交通、科技金融等領域,這些領域或是現有領域的自然延伸,或是一些交叉領域,或是一些全新的領域。但顯然每個應用統(tǒng)計學專業(yè)不可能選擇所有的應用領域,而是應該結合學校特色、歷史沿革、區(qū)位優(yōu)勢等因素,綜合考量后確定。
其次,需要具備哪些技能。數據科學時代所需技能是一種全方位、多層次、綜合性的技能。單純使用數據分析或統(tǒng)計分析已經不足以體現這種特征,數據挖掘、機器學習、人工智能等前沿技能應該有所體現。
最后,最終要達到什么目的,就是應用統(tǒng)計學專業(yè)學生經過4年的專業(yè)學習之后,其水平能夠達到什么層次。這在本質上是對學生知識目標、能力目標和素質目標等3個方面的凝練與概括,如“厚基礎、重實踐、強能力”的高級應用型統(tǒng)計人才,應用型高素質專門人才等表述。
為了適應快速變化的數據科學時代對數據分析能力的需求,國內外眾多研究探討了統(tǒng)計專業(yè)課程設置的問題,這方面比較有代表性的當屬以美國統(tǒng)計學會為代表的有關統(tǒng)計學教育課程的設置[9-10]。綜合來看,所有研究都建議本科學生應該具備數學、統(tǒng)計學和計算機等多個學科的知識。根據數據科學時代對應用統(tǒng)計學專業(yè)知識與技能的需求,結合數據分析的整個流程,列出了應用統(tǒng)計學專業(yè)課程設置以及與之對應的軟件使用,結果如表2所示。
表2 數據分析階段與專業(yè)課程設置的對應關系
表2中,如何獲取數據是數據分析的第一個階段,這個階段主要包括“統(tǒng)計調查”和“網絡爬蟲”兩門課程?!敖y(tǒng)計調查”主要講授簡單隨機抽樣、系統(tǒng)抽樣、PPS抽樣、網絡/在線調查等傳統(tǒng)的結構化數據收集方法。“網絡爬蟲”定位于從政府機構、新聞媒體、社交軟件、在線商城、電子商務等網絡獲取有關信息資料。相較于傳統(tǒng)數據收集方法,網絡爬蟲更多的是為了獲取“形式多樣、數量巨大”的半結構化、非結構化數據。數據科學時代,95%的數據類型為半結構化、非結構化數據。因此,作為應用統(tǒng)計學專業(yè)的學生應該掌握這兩種主要的數據類型獲取方式。
數據計算可視為統(tǒng)計方法的核心理論知識,其主線為統(tǒng)計推斷理論。為了全面理解統(tǒng)計推斷理論的知識結構,需要學習概率論、數理統(tǒng)計、隨機過程,數值分析等基礎理論知識,還有相關理論知識的軟件實現——統(tǒng)計計算。
數據建模階段對應一些基本的統(tǒng)計分析方法。這個階段既包括回歸分析、多元統(tǒng)計、時間序列等傳統(tǒng)的統(tǒng)計分析方法,也包括數據挖掘、機器學習等現代的數據分析方法。
統(tǒng)計表和統(tǒng)計圖是統(tǒng)計學的語言。對統(tǒng)計表而言,其構造基本上是固定的,關鍵在于統(tǒng)計指標的設定與選擇;但統(tǒng)計圖的繪制更多是技術和藝術的結合,某種程度上體現了研究者對問題研究的廣度和深度。
以上4個方面并不是孤立存在的,而是有內在聯系的。NASEM2018認為隨著時間的推移,隨著新數據驅動時代特征的形成,學術項目將被迫開發(fā)新的技能集群,一系列獨特的課程和教學材料將出現。
應用統(tǒng)計學專業(yè)是實踐性很強的一個專業(yè),每門專業(yè)課程設置時,一般會有一定比例的實踐/實驗課時,目的就是讓學生能夠將學到的理論知識用于實踐之中。但現有專業(yè)課程實踐/實驗教學安排中普遍存在數據過于簡單、干凈,導致數據處理過程比較容易,相應結論也比較完美、漂亮。事實上,簡單、干凈的數據意味著現實過于理想化,或者說與現實環(huán)境有較大脫節(jié),結果是經過實踐/實驗課程的學習,學生實踐技能并未得到有效提高。因此對應用統(tǒng)計學專業(yè)教學而言,如何讓學生用數據“做有用的事情”是需要考慮的一個問題。
改善這一狀況一種比較好的方法是開展案例(或項目)教學,案例或項目選擇從企業(yè)的實際需求出發(fā)。這就意味著高校必須與企業(yè)合作,走“產學研”發(fā)展之路。另外,積極舉辦數據挖掘類大賽,可以讓學生在解決問題中體驗到成功的興趣和滋味。
21世紀以來,隨著數據科學時代的來臨,應用統(tǒng)計學進入了黃金發(fā)展時期。國家、企業(yè)和社會等各方面都對應用統(tǒng)計學專業(yè)畢業(yè)生提出了新的要求。作為人才培養(yǎng)的主體,高等學校需要行動起來,主動回應政府、企業(yè)和社會的關切,提高人才培養(yǎng)質量。而人才培養(yǎng)質量的高低與人才培養(yǎng)方案的制定密不可分。本文結合國內外應用統(tǒng)計學發(fā)展狀況,從培養(yǎng)目標、課程設置、實踐/實驗課教學等3個方面給出了應用統(tǒng)計學專業(yè)人才培養(yǎng)方案的修訂建議。