王婷婷
[摘 要]大數據時代的來臨給統(tǒng)計學科建設與教學帶來了不小的挑戰(zhàn)。傳統(tǒng)的統(tǒng)計學科在認知水平、技術手段、內容框架等方面均需要進行革新。在回顧統(tǒng)計學科發(fā)展歷史沿革以及大數據時代數據特征的基礎上,對新時代下統(tǒng)計學科面臨的傳統(tǒng)統(tǒng)計手段的不適應性、傳統(tǒng)統(tǒng)計學科框架不能滿足時代要求、統(tǒng)計學專業(yè)設置與社會需求脫節(jié)和統(tǒng)計學師資隊伍建設不夠完善等問題進行闡述,可以得出相應的對策。
[關鍵詞]統(tǒng)計學;大數據時代;學科建設;教學改革
[中圖分類號] G642.0 [文獻標識碼] A [文章編號] 2095-3437(2017)06-0009-04
21世紀是一個信息化的時代,尤其在2012年之后,大數據逐漸進入尋常百姓的生活,并深刻影響著這個時代的變革。大數據時代下海量數據所隱藏著的巨大價值不可小覷。因此,如何應用、分析、挖掘數據背后的隱含知識、潛在規(guī)律成為各個領域所關注的熱點話題,統(tǒng)計學科的重要性不斷彰顯。早在2011年2月,國務院學位委員會就將統(tǒng)計學科設為一級學科[1],改變了統(tǒng)計學科被分別安放在經濟學門類和理學門類下的歷史局面,從此終結了統(tǒng)計學究竟是應用經濟學范疇還是概率論與數理統(tǒng)計學范疇的各種爭論。如今的統(tǒng)計學,就是關于數據科學的學科,在理學門類之下理學學位和經濟學學位均可授予。站在大數據時代的風口浪尖,在統(tǒng)計學科成為一級學科的歷史背景下,統(tǒng)計學在全國各個院校的發(fā)展如火如荼。但如何讓統(tǒng)計學科適應大數據的時代要求,如何培養(yǎng)勝任各種數據挖掘能力的人才,是奮斗在統(tǒng)計學教育一線同仁們所必須面對的問題。
一、傳統(tǒng)統(tǒng)計學的發(fā)展歷史
統(tǒng)計學源于實踐與應用,當人類開始從事生產勞動以來,統(tǒng)計學就慢慢建立和發(fā)展起來。在西方,一般認為統(tǒng)計學始于古希臘時期的亞里士多德時代,并在此后開枝散葉。而中國也是世界上最早進行統(tǒng)計活動的國家,具有國際公認的最早的統(tǒng)計史料,但先秦之后發(fā)展緩慢,未成氣候。1930年,中國統(tǒng)計學會成立,這是中國最早的統(tǒng)計學研究群體。
此后統(tǒng)計學的發(fā)展大致分為以下幾個階段:1.蘇聯模式模仿期。新中國成立后,我國在經濟模式上采用了計劃經濟體制,同時也引入了蘇聯的馬克思統(tǒng)計理論與模式。在這種模式之下,統(tǒng)計學僅僅是計劃經濟制度的專屬工具,其抑制了數理統(tǒng)計學派的發(fā)展。因此,這個階段下的中國統(tǒng)計學發(fā)展逐漸喪失活力,未能與西方統(tǒng)計學的主流研究方向接軌。2.改革開放時期的再認識。隨著我國改革開放的不斷深入,不斷涌現的新事物導致傳統(tǒng)模式下的蘇聯統(tǒng)計理論與我國實踐工作形成不可避免的矛盾,依附于計劃經濟的統(tǒng)計學逐漸喪失生命力,這一現象引起了我國學者的反思。在這種背景下,歐美體系下的統(tǒng)計學逐步進入中國市場,并引發(fā)了一場關于統(tǒng)計學科建設的學術爭鳴。3.20世紀90年代的“大統(tǒng)計”思想。隨著我國改革開放的不斷深化,統(tǒng)計學在社會經濟統(tǒng)計學和數理統(tǒng)計學兩個方面蓬勃發(fā)展起來。于是“大統(tǒng)計”的提法日漸增多,20世紀90年代尤其是20世紀90年代中后期有關統(tǒng)計學發(fā)展的文獻,都在討論統(tǒng)計學的融合與構建問題?!按蠼y(tǒng)計”思想是對傳統(tǒng)認識局限的一次突破,它為中國統(tǒng)計學在下一個世紀的發(fā)展提供了理論前提。4.大數據時代下統(tǒng)計學的新機遇。從上述3個階段可以看出,統(tǒng)計學的發(fā)展與其時代背景息息相關。進入21世紀以來,在大數據的時代背景下,統(tǒng)計學在學科建設與教學改革方面該有怎樣的側重和突破,這正是身處這個時代的統(tǒng)計學人應該思考的問題。要對這個問題進行剖析,必須了解這個時代的數據特點。
二、大數據時代的數據特征
在20世紀90年代,信息化開疆拓土給數據的產生帶來了指數級的增長模式,這一現象就曾引起美國社會的廣泛討論和研究。進入21世紀以來,社會高速發(fā)展、信息飛速流通、科技不斷進步,這使得“大數據時代”呼之欲出。2012年,由維克托·邁爾-舍恩伯格 (Viktor Mayer?鄄Sch?觟nberger)和肯尼思·庫克耶 (Kenneth Cukier)聯合編著的《大數據時代:生活、工作與思維的大變革》給社會帶來了不小的反響,學術界也逐漸摩拳擦掌地迎接大數據時代的來臨。[2]
著名的4V理論有效揭示了大數據的主要特征。[3]1.Volume:海量的數據規(guī)模。在當下社會,每一分每一秒都伴隨著大量數據的產生,由于數據的驅動性,現在的數據量已經不再是傳統(tǒng)的TB、PB級別,其早已經擴展到EB、ZB乃至更高的級別。2.Velocity:快速的數據流轉和動態(tài)的數據體系。在一個瞬息萬變的社會中,數據是一種流動的狀態(tài),大量數據可以隨時隨地產生并改變,這種動態(tài)性給統(tǒng)計分析帶來了巨大的挑戰(zhàn)。3.Vari?鄄ety:多樣的數據類型。大數據不但具有動態(tài)性,還具有多樣性。數據形式包括:文本數據、網頁數據、行為數據、圖片數據、聲音數據、多媒體數據等各種各樣的數據形態(tài)。4.Value:巨大的數據價值。曾經有人把Data mining稱為數據采礦,倘若在傳統(tǒng)的數據模式下數據都蘊含著豐富的“礦藏”,那么大數據時代下的數據價值則是我們難以想象的。正因為數據擁有巨大的價值,這才使我們有了進一步分析處理的動力。
大數據時代下的數據特征給傳統(tǒng)統(tǒng)計學帶來了不小的沖擊。作為一門處理、分析數據的學科,在新時代下必須認清統(tǒng)計學科所面臨的問題,這樣才能有的放矢地進行革新,采用新的技術手段駕馭新時代的數據,為社會進步做出應有的貢獻。
三、新時代下統(tǒng)計學科面臨的問題
(一)傳統(tǒng)統(tǒng)計手段的不適應性
傳統(tǒng)的統(tǒng)計思維模式基本是以問題為導向,確立要研究的問題之后,再著手獲取數據。國家統(tǒng)計局所開展的數據普查和抽樣調查都是基于這種模式。對于數據索取能力較弱的科研院所或個人而言,其沒有能力進行大規(guī)模抽樣調查的能力,一般是通過各種官方數據庫獲取數據用以科學研究。但用傳統(tǒng)抽樣調查手段所獲取的數據,是用樣本估計總體的思路進行,倘若調查方案設計合理、操作得當,誤差可以控制在允許范圍之內,這不失為一種良好的統(tǒng)計手段。但在大數據時代下,不僅難以有效地抽取數據,而且沒有簡潔有效的技術手段對數據進行分析,這給抽樣調查帶來了不小的麻煩,其省時省力的優(yōu)勢也不復存在。類似的問題在傳統(tǒng)統(tǒng)計方法的發(fā)展中依然存在。因此,需要緊貼時代背景,建立一套適用于當下的統(tǒng)計分析模式,以便更加科學高效地開展統(tǒng)計分析工作。
(二)傳統(tǒng)統(tǒng)計學科框架不能滿足時代要求
統(tǒng)計學是從大量實踐經驗中所逐漸發(fā)展形成的一門對數據進行搜集、處理、分析的學科。統(tǒng)計學的產生與數據有著不解之緣,因此,有關大數據的處理必然離不開統(tǒng)計理論和技術的支撐。但是,傳統(tǒng)的統(tǒng)計思想、分析手段以及分析設備等都無法滿足大數據時代的發(fā)展要求。在人類邁入新紀元以來,互聯網技術日臻成熟,社會信息化程度出現質的飛躍,大量半結構化、非結構化數據源源不斷地產生,人們對各種類型數據資源的潛在規(guī)律以及數據回報價值都有迫切的需求。[4]這要求統(tǒng)計學有一套完整的學科框架體系去駕馭大數據,具備對海量非結構化、半結構化、實時性數據等的有效分析能力。而大數據時代下的數據分析工作,已經從根本上打破了傳統(tǒng)統(tǒng)計學科的框架。
(三)統(tǒng)計學專業(yè)設置與社會需求脫節(jié)
當前統(tǒng)計學學生的培養(yǎng)方式雖然逐漸向應用層面傾斜,但形式與內容相對老套。在這種模式下,理論模型的建立、參數估計的方法、一些統(tǒng)計量的檢驗等都得到了足夠的重視,但學生對這些問題的認識很可能還停留在表面。雖然部分課程安排有上機實踐操作,但由于數據局限性等原因,其所帶來的案例相對老舊、與時代脫節(jié)的情況時有發(fā)生。這導致學生不能很好地學以致用。另外,大數據時代下的統(tǒng)計分析工作,由于數據的海量性、動態(tài)性等特點,工作量相對較大,需要團隊的分工協(xié)作才能很好地完成。而在我們日常的教學中,由于面向傳統(tǒng)的統(tǒng)計手段較多,學生基本都是個人完成案例,這種教學方式難以培養(yǎng)學生在數量搜集、處理、分析中的團隊協(xié)作精神,而這種精神在學生今后的工作崗位中是應該必備的。
(四)統(tǒng)計學師資隊伍建設不夠完善
由于統(tǒng)計學的蓬勃發(fā)展以及社會對統(tǒng)計學人才的迫切需求,各個院校紛紛成立(或籌備成立)統(tǒng)計學院,導致統(tǒng)計學教師相對緊缺。在教資力量相對不夠充足的情況下,統(tǒng)計學科依然面臨一個嚴峻的問題。這個問題就是在現有的教師隊伍中,大部分教師接受的均是傳統(tǒng)統(tǒng)計理論方法的訓練,專業(yè)和研究成果也都偏向于經濟統(tǒng)計、數理統(tǒng)計的傳統(tǒng)模型、實證分析等方面。在傳統(tǒng)領域,大部分教師具備教學與科研的經驗,具有相當深厚的功底及心得。但是在大數據領域、有關大數據的清洗、降維、處理、可視化;云計算、云平臺、分布式計算、并行計算的hadoop、Spark、MapReduce等有關大數據的挖掘理論和技能方面,則出現斷層。對于絕大多數教師而言,這也是一個相對陌生的領域。因此,這引發(fā)了統(tǒng)計學師資隊伍知識結構不完善的問題。
四、解決新時代下統(tǒng)計學面臨問題的對策
(一)針對新問題,尋找新的統(tǒng)計技術手段
大數據時代下,數據量巨大、數據信息瞬息萬變、數據類型多種多樣,數據結構也由原來單一的結構化數據變?yōu)榉墙Y構化、半結構化數據模式。面對新的問題,對于海量數據的存儲、清洗、數據挖掘、知識呈現、數據傳輸、管理等各個方面都需要有新的技術手段加入。[5]因此,我們需要從各個細小的環(huán)節(jié)入手,從而形成一個完備統(tǒng)一的處理大數據問題的新模式和新框架。這個過程需要其他領域專業(yè)人員的支持和協(xié)作,其中包括計算機、數學、經濟學、信息學、管理學等。1.數據獲取階段。數據獲取的途徑有很多,不應再拘泥于過去翻閱式的查找和抽樣調查。由于大部分數據均產生于互聯網,因此我們不得不通過爬蟲技術對所需數據進行爬取,從而獲得海量的一手數據。2.數據清洗、降噪、降維等預處理階段。這一階段是大數據分析的開始,任何一種分析都不能離開有效的數據而進行,對原始數據的整理、清洗等工作直接影響到后續(xù)統(tǒng)計分析的有效性和科學性。3.數據挖掘、知識發(fā)現。這是整個數據分析中最為關鍵的環(huán)節(jié),是整個分析的核心所在。在此需要強調的是,并非在大數據時代所有的傳統(tǒng)統(tǒng)計方法都不可使用。當經過數據預處理、把數據轉出化成傳統(tǒng)數據模式之后,傳統(tǒng)統(tǒng)計分析方法依然有其用武之地,且傳統(tǒng)統(tǒng)計分析方法當中寶貴的統(tǒng)計思維模式和統(tǒng)計視野也是我們解決大數據問題的智庫。因此,對于傳統(tǒng)統(tǒng)計分析方法要給予足夠的重視,其在大數據時代也有廣闊的舞臺。我們要在繼承的基礎上,進行改進、創(chuàng)新和發(fā)揚。
(二)系統(tǒng)性調整統(tǒng)計學科框架,以適應時代發(fā)展
在大數據時代下,統(tǒng)計學同樣需要加入信息化的過程。雖然大數據與統(tǒng)計學有著千絲萬縷的聯系,但是由于面對的數據類型、對象等的不同,傳統(tǒng)統(tǒng)計學的研究范式已經不能適應新時代的要求。這主要表現在以下幾方面:1.統(tǒng)計對象的改變。新時代下的統(tǒng)計數據從數量、結構和類型上早已打破傳統(tǒng)統(tǒng)計學的數據概念。2.統(tǒng)計技術的改變。新時代下關于數據的搜集、整理、知識發(fā)現等數據處理手段相較于傳統(tǒng)的統(tǒng)計學科,已經發(fā)生了巨大的變化。3.數據倉庫的建設和使用。關于海量數據的存儲、調取、傳輸、管理是在傳統(tǒng)統(tǒng)計學當中較容易被忽視的環(huán)節(jié)。傳統(tǒng)統(tǒng)計學下的數據量較小,對其的存儲、傳輸和管理并不存在問題,但海量數據出現之后,這個話題則成為統(tǒng)計學需要重點研究的問題之一。因此,我們需要從更高的視野重新構建統(tǒng)計學的學科框架,使其達到能駕馭大數據時代的目的,從而為人們的生產、生活提供科學有效地指導和幫助。首先,要從思想上打破對傳統(tǒng)統(tǒng)計學的認識,將視野投放到更加廣闊的數據天地??陀^對待傳統(tǒng)統(tǒng)計學在社會發(fā)展中所出現的滯后性問題。其次,應尋求多學科協(xié)作,信息資源共享。沒有任何一種單一的技術分析手段可以貫穿大數據分析的始終,它需要多種學科的交叉與融合。因此,統(tǒng)計學的學科框架不能故步自封,一定要兼容并蓄,這樣才有新活力。最后,統(tǒng)計學科框架的建設要體現出大數據時代的信息化。對信息的收集與爬取、清洗與降維、分析與挖掘、結果與展示等各個方面,都需要在傳承經典的基礎上,進行大膽地突破性改革。從而建設一個能夠在新歷史背景下解決新數據問題的學科,從而培養(yǎng)出適應這個時代發(fā)展的統(tǒng)計分析人才。
(三)改良統(tǒng)計學科內容設置,滿足新時代下的社會需求
關于統(tǒng)計學科的專業(yè)培養(yǎng)方案。目前,基于傳統(tǒng)統(tǒng)計學的模式,可以采取兩種統(tǒng)計方式進行培養(yǎng)。這就是我們熟知的數理類和經濟類,這兩類具有不同的側重點和學科背景?!按蠼y(tǒng)計”思想的提出以及統(tǒng)計學一級學科的成立,終于可以讓統(tǒng)計學匯到統(tǒng)計學院或者統(tǒng)計系的框架下統(tǒng)一培養(yǎng)。由于西方主流統(tǒng)計學甚至經濟學,均注重數理思維和能力,任何一個統(tǒng)計分析手段和經濟模型都離不開數學推導、演算,因此,打好數理基礎成為我國統(tǒng)計學科建設的普遍共識。在本科生的培養(yǎng)方案中,就包含數學分析、高等代數等一系列數學思維培養(yǎng)的課程。但無論是本科生還是碩士生的教學,都缺乏對大數據分析技能的培養(yǎng),未能迅速地緊跟時代,與社會需求相脫節(jié)。這一現象不利于學生就業(yè)。因此,亟須在教學內容、方法和技術方面進行改進。1.在教學內容方面,傳統(tǒng)的統(tǒng)計學科從概率論與數理統(tǒng)計、多元統(tǒng)計分析到統(tǒng)計學原理等都是基于結構化的小量數據展開,關于非結構化大數據的教學內容缺失。因此,要注重培養(yǎng)學生對非結構化、半結構化數據的處理分析能力;教師應對原有課程進行調整,減少重復內容與重復教學,加入與大數據相關的數學理論與軟件學習方面的新內容。2.在教學方法方面,應注重培養(yǎng)學生的動手能力和團隊協(xié)作精神。傳統(tǒng)統(tǒng)計學的數據處理分析工作量相對較輕,個人可以獨立完成工作,但是在大數據模式下,分工與協(xié)作是必不可少的環(huán)節(jié)。因此,在培養(yǎng)學生實戰(zhàn)能力的同時,不能忽視團隊協(xié)作能力的培養(yǎng)。3.在教學技術方面,要善于通過經典案例寓教于樂,通過對實際問題的思考,培養(yǎng)學生對數據處理的熱情及其思維能力和實戰(zhàn)能力。有必要打破傳統(tǒng)的相對固化的授課模式,采用具有時代感的新鮮問題來激發(fā)學生的創(chuàng)新性思維,讓學生在解決實際問題的過程中對理論有更加深刻的認識。
(四)加強統(tǒng)計學師資隊伍建,填補知識結構的不均衡性
在統(tǒng)計學成為一級學科之前,我國高校的普遍做法是將數理統(tǒng)計專業(yè)放在數學學院,授予理學學士學位,把經濟統(tǒng)計放在經濟學院,授予經濟學學位。這種模式對我國統(tǒng)計學教師隊伍的知識結構產生了重要影響。統(tǒng)計學專業(yè)教師基本也都來源于這兩個領域:一個分支來自擅長數學模型、推導等數量關系的數理統(tǒng)計方面;另一個分支則是擅長經濟理論、實證的經濟統(tǒng)計方面。但互聯網技術之下應運而生的各種新信息和新問題,需要用新技術去解決,遺憾的是這方面的人才相對缺乏,這導致在大數據時代下教師隊伍知識結構不完整。要解決這個問題,可以從兩個方面入手。首先,針對一些數學功底見長,對大數據分析感興趣的教師進行內部培訓。鼓勵他們在全國乃至全球范圍內參加有關大數據學科的培訓、研討等學術交流活動,力求在短期內培養(yǎng)一批在大數據方面有所專長的教師團隊,以彌補整個教師隊伍知識結構的失衡問題。同時加強教師隊伍的自主學習和創(chuàng)新能力,保持他們對新事物、新方法的敏銳嗅覺。其次,在全國范圍內著重關注相關培養(yǎng)單位的博士、博士后等潛在的教師力量。力爭將從事有關數據挖掘方向、大數據分析方向等具有一定大數據分析能力及實戰(zhàn)經驗的博士、博士后納入教師隊伍。此外,還要充分認識到大數據分析工作的交叉性和協(xié)作性,它對計算機技術、數學理論方法等都有較高的要求;要著重引進具有上述學科經歷的復合背景人才,力爭將這些新鮮血液融入傳統(tǒng)的師資隊伍當中,以改善教師知識結構的不平衡問題,力爭建設一支專業(yè)結構合理、學術素養(yǎng)良好、適應能力強大的統(tǒng)計學教師隊伍。
[ 參 考 文 獻 ]
[1] 南江霞.一級學科背景下統(tǒng)計專業(yè)建設的探討與實踐[J].數學學習與研究,2015(3):6-7.
[2] 耿直.大數據時代統(tǒng)計學面臨的機遇與挑戰(zhàn)[J].統(tǒng)計研究,2014(1):5-9.
[3] Viktor Mayer·Sch6nberger,Kenneth Cukier著,盛楊燕等譯.大數據時代[M].杭州:浙江人民出版社,2013.
[4] 陳建寶,鞠芳煜,禚鑄瑤.大數據時代下的統(tǒng)計學——第五屆中國統(tǒng)計學年會綜述[J].統(tǒng)計研究,2015(5):106-112.
[5] 朱建平,章貴軍,劉曉葳.大數據時代下數據分析理念的辨析[J].統(tǒng)計研究,2014(2):10-17.
[6] 申廣君.概率論與數理統(tǒng)計課程中反例教學的例證研究[J].大學教育,2013(4):84.
[責任編輯:陳 明]