●吳俊杰
現(xiàn)代科學(xué)一體化的趨勢使得數(shù)學(xué)知識(shí)模型應(yīng)用的領(lǐng)域更加廣泛,數(shù)學(xué)知識(shí)模型不僅是處理自然科學(xué)的重要手段,也成為了文科類科研人員學(xué)習(xí)、科研中普遍需要的方法,其在處理文科類問題中已經(jīng)得到了充分的運(yùn)用。如查志杰等[1]根據(jù)現(xiàn)有具備一定代表性的教學(xué)質(zhì)量評價(jià)指標(biāo),運(yùn)用“遺傳算法優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)”建立了考察教學(xué)質(zhì)量的綜合評價(jià)模型對教學(xué)質(zhì)量進(jìn)行綜合評估和排名,這一研究有助于教育工作者的反思和總結(jié);杜德斌等[2]在研究法學(xué)中“城市犯罪的空間分布和過程”這一問題時(shí),用數(shù)學(xué)中動(dòng)態(tài)規(guī)劃的方法建立了區(qū)位選擇的微觀模型來模擬罪犯在城市內(nèi)選擇犯罪區(qū)位的規(guī)律,這一方法的應(yīng)用將極大提升對“不同區(qū)域犯罪”的針對性打擊力度。續(xù)建宜等[3]在《歷史研究中的數(shù)學(xué)方法——數(shù)量史學(xué)評介》中提出數(shù)學(xué)知識(shí)模型與歷史學(xué)的結(jié)合越來越緊密,“數(shù)量史學(xué)”這門新學(xué)科的興起正是兩者結(jié)合的一個(gè)重要產(chǎn)物,該學(xué)科中一個(gè)重要部分就是制作各種數(shù)理模型來促進(jìn)對歷史現(xiàn)象與過程的數(shù)量化研究。而作為人工智能算法之一的決策樹算法在文科類中的運(yùn)用也愈加廣泛。CART決策樹算法是Breiman[4]于1984年提出的一種構(gòu)建決策樹的方法,該算法采用基尼分割系數(shù)作為屬性選擇的判別度量。易俗等[5]運(yùn)用CART決策樹算法構(gòu)建了高校教師亞健康決策模型,有利于客觀高效地對教師亞健康程度進(jìn)行評估。藍(lán)傳锜等[6]首次把CART決策樹算法應(yīng)用在關(guān)鍵詞抽取工作中,對網(wǎng)絡(luò)新聞的數(shù)據(jù)信息進(jìn)行了有效提取和開發(fā)。這些相關(guān)文獻(xiàn)中對文科類科研人員數(shù)學(xué)知識(shí)模型需求的探究較少,而本文主要通過CART決策樹算法探究了主修專業(yè)、科研所在城市、對數(shù)學(xué)量化方法普及性認(rèn)可度等差異下的文科類科研人員對數(shù)學(xué)知識(shí)模型的個(gè)性化需求情況,并結(jié)合已有數(shù)據(jù)對文科類科研人員從“提供數(shù)學(xué)知識(shí)模型的科研輔助網(wǎng)站”中獲益程度的期望進(jìn)行了分析,綜合上述結(jié)果為未來數(shù)學(xué)知識(shí)模型如何更好的輔助文科類科研人員提出了展望。
CART決策樹算法是一種常用的非參數(shù)分類和回歸方法,本文主要運(yùn)用其中的分類方法,以下將介紹該方法中的選擇特征、遞歸、剪枝三個(gè)重要步驟[7]。
1.選擇特征。本文中所用的CART決策樹使用基尼分割系數(shù)作為劃分屬性的判據(jù),基尼分割系數(shù)數(shù)值越低則不純度越低,特征越好,屬性劃分越有效。若整個(gè)訓(xùn)練樣本集共包含n個(gè)屬性,則基尼系數(shù)可以定義如下[5]:
其中Pt為決策屬性值t在訓(xùn)練樣本DX中的相對概率,如果集合DX中共有x條訓(xùn)練數(shù)據(jù),在給定條件下分成DX1和DX2兩部分,數(shù)據(jù)條數(shù)分別為x1和x2,則基尼分割系數(shù)可以表述如下[5]:
其中C為本文定義的擾動(dòng)常量。一般地,我們可以寫出其通項(xiàng)表達(dá)式:
2.遞歸。在CART決策樹算法的遞歸過程中需要將輸入設(shè)置為訓(xùn)練集、基尼分割系數(shù)的閾值和切分的最少樣本個(gè)數(shù)閾值;將輸出設(shè)置為分類樹。本文所進(jìn)行的兩個(gè)板塊分析,算法分別從根節(jié)點(diǎn)“您在文科類科研、學(xué)習(xí)過程中對數(shù)學(xué)知識(shí)、模型需求量大嗎”、“如果有這樣一個(gè)能夠?qū)?shù)學(xué)知識(shí)、方法、模型按照文科類科研、學(xué)習(xí)需求板塊化分類的網(wǎng)站,您認(rèn)為這樣的網(wǎng)站能多大程度提高您的科研、學(xué)習(xí)效率?”開始,用訓(xùn)練集遞歸建立CART分類樹。
3.剪枝。在運(yùn)用CART決策樹算法構(gòu)建決策樹的過程中,容易出現(xiàn)由于節(jié)點(diǎn)劃分太細(xì)而產(chǎn)生過擬合的情況。當(dāng)遇到此種情況時(shí),可通過剪枝解決。本文在構(gòu)建決策樹過程中主要采用了“后剪枝”的方法進(jìn)行修剪使得“文科類科研人員對數(shù)學(xué)知識(shí)模型需求”與“從網(wǎng)站中獲益提高科研學(xué)習(xí)效率”相關(guān)參量能夠得到有效利用的同時(shí)又不至于信息冗雜。
決策樹(decision tree)算法是一種基于樹結(jié)構(gòu)來進(jìn)行決策的算法,典型決策樹算法有ID3、C4.5和CART算法,本文所使用的CART算法采用基尼系數(shù)替代熵模型作為劃分子樹的依據(jù),使得整體運(yùn)算量較低,極大地提高了運(yùn)算效率。同時(shí)該算法將多叉樹改為二叉樹(如本文所構(gòu)建第一個(gè)二叉樹的分類變量為“您所在的主修專業(yè)或科研方向”),因此,其對于子樹拆分的次數(shù)沒有限制。另外,值得提出的一點(diǎn)是,在CART算法之中所提取的特征可以重復(fù)使用,這一點(diǎn)使得該算法對于信息的利用率更高。CART決策樹算法包含分類決策樹和回歸決策樹,本文主要應(yīng)用其中的分類決策樹進(jìn)行文科類科研人員對數(shù)學(xué)知識(shí)模型的需求分析,并進(jìn)一步對他們從“提供數(shù)學(xué)知識(shí)模型幫助的網(wǎng)站中獲益程度的期望”進(jìn)行探究。
基于對“文科類科研人員的數(shù)學(xué)知識(shí)模型需求”這一主題進(jìn)行探究的目的,我們展開了抽樣調(diào)查。本次抽樣調(diào)查采用多階段抽樣方法、PPS抽樣、分層隨機(jī)抽樣和系統(tǒng)抽樣相結(jié)合的概率抽樣調(diào)查方式,對不同層次城市的文科類科研人員進(jìn)行抽樣調(diào)查,調(diào)查為期16天,采用線上線下調(diào)研相結(jié)合的模式共發(fā)放問卷1164份,其中806份來自線下調(diào)研,其中358份來自網(wǎng)絡(luò)調(diào)查。通過對無效問卷的剔除,最終回收有效問卷1001份,總有效回收率為86.0%,問卷回收的具體情況如表1所示。
表1 問卷回收統(tǒng)計(jì)表
我們以有效問卷中的“文科類科研人員在文科類科研、學(xué)習(xí)過程中對數(shù)學(xué)相關(guān)知識(shí)、模型需求情況”內(nèi)容為核心進(jìn)行探究,可以直觀觀察到僅有13%的文科科研人員對數(shù)學(xué)知識(shí)模型的需求量較小或幾乎不需要;而13%的受調(diào)查者表示對數(shù)學(xué)模型的需求一般;74%的受調(diào)查者對數(shù)學(xué)模型的需求量較大或很大。這表明大部分文科科研工作者在學(xué)習(xí)科研中存在對數(shù)學(xué)知識(shí)模型的依賴,但他們自身又缺乏相關(guān)的知識(shí)結(jié)構(gòu)和獲取途徑。因此,對數(shù)學(xué)知識(shí)、模型進(jìn)行系統(tǒng)整理和分類,將簡化后實(shí)用易懂的數(shù)學(xué)知識(shí)模型提供給文科類科研人員這一嘗試很有必要,且能夠很大程度地提高文科類科研人員的工作效率。
我們對抽樣所得到的數(shù)據(jù)進(jìn)行預(yù)處理剔除無效數(shù)據(jù)后,基于不同類型文科類科研人員的情況構(gòu)建了CART決策樹探究了其對數(shù)學(xué)知識(shí)模型的需求。針對這一問題的決策樹共有四層,根節(jié)點(diǎn)共包含866個(gè)樣本,其中傾向類別1(幾乎不需要數(shù)學(xué)知識(shí)模型)的有110人,傾向類別2(需求量一般)的有317人,而傾向類別3~5(有較大或很大需求量的)有439人,分別占比12.7%、36.6%、50.7%,這一數(shù)據(jù)表明有很大一部分文科類科研人員在進(jìn)行學(xué)術(shù)科研和工作的過程中都需要數(shù)學(xué)知識(shí)模型的輔助,因此,對數(shù)學(xué)知識(shí)模型進(jìn)行整理、分類和簡化處理這一嘗試具有很大的發(fā)展前景。在選擇的變量里,決策樹的第一最佳分組變量為“您所在的主修專業(yè)或科研方向”,并以此形成二叉樹,最終得出結(jié)論和建議如下:
選擇主修專業(yè)或科研方向?yàn)槲膶W(xué)、管理類、教育學(xué)、法學(xué)、哲學(xué)(編號(hào)為6.0、8.0、3.0、5.0、1.0)的占比97.0%,作為重點(diǎn)探究對象,下一級(jí)分組變量是從事學(xué)術(shù)科研所在的城市,選擇三線城市和其他(編號(hào)分別為4.0、5.0)的占總比重的70.2%,這可能是由于三線城市和其他層次城市科研壓力相對較小所導(dǎo)致的。而選擇二線城市、新一線城市、一線城市的占總比重的26.8%,這部分文科類科研人員在下一級(jí)分組變量——“您認(rèn)為數(shù)學(xué)量化的方法已經(jīng)是人文科研中普遍需要的方法了嗎”的選擇中差異化較明顯(選擇“不是”或“不清楚”的占總比重的20%,選擇“是”的占總比重的6.8%),而在選擇“是”的科研人員當(dāng)中選擇“對數(shù)學(xué)知識(shí)模型需求量較大”的占比最高,可以看出這類人群在學(xué)術(shù)科研中所需要數(shù)學(xué)知識(shí)模型支撐較多,且對數(shù)學(xué)量化的方法在文科科研的廣泛應(yīng)用持肯定態(tài)度。而選擇“不是”或“不清楚”的文科類科研人員多從事教育學(xué)或文學(xué)相關(guān)工作,且選擇對數(shù)學(xué)知識(shí)、模型需求量較少的占大多數(shù)。對于這類人群我們可以對他們進(jìn)行數(shù)學(xué)知識(shí)模型成功輔助文科類科研案例的宣傳,并針對他們的理解能力提供相應(yīng)的數(shù)學(xué)知識(shí)、模型支撐。
重新聚焦第二級(jí)分組變量,選擇三線城市和其他層次城市的文科類科研人員在“所在的專業(yè)或科研方向”上選擇差異較大,其中從事文學(xué)或管理類學(xué)術(shù)科研的人員占總比例的56.9%,值得重點(diǎn)關(guān)注。這部分文科類科研人員在下一級(jí)分組變量——“您認(rèn)為數(shù)學(xué)量化的方法已經(jīng)是人文科研中普遍需要的方法了嗎”的選擇中差異較明顯(選擇不清楚”的占總比重的24.7%),這類科研人員對數(shù)學(xué)量化方法的應(yīng)用廣泛程度不太清晰,可能是由于他們在平時(shí)的學(xué)習(xí)科研中對數(shù)學(xué)量化方法的應(yīng)用信息接觸較少所導(dǎo)致的。當(dāng)然,從決策樹數(shù)據(jù)不難看出這類人群對數(shù)學(xué)知識(shí)模型的需求也相對較低。而從事哲學(xué)、教育學(xué)、法學(xué)的科研人員對數(shù)學(xué)量化的方法在文科類科研的廣泛應(yīng)用持肯定態(tài)度,且其中從事哲學(xué)、法學(xué)的科研人員選擇對數(shù)學(xué)知識(shí)模型需求量為較高及以上的達(dá)到55.9%,對于這類人群我們應(yīng)當(dāng)在未來多提供相關(guān)數(shù)學(xué)知識(shí)模型的幫助,也可以為他們建立滿足個(gè)性化需求的數(shù)學(xué)知識(shí)模型簡化版輔助網(wǎng)站。
根據(jù)對決策樹數(shù)據(jù)中根節(jié)點(diǎn)和葉子節(jié)點(diǎn)信息的綜合分析,我們不難發(fā)現(xiàn)文科類科研人員對于數(shù)學(xué)知識(shí)模型是有一定需求量的,且他們也希望能夠有一些輔助類網(wǎng)站或者其它輔助方案為他們提供滿足個(gè)性化需求的數(shù)學(xué)知識(shí)模型。綜上所述,未來的文科類學(xué)術(shù)科研將進(jìn)一步融合數(shù)學(xué)理論方法,進(jìn)一步提升其工作的創(chuàng)新性。
我們以有效問卷中的“文科類科研人員對提供數(shù)學(xué)知識(shí)模型幫助的網(wǎng)站的受益認(rèn)知期望情況”內(nèi)容為核心進(jìn)行探究,發(fā)現(xiàn)僅有8%的文科類科研人員認(rèn)為從提供數(shù)學(xué)知識(shí)、模型的網(wǎng)站中獲益較小,而有超過60%的受調(diào)查者認(rèn)為從此類網(wǎng)站受益較大或?qū)Υ朔N輔助類網(wǎng)站對其非常有幫助??梢娽槍λ麄兊膫€(gè)性化需求搭建和完善提供數(shù)學(xué)知識(shí)、模型的輔助類網(wǎng)站是一個(gè)有較廣闊前景的研究方向。
在此分析基礎(chǔ)上,本文進(jìn)一步構(gòu)建了CART決策樹探究了文科類科研人員對提供數(shù)學(xué)知識(shí)模型幫助的網(wǎng)站的獲益程度期望,此決策樹一共有四層,根節(jié)點(diǎn)共包含784個(gè)樣本,其中傾向類別1(受益程度較?。┑挠?7人,傾向類別2(受益程度一般)的有242人,而傾向類別3和4(受益程度較大及以上)有475人,分別占比10.3%、30.2%、59.5%,表明有很大一部分文科類科研人員對提供數(shù)學(xué)知識(shí)模型幫助網(wǎng)站的受益程度較高,也說明對數(shù)學(xué)知識(shí)模型進(jìn)行分類和簡化處理后并發(fā)布到網(wǎng)站上這一嘗試受到很大認(rèn)可。在選擇的變量里,決策樹的第一最佳分組變量為“您認(rèn)為數(shù)學(xué)量化的方法已經(jīng)是人文科研中普遍需要的方法了嗎”,并以此形成二叉樹,最終得出結(jié)論和建議如下:
對第一級(jí)分組變量所對應(yīng)的問題持“不清楚”態(tài)度的占比37.9%,在這類人群中以在“新一線城市”“二線城市”“三線城市”中從事學(xué)術(shù)科研的居多,占總比例的28.8%。而對于第一級(jí)分組變量所對應(yīng)問題持清晰態(tài)度“是”或“不是”的占比62.1%,其所對應(yīng)的第二級(jí)分組變量“您所在的主修專業(yè)或科研方向”選擇差異性較大,其中選擇“經(jīng)濟(jì)學(xué)”“管理學(xué)”的具有較高的一致性,占總比例的12.2%,對于這類人群,其對應(yīng)的下一級(jí)分類變量為“您從事文科類學(xué)術(shù)科研所在的城市”,在這一級(jí)分類下,在“三線城市”從事學(xué)術(shù)科研的科研人員較多,且這類人群對提供數(shù)學(xué)知識(shí)模型幫助網(wǎng)站的受益程度期望較高及以上達(dá)到50%,由此可見,我們可以針對該類主要位于三線城市人群進(jìn)行“經(jīng)濟(jì)學(xué)”“管理學(xué)”所涉及的數(shù)學(xué)知識(shí)模型運(yùn)用引導(dǎo),盡可能給他們提供一些去一線城市交流學(xué)習(xí)的機(jī)會(huì),并針對他們的個(gè)性化需求不斷完善現(xiàn)有輔助網(wǎng)站或努力打造更加智能化的輔助網(wǎng)站。
進(jìn)一步分析發(fā)現(xiàn),選擇“哲學(xué)”“教育學(xué)”“法學(xué)”“文學(xué)”的科研人員具有較高的一致性,占總比例的49.9%,對于這類人群,在“一線城市”“二線城市”“三線城市”從事學(xué)術(shù)科研的人群后續(xù)信息具有較高的一致性,占總比例的27.8%,選擇“新一線城市”“其他層次城市”的人群后續(xù)信息具有較高的一致性,且這一分類下對應(yīng)的下一級(jí)分類變量“您所在的主修專業(yè)或科研方向”特征上具有差異性,其中選擇“教育學(xué)”和“文學(xué)”的人員比例較高,這類人群中對提供數(shù)學(xué)知識(shí)模型幫助網(wǎng)站的受益程度期望較高及以上達(dá)到57.2%。由此可見,對于該類人群我們可以進(jìn)行其所涉及的數(shù)學(xué)知識(shí)模型運(yùn)用引導(dǎo),同時(shí)基于在不同城市從事學(xué)術(shù)科研人群的需求進(jìn)行數(shù)學(xué)知識(shí)模型的普及和輔助網(wǎng)站的更新。
大多數(shù)的文科類科研人員認(rèn)可數(shù)學(xué)知識(shí)模型對于其所從事的科研發(fā)展具有重要意義,但他們自身對數(shù)學(xué)知識(shí)模型的需求存在差異,主要是由工作地為不同層次城市以及從事的文科科研方向不同所導(dǎo)致的差異。因此,根據(jù)不同類型科研人員的差異化需求整理出針對他們需求的簡化版本數(shù)學(xué)知識(shí)模型并在輔助類網(wǎng)站中進(jìn)行展示是很有意義的一項(xiàng)工作。
首先,在學(xué)科融合、學(xué)科交叉的時(shí)代背景下,數(shù)學(xué)與文科實(shí)現(xiàn)進(jìn)一步的交流融合是歷史發(fā)展的潮流,對于文科進(jìn)一步的研究提供數(shù)學(xué)模型是推動(dòng)兩者交融發(fā)展的重要一步。其次,文科科研需要注入新活力,在數(shù)字信息時(shí)代,大多數(shù)的文科科研人員以及相關(guān)學(xué)生對于數(shù)學(xué)知識(shí)具有需求。最后,面對社會(huì)文科發(fā)展的差異性,區(qū)別具體化信息服務(wù)尤為重要,搭建平臺(tái)提供數(shù)學(xué)模型,滿足各個(gè)層面各個(gè)階段文科研究具有現(xiàn)實(shí)意義。
基于學(xué)科交叉應(yīng)用逐漸加強(qiáng),文科類科研人員存在對數(shù)學(xué)知識(shí)、模型需求的現(xiàn)狀,本文通過CART決策樹算法分析了不同類型、不同需求文科類科研人員對數(shù)學(xué)量化方法影響度及數(shù)學(xué)知識(shí)模型的需求,并結(jié)合調(diào)研數(shù)據(jù)進(jìn)行了文科類科研人員對提供整理封裝好的數(shù)學(xué)知識(shí)模型的輔助類網(wǎng)站的獲益程度分析,綜合上述結(jié)果為未來數(shù)學(xué)知識(shí)模型如何更好地為文科類科研人員提供幫助提出了建議。