葛世強(qiáng)
蘭州職業(yè)技術(shù)學(xué)院,甘肅蘭州,730070
畢設(shè)系統(tǒng)可以實(shí)現(xiàn)互動(dòng)式選題,在線交流式畢業(yè)設(shè)計(jì)過(guò)程可以很好地解決在畢業(yè)設(shè)計(jì)實(shí)施過(guò)程中存在的問(wèn)題。目前畢業(yè)設(shè)計(jì)材料全面實(shí)現(xiàn)無(wú)紙化,對(duì)相關(guān)核心數(shù)據(jù)進(jìn)行留存,便于后續(xù)對(duì)數(shù)據(jù)進(jìn)行分析,為今后畢業(yè)設(shè)計(jì)題目立題的科學(xué)性和創(chuàng)新性提供科學(xué)數(shù)據(jù)參考,進(jìn)而將畢業(yè)設(shè)計(jì)數(shù)據(jù)反饋進(jìn)人才培養(yǎng)方案,從根本上提高畢業(yè)設(shè)計(jì)實(shí)施效率,對(duì)類似的系統(tǒng)具有一定的參考價(jià)值和借鑒意義。其中各類型數(shù)據(jù)可以對(duì)專業(yè)建設(shè)、師資培養(yǎng)、社會(huì)需求等方面進(jìn)行實(shí)際檢測(cè),對(duì)題目關(guān)鍵詞的詞頻統(tǒng)計(jì)結(jié)果可以圖表化進(jìn)行展示,在一定程度上表現(xiàn)出學(xué)生的專業(yè)基本素養(yǎng)及職業(yè)面向方向。對(duì)系統(tǒng)中的數(shù)據(jù)進(jìn)行分析后可以直觀掌握論文涵蓋范圍和學(xué)生就業(yè)意向在不同時(shí)間段內(nèi)的變化情況,結(jié)合企業(yè)對(duì)專業(yè)的實(shí)際需求,為專業(yè)發(fā)展、師資提升、人才培養(yǎng)等方面提供數(shù)據(jù)支持。從畢設(shè)系統(tǒng)平臺(tái)數(shù)據(jù)、數(shù)據(jù)特征和專業(yè)方向這三個(gè)方面分析,衍生出面向?qū)I(yè)發(fā)展-人才培養(yǎng)互動(dòng)創(chuàng)新的推薦策略,提出由應(yīng)用人群、數(shù)據(jù)采集、依據(jù)特征推薦系統(tǒng)及衡量評(píng)估四部分構(gòu)成的推薦模型框架,使得大數(shù)據(jù)技術(shù)在畢設(shè)系統(tǒng)中能夠?yàn)槿瞬排囵B(yǎng)與專業(yè)建設(shè)創(chuàng)新推薦提供有效的數(shù)據(jù)服務(wù)[1]。
畢設(shè)系統(tǒng)自2020年上線運(yùn)行以來(lái),已有系統(tǒng)學(xué)生用戶997人、系統(tǒng)教師用戶72人、畢設(shè)題目1184項(xiàng),選題數(shù)量占出題數(shù)量的84.2%。系統(tǒng)學(xué)生用戶根據(jù)知識(shí)廣度、技能特點(diǎn)、興趣方向等考量指標(biāo)選擇畢設(shè)題目。針對(duì)論文題目特征數(shù)據(jù)進(jìn)行提取,獲取到畢設(shè)題目中詞頻排名靠前的詞有:設(shè)計(jì)、網(wǎng)站、管理系統(tǒng)、智能、網(wǎng)絡(luò)、控制系統(tǒng)。
大數(shù)據(jù)從網(wǎng)絡(luò)多層次視角[2]對(duì)日常生產(chǎn)活動(dòng)中以數(shù)據(jù)形式所產(chǎn)生的海量信息進(jìn)行記錄,應(yīng)用大數(shù)據(jù)技術(shù)相關(guān)方法,依據(jù)數(shù)據(jù)需求對(duì)這些大量數(shù)據(jù)信息進(jìn)行分析處理,最終得到與數(shù)據(jù)需求吻合度較高的數(shù)據(jù)信息。在互聯(lián)網(wǎng)高度發(fā)展的今天,數(shù)據(jù)的增長(zhǎng)速度日益加快,對(duì)于海量的數(shù)據(jù)信息來(lái)說(shuō),使用科學(xué)方法進(jìn)行數(shù)據(jù)處理,能夠?yàn)橛脩艨焖俑咝У靥峁┲赶蛐詳?shù)據(jù)。
大數(shù)據(jù)技術(shù)可以在提供準(zhǔn)確全面數(shù)據(jù)信息的同時(shí),確保獲取數(shù)據(jù)信息的速度,以及數(shù)據(jù)信息的真實(shí)性和多樣性。萬(wàn)物互聯(lián)、云端發(fā)展的背景進(jìn)一步推動(dòng)了大數(shù)據(jù)技術(shù)向著更加完善、更加成熟的方向不斷邁進(jìn),同時(shí)也促進(jìn)了計(jì)算機(jī)科學(xué)技術(shù)快速發(fā)展。計(jì)算機(jī)科學(xué)技術(shù)與大數(shù)據(jù)技術(shù)有機(jī)融合,充分發(fā)揮了兩者的實(shí)際應(yīng)用優(yōu)勢(shì)。針對(duì)大數(shù)據(jù)分析量規(guī)模龐大、數(shù)據(jù)類型表現(xiàn)形式復(fù)雜、數(shù)據(jù)生成時(shí)效性指標(biāo)較高、數(shù)據(jù)準(zhǔn)確性和可信性要求嚴(yán)格等特點(diǎn),依靠普通處理方式顯然難以滿足需求,結(jié)合機(jī)器學(xué)習(xí)技術(shù)能夠很好地完成數(shù)據(jù)分析與數(shù)據(jù)挖掘任務(wù),而這也是當(dāng)下大數(shù)據(jù)技術(shù)發(fā)展的主流方向。
在大數(shù)據(jù)技術(shù)不斷發(fā)展的大背景下,機(jī)器學(xué)習(xí)也向著智能數(shù)據(jù)處理、智能數(shù)據(jù)分析等方向不斷發(fā)展。傳統(tǒng)機(jī)器學(xué)習(xí)中對(duì)于數(shù)據(jù)分析可以使用監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)來(lái)完成,對(duì)于決策問(wèn)題可以應(yīng)用增強(qiáng)學(xué)習(xí)來(lái)實(shí)現(xiàn)。監(jiān)督學(xué)習(xí)適用于已完成數(shù)據(jù)標(biāo)注的訓(xùn)練集、標(biāo)記特征輸出值等具體數(shù)據(jù)的分類處理場(chǎng)景,代表算法有:決策樹(shù)、樸素貝葉斯、KNN、隨機(jī)森林、邏輯回歸等。非監(jiān)督學(xué)習(xí)適用無(wú)需進(jìn)行標(biāo)注值的訓(xùn)練集和標(biāo)記特征輸出值的聚類任務(wù),代表算法有:k-均值聚類、高斯混合模型、最大期望等。增強(qiáng)學(xué)習(xí)采用交互反饋式學(xué)習(xí)以期獲得最佳決策,代表算法有:Q學(xué)習(xí)、R學(xué)習(xí)、時(shí)間差分學(xué)習(xí)等。
在大數(shù)據(jù)環(huán)境下,有些場(chǎng)景下傳統(tǒng)機(jī)器學(xué)習(xí)不能很好地完成任務(wù),而使用基于大數(shù)據(jù)技術(shù)的表示學(xué)習(xí)、深度學(xué)習(xí)、遷移學(xué)習(xí)、主動(dòng)學(xué)習(xí)、極限學(xué)習(xí)等機(jī)器學(xué)習(xí)方法則能夠很好地解決問(wèn)題。其中:深度學(xué)習(xí)可以通過(guò)樣本數(shù)據(jù)中存在的規(guī)律和數(shù)據(jù)表示層次高效標(biāo)識(shí)數(shù)據(jù)特征;遷移學(xué)習(xí)可以通過(guò)預(yù)先掌握的數(shù)據(jù)特征解決新增不同特征空間數(shù)據(jù)的問(wèn)題;主動(dòng)學(xué)習(xí)使用微小標(biāo)注樣本數(shù)據(jù)模型處理數(shù)據(jù)及規(guī)模龐大且缺少標(biāo)注的任務(wù);極限學(xué)習(xí)可以滿足對(duì)數(shù)據(jù)時(shí)效性較高的應(yīng)用需求。
在實(shí)際應(yīng)用場(chǎng)景下對(duì)數(shù)據(jù)處理任務(wù)所要求的不同大數(shù)據(jù)特性,由于機(jī)器學(xué)習(xí)技術(shù)具有算法優(yōu)化能力[3],將機(jī)器學(xué)習(xí)算法與大數(shù)據(jù)技術(shù)相結(jié)合提高數(shù)據(jù)處理速度。將機(jī)器學(xué)習(xí)算法與適用的信息智能處理方法進(jìn)行融合,可以提升大數(shù)據(jù)處理的有效性。
畢設(shè)系統(tǒng)外衍應(yīng)用在構(gòu)建中具有數(shù)據(jù)的普適性,其數(shù)據(jù)均由輸入、流轉(zhuǎn)和輸出這三類系統(tǒng)數(shù)據(jù)特征構(gòu)成。面向不同的應(yīng)用場(chǎng)景,依據(jù)不同應(yīng)用場(chǎng)景下所存在的需求差異性,從數(shù)據(jù)、用戶特征和業(yè)務(wù)流轉(zhuǎn)三方面分析系統(tǒng)需求。這里的用戶包含教師用戶和學(xué)生用戶,在之后的論述中仍按此含義進(jìn)行描述。
在畢設(shè)系統(tǒng)中以論文相關(guān)數(shù)據(jù)作為數(shù)據(jù)基礎(chǔ),將匹配學(xué)生專業(yè)與學(xué)習(xí)興趣或?qū)W習(xí)領(lǐng)域?yàn)槟繕?biāo),目的在于輔助系統(tǒng)用戶在進(jìn)行數(shù)據(jù)資源獲取、提升決策率的同時(shí),增加系統(tǒng)用戶的黏性,設(shè)計(jì)與效果評(píng)價(jià)均從系統(tǒng)用戶視角出發(fā)。面向系統(tǒng)的用戶需求,在關(guān)注用戶自身基本特征數(shù)據(jù)的同時(shí),還可以采集用戶的交流、留言等潛在的互動(dòng)行為數(shù)據(jù),深入統(tǒng)計(jì)、分析,精確定位[4]為論文題目推薦這一系統(tǒng)外衍應(yīng)用提供數(shù)據(jù)源。
在畢設(shè)系統(tǒng)中收集用戶數(shù)據(jù)、論文數(shù)據(jù)以及互動(dòng)數(shù)據(jù)進(jìn)行數(shù)據(jù)加工處理,利用處理后的數(shù)據(jù)來(lái)得到用戶特征、論文特征、行為特征等關(guān)鍵信息,根據(jù)處理后得到的特征信息可以訓(xùn)練論文選題推薦模型,實(shí)現(xiàn)畢設(shè)系統(tǒng)中論文題目推薦外衍服務(wù)。以系統(tǒng)用戶行為來(lái)創(chuàng)建[教師-論文]、[教師-專業(yè)]、[專業(yè)-論文]、[學(xué)生-專業(yè)]、[學(xué)生-論文]的特征索引值,將特征索引值以向量形式處理后注入機(jī)器學(xué)習(xí)模型進(jìn)行論文選題推薦的訓(xùn)練。
在系統(tǒng)中輸入的數(shù)據(jù)包含交互數(shù)據(jù)、用戶屬性數(shù)據(jù)和用戶冷入場(chǎng)時(shí)的初始數(shù)據(jù)。對(duì)于交互數(shù)據(jù)來(lái)說(shuō),推薦外衍服務(wù)可以通過(guò)專業(yè)偏向性、興趣方向等來(lái)推測(cè)用戶的專業(yè)關(guān)注點(diǎn);除此之外還可以通過(guò)用戶評(píng)論、咨詢等數(shù)據(jù)進(jìn)行推測(cè)。通過(guò)顯性的方式由用戶輸入關(guān)鍵信息,再依據(jù)相應(yīng)的推薦模型進(jìn)行初始預(yù)測(cè)。用戶屬性數(shù)據(jù)即針對(duì)用戶基本信息進(jìn)行描述,該數(shù)據(jù)在用戶的特定屬性數(shù)據(jù)發(fā)生變化時(shí)同步更新,可以按照不同的應(yīng)用場(chǎng)景設(shè)置不同的權(quán)重系數(shù)來(lái)應(yīng)用于推薦外衍應(yīng)用中。用戶冷入場(chǎng)表現(xiàn)為系統(tǒng)中沒(méi)有用戶相關(guān)行為的歷史數(shù)據(jù),因此無(wú)法對(duì)其做出準(zhǔn)確的個(gè)性推薦,為應(yīng)對(duì)此種場(chǎng)景,可以將專業(yè)學(xué)科的課程考核數(shù)據(jù)作為參照,并結(jié)合用戶自身基本信息完成數(shù)據(jù)的初始化設(shè)置。
由系統(tǒng)推薦外衍服務(wù)生成的輸出數(shù)據(jù)涵蓋了推薦結(jié)果組織方式、論文屬性信息和教師用戶屬性數(shù)據(jù),這三者間聯(lián)系密切并存在內(nèi)在的相互影響特征。推薦結(jié)果組織方式可以使用更多元的方式進(jìn)行,可使用[論文屬性信息-學(xué)生用戶屬性]為核心要素或使用[學(xué)生用戶屬性-教師用戶屬性]作為核心要素等方式進(jìn)行推薦,對(duì)于最終的推薦結(jié)果需要按照其權(quán)重和專業(yè)屬性進(jìn)行分類、排序等,在優(yōu)先展示關(guān)鍵數(shù)據(jù)的同時(shí),盡量降低用戶獲取相關(guān)推薦信息的時(shí)間成本和行為成本,增加系統(tǒng)使用的便捷性,增強(qiáng)系統(tǒng)用戶黏合性。
現(xiàn)有推薦系統(tǒng)研究主要從信息檢索、機(jī)器學(xué)習(xí)和決策支持三個(gè)視角展開(kāi)[5],系統(tǒng)推薦外衍服務(wù)的生成過(guò)程是實(shí)現(xiàn)推薦的內(nèi)在邏輯,核心為推薦算法的設(shè)計(jì)。推薦算法一般按照數(shù)據(jù)召回、結(jié)果排序、計(jì)算重排的基本業(yè)務(wù)流程,推薦算法可以采用不同的機(jī)器學(xué)習(xí)算法,并與大數(shù)據(jù)處理方法相結(jié)合[6]來(lái)實(shí)現(xiàn)。對(duì)于數(shù)據(jù)召回可以采用并行狀態(tài)下的多路召回策略,可以采用多路協(xié)同、向量召回、權(quán)重計(jì)算等推薦結(jié)果召回方法。在召回推薦結(jié)果后,可以對(duì)這些召回結(jié)果數(shù)據(jù)進(jìn)行重排,排序模型核心要素是學(xué)生用戶屬性數(shù)據(jù)及行為數(shù)據(jù)構(gòu)成的向量序列。在重排過(guò)程中進(jìn)行多樣性抽樣、加入推薦內(nèi)容以及推薦的約束規(guī)則,最終得到學(xué)生用戶推薦外衍服務(wù)列表。
系統(tǒng)推薦外衍服務(wù)的推薦結(jié)果中,其結(jié)果特征有匹配量、覆蓋率和熟識(shí)度三個(gè)方面。匹配量是衡量系統(tǒng)推薦外衍服務(wù)的關(guān)鍵指標(biāo),它反映了推薦的結(jié)果或資源與學(xué)生用戶特征數(shù)據(jù)的匹配度;覆蓋率表現(xiàn)為對(duì)專業(yè)范圍的涵蓋情況,在加入覆蓋率考量指標(biāo)后可能會(huì)降低匹配度,但是在專業(yè)建設(shè)、師資培養(yǎng)、社會(huì)需求等方面能夠提供多樣化的數(shù)據(jù)服務(wù),而且學(xué)生用戶的知識(shí)結(jié)構(gòu)、學(xué)習(xí)成果等很大程度上受專業(yè)建設(shè)和教育師資影響,得到更加多樣化的推薦結(jié)果,能夠有效降低學(xué)生用戶的選題困難;熟識(shí)度描述了學(xué)生用戶對(duì)于系統(tǒng)推薦外衍服務(wù)的結(jié)果是否熟知了解、是否有類似學(xué)習(xí)經(jīng)歷,熟悉推薦可以增加用戶對(duì)系統(tǒng)的信任[7]。
在進(jìn)行系統(tǒng)推薦外衍服務(wù)需求分析后所設(shè)計(jì)的框架需要滿足對(duì)于不同系統(tǒng)用戶對(duì)數(shù)據(jù)、推薦結(jié)果特征和推薦結(jié)果評(píng)價(jià)的差異性需求。框架由系統(tǒng)用戶場(chǎng)景、基礎(chǔ)數(shù)據(jù)、推薦結(jié)果特征和推薦結(jié)果評(píng)價(jià)四個(gè)主要模塊構(gòu)成。
數(shù)據(jù)是推薦外衍服務(wù)執(zhí)行的基礎(chǔ)條件,采集的數(shù)據(jù)涵蓋系統(tǒng)用戶特征數(shù)據(jù)、專業(yè)數(shù)據(jù)、課程考核數(shù)據(jù)和系統(tǒng)用戶互動(dòng)數(shù)據(jù)四類核心數(shù)據(jù)。在四類核心數(shù)據(jù)中,一部分?jǐn)?shù)據(jù)在錄入后進(jìn)行基礎(chǔ)處理再保存到數(shù)據(jù)庫(kù)中,另外一部分?jǐn)?shù)據(jù)在使用時(shí)由基礎(chǔ)數(shù)據(jù)通過(guò)數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)算法的處理后得到,此數(shù)據(jù)一般作為運(yùn)行時(shí)數(shù)據(jù)使用。
在基礎(chǔ)數(shù)據(jù)中,系統(tǒng)用戶數(shù)據(jù)主要包括系統(tǒng)用戶屬性數(shù)據(jù)、系統(tǒng)用戶特征數(shù)據(jù)和系統(tǒng)用戶特征統(tǒng)計(jì)數(shù)據(jù);推薦結(jié)果特征數(shù)據(jù)需要包括專業(yè)屬性數(shù)據(jù)和系統(tǒng)用戶的交互行為統(tǒng)計(jì)數(shù)據(jù),上述數(shù)據(jù)由對(duì)用戶特征數(shù)據(jù)、專業(yè)數(shù)據(jù)、課程考核數(shù)據(jù)、用戶互動(dòng)行為數(shù)據(jù)的分析處理得到。在對(duì)學(xué)生用戶的課程考核數(shù)據(jù)進(jìn)行向量化處理后,結(jié)合專業(yè)屬性數(shù)據(jù)可以動(dòng)態(tài)修正學(xué)生用戶特征數(shù)據(jù),即在學(xué)生用戶特征數(shù)據(jù)中反映學(xué)習(xí)行為差異屬性特征,例如學(xué)生用戶的創(chuàng)新活躍度、知識(shí)范圍、技能屬性等。而對(duì)于教師用戶,在互動(dòng)過(guò)程中承擔(dān)著響應(yīng)角色,因此也需要同時(shí)關(guān)注其特征數(shù)據(jù)和反映教師用戶自身的專業(yè)、學(xué)習(xí)行為等方面的一般數(shù)據(jù),如教師用戶的年齡、專業(yè)標(biāo)簽和學(xué)習(xí)方向、既往承擔(dān)畢設(shè)任務(wù)等。
推薦外衍服務(wù)算法特征包括了從數(shù)據(jù)召回、結(jié)果排序、計(jì)算重排整個(gè)推薦業(yè)務(wù)實(shí)現(xiàn)過(guò)程中所使用的算法,可以使用協(xié)同過(guò)濾和多目標(biāo)排序模型等模型算法,可以使用相似度計(jì)算、交叉熵?fù)p失函數(shù)等機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)具體技術(shù)細(xì)節(jié)。得到的推薦結(jié)果特征指基于這些算法產(chǎn)生的推薦結(jié)果具有相應(yīng)特征,推薦算法正是通過(guò)影響上述推薦結(jié)果的特征從而影響用戶感知的系統(tǒng)表現(xiàn)[8]。
本文針對(duì)畢設(shè)系統(tǒng)中的數(shù)據(jù)進(jìn)行挖掘與分析,對(duì)實(shí)現(xiàn)推薦外衍服務(wù)的問(wèn)題進(jìn)行了研究。在系統(tǒng)數(shù)據(jù)的基礎(chǔ)上提出了面向系統(tǒng)用戶互動(dòng)的多元推薦系統(tǒng)構(gòu)建模式,進(jìn)一步通過(guò)分析面向企業(yè)-用戶互動(dòng)創(chuàng)新的推薦系統(tǒng)需求,提出了由系統(tǒng)用戶場(chǎng)景、基礎(chǔ)數(shù)據(jù)、推薦結(jié)果特征和推薦結(jié)果評(píng)價(jià)四部分組成的框架結(jié)構(gòu)。畢設(shè)系統(tǒng)實(shí)現(xiàn)推薦外衍服務(wù)可以幫助提高畢設(shè)選題與專業(yè)方向及愛(ài)好特長(zhǎng)精準(zhǔn)匹配,通過(guò)數(shù)據(jù)特征更加直觀展示專業(yè)特點(diǎn)、學(xué)生專長(zhǎng)及教師研究領(lǐng)域,不但可以吸引系統(tǒng)用戶進(jìn)行留言評(píng)價(jià)、知識(shí)分享等互動(dòng),而且從多個(gè)方面提升系統(tǒng)用戶參與意愿。在現(xiàn)有推薦外衍服務(wù)基礎(chǔ)上,如何在系統(tǒng)中融合企業(yè)用戶角色到相應(yīng)的應(yīng)用場(chǎng)景及在系統(tǒng)用戶的互動(dòng)過(guò)程中完善激勵(lì)機(jī)制等方面仍需進(jìn)一步探索研究。