基金項目:四川省科技廳軟科學計劃“成渝地區(qū)雙城經(jīng)濟圈高校聯(lián)盟科技創(chuàng)新協(xié)同戰(zhàn)略研究”(2021JDR0071)
作者簡介:羅駿(1965-),男,四川大學公共管理學院教授,研究方向:知識管理與競爭情報;龐建華(1998-),男,四川大學公共管理學院碩士研究生,研究方向:知識管理與競爭情報。
摘" 要:“互聯(lián)網(wǎng)+”雙創(chuàng)大賽是推動大學生創(chuàng)新創(chuàng)業(yè)的重要途徑,然而隨著大賽的蓬勃發(fā)展,參賽者很難在海量數(shù)據(jù)中高效獲取所需信息。為此,提出構(gòu)建一種信息推薦模型,以完善“互聯(lián)網(wǎng)+”雙創(chuàng)大賽的信息服務(wù)研究,為選手提供有用的大賽信息,幫助他們了解競爭對手、理解市場和行業(yè),提高項目的競爭力。在調(diào)研四川大學“互聯(lián)網(wǎng)+”雙創(chuàng)大賽信息服務(wù)現(xiàn)狀與用戶需求的基礎(chǔ)上,構(gòu)建了集成Doc2Vec和LDA算法的“互聯(lián)網(wǎng)+”雙創(chuàng)大賽信息推薦模型。經(jīng)檢驗,該模型能夠較好地進行“互聯(lián)網(wǎng)+”雙創(chuàng)大賽信息推薦服務(wù)。最后提出了下一步研究構(gòu)想。
關(guān)鍵詞:“互聯(lián)網(wǎng)+”;大學生創(chuàng)新創(chuàng)業(yè)大賽;信息推薦;信息服務(wù);Doc2Vec;LDA
中圖分類號:G649.2
文獻標識碼:A
doi:10.3969/j.issn.1672-2272.202307038
Research on Integrated Information Recommendation Model for the China International “Internet+” College Innovation and Entrepreneurship Competition
Luo Jun,Pang Jianhua
(School of Public Administration, Sichuan University,Chengdu 610207,China)
英文摘要Abstract:The China International “Internet+” College Innovation and Entrepreneurship Competition is an important way to promote college students' innovation and entrepreneurship. However, with the development of the competition, it is difficult for participants to efficiently obtain the required information from the massive data. Based on this, this paper proposed an information recommendation model to improve the information service research on the competition, and help participants understand competitors, the market and industry, and improve the competitiveness of the project by providing useful competition information. Based on the investigation of the information service status of the competition in Sichuan University and the needs of participants, this paper built an integrated information recommendation model based on Doc2Vec and LDA algorithms. After testing, this model can be used for information recommendation service of the competition. Finally, this paper summarized the conclusions and contributions of the research, and puts forward the conception of the next research work.
Key Words:“Internet+”; College innovation and entrepreneurship competition; Information recommendation; Information service; Doc2Vec; LDA
0" 引言
2021年10月國務(wù)院辦公廳印發(fā)的《關(guān)于進一步支持大學生創(chuàng)新創(chuàng)業(yè)的指導意見》指出,中國國際“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽(以下簡稱“互聯(lián)網(wǎng)+”雙創(chuàng)大賽)中的項目團隊存在融資困難、創(chuàng)業(yè)經(jīng)驗匱乏、缺少創(chuàng)業(yè)引導等諸多問題,高校需要加強服務(wù)平臺建設(shè),加強大學生創(chuàng)新創(chuàng)業(yè)信息服務(wù),加強信息資源整合,優(yōu)化大學生創(chuàng)新創(chuàng)業(yè)環(huán)境[1]。
“互聯(lián)網(wǎng)+”雙創(chuàng)大賽是目前規(guī)模最大,影響最大的大學生創(chuàng)新創(chuàng)業(yè)競賽。據(jù)統(tǒng)計,8屆“互聯(lián)網(wǎng)+”雙創(chuàng)大賽累計有3 643萬名大學生報名參賽,產(chǎn)生了約800萬個的創(chuàng)新創(chuàng)業(yè)項目,積累了大量的項目知識和情報。但隨著數(shù)據(jù)量的爆炸式增長,參賽者難以有效地找到所需信息,同樣遭遇 “信息過載”及“信息迷航”的問題。
目前對于“互聯(lián)網(wǎng)+”雙創(chuàng)大賽的已有研究主要集中在大賽本身[2-4]、參賽項目[5-6]、參賽團隊等方面[7-8],以及探尋高校圖書館等信息服務(wù)主體為大學生提供的雙創(chuàng)服務(wù)現(xiàn)狀[9-11]和對創(chuàng)新創(chuàng)業(yè)項目信息管理系統(tǒng)平臺建設(shè)[12-13]。雖然有學者提出學生普遍存在對比賽認知不到位、對創(chuàng)新創(chuàng)業(yè)認知不夠的問題,建議為學生提供更多的信息服務(wù),但是對于如何在大賽中為學生提供信息服務(wù)目前尚未有成熟的研究成果,且此類研究鮮有涉及雙創(chuàng)個性化信息推薦服務(wù)。
本文結(jié)合目前的信息推薦技術(shù)發(fā)展,以四川大學為例,了解師生在“互聯(lián)網(wǎng)+”雙創(chuàng)大賽中實際需求,收集整理創(chuàng)新創(chuàng)業(yè)相關(guān)信息,采用基于Doc2Vec和LDA集成的內(nèi)容推薦算法設(shè)計并實現(xiàn)“互聯(lián)網(wǎng)+”雙創(chuàng)大賽信息推薦模型。將推薦算法應(yīng)用在“互聯(lián)網(wǎng)+”雙創(chuàng)大賽中,一定程度擴展了推薦系統(tǒng)的應(yīng)用研究,也擴展了大學生創(chuàng)新創(chuàng)業(yè)信息服務(wù)的研究對象。
1" 需求分析
通過調(diào)研和訪談第八屆“互聯(lián)網(wǎng)+”雙創(chuàng)大賽參賽學生,本文發(fā)現(xiàn)學生主要存在項目信息、組隊信息和大賽新聞方面的信息服務(wù)需求。其中,創(chuàng)新創(chuàng)業(yè)項目信息包括高校的歷屆參賽項目信息以及全國歷屆獲獎項目信息,推薦歷屆獲獎項目可以讓參賽選手了解到前人的成功經(jīng)驗和創(chuàng)新創(chuàng)業(yè)思路,從而在自己的項目中借鑒,是用戶需求最多的一類信息。
截至2022年第八屆“互聯(lián)網(wǎng)+”雙創(chuàng)大賽結(jié)束,全國大學生創(chuàng)業(yè)服務(wù)網(wǎng)共收錄了上百萬個項目信息,但是該平臺的檢索功能十分單一,并且搜索結(jié)果的排序是固定的,學生很難在短時間內(nèi)找到需要的項目信息,而學校也并未向團隊提供系統(tǒng)性的獲獎項目信息。
四川大學主要通過微信公眾號、官方QQ群以及學校官網(wǎng)等渠道來為學生提供的“雙創(chuàng)”信息服務(wù),服務(wù)內(nèi)容主要包括發(fā)布大賽通知、活動預(yù)告以及成員招募等信息。學校雖有提供組隊和大賽新聞方面的信息服務(wù),但由于缺乏專門的創(chuàng)新創(chuàng)業(yè)信息平臺,且這些活動的宣傳渠道較為獨立,使得信息資源分布零散,其服務(wù)效果并不理想。
本文構(gòu)建的“互聯(lián)網(wǎng)+”雙創(chuàng)大賽信息推薦模型主要包含了獲獎項目、團隊招募、大賽新聞等方面的信息推薦內(nèi)容。
涉及的數(shù)據(jù)均為文本數(shù)據(jù),因此使用基于內(nèi)容的推薦算法模型來構(gòu)建“互聯(lián)網(wǎng)+”雙創(chuàng)大賽的信息推薦模型。需要對待推薦實體進行向量化處理,對不同實體的向量模型進行相似度計算,根據(jù)相似度形成最終的信息推薦列表。
2" 數(shù)據(jù)獲取與預(yù)處理
2.1" 項目信息獲取
“全國大學生創(chuàng)業(yè)服務(wù)網(wǎng)”是“互聯(lián)網(wǎng)+”雙創(chuàng)大賽的官網(wǎng),是最權(quán)威的信息發(fā)布平臺。本文利用Python,根據(jù)歷屆獲獎項目名單,逐條爬取獲獎項目的項目名稱、項目概述、所屬領(lǐng)域、所在地,并在這4個屬性信息基礎(chǔ)上,人工添加每個項目的所屬學校、獲獎情況等信息,共爬取5 338個獲獎項目信息。部分獲獎項目數(shù)據(jù)如表1所示。
2.2" 數(shù)據(jù)預(yù)處理
由于數(shù)據(jù)集中項目名稱信息常用高度抽象化的精簡表達,所以本文選擇項目概述信息進行向量建模。而項目概述信息是長文本,因此需要先進行分詞處理。本文使用基于統(tǒng)計詞典的分詞方法,利用python里的jieba中文分詞工具包進行分詞。使用的通用停用詞表由將四川大學機器智能實驗室停用詞庫、哈工大停用詞表、中文停用詞表、百度停用詞表去重后得到。此外,由于使用場景是“互聯(lián)網(wǎng)+”雙創(chuàng)大賽,“團隊”“項目”“公司”“市場”等與創(chuàng)業(yè)有關(guān)的詞語都會多次出現(xiàn),但是它們沒有實際含義,所以本文將這些詞放入專業(yè)停用詞表,以減少數(shù)據(jù)噪音。
3" 項目概述文本向量化
3.1" 構(gòu)建Doc2Vec向量模型
Doc2Vec算法是一種用于將文本數(shù)據(jù)表示為向量的算法,其可以獲得句子、段落和文檔的向量表達,是Word2Vec的拓展。本文在獲取文本數(shù)據(jù)并對其進行分詞、去停用詞等預(yù)處理之后,利用Doc2Vec中的PV-DM方法對文本進行了向量模型構(gòu)建,具體參數(shù)與結(jié)果分別如表2、表3所示。
3.2" 構(gòu)建LDA向量模型
LDA模型可以將文檔聚類到不同的主題中,模型采用貝葉斯網(wǎng)絡(luò)進行訓練,由“文檔—單詞—主題”三層構(gòu)成。文檔是LDA 模型的基本單位,被表示為一個單詞序列,每個單詞屬于某個主題。主題是概括文檔內(nèi)容的一種方式,是詞的概率分布。采用LDA模型進行主題建模,首先需要確定主題數(shù)量K的值。本文使用一致性作為評價指標,經(jīng)實驗確定主題數(shù)K=10時一致性較高,且聚類結(jié)果較為理想,故采用主題數(shù)K=10對文本進行主題挖掘,其他模型參數(shù)的設(shè)置如表4所示。
確定主題數(shù)后,LDA模型可以通過學習完成主題聚類,將文本中的詞匯歸納到對應(yīng)的主題下,實現(xiàn)對文本集的主題挖掘。如表5所示,對歷屆獲獎項目的簡介進行主題聚類,根據(jù)每個主題所包含的詞項,可判斷該主題下的文本描述的大概內(nèi)容。如主題1包含“學生 培訓 課程 教學 校園”等詞語,說明主題1包含許多與教育教學相關(guān)的項目;主題2中有“智能 數(shù)據(jù) 機器人 智慧 算法 軟件”等具有明顯含義的詞語,因此可推斷主題2應(yīng)該有許多與人工智能、軟件開發(fā)相關(guān)的項目;主題3包含“治療 患者 醫(yī)療 醫(yī)院 診斷 疾病”等詞項,可推測主題3下是有關(guān)于醫(yī)療健康方面的項目。
4" 項目間相似度計算
相似度計算是構(gòu)建“互聯(lián)網(wǎng)+”雙創(chuàng)大賽信息推薦模型構(gòu)建的重要一步。常用的相似度計算包括余弦相似度、歐幾里得距離、皮爾遜相關(guān)系數(shù)以及JS距離。由于余弦相似度適用于各類空間向量的計算,因此選擇余弦相似度作為Doc2Vec向量模型的相似度計算。LDA模型本質(zhì)上是一種概率模型,將文本表示為概率分布,而JS距離是一種度量概率分布相似度的方法,因此其適用于LDA主題模型的相似度計算。
4.1" 余弦相似度計算
使用Doc2Vec模型對文本信息進行建模獲得向量模型后,本文通過計算兩個文本之間余弦相似度來判斷它們的相似程度并進行推薦。最終形成維度為5 338×5 338的項目相似度矩陣。
4.2" JS距離計算
通過LDA主題模型對項目簡介進行主題建模后,可以得到項目-主題矩陣,本文使用JS距離計算每個項目在K維主題上的占比情況得到項目間的相似度矩陣。JS距離的取值范圍為[0,1],距離越接近0則項目之間的相似度就越大,在計算文本相似度時,通常使用相似度而不是距離來表示文本之間的相似性,因此本文使用1-JS距離來代表相似度。最終形成維度為5 338×5 338的項目相似度矩陣。
4.3" 加權(quán)相似度計算
即通過實驗確定賦予JS相似度和余弦相似度的合適權(quán)重,將兩種度量方法的相似度值結(jié)合,以改善推薦效果。
本研究采用加權(quán)相似度計算方法,經(jīng)過多次實驗,確定了基于LDA與Doc2Vec的相似度值的最終權(quán)重分別為0.45和0.55。通過加權(quán)相似度公式計算獲得項目間基于余弦相似度和LDA模型的相似度矩陣,維度仍為5 338×5 338,前10個項目的加權(quán)相似度矩陣如表7所示。
5" 各算法推薦效果檢驗
為了驗證本文提出的算法是一種高效、準確的推薦方法,本文采用真實的參賽項目數(shù)據(jù)集進行實驗,對比分析實驗如下:
第一種推薦方法使用LDA對項目簡介信息建模并基于JS 距離計算相似度。
第二種推薦方法使用Doc2Vec對項目簡介信息建模并基于余弦距離計算相似度。
第三種推薦方法采用本文提出的LDA和Doc2Vec相結(jié)合的方法,即將以上兩種方法的相似度結(jié)果進行線性相加,形成最終的推薦列表。
最后,采用人工測評的方式判斷推薦結(jié)果的準確率,并綜合考慮推薦結(jié)果的準確率、穩(wěn)定性、相似度等來分析判斷各算法的優(yōu)劣。
本文每次從四川大學歷屆參賽項目中隨機選取1個參賽項目作為測試集計算各算法的準確率,共進行了10次實驗。由圖1可知,基于Doc2Vec算法與混合算法的準確率較高,且波動軌跡幾乎一致;基于LDA的算法的準確率最低,且軌跡與另外兩種算法相差較大;本文提出的Doc2Vec與LDA相結(jié)合的算法的準確率最高,不僅遠高于單一的LDA算法,也較于單一的Doc2Vec算法有明顯改良,推薦效果最佳。因此本文選擇的算法能有效提高“互聯(lián)網(wǎng)+”雙創(chuàng)大賽信息推薦模型的質(zhì)量和準確度,可以準確地進行項目推薦。具體的測試項目及其推薦列表分別如表6、表7所示。
6" 結(jié)語
針對當前“互聯(lián)網(wǎng)+”雙創(chuàng)大賽中,參賽者的個性化信息服務(wù)等需求,本文提出了構(gòu)建基于語義的Doc2Vec與LDA集成的內(nèi)容推薦方法,并應(yīng)用于“互聯(lián)網(wǎng)+”雙創(chuàng)大賽信息推薦模型,幫助大學生在大賽中高效地獲取信息。實驗證明“互聯(lián)網(wǎng)+”雙創(chuàng)大賽信息推薦模型能快速、準確地為用戶推薦所需信息。參賽選手能夠基于此從其他項目中學習和借鑒成功的經(jīng)驗,也可以進行競爭分析,并把握市場上類似項目的趨勢,從而更好地定位自己的項目和制定更有效的競爭策略。
本文不僅豐富了“互聯(lián)網(wǎng)+”雙創(chuàng)大賽的研究內(nèi)容,也是將信息推薦算法應(yīng)用于大學生創(chuàng)新創(chuàng)業(yè)信息服務(wù)中的成功嘗試。但本研究僅是初步嘗試,后續(xù)研究還有以下問題需要解決:
由于組隊信息和新聞信息的實際數(shù)據(jù)量不大,因此本文沒有對組隊信息和新聞信息進行實證研究,僅對項目信息進行了建模。
此外,該模型可以擴展以支持更復雜的信息傳遞系統(tǒng),后續(xù)可以設(shè)計實現(xiàn)一個推薦系統(tǒng)網(wǎng)站或者直接將模型搭建在微信公眾號、APP,主動為用戶在參加“互聯(lián)網(wǎng)+”雙創(chuàng)大賽的過程中提供信息。
參考文獻:
[1]" 中華人民共和國國務(wù)院辦公廳.
國務(wù)院辦公廳關(guān)于進一步支持大學生創(chuàng)新創(chuàng)業(yè)的指導意見[J].中華人民共和國教育部公報,2022(Z1):2-5.
[2]" 吳愛華,侯永峰,郝杰,等. 以“互聯(lián)網(wǎng)+”雙創(chuàng)大賽為載體深化高校創(chuàng)新創(chuàng)業(yè)教育改革[J]. 中國大學教學,2017 (1): 23-27.
[3]" 梁會青,翁立婷. 中美大學生創(chuàng)業(yè)競賽比較[J]. 世界教育信息, 2018, 31(1): 26-32.
[4]nbsp; 蔡晨笑. “互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽研究[D]. 上海:華東師范大學, 2018.
[5]" 劉慶梅. “Design Thinking”指導下設(shè)計專業(yè)跨學科雙創(chuàng)人才培養(yǎng)研究——以“互聯(lián)網(wǎng)+大學生創(chuàng)新創(chuàng)業(yè)大賽”實踐項目為例[J]. 教育教學論壇, 2017 (13): 124-125.
[6]" 滕桂法,張昱婷,劉小利,等. 以“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽成功項目論高校創(chuàng)新創(chuàng)業(yè)教育體系[J]. 河北農(nóng)業(yè)大學學報(農(nóng)林教育版), 2017, 19(6): 18-23.
[7]" 張芳.“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽項目團隊建設(shè)問題研究——以商洛學院為例[J]. 創(chuàng)新與創(chuàng)業(yè)教育,2019, 10(1): 70-72.
[8]" 陳濤. 學科融合視角下創(chuàng)新團隊的建設(shè)——以中國“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽為例[J]. 西部素質(zhì)教育, 2019, 5(21): 55-57.
[9]" 陳婧,譚豐隆,劉洋陽.高校圖書館創(chuàng)客空間建設(shè)路徑研究[J].圖書館,2021(7):77-81,90.
[10]" 劉譯陽, 王崢, 楊雨師. 高校圖書館創(chuàng)新創(chuàng)業(yè)信息服務(wù)驅(qū)動下知識庫構(gòu)建模式研究[J]. 情報科學,2020,38(2):109-115.
[11]" 何建新,劉信洪. 高校圖書館面向創(chuàng)新創(chuàng)業(yè)教育校內(nèi)協(xié)同信息服務(wù)研究[J].高等農(nóng)業(yè)教育,2017(3): 21-25.
[12]" 白巖,張志義. “互聯(lián)網(wǎng)+、大數(shù)據(jù)”背景下大學生就業(yè)創(chuàng)業(yè)能力培養(yǎng)策略及應(yīng)用系統(tǒng)平臺的建設(shè)[J]. 黑龍江科技信息, 2016 (1): 116-117.
[13]" 劉謙,周勁,廷羅晶.大學生創(chuàng)新創(chuàng)業(yè)平臺設(shè)計中大數(shù)據(jù)模塊應(yīng)用分析與設(shè)計[J].中國新技術(shù)新產(chǎn)品,2022(16):45-48.
(責任編輯:吳" 漢)