郭蓓蓓
摘要:在大數(shù)據(jù)環(huán)境下,采用網(wǎng)絡(luò)爬蟲技術(shù)從招聘類網(wǎng)站獲取近期發(fā)布的10512條BIM職位的招聘廣告,運(yùn)用文本挖掘的方法,通過建立LDA模型,對BIM職位的市場需求特征進(jìn)行分析研究;同時(shí)收集5461篇BIM有關(guān)的期刊論文進(jìn)行研究結(jié)果驗(yàn)證,共得出12類基于市場需求的BIM職位能力類型。研究獲得的結(jié)論可以為BIM職位求職者能力匹配、企業(yè)制定招聘和培訓(xùn)和大學(xué)開發(fā)與BIM相關(guān)的課程提供一定參考。
Abstract: In the big data environment, the web crawler technology was used to obtain the recruitment advertisements of the 10,512 BIM positions recently released from the recruitment website. Using the text mining method, the LDA model was established to analyze the market demand characteristics of BIM positions. A total of 5,461 BIM-related journal articles were collected to verify the results of the research, and a total of 12 types of BIM positions based on market demand were obtained. The conclusions of the study can provide a reference for BIM job seeker competency matching, corporate development recruitment and training, and university development and BIM-related courses.
關(guān)鍵詞:BIM職位;市場需求;LDA模型
0? 引言
BIM技術(shù)作為一種多維信息模型集成技術(shù),在我國建筑行業(yè)提高建造效率、提升建筑質(zhì)量等方面起著重要的推動(dòng)作用。我國住建部印發(fā)的《2016-2020年建筑業(yè)信息化發(fā)展綱要》中將BIM視為十三五期間建筑業(yè)重點(diǎn)推廣的信息技術(shù)之首,并明確指出要加快BIM的普及應(yīng)用,著重增強(qiáng)BIM的集成應(yīng)用能力,BIM在建筑行業(yè)內(nèi)越來越受到重視[1]。此外,根據(jù)BIM中國網(wǎng)的統(tǒng)計(jì),BIM行業(yè)的發(fā)展趨勢一直呈上升狀態(tài),通過對近年來我國的建筑業(yè)信息化率、BIM項(xiàng)目比率等進(jìn)行分析,預(yù)測到2023年我國BIM市場規(guī)模將會(huì)達(dá)到22.81億元,可見BIM的行業(yè)前景十分廣闊[2]。根據(jù)Transparency Market Research(透明度市場研究)的報(bào)告—《2015-2022年BIM全球市場分析,規(guī)模,信息,增長,趨勢以及預(yù)測》,2014年全球BIM軟件的市場價(jià)值27.6億美元, 到2022年,預(yù)計(jì)將到達(dá)115.4億美元,復(fù)合年增長率將保持在19.1%。文獻(xiàn)調(diào)查報(bào)告顯示,在未來兩年30%以上的項(xiàng)目中應(yīng)用BIM技術(shù)的施工企業(yè)增長預(yù)測中,中國施工企業(yè)高達(dá)108%[3]。BIM市場的快速增長,導(dǎo)致市場對BIM人才的需求也變得更加迫切,但BIM人才對市場需求的不適應(yīng)性嚴(yán)重制約著BIM的深入推廣。有研究表明,缺乏熟練的BIM人員是實(shí)踐中限制BIM實(shí)施的主要障礙之一,也是建筑行業(yè)進(jìn)入信息化建設(shè)時(shí)代的瓶頸之一[4,5,6,7]。
此外,隨著時(shí)代的發(fā)展,信息數(shù)據(jù)爆炸式地?cái)U(kuò)張,人們對大數(shù)據(jù)這個(gè)詞已不再陌生,大數(shù)據(jù)使衡量以前無法衡量的一些現(xiàn)象、事物等成為可能。大數(shù)據(jù)不僅僅是一種新技術(shù),更是一種新的思維方式[8]。大數(shù)據(jù)時(shí)代的到來也改變了學(xué)術(shù)研究的諸多方面,思維方式的轉(zhuǎn)變成為科研方法變革的推動(dòng)力,科研領(lǐng)域呈現(xiàn)出數(shù)據(jù)密集型特征,相比于過去受限于收集、分析數(shù)據(jù)的工具而只好盡可能地減少數(shù)據(jù)量,現(xiàn)在研究人員有了一系列可利用的新工具,如機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù),因而不必做過多的精減,可以利用充足的數(shù)據(jù)來描述和分析研究對象。劉耘、袁華提出了一個(gè)基于大數(shù)據(jù)的人才培養(yǎng)方案,該方法是基于互聯(lián)網(wǎng)上海量的招聘信息,并從中獲取該類別崗位的能力需求特征[9],劉睿倫、葉文豪通對大數(shù)據(jù)工作崗位需求文本進(jìn)行挖掘,根據(jù)聚類結(jié)果發(fā)現(xiàn)大數(shù)據(jù)崗位的一些特點(diǎn),例如對學(xué)歷要求不高、企業(yè)偏好有經(jīng)驗(yàn)的但也不排除無經(jīng)驗(yàn)的求職者、企業(yè)對職位素養(yǎng)要求要高于計(jì)算機(jī)技術(shù)要求等[10]。林佳瑞、張建平采用綜述分析與文本挖掘分析相結(jié)合的方法對我國BIM政策發(fā)展現(xiàn)狀趨勢及現(xiàn)狀進(jìn)行了綜述[11]。在建筑行業(yè)的人才培養(yǎng)方面,尚未有人采用大數(shù)據(jù)方式進(jìn)行研究。
1? 研究方法
從市場需求的角度出發(fā),通過互聯(lián)網(wǎng)上發(fā)布的BIM相關(guān)職位的招聘數(shù)據(jù)的挖掘、處理、分析來展開研究,并通過主題模型建立來獲得相關(guān)關(guān)鍵詞,總結(jié)歸納出市場上BIM人才需求的特點(diǎn)。并同步收集期刊論文進(jìn)行結(jié)果的驗(yàn)證,科研話題往往可以很好地反映該行業(yè)或領(lǐng)域的發(fā)展現(xiàn)況和趨勢,因?yàn)榭蒲械木劢裹c(diǎn)經(jīng)常會(huì)落在市場需求和行業(yè)前沿上,所以通過對有關(guān)BIM的研究文獻(xiàn)進(jìn)行文本分析,提取其中的主題,得到的實(shí)驗(yàn)結(jié)果可以間接地反映市場上的BIM需求,用于驗(yàn)證BIM招聘數(shù)據(jù)模型的實(shí)驗(yàn)結(jié)果。通過比較一些常用的中文數(shù)據(jù)庫,如中國知網(wǎng)、萬方、維普等,發(fā)現(xiàn)中國知網(wǎng)收錄的期刊數(shù)量較多,并且提供了收錄論文的詳細(xì)數(shù)據(jù),所以選取中國知網(wǎng)上的期刊論文數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。主要的研究步驟見圖1。
第一步:尋找并獲取反映市場BIM需求的信息數(shù)據(jù),信息分為兩部分,一部分是直接反映市場需求的企業(yè)在線招聘信息,另一部分是可以間接反映行業(yè)BIM市場需求的BIM相關(guān)論文的研究問題,并通過爬蟲技術(shù)實(shí)現(xiàn)網(wǎng)頁信息的抓取和存儲(chǔ);
第二步:對取得的信息數(shù)據(jù)進(jìn)行預(yù)處理,圖1研究包括轉(zhuǎn)換數(shù)據(jù)格式、去除無關(guān)信息、整合訓(xùn)練模型所需的數(shù)據(jù),再借助Jieba分詞工具進(jìn)行中文分詞,同時(shí)過濾停用詞、標(biāo)點(diǎn)符號(hào)、英文、數(shù)字等;
第三步:利用Python建立LDA主題模型,通過對模型輸出的主題詞信息進(jìn)行相關(guān)分析,總結(jié)歸納出市場上對BIM相關(guān)職位人才的具體需求。具體過程見以下1.1-1.3的詳細(xì)內(nèi)容。
1.1 數(shù)據(jù)收集
首先是BIM相關(guān)職位的在線招聘數(shù)據(jù)收集,使用“BIM”作為職位的搜索關(guān)鍵詞,從目前國內(nèi)常用的一些招聘網(wǎng)站上收集在線招聘數(shù)據(jù),將招聘數(shù)據(jù)的地域范圍設(shè)置為全國。最終選取的招聘數(shù)據(jù)來源于國內(nèi)6個(gè)主流的招聘網(wǎng)站:智聯(lián)招聘網(wǎng)、前程無憂、拉勾網(wǎng)、獵聘網(wǎng)、BOSS直聘和建筑英才網(wǎng),其中建筑英才網(wǎng)是專門針對建筑行業(yè)的一個(gè)招聘網(wǎng)站,其它屬于綜合性的招聘網(wǎng)站,從這6個(gè)招聘網(wǎng)站中總共獲取了10512條招聘數(shù)據(jù)。
其次是BIM相關(guān)的期刊論文數(shù)據(jù)收集,以“BIM”作為主題檢索詞進(jìn)行搜索,共獲取5461篇論文詳情頁的xml文檔數(shù)據(jù)。
文本預(yù)處理:
完成數(shù)據(jù)的收集后,為了使后續(xù)的主題識(shí)別更精確、更可靠,還需要對收集的數(shù)據(jù)做進(jìn)一步處理,這也是使數(shù)據(jù)滿足主題模型輸入要求的必要步驟。主要包括整合數(shù)據(jù)資料、中文分詞、去停用詞等預(yù)處理操作,從而得到滿足LDA主題模型輸入條件的數(shù)據(jù)集。
1.2 整理數(shù)據(jù)資料
在對收集到的BIM相關(guān)職位的招聘數(shù)據(jù)和中國知網(wǎng)的期刊論文數(shù)據(jù)進(jìn)行預(yù)處理之前,先進(jìn)行必要的數(shù)據(jù)整理工作,主要包括刪除無關(guān)數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)格式等。
對于BIM相關(guān)職位的招聘數(shù)據(jù),從MongoDB數(shù)據(jù)庫中提取實(shí)驗(yàn)需要的相關(guān)數(shù)據(jù),即職位描述。由于MongoDB數(shù)據(jù)庫具有支持查詢的特點(diǎn),則可以利用Python來提取數(shù)據(jù),并將結(jié)果另存為txt格式文檔。然后再對提取出來的職位描述進(jìn)行處理,刪除無關(guān)數(shù)據(jù),如公司介紹、公司福利等與研究問題無關(guān)的內(nèi)容,只保留職位職責(zé)描述的核心內(nèi)容部分。
對于BIM相關(guān)的期刊論文數(shù)據(jù)時(shí),對得到的xml文件數(shù)據(jù)格式進(jìn)行解析,提取出需要的文本數(shù)據(jù),并存為txt格式文檔。
1.2.1 中文分詞
選用的方法是Jieba分詞,Jieba分詞是基于詞頻度統(tǒng)計(jì)用Python開發(fā)的一種中文分詞模塊,速度較快,精度也較高[12]。Jieba分詞主要包括三種模式:精確模式、全模式和搜索引擎模式。精確模式適合文本分析,該模式是將語句以最精準(zhǔn)的方式地切開;全模式速度很快,能把句子中所有可能組合在一起的詞都掃描出來,缺點(diǎn)是不能解決歧義的問題;搜索引擎模式比較適合用作搜索引擎分詞,它是在將語句精確地切分開的基礎(chǔ)上,對較長的詞再一次進(jìn)行切分,提高了召回率[13]。因此選擇采用Jieba分詞的精確模式對兩部分文本數(shù)據(jù)進(jìn)行分詞,得到兩個(gè)詞集合。
1.2.2 去停用詞
在得到分詞結(jié)果的基礎(chǔ)上,使用停用詞表過濾文本數(shù)據(jù)中的停用詞,這是計(jì)算機(jī)輔助文本分析時(shí)的典型預(yù)處理步驟。停用詞表中包含了一些常見的停用詞,但還需要針對具體的應(yīng)用情況進(jìn)行必要的補(bǔ)充。因此在對招聘文本數(shù)據(jù)進(jìn)行處理時(shí),在其使用的停用詞表中人工添加了與本次研究有關(guān)的停用詞,例如公司、負(fù)責(zé)、有限、工作、相關(guān)等詞語,由于招聘數(shù)據(jù)中存在大量無關(guān)數(shù)據(jù),所以去停用詞處理十分有必要。而對期刊論文去停用詞時(shí),除了在其使用的停用詞表中也人為地添加了一些停用詞,如下載、收稿、關(guān)鍵詞、參考文獻(xiàn)等對本次研究而言無意義的詞語,還刪除了文本數(shù)據(jù)中的英文,因?yàn)檎撐闹谢径及欢斡⑽恼?,而本次研究?nèi)容僅限于中文,英文摘要的存在會(huì)對實(shí)驗(yàn)的結(jié)果造成一定的影響。
在實(shí)際的操作過程中,中文分詞和去停用詞這兩步預(yù)處理是通過一段代碼同時(shí)進(jìn)行的,遍歷語料庫,將每一行或是每一篇文本數(shù)據(jù)進(jìn)行分詞和去停用詞,得到兩份更有效的詞集合,招聘數(shù)據(jù)和期刊論文預(yù)處理后的部分結(jié)果分別如圖2、圖3所示。
1.3 LDA主題模型建立
收集的BIM相關(guān)職位招聘數(shù)據(jù)和有關(guān)BIM的研究文獻(xiàn)經(jīng)過上述處理之后,下一步就可以通過得到的詞集合建立LDA主題模型,進(jìn)而挖掘語料庫中文檔的潛在主題。
1.3.1 確定模型參數(shù)
在使用LDA主題模型來獲取文檔主題數(shù)據(jù)的時(shí)候,需要人工指定主題數(shù)量K,主題數(shù)量會(huì)影響主題的識(shí)別效果[14]。研究主要通過查閱目前一些BIM教材的章節(jié)數(shù)來初步確定主題數(shù)K,根據(jù)查閱結(jié)果,BIM相關(guān)教材平均在10章左右,所以K初步定為10,在后續(xù)訓(xùn)練模型過程中根據(jù)主題的識(shí)別效果再進(jìn)行調(diào)整。
文檔迭代次數(shù)n暫定為1000,一般迭代次數(shù)在1000以上模型才會(huì)較好地收斂達(dá)到一個(gè)理想的效果。LDA模型訓(xùn)練的其他超參數(shù)α和β一般可以根據(jù)經(jīng)驗(yàn)進(jìn)行設(shè)置,如"α="? "50" /"K"? ",β=0.01" ,K為主題數(shù)量。
1.3.2 訓(xùn)練模型
確定了模型參數(shù)后,利用Python中的第三方模塊LDA來訓(xùn)練LDA模型。將文本中的詞語轉(zhuǎn)換成詞頻矩陣,矩陣元素a[m][n]表示第m個(gè)文檔中第n個(gè)詞的詞頻,招聘數(shù)據(jù)的詞頻矩陣為10512×11516的矩陣,期刊論文的詞頻矩陣為5461×84012的矩陣,得到詞頻矩陣后再使用Python的LDA模塊訓(xùn)練LDA模型。在訓(xùn)練招聘數(shù)據(jù)LDA模型時(shí),發(fā)現(xiàn)通過詞頻矩陣訓(xùn)練的模型結(jié)果并不理想,結(jié)果難以很好地進(jìn)行解釋,推斷是因?yàn)檎衅笖?shù)據(jù)屬于短文本的緣故。主題模型的目的是通過一組具有代表性的詞語來推斷文檔的深層含義,LDA主題模型是依靠文檔中詞共現(xiàn)來挖掘文檔潛在的主題,而對于短文本,數(shù)據(jù)的稀疏性會(huì)影響模型的效果[14]。因此通過計(jì)算TF-IDF值為詞集合中的詞賦予權(quán)重,以提高識(shí)別主題詞的準(zhǔn)確度,進(jìn)而提高實(shí)驗(yàn)結(jié)果的可解釋性。
在訓(xùn)練過程中通過不斷調(diào)整主題數(shù)量K和迭代次數(shù)n來優(yōu)化主題識(shí)別效果,發(fā)現(xiàn)主題數(shù)量為15,迭代次數(shù)為2000時(shí)的實(shí)驗(yàn)效果較好。最終得到了招聘數(shù)據(jù)和期刊論文的主題-詞分布,分別選取了每個(gè)主題的分布概率較高的10個(gè)關(guān)鍵詞來進(jìn)行下一步分析。
2? 結(jié)果及分析
2.1 招聘數(shù)據(jù)模型結(jié)果分析
通過建立LDA主題模型對10512條在線招聘數(shù)據(jù)進(jìn)行文本分析,共得到在線招聘數(shù)據(jù)相關(guān)的15個(gè)主題,選取15個(gè)主題的前10個(gè)主題詞來做進(jìn)一步分析,招聘數(shù)據(jù)的主題-詞分布如表1所示。
2.2 主題相似度計(jì)算
通過對在線招聘數(shù)據(jù)進(jìn)行主題挖掘,得到表1所示的主題-詞分布后,對各個(gè)主題進(jìn)行文本相似度計(jì)算,文本相似度計(jì)算的目的是為了衡量兩個(gè)不同文檔之間的差異大小。文本相似度的計(jì)算有很多算法,通常采用的是基于向量空間模型的方法,包括余弦相似度、歐式距離、曼哈頓距離等等,因?yàn)樵擃惙椒ㄔ砗唵?,易于?shí)現(xiàn)[15],本研究采用的是余弦相似度算法來計(jì)算主題詞頻率向量之間的相似度,從而來衡量這15個(gè)主題之間的語義相似度。它是通過向量A,B之間的夾角來衡量向量相似度的,余弦值范圍在0到1之間,余弦值越大,兩向量之間的夾角越小,說明兩個(gè)詞向量間的語義越接近、越相似。余弦相似度計(jì)算公式如式1所示,θ表示向量A,B之間的夾角:
■(1)
余弦相似度的部分計(jì)算結(jié)果如表2所示:
根據(jù)表2所示的余弦相似度的數(shù)值大小,可以看出實(shí)驗(yàn)得到的15個(gè)在線招聘數(shù)據(jù)主題之間的相似度整體都較低,具有較好的相互獨(dú)立性。余弦相似度數(shù)值在0到1之間,當(dāng)兩文本的余弦相似度為0時(shí),文本語義不相關(guān);而當(dāng)兩文本的余弦相似度為1時(shí),說明兩文本完全相同。在實(shí)驗(yàn)得出的15個(gè)主題中,相似度最高的是主題5和主題15,相似度為0.30。對于有一定相似度的主題,將在后續(xù)分析總結(jié)時(shí)對其做適當(dāng)?shù)暮喜⑻幚怼?/p>
2.3 期刊論文模型結(jié)果分析
對有關(guān)BIM的期刊論文進(jìn)行了文本分析,以5461篇期刊論文作為輸入語料,訓(xùn)練LDA主題模型后得到期刊論文的主題-詞分布,如表3所示,根據(jù)這些主題詞分析得出的期刊論文主題,可以用以輔助解釋招聘主題數(shù)據(jù)并對其起著必要的補(bǔ)充說明作用。
通過表1和表3的對比,可以看出兩者的主題中有許多十分相近的含義,如管線碰撞檢查、創(chuàng)建三維模型、施工組織設(shè)計(jì)、工程造價(jià)、成本管理等,驗(yàn)證實(shí)驗(yàn)結(jié)果是具有可信度的。
2.4 BIM職位市場需求分析討論
以表1中招聘數(shù)據(jù)的主題-詞分布為分析對象,借助得到的各個(gè)主題之間的余弦相似度和期刊論文的主題數(shù)據(jù)來輔助分析、解釋招聘數(shù)據(jù)主題,最后總結(jié)得出12個(gè)市場上的BIM需求數(shù)據(jù),如圖4所示。
據(jù)圖4所示的BIM相關(guān)職位的12個(gè)市場需求特征,結(jié)合BIM實(shí)施現(xiàn)狀,得出以下三個(gè)觀點(diǎn):
2.4.1 BIM職位的需求涉及多個(gè)領(lǐng)域及行業(yè)
BIM職位的需求涉及建筑行業(yè)、動(dòng)畫制作、軟件開發(fā)、培訓(xùn)、教育、咨詢、營銷等多個(gè)領(lǐng)域和行業(yè)。BIM的應(yīng)用開始趨向于產(chǎn)業(yè)化發(fā)展趨勢,不僅涉及建筑行業(yè),并開始向多個(gè)應(yīng)用領(lǐng)域擴(kuò)展,同時(shí)開始衍生和帶動(dòng)相關(guān)上下游關(guān)聯(lián)產(chǎn)業(yè),例如軟件開發(fā)、咨詢、教育、培訓(xùn)、動(dòng)畫制作等[16]。
2.4.2 BIM職位需要更多復(fù)合型人才
BIM職位需求更多需要復(fù)合型人才,軟件只是相應(yīng)的工具,更多需要有專業(yè)背景開展專業(yè)的應(yīng)用和管理工作。有研究也表明,BIM技術(shù)的應(yīng)用和推廣,需要大量的BIM專業(yè)人才,這些人才不僅需要擁有施工技術(shù)、項(xiàng)目管理等工程領(lǐng)域的知識(shí),還需要懂計(jì)算機(jī)軟硬件管理、軟件操作等計(jì)算機(jī)知識(shí);BIM從業(yè)者既要熟練掌握BIM的相關(guān)理論和實(shí)際操作技能,還需要具有工程專業(yè)背景和工程項(xiàng)目相關(guān)實(shí)踐經(jīng)驗(yàn)。既要掌握核心的多種BIM軟件,又能夠結(jié)合企業(yè)和項(xiàng)目的實(shí)際需求制訂BIM應(yīng)用方案和技術(shù)標(biāo)準(zhǔn)。做好BIM相關(guān)工作,需要更多的復(fù)合型BIM人才,但現(xiàn)階段這些人才在我國建筑業(yè)企業(yè)中是相當(dāng)匱乏的[3,17]。目前我們一方面要進(jìn)行的是企業(yè)人員的BIM能力提升,并以BIM技術(shù)和管理人才為引領(lǐng)建設(shè)和培養(yǎng)一批精通信息技術(shù)業(yè)務(wù)并且熟悉團(tuán)隊(duì)管理的復(fù)合型BIM人才隊(duì)伍[5],另一方面高校要加快加大BIM人才的培養(yǎng)。
2.4.3 BIM職位向?qū)I(yè)化、資質(zhì)化階段發(fā)展
建筑行業(yè)已經(jīng)開始對BIM從業(yè)人員有證書相關(guān)要求。在對BIM障礙的研究中,解決對策中也提出政府要加大支持力度,完善BIM應(yīng)用的外部環(huán)境,并進(jìn)一步推行BIM技術(shù)職業(yè)資格考試及認(rèn)證制度,加大宣傳力度[18]。當(dāng)前我國已經(jīng)推行了BIM考試認(rèn)證,工信部、圖學(xué)學(xué)會(huì)、建設(shè)教育協(xié)會(huì)等均開展了相關(guān)的資質(zhì)認(rèn)證工作,為行業(yè)專業(yè)人才培養(yǎng)和認(rèn)證提供了國家渠道,提升了我國專業(yè)人才的能力[19],但目前由于BIM的標(biāo)準(zhǔn)化未進(jìn)行統(tǒng)一,全國的資質(zhì)認(rèn)證工作尚未實(shí)現(xiàn)統(tǒng)一,從其他行業(yè)的發(fā)展來看,BIM行業(yè)從業(yè)認(rèn)證是必然趨勢。
3? 結(jié)語
首次在建筑行業(yè)人才培養(yǎng)領(lǐng)域采用大數(shù)據(jù)分析的方法,從網(wǎng)絡(luò)挖掘獲取海量的BIM相關(guān)職位的招聘信息,結(jié)合各種數(shù)據(jù)挖掘方法挖掘出基于市場的BIM人才需求。從而使企業(yè)、高校、求職者從中掌握BIM相關(guān)職位的人才需求特征,為行業(yè)人才的培養(yǎng)提供支持,為高校洞察企業(yè)需求,做出及時(shí)而有效的人才培養(yǎng)方案提供參考。
雖然研究取得了一定的成果,但仍存在一些地方需要優(yōu)化和改進(jìn):
①招聘數(shù)據(jù)來源于在線招聘網(wǎng)站,各招聘網(wǎng)站的信息發(fā)布格式參差不齊,在數(shù)據(jù)整理過程中造成很多困難;研究采用的期刊論文來自中國知網(wǎng),由于各種制約因素,難免會(huì)導(dǎo)致獲取的論文數(shù)據(jù)不夠完整,可以考慮通過其他中文數(shù)據(jù)庫來對數(shù)據(jù)進(jìn)行補(bǔ)充,提高數(shù)據(jù)的完整性。
②采用LDA主題模型時(shí)需要人為設(shè)定主題數(shù)K,更優(yōu)的做法是通過數(shù)學(xué)方法來確定主題數(shù)K,從而提高LDA模型的質(zhì)量和實(shí)驗(yàn)效果。
參考文獻(xiàn):
[1]住房城鄉(xiāng)建設(shè)部.關(guān)于印發(fā)2016-2020年建筑業(yè)信息化發(fā)展綱要的通知[N].(2016-08-23)http://www.mohurd.gov.cn/wjfb/201609/t20160918_228929.html.
[2]前瞻產(chǎn)業(yè)研究院.2023年我國BIM市場規(guī)??蛇_(dá)22.81億應(yīng)用推廣之路任重道遠(yuǎn)[N].(2018-01-24)http://www.cnBIM.com/2018/0124/4774.html.
[3]祝連波,李鑫,黃一雷.我國大型施工企業(yè)BIM技術(shù)發(fā)展模式研究——基于SWOT分析[J].建筑經(jīng)濟(jì),2018,39(06):78-82.
[4]秦旋,MANCINI Mauro,TRAVAGL
INI Agnese,呂坤燦,王敏.基于市場推廣視角的BIM技術(shù)采納障礙因素中意對比研究[J].管理學(xué)報(bào),2016,13(11):1718-1727.
[5]郭慶軍,郝倩雯,閆竑宇.建筑業(yè)轉(zhuǎn)型過程中人才隊(duì)伍建設(shè)與培養(yǎng)分析[J].建筑經(jīng)濟(jì),2017,38(11):11-14.
[6]李夢夢,賴芨宇,姚超,孫曉丹.基于SEM的BIM應(yīng)用推廣阻礙因素分析及對策研究[J].武漢工程大學(xué)學(xué)報(bào),2018,40(04):462-467.
[7]許炳,朱海龍.我國建筑業(yè)BIM應(yīng)用現(xiàn)狀及影響機(jī)理研究[J].建筑經(jīng)濟(jì),2015,36(03):10-14.
[8]張峰,張迪.論大數(shù)據(jù)時(shí)代科研方法新特征及其影響[J].科學(xué)學(xué)研究2016,34(02):166-170,202.
[9]劉耘,袁華.基于大數(shù)據(jù)的需求驅(qū)動(dòng)的職業(yè)能力培養(yǎng)研究[J].電子科技大學(xué)學(xué)報(bào)(社科版),2018,20(02):8-14.
[10]劉睿倫,葉文豪,高瑞卿,唐夢嘉,王東波.基于大數(shù)據(jù)崗位需求的文本聚類研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(12):32-40.
[11]林佳瑞,張建平.我國BIM政策發(fā)展現(xiàn)狀綜述及其文本分析[J].施工技術(shù),2018,47(06):73-78.
[12]于重重,操鐳,尹蔚彬,張澤宇,鄭雅.呂蘇語口語標(biāo)注語料的自動(dòng)分詞方法研究[J].計(jì)算機(jī)應(yīng)用研究,2017,34(05):1325-1328.
[13]李瑩.面向企業(yè)需求的專家推薦算法研究[D].北京交通大學(xué),2018.
[14]Malek Hajjem,Chiraz Latiri. Combining IR and LDA Topic Modeling for Filtering Microblogs[J]. Procedia Computer Science,2017,112.
[15]王春柳,楊永輝,鄧霏,等.文本相似度計(jì)算方法研究綜述[J].情報(bào)科學(xué),2019,37(03):158-168.
[16]何清華,楊德磊,鄭弦.國外建筑信息模型應(yīng)用理論與實(shí)踐現(xiàn)狀綜述[J].科技管理研究,2015,35(03):136-141.
[17]張江波.BIM的應(yīng)用現(xiàn)狀與發(fā)展趨勢[J].創(chuàng)新科技,2016(01):83-86.
[18]許云萍,徐晨.BIM對工程項(xiàng)目管理的影響及應(yīng)用障礙分析[J].建筑經(jīng)濟(jì),2017,38(03):35-37.
[19]高雄.基于BIM的工程造價(jià)精細(xì)化管理方法[J].價(jià)值工程,2019,38(12):70-73.