吳彬 楊振興 郭芳琳 唐笑梅
摘 要:隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,科學(xué)技術(shù)也在不斷創(chuàng)新完善。加強(qiáng)工程項(xiàng)目查重系統(tǒng)的建設(shè),建立相應(yīng)的數(shù)據(jù)庫,以全面加強(qiáng)工程項(xiàng)目質(zhì)量檢驗(yàn)工作就需要加強(qiáng)工程項(xiàng)目查詢系統(tǒng)的建設(shè),而且能夠結(jié)合現(xiàn)代化技術(shù)不斷完善查詢系統(tǒng),從多個(gè)角度、多個(gè)方向?qū)崿F(xiàn)差異化的質(zhì)量控制,以全面提高工程項(xiàng)目建設(shè)的質(zhì)量,提升其實(shí)際的應(yīng)用效果。因此,著重探究了如何借用現(xiàn)代化技術(shù)不斷完善工程項(xiàng)目查詢系統(tǒng),并結(jié)合實(shí)際應(yīng)用中存在的問題進(jìn)行創(chuàng)新和發(fā)展,全面提高工程項(xiàng)目查重系統(tǒng)的穩(wěn)健性。
關(guān)鍵詞:工程項(xiàng)目;查重系統(tǒng);應(yīng)用分析
引言
如今這個(gè)信息膨脹的時(shí)代為信息共享提供了一個(gè)良好的環(huán)境。從一個(gè)角度來看,信息技術(shù)使得工程項(xiàng)目的質(zhì)量得到有效的提高,但從另一個(gè)角度來看卻是難以保障科研項(xiàng)目資源的安全。在工程項(xiàng)目建設(shè)的過程中出現(xiàn)了大量的相似信息,為了全面加強(qiáng)這些信息的管理工作,在實(shí)際的應(yīng)用中要想能夠準(zhǔn)確并快速的找到相應(yīng)的內(nèi)容,則需要建立相應(yīng)的查重系統(tǒng)。自助查重系統(tǒng)能夠結(jié)合信息技術(shù)以及時(shí)判定工程項(xiàng)目與現(xiàn)有數(shù)據(jù)庫中的信息是否存在大量相似的部分,及時(shí)檢測(cè)出相似的部分,從而在后期能夠?yàn)楣こ添?xiàng)目工作提供指導(dǎo)性的意見,確定研究方向和研究重點(diǎn)。
一、研究現(xiàn)狀
我國(guó)已逐漸意識(shí)到加強(qiáng)工程項(xiàng)目查詢系統(tǒng)建設(shè)的必要性和重要性,因而逐漸加大了資金投入。而國(guó)外對(duì)于工程項(xiàng)目查詢系統(tǒng)并沒有相關(guān)的研究,但在部分文獻(xiàn)中提出了關(guān)鍵字提取、相似度計(jì)算等觀念;國(guó)外也并沒有提出構(gòu)建查重系統(tǒng)的概念,而是借助向量空間模型來計(jì)算向量之間的相似度,從而計(jì)算文本間的相似度。向量空間模型是基于統(tǒng)計(jì)學(xué)衍生出來的計(jì)算相似度的方法,其最大的優(yōu)勢(shì)在于計(jì)算的效率相對(duì)較高,實(shí)用性很強(qiáng)。但在向量空間模型的實(shí)際應(yīng)用過程中,為了提高使用效率的需要有一個(gè)龐大的數(shù)據(jù)庫作為支撐。而這種單一的計(jì)算方式難以加強(qiáng)項(xiàng)目工程整體的相似度檢測(cè),正如在一篇文章的查重中只能通過漢字來查重,難以綜合文章的語義和詞語近義詞、文體等多個(gè)方面來實(shí)現(xiàn)系統(tǒng)的查重,而這樣的查詢方式已經(jīng)無法滿足現(xiàn)階段工程項(xiàng)目查重的要求。例如,在文章查重當(dāng)中,首先要加強(qiáng)文本內(nèi)容相似度的檢驗(yàn),同時(shí)綜合考慮到詞語、句子和段落之間的聯(lián)系,以借助更為復(fù)雜、難度更大的查重系統(tǒng)全面提高查重的準(zhǔn)確率,而這也是未來工程項(xiàng)目查重系統(tǒng)發(fā)展的趨勢(shì)。我國(guó)在這方面的研究起步相對(duì)較晚,但在實(shí)際的查重系統(tǒng)建設(shè)過程中結(jié)合了先進(jìn)的思想和理念,不斷完善工程項(xiàng)目查詢系統(tǒng);同時(shí),綜合利用了我國(guó)的先進(jìn)技術(shù),在建立向量空間模型的同時(shí),擴(kuò)大了工程項(xiàng)目查重的范圍,除了名稱、內(nèi)容、技術(shù)指標(biāo)等各個(gè)方面之外,把更多的注意力放在了項(xiàng)目?jī)?nèi)容相似度的檢測(cè)上,通過加權(quán)平均以獲得最終的檢測(cè)結(jié)果。而大數(shù)據(jù)也為工程項(xiàng)目系統(tǒng)查重工作提供了有效的幫助,通過數(shù)據(jù)挖掘以獲取相關(guān)的項(xiàng)目信息,在修正的過程當(dāng)中全面提高查重結(jié)果的準(zhǔn)確性。但現(xiàn)階段,我國(guó)工程項(xiàng)目查重系統(tǒng)建設(shè)中,由于信息共享度相對(duì)較低,存在著查重的范圍相對(duì)小,查全率不高等弊端。
二、項(xiàng)目查重的含義
在工程項(xiàng)目的建設(shè)過程中,為了全面提高其實(shí)際的效果和質(zhì)量,以達(dá)到實(shí)際的研究需求,避免重復(fù)研究的現(xiàn)象發(fā)生,構(gòu)建工程查詢系統(tǒng),以加強(qiáng)信息公開,實(shí)現(xiàn)資源的統(tǒng)籌規(guī)劃,從而保證工程項(xiàng)目能夠公正公平地開展,同時(shí)能夠充分突出其實(shí)際的服務(wù)效能。通過項(xiàng)目查重以加強(qiáng)數(shù)據(jù)信息的監(jiān)測(cè),全面了解項(xiàng)目的研究狀況和成果產(chǎn)出情況,為后期的項(xiàng)目申請(qǐng)等相關(guān)工作提供有效的參考以避免重復(fù)申請(qǐng)、重復(fù)研究的現(xiàn)象發(fā)生,以盡可能地利用現(xiàn)有的資源全面提升工程項(xiàng)目研究的質(zhì)量。對(duì)于同一主題的項(xiàng)目在實(shí)際的研究過程中,相應(yīng)的工作人員可以從基礎(chǔ)前沿、關(guān)鍵性技術(shù),以及應(yīng)用示范等各個(gè)方面出發(fā),其中包含了多個(gè)布局項(xiàng)目。為了加快研究的進(jìn)程,在實(shí)際的研究過程中還會(huì)出現(xiàn)多個(gè)隊(duì)伍從不同的路徑去研究,因而研究活動(dòng)存在交叉現(xiàn)象。而為了有效避免這些不同的技術(shù)路線出現(xiàn)相同的申報(bào)項(xiàng)目,應(yīng)通過建立項(xiàng)目查重系統(tǒng)有效避免在工程項(xiàng)目工程開發(fā)過程中出現(xiàn)重復(fù)的現(xiàn)象。因而在項(xiàng)目查重的過程中,則需要加強(qiáng)對(duì)項(xiàng)目名稱、申請(qǐng)者研究?jī)?nèi)容等相關(guān)信息的檢測(cè)。雖然這樣的項(xiàng)目查重難以完全避免重復(fù)立項(xiàng)的現(xiàn)象發(fā)生,但是其建立的綜合項(xiàng)目目標(biāo)、內(nèi)容和技術(shù)路線為項(xiàng)目的后期研究和發(fā)展提供相應(yīng)的決策支持,通過比較可以實(shí)現(xiàn)擇優(yōu)。因而,在項(xiàng)目查重工作開展的過程中,首先要結(jié)合查重的目標(biāo),選擇相應(yīng)的查重樣本庫,從而通過相似性計(jì)算來設(shè)定閾值,將查重的最終結(jié)果和閾值進(jìn)行比較檢驗(yàn),并顯現(xiàn)出項(xiàng)目工程的相似度和相似文本。項(xiàng)目查重的流程如圖1所示。
三、工程項(xiàng)目查重系統(tǒng)設(shè)計(jì)
(一)功能結(jié)構(gòu)
在工程項(xiàng)目查詢系統(tǒng)的設(shè)計(jì)過程中,首先要從功能結(jié)構(gòu)和功能需求兩個(gè)方面出發(fā),全面提高查重系統(tǒng)的實(shí)用性,同時(shí)達(dá)到實(shí)際的應(yīng)用需求。在工程項(xiàng)目查重的過程中要能夠充分利用現(xiàn)有的資源優(yōu)勢(shì),借助互聯(lián)網(wǎng)加強(qiáng)項(xiàng)目申請(qǐng)書、工程報(bào)告項(xiàng)目成果等信息的收集和處理。為了全面提高項(xiàng)目的查全率,在實(shí)際的建設(shè)過程中則需要結(jié)合多個(gè)部門共同研究,通過系統(tǒng)的查重分析,以挖掘具有一定關(guān)聯(lián)性的信息源,通過相似性的檢測(cè),全面加強(qiáng)文本內(nèi)容分析,為相關(guān)工作人員提供更加專業(yè)系統(tǒng)的服務(wù),使得工程項(xiàng)目能夠穩(wěn)定開展,同時(shí)能夠有效避免出現(xiàn)多頭分散立項(xiàng)和重復(fù)研究的現(xiàn)象發(fā)生。在項(xiàng)目查重系統(tǒng)的建設(shè)過程中,首先要加強(qiáng)系統(tǒng)功能設(shè)計(jì),充分考慮到用戶的實(shí)際需求,在做好樣本庫管理的同時(shí),做好檢測(cè)管理和系統(tǒng)管理等相關(guān)模塊,以全面提高項(xiàng)目查重系統(tǒng)的有效性。查重系統(tǒng)功能結(jié)構(gòu)如圖2所示。
(二)功能需求
在工程項(xiàng)目查詢系統(tǒng)的建設(shè)過程當(dāng)中,除了加強(qiáng)相似性的對(duì)比之外,還需要結(jié)合具體的項(xiàng)目數(shù)據(jù)來實(shí)施相應(yīng)的查重工作。在項(xiàng)目查重工作中,可以通過對(duì)申請(qǐng)書內(nèi)容的比較重,也可以結(jié)合工程報(bào)告和工程成果等相應(yīng)的資源進(jìn)行綜合性的相似度對(duì)比,通過全面的對(duì)比以及時(shí)挑選出立項(xiàng)重復(fù)的結(jié)果,篩選出題目相同、報(bào)告內(nèi)容相似度較高的項(xiàng)目。而且以元數(shù)據(jù)為基礎(chǔ),通過搜索申請(qǐng)人或機(jī)構(gòu)所提供的信息和數(shù)量,結(jié)合現(xiàn)有的元數(shù)據(jù)字段進(jìn)行綜合性的檢索,初步了解并判斷工程項(xiàng)目出現(xiàn)重復(fù)申報(bào)的概率。針對(duì)出現(xiàn)的不同狀況,在項(xiàng)目查詢系統(tǒng)的實(shí)際應(yīng)用過程中,則需要通過進(jìn)一步的查重,全面提升查重系統(tǒng)的使用效果。對(duì)于部分項(xiàng)目名稱、承擔(dān)機(jī)構(gòu)或申請(qǐng)人相同的項(xiàng)目,則需要通過對(duì)申請(qǐng)書內(nèi)容相似度的檢測(cè)以確定是否出現(xiàn)重復(fù)。而對(duì)于申請(qǐng)人相同、項(xiàng)目名稱不同的工程項(xiàng)目則需要進(jìn)一步加強(qiáng)對(duì)申請(qǐng)書內(nèi)容,申請(qǐng)時(shí)間和申請(qǐng)機(jī)構(gòu)的相似度檢驗(yàn)。綜合考慮到項(xiàng)目名稱、項(xiàng)目?jī)?nèi)容以及相關(guān)技術(shù)在項(xiàng)目查重中所占的比重,通過加權(quán)的方式來計(jì)算項(xiàng)目工程整體這相似度。綜合不同的功能需求,在項(xiàng)目查重系統(tǒng)構(gòu)建過程中,還需要加強(qiáng)對(duì)工程報(bào)告和成果的相似度檢驗(yàn)工作,通過有效的審核,以借助豐富的信息支持全面提升工程項(xiàng)目查重結(jié)果的準(zhǔn)確性。因而,在功能模塊設(shè)計(jì)的過程中需要結(jié)合詳細(xì)的功能需求實(shí)現(xiàn)工程項(xiàng)目某一方面的查重或者綜合型的查重。
四、系統(tǒng)基本構(gòu)架
(一)體系結(jié)構(gòu)
工程項(xiàng)目查重系統(tǒng)體系結(jié)構(gòu)可以分為數(shù)據(jù)層、業(yè)務(wù)邏輯層和表現(xiàn)層等三個(gè)不同的部分。其中,數(shù)據(jù)層又包含了項(xiàng)目庫報(bào)告庫和成果庫等不同的內(nèi)容;業(yè)務(wù)邏輯層主要是通過分詞和特征詞的提取建立知識(shí)表示模型,從而通過相似度的計(jì)算來確定重復(fù)率;表現(xiàn)層則是通過項(xiàng)目信息檢索,通過相似性檢測(cè),全面加強(qiáng)系統(tǒng)管理工作。而表現(xiàn)層主要是面向相應(yīng)的工程管理機(jī)構(gòu)和相關(guān)人員,以結(jié)合不同用戶的特點(diǎn)和不同需求提供個(gè)性化的服務(wù),以方便相關(guān)人員來查詢基本的信息,實(shí)現(xiàn)基礎(chǔ)服務(wù)的比對(duì),同時(shí)還可以實(shí)現(xiàn)大數(shù)據(jù)的立項(xiàng)查重。
(二)工作流程
在工程項(xiàng)目查詢系統(tǒng)的構(gòu)建過程當(dāng)中,為了全面提高工程項(xiàng)目相似性分析結(jié)果的準(zhǔn)確性,首先要加強(qiáng)對(duì)現(xiàn)有信息資源的處理工作,通過對(duì)工程項(xiàng)目申請(qǐng)書的預(yù)處理,做好關(guān)鍵詞和特征的提取。因而在特征詞的提取過程中,首先要去掉語氣詞,助詞,連詞等,選擇更具有針對(duì)性和代表性的詞匯作為特征項(xiàng)。為了保證下一步工作能夠順利開展,在提取好特征詞后,則需要構(gòu)建相應(yīng)的表示模型,結(jié)合樣本庫構(gòu)建完整的知識(shí)表示模型。在項(xiàng)目工程檢測(cè)的過程中,首先利用相應(yīng)的知識(shí)模型來實(shí)現(xiàn)初步的檢測(cè),借助相似度計(jì)算模塊來完成帶測(cè)模型與樣本庫的模型相似度計(jì)算,將計(jì)算所得的結(jié)果與判別模塊中的閾值進(jìn)行綜合的對(duì)比和分析,從而確定是否超出閾值,是否出現(xiàn)相似的情況。
五、實(shí)際應(yīng)用和技術(shù)分析
(一)層次聚類
在工程項(xiàng)目查重系統(tǒng)的構(gòu)建過程當(dāng)中,僅依靠傳統(tǒng)的查重方式難以保障工程項(xiàng)目評(píng)審的準(zhǔn)確性和科學(xué)性。而借助層次聚類這一方式通過有效的聚類分析,將相應(yīng)的項(xiàng)目文本劃分為不同的簇,通過簇內(nèi)比較和簇間比較,全面加強(qiáng)文本分類。聚類分析包括了劃分法、層次法、K鄰近法等多種方式。而通過層次聚類以全面加強(qiáng)文本相似度的計(jì)算工作,結(jié)合項(xiàng)目本體建立相似度計(jì)算模型,綜合利用最小二乘法、最大似然法等相應(yīng)的技術(shù),提升文本相似度,計(jì)算結(jié)果的準(zhǔn)確性。而在項(xiàng)目聚類的過程中可以利用粒度的概念,通過平衡迭代來選取閾值,建立文本相似度的取值曲線,并使用最小二乘法來進(jìn)行擬合求出曲線的拐點(diǎn),將其作為閾值,在減少計(jì)算步驟或迭代次數(shù)的同時(shí),以全面提高層次聚類結(jié)果的準(zhǔn)確性。在工程項(xiàng)目查重的過程中,可以借助層次聚類的方法,通過對(duì)層次樹的搜索來選取不同的閾值,從而在不同的粒度上實(shí)現(xiàn)不同相似度的項(xiàng)目查重。層次聚類的應(yīng)用還可以借助prefuse的主題知識(shí)圖譜系統(tǒng)框架來實(shí)現(xiàn)關(guān)鍵詞的提取和分析,使得工程項(xiàng)目的查重工作能夠更加智能化。
(二)非分詞技術(shù)
在工程項(xiàng)目查詢系統(tǒng)的構(gòu)建過程當(dāng)中,借助非分詞技術(shù)以充分利用Ukkonen算法思想,以構(gòu)建后綴樹,結(jié)合工程項(xiàng)目的申請(qǐng)書等基礎(chǔ)信息來不斷完善后綴樹。通過利用charm算法來找出后綴樹的節(jié)點(diǎn),構(gòu)成相應(yīng)的集合,利用該集合來構(gòu)造向量空間模型,以此實(shí)現(xiàn)對(duì)工程項(xiàng)目工程的查重工作。在分詞技術(shù)的實(shí)際應(yīng)用中,主要是借助相應(yīng)的算法來構(gòu)造一個(gè)樹,通過對(duì)樹枝整體的分析和判斷,以做好特征提取和篩選工作,利用非分詞技術(shù)實(shí)現(xiàn)工程項(xiàng)目的查重。而在實(shí)際的應(yīng)用過程中,則需要做好特征點(diǎn)的選取工作,可以借助支持向量機(jī)來構(gòu)建數(shù)學(xué)模型,計(jì)算特征權(quán)值。而在相似度計(jì)算的過程中,可以借助歐式距離和余弦相似度實(shí)現(xiàn)計(jì)算,提高相似度計(jì)算的準(zhǔn)確性。在特征提取的過程中可以借助中文分詞的方法全面加強(qiáng)工程項(xiàng)目?jī)?nèi)容的查重工作。而在具體的操作過程中,可以通過字典分詞法、統(tǒng)計(jì)分詞法和混合分詞法來進(jìn)行分詞處理,從而構(gòu)建中文文本向量空間模型。在重復(fù)系統(tǒng)構(gòu)建的過程中,并非資料越多越好,因而在非分詞技術(shù)的實(shí)際應(yīng)用中還需要加強(qiáng)數(shù)據(jù)信息的篩選,通過有效的篩選與挖掘潛在的關(guān)聯(lián)規(guī)則,從而構(gòu)建頻繁閉項(xiàng)集,選取工程項(xiàng)目工程內(nèi)容中富含有特征的點(diǎn)。大數(shù)據(jù)挖掘?yàn)楣こ添?xiàng)目查重工作也提供了新的思路和方法,而在實(shí)際的應(yīng)用過程中,則需要加強(qiáng)現(xiàn)有方法和基本信息的整合工作,以借助多元信息整合方法來構(gòu)建相應(yīng)的模型。因而,在工程項(xiàng)目查重系統(tǒng)的構(gòu)建中要充分利用現(xiàn)代化的技術(shù),綜合使用現(xiàn)代科學(xué)技術(shù),加強(qiáng)創(chuàng)新,全面提升工程項(xiàng)目研究的質(zhì)量。
結(jié)語
總之,加強(qiáng)工程項(xiàng)目的查重工作能夠充分借助大數(shù)據(jù)和信息技術(shù)的優(yōu)勢(shì)全面加強(qiáng)技術(shù)的創(chuàng)新,為工程項(xiàng)目研究工作提供有效的指導(dǎo)。科研工作具有很強(qiáng)的復(fù)雜性,正如在查重的過程中存在相似度計(jì)算難、查重系統(tǒng)復(fù)雜等多方面的狀況。在實(shí)際的工作過程中,需要綜合考慮到信息分布的不均勻性和獲取的局限性等眾多客觀因素的影響。在未來的發(fā)展過程中,還需要全面加強(qiáng)對(duì)工程項(xiàng)目技術(shù)指標(biāo)、路線的查重,結(jié)合人工智能,提升工程項(xiàng)目查重結(jié)果的準(zhǔn)確性和有效性,從而為工程項(xiàng)目的研究方向和發(fā)展方向提供指導(dǎo)性的建議。
參考文獻(xiàn):
[1]? 周育忠,陶秀杰,張自鋒,等.工程項(xiàng)目查重系統(tǒng)在企業(yè)中的實(shí)踐應(yīng)用[J].河南工程,2019,(28):32-35.
[2]? 政和工程股份有限公司.一種工程項(xiàng)目自動(dòng)查重方法及系統(tǒng)[P].2019-06-11.
[3]? 黃思穎,蔡桂蘭,徐凱,等.基于SolrCloud的分布式工程項(xiàng)目查重系統(tǒng)[J].工程管理研究,2018,38(7):236-242.
[4]? 張新民,張愛霞,鄭彥寧.工程項(xiàng)目查重系統(tǒng)構(gòu)建研究[J].情報(bào)學(xué)報(bào),2016,35(9):917-922.
[5]? 李善青,邢曉昭,杜圣梅.工程項(xiàng)目查重方法研究綜述[J].工程管理研究,2018,38(6):197-201.