唐云鵬
摘 要:簡(jiǎn)要回顧了科技評(píng)估方法的發(fā)展歷程,從科技評(píng)估概念、特點(diǎn)及其在我國(guó)的開(kāi)展情況入手,系統(tǒng)研究了數(shù)據(jù)挖掘在科技評(píng)估中的應(yīng)用,并對(duì)實(shí)踐過(guò)程中出現(xiàn)的問(wèn)題進(jìn)行了分析。將數(shù)據(jù)挖掘應(yīng)用于科技評(píng)估有助于提高科技評(píng)估工作的產(chǎn)出效益,促進(jìn)科技評(píng)估工作進(jìn)一步發(fā)展。
關(guān)鍵詞:科技評(píng)估;數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡(luò)
前言
隨著我國(guó)科技計(jì)劃管理體制改革的深入,評(píng)估活動(dòng)越來(lái)越受到各級(jí)政府的高度重視。只有運(yùn)用科學(xué)、公正的方法進(jìn)行全程評(píng)估,才能確??萍柬?xiàng)目系統(tǒng)產(chǎn)出的水平及價(jià)值,使其真正起到推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展的作用。
評(píng)估方法綜合反映了在科技評(píng)估活動(dòng)中各種基本要素之間的相互關(guān)系,是科技評(píng)估活動(dòng)的基礎(chǔ)與核心。評(píng)估結(jié)果的獲取必須依賴于評(píng)估的方法。采用科學(xué)的、適應(yīng)評(píng)估對(duì)象客觀發(fā)展規(guī)律的評(píng)估方法是科技評(píng)估工作的重點(diǎn)。科技評(píng)估方法的供需矛盾,是制約我國(guó)科技評(píng)估事業(yè)發(fā)展的重要因素。近年來(lái),各方面對(duì)科技評(píng)估的需求日益強(qiáng)烈,但科技評(píng)估的方法相對(duì)落后不能適應(yīng)需要。不同部門(mén)或地區(qū)評(píng)估機(jī)構(gòu)的能力與水平參差不齊,評(píng)估機(jī)構(gòu)的綜合素質(zhì)和能力制約了科技評(píng)估事業(yè)的發(fā)展。從目前我國(guó)科技評(píng)估發(fā)展的現(xiàn)狀看,一方面,迫切地需要加強(qiáng)全國(guó)評(píng)估能力的系統(tǒng)建設(shè),規(guī)范科技評(píng)估活動(dòng);另一方面,需要在實(shí)踐特別是承擔(dān)重大評(píng)估任務(wù)過(guò)程中,進(jìn)一步探索符合我國(guó)國(guó)情的科技評(píng)估理論與方法,逐步建立和完善科學(xué)的評(píng)估規(guī)范、標(biāo)準(zhǔn)、手冊(cè)等。
一、數(shù)據(jù)挖掘和科技評(píng)估
1.1 早期科技評(píng)估方法的概念與特征
(1)共詞分析。共詞分析是指對(duì)于給定學(xué)科主題的論文做成的數(shù)據(jù)庫(kù),計(jì)算出關(guān)鍵詞重復(fù)(“共現(xiàn)”)次數(shù),實(shí)質(zhì)上就是一個(gè)關(guān)于某些共同關(guān)鍵詞出現(xiàn)頻率的模型,這種測(cè)度方法假設(shè)描述科學(xué)發(fā)現(xiàn)的詞匯是關(guān)鍵詞或索引詞。
(2)同行評(píng)議法。同行評(píng)議法是充分依靠科研人員團(tuán)隊(duì)進(jìn)行民主管理,選擇更優(yōu)配置知識(shí)生產(chǎn)要素方案的方法。作為評(píng)價(jià)事物的一種方法,在我國(guó)以及歐美國(guó)家被廣泛采用,各國(guó)科學(xué)基金機(jī)構(gòu)基本上都采用這種方法作為資源分配的輔助決策手段。
(3)AHP法(層次分析法)的核心問(wèn)題是排序問(wèn)題,包括遞階層次結(jié)構(gòu)原理、標(biāo)度原理和排序原理。早期的科技評(píng)估方法還有很多,具體應(yīng)用時(shí)要根據(jù)實(shí)際情況進(jìn)行選擇和改進(jìn)。
二.數(shù)據(jù)挖掘概述
數(shù)據(jù)庫(kù)技術(shù)的日臻成熟為人們對(duì)數(shù)據(jù)進(jìn)行深層次探索提供了條件。所謂數(shù)據(jù)挖掘,就是從數(shù)據(jù)庫(kù)中抽取隱含的、以前未知的、具有潛在應(yīng)用價(jià)值信息的過(guò)程。與傳統(tǒng)分析工具不同,數(shù)據(jù)挖掘使用基于發(fā)現(xiàn)的方法,運(yùn)用模式匹配和其它算法
決定數(shù)據(jù)之間的重要聯(lián)系??偟膩?lái)說(shuō),數(shù)據(jù)挖掘包含從數(shù)據(jù)倉(cāng)庫(kù)中萃取價(jià)值的各種方法和技術(shù)。這些技術(shù)掃描大型數(shù)據(jù)庫(kù),并抽取其中的模式和關(guān)系,它們是將統(tǒng)計(jì)工具和分析思維相結(jié)合的產(chǎn)物,有助于解釋萃取出的信息。近年來(lái),隨著數(shù)據(jù)挖掘在商業(yè)市場(chǎng)中的普及,以下技術(shù)獲得青睞并納入數(shù)據(jù)挖掘技術(shù)體系內(nèi):決策樹(shù)、鏈接分析、最近鄰分析、人工神經(jīng)網(wǎng)絡(luò)、自動(dòng)聚類探測(cè)、記憶推理、遺傳算法等。實(shí)質(zhì)上,數(shù)據(jù)挖掘技術(shù)已經(jīng)不再是統(tǒng)計(jì)學(xué)方法的簡(jiǎn)單應(yīng)用,而是要求
規(guī)則歸納法、人工智能和關(guān)系型數(shù)據(jù)庫(kù)的聯(lián)合工作。
上世紀(jì)90年代后期,知識(shí)工程概念深入人心,各學(xué)科的動(dòng)態(tài)增長(zhǎng)體現(xiàn)了科學(xué)領(lǐng)域的多維性,科研活動(dòng)進(jìn)一步要求使用復(fù)雜精細(xì)的信息檢索技術(shù)和挖掘技術(shù),無(wú)疑擴(kuò)大了數(shù)據(jù)挖掘在“知識(shí)發(fā)現(xiàn)”方面的影響。“數(shù)據(jù)——信息——知識(shí)”這種線形轉(zhuǎn)化關(guān)系分布在科研多維領(lǐng)域的各個(gè)軸線上,數(shù)據(jù)挖掘是這種線性轉(zhuǎn)化的起點(diǎn),更是知識(shí)循環(huán)反饋中積極的一環(huán),它對(duì)現(xiàn)有的知識(shí)進(jìn)行收集、整理、分類和管理,進(jìn)一步通過(guò)知識(shí)交流來(lái)擴(kuò)展科學(xué)領(lǐng)域整體知識(shí)儲(chǔ)備,由此產(chǎn)生出新概念、新思想、新體系。
三.數(shù)據(jù)挖掘在科技評(píng)估中的應(yīng)用
數(shù)據(jù)挖掘在從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)庫(kù)析取信息時(shí),關(guān)注的是數(shù)據(jù)庫(kù)整體即所有的詞、所有的數(shù)量關(guān)系和所有的圖像。因?yàn)橹R(shí)的高階結(jié)構(gòu),如理論、專業(yè)等,不僅是文字組合,更體現(xiàn)著一種聚集關(guān)系,這種關(guān)系的最高級(jí)層次是科學(xué)期刊和科學(xué)書(shū)籍。詞、句子、段落和小節(jié)等都維系這種聚集關(guān)系。在評(píng)估科學(xué)成果(例如文獻(xiàn)產(chǎn)出)時(shí),數(shù)據(jù)挖掘是一個(gè)適當(dāng)?shù)臏y(cè)度方法,它將詞放到文獻(xiàn)結(jié)構(gòu)中去考慮,搜索處在這類文獻(xiàn)中出現(xiàn)的句子以及概念構(gòu)造,以邏輯順序非形式化進(jìn)行論證。
實(shí)質(zhì)上,數(shù)據(jù)庫(kù)內(nèi)容結(jié)構(gòu)分析法識(shí)別出的是科學(xué)主題(或概念)、這些主題間的關(guān)系以及它們?cè)谖墨I(xiàn)數(shù)據(jù)庫(kù)中的發(fā)展和進(jìn)化,允許分析人員創(chuàng)建一個(gè)有關(guān)科學(xué)的主題、論題或理論的進(jìn)化模型。數(shù)據(jù)庫(kù)內(nèi)容結(jié)構(gòu)分析法比傳統(tǒng)的共詞分析又進(jìn)了一步。它通過(guò)關(guān)注主題或概念,而不是索引詞,能夠?qū)茖W(xué)文獻(xiàn)進(jìn)行更豐富的挖掘。引入人工智能后,我們可建立一個(gè)半自動(dòng)、基于規(guī)則的數(shù)據(jù)挖掘系統(tǒng),在用戶積極參與下完成數(shù)據(jù)抽取工作。
數(shù)據(jù)挖據(jù)在科學(xué)評(píng)估中的作用:識(shí)別影響或控制科學(xué)資源分配的要素、財(cái)政和人力資源的耗費(fèi)。(1)提供與科學(xué)工作者相關(guān)的資源消耗的模式數(shù)據(jù)(人口統(tǒng)計(jì)學(xué)等)。(2)開(kāi)發(fā)關(guān)于科學(xué)團(tuán)體的模型以及其它相關(guān)服務(wù)供應(yīng)者服務(wù)效果的模型。
四、數(shù)據(jù)挖掘的不足和改進(jìn)之處
作為多種技術(shù)的混合體,數(shù)據(jù)挖掘已經(jīng)對(duì)科技評(píng)估產(chǎn)生了切實(shí)的效益。但它也存在一些不足:(1)盡管數(shù)據(jù)挖掘有能力產(chǎn)生一些模型,但是對(duì)于揭示出的模式含義的解釋是獲得良好評(píng)估效果的關(guān)鍵。例如:揭示出的模型確實(shí)反映科技的狀況和進(jìn)步了嗎?如果是,又反映到了什么程度?應(yīng)注意科技活動(dòng)和社會(huì)指標(biāo)之間的聯(lián)系,在數(shù)據(jù)庫(kù)內(nèi)部對(duì)相關(guān)指標(biāo)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)性操作,嘗試發(fā)現(xiàn)關(guān)聯(lián)性。(2)科技評(píng)估方法對(duì)信息的需求以能全面描述對(duì)象多維信息為主,力求準(zhǔn)確完整。數(shù)據(jù)挖掘的效果主要取決于數(shù)據(jù)和數(shù)據(jù)源的質(zhì)量。需加大數(shù)據(jù)篩選的力度,保證數(shù)據(jù)的有效性和穩(wěn)定性。(3)科技評(píng)估的方法是以系統(tǒng)工程方法為主的體系,有很廣的集成度。在指標(biāo)設(shè)計(jì)方面,如果缺少統(tǒng)一的理論框架,將導(dǎo)致科技指標(biāo)模型只是簡(jiǎn)單的堆砌不同的指標(biāo),不能明確闡述更復(fù)雜的現(xiàn)象。一個(gè)連貫性、實(shí)用性強(qiáng)的指標(biāo)體系應(yīng)該建立在很強(qiáng)的關(guān)聯(lián)性基礎(chǔ)之上??梢詣?chuàng)立更多的指數(shù)并將它們內(nèi)在一致的方式聯(lián)系起來(lái)。(4)對(duì)算法的過(guò)度依賴,會(huì)降低計(jì)算機(jī)化模式的可信度。在科技工作中,需要大量的人員的推理過(guò)程,科學(xué)假設(shè)及論證的過(guò)程是大腦思維的過(guò)程,計(jì)算機(jī)算法尚不能完全模擬,但這一點(diǎn)可以通過(guò)帶有數(shù)據(jù)挖掘功能的專家支持系統(tǒng)逐步完成。
對(duì)于評(píng)估方法的研究,國(guó)內(nèi)外學(xué)者做了大量的工作。事實(shí)上,數(shù)據(jù)挖掘?qū)τ谖覈?guó)各行各業(yè)來(lái)說(shuō)還是一個(gè)新興和重要的概念。除科技評(píng)估外,電信、零售、稅務(wù)、能源等行業(yè)都具有數(shù)據(jù)海量的特點(diǎn)和深度分析的需求,可以預(yù)見(jiàn),這些行業(yè)的現(xiàn)有信息系統(tǒng)必然向數(shù)據(jù)挖掘系統(tǒng)演化,數(shù)據(jù)挖掘的應(yīng)用前景十分樂(lè)觀。廣闊的應(yīng)用前景預(yù)示著新技術(shù)的研發(fā)價(jià)值,公司最近的一份報(bào)告列舉了在今后,年內(nèi)將對(duì)工業(yè)產(chǎn)生重要影響的,項(xiàng)關(guān)鍵技術(shù),其中以數(shù)據(jù)挖掘?yàn)楹诵牡闹R(shí)發(fā)現(xiàn)和人工智能排名第一。我們有理由相信,在不久的將來(lái),結(jié)合了數(shù)據(jù)挖掘技術(shù)的科技評(píng)估方法將對(duì)中國(guó)科技事業(yè)取得世界領(lǐng)先地位起到不可替代的作用。
參考文獻(xiàn):
[1] 張星明 - 科技成果鑒定及其改革的研究 北京:中國(guó)科學(xué)技術(shù)信息研究所
[2] 王屏慧 - 科技項(xiàng)目評(píng)價(jià)方法.北京:科學(xué)出版社
[3] 張晗,崔雷 - 生物信息學(xué)的共詞分析研究 情報(bào)學(xué)報(bào)
(作者單位:昆明市科技型中小企業(yè)技術(shù)創(chuàng)新基金管理中心)