【摘要】在當(dāng)前條件下,我們應(yīng)該運用知識管理的各種工具和技術(shù),借助信息網(wǎng)絡(luò),結(jié)合我省企業(yè)發(fā)展和高校教學(xué)科研的實際需要,分專題建設(shè)具有地方特色的區(qū)域創(chuàng)新型數(shù)據(jù)庫,區(qū)域創(chuàng)新型數(shù)據(jù)庫是我省中小企業(yè)和高等院校突破自身資源基礎(chǔ)薄弱、資金緊缺等制約因素,為我省經(jīng)濟和文化發(fā)展的重要途徑之一。
【關(guān)鍵詞】區(qū)域 創(chuàng)新 數(shù)據(jù)庫 研究
一、研究背景和意義
區(qū)域創(chuàng)新特色數(shù)據(jù)庫是以地理區(qū)域為中心特征的創(chuàng)新型信息和知識的載體,是該地區(qū)發(fā)展軌跡的客觀縮影與文化底蘊的智慧結(jié)晶,是了解和研究某一特定地區(qū)政治、經(jīng)濟、科學(xué)、文化等各方面歷史和現(xiàn)狀的主要情報來源。區(qū)域創(chuàng)新特色數(shù)據(jù)庫建設(shè),對于加快推進“一帶一路”建設(shè)和東北老工業(yè)基地振興,意義重大。特色數(shù)據(jù)庫,可以對科技改革進行創(chuàng)新,對省內(nèi)的國企改革創(chuàng)新提供理論和數(shù)據(jù)支撐,真正做到體制機制、思維思想解放。
二、研究內(nèi)容
通過相關(guān)數(shù)據(jù)挖掘等技術(shù),把吉林省的優(yōu)勢項目與吉林省科學(xué)技術(shù)信息研究所信息服務(wù)平臺進行聯(lián)合數(shù)據(jù)庫聯(lián)網(wǎng),確保我們的特色數(shù)據(jù)庫可以準(zhǔn)確全面的囊括吉林省區(qū)域創(chuàng)新相關(guān)數(shù)據(jù),我們根據(jù)商務(wù)部對吉林省特色產(chǎn)業(yè)和優(yōu)勢項目的定位,我們可以確定吉林省的3大支柱產(chǎn)業(yè)和優(yōu)勢項目,支柱產(chǎn)業(yè)定義為汽車產(chǎn)業(yè)、農(nóng)產(chǎn)品加工業(yè)、石化產(chǎn)業(yè),優(yōu)勢項目包括了醫(yī)藥、汽車、農(nóng)產(chǎn)品深加工、石化,我們針對這三大產(chǎn)業(yè)和優(yōu)勢項目進行數(shù)據(jù)獲取,這些數(shù)據(jù)將構(gòu)成吉林省區(qū)域創(chuàng)新特色數(shù)據(jù)庫建設(shè)的重要內(nèi)容。因此,我們再收集整理數(shù)據(jù)時要確保收集信息的完整性和權(quán)威性,我們主要從以下幾方面來進行數(shù)據(jù)搜集:
一是確定合理的收集范圍,包括支柱產(chǎn)業(yè)的時限范圍、地域范圍、文種范圍等。
二是確定支柱產(chǎn)業(yè)的信息源的種類,這些信息源主要有圖書、期刊、會議錄、論文集、專利文獻、產(chǎn)品說明、科技報告及網(wǎng)上信息等;
三是確定收錄信息的形式,包括文字、表格、圖片、動畫、音樂及多媒體信息。
三、特色數(shù)據(jù)庫建設(shè)的關(guān)鍵技術(shù)
第一,元數(shù)據(jù)的獲取與數(shù)據(jù)挖掘,特色庫的創(chuàng)建需要大量的元數(shù)據(jù),可以從數(shù)據(jù)服務(wù)商處購買、通過軟件從互聯(lián)網(wǎng)上抓取、通過工作人員從互聯(lián)網(wǎng)上摘取、掃描機構(gòu)內(nèi)部收藏的紙質(zhì)資源;服務(wù)商購買的基礎(chǔ)數(shù)據(jù)包括維普、CNKI等本地購買的第三方商業(yè)基礎(chǔ)數(shù)據(jù)庫,數(shù)據(jù)獲取后通過整合進行分類,整合集成的數(shù)據(jù)類型:期刊文章、學(xué)位論文、會議論文、專利、標(biāo)準(zhǔn)、專著、科技成果、政策法規(guī)、產(chǎn)品樣本、科技報告。軟件平臺需要能夠連接掃描儀,加工紙質(zhì)文獻功能。
在通過多種方式進行元數(shù)據(jù)獲取后我們需要在我們的平臺上進行數(shù)據(jù)整合和分類,來進一步對數(shù)據(jù)庫的功能和內(nèi)容進行完善(圖1)。平臺為吉林省科學(xué)技術(shù)信息研究所的吉林省科技文獻信息服務(wù)平臺(www.jlstis.com)。
第二,多媒體技術(shù),利用多媒體可以將很多信息直接、可視化地用圖形、圖像、語音等表現(xiàn)出來,使人們對信息的感悟倍增。充分利用圖形、語音等融為一體的多媒體技術(shù),將設(shè)計出友好、直觀、方便的用戶界面,并具有自然、和諧的人性化特點,使用戶用起來得心應(yīng)手。
第三,人工智能技術(shù),自建特色數(shù)據(jù)庫就用目前已行之有效的精準(zhǔn)推送技術(shù),進一步實現(xiàn)基于內(nèi)容的資源組織,對多維信息的資源內(nèi)容進行正確、高效的索引,然后針對用戶的背景、興趣、意圖等特性進行個性化的主動服務(wù)。無論是中文搜索、圖像搜索,還是語音搜索、智能搜索,其中涉及大量人工智能技術(shù)的支持,是一個長期的研究問題。新一代的特色數(shù)據(jù)庫的服務(wù)需要實現(xiàn)人人合作、人機合作和機機合作。
四、產(chǎn)業(yè)應(yīng)用前景和社會、生態(tài)效益
第一,特色數(shù)據(jù)庫的產(chǎn)業(yè)應(yīng)用前景廣闊,它將為我省經(jīng)濟發(fā)展提供強勁動力,其中實時數(shù)據(jù)庫系統(tǒng)是數(shù)據(jù)庫理論在新領(lǐng)域的擴展,在我省的汽車、化工、醫(yī)療、農(nóng)產(chǎn)品深加工等領(lǐng)域有著非常廣闊的應(yīng)用前景。它可以為企業(yè)提供高速、及時的實時數(shù)據(jù)服務(wù),能夠?qū)焖僮兓膶崟r數(shù)據(jù)進行長期高效的歷史存儲,同時也是企業(yè)宏觀發(fā)展的數(shù)據(jù)平臺。
第二,特色數(shù)據(jù)庫效益包含了兩個方面,即社會效益和生態(tài)效益。特色數(shù)據(jù)庫的社會效益是指整個特色數(shù)據(jù)庫或某一具體特色數(shù)據(jù)庫內(nèi)容活動給社會帶來的影響和效果,主要表現(xiàn)為促進精神文明建設(shè),促進社會政治、文化、教育和科學(xué)等發(fā)展的程度。特色數(shù)據(jù)庫的生態(tài)效益是指特色數(shù)據(jù)庫事業(yè)或特色數(shù)據(jù)庫活動中投入、產(chǎn)出的比例。
五、數(shù)據(jù)構(gòu)成及應(yīng)用
(一)數(shù)據(jù)庫構(gòu)成(圖2)
(二)數(shù)據(jù)搜集
數(shù)據(jù)庫平臺的數(shù)據(jù)整合可以整合各種格式的數(shù)據(jù),各種格式的文件,并能夠保證穩(wěn)定運行。通過購買、下載、規(guī)模采集等方式獲取具有吉林省區(qū)域創(chuàng)新特色的數(shù)據(jù)庫所需要的數(shù)據(jù),應(yīng)該與數(shù)據(jù)庫廠商及吉林省各大高校展開合作,獲取與區(qū)域創(chuàng)新有關(guān)的數(shù)據(jù),來建設(shè)數(shù)據(jù)庫,特色數(shù)據(jù)庫中還會包含很多與地方經(jīng)濟文化發(fā)展息息相關(guān)的數(shù)據(jù)資源,需要開發(fā)者用更新更快捷的方式去獲取,以便使用者可以時時獲取最新的關(guān)于吉林省區(qū)域創(chuàng)新內(nèi)容的數(shù)據(jù)。區(qū)域創(chuàng)新特色數(shù)據(jù)庫中主要有:
基礎(chǔ)數(shù)據(jù):維普、CNKI等本地購買的第三方基礎(chǔ)數(shù)據(jù)庫。
行業(yè)數(shù)據(jù):《國研報告數(shù)據(jù)庫》、《宏觀經(jīng)濟報告數(shù)據(jù)庫》、《金融中國報告數(shù)據(jù)庫》、《行業(yè)經(jīng)濟報告數(shù)據(jù)庫》、中國經(jīng)濟信息網(wǎng)行業(yè)報告、600多種報紙信息、個性化的定向數(shù)據(jù)采集(競爭對手、行業(yè)網(wǎng)站)。
子機構(gòu)數(shù)據(jù):圍繞吉林省地區(qū)的子機構(gòu)知識數(shù)據(jù)統(tǒng)一加工、清洗。
整合集成的數(shù)據(jù)類型:期刊文章、學(xué)位論文、會議論文、專利、標(biāo)準(zhǔn)、專著、科技成果、政策法規(guī)、產(chǎn)品樣本、科技報告。
(三)檢索方式
數(shù)據(jù)庫的多功能檢索功能可以多種檢索方式,如標(biāo)題、全文、摘要、跨庫等等檢索。對特色庫的海量資源以及用戶使用數(shù)據(jù)進行數(shù)據(jù)挖掘,實現(xiàn)高級信息檢索、知識發(fā)現(xiàn)、精準(zhǔn)數(shù)據(jù)展示等等一些高級功能。
(四)數(shù)據(jù)庫開發(fā)
把準(zhǔn)備好的海量數(shù)據(jù)按照編寫腳本的要求在SQL2008中組織成模塊,采用ASP、JAVAScript等技術(shù)實現(xiàn)網(wǎng)頁中的動態(tài)交互。該過程可按不同的內(nèi)容分塊實現(xiàn),各模塊做好后進行測試。
六、結(jié)束語
對特色庫的海量資源以及用戶使用數(shù)據(jù)進行數(shù)據(jù)挖掘,實現(xiàn)高級信息檢索、知識發(fā)現(xiàn)、精準(zhǔn)數(shù)據(jù)展示等等一些高級功能。并且可以將不同類型的數(shù)據(jù)庫中的數(shù)據(jù)進行整合加工完善檢索。特色庫為推進“一帶一路”建設(shè)等老工業(yè)基地振興的重要舉措,促進區(qū)域經(jīng)濟結(jié)構(gòu)調(diào)整轉(zhuǎn)型,為地區(qū)未來發(fā)展打下基礎(chǔ)。
作者簡介:付強(1984-),男,滿族,吉林長春人,碩士研究生,研究實習(xí)員,研究方向:大數(shù)據(jù)、計算機平臺建設(shè)。