摘要:文章旨在構建一個基于大數(shù)據(jù)的產(chǎn)學研需求智能匹配平臺,以解決傳統(tǒng)產(chǎn)學研合作中需求匹配效率低下、準確性不足的問題。該平臺基于企業(yè)技術需求、科技期刊、科技成果等海量元數(shù)據(jù),通過數(shù)據(jù)預處理、數(shù)據(jù)清洗、數(shù)據(jù)轉換和標準化等對源數(shù)據(jù)的處理,形成數(shù)據(jù)倉庫,進一步通過聯(lián)機分析、機器學習、數(shù)據(jù)挖掘、人工智能組件等分析和挖掘,智能化導出符合其技術需求的專家、成果、高??蒲性核取F脚_通過數(shù)據(jù)應用層、API接口層、數(shù)據(jù)展示層等層次遞進,以PC端、移動端等多種形式進行技術需求匹配展示。
關鍵詞:數(shù)據(jù)清洗;數(shù)據(jù)倉庫;聯(lián)機分析服務;機器學習;數(shù)據(jù)挖掘;人工智能組件
中圖分類號:TP391
文獻標志碼:A
0 引言
在科技日新月異的今天,產(chǎn)學研合作已經(jīng)成為國家創(chuàng)新體系中的重要一環(huán),其深度融合對于推動科技進步、促進經(jīng)濟發(fā)展具有不可替代的作用。產(chǎn)學研合作正是作為產(chǎn)業(yè)代表的各類企業(yè)與高等院校、科研機構等不同社會主體互相聯(lián)合并發(fā)揮各自優(yōu)勢,實現(xiàn)共同愿景,獲得共同利益并在過程中發(fā)揮最大綜合優(yōu)勢而形成的合作,是促進科技創(chuàng)新所需各種生產(chǎn)要素的有效組合,是培養(yǎng)人才的途徑[1]。然而,在實際操作過程中,產(chǎn)學研各方之間的需求匹配問題一直是制約合作效率與效果的關鍵因素。傳統(tǒng)的產(chǎn)學研合作模式往往依賴于人工搜索、咨詢或中介服務來尋找合作伙伴,這種方式不僅效率低下,而且很難保證匹配的準確性和全面性[2]。
隨著大數(shù)據(jù)技術的興起和不斷發(fā)展,迎來了解決這一問題的新契機。人工智能、大數(shù)據(jù)技術以其強大的數(shù)據(jù)處理和分析能力,為產(chǎn)學研需求的精準匹配提供了可能。通過收集并分析海量的產(chǎn)學研相關數(shù)據(jù),可以更深入地了解各方的真實需求和潛在合作點,從而實現(xiàn)更高效的資源對接和配置。
在此背景下,本文研究旨在構建一個基于大數(shù)據(jù)的產(chǎn)學研需求智能匹配平臺。該平臺將充分利用大數(shù)據(jù)技術的優(yōu)勢,通過數(shù)據(jù)挖掘、機器學習、人工智能組件、聯(lián)機分析服務等多種智能算法對產(chǎn)學研各方的需求進行深度挖掘和精準匹配,以期提高產(chǎn)學研合作的效率和成功率,進一步推動科技創(chuàng)新和經(jīng)濟發(fā)展。
產(chǎn)學研需求智能匹配平臺主要通過7層架構來實現(xiàn),從下至上分別為運行環(huán)境層、數(shù)據(jù)源層、數(shù)據(jù)倉庫層、分析挖掘層、數(shù)據(jù)應用層、API接口層、數(shù)據(jù)展示層。以下按此7層架構分別詳述和實現(xiàn)。
1 產(chǎn)學研需求智能匹配平臺運行環(huán)境層混合云架構設計
平臺的混合云架構融合了獨立服務器、私有云服務器以及公有云資源,構建了一個既安全可控又高效靈活的混合云運行環(huán)境。環(huán)境層分為基礎設施層、平臺支撐層、邊界層、互聯(lián)網(wǎng)層、用戶層5層架構。
基礎設施層作為信息技術架構基石,支撐著上層應用與服務的運行。它不僅提供基礎計算能力、高效存儲解決方案以及穩(wěn)定可靠的網(wǎng)絡服務,還涵蓋了一系列關鍵的基礎資源。在計算服務方面,基礎設施層包含了高性能的服務器集群,它們采用先進的處理器技術、大容量內(nèi)存以及高速存儲接口,確保數(shù)據(jù)處理的高效與快速響應。存儲服務方面,基礎設施層提供了多樣化的存儲解決方案,包括傳統(tǒng)的硬盤陣列(HDD)、高性能的固態(tài)硬盤(SSD)、網(wǎng)絡附加存儲(NAS)以及存儲區(qū)域網(wǎng)絡(SAN)等。網(wǎng)絡服務作為連接一切的基礎,基礎設施層配備了高性能的路由器、交換機以及防火墻等網(wǎng)絡設備。
平臺支撐層作為信息技術架構中的核心環(huán)節(jié),集成了計算虛擬化與存儲虛擬化2大關鍵技術,并在此基礎上構建私有云環(huán)境,為用戶打造一個既安全又高效的計算平臺。計算虛擬化技術通過將物理計算資源(如CPU、內(nèi)存)抽象化,形成多個獨立的虛擬計算環(huán)境,每個環(huán)境都擁有完整的操作系統(tǒng)和應用程序運行環(huán)境。這種技術不僅提高了計算資源的利用率,還實現(xiàn)了計算資源的靈活調配和快速部署。用戶可以根據(jù)實際需求,在私有云內(nèi)快速創(chuàng)建或銷毀虛擬機,以應對業(yè)務高峰或低谷期的資源需求變化。存儲虛擬化技術則是對存儲資源進行整合與優(yōu)化,將多個物理存儲設備封裝成一個統(tǒng)一的虛擬存儲池。通過該技術,可以實現(xiàn)對存儲資源的集中管理和高效利用,同時提供數(shù)據(jù)備份、恢復、遷移等高級功能。私有云中的存儲虛擬化還確保了數(shù)據(jù)的安全性和一致性,通過數(shù)據(jù)冗余和容錯機制,有效防止數(shù)據(jù)丟失和損壞。
為了進一步提升業(yè)務處理能力和擴大服務覆蓋范圍,本文還積極利用了華為云和阿里云等公有云平臺的優(yōu)勢資源。這些公有云平臺提供了豐富的計算實例、數(shù)據(jù)庫服務、存儲解決方案以及人工智能等高級服務,使其能夠輕松應對高并發(fā)訪問、大數(shù)據(jù)分析等挑戰(zhàn)。通過API接口或云管理平臺,可以實現(xiàn)跨云資源的統(tǒng)一管理和調度,確保業(yè)務在不同平臺間的無縫遷移和擴展。
平臺的程序運行環(huán)境是一個集私有云與公有云于一體的混合云架構[3]。這種架構不僅充分利用了各種技術和服務模式的優(yōu)勢,還通過靈活的資源配置和高效的管理手段實現(xiàn)了混合云的互聯(lián)互通,為業(yè)務創(chuàng)新提供了強有力的支撐。混合云架構設計如圖1所示。
2 平臺架構設計
2.1 源數(shù)據(jù)技術需求、科技期刊、碩博士論文等轉換到數(shù)據(jù)倉庫
(1)數(shù)據(jù)源ODS。數(shù)據(jù)源為鎮(zhèn)江科技資源云平臺自有的科技期刊、科技項目、科技成果、碩博士論文、專利文獻、技術需求等數(shù)據(jù),也可為更為廣泛的互聯(lián)網(wǎng)數(shù)據(jù),它們的格式可以是圖形圖像、視頻文件、表格文件、文本文件等,存儲的數(shù)據(jù)庫也可分為SQL數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、MRDB等。
(2)數(shù)據(jù)倉庫DW。數(shù)據(jù)倉庫由數(shù)據(jù)庫發(fā)展而來,但二者在很多方面存在很大的差異性,數(shù)據(jù)倉庫是一種綜合性的解決方案[4]。數(shù)據(jù)倉庫是面向分析主題的、歷史數(shù)據(jù)、多維的數(shù)據(jù)集合[5-6],在數(shù)據(jù)集成與整合、數(shù)據(jù)分析與決策支持、數(shù)據(jù)長期存儲與可靠性以及數(shù)據(jù)安全與隱私保護等方面發(fā)揮著重要作用。通過結合不同的技術棧(如ClickHouse、HybridDB for MySQL、PostgreSQL Greenplum、Hadoop+Hive等),可以構建適合自己需求的數(shù)據(jù)倉庫解決方案。
將鎮(zhèn)江科技資源云平臺的科技期刊、碩博士論文、會議論文、科技成果、專利文獻等源數(shù)據(jù)轉換到數(shù)據(jù)倉庫中,需要經(jīng)歷一系列數(shù)據(jù)處理步驟,包括數(shù)據(jù)抽取(ETL)、數(shù)據(jù)清洗、數(shù)據(jù)轉換與標準化以及數(shù)據(jù)存儲與管理等。
2.1.1 數(shù)據(jù)抽?。‥TL)、清洗、關鍵詞提取
數(shù)據(jù)抽取ETL指的是數(shù)據(jù)凈化和數(shù)據(jù)遷移,在數(shù)據(jù)管理策略中占有非常重要的地位[7]。首先將產(chǎn)學研技術需求文檔(如文本描述)進行預處理;其次,將文本分割成單詞或詞組(對于中文,需要進行中文分詞);再次,移除文本中的常見無意義詞匯(如“的”“是”等);最后,將詞匯還原到其基本形式,以統(tǒng)一不同時態(tài)、語態(tài)下的詞匯。
數(shù)據(jù)清洗是指在不完備數(shù)據(jù)集上構建有效的機器學習模型,其中重要的步驟包括對缺失的屬性值進行填補以及去除錯誤或不相關的數(shù)據(jù)等[8-9]。對于科技期刊、科研項目、科技成果、科技論文、專利文獻等數(shù)據(jù)源,須要去除重復的記錄,確保數(shù)據(jù)的唯一性。檢查數(shù)據(jù)中的缺失值,并根據(jù)具體情況進行填充或刪除。
關鍵詞提取是對產(chǎn)學研技術需求、科技期刊、科研項目、科技成果、科技論文和專利文獻進行標準化處理,將不同來源的數(shù)據(jù)轉換為統(tǒng)一的格式,提取關鍵信息,主要采用關鍵詞提取技術。具體可以采用TF-IDF(詞頻-逆文檔頻率)方法,TF-IDF是一種用于信息檢索與文本挖掘的常用加權技術[10-11]。
2.1.2 數(shù)據(jù)的存儲與管理
在以上數(shù)據(jù)清洗、關鍵詞提取等基礎上,選擇合適的數(shù)據(jù)倉庫。根據(jù)業(yè)務需求和數(shù)據(jù)特點選擇合適的數(shù)據(jù)倉庫類型,如ClickHouse、HybridDB for MySQL、PostgreSQL Greenplum、Hadoop+Hive等。將清洗后的數(shù)據(jù)加載到數(shù)據(jù)倉庫,對數(shù)據(jù)倉庫中的數(shù)據(jù)進行索引處理,制定數(shù)據(jù)恢復計劃以應對可能的數(shù)據(jù)丟失或損壞情況,定期備份數(shù)據(jù)倉庫中的數(shù)據(jù)等。
2.2 從數(shù)據(jù)倉庫層到分析挖掘層關鍵詞匹配、數(shù)據(jù)應用層、API接口層、數(shù)據(jù)展示層的架構設計
分析挖掘層主要由聯(lián)機分析服務(OLAP)、機器學習算法(ML)、數(shù)據(jù)挖掘(DM)、人工智能組件(AI)、可視化組件(VC)、任務管理和調度6大模塊構成。分析挖掘層通過整合OLAP、ML、DM、AI、VC以及任務管理和調度等模塊,實現(xiàn)對數(shù)據(jù)的全面、深入、智能的分析和挖掘,為業(yè)務決策提供數(shù)據(jù)支持。
數(shù)據(jù)應用層主要由“多系統(tǒng)、異構數(shù)據(jù)融合展示”“問題發(fā)掘、原因分析和解決方案”“事實預估、模型預測”“創(chuàng)新改進、仿真演示”4大模塊構成。數(shù)據(jù)應用層的主要作用在于通過多系統(tǒng)、異構數(shù)據(jù)的融合展示,實現(xiàn)問題的精準發(fā)掘與原因分析,為解決方案的制定提供事實依據(jù)和預估效果,同時利用模型預測和創(chuàng)新改進推動業(yè)務持續(xù)優(yōu)化和升級,最終通過仿真演示為決策提供全面支持。
API接口層由RESTful API、SOAP API、GraphQL API、WebSocket API、云API、移動設備API、Visual Studio API、Eclipse API構成。API接口層的主要作用是實現(xiàn)數(shù)據(jù)交互與共享、擴展與定制應用功能、提高效率和自動化、實現(xiàn)系統(tǒng)集成與協(xié)作、保障安全性與可靠性以及支持多種應用場景等。
數(shù)據(jù)展示層由PC端展示、移動端展示、Web端展示、嵌入式系統(tǒng)界面、物聯(lián)網(wǎng)設備界面、VR/AR界面、可穿戴設備界面等構成。數(shù)據(jù)展示層作為整個信息系統(tǒng)或應用程序的用戶界面部分,扮演著將數(shù)據(jù)和信息以直觀、易理解的方式呈現(xiàn)給用戶的關鍵角色,主要作用是實現(xiàn)信息的可視化展示、優(yōu)化用戶體驗、提供數(shù)據(jù)交互與操作功能、支持決策制定、確??缙脚_兼容性、實現(xiàn)個性化定制以及實現(xiàn)實時更新與通知等。
經(jīng)過清洗轉換后的數(shù)據(jù)存儲到數(shù)據(jù)倉庫,其中包括產(chǎn)學研技術需求、科技期刊、科研項目、科技成果、科技論文、專利文獻等,這些數(shù)據(jù)可以進行統(tǒng)一分析和處理。根據(jù)基本字段的分析,找出技術需求與科技期刊、科研項目、科技成果、科技論文、專利等其中的對應關系。首先設置運行框架和開發(fā)框架,在開發(fā)框架確定后進行任務管理和調度,將數(shù)據(jù)倉庫中的技術需求關鍵詞,導入數(shù)據(jù)挖掘、聯(lián)機分析、機器學習、人工智能組件等進行綜合、分析、數(shù)據(jù)挖掘等,主要是進行關鍵詞的匹配。在關鍵詞提取的基礎上進行關鍵詞集構建,對于每個技術需求,提取并構建一個關鍵詞集合。基于關鍵詞集合,設計算法將技術需求的關鍵詞集合與科研項目、科技期刊、科技成果、論文、專利中的關鍵詞集合進行匹配。匹配算法可以基于相似度計算(如余弦相似度)、標準映射的領域匹配和類別匹配等匹配規(guī)則。最后用可視化分析組件圖形化輸出與技術需求相匹配的專家、高校科研院所、成果等。產(chǎn)學研需求智能匹配平臺總體架構如圖2所示。
3 結語
本文成功構建了一個基于大數(shù)據(jù)技術的產(chǎn)學研需求智能匹配平臺,該平臺通過7層架構的精心設計,實現(xiàn)了從數(shù)據(jù)源層到數(shù)據(jù)展示層的全流程管理與優(yōu)化。通過混合云架構的創(chuàng)新應用,確保了平臺的安全性、可控性以及高效性。數(shù)據(jù)預處理、ETL過程、數(shù)據(jù)清洗、轉換和標準化等步驟為后續(xù)的數(shù)據(jù)分析和挖掘打下了堅實的基礎。分析挖掘層的深度應用結合了OLAP、ML、DM、AI等先進技術,有效地提升了數(shù)據(jù)的分析深度和廣度。數(shù)據(jù)應用層的多系統(tǒng)融合和API接口層的靈活設計,進一步促進了數(shù)據(jù)的共享與應用。數(shù)據(jù)展示層的多樣化界面設計,為用戶提供了直觀、易用的信息展示方式。
隨著技術的不斷進步和創(chuàng)新,產(chǎn)學研需求智能匹配平臺有望實現(xiàn)更加精準和高效的匹配能力。未來,平臺將繼續(xù)優(yōu)化算法,提高數(shù)據(jù)處理速度和準確性,同時探索更多的數(shù)據(jù)源和合作模式,以滿足不斷變化的市場需求。在數(shù)據(jù)安全和隱私保護方面,平臺將持續(xù)加強技術防護措施,確保用戶數(shù)據(jù)的安全性。
參考文獻
[1]李婷,余果.產(chǎn)學研合作人才培養(yǎng)機制的系統(tǒng)動力學研究[J].人力資源,2019(4):178-179.
[2]盧意.“互聯(lián)網(wǎng)+”環(huán)境下新型產(chǎn)學研合作優(yōu)越性的論述[J].裝備制造技術,2020(5):238-241.
[3]董曉莉,李杉.數(shù)字資源長期保存混合云平臺技術分析[J].圖書館工作與研究,2018(8):50-56.
[4]任仲晟.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術[J].數(shù)字技術與應用,2021(9):59-61.
[5]何龍祥,葛繼成,王輕,等.基于數(shù)據(jù)倉庫的醫(yī)療數(shù)據(jù)可視化系統(tǒng)的設計與實現(xiàn)[J].軟件設計研究與應用,202l(1):104-106.
[6]劉海強,陳曉晶,張興華,等.面向煤礦安全監(jiān)控的數(shù)據(jù)倉庫關鍵技術[J].工礦自動化,2022(4):3l-37.
[7]李蕓.基于增強ETL過程的大數(shù)據(jù)策略研究[J].電腦知識與技術,2014(34):8081-8082.
[8]FENG H H,CHEN G S,YIN C,et al.A SVM regression based approach to filling in missing values[J].Lecture Notes in Computer Science,2005(1):581-587.
[9]XIONG H,PANDEY G,STEINBACH M,et al.Enhancing data analysis with noise removal[J].IEEE Transactions on Knowledge and Data Engineering,2006(3):304-319.
[10]刁羽,薛紅.基于電子資源行為數(shù)據(jù)的TF-IDF文獻推薦方法研究:以電子資源校外訪問系統(tǒng)為例[J].圖書館雜志,2022(12):45-54.
[11]劉國柱,張津烽,王華東.改進TF.IDF算法在電商仿真實訓平臺中的應用[J].計算機仿真,2023(7):273-277,466.
(編輯 沈 強)
Research on the architecture of an intelligent matching platform for industry university research needs based on big data
XU Xinwei, HUANG Cuiping
(Zhenjiang Productivity Promotion Center, Zhenjiang 212000, China)
Abstract:This article aims to build an intelligent matching platform for industry university research demand based on big data, in order to solve the problems of low efficiency and insufficient accuracy in demand matching in traditional industry university research cooperation. The platform is based on massive metadata such as enterprise technology requirements, scientific journals, and technological achievements. Through data preprocessing, data cleaning, data conversion, and standardization, the source data is processed to form a data warehouse. Further analysis and mining are carried out through online analysis, machine learning, data mining, artificial intelligence components, etc., to intelligently export experts, achievements, university research institutes, etc. that meet their technical needs. Through the hierarchical progression of data application layer, API interface layer, data display layer, etc., technical requirements are matched and displayed in various forms such as PC and mobile terminals.
Key words:data cleaning; data warehouse; online analytical services; machine learning; data mining; artificial intelligence components