劉應潔,楊政
(1.云南電網(wǎng)有限責任公司,昆明 650032;2.云南電網(wǎng)有限責任公司電力科學研究院,昆明 650217)
科技創(chuàng)新管理系統(tǒng)是基于云南電網(wǎng)公司科技創(chuàng)新管理系統(tǒng)中的項目評審歷史信息和專家?guī)煨畔?,通過語義提取、智能推薦、專家檢索網(wǎng)絡爬蟲等技術進行研究,并針對科技評審專家通過智能分詞和語義解析技術[2]生成專家關鍵詞,實現(xiàn)評審專家的智能推薦和合理選定。
目前檢索技術主要有限制檢索、布爾檢索、截詞檢索、詞位檢索等技術。限制檢索:通過限制檢索范圍,達到優(yōu)化檢索結果的方法。限制檢索的方式有多種,例如字段限制、匹配度限制、時間限制等;布爾檢索:是數(shù)據(jù)庫檢索最基本的方法,是用邏輯“與”、“或”、“非”等算符對相關信息進行定性選擇;截詞檢索:在檢索詞的適當位置進行截斷,可以防止漏檢、節(jié)省輸入字符;詞位檢索:又稱位置算符檢索,利用算符限定兩個檢索詞之間的位置關系,或限定檢索詞在數(shù)據(jù)庫記錄中的位置,彌補了布爾檢索只是定性選擇的限制,從而提高查準率。
隨著云南電網(wǎng)科技項目、成果申報規(guī)模的擴大,科技專家在科技項目立項評審、中期檢查、結題驗收以及科技成果的網(wǎng)絡評審、專家投票、專業(yè)組表決等環(huán)節(jié)發(fā)揮著重要作用[3]。上述的搜索技術,只能讓相關人員指派專家或根據(jù)評審目標的專業(yè)從系統(tǒng)中進行機械地選取專家,無法快速準確選定合適評審專家,從而導致專家評審不熟悉的技術領域,影響科技評審結果的客觀性和公正性[4]。因此,使用智能檢索技術遴選科技評審專家是有必要的。
依托于云網(wǎng)大量專家信息,以數(shù)據(jù) + 算法+ 系統(tǒng)為核心,結合云網(wǎng)在輸變配、營銷、電能計量、通信等多方面深厚的數(shù)據(jù)技術積累,為科技評審工作提供合適的專家推薦服務。主要從以下幾個方面進行智能推薦技術的研究:
2.1.1 內容分析
1)根據(jù)專家的元數(shù)據(jù)、內容以及與內容相關的行為綜合進行分析;
2)提供不同的語義處理模型的訓練功能,對專家進行自動處理,形成專家的專業(yè)、標簽等要素;
3)提供專家的相關行為的分析,得出指定專家在特定時間和特定地域的流行度。
2.1.2 智能配置
1)提供數(shù)據(jù)處理規(guī)則的編輯、管理功能;
2)針對不同的分析內容,面向數(shù)據(jù)處理訓練可以配置不同的算法;
3)提供算法的參數(shù)配置功能;
4)提供多類別的推薦專家列表;
5)針對不同類別的推薦專家列表,提供配置權重的功能靈活控制推薦專家列表內容。
網(wǎng)絡爬蟲是遵循h(huán)ttp 協(xié)議, 檢索Web 文檔的軟件。網(wǎng)絡爬蟲是一個功能強大的自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分[5]。通用網(wǎng)絡爬蟲隨著網(wǎng)絡的迅速發(fā)展,網(wǎng)絡上充斥著大量的有用或垃圾數(shù)據(jù),人員無法進行快速有效的篩選,這就需要搜索技術來自動進行提取。網(wǎng)絡爬蟲可以幫助用戶檢索信息,幫助用戶方便的搜集互聯(lián)網(wǎng)上的相應信息。但是,通用網(wǎng)絡爬蟲也存在著一定的局限性:
1)用戶的需求不一樣,檢索的目標內容不同,通用網(wǎng)絡爬蟲的檢索結果包含大量的干擾內容;
2)通用網(wǎng)絡爬蟲的目標是盡可能大的網(wǎng)絡覆蓋率[6-7],但服務器資源是有限的,這就限制了網(wǎng)絡數(shù)據(jù)的獲取量;
3)網(wǎng)絡上的數(shù)據(jù)類型復雜,網(wǎng)絡資源類型的不斷增多,圖片、音視頻、壓縮包、加密數(shù)據(jù)等不同格式數(shù)據(jù)越發(fā)龐大,通用網(wǎng)絡爬蟲往往對這些類型的數(shù)據(jù)識別率不高,造成檢索結果缺少和偏差;
4)通用網(wǎng)絡爬蟲一般是基于關鍵字進行檢索,往往無法滿足用戶需求。
專家檢索網(wǎng)絡爬蟲技術可以很好的解決通用網(wǎng)絡爬蟲的問題,該技術可以定向抓取網(wǎng)絡上專家資源,根據(jù)需要的技術領域,有選擇地抓取網(wǎng)絡上的信息內容,獲取所需的專家信息。
與通用網(wǎng)絡爬蟲相比,專家檢索網(wǎng)絡爬蟲追求檢索結果的準確性,而不是網(wǎng)絡的大面積覆蓋,從而為云網(wǎng)科技評審工作補充專家資源。
專家智能檢索技術應用的關鍵是現(xiàn)有專家數(shù)據(jù)的完整和準確,通過聯(lián)系云網(wǎng)各公司各部門相關負責人搜集專家信息,并聯(lián)系專家本人確認、補充相關信息,形成了一套高質量的專家信息。把搜集到的專家基礎信息、擅長領域、工作經歷結合評審歷史信息進行智能分詞、語義分析等過程后,生成專家標簽,再把這些信息存儲在系統(tǒng)里面,當需要的時候可以通過信息檢索器來尋找相應的專家;通過專家檢索專用網(wǎng)絡爬蟲技術,抓取網(wǎng)絡上的相關專家信息,經過篩選后進入專家?guī)欤瑢ΜF(xiàn)有專家進行補充。
本文成果應用于云網(wǎng)科技創(chuàng)新管理平臺,有效的解決了科技評審工作分配專家過程中存在的工作繁瑣、專業(yè)不熟悉等問題。
專家智能推薦技術及專家檢索網(wǎng)絡爬蟲技術的研究不僅具有實際應用價值,也同樣具有廣泛的學術意義。在現(xiàn)有專家信息、項目評審歷史數(shù)據(jù)的基礎上,進行深入挖掘,與定量研究方法相結合,提出專家智能檢索方法,滿足目前云網(wǎng)范圍內科技項目及科技成果評審工作的公平公正、合理科學的要求,從而促進云網(wǎng)科技的創(chuàng)新和現(xiàn)代化管理的需要,這在當前具有十分重要的意義和推廣應用價值。