浮肖肖
(新鄉(xiāng)醫(yī)學(xué)院 圖書館,河南 新鄉(xiāng) 453003)
推進(jìn)科技成果轉(zhuǎn)化是過(guò)去數(shù)十年科技體制改革的主線之一,但每年見(jiàn)諸報(bào)端的依然是我國(guó)科技成果轉(zhuǎn)化慢、轉(zhuǎn)化難、轉(zhuǎn)化率不高。根據(jù)國(guó)家知識(shí)產(chǎn)權(quán)局《2019年中國(guó)專利調(diào)查報(bào)告》顯示,我國(guó)高校專利產(chǎn)業(yè)化率僅為3.7%,科研單位專利產(chǎn)業(yè)化率僅為18.3%,遠(yuǎn)低于國(guó)際平均水平。供需信息的準(zhǔn)確匹配是科技成果轉(zhuǎn)化精準(zhǔn)服務(wù)的基礎(chǔ),對(duì)技術(shù)商業(yè)化價(jià)值實(shí)現(xiàn)與企業(yè)創(chuàng)新能力提升具有重要推動(dòng)作用[1]。而精準(zhǔn)識(shí)別企業(yè)的真實(shí)技術(shù)需求是精準(zhǔn)實(shí)現(xiàn)科技成果轉(zhuǎn)化的第一步,是實(shí)現(xiàn)技術(shù)轉(zhuǎn)移供需信息精準(zhǔn)匹配的前提。精準(zhǔn)識(shí)別企業(yè)的真實(shí)技術(shù)需求,并為其準(zhǔn)確匹配科技成果是技術(shù)轉(zhuǎn)移精準(zhǔn)服務(wù)的前提和基礎(chǔ)。
企業(yè)的技術(shù)需求通常是行業(yè)秘密,因此企業(yè)在交易平臺(tái)所填寫的需求信息通常是籠統(tǒng)概括,并不能實(shí)際切中企業(yè)的真實(shí)技術(shù)需求。目前國(guó)內(nèi)關(guān)于技術(shù)供需匹配多是根據(jù)企業(yè)在交易網(wǎng)站提交的需求文本來(lái)分析企業(yè)的技術(shù)需求。翟東升[2]通過(guò)分析技術(shù)需求文檔的文本特征和需求內(nèi)容特征挖掘潛在的技術(shù)研發(fā)伙伴;何喜軍[3]通過(guò)對(duì)技術(shù)供需雙方文本詞頻特征、相關(guān)性特征和語(yǔ)義特征進(jìn)行匹配,開(kāi)展線上技術(shù)供需信息匹配;楊德林[4]采用文本表示模型和余弦相似度理論對(duì)交易網(wǎng)站上供需雙方的文本進(jìn)行相似度計(jì)算。上述研究更多的是根據(jù)企業(yè)在交易平臺(tái)提供的需求文本信息這單一數(shù)據(jù)源為準(zhǔn)為企業(yè)尋求相匹配的成果技術(shù),但企業(yè)的技術(shù)需求實(shí)際上是企業(yè)的商業(yè)機(jī)密,企業(yè)在交易網(wǎng)站所提供的需求文本只是模糊表達(dá)企業(yè)的技術(shù)需求,并不能準(zhǔn)確展現(xiàn)企業(yè)的真實(shí)技術(shù)需求。如今的大數(shù)據(jù)時(shí)代,大數(shù)據(jù)為識(shí)別用戶需求提供了新的方法,分析用戶在網(wǎng)站的瀏覽歷史、收藏記錄、留言信息等碎片化的行為數(shù)據(jù)收集整理分析挖掘,可直接或間接反映用戶的興趣、態(tài)度等信息,完整重構(gòu)用戶的需求。通過(guò)數(shù)據(jù)挖掘企業(yè)在交易網(wǎng)站的行為數(shù)據(jù),可以更精準(zhǔn)了解企業(yè)的真實(shí)技術(shù)需求。
目前的研究更多從宏觀方面分析技術(shù)供需匹配的方法、路徑,且僅根據(jù)需求文本作為匹配標(biāo)準(zhǔn),無(wú)法總體全面的識(shí)別企業(yè)的真實(shí)需求。筆者嘗試勾勒出面向技術(shù)需求的企業(yè)用戶畫像,綜合、立體、全方位的展示企業(yè)的真實(shí)技術(shù)需求,并根據(jù)企業(yè)的真實(shí)技術(shù)需求進(jìn)行匹配,為企業(yè)推薦適合的科技成果,以提高科技成果轉(zhuǎn)移效率,創(chuàng)造出更多的價(jià)值。
用戶畫像是真實(shí)用戶的虛擬代表,是將用戶的真實(shí)數(shù)據(jù)通過(guò)各種數(shù)據(jù)挖掘方法繪制出的虛構(gòu)角色。用戶畫像能幫助理解用戶的需求、行為和目標(biāo),能利用標(biāo)簽刻畫不同面目的真實(shí)用戶,從而為精準(zhǔn)解決其業(yè)務(wù)難題提供解決途徑。用戶畫像在電子商務(wù)、管理經(jīng)濟(jì)、情報(bào)分析等領(lǐng)域均有廣泛應(yīng)用。京東、淘寶、Amazon等購(gòu)物網(wǎng)站根據(jù)用戶的瀏覽、收藏、下單等行為分析用戶需求并向用戶推薦商品;今日頭條、抖音等新聞社交平臺(tái)也會(huì)根據(jù)用戶的關(guān)注頻道、關(guān)注用戶、閱讀瀏覽主題等對(duì)用戶進(jìn)行精準(zhǔn)推薦;黎丹雨[5]依據(jù)用戶在電商網(wǎng)站中點(diǎn)擊停留等行為數(shù)據(jù)構(gòu)建用戶畫像,根據(jù)用戶標(biāo)簽和物品特征匹配度為用戶推薦合適的物品;劉海[6]等認(rèn)為通過(guò)對(duì)網(wǎng)上消費(fèi)者瀏覽、點(diǎn)擊、評(píng)論等行為信息能反映消費(fèi)者的偏好。交易網(wǎng)站中用戶的技術(shù)需求其實(shí)就是用戶對(duì)成果的興趣,借鑒用戶畫像的方法識(shí)別企業(yè)的技術(shù)需求,為企業(yè)推薦合適的成果,提高技術(shù)轉(zhuǎn)移效率。
基于上述分析,筆者采用用戶畫像技術(shù)來(lái)為企業(yè)用戶推薦合適的科技成果。通過(guò)獲取企業(yè)用戶在交易網(wǎng)站的技術(shù)需求記錄和其在網(wǎng)站的信息搜索記錄和行為數(shù)據(jù),建立企業(yè)用戶的技術(shù)需求畫像模型,識(shí)別企業(yè)真實(shí)的技術(shù)需求,根據(jù)企業(yè)用戶的技術(shù)需求標(biāo)簽和科技成果的技術(shù)特征進(jìn)行匹配,為企業(yè)推薦滿足其需求的科技成果,構(gòu)建切合企業(yè)技術(shù)需求的精準(zhǔn)服務(wù)模式,為精準(zhǔn)實(shí)施技術(shù)轉(zhuǎn)移提供基礎(chǔ)。
用戶畫像系統(tǒng)有效匯總了企業(yè)在交易網(wǎng)站中的行為數(shù)據(jù)及其需求文本數(shù)據(jù),通過(guò)對(duì)數(shù)據(jù)進(jìn)行挖掘和統(tǒng)計(jì)分類,構(gòu)建企業(yè)技術(shù)需求的用戶畫像模型,最后圍繞畫像模型為企業(yè)提供精準(zhǔn)服務(wù)。
文中企業(yè)用戶畫像數(shù)據(jù)主要來(lái)源是企業(yè)在技術(shù)交易平臺(tái)填寫的技術(shù)需求和其在交易平臺(tái)的瀏覽歷史、頁(yè)面時(shí)間、信息檢索等過(guò)程中產(chǎn)生的各類行為數(shù)據(jù),如用戶基本信息、需求文本數(shù)據(jù)等。圍繞上述維度提取企業(yè)用戶的需求標(biāo)簽特征。由此構(gòu)建多維標(biāo)簽體系的企業(yè)用戶技術(shù)需求畫像模型。①用戶基本信息標(biāo)簽。主要描述企業(yè)用戶的基本情況的指標(biāo),如企業(yè)名稱、所屬行業(yè)、企業(yè)規(guī)模、企業(yè)法人、企業(yè)地址等。 ②企業(yè)顯性技術(shù)需求標(biāo)簽。包括企業(yè)在交易平臺(tái)填寫的需求文本數(shù)據(jù)。 ③企業(yè)隱性技術(shù)需求標(biāo)簽。主要描述企業(yè)交易平臺(tái)的檢索內(nèi)容、頁(yè)面瀏覽等行為數(shù)據(jù)。其中企業(yè)用戶通過(guò)關(guān)鍵詞對(duì)感興趣的內(nèi)容進(jìn)行檢索,該關(guān)鍵詞體現(xiàn)了用戶的技術(shù)需求興趣;企業(yè)用戶瀏覽網(wǎng)頁(yè)的時(shí)間節(jié)點(diǎn)、頁(yè)面停留時(shí)間長(zhǎng)短則顯示用戶對(duì)該內(nèi)容的興趣程度;閱讀內(nèi)容體現(xiàn)用戶對(duì)技術(shù)資源的興趣主題和所屬領(lǐng)域;收藏是用戶對(duì)感興趣的內(nèi)容進(jìn)行收藏;通過(guò)分析企業(yè)用戶在交易網(wǎng)站的瀏覽、閱讀和收藏的科技成果,抓取這些科技成果的技術(shù)特征,可以構(gòu)建出企業(yè)用戶自身的隱性技術(shù)需求標(biāo)簽。
面向技術(shù)需求的企業(yè)用戶畫像標(biāo)簽是對(duì)企業(yè)用戶技術(shù)需求相關(guān)抽象表象經(jīng)過(guò)數(shù)理分析后形成更形象、更容易理解的信息,是多種企業(yè)所需多種技術(shù)特征的集合。通過(guò)不同維度標(biāo)簽的建立,可以進(jìn)一步挖掘企業(yè)用戶顯性技術(shù)需求和隱性技術(shù)需求的向量集合,為后續(xù)企業(yè)用戶成果推薦打好基礎(chǔ)。根據(jù)上述企業(yè)用戶技術(shù)需求標(biāo)簽的形式化表示方法,構(gòu)建了面向技術(shù)需求的企業(yè)用戶畫像概念模型,具體如圖1所示。
圖1 面向技術(shù)需求的企業(yè)用戶畫像概念模型
根據(jù)面向技術(shù)需求的企業(yè)用戶畫像模型,筆者設(shè)計(jì)了基于畫像模型的技術(shù)轉(zhuǎn)移精準(zhǔn)推薦模式,如圖2所示。
圖2 基于用戶畫像的成果推薦流程
利用用戶畫像方法實(shí)施技術(shù)轉(zhuǎn)移精準(zhǔn)服務(wù)的實(shí)現(xiàn)路徑為:①?gòu)慕灰拙W(wǎng)站中抓取技術(shù)需求文本數(shù)據(jù)并采用TextRank方法提取關(guān)鍵短語(yǔ)。②根據(jù)企業(yè)在交易網(wǎng)站的行為數(shù)據(jù),分析其瀏覽收藏的科技成果構(gòu)建企業(yè)隱性技術(shù)需求向量集合。③從成果摘要中提取技術(shù)特征短語(yǔ),形成該項(xiàng)科技成果的特征標(biāo)簽,其中每一個(gè)科技成果都是由數(shù)個(gè)技術(shù)特征構(gòu)成的向量集合。④基于技術(shù)供需雙方的技術(shù)特征集合對(duì)雙方匹配度進(jìn)行計(jì)算,并為企業(yè)推薦與其需求相匹配的成果。
交易網(wǎng)站中企業(yè)技術(shù)需求文本通常都是口語(yǔ)化有余而專業(yè)化不足,且其中包含大量的非結(jié)構(gòu)化語(yǔ)言,建立語(yǔ)料庫(kù)進(jìn)行語(yǔ)義相似訓(xùn)練是當(dāng)前的主要研究點(diǎn)。筆者選取國(guó)家知識(shí)產(chǎn)權(quán)局專利數(shù)據(jù)庫(kù)中的術(shù)語(yǔ)文本和百度百科文本作為原始語(yǔ)料庫(kù)。
4.1.1 采用TextRank提取企業(yè)顯性技術(shù)需求標(biāo)簽。 利用信息采集工具或網(wǎng)絡(luò)爬蟲(chóng)工具獲取企業(yè)在交易網(wǎng)站的技術(shù)需求文本數(shù)據(jù)(包括技術(shù)需求名稱、需求簡(jiǎn)介、所屬領(lǐng)域等),選取國(guó)家知識(shí)產(chǎn)權(quán)局專利數(shù)據(jù)庫(kù)中的術(shù)語(yǔ)文本和百度百科文本作為原始語(yǔ)料庫(kù),對(duì)供需文本的標(biāo)題和內(nèi)容部分進(jìn)行噪音過(guò)濾、分詞、去停用詞等預(yù)處理,然后利用TextRank算法提取企業(yè)技術(shù)需求文本關(guān)鍵短語(yǔ),從而得到有關(guān)企業(yè)顯性技術(shù)需求的標(biāo)簽合集。TextRank提取關(guān)鍵短語(yǔ)的算法如下: ①將需求文本分割成數(shù)個(gè)句子,對(duì)每個(gè)句子進(jìn)行預(yù)處理,保留有意義詞性的詞組,即待選關(guān)鍵詞。②構(gòu)建無(wú)向無(wú)權(quán)關(guān)鍵詞圖G=(V,E),V為所有待選關(guān)鍵詞集合,E為所有鄰接關(guān)鍵詞關(guān)系集合。關(guān)鍵詞vi和vj之間連線的權(quán)重為wij,任意點(diǎn)vi的得分公式如下:
(1)
p∈[0,1]為特定點(diǎn)到其他點(diǎn)的概率,常規(guī)取值0.85[15]。③根據(jù)公式(1),循環(huán)迭代計(jì)算每個(gè)節(jié)點(diǎn)的得分,選取得分較高的作為關(guān)鍵詞。
筆者選取上述結(jié)果中的關(guān)鍵詞集合為企業(yè)顯性技術(shù)需求的技術(shù)特征詞組向量集合,即企業(yè)顯性技術(shù)需求標(biāo)簽合集。
4.1.2 企業(yè)隱性技術(shù)需求標(biāo)簽的挖掘。 大數(shù)據(jù)挖掘企業(yè)隱性的技術(shù)需求是解決企業(yè)具體真實(shí)技術(shù)需求的關(guān)鍵。對(duì)于企業(yè)用戶來(lái)說(shuō),企業(yè)的真實(shí)技術(shù)需求隱藏于企業(yè)的行為中。企業(yè)在交易網(wǎng)站通過(guò)瀏覽網(wǎng)站所發(fā)布的科技成果的內(nèi)容來(lái)獲取信息,其動(dòng)態(tài)操作信息可以有效展示企業(yè)技術(shù)需求興趣,因此分析企業(yè)用戶在交易網(wǎng)站的瀏覽、閱讀和收藏的科技成果,抓取這些科技成果的標(biāo)簽,構(gòu)建出企業(yè)用戶隱性技術(shù)需求標(biāo)簽。筆者通過(guò)成果交易網(wǎng)站后臺(tái)獲取用戶的行為數(shù)據(jù),利用Python、網(wǎng)站日志等技術(shù)爬取用戶的行為數(shù)據(jù),對(duì)行為數(shù)據(jù)進(jìn)行聚類關(guān)聯(lián)等預(yù)處理,最后根據(jù)關(guān)注的成果技術(shù)特征標(biāo)簽,組建企業(yè)用戶的隱性技術(shù)需求標(biāo)簽。
企業(yè)在交易網(wǎng)站的行為數(shù)據(jù)主要包括瀏覽、停留時(shí)長(zhǎng)等,其各自所代表的興趣程度各不相同。用戶點(diǎn)擊某一科技成果但是其停留時(shí)間很短,可能是用戶誤點(diǎn)。對(duì)于企業(yè)隱性技術(shù)需求挖掘有用的是那些用戶點(diǎn)擊瀏覽且停留時(shí)間較長(zhǎng)的成果。為了更好區(qū)分不同行為數(shù)據(jù)產(chǎn)生的價(jià)值,本文采用引入時(shí)間因子來(lái)進(jìn)行評(píng)價(jià)。定義用戶u對(duì)成果i興趣程度的計(jì)算方法為:
(2)
其中,t為用戶對(duì)某項(xiàng)科技成果i的瀏覽時(shí)長(zhǎng),為用戶在交易網(wǎng)站的瀏覽總時(shí)長(zhǎng)。W值越大,表示該用戶對(duì)成果的興趣度越高。通過(guò)計(jì)算用戶對(duì)不同科技成果的興趣程度的得分,將得分排序最高的成果的技術(shù)特征作為該企業(yè)用戶的隱性技術(shù)需求特征。
科技成果文獻(xiàn)是規(guī)范的結(jié)構(gòu)化文本,文中描述技術(shù)功效的句子主要集中在文本摘要部分,可以此形成該項(xiàng)科技成果的特征標(biāo)簽。從成果摘要中提取技術(shù)特征短語(yǔ)的流程,如圖3所示。
圖3 技術(shù)特征短語(yǔ)的流程
從成果摘要中抽取含有技術(shù)特征詞語(yǔ)或短語(yǔ)的句子,將句子根據(jù)標(biāo)點(diǎn)符號(hào)(逗號(hào)、句號(hào)、頓號(hào)、分號(hào)等)分割成較短的單句。對(duì)單句進(jìn)行過(guò)濾要經(jīng)過(guò)兩個(gè)過(guò)程,首先通過(guò)編寫正則表達(dá)式過(guò)濾掉只含字母或數(shù)字等非目標(biāo)單句,然后根據(jù)科技成果文本中對(duì)其技術(shù)領(lǐng)域、背景、方案等提取特征線索詞(特征線索詞不含技術(shù)特征、功能的含義),如應(yīng)用、提高、良好等,通過(guò)上述兩個(gè)步驟能迅速定位成果摘要中技術(shù)特征目標(biāo)句。之后選取中科院分詞系統(tǒng)ICTCLAS對(duì)目標(biāo)句子進(jìn)行中文分詞和詞性標(biāo)注,過(guò)濾掉沒(méi)有意義的詞組,最終形成該科技成果的技術(shù)特征短語(yǔ)集合,即該科技成果的技術(shù)特征標(biāo)簽合集。
供需雙方的技術(shù)特征匹配是實(shí)現(xiàn)技術(shù)轉(zhuǎn)移的關(guān)鍵一個(gè)環(huán)節(jié),是為企業(yè)推薦合適科技成果的前提。通過(guò)比較供需雙方的技術(shù)特征匹配相似度的大小,可以尋求出最滿足企業(yè)技術(shù)需求的科技成果。
文中對(duì)技術(shù)供需雙方的匹配不僅要依據(jù)企業(yè)技術(shù)需求文本,還要分析企業(yè)在交易網(wǎng)站瀏覽收藏的技術(shù)成果的技術(shù)特征,綜合企業(yè)顯性和隱性的技術(shù)需求特征來(lái)對(duì)企業(yè)進(jìn)行技術(shù)成果匹配推薦。根據(jù)面向技術(shù)需求的企業(yè)用戶畫像提供完整的企業(yè)技術(shù)需求標(biāo)簽,以此和技術(shù)成果進(jìn)行匹配,得到最適合企業(yè)技術(shù)需求的科技成果,將該科技成果推薦給企業(yè)。例如我們對(duì)企業(yè)用戶A實(shí)施精準(zhǔn)推薦服務(wù)。通過(guò)企業(yè)技術(shù)需求用戶畫像提供的企業(yè)的完整技術(shù)需求標(biāo)簽,找到企業(yè)真正的技術(shù)需求。筆者采用余弦相似度算法計(jì)算企業(yè)用戶技術(shù)需求與科技成果的相似度。
對(duì)企業(yè)用戶A進(jìn)行科技成果推薦。技術(shù)成果數(shù)據(jù)庫(kù)中共n個(gè)科技成果,計(jì)算企業(yè)用戶A的技術(shù)需求與科技成果Q的相似度,我們使用余弦相似度算法:
假設(shè)企業(yè)用戶A的技術(shù)需求向量A={A1,A2,…,An},科技成果Q的技術(shù)特征向量Q={Q1,Q2,…Qn},計(jì)算兩個(gè)向量的夾角余弦值來(lái)表示兩者的相似度,余弦值越接近1,兩個(gè)向量的相似度越高,可求得技術(shù)需求A和科技成果Q的相似度:
(3)
sim(A,Q)代表企業(yè)A技術(shù)需求和對(duì)比科技成果Q之間的相似度,該值接近1,則此對(duì)比科技成果與企業(yè)用戶的技術(shù)需求相似度越高。計(jì)算每個(gè)企業(yè)用戶與科技成果的相似度大小,并進(jìn)行從高到低的排序,則排名靠前的為與企業(yè)技術(shù)需求相似度最高的科技成果,將排名靠前的科技成果推薦給企業(yè)用戶。
技術(shù)轉(zhuǎn)移服務(wù)最本質(zhì)的要求在于滿足每個(gè)用戶的切實(shí)技術(shù)需求。筆者引入“用戶畫像”的理念和技術(shù)方法,通過(guò)對(duì)企業(yè)需求文本和其企業(yè)特征等一系列相關(guān)數(shù)據(jù)通過(guò)融合分析等 手段挖掘企業(yè)用戶的技術(shù)需求的技術(shù)特征合集,繪制出基于技術(shù)需求的企業(yè)用戶畫像,并借助畫像特征計(jì)算用戶技術(shù)需求和科技成果資源的相似度,從而實(shí)現(xiàn)企業(yè)用戶技術(shù)需求和供給方科技成果資源的精準(zhǔn)匹配,對(duì)企業(yè)進(jìn)行有針對(duì)性和專業(yè)性的精準(zhǔn)個(gè)性化推薦服務(wù)。在分析企業(yè)技術(shù)需求文本的基礎(chǔ)上,創(chuàng)新性的根據(jù)企業(yè)用戶在交易網(wǎng)站的瀏覽、停留時(shí)長(zhǎng)等行為數(shù)據(jù)發(fā)掘企業(yè)用戶的隱性技術(shù)需求,為識(shí)別企業(yè)真實(shí)技術(shù)需求,提高技術(shù)供需匹配效率,實(shí)施精準(zhǔn)技術(shù)轉(zhuǎn)移服務(wù)提供參考依據(jù)。
筆者為識(shí)別企業(yè)真實(shí)技術(shù)需求提供了一種新的路徑,但也有很多不足和缺陷,在供需雙方匹配識(shí)別中只考慮了企業(yè)技術(shù)需求和科技成果在技術(shù)方面的匹配,但未考慮企業(yè)是否有時(shí)是轉(zhuǎn)化該項(xiàng)成果的能力,本文沒(méi)有考慮企業(yè)的經(jīng)濟(jì)實(shí)力和科研實(shí)力方面,而這些也都是科技成果轉(zhuǎn)化的重要一環(huán),一定程度上會(huì)影響技術(shù)轉(zhuǎn)移實(shí)施的成功率。這些都是未來(lái)研究中需要重點(diǎn)解決和完善的方面。
內(nèi)蒙古科技與經(jīng)濟(jì)2022年2期