• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于用戶(hù)畫(huà)像的數(shù)字人文服務(wù)策略

      2019-04-27 02:10:50張紅偉解素芳王春梅
      關(guān)鍵詞:畫(huà)像數(shù)據(jù)處理學(xué)者

      張紅偉,邢 丹,陳 玲,解素芳,王春梅

      隨著大數(shù)據(jù)、云計(jì)算等新興數(shù)字技術(shù)的發(fā)展,人文研究出現(xiàn)了革命性的轉(zhuǎn)變,數(shù)據(jù)密集型研究不斷加劇?!皵?shù)字人文”的出現(xiàn)不僅為傳統(tǒng)人文研究帶來(lái)了新方法,注入了新活力,還拓展了人文研究領(lǐng)域[1]。李泉在《數(shù)字人文:開(kāi)創(chuàng)人文研究的新紀(jì)元》一文中指出:“數(shù)字人文堪稱(chēng)人文研究的‘開(kāi)天辟地’與‘創(chuàng)世紀(jì)’,能夠開(kāi)創(chuàng)人文研究的新紀(jì)元”[2]。數(shù)字人文研究在世界各地如火如荼地展開(kāi),“大數(shù)據(jù)視域下數(shù)字人文研究”入選2018年度“中國(guó)十大學(xué)術(shù)熱點(diǎn)”,數(shù)字人文的高熱狀態(tài)在近幾年將一直持續(xù)下去[3]。圖情界如何為數(shù)字人文學(xué)者提供個(gè)性化的服務(wù)成為當(dāng)前的棘手問(wèn)題,畫(huà)像技術(shù)的發(fā)展為數(shù)字人文服務(wù)提供了新思路。

      1 數(shù)字人文個(gè)性化服務(wù)

      當(dāng)前數(shù)字人文服務(wù)主要從基礎(chǔ)設(shè)施建設(shè)、技術(shù)體系框架及科研服務(wù)內(nèi)容等宏觀層面進(jìn)行,如何進(jìn)行數(shù)字人文個(gè)性化服務(wù)等以微觀層面研究較少[4]。針對(duì)個(gè)性化研究,周謙豪等設(shè)計(jì)了一款數(shù)字人文工具——inBooks,該工具不僅能通過(guò)紙本圖書(shū)的圖像獲取數(shù)字人文資源,還可以構(gòu)建個(gè)性化知識(shí)網(wǎng)絡(luò)[5];曾子明和秦思琪采用深度學(xué)習(xí)方法和哈希方法構(gòu)建了面向數(shù)字人文的移動(dòng)視覺(jué)搜索模型,探討了圖像語(yǔ)義特征提取和檢索流程,為獲取數(shù)字人文視覺(jué)資源提供了新思路[6-7];上海圖書(shū)館推出家譜知識(shí)服務(wù)平臺(tái),該平臺(tái)實(shí)現(xiàn)了基于概念的精確查詢(xún),以“時(shí)間軸”“地圖”等為用戶(hù)提供可視化家譜數(shù)據(jù)展示[8]。以上研究從不同側(cè)面探討了數(shù)字人文領(lǐng)域的個(gè)性化服務(wù),然而這些研究遠(yuǎn)遠(yuǎn)無(wú)法滿(mǎn)足數(shù)字人文學(xué)者的個(gè)性化需求。針對(duì)數(shù)字人文特點(diǎn)及學(xué)者不同的研究興趣,如何提供優(yōu)質(zhì)的個(gè)性化服務(wù)仍是圖情界急需探索的難題。

      2 用戶(hù)畫(huà)像技術(shù)

      用戶(hù)畫(huà)像是一種刻畫(huà)用戶(hù)信息模型的技術(shù),在挖掘用戶(hù)真實(shí)數(shù)據(jù)的基礎(chǔ)上,按照需求提煉出用戶(hù)信息,呈現(xiàn)虛擬的用戶(hù)信息全貌,以此為基礎(chǔ)為用戶(hù)提供精準(zhǔn)個(gè)性化服務(wù)[9]。用戶(hù)畫(huà)像技術(shù)近年引起了電子商務(wù)、金融、社交網(wǎng)絡(luò)等各界的廣泛關(guān)注和研究。圖情領(lǐng)域?yàn)榱颂峁└N合用戶(hù)需求的個(gè)性化服務(wù),也引入了用戶(hù)畫(huà)像。李丹等利用顯式和隱式相結(jié)合的方法獲取讀者信息,構(gòu)建讀者畫(huà)像,采用協(xié)同過(guò)濾的方法向讀者推薦興趣度排名靠前的N項(xiàng)內(nèi)容[10];劉海鷗等將情景興趣應(yīng)用于讀者畫(huà)像,通過(guò)計(jì)算與當(dāng)前情景相似的歷史情景獲取讀者感興趣的內(nèi)容[11];何娟在畫(huà)像模型中構(gòu)建了個(gè)人畫(huà)像和群體畫(huà)像,綜合二者的閱讀特征對(duì)讀者進(jìn)行個(gè)性化推薦[12];張海濤等通過(guò)對(duì)中國(guó)知網(wǎng)和Web of Science中有關(guān)用戶(hù)畫(huà)像的文章進(jìn)行定量和定性分析后,指出用戶(hù)畫(huà)像研究雖然取得了一些成果,但主要集中于社會(huì)化問(wèn)答社區(qū)、數(shù)字圖書(shū)館和輿情傳播等主題,其他主題的研究比較薄弱[13]。隨著數(shù)字人文研究的快速發(fā)展,數(shù)字人文研究學(xué)者隊(duì)伍不斷壯大,成果數(shù)量急劇增多,學(xué)者對(duì)數(shù)據(jù)處理的技術(shù)服務(wù)需求進(jìn)一步增強(qiáng)。如何利用用戶(hù)畫(huà)像刻畫(huà)出數(shù)字人文學(xué)者信息,針對(duì)具體需求提升數(shù)字人文學(xué)者的個(gè)性化服務(wù)水平值得深入研究。

      3 數(shù)字人文視域下學(xué)者畫(huà)像系統(tǒng)構(gòu)建

      數(shù)字人文學(xué)者在研究過(guò)程中經(jīng)常需要用到一些軟件工具,如SPSS、Eviews等[14],并且在數(shù)據(jù)管理計(jì)劃、元數(shù)據(jù)、數(shù)據(jù)倉(cāng)儲(chǔ)與保存、數(shù)據(jù)出版、數(shù)據(jù)分析可視化等數(shù)據(jù)處理環(huán)節(jié)中,不同學(xué)者的關(guān)注點(diǎn)也不盡相同[15]。針對(duì)數(shù)字人文的特點(diǎn),本文設(shè)計(jì)了一個(gè)數(shù)字人文學(xué)者畫(huà)像系統(tǒng),旨在從研究?jī)?nèi)容、常用科研工具和所關(guān)注的數(shù)據(jù)處理環(huán)節(jié)等方面刻畫(huà)出數(shù)字人文學(xué)者特點(diǎn),在此基礎(chǔ)上實(shí)現(xiàn)更貼合需求的數(shù)字人文個(gè)性化服務(wù)。

      3.1 數(shù)據(jù)的采集和處理

      學(xué)者數(shù)據(jù)信息是構(gòu)建畫(huà)像系統(tǒng)的基礎(chǔ)。學(xué)者數(shù)據(jù)主要包括基本信息、發(fā)表論文、內(nèi)容偏好、常用科研工具和所關(guān)注數(shù)據(jù)處理環(huán)節(jié)等5方面的內(nèi)容。其中基本信息包括學(xué)者姓名、年齡、性別、機(jī)構(gòu)、專(zhuān)業(yè)等,發(fā)表論文包括論文題目、發(fā)表期刊、發(fā)表時(shí)間等;內(nèi)容偏好是根據(jù)發(fā)表論文提取出的研究興趣與方向;常用科研工具包括SPSS、Eviews、SAS、ACCESS、Ucinet、CiteSpace、VOSviewer、Gephi等,數(shù)據(jù)處理環(huán)節(jié)包括數(shù)據(jù)管理計(jì)劃、元數(shù)據(jù)、數(shù)據(jù)倉(cāng)儲(chǔ)與保存、數(shù)據(jù)出版、數(shù)據(jù)分析可視化等。

      本文采用改進(jìn)的爬蟲(chóng)技術(shù)從中國(guó)知網(wǎng)和學(xué)者主頁(yè)爬取學(xué)者的基本信息、論文、常用工具、關(guān)注的數(shù)據(jù)處理環(huán)節(jié)等信息。獲取的論文在經(jīng)過(guò)去重、去停用詞等預(yù)處理后,將論文用向量空間模型(Vector Space Model,VSM)表示,利用TF-IDF算法進(jìn)行特征提取并賦予相應(yīng)的權(quán)值,提取出論文的特征向量,將論文轉(zhuǎn)化為可以計(jì)算彼此相似度的向量。一篇論文可表示為:

      d=(t1,t2,…tn;w1,w2,…,wn)

      式中,n表示向量維度,tk表示論文第k個(gè)特征項(xiàng),wk是tk(1≤k≤n)相應(yīng)的權(quán)值。兩篇論文的相似度可以表示為:

      (公式1)

      sim()的取值范圍是[0,1],sim()越大,表示兩篇論文的相似度越高;相反,sim()越小,表示兩篇論文的相似度越低。在提取論文信息的基礎(chǔ)上分析得出學(xué)者的研究偏好,并對(duì)常用工具和關(guān)注的數(shù)據(jù)處理環(huán)節(jié)等內(nèi)容進(jìn)行補(bǔ)充。

      3.2 數(shù)據(jù)聚類(lèi)

      本文采用Single-Pass算法對(duì)論文進(jìn)行聚類(lèi)。按照論文到達(dá)的次序,將第一個(gè)到達(dá)的論文設(shè)為一個(gè)類(lèi)簇C1,然后將后續(xù)到達(dá)的論文di與現(xiàn)有的類(lèi)簇C計(jì)算相似度,選擇相似度最大的類(lèi)簇Ci。如果相似度大于閾值θ,則把論文di歸入Ci,并更新Ci的向量;否則,將論文di設(shè)為一個(gè)新的類(lèi)簇,直到將所有的論文都?xì)w入相應(yīng)類(lèi)簇為止。

      本文以常用科研工具為依據(jù)對(duì)學(xué)者進(jìn)行聚類(lèi)。數(shù)據(jù)采集處理后,系統(tǒng)將保存常用工具信息表,該表列出所有的人文學(xué)者與其常用科研工具,如果學(xué)者使用該工具則用1表示,不使用則用0表示。如學(xué)者0001常使用SPSS和SAS而不使用Eviews,學(xué)者00002常使用Eviews和SAS而不使用SPSS(表1)。該表對(duì)每個(gè)學(xué)者使用的科研工具進(jìn)行聚類(lèi)。此外,每個(gè)科研工具對(duì)使用學(xué)者進(jìn)行聚類(lèi),統(tǒng)計(jì)出每個(gè)科研工具的使用者(表2)。學(xué)者Si與學(xué)者Sj關(guān)于常用工具的相似度用公式(2)表示。

      sim(Si,Sj)=n/N

      (公式2)

      式中,n表示學(xué)者Si常用科研工具與學(xué)者Sj重復(fù)的數(shù)量,N表示學(xué)者Si常用科研工具的總數(shù)。對(duì)數(shù)據(jù)處理環(huán)節(jié)也進(jìn)行類(lèi)似聚類(lèi)。

      表1 學(xué)者─常用科研工具對(duì)應(yīng)表

      表2 常用工具─學(xué)者倒排表

      4 個(gè)性化服務(wù)

      4.1 興趣相近學(xué)者查詢(xún)

      為了促進(jìn)科研交流合作,學(xué)者需要尋找與自己研究?jī)?nèi)容相近的學(xué)者。本文設(shè)計(jì)了以下查詢(xún)途徑:第一,學(xué)者可以根據(jù)研究興趣相似度大小,直接從相應(yīng)類(lèi)簇中提取一定數(shù)量的學(xué)者;第二,學(xué)者可以根據(jù)同時(shí)使用的某一個(gè)或幾個(gè)常用科研工具尋找相應(yīng)學(xué)者,也可以根據(jù)常用工具的相似程度尋找相應(yīng)學(xué)者;第三,學(xué)者可以根據(jù)所關(guān)注的不同數(shù)據(jù)處理環(huán)節(jié)尋找相應(yīng)學(xué)者。此外,學(xué)者還可以綜合權(quán)衡以上3種因素的相似度尋找相應(yīng)學(xué)者,計(jì)算方法如公式(3)所示。

      sim(Si,Sj)=αsim1+βsim2+γsim3

      (公式3)

      式中,sim1表示學(xué)者Si和Sj的研究興趣相似度,sim2表示常用科研工具相似度,sim3表示關(guān)注數(shù)據(jù)處理環(huán)節(jié)相似度。系統(tǒng)根據(jù)用戶(hù)對(duì)3種因素的重視程度設(shè)置α、β和γ的值,其中0≤α,β,γ≤1,并且α+β+γ=1。系統(tǒng)根據(jù)學(xué)者需求,利用公式(3)提取一定數(shù)量的學(xué)者進(jìn)行推送。

      4.2 文獻(xiàn)精準(zhǔn)推送

      現(xiàn)有文獻(xiàn)根據(jù)Single-Pass算法形成穩(wěn)定的類(lèi)簇。當(dāng)有新文獻(xiàn)出現(xiàn)時(shí),該文獻(xiàn)根據(jù)Single-Pass算法進(jìn)行聚類(lèi),歸入類(lèi)簇Ci,Ci中所有文獻(xiàn)都是圍繞同一主題展開(kāi)的研究,存在強(qiáng)相關(guān)性,所有作者也具有相同的研究興趣。因此,系統(tǒng)將新文獻(xiàn)推送給類(lèi)簇Ci中其他文獻(xiàn)的作者。

      4.3 其他推送內(nèi)容

      在學(xué)者根據(jù)研究興趣、常用科研工具及數(shù)據(jù)處理環(huán)節(jié)進(jìn)行聚類(lèi)后,系統(tǒng)根據(jù)具體需求進(jìn)行精準(zhǔn)推送。當(dāng)舉行某個(gè)科研工具的培訓(xùn)時(shí),將培訓(xùn)信息推送給使用該工具的所有學(xué)者;當(dāng)舉行有關(guān)某個(gè)數(shù)據(jù)處理環(huán)節(jié)的會(huì)議時(shí),將會(huì)議信息推送給關(guān)注該數(shù)據(jù)處理環(huán)節(jié)的學(xué)者;當(dāng)需要尋找某個(gè)工具或數(shù)據(jù)處理環(huán)節(jié)的專(zhuān)家時(shí),直接根據(jù)學(xué)者畫(huà)像推出相關(guān)專(zhuān)家名單。

      4.4 嵌入式服務(wù)

      數(shù)字人文館員嵌入科研過(guò)程,根據(jù)學(xué)者畫(huà)像,分析數(shù)字人文學(xué)者及團(tuán)隊(duì)在科研過(guò)程中可能遇到的困難及需求,隨著科研進(jìn)程的不斷推進(jìn),提供全方位的知識(shí)獲取、數(shù)據(jù)管理及科研工具支持等高層次服務(wù)。同時(shí)注重對(duì)學(xué)者數(shù)字人文研究素質(zhì)的培養(yǎng),特別是不斷提升其數(shù)據(jù)處理及科研工具使用的能力,營(yíng)造數(shù)字人文研究的濃郁氛圍。

      5 結(jié)語(yǔ)

      針對(duì)數(shù)字人文個(gè)性化服務(wù)能力不足問(wèn)題,本文提出了一種基于用戶(hù)畫(huà)像的個(gè)性化服務(wù)策略,從研究?jī)?nèi)容、常用科研工具和所關(guān)注的數(shù)據(jù)處理環(huán)節(jié)等方面提取數(shù)字人文學(xué)者信息,構(gòu)建學(xué)者畫(huà)像,采用Single-Pass算法對(duì)論文進(jìn)行聚類(lèi)。分別以常用科研工具和所關(guān)注數(shù)據(jù)處理環(huán)節(jié)為依據(jù)對(duì)學(xué)者進(jìn)行聚類(lèi)。在此基礎(chǔ)上,為數(shù)字人文學(xué)者提供了興趣相近學(xué)者查詢(xún)、精準(zhǔn)文獻(xiàn)服務(wù)及嵌入科研過(guò)程等個(gè)性化服務(wù),使數(shù)字人文學(xué)者從繁雜的資料收集和數(shù)據(jù)處理工作中解脫出來(lái),將精力集中在解決科研問(wèn)題本身上,有助于數(shù)字人文研究的快速發(fā)展。

      猜你喜歡
      畫(huà)像數(shù)據(jù)處理學(xué)者
      威猛的畫(huà)像
      學(xué)者介紹
      學(xué)者簡(jiǎn)介
      認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
      學(xué)者介紹
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
      “00后”畫(huà)像
      畫(huà)像
      學(xué)者介紹
      基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
      西宁市| 青岛市| 兴城市| 阿鲁科尔沁旗| 大丰市| 岚皋县| 德安县| 华亭县| 五莲县| 长宁县| 湟源县| 岑溪市| 临城县| 兴海县| 梨树县| 陆河县| 玛沁县| 东辽县| 墨竹工卡县| 旬邑县| 长岭县| 聂荣县| 海兴县| 上栗县| 苍溪县| 林芝县| 连城县| 长海县| 西平县| 池州市| 兴宁市| 闻喜县| 宜兰县| 乌拉特后旗| 景宁| 双牌县| 孟村| 新田县| 河曲县| 紫金县| 闵行区|