【摘要】嵌入知識圖譜算法以自動識別、關(guān)聯(lián)、分析龐雜而海量的大數(shù)據(jù),從中挖掘出有價值的信息,為讀者提供精準(zhǔn)的信息服務(wù),已成為當(dāng)今知識服務(wù)的核心目標(biāo)之一。文章基于知識圖譜算法之于知識服務(wù)智能化應(yīng)用方向的思考,從智能化功用層面概述了知識圖譜算法的應(yīng)用方向,探討了知識圖譜算法之于閱讀服務(wù)智能化的應(yīng)用理解,提出打通出版與閱讀服務(wù)智能化的融合路徑,構(gòu)建新的運(yùn)維模式,以推動知識服務(wù)發(fā)展創(chuàng)新。
【關(guān)? 鍵? 詞】知識圖譜;知識服務(wù);AI技術(shù);智能閱讀;智能出版
【作者單位】王建文,湖南師范大學(xué)圖書館。
【中圖分類號】G237【文獻(xiàn)標(biāo)識碼】A【DOI】10.16491/j.cnki.cn45-1216/g2.2022.20.015
伴隨智媒時代的迅速演進(jìn),閱讀和出版服務(wù)智能化的個體期待與業(yè)態(tài)高度不斷出現(xiàn)新的問題,一定程度上造成了閱讀需求與內(nèi)容推送的體驗落差。為此,相關(guān)學(xué)者試圖通過AI(人工智能)技術(shù)重塑智能化閱讀服務(wù),探尋閱讀與出版服務(wù)協(xié)作互促,實現(xiàn)二者的有機(jī)融合。筆者認(rèn)為,知識圖譜算法作為一種新的AI技術(shù),對知識服務(wù)的智能化構(gòu)建具有強(qiáng)大的助力,可為智能化閱讀與出版服務(wù)融合提供可行的路徑。
一、知識圖譜算法之于知識服務(wù)智能化的應(yīng)用概要
知識圖譜算法的出現(xiàn),使智能化知識服務(wù)具備可解釋、可理解和可推理的能力。作為一種數(shù)字世界的載體,知識圖譜基于網(wǎng)絡(luò)語義知識庫的規(guī)模使用,通過建立便于計算機(jī)理解和表達(dá)的知識關(guān)聯(lián),利用圖結(jié)構(gòu)建模,識別和推斷事物間的復(fù)雜關(guān)系,實現(xiàn)資源整合,進(jìn)而為個性化知識服務(wù)提供智能化支持。可以說,知識圖譜融合了自然語言處理(NLP)、深度學(xué)習(xí)等算法模型,從非結(jié)構(gòu)化的自然語言文本中自動抽取用戶感興趣的信息,并以結(jié)構(gòu)化、可視化形式進(jìn)行表達(dá),從而“實現(xiàn)對網(wǎng)絡(luò)、文本、圖片、音頻、視頻、社會行為軌跡等海量資料的數(shù)據(jù)化生成、結(jié)構(gòu)化處理和計算”[1],極大便利用戶捕捉感興趣的知識特征。在這一過程中,知識圖譜除了要進(jìn)一步融合和完善個性化推薦系統(tǒng)、機(jī)器翻譯、關(guān)系抽取和情感分析等復(fù)雜結(jié)構(gòu)的建模,還要充分發(fā)揮高度發(fā)達(dá)的網(wǎng)絡(luò)技術(shù)全域挖掘關(guān)聯(lián)信息的潛力。
結(jié)構(gòu)上,知識圖譜可劃分為數(shù)據(jù)層和模式層兩個層次,其中,數(shù)據(jù)層存儲真實的數(shù)據(jù),模式層在數(shù)據(jù)層之上,存儲數(shù)據(jù)中經(jīng)過識別、抽取、提煉后形成的知識信息。可以說,知識圖譜展現(xiàn)一種隨時間而變化的可擴(kuò)展結(jié)構(gòu),呈現(xiàn)一個需要并保持迭代更新的過程。而每一輪迭代基于本體建模包含了知識抽取、知識融合、知識計算、知識儲存四個階段,其中各類存儲知識包括基本屬性知識、關(guān)聯(lián)知識、事件知識、時序知識和資源類知識等,其目的在于為機(jī)器實現(xiàn)理解、解釋、推理、規(guī)劃等一系列人類所獨(dú)有的認(rèn)知能力賦能。
基于此,知識圖譜構(gòu)建的數(shù)據(jù)資源作為背景知識可供各類智能化系統(tǒng)融合使用,相關(guān)應(yīng)用場景包括:把多源異構(gòu)的知識結(jié)構(gòu)化,構(gòu)建數(shù)據(jù)間關(guān)聯(lián);以其豐富的語義關(guān)系駕馭分詞、語義理解、文本挖掘等基本NLP(自然語言處理)任務(wù),廣泛參與搜索、推薦、用戶畫像、智能問答、語言語義理解、大數(shù)據(jù)決策分析等系統(tǒng)級應(yīng)用。其可解釋性智能主要應(yīng)用于問答、推薦等場景,能極大提升用戶對系統(tǒng)的信任感和滿意度;其可推理性智能可用于“不一致性檢測、推斷補(bǔ)全、知識發(fā)現(xiàn)、輔助推理決策”[2]等常見邏輯型應(yīng)用。
二、知識圖譜算法之于閱讀服務(wù)智能化的應(yīng)用解析
知識圖譜算法最重要的應(yīng)用,既在于提取關(guān)鍵信息,精準(zhǔn)刻畫用戶畫像,又在于通過用戶畫像積累數(shù)據(jù),將用戶行為信息與資源精準(zhǔn)對接,同時基于知識圖譜算法的個性化推薦、行為洞察、需求畫像、問題評估、資源推送等服務(wù),構(gòu)建知識服務(wù)的“智腦”,由此應(yīng)用于不同的閱讀場景,賦能智慧學(xué)習(xí),實現(xiàn)閱讀效率和閱讀質(zhì)量的提升,使出版資源更精準(zhǔn)地服務(wù)于讀者的個性化學(xué)習(xí)。但閱讀智能服務(wù)作為知識服務(wù)的高階形式,業(yè)內(nèi)更多地視之為技術(shù)層面的問題,操作層面難以體現(xiàn)知識圖譜算法之于智能化閱讀服務(wù)的賦能。因此,我們應(yīng)從認(rèn)知層面對知識圖譜算法的應(yīng)用理解有一個較為完整清晰的認(rèn)識。
1.資源整合
知識圖譜算法技術(shù)通過高效利用不同類型的知識體系來生產(chǎn)、組織、供給內(nèi)容產(chǎn)品和庫群,并將其融入算法“推薦池”,幫助讀者利用智能服務(wù)平臺提供的強(qiáng)大挖掘功能,從“異質(zhì)信息網(wǎng)絡(luò)(Network schema)”積累的大數(shù)據(jù)富礦中持續(xù)不斷地挖取所需知識。所謂異質(zhì)信息,指多種類型的對象或關(guān)系,每個對象屬于一個特定的對象類型,每種關(guān)系屬于一個特定的關(guān)聯(lián)類型。而異質(zhì)信息網(wǎng)絡(luò)模式,則指在特定的對象類型和關(guān)聯(lián)類型上的一個有向圖[1—2],如科技文獻(xiàn)數(shù)據(jù)(或書目)構(gòu)成的典型異質(zhì)信息網(wǎng)絡(luò)包含四種實體對象:論文、場所(即會議/期刊)、作者和術(shù)語,每篇論文都有從作者到會議的鏈路關(guān)系,每條鏈路屬于一種相應(yīng)的關(guān)聯(lián)類型(撰寫與被撰寫、出版與被出版、引用與被引用)[3]。這種對異質(zhì)信息數(shù)據(jù)類型的智能化關(guān)聯(lián)整合,構(gòu)成了層次分明、結(jié)構(gòu)清晰、異質(zhì)互聯(lián)的知識網(wǎng)絡(luò)圖,使碎片化知識信息通過收集、整理、提煉、傳遞,突破時間與地域的界限,拓展讀者的學(xué)習(xí)邊界,整合多維學(xué)習(xí)資源,進(jìn)而幫助讀者提升閱讀學(xué)習(xí)效率。同時,知識圖譜還把多源異構(gòu)的知識結(jié)構(gòu)化,通過構(gòu)建數(shù)據(jù)間的智能化關(guān)聯(lián),解決垂直領(lǐng)域內(nèi)數(shù)據(jù)分散、多樣、復(fù)雜和孤島化等問題。
2.讀者畫像
知識圖譜算法構(gòu)造的讀者畫像更為精細(xì)全面,具有對讀者相關(guān)背景及其文化偏好、專業(yè)學(xué)科關(guān)注度等進(jìn)行分析與預(yù)判的能力,不僅有助于精準(zhǔn)地診斷學(xué)情,還可通過強(qiáng)大的算法功能分析用戶感興趣的內(nèi)容特征,快速實時捕捉用戶的閱讀興趣與趨向,同時,還可關(guān)注讀者的學(xué)習(xí)過程與思想動態(tài),記錄讀者解決問題的數(shù)據(jù),并根據(jù)知識關(guān)聯(lián)圖利用大數(shù)據(jù)將知識地圖與個人數(shù)據(jù)進(jìn)行匹配分析,幫助讀者把準(zhǔn)薄弱的知識點位,清晰了解問題所在??梢哉f,知識圖譜算法的讀者畫像有助于讀者及時獲得學(xué)習(xí)評價和信息反饋,調(diào)整自我規(guī)劃與學(xué)習(xí)路徑,促使平臺為讀者推薦匹配更合適的閱讀資源。這種對讀者閱讀趨向的分析和個性需求預(yù)測,實質(zhì)上就是一種對智能化閱讀服務(wù)預(yù)測性極強(qiáng)的前瞻性實踐。
3.個性化推薦
平臺推薦系統(tǒng)主要分為兩類:一是預(yù)測用戶對物品的評價,如影視推薦系統(tǒng)通過預(yù)測用戶對影視的評分,以此為依據(jù)推送用戶喜歡的影視作品;二是預(yù)測用戶是否點擊物品,如產(chǎn)品推薦中預(yù)測用戶點擊某產(chǎn)品的概率優(yōu)化方案,使用的數(shù)據(jù)為用戶點擊/未點擊,此為體現(xiàn)用戶喜愛程度的隱式反饋。從目前的實踐探索看,一方面是基于特征的推薦方法,即從知識圖譜中抽取用戶和物品的屬性作為特征放入傳統(tǒng)模型中,引入實體特征;另一方面是基于路徑的推薦方法,即將知識圖譜視為一個異構(gòu)信息網(wǎng)絡(luò),構(gòu)造物品之間的“meta-path(元路徑,即一種實體類型和關(guān)系交替而成的序列)”或“mata-graph(元圖,即一種解決小樣本鏈路預(yù)測問題的方法)”的特征。簡言之,“meta-path”是連接兩個實體的一條特定路徑,如“演員→電影→導(dǎo)演→電影→演員”,這條“meta-path”連接兩個演員,可視為一種挖掘演員之間潛在關(guān)系的方式,這個方法直觀地利用了知識圖譜的網(wǎng)絡(luò)結(jié)構(gòu)。
知識圖譜算法憑借對讀者閱讀趨向的精準(zhǔn)把握,為平臺將讀者閱讀需求融入“推薦池”提供支撐?;诖耍脚_可根據(jù)讀者用戶畫像適配情況及其權(quán)重配比,加大與個人用戶界面關(guān)聯(lián)度較大的信息推薦力度,從而大大提升閱讀資源推送的主動性與精準(zhǔn)度。顯然,構(gòu)建基于內(nèi)容與算法功能的推薦圖譜,在滿足讀者個性化需求的同時,還能改進(jìn)并完善精準(zhǔn)信息推送主導(dǎo)下的推薦方法,有助于推動智能化知識服務(wù)基于高度個性化的發(fā)展。
4.學(xué)習(xí)導(dǎo)引
鑒于讀者閱讀興趣的多樣化和不確定性,知識圖譜算法必須根據(jù)數(shù)據(jù)捕捉與分析向讀者適時推送,方便讀者“第一眼”即可“巧遇”閱讀資源,而無須撒大網(wǎng)捕小魚式瀏覽。更重要的是,知識圖譜算法有助于讀者“把新獲取的知識與已有的認(rèn)知結(jié)構(gòu)相聯(lián)系”,進(jìn)而自主“建構(gòu)新的認(rèn)知結(jié)構(gòu)和知識體系”[4],促進(jìn)知識學(xué)習(xí)向目標(biāo)精確、過程精細(xì)的智能化方向發(fā)展。這個過程一方面通過對讀者畫像類知識圖譜分析,幫助讀者自動屏蔽無關(guān)內(nèi)容,專注于問題知識,從而有效提高學(xué)習(xí)效率;另一方面通過將讀者畫像與學(xué)科知識圖譜精準(zhǔn)對接,以智能算法助力讀者分析問題,并根據(jù)讀者已有的理解能力推薦新知,從而導(dǎo)引讀者進(jìn)入自適應(yīng)主動學(xué)習(xí)。
三、知識圖譜算法之于出版服務(wù)智能化的驅(qū)動場景
知識圖譜算法為出版服務(wù)智能化帶來了現(xiàn)實機(jī)遇,其驅(qū)動場景應(yīng)用于多個出版環(huán)節(jié)。
1.驅(qū)動主題關(guān)聯(lián),掌握研究熱點
知識圖譜具有強(qiáng)大的信息搜索與知識關(guān)聯(lián)功能。例如,我們可通過智能算法搜索繪制期刊發(fā)文高頻詞聯(lián)絡(luò)圖(見圖1)。根據(jù)圖1可知:圖中紅色大圓代表該類期刊的發(fā)文高頻詞,表明為研究熱點,圓越大代表該詞出現(xiàn)的頻次越高;藍(lán)色字體是高頻共現(xiàn)相關(guān)詞,藍(lán)色由深到淺代表其相關(guān)性由強(qiáng)到弱;中間連線最多的紅色大圓,代表當(dāng)前研究熱點與研究聚焦偏好;邊緣淺藍(lán)小圓代表初起的思維眼點,屬于值得關(guān)注的新動向;聯(lián)絡(luò)網(wǎng)狀線為主題詞(關(guān)鍵詞)間的關(guān)聯(lián)關(guān)系,屬于縱橫關(guān)聯(lián)展示,既為主題研究擴(kuò)域,也為選題思路溯源。
雖然此圖只是粗淺的知識關(guān)聯(lián)圖,但深度融入知識圖譜算法及思維模式,經(jīng)由智能搜索、聚類、分析、計算找出各類期刊發(fā)文的高頻關(guān)鍵詞和相關(guān)詞,在關(guān)鍵詞互引與主題關(guān)聯(lián)驅(qū)動下繪制主題聯(lián)絡(luò)全景圖,通過探測并關(guān)聯(lián)高頻詞勾畫出主題關(guān)聯(lián)圖。顯然,知識圖譜算法之于出版服務(wù)智能化,首先是通過主題關(guān)聯(lián)驅(qū)動支持出版者掌握研究熱點,把握主題創(chuàng)作方向,并為選題出版提供參考,從而極大提升對出版現(xiàn)象的洞察力和對出版決策的駕馭力。
2.驅(qū)動智能搜索,收集選題素材
在知識圖譜算法支持下,通過智能搜集、整理、提取、關(guān)聯(lián)、分析,各類碎片化資源可組成具有邏輯性的知識線索。如學(xué)術(shù)論壇中所發(fā)布文獻(xiàn)下的相關(guān)討論和回帖,經(jīng)過算法挖掘、分析和整理,可發(fā)掘諸多學(xué)術(shù)研究信息,成為激發(fā)創(chuàng)作靈感的關(guān)鍵素材。根據(jù)讀者用戶畫像了解用戶所需信息,再針對用戶群問題整理成新選題,不僅可滿足受眾對共性問題的解答需求,還可探尋出版題材創(chuàng)新的思路。如出版社根據(jù)知識圖譜算法收集讀者觀后感或?qū)W習(xí)要求,掌握讀者學(xué)習(xí)動態(tài),了解信息反饋動向,審核評論區(qū)的散點語義,發(fā)掘深層次線索,進(jìn)而提取關(guān)鍵主題,為出版選題開發(fā)提供參考。
3.驅(qū)動智能挖掘,捕捉選題線索
基于知識圖譜算法對海量數(shù)據(jù)深層次挖掘的效能,出版社可通過“判斷整體狀況和解析細(xì)微差異”[6],對選題數(shù)據(jù)信息(含相關(guān)隱性元素)進(jìn)行加工組合,以此實現(xiàn)“知識創(chuàng)編”類型的智能出版。在此過程中,借助知識圖譜算法支持的智能挖掘技術(shù),實施以讀者為中心的選題分析與資源擇優(yōu),不僅有利于從眾多異質(zhì)信息中發(fā)掘讀者關(guān)心的信息,捕捉可靠的選題線索,還能精準(zhǔn)把握出版選題方向,快速推出即時融入讀者需求的新型知識產(chǎn)品。
相關(guān)研究表明,知識圖譜算法驅(qū)動下的搜集、挖掘、過濾、聚焦,使得一切可能的新趨勢甚至微弱的新信號皆可提取為有價值的特征信息,為出版選題創(chuàng)新提供更具前瞻性的可行線索,將多源知識以精確的方式呈現(xiàn),并使諸多隱性知識與讀者關(guān)注問題得以顯現(xiàn),從而助力知識創(chuàng)新??梢哉f,知識圖譜算法在“諸如數(shù)據(jù)對比、信息深度整理、知識洞察和特征識別”等出版選題駕馭層面中展現(xiàn)的挖掘與捕捉優(yōu)勢,能為出版選題智能化帶來無限可能。
4.驅(qū)動模式構(gòu)建,賦能出版創(chuàng)新
知識圖譜算法引入因果推理機(jī)制,發(fā)掘不同主題或概念背后的因果關(guān)系,有助于出版社不斷挖掘出版熱點,發(fā)現(xiàn)并實施新的出版選題,進(jìn)而驅(qū)動出版模式的創(chuàng)新構(gòu)建。其中的因果推斷變量與推斷算法,可以發(fā)掘高維數(shù)據(jù)上的隱變量(即未能觀測到或不明顯包含卻可推測的變量),這也是智能化知識服務(wù)的重要能力。知識圖譜算法驅(qū)動構(gòu)建了一個不同知識單元之間具有邏輯因果或邏輯推理關(guān)系的描述性網(wǎng)絡(luò),為探尋資源線索與知識脈絡(luò)提供了清晰的思路與邏輯性支撐,并基于問題求解通過自動識別理解海量數(shù)據(jù),從中挖掘有價值的信息,為知識的組織與生產(chǎn)提供精準(zhǔn)的智能化服務(wù)。
因此,根據(jù)知識圖譜算法探尋熱點或隱性主題,拓展出版選題視野,無疑有助于提升選題的敏感性與前瞻性。出版社可采集海量數(shù)據(jù)構(gòu)建知識圖譜,利用知識圖譜算法實現(xiàn)知識關(guān)聯(lián)的推理、挖掘、分析、聯(lián)想,并從顯性關(guān)系中獲取更多隱性數(shù)據(jù)關(guān)聯(lián),多維度、深層次擴(kuò)展知識譜系,不斷完善以讀者為中心的出版內(nèi)容關(guān)聯(lián)智能化,從而驅(qū)動出版決策調(diào)整與模式創(chuàng)新。
5.驅(qū)動分野走向,提升決策效能
第十九次全國國民閱讀調(diào)查報告顯示,2021年我國成年國民人均每天接觸手機(jī)時長為101.12分鐘,人均每天接觸互聯(lián)網(wǎng)時間為68.42分鐘,而紙質(zhì)閱讀人均每天僅為21.05分鐘[7]??梢?,紙媒接觸只占較小的比例,數(shù)字化閱讀占比持續(xù)居高不下。為此,很多出版選題面臨采用紙質(zhì)出版還是數(shù)字出版的選擇。一般而言,出版方式應(yīng)由選題內(nèi)容的屬性特征與閱讀服務(wù)模式?jīng)Q定,出版方式應(yīng)遵循市場需求的分野標(biāo)準(zhǔn)。因而,對出版方式的選擇關(guān)系到市場細(xì)分、市場挖掘及出版模式的決策。在此情況下,知識圖譜算法依據(jù)出版內(nèi)容與閱讀屬性的特征,構(gòu)建基于出版方式選擇規(guī)則標(biāo)準(zhǔn)化的知識圖譜,對提升出版決策效能具有重要的應(yīng)用價值。
以圖2為例,利用知識圖譜算法推演出版方式擇向的機(jī)理,可以探明出版市場的結(jié)構(gòu)性走向與選擇性規(guī)律:人文經(jīng)典類圖書屬于深閱讀,適合紙質(zhì)出版;教材教輔內(nèi)容基本穩(wěn)定,重印率高,屬被動性課程體系,應(yīng)以紙質(zhì)出版為主;新聞、短知識等屬于淺閱讀,具有即時、動態(tài)、個體、分散性特點,應(yīng)以數(shù)字出版為主。當(dāng)然,這種分野并非一成不變,當(dāng)紙質(zhì)圖書數(shù)量有限時,可用數(shù)字出版加以補(bǔ)充,以滿足更多讀者的個性化需求。隨著時間的推移,當(dāng)個性需求演變成共性需求時,亦可將數(shù)字出版轉(zhuǎn)成紙質(zhì)出版。
四、結(jié)語
知識圖譜算法模仿“人類解決復(fù)雜問題的智慧”,已成為創(chuàng)新性學(xué)習(xí)工具應(yīng)用中不可或缺的要素,它“所變革的不僅是技術(shù)手段,還深入調(diào)整和重構(gòu)知識的傳遞方式、生產(chǎn)方式和組織方式”。一方面,全新的知識服務(wù)智能化成果本身就是一種新興的智能出版物形態(tài);另一方面,以語義搜索、精準(zhǔn)推送、用戶畫像、智能問答、行為預(yù)測、精確分析、決策支持、深度學(xué)習(xí)、數(shù)據(jù)挖掘、推理引擎等系列算法集成為基礎(chǔ)的知識圖譜智能構(gòu)成了知識服務(wù)大腦,促進(jìn)了知識服務(wù)的智能化轉(zhuǎn)型,并使閱讀與出版形成友好互動的良性閉環(huán)。借助知識圖譜算法發(fā)現(xiàn)新知,貼近讀者所需重塑或更新知識,并透過讀者畫像抓住讀者需求,無疑是出版業(yè)值得關(guān)注的發(fā)展方向。
知識圖譜算法于閱讀與出版智能化知識服務(wù)雖然具有無限發(fā)展動能,但也有其局限性:一是好的智能算法要依托于大數(shù)據(jù),而行業(yè)數(shù)據(jù)卻是分割而固封的,極大阻礙了大數(shù)據(jù)環(huán)境的形成;二是本體知識庫的基礎(chǔ)薄弱,不利于智能算法的實現(xiàn),亟須大力加強(qiáng)底層知識庫的構(gòu)建。對出版與閱讀服務(wù)融合而言,相關(guān)智能算法應(yīng)用創(chuàng)新更是任重道遠(yuǎn)。
|參考文獻(xiàn)|
[1]鄧國峰,高安安. 技術(shù)邏輯與價值定位:算法時代網(wǎng)絡(luò)思想政治教育新展望[J]. 思想教育研究,2022(2):30-34.
[2]石庭豪. 解讀知識圖譜在教育智能化中的應(yīng)用(上)[EB/OL]. (2022-05-13)[2022-09-13]. https://
mp.weixin.qq.com/s/G8YPNOPvaNzk0DL_YqU3aw.
[3]石川,孫怡舟,菲利普·俞. 異質(zhì)信息網(wǎng)絡(luò)的研究現(xiàn)狀和未來發(fā)展[J]. 中國計算機(jī)學(xué)會通訊,2017(11):35-40.
[4]余勝泉. 序言[J]. 人工智能,2022(2):2+6.
[5]20張全景大圖帶您縱覽2021年核心期刊發(fā)文主題脈絡(luò)[EB/OL]. (2022-01-20)[2022-09-13].
https://mp.weixin.qq.com/s/ZSX3ghEWM0A5XXwzpFb
V2g.
[6]魏華. 人工智能深度融合思想政治教育的實現(xiàn)路徑[J]. 理論視野,2021(12):70-75.
[7]中國新聞出版研究院全國國民閱讀調(diào)查課題組,魏玉山,徐升國. 第十九次全國國民閱讀調(diào)查主要發(fā)現(xiàn)[J]. 出版發(fā)行研究,2022(5):21-25.