羅 威 田昌海 毛 彬 吳叔義 劉鵬年
(軍事科學(xué)院軍事科學(xué)信息研究中心,北京,100142)
當(dāng)前,全球科技競(jìng)爭(zhēng)日趨激烈,以論文、專利、報(bào)告、動(dòng)態(tài)等為代表的科技信息資源呈爆炸增長(zhǎng)之勢(shì),如何面向科技創(chuàng)新的實(shí)際需求,從海量科技信息資源中挖掘有價(jià)值的情報(bào),依然是科技信息工作的重要內(nèi)容。隨著人工智能技術(shù)的快速發(fā)展,應(yīng)用智能技術(shù)手段,創(chuàng)新科技信息資源開(kāi)發(fā)模式,是科技信息機(jī)構(gòu)迎接挑戰(zhàn)機(jī)遇、創(chuàng)新工作模式、履行職責(zé)使命的必由之路。
聶榮臻元帥曾經(jīng)深刻指出,“科技情報(bào)是科技工作的耳目、尖兵”。在“兩彈一星”研制時(shí)期,科技信息的搜集與服務(wù)是科技情報(bào)工作的主要內(nèi)容。近年來(lái),隨著全球科技競(jìng)爭(zhēng)態(tài)勢(shì)加劇,像美國(guó)這樣科技高度發(fā)達(dá)的國(guó)家,也對(duì)科技信息越發(fā)重視。2017年,美國(guó)政府將科技情報(bào)納入《國(guó)家安全戰(zhàn)略》,指出“幾乎所有的現(xiàn)代武器系統(tǒng)都依賴源于科技情報(bào)的數(shù)據(jù)”[1],確立了科技情報(bào)在國(guó)家安全中的重要地位。2020年,美國(guó)《國(guó)防授權(quán)法》提出“要加大核心領(lǐng)域預(yù)警與風(fēng)險(xiǎn)防范力度”,要求“國(guó)防部搜集所有影響美人工智能研發(fā)的境內(nèi)外開(kāi)源信息,了解對(duì)手、有效應(yīng)對(duì)”[2]。2021年,美國(guó)著名智庫(kù)戰(zhàn)略與國(guó)際問(wèn)題研究中心的報(bào)告指出,“應(yīng)將有關(guān)國(guó)外人工智能系統(tǒng)與科技能力、科技計(jì)劃及科技意圖的情報(bào)作為核心情報(bào)收集任務(wù)”,“收集對(duì)手的技術(shù)和應(yīng)用能力,以及國(guó)外科技部門(mén)創(chuàng)新的可靠信息”[3]。
2020年11月,美國(guó)著名智庫(kù)戰(zhàn)略與預(yù)算評(píng)估中心發(fā)布了《選擇性披露:長(zhǎng)期競(jìng)爭(zhēng)的戰(zhàn)略舉措》報(bào)告[4],對(duì)如何披露國(guó)防相關(guān)信息進(jìn)行了設(shè)計(jì),提出了散布虛假信息以迷惑對(duì)手、隱藏核心信息以確保絕對(duì)優(yōu)勢(shì)等信息披露方式,同時(shí)該機(jī)構(gòu)也承認(rèn)“新能力的隱瞞越來(lái)越富有挑戰(zhàn)性,不僅需要向國(guó)外情報(bào)機(jī)構(gòu)隱瞞,還要向商業(yè)組織、民間機(jī)構(gòu)和軍事愛(ài)好者隱瞞”。從中我們可以看出,科技強(qiáng)國(guó)在國(guó)防相關(guān)科技信息的發(fā)布方面正越來(lái)越謹(jǐn)慎,我們搜集國(guó)外科技信息面臨的環(huán)境也越來(lái)越復(fù)雜,既非簡(jiǎn)單的信息封鎖,也非單純的信息欺騙。在這種環(huán)境下,科技信息工作的重要性凸顯。試想如果所有的科技信息都可以方便地從國(guó)外網(wǎng)站或?qū)I(yè)數(shù)據(jù)庫(kù)獲取,那科技信息從業(yè)人員就只能做“搬運(yùn)工”了。正是因?yàn)榭萍夹畔h(huán)境的復(fù)雜性,才需要廣大從業(yè)者利用自身的專業(yè)素養(yǎng),去廣泛搜集、深入萃取高價(jià)值科技信息資源,做到去粗取精、去偽存真,還原事物的原貌。
當(dāng)前,以大模型為代表的人工智能技術(shù)發(fā)展迅速,基本是以月為周期迭代推進(jìn)。大模型在文本處理、圖像標(biāo)注、代碼生成等很多方面都取得了成功應(yīng)用,對(duì)相關(guān)行業(yè)發(fā)展產(chǎn)生了巨大影響。科技信息工作本身就具備數(shù)據(jù)密集型特征,需要開(kāi)展大量的信息標(biāo)注、挖掘和服務(wù)工作。應(yīng)用生成式人工智能技術(shù),不僅可通過(guò)問(wèn)答方式提升科技信息服務(wù)的效果,而且可在少樣本甚至零樣本的場(chǎng)景下,實(shí)現(xiàn)信息資源的序化組織和內(nèi)容揭示,大幅提升科技信息資源建設(shè)開(kāi)發(fā)效能。同時(shí),對(duì)高質(zhì)量科技信息資源進(jìn)行格式轉(zhuǎn)換、篩選去重等操作,可將其作為語(yǔ)料庫(kù)用于大模型繼續(xù)預(yù)訓(xùn)練與微調(diào),實(shí)現(xiàn)領(lǐng)域知識(shí)嵌入,提升大模型在科技領(lǐng)域的推理應(yīng)用效果。
近年來(lái),筆者所在單位緊密結(jié)合使命任務(wù),深度應(yīng)用人工智能技術(shù)對(duì)科技信息資源進(jìn)行價(jià)值挖掘與服務(wù)應(yīng)用,取得了一些初步成效,總結(jié)起來(lái)主要包括碎片化萃取、多模態(tài)關(guān)聯(lián)、知識(shí)化積累、敏捷化服務(wù)、模型化嵌入、工具化賦能等六個(gè)方面的工作,如圖1所示。
傳統(tǒng)信息處理與服務(wù)的基本單元是篇,如搜索一篇報(bào)告或一篇論文,但在實(shí)際需求場(chǎng)景中,這樣的粒度有時(shí)顯得過(guò)于粗放,不易于制定搜索策略。比如,要搜集專家關(guān)于人工智能安全的言論,就難以通過(guò)構(gòu)造檢索策略來(lái)查找相關(guān)信息,因?yàn)檠哉摰乃阉餍枨笤谝云獮閱卧男畔⒓现泻茈y表達(dá)。這就需要根據(jù)一些常見(jiàn)的信息搜集需求,對(duì)以篇為組織單位的基礎(chǔ)信息資源進(jìn)行碎片化萃取,開(kāi)發(fā)預(yù)置性數(shù)據(jù)產(chǎn)品。有了一批這樣的數(shù)據(jù)產(chǎn)品,用戶再搜集相關(guān)信息時(shí),只需要針對(duì)特定的數(shù)據(jù)產(chǎn)品進(jìn)行搜索即可。
碎片化萃取的關(guān)鍵是實(shí)現(xiàn)數(shù)據(jù)產(chǎn)品的設(shè)計(jì)與人機(jī)協(xié)同開(kāi)發(fā)。具體來(lái)說(shuō),一要研究信息需求,確定預(yù)置性開(kāi)發(fā)什么碎片化數(shù)據(jù)產(chǎn)品,如從每日采集的動(dòng)態(tài)和報(bào)告中提取形成言論觀點(diǎn)、能力描述、應(yīng)用場(chǎng)景等數(shù)據(jù)產(chǎn)品。二要研究信息組織方式,確定碎片化信息的標(biāo)注維度及相應(yīng)的標(biāo)簽體系,如從技術(shù)域、作戰(zhàn)域、軍事行動(dòng)線、裝備采辦線等維度對(duì)碎片化信息進(jìn)行標(biāo)注,技術(shù)域又可細(xì)分為生物技術(shù)、量子科學(xué)、先進(jìn)材料、人工智能等。三要研究人機(jī)協(xié)同的開(kāi)發(fā)流程,采用智能技術(shù)手段對(duì)科技信息進(jìn)行挖掘標(biāo)注的結(jié)果,還需要以人工方式進(jìn)行質(zhì)量檢查和調(diào)整優(yōu)化,這樣一方面可提升數(shù)據(jù)產(chǎn)品質(zhì)量,另一方面形成的過(guò)程數(shù)據(jù)可作為訓(xùn)練樣本庫(kù),為進(jìn)一步優(yōu)化智能標(biāo)注的效果提供集成支撐。
我們開(kāi)發(fā)了能力描述集數(shù)據(jù)產(chǎn)品,主要是從動(dòng)態(tài)和報(bào)告中抽取表征前沿技術(shù)最新能力進(jìn)展的片段信息,并從技術(shù)領(lǐng)域、能力項(xiàng)等角度進(jìn)行標(biāo)注,從而較為系統(tǒng)、深入地積累前沿技術(shù)進(jìn)展情況,為開(kāi)展戰(zhàn)略與情報(bào)研究提供高質(zhì)量數(shù)據(jù)支撐。能力描述集的構(gòu)建流程與效果示例如圖2所示。
圖2 能力描述集的構(gòu)建流程與效果示例
除了文本型信息資源以外,圖片、視音頻等多媒體信息中也蘊(yùn)含大量有價(jià)值的科技情報(bào),可形成對(duì)文本型信息資源的有效補(bǔ)充。對(duì)多模態(tài)信息進(jìn)行挖掘與關(guān)聯(lián)分析,有助于更為全面地掃描發(fā)現(xiàn)情報(bào)線索并對(duì)其進(jìn)行交叉驗(yàn)證,是當(dāng)前科技信息資源智能挖掘服務(wù)的重要任務(wù)。
多模態(tài)關(guān)聯(lián)的關(guān)鍵是做好計(jì)算機(jī)視覺(jué)等先進(jìn)技術(shù)的領(lǐng)域適應(yīng)性應(yīng)用。圖像識(shí)別、語(yǔ)音識(shí)別、多模態(tài)大模型等相關(guān)技術(shù)發(fā)展很快,開(kāi)源工具層出不窮,應(yīng)該緊跟最新技術(shù)進(jìn)展,圍繞科技信息業(yè)務(wù)需求開(kāi)展針對(duì)性應(yīng)用。一是實(shí)現(xiàn)序化整理,從海量科技信息中及時(shí)發(fā)現(xiàn)有價(jià)值的多模態(tài)信息,并對(duì)其進(jìn)行元數(shù)據(jù)標(biāo)注、分類、OCR識(shí)別、語(yǔ)音識(shí)別等加工處理。二是實(shí)現(xiàn)語(yǔ)義標(biāo)注,從多模態(tài)信息中標(biāo)注重點(diǎn)人物、裝備等實(shí)體,以及發(fā)現(xiàn)架構(gòu)圖、場(chǎng)景圖、概念圖等情報(bào)線索。三是實(shí)現(xiàn)跨模態(tài)服務(wù),將文本、圖片、視音頻信息映射到同一語(yǔ)義空間,可實(shí)現(xiàn)跨模態(tài)信息搜索;對(duì)不同模態(tài)信息中的相同實(shí)體進(jìn)行對(duì)齊和信息匯聚,可實(shí)現(xiàn)跨模態(tài)情報(bào)對(duì)象關(guān)聯(lián)分析。
我們針對(duì)研討會(huì)類視頻信息跟蹤與研究需求,開(kāi)發(fā)了研討會(huì)視頻信息挖掘工具,實(shí)現(xiàn)了演講文稿識(shí)別與還原、演講語(yǔ)音識(shí)別與轉(zhuǎn)寫(xiě)、文本內(nèi)容識(shí)別與提取等功能,并針對(duì)系列前沿科技研討會(huì)視頻進(jìn)行了挖掘處理,為深入跟蹤國(guó)外前沿技術(shù)進(jìn)展提供了高質(zhì)量信息支撐。研討會(huì)視頻信息挖掘流程及效果示例如圖3所示。
圖3 研討會(huì)視頻信息挖掘流程及效果示例
科技情報(bào)研究是知識(shí)密集型活動(dòng),需要進(jìn)行大量的知識(shí)交流與傳遞,因此,科技信息機(jī)構(gòu)內(nèi)部的知識(shí)管理非常重要。項(xiàng)目、機(jī)構(gòu)、人員、技術(shù)、裝備等是科技情報(bào)研究的主要對(duì)象,但其信息來(lái)源分散,利用效率低。例如,要對(duì)美國(guó)DARPA的某項(xiàng)目進(jìn)行跟蹤研究,需要通過(guò)DARPA官方網(wǎng)站獲取項(xiàng)目研究目標(biāo)、研究?jī)?nèi)容等基本信息,通過(guò)預(yù)算網(wǎng)站獲取其經(jīng)費(fèi)預(yù)算及年度計(jì)劃安排的信息,通過(guò)合同網(wǎng)站獲取其合同簽訂情況,通過(guò)國(guó)防承包商網(wǎng)站獲取其最新動(dòng)態(tài),通過(guò)科技文獻(xiàn)數(shù)據(jù)庫(kù)獲取其研究成果信息。將相關(guān)信息進(jìn)行系統(tǒng)性匯聚、知識(shí)化積累,可極大提高信息利用與知識(shí)傳遞效率。
知識(shí)化積累的關(guān)鍵是形成常態(tài)化、規(guī)范化業(yè)務(wù)流程,提升領(lǐng)域知識(shí)的覆蓋率、準(zhǔn)確性和鮮活度。一是知識(shí)線索發(fā)現(xiàn)。從每日動(dòng)態(tài)、報(bào)告中掃描發(fā)現(xiàn)高價(jià)值情報(bào)對(duì)象,作為知識(shí)化積累的輸入。二是知識(shí)協(xié)同更新。設(shè)計(jì)不同類型情報(bào)對(duì)象的知識(shí)維度及知識(shí)加工要求,組建知識(shí)加工隊(duì)伍,采用人機(jī)協(xié)同方式,從多個(gè)高質(zhì)量信息源搜集匯聚關(guān)于情報(bào)對(duì)象的相關(guān)信息,并進(jìn)行信息匯聚與整編工作。三是知識(shí)庫(kù)構(gòu)建。圍繞不同應(yīng)用需求,構(gòu)建領(lǐng)域知識(shí)庫(kù)與知識(shí)圖譜,其中知識(shí)庫(kù)主要面向用戶共享傳遞知識(shí),可采用百科平臺(tái)構(gòu)建,知識(shí)圖譜面向計(jì)算機(jī)推理應(yīng)用,從知識(shí)庫(kù)中抽取、融合形成。
我們通過(guò)不斷實(shí)踐探索與迭代優(yōu)化,形成了國(guó)防科技基本情況積累流程(如圖4所示),每日常態(tài)化開(kāi)展情報(bào)對(duì)象發(fā)現(xiàn)、信息素材搜集與匯聚、知識(shí)整編、知識(shí)審核等工作,構(gòu)建了國(guó)防科技情報(bào)對(duì)象基本情況庫(kù),目前已經(jīng)積累了項(xiàng)目、機(jī)構(gòu)、人員、技術(shù)、活動(dòng)等情報(bào)對(duì)象1.6萬(wàn)個(gè),為各類用戶系統(tǒng)了解情報(bào)對(duì)象基本情況提供了高質(zhì)量知識(shí)支撐。
圖4 國(guó)防科技基本情況積累流程及效果示意
科技信息工作中經(jīng)常會(huì)遇到一些時(shí)間要求緊、質(zhì)量要求高的應(yīng)急性研究任務(wù),一般需要對(duì)熱點(diǎn)事件或用戶指定主題進(jìn)行快速信息匯聚、挖掘分析與推送服務(wù)。為了做好此類工作,需要形成科技信息敏捷化服務(wù)能力。具體來(lái)說(shuō),在開(kāi)展常態(tài)化信息跟蹤與匯聚過(guò)程中,預(yù)置性開(kāi)展多維度標(biāo)注;在執(zhí)行應(yīng)急性研究任務(wù)時(shí),使用多維度標(biāo)簽精準(zhǔn)框選相關(guān)信息,當(dāng)預(yù)置性標(biāo)簽不能滿足挖掘分析需求時(shí),快速開(kāi)展信息標(biāo)注和挖掘分析等工作,以提升響應(yīng)速度與成果質(zhì)量。
敏捷化服務(wù)的關(guān)鍵是實(shí)現(xiàn)信息資源的按需標(biāo)注和挖掘分析能力。一是快速開(kāi)展問(wèn)題解耦,即從各渠道應(yīng)急性研究任務(wù)實(shí)踐中梳理常見(jiàn)的任務(wù)類型,總結(jié)凝練研究問(wèn)題解耦方法與信息挖掘流程。二是快速標(biāo)注篩選信息,即搭建訓(xùn)練樣本標(biāo)注平臺(tái),開(kāi)發(fā)信息分類、要素抽取等通用標(biāo)注模型,構(gòu)建模型訓(xùn)練、測(cè)試、部署、調(diào)優(yōu)的工程環(huán)境,使得針對(duì)新的信息挖掘需求,可快速標(biāo)注訓(xùn)練樣本、開(kāi)發(fā)標(biāo)注模型、部署應(yīng)用接口,支撐人機(jī)協(xié)同的信息快速標(biāo)注和篩選。三是快速實(shí)現(xiàn)信息服務(wù),即采用信息分析圖表、地理信息系統(tǒng)、專題服務(wù)門(mén)戶等方式,快速整合多來(lái)源、多粒度專題信息資源,面向用戶提供高質(zhì)量信息服務(wù)。
我們?cè)O(shè)計(jì)了敏捷化專題信息服務(wù)流程,開(kāi)發(fā)了信息敏捷標(biāo)注與可視化展示系列工具,在系列專題研究中發(fā)揮了較好的支撐作用。以前沿技術(shù)布局事件挖掘?yàn)槔?開(kāi)展了知識(shí)架構(gòu)設(shè)計(jì)、訓(xùn)練樣本快速標(biāo)注、事件細(xì)粒度分類、事件要素抽取與歸一、人機(jī)協(xié)同的數(shù)據(jù)構(gòu)建、可視化頁(yè)面開(kāi)發(fā)等工作,如圖5所示。
圖5 前沿技術(shù)布局事件挖掘流程圖
大模型訓(xùn)練過(guò)程本質(zhì)上是一種信息壓縮,即將海量高質(zhì)量信息壓縮成神經(jīng)網(wǎng)絡(luò)的參數(shù),實(shí)現(xiàn)推理能力的躍升。科技信息資源規(guī)模巨大、類型多樣,具備應(yīng)用大模型的天然優(yōu)勢(shì)。將海量高質(zhì)量科技信息資源作為基礎(chǔ)語(yǔ)料用于大模型的預(yù)訓(xùn)練,再圍繞序化組織、挖掘分析、智能服務(wù)等需求構(gòu)建問(wèn)答數(shù)據(jù)集,對(duì)大模型進(jìn)行微調(diào),可形成科技信息領(lǐng)域大模型,對(duì)科技信息資源的建設(shè)、開(kāi)發(fā)與服務(wù)全鏈條進(jìn)行業(yè)務(wù)賦能。
模型化嵌入的關(guān)鍵問(wèn)題是圍繞業(yè)務(wù)需求實(shí)現(xiàn)高質(zhì)量領(lǐng)域大模型訓(xùn)練與應(yīng)用。一是解決信息時(shí)效性問(wèn)題??萍夹畔⒎?wù)的時(shí)效性要求高,僅采用訓(xùn)練的方式將信息注入大模型顯然不能滿足時(shí)效性要求,一般可采用外掛信息庫(kù)的方式實(shí)現(xiàn)大模型能力與信息搜索能力的集成,這就要提升對(duì)用戶提問(wèn)的理解能力和科技信息搜索的精準(zhǔn)度。二是減輕幻覺(jué)問(wèn)題。大模型有的時(shí)候會(huì)“一本正經(jīng)”地“胡說(shuō)八道”,目前這個(gè)問(wèn)題不能完全根除,但可以通過(guò)提高訓(xùn)練樣本質(zhì)量、外掛信息庫(kù)、開(kāi)展幻覺(jué)檢測(cè)等方式,減輕幻覺(jué)發(fā)生的頻率、降低產(chǎn)生的影響。三是提升解決復(fù)雜問(wèn)題的能力。有的科技信息需求比較復(fù)雜,無(wú)法通過(guò)一個(gè)提問(wèn)表達(dá)清楚,需要分解成若干小的問(wèn)題逐個(gè)提問(wèn),再對(duì)答案進(jìn)行綜合,這就需要分析常見(jiàn)的復(fù)雜問(wèn)題樣式,構(gòu)造解耦模板庫(kù),并提升大模型的融合生成能力。
我們圍繞賦能科研創(chuàng)新的需求,依托在科技信息資源建設(shè)、業(yè)務(wù)場(chǎng)景需求理解、領(lǐng)域大數(shù)據(jù)技術(shù)研發(fā)等方面的長(zhǎng)期積累,開(kāi)展了領(lǐng)域大模型研發(fā)與應(yīng)用工作,探索了科技信息資源服務(wù)的新范式,基本思路如圖6所示。
圖6 領(lǐng)域大模型研發(fā)與應(yīng)用思路
科技信息資源服務(wù)的目標(biāo)是響應(yīng)用戶的多樣化信息需求。在實(shí)際服務(wù)過(guò)程中,只依靠傳統(tǒng)的信息檢索與推薦服務(wù)方式,經(jīng)常不能滿足用戶的個(gè)性化、精準(zhǔn)化信息需求,這就需要采用軟件與信息相組合的方式優(yōu)化服務(wù)效果。由于業(yè)務(wù)場(chǎng)景的復(fù)雜性,開(kāi)發(fā)大系統(tǒng)往往成本高、周期長(zhǎng)、風(fēng)險(xiǎn)大。面向特定的業(yè)務(wù)環(huán)節(jié)開(kāi)發(fā)系列小工具進(jìn)行賦能,并根據(jù)應(yīng)用情況不斷迭代優(yōu)化,往往能夠事半功倍。也就是說(shuō),信息資源服務(wù)不再是信息本身的服務(wù),還包括針對(duì)用戶共性需求、通過(guò)挖掘信息價(jià)值形成的系列工具應(yīng)用。
工具化賦能的關(guān)鍵是實(shí)現(xiàn)信息、技術(shù)與業(yè)務(wù)需求的有效融合。一要明確賦能點(diǎn),以情報(bào)研究為例,要結(jié)合技術(shù)成熟度和業(yè)務(wù)需求迫切性,梳理出哪些環(huán)節(jié)可以開(kāi)展數(shù)智賦能、具體怎么賦能。由于情報(bào)研究專家往往不了解技術(shù)能干什么,技術(shù)專家也不清楚情報(bào)研究的工作模式是什么,因此需要這兩方面的人員共同探討,特別是技術(shù)專家要深入?yún)⑴c情報(bào)研究重點(diǎn)任務(wù),主動(dòng)了解需求、思謀設(shè)計(jì)。二要筑牢工具底座求,在實(shí)踐過(guò)程中,工具的數(shù)量會(huì)越來(lái)越多,要構(gòu)建開(kāi)放的工具底座,統(tǒng)一技術(shù)體制和開(kāi)發(fā)要求,實(shí)現(xiàn)基礎(chǔ)數(shù)據(jù)、關(guān)鍵服務(wù)、安全認(rèn)證等共享共用,這樣既可提高開(kāi)發(fā)效率,又可為下步系統(tǒng)集成奠定基礎(chǔ)。三要建立迭代優(yōu)化機(jī)制,工具應(yīng)用需要與業(yè)務(wù)場(chǎng)景不斷磨合,先形成基本型,根據(jù)用戶的使用情況不斷明確業(yè)務(wù)需求,優(yōu)化功能設(shè)計(jì),再快速迭代形成新的版本,不斷優(yōu)化完善。
我們圍繞賦能情報(bào)研究和戰(zhàn)略研究工作,對(duì)動(dòng)態(tài)跟蹤、專題研究、產(chǎn)品整編、知識(shí)積累等業(yè)務(wù)的關(guān)鍵環(huán)節(jié)進(jìn)行建模,應(yīng)用人工智能技術(shù)挖掘科技信息資源價(jià)值,開(kāi)發(fā)了國(guó)防科技情報(bào)研究工具箱,包括掃描監(jiān)測(cè)類、線索發(fā)現(xiàn)類、情報(bào)整編類、目標(biāo)畫(huà)像類等8大類、30余個(gè)工具,目前已在一批研究課題中發(fā)揮了重要支撐作用。國(guó)防科技情報(bào)研究工具箱設(shè)計(jì)思路如圖7所示。
圖7 國(guó)防科技情報(bào)研究工具箱設(shè)計(jì)思路
科技信息資源智能挖掘服務(wù)是對(duì)科技信息資源、人工智能技術(shù)和業(yè)務(wù)需求響應(yīng)的有機(jī)融合,沒(méi)有成熟的模式可遵循,需要我們?cè)趯?shí)踐中大膽嘗試,及時(shí)總結(jié)模式規(guī)律,持續(xù)提升能力水平。
科技信息資源建設(shè)與開(kāi)發(fā)其實(shí)是一個(gè)信息萃取轉(zhuǎn)換的過(guò)程, 打通“大數(shù)據(jù)-小數(shù)據(jù)-語(yǔ)料庫(kù)”的信息萃取轉(zhuǎn)換鏈路,是科技信息資源智能挖掘服務(wù)要解決的核心問(wèn)題。
首先,要將分散的信息匯聚成科技信息大數(shù)據(jù)。這是傳統(tǒng)信息資源建設(shè)工作的主要內(nèi)容,涉及對(duì)科技信息進(jìn)行多來(lái)源搜集、標(biāo)準(zhǔn)化加工和體系化集成。在此過(guò)程中,人工智能技術(shù)可用于發(fā)現(xiàn)高價(jià)值信息源、對(duì)信息進(jìn)行多維度標(biāo)注、對(duì)信息集合進(jìn)行關(guān)聯(lián)對(duì)齊等。
其次,要從科技信息大數(shù)據(jù)中萃取系列“小數(shù)據(jù)”。在科技信息大數(shù)據(jù)中,對(duì)特定用戶或用戶群有價(jià)值的往往是很小的一部分,如何從中進(jìn)行高效信息萃取、開(kāi)發(fā)數(shù)據(jù)產(chǎn)品,是當(dāng)前科技信息資源開(kāi)發(fā)需要解決的首要問(wèn)題。需要緊貼用戶需求進(jìn)行數(shù)據(jù)產(chǎn)品設(shè)計(jì),應(yīng)用人工智能技術(shù),人機(jī)協(xié)同開(kāi)展數(shù)據(jù)產(chǎn)品增值開(kāi)發(fā),形成多樣化、多層次特色數(shù)據(jù)產(chǎn)品體系。
再次,要針對(duì)領(lǐng)域大模型構(gòu)建與應(yīng)用開(kāi)發(fā)科技信息語(yǔ)料庫(kù)。作為語(yǔ)料注入大模型或作為大模型外掛信息庫(kù),是未來(lái)科技信息資源發(fā)揮作用的重要形式。要兼顧傳統(tǒng)信息資源服務(wù)和語(yǔ)料開(kāi)發(fā)需求,建立一體化的科技信息資源加工作業(yè)流程,實(shí)現(xiàn)科技信息語(yǔ)料的按需轉(zhuǎn)換,即從信息資源池中轉(zhuǎn)換形成基礎(chǔ)語(yǔ)料,從數(shù)據(jù)產(chǎn)品中轉(zhuǎn)換形成微調(diào)語(yǔ)料,實(shí)現(xiàn)高質(zhì)量、多樣化語(yǔ)料的持續(xù)、穩(wěn)定供給。
開(kāi)展科技信息資源智能挖掘服務(wù),人工智能技術(shù)的應(yīng)用必不可少,但我們也要看到在很多業(yè)務(wù)場(chǎng)景中,人工智能技術(shù)的成熟度與應(yīng)用效果還不能達(dá)到要求,必須人機(jī)協(xié)同開(kāi)展相關(guān)工作。
首先,要充分利用人工智能技術(shù)最新成果。在應(yīng)用過(guò)程中,要注重技術(shù)的適用性、可靠性和先進(jìn)性。其中,適用性為第一原則,要求我們對(duì)業(yè)務(wù)需求和具體人工智能技術(shù)有深入的理解;可靠性則要求我們實(shí)際測(cè)試技術(shù)應(yīng)用的效果,確保能真正地提能增效。
其次,要注重發(fā)揮人的作用。人工智能技術(shù)應(yīng)用只是提高人的工作效率,并不能代替人,在科技信息智能挖掘服務(wù)過(guò)程中,需要由人來(lái)設(shè)計(jì)數(shù)據(jù)產(chǎn)品、標(biāo)注訓(xùn)練樣本、優(yōu)化數(shù)據(jù)質(zhì)量、設(shè)計(jì)大模型提示語(yǔ)等,對(duì)科技信息從業(yè)人員的能力素養(yǎng)提出了更高要求。
再次,要構(gòu)建數(shù)據(jù)產(chǎn)品生產(chǎn)線。要設(shè)計(jì)人機(jī)協(xié)同的信息增值開(kāi)發(fā)的業(yè)務(wù)流程,明確人做什么,機(jī)器做什么,各環(huán)節(jié)之間如何交互;要強(qiáng)化軟件支撐,構(gòu)建平臺(tái)工具,對(duì)業(yè)務(wù)流程進(jìn)行固化,對(duì)關(guān)鍵環(huán)節(jié)進(jìn)行賦能;在實(shí)踐過(guò)程中要不斷磨合,對(duì)業(yè)務(wù)流程和軟件進(jìn)行優(yōu)化完善,形成可用、高效的數(shù)據(jù)產(chǎn)品生產(chǎn)線。
科技信息資源智能挖掘服務(wù)的落腳點(diǎn)是服務(wù),要求我們緊密?chē)@用戶需求,設(shè)計(jì)并持續(xù)優(yōu)化服務(wù)應(yīng)用。
首先,要形成立體化信息服務(wù)體系。根據(jù)科技信息資源特點(diǎn)和用戶需求,除了做好集成海量信息資源的門(mén)戶服務(wù)、萃取信息價(jià)值的數(shù)據(jù)產(chǎn)品服務(wù)外,還要圍繞科技信息資源深度融入業(yè)務(wù)場(chǎng)景、切實(shí)開(kāi)展業(yè)務(wù)賦能創(chuàng)新思路舉措,大膽嘗試模型、工具、接口等服務(wù)形式,發(fā)揮綜合服務(wù)效益。
其次,要形成敏捷服務(wù)能力。用戶的需求千變?nèi)f化,預(yù)置性服務(wù)形式往往不能滿足要求,因此要打造敏捷服務(wù)能力。具體來(lái)說(shuō),要形成敏捷性信息搜集與挖掘能力,實(shí)現(xiàn)自動(dòng)標(biāo)注模型的快速開(kāi)發(fā)與部署;要針對(duì)重點(diǎn)任務(wù)開(kāi)展伴隨式信息保障,通過(guò)“工具+數(shù)據(jù)產(chǎn)品”方式與用戶進(jìn)行迭代交互,不斷優(yōu)化信息服務(wù)效果。