曹樹金 曹茹燁
關鍵詞: ChatGPT; 生成式AI; 情報學研究; 情報實踐
DOI:10.3969/j.issn.1008-0821.2023.04.001
〔中圖分類號〕G250.2 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 04-0003-08
人工智能(Artificial Intelligence, AI)技術的迅速演進, 不斷重塑著人們的思維與認知, 變革著傳統(tǒng)的產業(yè)形態(tài)。2022 年11 月, OpenAI 發(fā)布了對話式大型語言模型ChatGPT, 引燃了新一輪的AI 革命, 引領決策式AI 向生成式AI 的范式轉變。當ChatGPT 對搜索引擎、內容創(chuàng)作以及數實共生助力產業(yè)升級等領域產生沖擊的同時, 無疑也為思考人工智能對情報學的影響提供了極好的條件。近年來,情報學與人工智能深度融合、互聯互動, 人工智能尤其是決策式AI 為情報需求感知與識別、情報分析、情報預測、信息組織、知識發(fā)現等各類任務注入了智慧動能[1-3] 。人工智能的各子領域(如自然語言處理、人機交互、專家系統(tǒng)等)都以研究方法或技術手段的形式助力情報學研究范式的演進[4-5] ,豐富情報學研究內容??梢灶A見, 生成式AI 的發(fā)展將會給情報學研究與實踐帶來更大的變革, 實現從輔助判別決策到情報自動生成, 驅動情報學的學科理論、情報機構的業(yè)務模式發(fā)生極大變化。
根據Gartner[6] 的定義, 生成式AI 是指利用各種機器學習方法, 從數據中學習對象的特征, 從而生成全新的、完全原創(chuàng)的并且與原始數據相似的產品、任務或內容。相較于側重分析、判斷的決策式AI, 生成式AI 強調學習后的演繹創(chuàng)造, 以生成全新的內容。ChatGPT 是生成式AI 的典型代表, 能夠實現文本和代碼等內容生成、問答系統(tǒng)、對話代理、機器翻譯等多種功能。有專家指出, ChatGPT在某種程度上標志著人工智能向認知智能的邁進[7] , 使機器具備語言理解、推理、自我學習的能力, 擁有人類的智慧。而情報學的目標任務則是促進人類認知過程從數據到智慧的轉化[8] 。從這一層面來看, 人工智能的發(fā)展進程與情報學的目標任務具有較高的一致性。因此, 情報學也不可避免地會卷入AI 變革的浪潮中, 而以ChatGPT 為代表的生成式AI 的爆發(fā), 勢必會影響情報學的研究理路、理論要素、技術方法等。
在此背景下, 深入探討生成式AI驅動下的情報學研究與實踐走向, 重新審視情報學與新一代人工智能的交叉融合, 對情報學的持續(xù)發(fā)展具有重要意義。
1 人工智能視域下的情報學發(fā)展相關研究
近年來, 隨著人工智能技術的快速變革, 情報學學科發(fā)展問題受到學界的廣泛關注和討論。陸偉等[4] 提出, 人工智能改變了DIKW(數據—信息—知識—智慧)信息鏈逐級升華的情報產生模式, 可以對信息鏈中的任一環(huán)節(jié)進行深度分析挖掘情報,數智時代情報學要構建信息資源數據化、方法智能化、創(chuàng)新服務工程化的發(fā)展架構。劉永君等[9] 提出, 人工智能的不確定性科學方法論對情報學具有很好的解釋力, 可將其引入情報學領域, 構建統(tǒng)一的情報概念, 推動情報學科整合, 并借助人工智能發(fā)展情報技術。丁波濤[10] 從情報交流理論的視角,分析了人工智能對情報學學科發(fā)展以及對情報工作的影響, 提出在人工智能環(huán)境下, 情報內容呈現多元化, 情報交流主體虛擬化, 在此背景下, 情報工作要注重情報分析的回歸、情報工程化, 以及提升開源情報的重要性。也有學者從人工智能與情報學的互動角度, 展望情報學未來發(fā)展。比如, 胡昌平等[11] 認為, 大數據智能技術可應用于情報服務與信息組織中, 而情報學關于知識結構的描述、用戶認知空間的構建也是智能識別中不可或缺的, 情報學與人工智能的深度融合是必要的。曹文振等[1]從本體論、感知論、方法論和服務論4 個視角對人工智能時代情報學的發(fā)展走向進行了討論, 指出情報學發(fā)展要緊抓人工智能帶來的機遇, 重視跨學科融合和跨領域應用, 但讓技術為己所用的同時不能忽視人的邏輯思辨與價值判斷。
從人工智能對情報實踐與情報工作的影響來看, 司湘云等[12] 表示, 人工智能技術會使得情報研判、預測的工作重點由描述轉向預測, 由對顯性結果的分析轉向潛在知識關聯的挖掘。栗琳等[13]認為, 數智技術會改變情報流程中從情報收集、分析到分發(fā)的所有環(huán)節(jié), 而人工智能在數據到決策的轉化中會發(fā)揮重要作用。許鑫等[14] 認為, 在人工智能技術的支持下, 情報服務不再局限于淺層次的信息整合, 而是轉向基于知識和智慧的決策預判。
關于人工智能對情報學研究的影響, 邱均平等[15] 從網絡計量學研究方面進行了討論, 表示以人工智能為標志的高密集數據處理將會成為網絡計量學的新研究范式, 且AI 技術會帶動網絡信息資源評價指標向智能化和自動化演進。耿國桐等[16]針對如何實現人工智能技術與科技情報研究的深度融合展開了討論, 具體從科技情報研究的數據源、研究流程及多類型科技情報研究任務的智能化路徑進行了分析。范昊等[17] 回顧了人工智能領域的機器學習算法在情報學研究中的應用, 發(fā)現其主要分布在信息分析、知識服務、信息計量等子領域, 并指出機器學習的應用與情報學研究的發(fā)展歷程緊密相連。可見, 人工智能正在不斷革新情報學研究方法, 拓展情報學研究范疇。
現有研究深入討論了人工智能對情報學各方面的影響, 然而人工智能的發(fā)展具有階段性, 技術躍遷對專業(yè)領域的影響程度、影響范圍是不斷變化的。已有研究更多地聚焦于人工智能在情報分析、判別、預測、決策中發(fā)揮的作用, 而目前由Chat?GPT 引發(fā)的生成式AI 是一種新的人工智能范式,這又會對情報學產生何種影響, 它如何融入情報學的研究與實踐, 以及情報學在新一代人工智能的沖擊下如何發(fā)揮學科優(yōu)勢, 保持學科的獨立地位, 值得進一步深思。
2生成式AI對情報學研究的影響
情報實踐中應該很快就會應用生成式AI,應用的范圍和推進的速度既取決于生成式AI 的發(fā)展,也受情報學相關研究的影響。如果不想理論落后于實踐, 情報學研究人員就需要及時作出響應, 思考此類AI 技術變革可能給情報學帶來的變化, 以及未來情報學研究的側重問題。目前, 學者們已廣泛討論了大數據、人工智能等信息技術對情報學研究的影響, 討論視角呈現多元化, 比如從研究問題、數據來源、研究范式、方法與工具、研究過程等不同角度切入進行思考[18-20] 。結合現有研究視角與生成式AI 的特點及其可能對情報學產生影響的范圍, 本文主要從研究問題、數據源、研究范式3 個維度進行討論。
2.1研究問題的轉移
問題是科學研究的靈魂。梁戰(zhàn)平[21] 曾提出,情報學的核心研究領域包括6 個方面: 理論方法、信息管理和服務、情報分析、信息檢索、知識管理、信息技術應用。在每個領域下包含若干個研究問題, 這些問題隨著社會發(fā)展、學科演進和技術的變遷不斷延伸。以ChatGPT 為代表的生成式AI 會使情報學原有的一些研究問題發(fā)生轉移, 衍生新的問題。從理論方法領域來看, 其一, ChatGPT 改變了知識的生產方式, 也將改變用戶獲取知識和情報的方式, 這預示著情報現象的變化, 如信息守門人問題更加突出; 其二, ChatGPT 可貫穿信息采集、組織、存儲、分析、交互和服務的情報工作全流程, 從而影響情報過程; 其三, ChatGPT 會改變信息生態(tài)鏈的結構, 打破信息流轉固有的鏈式依存關系, 同時也使得信息生態(tài)因子的內涵和外延更加豐富, 由此帶來新的信息生態(tài)問題; 其四, 生成式AI 算法和回答依據的不透明性, 很有可能造成信息泄露、信息倫理、知識產權、信息虛假和錯誤等問題, 都需要進行新的理論探索。在信息管理和服務領域, 信息的收集、整理、分類、描述、標引等問題可由人工智能通過隱性的處理方式實現, 分類表、主題詞表、知識圖譜等都對用戶不可見。并且, 相較于傳統(tǒng)的僅基于學科、領域、主題、關鍵詞等反映信息內容的少量特征進行信息組織的思路來看, 生成式AI 所依據的特征維度多很多, 從而使得多粒度(尤其是細粒度)和多關聯的知識組織問題成為研究的重點。相對于ChatGPT等大型語言模型解決的通用領域知識組織問題, 情報學更應關注的是垂直領域信息資源的組織問題, 以及對AI 訓練數據和生成內容的管理標準、規(guī)范和數據治理問題。對于更細分的領域, 需要具體問題具體分析, 比如目前多模態(tài)、跨模態(tài)信息資源的融合與重組是情報學研究關注的重點, 而人工智能自動生成內容領域(AIGC)采用的多模態(tài)技術可以實現文本、圖像和音視頻的關聯, 同時也可以實現跨模態(tài)內容生成。情報學關于多模態(tài)信息資源組織問題的研究就不那么重要了, 但可以更多地聚焦于多模態(tài)資源的知識服務場景識別與應用中?;谏墒剑粒?的情報服務將可能成為最主要的甚至對一些用戶來說是唯一的情報服務方式或端口, 如何實現相對綜合的、依反饋調整、個性化的服務, 以及提升用戶體驗將成為情報學研究的重要問題。情報分析領域, 決策式AI 雖能憑借強大的分析、判別、預測功能, 為智能情報分析和服務提供助力, 但具體的分析策略、合適的算法模型等細節(jié)問題仍需要考慮。生成式AI 可直接生成創(chuàng)造性的情報分析初級產物, 由此引發(fā)的新研究問題則是如何對情報產品的價值評估與內容優(yōu)化。在信息檢索領域, ChatG?PT 以自然語言和多語言交互以及連續(xù)對話的方式實現從“模糊搜索” 到“精準推送” 的跨越, 使得跨語言檢索、以提高查全率和查準率為目的的情報檢索策略和保障研究不再是重點, 但ChatGPT無法絕對保證生成內容的準確、正確和真實, 并且難以溯源。因此, 將生成式AI 融入傳統(tǒng)情報或知識檢索系統(tǒng)以實現更高效、正確和情境化的搜索,以及情報溯源尤其是錯誤和虛假情報的溯源是未來研究的主要方向。此外, ChatGPT 直接給出答案而拋棄搜索列表對比的方式, 一方面會將情報相關性問題轉移到更重要的情報可靠性和可信性問題上;另一方面從某種程度上來講, 會導致更嚴重的信息繭房, 對此類現象造成的影響和破除策略問題也應成為情報學研究的重點。在知識管理領域, 生成式AI 將會改變知識產生的速率、知識組織的形式以及流轉的方式, 能夠對知識庫、案例庫等多來源知識的集成提供強有力的支撐。情報學后續(xù)研究應重點思考如何利用生成式AI 賦能知識重組、知識庫構建、知識共享等問題。在信息技術應用領域, 如何對大型語言模型進行微調, 或調用ChatGPT 類的大型語言模型的API 接口, 使其應用于情報領域的各類任務場景中, 是生成式AI 與情報學融合發(fā)展需考慮的關鍵問題; 而將生成式AI 應用于各個專業(yè)領域時, 面臨的首要問題便是訓練語料的開發(fā)、選擇和動態(tài)更新, 這也是情報學在情報資源開發(fā)與利用研究中應該著重考慮的方向。
2.2數據源的擴展
大數據時代, 數據成為情報學研究不可或缺的要素。同時, 隨著情報工作在各個領域的滲透, 情報學研究對象也不斷拓展。數據源不僅僅是科技文獻資料, 還包括社交媒體數據、知識服務平臺數據、政務數據、網絡計量數據、商業(yè)數據及科技數據等,數據形式呈現為多模態(tài)。如今, 以ChatGPT 為代表的生成式AI 的發(fā)展, 使情報學研究在數據獲取方式以及獲取的數據類型方面發(fā)生了變化。從數據獲取方式來看, 目前情報學在研究信息搜索或信息行為時, 多采用問卷調查、訪談、網絡爬蟲、API 接口等方式獲取數據; 在計量學研究中, 多從引文數據庫或新興的替代計量網站中導出相關指標。而Chat?GPT 等生成式AI 可提供一種新的數據獲取方式。比如, 在保證數據獲取合規(guī)的前提下, 可將ChatGPT嵌入搜索引擎、知識庫或社交媒體中, 研究者根據需求向ChatGPT 發(fā)出請求, 指定數據范圍、字段類型等, ChatGPT 可自動采集、篩選并返回特定格式的數據, 如表格形式。從獲取的數據類型來看, 除了科技文獻、用戶生成內容、計量指標等數據以外,ChatGPT 等生成式AI 催生了新型的人機行為模式,這些對話式人機交互數據能夠為用戶需求、信息行為、用戶感知與認知因素分析提供新的來源。另外,網絡中真實數據的質量良莠不齊、標準不統(tǒng)一, 會使數據的利用復雜化, 增加情報分析任務的難度。而基于生成式AI 的合成數據將會填補情報分析需求與數據可用性之間的差距, 可應用于情報研究的各類任務場景中。從另一角度來看, 無論是用戶生成內容(UGC), 還是通過搜索引擎獲取的信息, 大都屬于原始數據。與之不同的是, ChatGPT 給出的不是資源, 而是答案, 是對海量資源進行整合、歸納總結的結果。從該層面來看, 隨著生成式AI 的發(fā)展, 情報學研究收集的數據也可以是經過篩選、整合、分析處理后得到的增值數據, 對這些數據進一步深度挖掘, 或直接用于解決特定的問題, 從而減少數據處理任務的復雜度。除此以外, 如果跳出情報學研究所使用的數據源范圍, 而從更廣泛的角度來看, 相對于學術文獻、專利文獻、科技報告、政府信息資源等類型的資源, AI 生成內容可以說是一種可供情報學研究的新的信息資源類型。
2.3研究范式的升級
根據美國科學哲學家?guī)於鳎郏玻玻?的闡釋, 范式是指在學術群體內共同接受的一組由理論框架、觀點、研究方式等構成的范例。情報學經過長期發(fā)展, 已形成多元范式融合的研究局面, 比如信息論范式、學術交流范式、決策情報服務與社會信息服務范式[23] ; 基于Intelligence 的軟科學范式、基于Information 的圖書信息學范式、基于信息和知識管理框架的管理科學范式[24] 。根據王琳[25] 的梳理,文獻理論、信息理論、知識理論分別是物理范式、認知范式、領域分析范式的主流理論, 如果按照DIKW 的邏輯, 情報學未來主流理論或許為智慧理論, 如此也必然推進智能驅動的科研范式升級。尤其是在大數據和生成式AI 技術的不斷發(fā)展過程中,情報學研究將致力于更具創(chuàng)造性的任務中, 解決復雜性科學問題。在以科技文獻為分析對象的知識挖掘與知識服務研究領域, 鑒于ChatGPT 強大的上下文理解與文本生成功能, 若將其整合至中國知網等知識發(fā)現平臺, 便可集成專家智慧與機器智能,發(fā)揮其對海量文獻關鍵信息提取與分析、相似文獻推薦以及內容創(chuàng)作的優(yōu)勢, 使得從粗粒度的文獻綜述、主題發(fā)現, 到細粒度的知識元抽取任務輕松完成。如何在人機共生的科研環(huán)境下發(fā)掘更復雜的研究問題(即智慧知識) 成為一種新的思維。比如,如何結合情報學專家智慧與AI 技術自動生成新的技術要點或研究方案, 為科技創(chuàng)新提供直接的情報來源, 成為新的研究方向。在用戶信息行為研究領域, ChatGPT 能夠以更接近人類的思考方式有效捕捉用戶意圖與情感傾向, 學習數據產生的模式, 并創(chuàng)造新的內容。在用戶情報需求挖掘與情報服務的研究中, 需要思考的是如何使情報思維與AI 深度融合, 實現情報服務策略的自動生成, 賦能情報生產能力。簡言之, 情報學未來的研究范式將以智慧理論為主導, 以生成式AI 與情報學的融合研究為重點, 探索如何利用情報學專家智慧、情報思維、情報分析邏輯, 使生成式AI 更好地適應專業(yè)領域的復雜研究任務, 實現從智能情報分析到智能情報生成的過渡。
3生成式AI 對情報實踐工作的影響
一般地, 情報學理論范式指導情報實踐工作。有研究將情報學理論范式分為4 種, 并闡釋了每種范式下的情報工作重點和發(fā)展趨向, 分別是: 泛信息論范式下的知識管理與綜合性知識服務; 學術信息服務范式下的信息檢索與服務; 決策情報服務范式下的戰(zhàn)略情報支持; 社會信息服務范式下的企業(yè)競爭情報、社會情報、輿情傳播等[23] 。鑒于這4種范式較為全面地覆蓋了情報實踐工作的內容, 因此本文將以此為視角, 分析生成式AI 將對情報實踐產生的影響, 如圖1所示。
3.1拓寬知識資源建設渠道, 打造知識服務新生態(tài)
知識服務是各類情報機構的一項重要職能, 而智慧型知識服務是人工智能時代的產物。生成式AI又將推進智慧型知識服務向高級階段的進化。從知識生產層面, 傳統(tǒng)的知識資源多出自出版社、數據庫商以及情報機構的自建數據庫和知識庫。生成式AI 的出現將拓寬情報機構知識資源建設的渠道, AI 輔助用戶內容創(chuàng)作、AI 自動生成內容成為新的知識生產模式。一方面, 每個用戶可參與到知識生產過程中, 通過AI 輔助獲取知識創(chuàng)作的靈感、素材, 由AI 生成文本、圖像、代碼、3D 模型等多模態(tài)知識, 實現內容續(xù)寫、跨模態(tài)內容生成(文字合成圖片或視頻等), 可極大提升用戶體驗; 另一方面, 生成式AI 能夠通過學習數據的底層模式再自動生成新內容。但就目前最先進的生成式AI 技術ChatGPT 而言, 一大特點就是無法保證生成內容的準確性, 這與知識的屬性相斥。近期發(fā)表在Nature 上的文章《ChatGPT: 五大優(yōu)先研究問題》中, 研究者指出, ChatGPT 被用于科學界, 必須要堅持人類審查的原則[26] 。這無疑對情報機構提出了新的挑戰(zhàn), 即缺少前端的專家審核, 情報機構需要承擔對AI 生成知識內容的人工審核與質量把控的任務。從知識服務層面, 隨著元宇宙概念的提出, 情報服務機構致力于構建結合AR、VR、人工智能等技術的超現實空間與現實空間融合的虛實共生的知識服務場景, 而生成式AI 技術也將為此貢獻巨大力量, 比如利用AIGC 生成虛擬人或數字人, 利用“ChatGPT+虛擬人” 技術打造人機交互新入口, 為用戶提供沉浸式、立體化知識體驗, 有助于拓寬情報機構知識服務的范疇, 構建知識服務新生態(tài)。
3.2塑造學術信息檢索新范式,優(yōu)化學術信息服務模式
ChatGPT的出現對搜索引擎業(yè)務構成了較大威脅, 但百度指出生成式AI 并不能替代搜索引擎,兩者是一種互補的關系, 并提出了融合兩者功能的“生成式搜索” 概念, 這對情報領域的學術信息搜索發(fā)出了信號。一方面, 針對以Web of Science、中國知網、情報機構自建知識庫等為代表的學術信息搜索平臺, 如果借鑒ChatGPT 與WebGPT 的聯動效應, 將生成式AI 整合至學術搜索平臺中, 使其實時根據數據庫內容更新, 生成的內容參考了某篇學術論文則注明其來源。用戶關于某一研究主題得到的檢索結果將不僅是文獻列表, 也能呈現由生成式AI 篩選、整合、總結生成的文獻綜述, 又或是根據讀者描述的研究思路, 基于對海量文獻中圖表、圖像數據的學習, 生成技術路線圖以供參考,甚至是針對某領域的研究成果, 利用生成式AI 抽取細粒度知識, 自動生成學術知識圖譜, 把復雜的關聯研究直觀地呈現給讀者, 以交互式問答方式回答讀者的問題, 并通過連續(xù)對話提升讀者體驗; 另一方面, 對于學術科研互動社區(qū), 生成式AI 在學習了科研用戶海量的問答數據之后, 可針對用戶搜索或提問生成答案。由此可以預測, 生成式AI 將會重塑學術信息檢索新范式, 有助于優(yōu)化信息服務模式,但其能力邊界與訓練時被投喂的數據數量、質量、豐富度有很大關系, 這將是情報實踐工作中著重考慮的問題。此外, 最重要的是, 基于AI 的學術信息服務需在明確的使用規(guī)范前提下開展, 避免被錯誤和虛假信息誤導而產生學術不端等后果, 這一問題正是當前學術圈討論的熱點。
3.3挑戰(zhàn)決策情報服務體系, 驅動情報效能提升
決策支持服務是情報工作的一項重要內容, 主要面向國家科技戰(zhàn)略、產業(yè)發(fā)展與產業(yè)結構政策、學科發(fā)展等戰(zhàn)略決策型關鍵問題, 通過文本挖掘、科學計量等方法深度剖析科技發(fā)展態(tài)勢、學科演化、政策布局, 形成戰(zhàn)略咨詢報告。ChatGPT 發(fā)布以后, 被嘗試用于生成行業(yè)分析報告、市場調研報告等。其使用了來自人類反饋的強化學習方案, 具備良好的思維鏈能力, 能夠針對特定問題自主生成解決方案。雖然從目前來看, 生成的報告內容仍然不夠專業(yè)可信, 并不能直接用于指導決策, 但隨著不斷地反饋學習以及模型算法的優(yōu)化, 性能會極大地提升。這對面向決策支持的情報服務產生了較大的沖擊和挑戰(zhàn), 然而并不會完全取代情報人員的工作, 而是作為輔助工具加速推進決策支持服務的智能化, 驅動情報效能的提升。因為, 即便是在Zero-shot 設置下執(zhí)行下游任務, 也需要向AI 輸入提示。換言之, 在決策支持服務中, 最基本也是最重要的環(huán)節(jié)是情報分析對象、方向、預期的情報產物形式與內容(比如戰(zhàn)略報告的框架)的確定, 生成式AI 僅作為輔助情報分析與內容生成的工具, 前提是情報人員向其輸入合適的問題, 這意味著情報人員需要對用戶需求有深刻的理解并承擔情報產品的設計工作。從另一方面來看, 生成式AI 有助于將情報人員從瑣碎的分析、撰寫任務中解放出來,更多地投入創(chuàng)新性研究工作中。比如, 在利用科學計量學分析方法輔助制定科技發(fā)展戰(zhàn)略規(guī)劃時, AI可以依據已有的理論和方法, 針對特定問題基于數據挖掘生成分析報告, 但探索計量學新理論、新定律, 具體到更加科學有效的新的指標體系構建等創(chuàng)造性工作中, 仍然需要專業(yè)人員的深入研究和持續(xù)創(chuàng)新。
3.4增加社會信息服務壓力, 凸顯情報價值引領
在社會信息服務范式下, 情報工作在企業(yè)競爭情報服務、安全情報服務、輿情風險預警與治理、數據治理等領域發(fā)揮著重要作用。生成式AI 在賦能情報收集、處理與分析的同時, 也會帶來一系列負面影響, 增加情報服務的壓力。比如, 在社會安全和輿情治理方面, ChatGPT 可能會成為謠言制造者或輿論引導者的輔助工具, 在一些誤導性、充斥陰謀論的提問下大量改編信息, 引導社會輿論向片面、極端的方向發(fā)展。這在一定程度上會加大風險的情報感知與情報預警的難度。在數據治理方面,近年來關于科研大數據治理、企業(yè)大數據治理、政府大數據治理等問題愈發(fā)重要, 治理的維度涉及數據安全、數據標準、數據質量等。伴隨著ChatGPT等生成式AI 的快速發(fā)展, 海量AI 生成數據涌向經濟、科研、政務等各個領域, 由此帶來的數據治理壓力是巨大的。從生成式AI 模型的工作原理來看,生成數據的質量取決于訓練時被投喂的數據質量和輸入提示的有效性。因此, 數據治理不僅涉及到AI 創(chuàng)造的內容, 同樣涉及訓練數據和提示數據??梢灶A見, 情報學在數據治理領域將面臨較大挑戰(zhàn), 具體包括AI 生成數據的質量管理、標準化、數據歸類、數據產權歸屬等各類問題。然而, 從另一個角度來看, 生成式AI 在增加社會情報服務壓力的同時, 也更加凸顯情報的價值和社會效用, 如何充分發(fā)揮情報在綜合研判、監(jiān)測預警、信息匯聚與治理等方面的作用, 更好地服務社會發(fā)展, 是情報工作在AI 沖擊下保持優(yōu)勢地位的關鍵。
4生成式AI的局限性與情報學應用考量
從短期來看, 生成式AI 仍存在諸多不足, 以ChatGPT 為例, 亟待解決的問題主要有3 個方面:合規(guī)性問題、生成內容問題和技術性問題。情報學在借助ChatGPT 等生成式AI 從事研究與實踐工作時需慎重考量。
1) 從合規(guī)性來看, ChatGPT 的訓練數據與生成數據是否有相應的知識產權尚未明晰; 如果被用于學術研究, 有哪些使用邊界尚未確定。情報學與信息科學、數據科學有著天然的聯系。對情報學而言, ChatGPT 不僅是工具, 其生成內容也是情報學的研究對象。因此, 情報界在開展研究或從事實踐工作時, 更應注意數據收集和利用的合規(guī)性, 以及對ChatGPT 的使用界限。
2) 從生成內容來看, 首先, 現階段ChatGPT回答的內容沒有進行實時信息關聯, 對后期變動的問題無能為力, 并且ChatGPT 生成內容的正確率無法保證, 尤其是在專業(yè)性較強的領域, 容易造成虛假信息, 對用戶產生誤導。反觀之下, 作為特殊的信息產品, 情報具備知識性、效用性, 決定了情報工作的嚴謹性、客觀性與及時性。因此, 情報學在應用此類生成式AI 時需要考慮訓練語料動態(tài)更新的問題, 并努力探索對AI 生成內容質量進行評估和審核的方法。
3) 從技術性來看, 由于專業(yè)領域沒有足夠的語料“喂食” ChatGPT, 如果直接用于情報學研究與情報實踐, 無法生成適當的回答。鑒于ChatGPT 的底層原理不夠明晰, 《ChatGPT: 五大優(yōu)先研究問題》一文的研究者呼吁應優(yōu)先考慮開源AI 算法的開發(fā)和應用[21] , 在此基礎上還需要投入大量的算力支撐。由此可見, 生成式AI 與情報學相融合的研究與實踐工作還需要突破諸多難題, 比如用于訓練的海量專業(yè)數據的開發(fā)與標注、算力提升等。
針對目前生成式AI尚存的一些問題, 情報學也應致力于利用本學科知識, 為減少乃至突破局限做出貢獻。比如, ChatGPT 所提供的答案, 是通過自主學習后生成的自我認為的最佳答案, 但是否真的是最佳(準確率問題以及沒有唯一解的相關性問題)有待商榷, 情報學可探索關于AI 生成內容質量評估的相關理論, 為科學交流提供判據; 針對ChatGPT 可能帶來的虛假信息、有害信息傳播和信息安全等問題, 可通過危機預警情報服務限制其大范圍傳播; 信息資源的開發(fā)和利用是情報學傳統(tǒng)的核心研究領域與工作范疇, 情報學的方法論在生成式AI 產生的信息資源管理和為生成式AI 提供信息資源上, 可以有更大的貢獻。未來, ChatGPT 等生成式AI 在專業(yè)領域的應用首要解決的問題是訓練語料的開發(fā), AI 的訓練效果很大程度上取決于語料的質量, 情報學可作為生成式AI 訓練語料的提供者, 致力于語料庫的開發(fā)與利用工作。
5結語
在生成式AI迅速崛起的時代背景下, 情報學研究與情報實踐將會受到巨大的沖擊。無論是情報學研究范式、研究問題, 還是情報服務模式, 都將發(fā)生極大變化, 可能波及信息組織(信息分類與標引、信息描述)、信息檢索(多媒體檢索、跨語言檢索、檢索策略、相關性判斷)、知識管理(知識獲取、知識抽取、知識推理)、情報咨詢服務等各個子領域。這對情報學發(fā)展而言, 既是機遇也是挑戰(zhàn)。情報學應積極擁抱AI 的優(yōu)點, 探索匯聚生成式AI 的情報學研究與情報實踐新格局, 但同時要保持審慎的態(tài)度, 對AI 應用的益處與風險有清醒、全面的認知。最重要的是, 注意掙脫技術和工具的束縛, 致力于探索更高層次、復雜性的科學問題,以豐富情報學理論、拓展情報服務為根本, 乘AI技術發(fā)展東風, 促進情報學的可持續(xù)發(fā)展。
本文從情報學研究與情報實踐兩個維度, 初步思考了以ChatGPT為代表的生成式AI 可能對情報學產生的影響, 一方面, 展望未來情報學研究和情報工作將會發(fā)生的變化, 為本領域科研人員和情報工作者應用生成式AI 提供參考; 另一方面, 為生成式AI 與情報學的交叉融合, 對情報學在面臨新一代人工智能沖擊時如何轉向與應對試圖拋磚引玉。未來人工智能技術將不斷取得突破, 情報學應利用AI 賦能學科創(chuàng)新發(fā)展, 永保學科先進性。