關鍵詞: AIGC; 知識服務; 信息質(zhì)量; 風險治理; 人工智能
DOI:10.3969 / j.issn.1008-0821.2024.08.009
〔中圖分類號〕TP18; G230 7 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 08-0089-10
自2014年原國家新聞出版廣電總局等部門首次提出“知識服務”[1] , 確立學術(shù)出版機構(gòu)從內(nèi)容提供向知識服務轉(zhuǎn)型的業(yè)務升級目標以來, 我國學術(shù)出版機構(gòu)提供的知識服務雖已經(jīng)歷了近10 年的發(fā)展, 但仍處于數(shù)字信息服務層次, 尚未完全進入更深層次的知識產(chǎn)品服務和知識解決服務階段[2] 。然而, 信息技術(shù)推動形成的數(shù)字學術(shù)模式[3] 已使科研人員的知識需求從傳統(tǒng)線性知識信息轉(zhuǎn)變?yōu)榧尚?、關聯(lián)性的學術(shù)資源和深層次知識發(fā)現(xiàn)與挖掘的學術(shù)服務[4] 。2022 年底, AIGC 技術(shù)引發(fā)全球關注。它能模仿人類的思維過程, 理解海量知識, 以貼近人類語言習慣的知識組織和表達方式為用戶提供一站式的信息與知識解決方案, 為出版機構(gòu)深化知識服務信息層次、有效提升服務水平帶來契機。
目前, AIGC 產(chǎn)品已經(jīng)進入學術(shù)領域。眾多科研人員都有使用ChatGPT 等AIGC 產(chǎn)品的經(jīng)歷, 但普遍反映其提供的信息存在質(zhì)量問題, 如生成的文本中存在捏造的[5] 、包含偏見的[6] 、存在侵權(quán)風險的[7] 信息, 以及提供虛構(gòu)的參考文獻[8] 等。這些通用型AIGC 產(chǎn)品的信息質(zhì)量問題同樣也會在學術(shù)知識服務領域的AIGC 產(chǎn)品中出現(xiàn)。DeLone W H 等[9]學者曾指出, 信息質(zhì)量會影響用戶的使用意愿和使用滿意度。這種影響在對信息嚴謹性和規(guī)范性要求更高的學術(shù)領域會更加深刻。因此, 學術(shù)出版機構(gòu)若要提供具有競爭力的AIGC 學術(shù)知識服務產(chǎn)品,必然要先解決服務提供信息的質(zhì)量問題。其中, 對于信息質(zhì)量風險的前瞻性識別和治理尤為關鍵。
1 相關概念界定
1.1AIGC 學術(shù)知識服務的概念界定
知識服務是指掌握某領域?qū)I(yè)知識的組織或個人, 在充分挖掘客戶知識需求的基礎上, 對內(nèi)外部知識資源進行搜集、整理、分析和挖掘, 通過適當?shù)氖侄魏头椒ǎ?幫助用戶獲取知識、解決問題、做出決策[10] , 最終達成知識創(chuàng)新目標的服務過程。學術(shù)知識服務則是聚焦于滿足科學研究知識需求的知識服務, 其服務主體包括出版機構(gòu)、圖書館、數(shù)據(jù)庫、高校和研究機構(gòu)等組織; 服務對象為科研人員或科研機構(gòu); 服務基礎則指包含學術(shù)論文及其關聯(lián)性資源在內(nèi)的資源基礎[11] , 以及數(shù)據(jù)挖掘、信息檢索、算法推薦等技術(shù)基礎; 服務方式包括文獻檢索、瀏覽及下載、檢索結(jié)果可視化及分析等; 服務目的在于滿足服務對象的學術(shù)知識需求、提升學術(shù)知識創(chuàng)新整體效能。AIGC 技術(shù)的應用則會為學術(shù)知識服務帶來多重變革。首先, AIGC 學術(shù)知識服務以大語言模型為技術(shù)核心, 以海量知識資源為基礎, 具有更堅實和先進的服務基礎; 其次, AIGC學術(shù)知識服務不再要求用戶自行檢索、篩選和組織知識內(nèi)容, 能夠在實時問答中根據(jù)用戶的個性化需求提供精細的知識方案, 極大降低知識的獲取門檻[12] ; 最后, AIGC 學術(shù)知識服務在知識復用的基礎上進行知識重組和多樣化知識方案的生成, 相較于傳統(tǒng)的學術(shù)知識服務更具有啟發(fā)性, 有利于輔助知識創(chuàng)新目標的達成。
因此, 本文將AIGC 學術(shù)知識服務界定為: 出版機構(gòu)、圖書館、數(shù)據(jù)庫、高校和研究機構(gòu)等擁有海量學術(shù)知識資源的主體, 利用AIGC 技術(shù), 以知識問答形式為科研工作者和科研機構(gòu)提供個性化、精細化的知識方案, 從而輔助完成學術(shù)知識創(chuàng)新的知識服務方式。由于學術(shù)出版機構(gòu)長期扮演連接知識資源與知識信息用戶的橋梁角色, 具有利用AIGC技術(shù)開展知識服務的天然優(yōu)勢, 并且眾多國際著名學術(shù)出版機構(gòu)也正積極探索更先進的知識服務模式,因而本文選擇以學術(shù)出版機構(gòu)作為AIGC 學術(shù)知識服務的提供主體展開研究。
1.2 AIGC 學術(shù)知識服務信息質(zhì)量的概念界定
信息質(zhì)量是一個較為籠統(tǒng)的概念, 在不同階段具有差異化的界定方式。最初學者們常將視野局限于信息本身, 將信息質(zhì)量界定為信息對客觀事物描述的準確程度[13] 。隨著研究的不斷深入, 有學者開始從信息交互中的用戶視角理解信息質(zhì)量, 如將高質(zhì)量信息資源理解為能夠滿足用戶需求的信息[14] 。也有學者結(jié)合信息生產(chǎn)和信息使用的多維視角, 提出信息質(zhì)量既是信息“符合規(guī)范” 的程度, 又是信息滿足或超出用戶期望的程度[15] 。
綜合前人對“信息質(zhì)量” 概念的探討, 基于“科學研究” 這一應用場景的特殊需求以及“服務”這一根本屬性, 本文主張同時考慮學術(shù)信息質(zhì)量的客觀標準與用戶需求滿足兩個維度, 將AIGC 學術(shù)知識服務的信息質(zhì)量定義為AIGC 知識服務產(chǎn)品提供的信息能夠真實準確地反映客觀事實、傳遞科學信息并能滿足用戶對信息獲取和利用需求的程度。
2AIGC 學術(shù)知識服務信息質(zhì)量風險識別與量化
AIGC 學術(shù)知識服務的信息質(zhì)量風險產(chǎn)生根源在于服務提供工作存在疏漏, 而AIGC 學術(shù)知識服務的提供工作主要集中于對服務系統(tǒng)的策劃、建設和維護。因此, 對AIGC 學術(shù)知識服務信息質(zhì)量風險的治理要從服務系統(tǒng)入手, 識別服務提供工作中可能導致信息質(zhì)量問題的風險節(jié)點, 并采取針對性的風險規(guī)避措施。
研究采用工作—風險分解法(Work BreakdownSystem-Risk Breakdown System, WBS -RBS) 系統(tǒng)、全面地識別出版機構(gòu)提供AIGC 學術(shù)知識服務過程中的信息質(zhì)量風險節(jié)點[16] 。該方法是由美國學者Hillson D 提出的一種風險識別方法, 被廣泛應用于項目管理領域, 實施過程包含3 個步驟: 首先進行WBS 工作分解, 再進行RBS 風險分解, 最后構(gòu)建風險識別矩陣?;陲L險節(jié)點識別結(jié)果, 研究進一步運用風險分解矩陣(Risk Breakdown Matrix, RBM)進行節(jié)點風險值的量化和比較[17] , 從而為AIGC 學術(shù)知識服務信息質(zhì)量風險治理提供行動依據(jù)。
2.1AIGC 學術(shù)知識服務工作分解
學術(shù)出版機構(gòu)長期從事學術(shù)知識的生產(chǎn)和傳播工作, 能及時掌握學術(shù)領域的知識狀況和知識需求,具有提供知識服務的渠道優(yōu)勢以及堅實的資源、人才和資金基礎; 并且, 其作為規(guī)模化的組織, 能夠?qū)⑾冗M技術(shù)引介至學術(shù)知識服務領域。因此, 學術(shù)出版機構(gòu)具有作為AIGC 學術(shù)知識服務提供主體的實力。由于AIGC 學術(shù)知識服務的提供是一項需要多種資源和能力配合完成的復雜工作, 出版機構(gòu)需在服務提供過程中發(fā)揮不同的作用, 組織多方參與者共同實現(xiàn)服務的落地, 具體的工作分解情況及出版機構(gòu)的工作定位如表1 所示。
在啟動準備階段, 出版機構(gòu)應開展策略制定、資源整合與技術(shù)接入工作。第一, 出版機構(gòu)可以直接觸及知識市場并連通學術(shù)知識及其用戶群體, 因而可以在策略制定環(huán)節(jié)作為各項工作的執(zhí)行者, 首先開展學術(shù)知識服務市場分析, 把握知識服務行業(yè)宏觀環(huán)境與發(fā)展狀態(tài), 明晰產(chǎn)業(yè)鏈情況, 對競爭者展開調(diào)研, 明確自身的市場定位, 并鎖定目標用戶群體; 其次, 進一步分析用戶需求, 明確目標用戶的知識服務功能需求和信息資源需求; 最后, 基于以上分析制定產(chǎn)品策劃方案, 確定服務提供的方式、信息資源的范圍、營銷和業(yè)務發(fā)展策略等, 即明確AIGC 學術(shù)知識服務的具體模式。第二, 在資源整合環(huán)節(jié), 學術(shù)出版機構(gòu)應當發(fā)揮協(xié)調(diào)者作用。在資源獲取工作中, 學術(shù)出版機構(gòu)要在最大程度上整合分屬于各類主體的知識資源。不僅要充分調(diào)動機構(gòu)內(nèi)部既存的存量資源、在紙質(zhì)出版物的基礎上進行再度加工以獲得在制資源, 還需通過版權(quán)購買和網(wǎng)絡抓取等方式獲取增量資源[18] 。接著, 出版機構(gòu)需要協(xié)調(diào)人力或與數(shù)據(jù)處理服務商開展合作, 對數(shù)據(jù)實施清洗、元數(shù)據(jù)提取、標準化等預處理操作, 并對數(shù)據(jù)進行標注, 使其能夠被機器理解和處理; 構(gòu)建實體關系, 以便模型能夠進行知識查詢和推理。第三, 由于大語言模型研發(fā)與訓練的各項成本耗費極高[19] , 出版機構(gòu)很難具備自行開發(fā)模型的能力。因此, 出版機構(gòu)需要在技術(shù)接入環(huán)節(jié)發(fā)揮主導者的作用, 在眾多大語言模型中選擇最適用于學術(shù)知識服務的基礎模型, 與技術(shù)提供方展開合作[20] , 向其提供處理好的數(shù)據(jù), 要求其對模型實施訓練和微調(diào)。出版機構(gòu)需對模型調(diào)整效果進行把關, 確保大語言模型在學術(shù)知識服務領域的適配性。
在建設實施階段, 出版機構(gòu)需完成平臺搭建和服務提供工作。第一, 平臺搭建環(huán)節(jié)的工作仍然需要出版機構(gòu)主導, 與技術(shù)服務商合作完成。出版機構(gòu)需提出AIGC 學術(shù)知識服務平臺的具體搭建要求,指導和對接技術(shù)服務商進行平臺的系統(tǒng)架構(gòu)設計、用戶界面設計、功能開發(fā)以及集成與部署工作。第二, 服務提供環(huán)節(jié)的工作則由學術(shù)出版機構(gòu)來執(zhí)行。學術(shù)出版機構(gòu)要將AIGC 學術(shù)知識服務平臺整合上線、正式開放并與用戶展開交互。同時要通過多種渠道向用戶提供使用教程、操作指引、在線客服及技術(shù)指導等幫助與支持。
維護優(yōu)化階段需要由學術(shù)出版機構(gòu)組織協(xié)調(diào),對AIGC 學術(shù)知識服務平臺進行維護和改進。首先,學術(shù)出版機構(gòu)需要委托技術(shù)服務商持續(xù)監(jiān)測服務系統(tǒng)性能, 包括對響應時間、資源利用率、并發(fā)性能等軟硬件狀況的監(jiān)測; 其次, 出版機構(gòu)要對用戶在服務平臺內(nèi)的行為數(shù)據(jù)進行收集和分析, 如點擊和瀏覽行為、指令發(fā)出行為等, 以便掌握平臺的服務效果, 并通過用戶調(diào)查、意見反饋表單、用戶支持郵箱等渠道收集用戶的意見和建議; 第三, 學術(shù)出版機構(gòu)需組織開發(fā)團隊或?qū)iT的質(zhì)量評估團隊, 從性能、功能、用戶體驗等層面對服務平臺進行服務能力評估, 提出服務改進意見; 最后, 學術(shù)出版機構(gòu)要根據(jù)以上數(shù)據(jù)和分析結(jié)果形成服務平臺優(yōu)化方案, 將其反饋至參與平臺建設的各方主體, 對服務平臺進行更新優(yōu)化。
2.2AIGC 學術(shù)知識服務信息質(zhì)量風險分解
AIGC 學術(shù)知識服務的信息質(zhì)量問題源于服務系統(tǒng)中存在的信息質(zhì)量風險。根據(jù)已有研究, 信息系統(tǒng)的信息質(zhì)量劃分維度存在共性, 但不同情境下的信息質(zhì)量評價指標選取又存在差異[21] 。既有研究通常從信息的內(nèi)容、表達、效用等角度劃分信息質(zhì)量維度, 如將信息質(zhì)量劃分為內(nèi)容質(zhì)量、集合質(zhì)量、表達質(zhì)量和效用質(zhì)量等維度[22] , 或信息資源內(nèi)容、信息資源表達形式、信息資源系統(tǒng)和信息資源效用等維度[23] , 并細化為重要性、相關性、有用性、信息量、可用性、可理解性、清晰性、及時性、可靠性、無傾向性等指標[9] 。
AIGC 學術(shù)知識服務系統(tǒng)作為一種信息系統(tǒng), 對其信息質(zhì)量維度的劃分既應遵循信息系統(tǒng)的共性規(guī)律, 又需與AIGC 學術(shù)知識服務信息質(zhì)量的概念內(nèi)涵相結(jié)合?;诖?, 本文將AIGC 學術(shù)知識服務的信息質(zhì)量劃分為內(nèi)容質(zhì)量、表達質(zhì)量以及效用質(zhì)量3 個維度。相對應地, AIGC 學術(shù)知識服務信息質(zhì)量風險也可被分解為內(nèi)容風險、表達風險和效用風險3 個維度。各維度下的風險指標還需結(jié)合AIGC 類信息系統(tǒng)及學術(shù)知識服務的獨特屬性來確定, 具體分解情況如圖1 所示。
從內(nèi)容維度來看, 學術(shù)知識服務旨在為用戶提供詳略得當?shù)?、能夠反映最新研究進展的、可靠且客觀公正的知識內(nèi)容。而AIGC 類信息系統(tǒng)卻可能提供虛假、錯誤、來源不可靠的信息, 或包含情感偏向、利益導向、偏見與歧視的內(nèi)容, 還會因為數(shù)據(jù)庫未進行實時信息關聯(lián)而無法提供最準確的前沿信息[24] , 且常會出現(xiàn)生成內(nèi)容冗雜或信息量過少的情況。因此, AIGC 學術(shù)知識服務信息質(zhì)量風險的內(nèi)容風險維度可被細化為可靠性風險、適量性風險、及時性風險、公正性風險4 個指標。
從表達維度來看, 學術(shù)知識服務需要清晰準確的表達知識內(nèi)容, 以便用戶能夠充分理解并使用知識。同時, 還需要標準化地表達知識內(nèi)容, 方便用戶對豐富的信息進行比較和整合, 并滿足學術(shù)規(guī)范的要求。而AIGC 類信息系統(tǒng)生成的內(nèi)容可能存在邏輯混亂、措辭不準、語言不流暢、表述模糊或有歧義等問題, 并且在專業(yè)術(shù)語、引用信息、媒體格式等方面缺乏標準化的統(tǒng)一規(guī)范。因此, AIGC 學術(shù)知識服務信息質(zhì)量風險的表達維度包括清晰度風險和標準化風險兩項指標。
從效用維度來看, 知識內(nèi)容與用戶需求的相關性是用戶衡量學術(shù)知識服務所提供信息效用的首要因素, 而AIGC 學術(shù)知識服務平臺會因為對用戶指令要求過高或資源豐富度等問題, 無法確保每次都能提供與用戶需求匹配的內(nèi)容。另外, 學術(shù)研究需要遵循嚴格的學術(shù)道德和規(guī)范要求, 而AIGC 學術(shù)知識服務卻有可能因為資源獲取和利用不當?shù)仍蛱峁┻`反法律及規(guī)章制度的知識內(nèi)容, 導致用戶對信息的使用存在侵犯隱私權(quán)、著作權(quán)等隱患。因此,AIGC 學術(shù)知識服務信息質(zhì)量的效用風險可被細化為相關性風險和合規(guī)性風險兩個指標。
2.3 AIGC 學術(shù)知識服務信息質(zhì)量風險識別矩陣構(gòu)建
在工作分解和風險分解的基礎上, 以工作分解結(jié)構(gòu)為列, 以風險分解結(jié)構(gòu)為行, 構(gòu)建AIGC 學術(shù)知識服務信息質(zhì)量風險識別矩陣, 采用德爾菲法進行風險節(jié)點的識別。為降低專家對調(diào)查材料的理解難度, 研究小組結(jié)合理論知識及實際經(jīng)驗, 預先勾選了可能存在風險因素的節(jié)點。例如, 在資源獲取工作環(huán)節(jié), 若獲取的數(shù)據(jù)和資源包含有誤信息或來源不可靠, 則可能導致服務系統(tǒng)生成的內(nèi)容包含不可靠的信息, 因此“資源獲取—可靠性風險” 這一節(jié)點被認為存在風險因素并予以標記。在此之后,研究小組根據(jù)標注結(jié)果制作并向?qū)<野l(fā)放AIGC 學術(shù)知識服務信息質(zhì)量風險識別矩陣調(diào)研表, 如表2所示。
共有15 位信息資源管理學科領域的專家參與調(diào)研, 未出現(xiàn)中途退出情況, 專家積極程度良好。參與調(diào)研的專家研究方向涉及學術(shù)出版、出版政策與法規(guī)、知識服務、風險評估、大數(shù)據(jù)分析、大語言模型應用、信息抽取和圖譜構(gòu)建自動化技術(shù)、知識組織與語義出版、自然語言處理、知識圖譜等領域。所有專家均了解過AIGC 技術(shù)的前沿動向, 并關注過AIGC 應用于學術(shù)領域的學術(shù)探討及相關報道, 或擁有利用AIGC 產(chǎn)品獲取知識信息的經(jīng)歷。在向?qū)<野l(fā)放“專家對咨詢內(nèi)容的判斷依據(jù)調(diào)查表”并回收數(shù)據(jù)后得出, 參與調(diào)研的專家權(quán)威系數(shù)Cr值為0 74, 說明專家權(quán)威程度較高, 調(diào)研結(jié)果可靠性高。
在本次調(diào)研中, 研究小組要求各位專家在AIGC學術(shù)知識服務信息質(zhì)量風險識別矩陣調(diào)研表的風險節(jié)點標記基礎上進行獨立判斷, 并向研究小組提出增加或刪除某些風險節(jié)點的建議。研究小組在每一輪調(diào)研結(jié)束后記錄專家達成共識的風險節(jié)點, 再統(tǒng)計存在異議的風險節(jié)點, 并向相關專家進行訪談咨詢, 確定每處異議的原因和解釋, 整理匯總后形成下一輪調(diào)研材料以再次征詢專家意見, 直至所有專家不再提出異議。專家意見反饋過程如表3所示。最終, 所有專家在3 輪調(diào)研后達成共識, 總共識別出79 個風險節(jié)點, 如表4 所示。
2.4 AIGC 學術(shù)知識服務信息質(zhì)量風險量化
基于風險識別結(jié)果, 運用RBM 風險分解矩陣對風險節(jié)點的風險值進行量化、比較。在衡量風險節(jié)點的風險大小時, 用風險事件發(fā)生的概率與造成的后果嚴重程度的乘積來量化這一節(jié)點的風險值[25] 。其中, 風險事件的發(fā)生概率分為“極低” “較低”“中等” “較高” “極高” 5 個等級, 分別賦值1~5分; 后果嚴重程度分為“可忽略的” “需考慮的”“比較嚴重” “非常嚴重” “災難性的” 5 個等級,分別賦值1~5 分。
采用專家打分法對各風險節(jié)點的發(fā)生概率和后果嚴重程度進行賦值, 邀請參與過風險識別調(diào)研的15 位專家繼續(xù)參與打分環(huán)節(jié)?;厥詹⒄砻恳惠喆蚍謹?shù)據(jù), 計算每一處分值的平均值, 在合理性和可解釋性原則指導下將其作為參考值反饋給各位專家進行下一輪打分[26] , 直至專家對所有分值形成較集中的意見。在此過程中, 通過計算變異系數(shù)來測量專家意見的集中程度, 當變異系數(shù)CV≤0 25時, 表明專家對該處分值的意見較為集中。在3 輪打分與反饋后, 15 位專家對每一處分值都形成了較為集中的意見。分別對各風險節(jié)點的發(fā)生概率值和后果嚴重程度值求平均數(shù)并進行四舍五入取整,得到風險節(jié)點發(fā)生概率和后果嚴重程度的最終值[27] ,將兩個值進行乘積計算得到風險節(jié)點的風險值。然后, 在RBM 矩陣中, 通過橫向計算統(tǒng)計WBS 節(jié)點的風險總和, 通過縱向計算統(tǒng)計RBS 節(jié)點的風險總和[28] , 結(jié)果如表5 所示。
根據(jù)AIGC 學術(shù)知識服務信息質(zhì)量風險RBM 矩陣結(jié)果, 從工作環(huán)節(jié)角度來看, 啟動準備階段的信息質(zhì)量風險值最高, 維護優(yōu)化階段次之, 建設實施階段的風險值最低。在啟動準備階段中, 資源整合工作環(huán)節(jié)的風險值極高, 技術(shù)接入環(huán)節(jié)的風險值也較高, 策略制定環(huán)節(jié)的風險值則較低。建設實施階段的信息質(zhì)量風險全部來源于服務提供環(huán)節(jié)。維護優(yōu)化階段中, 除性能監(jiān)測工作不會產(chǎn)生信息質(zhì)量風險以外, 用戶數(shù)據(jù)分析、用戶反饋響應、服務能力評估以及版本更新工作的風險值差異不大, 其中用戶反饋響應工作的風險值相對較高。從風險類別角度來看, 內(nèi)容風險最為顯著, 效用風險次之, 表達風險較低。
3AIGC 學術(shù)知識服務信息質(zhì)量風險治理策略
根據(jù)AIGC 學術(shù)知識服務信息質(zhì)量風險節(jié)點的風險值量化結(jié)果, 在出版機構(gòu)提供AIGC 學術(shù)知識服務的工作過程中, 啟動準備階段的風險值最高,應當對其給予高度重視, 采取合理手段控制工作偏差, 避免信息質(zhì)量問題的產(chǎn)生; 維護優(yōu)化階段的風險值次之, 應當對其給予關注, 實施一系列措施防范工作疏漏, 減少風險的發(fā)生; 建設實施階段的風險值最低, 應當對其實施監(jiān)控, 完善該階段工作的細節(jié)以盡量降低對信息質(zhì)量的不良影響。
3.1 啟動準備階段: 嚴控偏差, 筑牢信息質(zhì)量基礎
AIGC 學術(shù)知識服務工作的啟動準備階段包含策略制定、資源整合和技術(shù)接入3 個環(huán)節(jié), 直接決定知識服務采用的框架、資源和模型等基本構(gòu)成要素, 其工作質(zhì)量對信息質(zhì)量起著決定性作用。加之這一階段的風險值最大, 理應成為信息質(zhì)量風險治理的關鍵階段。
作為策略制定環(huán)節(jié)工作的執(zhí)行者, 出版機構(gòu)在用戶需求分析時應當面向目標用戶展開全面詳細的溝通和調(diào)研, 剖析其信息需求的所屬領域、信息廣度和深度, 由此決定AIGC 學術(shù)知識服務涉及的資源范圍及其生成內(nèi)容的篇幅長度和信息密度, 避免產(chǎn)生信息適量性和相關性風險。在產(chǎn)品策劃時, 需將各項信息質(zhì)量要求具化為清晰可操作的工作標準, 貫穿于具體的服務模式設計方案中, 作為后續(xù)工作的行動依據(jù)。
資源整合環(huán)節(jié)是啟動準備階段中信息質(zhì)量風險最高的工作環(huán)節(jié), 因而也是風險治理工作的重中之重。出版機構(gòu)應當發(fā)揮協(xié)調(diào)溝通作用, 依據(jù)用戶需求及產(chǎn)品策略的指示, 獲取并整合多方知識資源,避免提供的知識與用戶需求出現(xiàn)適量性和相關性偏差。還可協(xié)調(diào)引入世界知識以豐富模型對現(xiàn)實的理解, 減少有誤信息的產(chǎn)生[29] 。在此過程中, 出版機構(gòu)可合理尋求政府部門的支持, 打破知識資源間的流通壁壘。在服務上線后還要與各類資源主體維持良好合作關系, 持續(xù)更新知識資源, 或采用與搜索引擎、數(shù)據(jù)庫對接等方式保證最新學術(shù)資源的輸入。在資源整合工作中, 出版機構(gòu)應嚴格審查信息來源和把控資源質(zhì)量, 確保獲取資源的可靠性和合規(guī)性。在數(shù)據(jù)預處理工作中, 出版機構(gòu)應當制定數(shù)據(jù)處理標準, 組織人力或與數(shù)據(jù)處理公司合作進一步審查并過濾不可靠、不公正以及不合規(guī)信息, 去除冗余信息和不必要的文本雜質(zhì), 并對數(shù)據(jù)做標準化處理, 嚴格把控數(shù)據(jù)預處理效果, 保障信息資源質(zhì)量以及輸出內(nèi)容的表達清晰度和格式統(tǒng)一性。在數(shù)據(jù)標注環(huán)節(jié), 外包模式下標注人員的異質(zhì)性通常會造成數(shù)據(jù)標注質(zhì)量參差不齊, 影響模型對知識的理解和組織, 進而產(chǎn)生諸多信息質(zhì)量風險。因而出版機構(gòu)應當在清晰的標注規(guī)則指導下, 組織領域?qū)<疫M行數(shù)據(jù)標注, 并通過抽樣核驗方式保障數(shù)據(jù)標注效果。出版機構(gòu)還應發(fā)揮專業(yè)優(yōu)勢, 協(xié)調(diào)領域?qū)<液图夹g(shù)人員合作構(gòu)建精準且合規(guī)的實體關系, 輔助大語言模型更準確地理解客觀事物及知識間的關聯(lián)。此外, 資源整合工作的高質(zhì)高效推進有賴于數(shù)據(jù)透明度的持續(xù)提升。學術(shù)出版機構(gòu)不僅要依據(jù)政府部門出臺的管理辦法履行己方責任、敦促第三方數(shù)據(jù)服務商嚴肅對待信息質(zhì)量問題, 還要積極引導和鼓勵對主體責任細化、數(shù)據(jù)透明義務履行對象拓展等問題[30] 的研究, 整合專業(yè)性意見向政府部門建言獻策, 推進數(shù)據(jù)透明義務體系的建立。
技術(shù)接入環(huán)節(jié)中存在的信息質(zhì)量風險也不容忽視, 出版機構(gòu)要在技術(shù)應用方向和應用水準的把控中充分發(fā)揮主導作用。出版機構(gòu)要選擇功能和性能最適用的模型作為AIGC 學術(shù)知識服務的基礎模型,從根本上降低信息質(zhì)量問題發(fā)生的概率。在與技術(shù)提供商建立合作關系時, 應預先明確雙方在信息質(zhì)量控制方面的責任義務, 并依據(jù)法律原則設立約束機制。在模型訓練與微調(diào)時, 出版機構(gòu)應根據(jù)特定領域的專業(yè)性需求, 提供具有代表性的高質(zhì)量訓練語料庫, 提出模型調(diào)整要求, 并對模型調(diào)整效果進行檢驗把關, 保障其生成內(nèi)容符合特定學術(shù)領域的需要。除此之外, 出版機構(gòu)還應參與制定適用于學術(shù)知識服務領域的指令微調(diào)策略[31] , 提升模型對用戶指令的理解能力, 保證服務系統(tǒng)生成內(nèi)容與用戶指令的相關性。
3.2 建設實施階段: 完善細節(jié), 避免信息質(zhì)量受擾
AIGC 學術(shù)知識服務建設實施階段的信息質(zhì)量風險值較小, 與啟動準備和維護優(yōu)化階段相比, 重要程度相對較低, 但仍要對個別風險值偏高的節(jié)點給予關注, 盡量避免用戶與服務系統(tǒng)的交互過程對信息質(zhì)量造成干擾。
建設實施階段的信息質(zhì)量風險集中在服務提供環(huán)節(jié), 其成因主要有兩方面: 一方面, 在單輪對話中, 若用戶輸入的提示內(nèi)容包含有誤信息或有偏向性的信息, 則可能致使模型在做出即時反應時沿用此類信息, 從而輸出不可靠或不公正的內(nèi)容。對此,出版機構(gòu)應向用戶說明服務平臺的算法規(guī)則, 提醒用戶在輸入內(nèi)容時保持審慎態(tài)度。此外, 由于模型開發(fā)者有權(quán)將用戶輸入內(nèi)容作為迭代數(shù)據(jù)存儲保留并用以改善模型和服務[30] , 因而用戶輸入內(nèi)容有可能會對模型產(chǎn)生深遠的影響。出版機構(gòu)應當向用戶聲明這一風險, 呼吁用戶約束個人的數(shù)據(jù)輸入行為, 并倡導全社會參與提升人工智能時代的用戶素養(yǎng)。另一方面, 對用戶指令的精準理解和響應是服務系統(tǒng)準確提供信息的前提, 但用戶卻并不總能清晰認識并準確表達信息需求。作為服務提供方的出版機構(gòu)應當重視對用戶的培訓與幫助, 如設計用戶手冊或教學指南, 為用戶提供高質(zhì)量指令示例, 并在服務系統(tǒng)中設置幫助與支持功能, 以便向用戶提供實時幫助。
3.3 維護優(yōu)化階段: 彌補疏漏, 消除信息質(zhì)量隱患
AIGC 學術(shù)知識服務維護優(yōu)化階段的信息質(zhì)量風險值較大, 是信息質(zhì)量風險治理的重要環(huán)節(jié)。該階段蘊含的信息質(zhì)量風險可歸納為兩類: 一是未能及時發(fā)現(xiàn)信息質(zhì)量問題而產(chǎn)生的風險; 二是未對信息質(zhì)量問題及時做出改進而造成的風險。因此, 出版機構(gòu)作為服務平臺維護與改進工作的協(xié)調(diào)者, 應當及時發(fā)現(xiàn)不足, 明確改進需求, 并與參與實施服務平臺優(yōu)化的技術(shù)服務商積極溝通, 防范維護優(yōu)化階段的工作疏漏, 從而消除服務中的信息質(zhì)量隱患。
用戶行為數(shù)據(jù)分析是發(fā)現(xiàn)信息質(zhì)量問題的重要途徑之一。一般情況下, 用戶會在未獲取到足量的、與需求相匹配的信息時多次發(fā)出指令。若未能監(jiān)測到用戶發(fā)出指令的次數(shù)以及表達不滿意態(tài)度的指令內(nèi)容, 則不能及時發(fā)現(xiàn)服務提供的信息存在適量性、相關性問題, 導致風險繼續(xù)存在。針對這一風險,出版機構(gòu)應當與技術(shù)服務商展開合作, 分析用戶指令的感情色彩, 識別表示不滿、質(zhì)疑的關鍵詞; 捕捉頻繁更換提問方式、多次提出相同問題、快速離開對話等用戶行為, 從而判斷輸出信息的適量性和相關性水平, 并及時為用戶提出指令改進建議, 幫助其獲取所需信息。
用戶反饋響應是發(fā)現(xiàn)信息質(zhì)量問題最直接、準確的方式。若未能及時接收并響應用戶反饋, 則可能導致信息質(zhì)量風險繼續(xù)存在。出版機構(gòu)在提供AIGC 學術(shù)知識服務時, 應設置用戶滿意調(diào)查、在線表格、電子郵件、聊天窗口、社交媒體等多種用戶意見反饋渠道, 主動收集用戶反饋的信息質(zhì)量問題, 為服務系統(tǒng)的改進提供參考。建立監(jiān)控與警報系統(tǒng)以及快速響應機制, 實時監(jiān)測用戶反饋和評論, 及時發(fā)現(xiàn)關鍵問題并盡快采取應對措施。
服務能力評估是發(fā)現(xiàn)AIGC 學術(shù)知識服務信息質(zhì)量問題的專業(yè)渠道。一方面, 出版機構(gòu)應建立信息質(zhì)量評估標準與內(nèi)部評估流程, 成立評估小組或聘請專業(yè)的評估團隊對服務的信息質(zhì)量進行評估,以評估報告作為平臺改進的可靠依據(jù); 另一方面,出版機構(gòu)應積極配合政府部門的監(jiān)管, 參考其對數(shù)據(jù)來源、處理過程、訪問和使用情況、數(shù)據(jù)質(zhì)量等方面的審計結(jié)果和改進建議, 吸收政府部門在算法模型、算法數(shù)據(jù)備案和評估中提出的數(shù)據(jù)糾偏要求[32] , 充分發(fā)現(xiàn)AIGC 學術(shù)知識服務提供工作中存在的疏漏, 進一步明晰服務平臺的優(yōu)化方向。
版本更新是消除信息質(zhì)量風險的關鍵步驟, 若未針對服務系統(tǒng)中已發(fā)現(xiàn)的信息質(zhì)量問題進行修復和版本更新, 則會導致信息質(zhì)量風險繼續(xù)存在。學術(shù)出版機構(gòu)作為AIGC 學術(shù)知識服務的提供者, 應當對服務的優(yōu)化負責, 規(guī)定版本更新的周期和工作流程, 制定明確可行的服務版本更新策略。在整合經(jīng)多渠道識別和收集的信息質(zhì)量問題后, 進行問題優(yōu)先級分類, 組織各責任主體及時實施服務平臺的維護與更新, 并向用戶傳達問題的解決進展和版本更新情況。
4結(jié)語
AIGC 技術(shù)為學術(shù)知識服務深化提供了新的契機, 但ChatGPT 等通用型AIGC 產(chǎn)品已經(jīng)顯現(xiàn)出明顯的信息質(zhì)量問題。若要將AIGC 技術(shù)應用于學術(shù)知識服務領域, 事先規(guī)避其可能存在的信息質(zhì)量風險至關重要。本文已在AIGC 學術(shù)知識服務產(chǎn)品廣泛開發(fā)前對其包含的信息質(zhì)量風險進行前瞻性識別,并從知識服務流程視角提出風險預防和應對策略。隨著AIGC 學術(shù)知識服務建設工作的持續(xù)進行, 后續(xù)研究可以開展關于信息質(zhì)量問題的實證分析, 根據(jù)服務開發(fā)和提供實踐探討信息質(zhì)量風險的事中控制和事后控制策略。