顏玉奎 石文龍
[摘 要]為了提高海量新聞信息分類的效率,本文探索研究基于Transformer(轉(zhuǎn)換器)模型和《中文新聞信息分類與代碼》標(biāo)準(zhǔn)的自動分類標(biāo)引,包括自動歸類、聚類、檢索標(biāo)志的智能抽取,以及人工標(biāo)引和自動標(biāo)引的互相結(jié)合。Transformer模型訓(xùn)練數(shù)據(jù)特征效率更高,適應(yīng)能力更強。基于標(biāo)準(zhǔn)的自動分類表更靈活,更高效,自動標(biāo)引具有廣泛的應(yīng)用前景。
[關(guān)鍵詞]中文新聞信息分類與代碼;自動分類;自動標(biāo)引;Transformer模型
[中圖分類號]G254.1[文獻標(biāo)志碼]A[文章編號]1005-6041(2023)05-0027-06
1 引 言
《中文新聞信息分類與代碼》(Classification and code of Chinese news information,簡稱CNCC)是我國新聞界首次研制的中文新聞信息技術(shù)兩項國家標(biāo)準(zhǔn)之一,于2006年首次發(fā)布實施,2013進行第一次修訂,2022年完成第二次修訂,是我國新聞技術(shù)領(lǐng)域的一項重要的基礎(chǔ)性標(biāo)準(zhǔn),也是一部非常實用的分類法[1],已有多家新聞單位應(yīng)用實施了該標(biāo)準(zhǔn)?;贑NCC的分類標(biāo)引有人工標(biāo)引和自動標(biāo)引,本文在實踐的基礎(chǔ)上探索研究基于CNCC的自動分類標(biāo)引。
2 CNCC的基本概況及應(yīng)用中存在的問題
CNCC以主題立類為主,學(xué)科立類為輔,類目的設(shè)置兼顧科學(xué)性、實用性、穩(wěn)定性和可擴展性,采用線分類和面分類相結(jié)合的分類方法[2],適用于通訊社、報社、廣播電臺、電視臺、雜志社、網(wǎng)絡(luò)媒體,以及各種資訊機構(gòu)對中文新聞信息進行分類、檢索、標(biāo)識等方面的處理與交換業(yè)務(wù)[3]。最新修訂的CNCC(GB/T 20093—2022)類目表包括主類表和復(fù)分表。主類表是一級類表、簡表和詳表的統(tǒng)稱,詳表從粗到細最多分為5個層級,一級類目24個,二級類目385個(其中含交替類目13個),詳表的全部類目6 927個。通用復(fù)分表包括總類復(fù)分表、人物復(fù)分表、新聞信息體裁表,也包括世界國家(地區(qū))代碼表、中國行政區(qū)劃代碼表、中國各民族名稱代碼表。
隨著網(wǎng)絡(luò)、手機等新媒體的迅猛發(fā)展,傳統(tǒng)媒體和新興媒體深度融合發(fā)展是大勢所趨,對于用戶畫像的數(shù)據(jù)挖掘也愈演愈烈。以前,人們依賴媒體看新聞,現(xiàn)在則是用戶自己選擇想看的新聞。總體來說,中文新聞信息分類需要一個統(tǒng)一的分類標(biāo)準(zhǔn),而具體媒體單位和用戶的需求豐富多樣,需要進行靈活實用的分類,標(biāo)準(zhǔn)的規(guī)范性與需求的多樣性之間存在著矛盾。
在對新聞信息分類時,人工標(biāo)引效率低下,需要采用自動標(biāo)引的方法和技術(shù)以提高分類的效率。
3 基于規(guī)則的自動分類技術(shù)及其相關(guān)研究概述
文獻標(biāo)引是對文獻的內(nèi)容特征進行分析、描述,從而揭示文獻的過程。蔡迎春等[4]全面系統(tǒng)地回顧和梳理了我國文獻標(biāo)引技術(shù)的發(fā)展脈絡(luò),指出我國的文獻標(biāo)引經(jīng)歷了從分類標(biāo)引、主題標(biāo)引到多元化標(biāo)引的過程,逐步由人工標(biāo)引、機器輔助標(biāo)引過渡到自動標(biāo)引,進一步向智能標(biāo)引方向發(fā)展。自動標(biāo)引是利用計算機系統(tǒng)從擬存儲、檢索的事實情報或文獻(題目、文摘、正文)中抽取檢索標(biāo)志的過程。自動分類是用計算機系統(tǒng)代替人工對文獻對象進行分類,一般包含自動聚類與自動歸類。自動聚類是根據(jù)數(shù)據(jù)的相似性將數(shù)據(jù)分類,自動歸類是根據(jù)規(guī)則將數(shù)據(jù)分類。
3.1 基于CNCC的自動分類相關(guān)研究
基于CNCC的自動分類相關(guān)研究并不多,經(jīng)檢索知網(wǎng),僅發(fā)現(xiàn)2篇相關(guān)的文章:1)2005年,CNCC作為我國第一部即將上報的新聞信息分類標(biāo)準(zhǔn),為了真正體現(xiàn)該標(biāo)準(zhǔn)的現(xiàn)實價值,鄧茜等[5]從圖情領(lǐng)域知識組織角度提出了實現(xiàn)自動分類、自動標(biāo)引的總體框架,認為包含多個詞表、規(guī)則庫在內(nèi)的知識庫是自動標(biāo)引的基礎(chǔ)模塊,提出了知識庫結(jié)構(gòu)的設(shè)想(但只是基于CNCC自動分類標(biāo)引的理論設(shè)想,沒有實際的應(yīng)用和測試)。2)2010年,張志平[6]從語言學(xué)領(lǐng)域語言分析的角度,探索了基于CNCC的自動分類方法:從分類體系的類目信息和類目說明中獲得初始主題詞詞表,利用獲得的初始主題詞構(gòu)建中文新聞信息分類與代碼體系的特征向量,采用CCA自動分類(Class Centralized Auto-Classification,類中心)方法將文本按該體系進行自動分類。然而,其研究中所述的每個類目對應(yīng)特定主題詞的分類主題詞表方案更多是理論上的意義,在實際工作中很難真正應(yīng)用實施。
3.2 基于規(guī)則的主流自動分類方法
基于分類規(guī)則的主流自動分類方法有CCA自動分類和Transformer(轉(zhuǎn)換器)自動分類。
CCA自動分類采用特征向量中心、貝葉斯方法、K-近鄰方法、決策樹方法、中心向量法等相結(jié)合,是一種基于特征選擇的分類方法,其優(yōu)點是可擴展性強、靈活性高、能夠有效地避免過擬合等,缺點是需要大量的預(yù)處理工作和大量的訓(xùn)練數(shù)據(jù)來進行特征提取和分類,對新領(lǐng)域的探索能力較弱,可解釋性不足,尤其是為了能進行數(shù)據(jù)的準(zhǔn)確匹配,需要維護龐大的中心庫數(shù)據(jù)。中心庫數(shù)據(jù)包括各種主題詞表、近義詞表、專用名詞表、詞典等。主題詞是經(jīng)過規(guī)范化的詞,我國有《漢語主題詞表》以及《航空科技資料主題詞表》《醫(yī)學(xué)主題詞表》等專業(yè)主題詞表,新華社也曾經(jīng)編制過《新聞主題詞表》,此外《中國分類主題詞表》則是中國第一部大型綜合性分類主題一體化主題詞表。詞庫、規(guī)則庫的建設(shè)和維護成本巨大,而且往往滯后,在一定程度上制約了圖情領(lǐng)域基于分類法的自動分類研究和應(yīng)用。2009—2016年,關(guān)于自動分類,采用“分類法”做篇名詞或者關(guān)鍵詞,檢索結(jié)果只有1篇文章,而該文無論在原理方面還是方法方面,都沒有新的發(fā)現(xiàn)和發(fā)展[7]。
Transformer是一種基于自注意力機制的深度神經(jīng)網(wǎng)絡(luò)模型,廣泛應(yīng)用于自然語言處理領(lǐng)域的各種任務(wù),如文本分類、機器翻譯和問答系統(tǒng)等。Transformer對自然語言進行分析獲取特征并對內(nèi)容分類。Transformer自動分類利用Transformer模型的特點,從原始文本中自動提取特征信息并將其轉(zhuǎn)化為上下文向量,進而對文本進行分類。Transformer通過自然語言處理分析數(shù)據(jù)特征,僅從原始數(shù)據(jù)中就能提煉出對應(yīng)的特征,只需要完善對應(yīng)的特征、維護儲存學(xué)習(xí)特征的模型,無需維護龐大的詞庫、規(guī)則庫等中心庫數(shù)據(jù),降低了大量的數(shù)據(jù)維護成本。
Transformer自動分類在自然語言處理任務(wù)中取得了很好的效果,在很多應(yīng)用場景中表現(xiàn)出了優(yōu)異的性能,尤其是在大規(guī)模數(shù)據(jù)集上的表現(xiàn)尤為出色。它的突出優(yōu)點在于能夠自動學(xué)習(xí)到好的特征,并且可以通過簡單的模型結(jié)構(gòu)來擴展到更多的任務(wù)中,具有很高的可拓展性。
2016年前,文本的自動分類主要使用傳統(tǒng)的機器學(xué)習(xí)模型進行訓(xùn)練;2016—2018年,自動分類主要使用深度學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)相關(guān)模型進行訓(xùn)練;2019年之后,主要使用“Transformer預(yù)訓(xùn)練模型+遷移學(xué)習(xí)”方式進行訓(xùn)練。隨著Transformer預(yù)訓(xùn)練模型的不斷發(fā)展和優(yōu)化,2022年之后,“Transformer預(yù)訓(xùn)練模型+遷移學(xué)習(xí)”方式已經(jīng)成為一種通用的文本分類工具。
綜上所述,在基于規(guī)則的主流自動分類方法中,Transformer模型訓(xùn)練數(shù)據(jù)特征效率更高,成本更低,適應(yīng)能力更強。本文在實踐的基礎(chǔ)上,探索研究基于Transformer模型和CNCC標(biāo)準(zhǔn)的自動標(biāo)引,包括自動歸類、聚類以及其他檢索標(biāo)志的智能抽取。
4 基于CNCC的自動分類標(biāo)引實踐與研究
廣西日報社與業(yè)內(nèi)領(lǐng)先的數(shù)據(jù)智能應(yīng)用科技公司合作,建設(shè)數(shù)據(jù)中臺,采用智能文本分析系統(tǒng),基于“深度學(xué)習(xí)+遷移學(xué)習(xí)”方式和Transformer模型,基于CNCC的分類體系進行自動分類標(biāo)引。
4.1 基于CNCC及實際標(biāo)引的數(shù)據(jù)狀況確定適用的自動分類表
自動歸類是根據(jù)規(guī)則將數(shù)據(jù)分類,即按照一定的分類標(biāo)準(zhǔn)或分類參考,將被考察對象劃歸到不同類目的過程。因此,自動歸類需要有一個合理適用的分類體系,這是非常重要的前置工作。
4.1.1 基于CNCC標(biāo)準(zhǔn)和實際使用的條目,確定自動分類的使用類目。自2006年CNCC頒布實施后,廣西日報社率先應(yīng)用實施了該標(biāo)準(zhǔn),擬定了Excel格式的CNCC使用本,報社旗下全部歷史數(shù)據(jù)中的原創(chuàng)數(shù)據(jù)均按CNCC使用本進行了分類,分類字段同時標(biāo)引分類代碼和類目名稱,擁有了一大批分類數(shù)據(jù)語料。
廣西日報社電子數(shù)據(jù)的CNCC使用本共有1 145個使用條目,類目級別較多,一些地方資料類目的級別多達7級,組配后的專題資料類目的代碼更為復(fù)雜。如此復(fù)雜的分類表不適用于自動分類。
我們使用Transformer預(yù)處理已有的分類數(shù)據(jù),對原始數(shù)據(jù)進行清洗和標(biāo)準(zhǔn)化,對分類字段的標(biāo)引值也進行了清洗,把復(fù)分表代碼、類目名稱去掉,只以分類代碼作為唯一的分類標(biāo)示,將原始數(shù)據(jù)轉(zhuǎn)化為更為直觀的表型數(shù)據(jù),提取已有的分類數(shù)據(jù)集的所有類別,保留重要類別,減掉數(shù)據(jù)量少的類目,合并相似類別,得到包含實際使用條目的分類表。
在原有CNCC使用本的基礎(chǔ)上,結(jié)合數(shù)據(jù)分類實際情況,保留全部的一級類目,根據(jù)本單位重點報道和數(shù)據(jù)狀況,選擇比較有使用價值、數(shù)據(jù)量較多的條目,確定自動分類需要使用的類目,對于沒有使用的類目,其內(nèi)容歸入上位類。
4.1.2 對使用類目的層級進行降維,確定自動分類表。由于CNCC的分類層次太多,類別關(guān)系復(fù)雜,上述自動分類的使用類目也存在同樣的問題,容易互相干擾,影響自動分類的準(zhǔn)確性,類目級別太多,給用戶也帶來學(xué)習(xí)的壓力。而二級分類相對于多級分類來說,具有更簡潔的結(jié)構(gòu),更易于理解的數(shù)據(jù)變量,方便用戶理解和篩選,可以加強產(chǎn)品和用戶的互動能力。因此,自動分類表使用兩個分類層級,以提高模型的效率和減少誤分類的可能性。
根據(jù)實際需求設(shè)計一個二級分類模型,將確定好的自動分類使用類目由多分類層級降維到二級分類,然后把二級分類的模型(指定最高分類層級為二級)和原先的多級分類數(shù)據(jù)(多分類層級)交給NLP模型進行學(xué)習(xí),進行降維處理。
下面以“11.21;經(jīng)濟會議、經(jīng)濟博覽會”為例,比較CNCC、CNCC使用本和基于CNCC的自動分類表三者的區(qū)別和聯(lián)系(見表1)。
按照CNCC標(biāo)準(zhǔn),“中國—東盟博覽會”的相關(guān)信息應(yīng)歸到“11.21;經(jīng)濟會議、經(jīng)濟博覽會”的下位類“11.21.03;經(jīng)濟博覽會”。CNCC使用本,根據(jù)CNCC的擴展使用規(guī)則,擴展了本單位的特色專題類目“11.21.03.DF450100.B11;中國—東盟博覽會”,其中DF450100是南寧的地區(qū)代碼,B11的“B”表示本單位的擴展類目,在11.21.03。經(jīng)濟博覽會類下,也可以擴展其他在各地舉辦的各種經(jīng)濟博覽會,各類經(jīng)濟博覽會類還可以進一步按照屆次進行細分?;贑NCC的自動分類表,把“中國—東盟商務(wù)與投資峰會”和“中國—東盟博覽會”兩個相近的內(nèi)容一起歸到“11.21.03.DF450100.B11;中國—東盟博覽會”,并對其代碼進行降維:
{ncode:“001007009”,resourceId:null,
sourcecode:“11.21.03”,name:“經(jīng)濟會議、經(jīng)濟博覽會”,aliasName:null,level:2,…}
{ncode:“001007010”,resourceId:null,
sourcecode:“11.21.03.DF450100.B11”,name:“中國—東盟博覽會”,aliasName:null,…}
降維后將新編碼與原始基底數(shù)據(jù)編碼進行了關(guān)聯(lián),保證新舊分類數(shù)據(jù)的一致性和多態(tài)性。在分類降維后,使用者可以更快速、準(zhǔn)確地找到所需的信息,優(yōu)化搜索體驗,提高頁面加載速度,縮短用戶的等待時間。
最終的自動分類表保留CNCC的24個一級類目,全部類目共98個,經(jīng)過降維后,最大的類目級別只有二級。
4.1.3 基于CNCC可以靈活制定行業(yè)、專題和各類新媒體的自動分類表?;贑NCC可以根據(jù)數(shù)據(jù)對象的特性選擇全部或部分類目,提升或降低部分類目的級別,甚至可以改變類目的順序,制定簡潔實用的自動分類表使用本,分類表使用本的分類條目ID只需對應(yīng)關(guān)聯(lián)CNCC的代碼即可。例如,新華社技術(shù)實驗室基于CNCC在新媒體環(huán)境中存在不適用的情況研制了《中文新媒體新聞信息分類法》,其中一級類目分為政治、社會生活、經(jīng)濟和文化4個部類,共包含14個一級類目、88個二級類目[8]。其實,在數(shù)據(jù)庫的底層這些條目ID也可以和CNCC的分類代碼關(guān)聯(lián)對應(yīng)起來。
基于CNCC制定的自動分類表更靈活、更高效,在保證底層使用統(tǒng)一的分類代碼基礎(chǔ)上,各平臺可自由定制適用的分類體系,實現(xiàn)分類數(shù)據(jù)的高可用、松耦合,各平臺之間的數(shù)據(jù)可以友好交互,減少溝通成本,消除各平臺分類數(shù)據(jù)的自有壁壘,從而實現(xiàn)各媒體平臺之間分類數(shù)據(jù)的融合。
4.2 模型的訓(xùn)練與優(yōu)化
已有的分類數(shù)據(jù)為自動分類的深度學(xué)習(xí)提供了語料基礎(chǔ)。采用Transformer模型對原始數(shù)據(jù)進行處理,包括分詞、去除標(biāo)點符號、轉(zhuǎn)換大小寫等操作,以消除數(shù)據(jù)中的噪聲和提高模型的收斂速度,提取出文本數(shù)據(jù)的高層次特征(如詞向量、詞頻等)輸入模型。將大量的文本數(shù)據(jù)壓縮成更簡潔的結(jié)構(gòu),以減少數(shù)據(jù)量。使用Transformer模型對數(shù)據(jù)集進行訓(xùn)練,通過交叉驗證來評估模型的表現(xiàn)。在訓(xùn)練過程中,不停嘗試對模型進行調(diào)整,提高模型的準(zhǔn)確率和泛化能力。將訓(xùn)練好的模型接入訓(xùn)練環(huán)境中,調(diào)試模型來獲得預(yù)測結(jié)果。
對基底數(shù)據(jù)集多次訓(xùn)練后生成對應(yīng)的大模型,依據(jù)訓(xùn)練好的模型進行評估準(zhǔn)確率、召回率等指標(biāo),在進行數(shù)據(jù)校對后使用。
在擁有充足標(biāo)注數(shù)據(jù)的場景下,深度學(xué)習(xí)可以發(fā)揮較大的威力,而當(dāng)沒有足夠的標(biāo)注數(shù)據(jù)語料時,就需要遷移學(xué)習(xí),即將一個任務(wù)中訓(xùn)練出的模型參數(shù)遷移到另一個模型任務(wù)上,能有效加快模型收斂速度,降低過擬合問題。因此,采用基于“深度學(xué)習(xí)+遷移學(xué)習(xí)”的訓(xùn)練方式能使自動分類系統(tǒng)的適用性更強。
模型初步建立后,還需繼續(xù)改善和優(yōu)化,提升后續(xù)模型對數(shù)據(jù)的處理效率,如人工對自動標(biāo)注的結(jié)果進行糾正或優(yōu)化深度標(biāo)引。這些經(jīng)過糾正、優(yōu)化的語料將作為訓(xùn)練素材用于下一次的機器學(xué)習(xí),整個工作流程是一個閉環(huán),機器自動標(biāo)注的準(zhǔn)確率會不斷提高。
4.3 數(shù)據(jù)的匯入及標(biāo)引
由于數(shù)據(jù)類型多、來源廣,需要將各種數(shù)據(jù)整合在數(shù)據(jù)中臺,以便進行統(tǒng)一管理和分析。例如,廣西云數(shù)據(jù)中臺的數(shù)據(jù)包含報社所有新舊媒資數(shù)據(jù),包括報紙庫、期刊庫、網(wǎng)站庫、App庫、融媒體庫、媒資庫、新華社電稿庫、小康數(shù)據(jù)庫、黨建平臺庫、圖片庫等,同時涵蓋了廣西14個設(shè)區(qū)市及各縣(市、區(qū))的黨報、黨端、廣播、電視的數(shù)據(jù)。
數(shù)據(jù)的匯入需要考慮數(shù)據(jù)源的選擇、數(shù)據(jù)格式的一致性、數(shù)據(jù)量的龐大程度等。不同的數(shù)據(jù)源,需要對其進行相應(yīng)的處理和整合,確保數(shù)據(jù)的一致性和可讀性。此外,如果數(shù)據(jù)量太大,在進行匯入時可能會出現(xiàn)一些性能上的問題。數(shù)據(jù)的匯入需要采用一些專門的技術(shù)手段,如數(shù)據(jù)庫、API接口等。
數(shù)據(jù)匯入時,自動標(biāo)注系統(tǒng)實時對這些數(shù)據(jù)進行自動分類,并標(biāo)引其他檢索特征。這個過程需要結(jié)合多種技術(shù)手段,如NLP(自然語言處理)和組織信息抽取等。其中,NLP可以用來處理文本數(shù)據(jù)中的語義和關(guān)系,而組織信息抽取則可以從非結(jié)構(gòu)化數(shù)據(jù)中提取出有用的信息。通過這些技術(shù)的配合,可以更加精準(zhǔn)地對數(shù)據(jù)進行標(biāo)注和分類,從而提高數(shù)據(jù)的質(zhì)量和準(zhǔn)確性。
5 自動聚類及檢索標(biāo)志的智能提取
自動聚類,主要是根據(jù)文本的內(nèi)在數(shù)據(jù)分布、語義特征,將海量文本數(shù)據(jù)自動聚合成多類,并為每一類數(shù)據(jù)給出描述性關(guān)鍵詞,對文本進行核心關(guān)鍵詞分析,聚合相似的文章。自動聚類功能的實現(xiàn),在標(biāo)注系統(tǒng)上主要體現(xiàn)為給每一篇文章自動標(biāo)注核心關(guān)鍵詞。
檢索標(biāo)志的智能提取,主要是通過智能識別文本中包含的命名實體信息和專業(yè)用語,在標(biāo)注系統(tǒng)上主要體現(xiàn)為:對文章中的地區(qū)命名實體、人物命名實體、機構(gòu)命名實體、時間、專業(yè)術(shù)語等檢索標(biāo)志的自動標(biāo)引。
數(shù)據(jù)中臺在匯入圖片、音頻、視頻數(shù)據(jù)時,會自動調(diào)用預(yù)設(shè)置的AI(人工智能)中臺智能解析能力,將匯入的多媒體內(nèi)容進行語音識別、人臉識別、字幕識別等解析操作,同時將對應(yīng)的語音、字幕識別成文字,并根據(jù)內(nèi)容標(biāo)注人物的名稱,標(biāo)注涉及的地點、事件以及相關(guān)機構(gòu)。
對多個檢索標(biāo)志的智能提取,就是對新聞信息的多維度標(biāo)引。CNCC在一定程度上具備了分面分類法的特征:主表的列類以內(nèi)容主題為主,從“面”分類的角度看,主表是主題分面表,上述自動分類表主要是根據(jù)主表對內(nèi)容主題的標(biāo)引,便于把握各主題的縱向從屬關(guān)系和橫向相關(guān)關(guān)系,有利于新聞信息的族類檢索;CNCC的幾個復(fù)分表相當(dāng)于新聞體裁分面表、國家地區(qū)分面表、中國行政區(qū)劃分面表、人物分面表、中國民族分面表,對文章檢索標(biāo)志的智能提取,對新聞信息的體裁、地域、人物、民族等多維度的標(biāo)引,相當(dāng)于依據(jù)各個分面表的分面分類標(biāo)引,通過組配可以形成復(fù)雜的概念,使檢索結(jié)果更加精準(zhǔn),也可以讓用戶單獨從不同的途徑進行檢索。盡管檢索標(biāo)志的智能提取不必依據(jù)預(yù)定的類表,但依據(jù)CNCC復(fù)分表標(biāo)引的數(shù)據(jù)為檢索標(biāo)志的智能提取提供了訓(xùn)練數(shù)據(jù)語料。
6 基于分類標(biāo)準(zhǔn)自動標(biāo)引的展望和思考
人工智能和機器學(xué)習(xí)技術(shù)是當(dāng)今新聞技術(shù)發(fā)展的趨勢,人工智能技術(shù)的發(fā)展將為媒體機構(gòu)帶來巨大的挑戰(zhàn)和機遇。
6.1 自動標(biāo)引具有廣泛的應(yīng)用前景
人工智能的自動標(biāo)引技術(shù)可以快速、高效、實時地對信息資源進行處理,能為媒體機構(gòu)提供非常好的新聞挖掘和分析能力,具有廣泛的應(yīng)用前景。在實際應(yīng)用中,當(dāng)各類新聞信息匯聚到數(shù)據(jù)中臺時,就可以對該信息實時進行自動分類和相關(guān)特征的自動提取。這些經(jīng)過標(biāo)引的數(shù)據(jù)被賦予了更多的價值:可以根據(jù)需求制作成各類智能專題;各類智能專題可以關(guān)聯(lián)各類新媒體采編發(fā)業(yè)務(wù)系統(tǒng)的相關(guān)欄目,助力各類新媒體欄目的信息發(fā)布;編輯部每天的采前會可以在大屏上實時分析已發(fā)布新聞的傳播狀況,研究確定各個新聞專題的后續(xù)報道計劃。
隨著ChatGPT等國內(nèi)外自然語言大模型的不斷涌現(xiàn),內(nèi)容生產(chǎn)成為AI應(yīng)用的重點領(lǐng)域。2023年4月,首個全國性媒體AIGC研究機構(gòu)成立[9],助力廣西云融媒體平臺建成融合AI中臺、業(yè)務(wù)中臺、數(shù)據(jù)中臺的“智媒中臺”,廣西14個設(shè)區(qū)市主流媒體的加盟,整合了自治區(qū)各家媒體的資源優(yōu)勢,實現(xiàn)了數(shù)據(jù)共享與應(yīng)用。AIGC(Artificial Intelligence Generative Content,人工智能生成內(nèi)容)的核心思想是利用人工智能模型,根據(jù)給定的主題、關(guān)鍵詞、格式、風(fēng)格等條件,自動生成各種類型的文本、圖像、音頻、視頻等內(nèi)容。AIGC的強大功能需要有豐富完善的數(shù)據(jù)資源作為基礎(chǔ),自動分類、自動標(biāo)引是其技術(shù)支撐之一。自動標(biāo)引的未來研究方向包括深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)化、自適應(yīng)智能標(biāo)引、多模態(tài)標(biāo)引等。
6.2 人工標(biāo)引與自動標(biāo)引的相輔相成
盡管自動分類、自動標(biāo)引技術(shù)已經(jīng)發(fā)展到智能標(biāo)引階段,但由于自動分類表比較簡單,自動分類的輸出結(jié)果也比較粗糙,在查全率和查準(zhǔn)率方面有一定的局限性。
實際應(yīng)用中,一般會采用兩種自動標(biāo)引與人工標(biāo)引相結(jié)合的方式:一是人工標(biāo)引與自動標(biāo)引采用相同的字段,用同樣的分類表,人工標(biāo)引對自動分類標(biāo)引的結(jié)果進行糾正;二是人工標(biāo)引和自動標(biāo)引并存,人工標(biāo)引與自動標(biāo)引的結(jié)果分別采用不同的字段,人工標(biāo)引主要標(biāo)引原創(chuàng)、
專題等重要數(shù)據(jù),需要標(biāo)引的數(shù)據(jù)占比較少。人工標(biāo)引和自動標(biāo)引的分類表也可以有所不同:人工標(biāo)引的分類表是CNCC使用本,直接標(biāo)引標(biāo)準(zhǔn)的代碼和類目名稱,分類條目及其層級較多;自動分類表比較簡單,使用的分類條目數(shù)量較少,一般降維到二級,但底層對應(yīng)的分類代碼和人工標(biāo)引的分類代碼是相同的。第二種方式更易于操作,而且可以方便顯示和檢索數(shù)據(jù)庫的重要數(shù)據(jù)。檢索時,如需要精確檢索,可以只選擇人工標(biāo)引的字段進行檢索,而模糊檢索則包含人工標(biāo)引和自動標(biāo)引的所有結(jié)果。
人工標(biāo)引的分類數(shù)據(jù)是更有價值的模型訓(xùn)練語料,有助于改善模型、優(yōu)化深度標(biāo)引。建議業(yè)界重視原創(chuàng)數(shù)據(jù)的深度標(biāo)引,基于標(biāo)準(zhǔn)進行分類,以便于共享和利用,而分類標(biāo)引數(shù)據(jù)共享用于模型的訓(xùn)練,也有助于自動分類準(zhǔn)確率的提高。
6.3 關(guān)于標(biāo)準(zhǔn)修訂的思考
融媒體時代更需要新聞信息技術(shù)標(biāo)準(zhǔn)[10]。CNCC是新聞信息分類的標(biāo)引工具,自動分類、自動標(biāo)引的廣泛應(yīng)用,需要進一步完善CNCC,推廣新聞信息分類標(biāo)準(zhǔn)應(yīng)用實施。建議基于CNCC靈活制訂自動分類表使用本,使用本條目底層對應(yīng)CNCC的代碼。在應(yīng)用實施的過程中,積極反饋新聞信息的新主題、新需求和存在問題,按照《國家標(biāo)準(zhǔn)管理辦法》及時進行修訂。在CNCC修訂中需要注意以下問題:1)跟蹤新聞信息的發(fā)展?fàn)顩r,及時補充新出現(xiàn)的報道主題類目,并細化新增的類目。2)修訂時要注意分類標(biāo)準(zhǔn)的延續(xù)性,如需修改類目名稱和代碼時,要非常謹慎,避免對標(biāo)準(zhǔn)的使用單位增添過多的麻煩。3)嚴格遵循代碼唯一性的原則,新增類目和修改代碼時,不使用曾經(jīng)用過的廢棄舊代碼,因為對使用單位來說舊代碼可能會有對應(yīng)的數(shù)據(jù)。4)參考、兼顧新聞信息分類的相關(guān)國際標(biāo)準(zhǔn),如國際上多家媒體單位采用的IPTC Media Topics新聞主題分類國際標(biāo)準(zhǔn),它共有13種語言和語言變體版本,其中包含了中文版,特點是有利于從主題的角度標(biāo)引新聞信息的內(nèi)容,CNCC修訂時可以參考借鑒。
7 結(jié) 語
為了提高海量新聞信息分類的效率,自動標(biāo)引是新聞信息分類標(biāo)引的發(fā)展趨勢。基于規(guī)則的自動分類,Transformer模型訓(xùn)練數(shù)據(jù)特征效率更高,成本更低,適應(yīng)能力更強。標(biāo)引工具是進行文獻標(biāo)引的基礎(chǔ)支撐,
[HJ1.77mm]
對于整體的中文新聞信息來說需要一個統(tǒng)一的新聞信息分類標(biāo)準(zhǔn),而對于具體的媒體單位和用戶來說需要更靈活實用的分類工具。建議依據(jù)CNCC制訂適用的自動分類表,選擇適當(dāng)?shù)闹悄芪谋痉治鱿到y(tǒng),對新聞信息進行自動分類和自動標(biāo)引,或者實現(xiàn)人工標(biāo)引和自動標(biāo)引相結(jié)合?;跇?biāo)準(zhǔn)制定的自動分類表更靈活、更高效,底層使用統(tǒng)一的分類代碼,可以消除各平臺分類數(shù)據(jù)的自有壁壘,促進各平臺數(shù)據(jù)的友好交互,減少溝通成本,便于數(shù)據(jù)的融合和共享。
基于標(biāo)準(zhǔn)的自動分類標(biāo)引具有廣泛的應(yīng)用前景。媒體深度融合需要新聞信息技術(shù)標(biāo)準(zhǔn),業(yè)界應(yīng)積極應(yīng)用、維護和修訂,使分類標(biāo)準(zhǔn)更具適用性。
[參考文獻]
[1]張琪玉.我國情報檢索語言在進步中:兩部新分類法的特點[J].圖書館雜志,2008,27(7):24.
[2]蔣建華,張莉莉,李清華.新聞資料工作理論與實踐[M].北京.中國廣播電視出版社,2006:151157.
[3]全國中文新聞信息標(biāo)準(zhǔn)化技術(shù)委員會.中文新聞信息分類與代碼.GB/T 20093-2022[S].北京.中國標(biāo)準(zhǔn)出版社,2022.
[4]蔡迎春,趙心如,朱玉梅,等.我國文獻標(biāo)引技術(shù)的回顧與展望[J].圖書館雜志,2022,41(3):1831.
[5]鄧茜,林紅.中文新聞信息自動分類標(biāo)引的構(gòu)想與實現(xiàn)[J].中國傳媒科技,2005(9):2123.
[6]張志平.基于“中文新聞信息分類與代碼”文本分類[J].太原理工大學(xué)學(xué)報,2010,41(4):402405,411.
[7]陳志新.分類法研究的十五個問題:我國2009至2016年分類法研究綜述[J].情報科學(xué),2018,36(6):149155.
[8]付蓉,張璐,馮巖松,等.研制新媒體信息分類 促進新聞業(yè)務(wù)發(fā)展[J].中國傳媒科技,2016(4):5557.
[9]石睿鵬.首個全國性媒體AIGC研究機構(gòu)在南寧成立[EB/OL].[2023-05-19].https:∥baijiahao.baidu.com/s?id=1763245180916892794&wfr=spider&for=pc.
[10]武國衛(wèi).融媒體時代更需要新聞信息技術(shù)標(biāo)準(zhǔn)[J].中國傳媒科技,2018(2):78.
[收稿日期]2023-07-19
[作者簡介]顏玉奎(1965—),女,本科,副研究館員,廣西日報傳媒集團;石文龍(1988—),男,本科,工程師,廣西日報傳媒集團。
[說 明]本文系廣西文旅廳2023年度文化和旅游研究課題“全媒體數(shù)據(jù)中臺自動分類及其分類體系研究”(課題編號:112)的研究成果之一。