• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向企業(yè)文檔智能服務(wù)的AI中臺構(gòu)建研究*

    2021-08-12 04:57:32施千里劉雨欣王可欣
    山西檔案 2021年5期
    關(guān)鍵詞:中臺文檔智能

    施千里 劉雨欣 王可欣

    (1.福建福清核電有限公司信息文檔處 福清 350300;2.中國人民大學(xué)信息資源管理學(xué)院 北京 100872)

    0 引言

    在數(shù)據(jù)時(shí)代,企業(yè)文檔是企業(yè)中重要的數(shù)據(jù),在企業(yè)運(yùn)行發(fā)展中具有重要作用。當(dāng)下,隨著人工智能技術(shù)的快速發(fā)展,其應(yīng)用領(lǐng)域逐漸擴(kuò)展到各行各業(yè)。其中,在企業(yè)文檔服務(wù)方面,文字識別、語義解析、實(shí)體識別等人工智能(Artificial Intelligence,簡稱AI)技術(shù)也發(fā)揮著越來越重要的作用。2018年12月,中央經(jīng)濟(jì)工作會議做出要加快包括AI在內(nèi)的新型基礎(chǔ)設(shè)施建設(shè)的部署,AI正日益成為助力社會經(jīng)濟(jì)的發(fā)展重要應(yīng)用基礎(chǔ)設(shè)施?!癆I新基建”強(qiáng)調(diào)普惠性和低成本,其技術(shù)服務(wù)應(yīng)更加注意各種軟件技術(shù)的開源開放,鼓勵以模型庫、算法包、開放接口等方式向公眾提供各種服務(wù),降低技術(shù)門檻,提高開發(fā)效率?;谌斯ぶ悄芗夹g(shù)的企業(yè)文檔新基建,是企業(yè)文檔智能服務(wù)的基礎(chǔ),提供智能服務(wù)是未來的發(fā)展趨勢。但目前AI技術(shù)的應(yīng)用開發(fā)成本高,且具有較高的門檻。若企業(yè)根據(jù)每個業(yè)務(wù)需求都進(jìn)行一次AI技術(shù)研發(fā),那將消耗大量的人力物力資源,同時(shí),由于每個系統(tǒng)互不關(guān)聯(lián),隨著建設(shè)的規(guī)模越來越大,越來越復(fù)雜,維護(hù)成本也會呈直線增加,在新基建的背景下,如何將AI技術(shù)以更低的成本,更迅捷的方式應(yīng)用于文檔管理,是目前文檔智能服務(wù)急需解決的問題。

    為了更好的支撐企業(yè)文檔智能服務(wù),本文提出構(gòu)建面向企業(yè)文檔智能服務(wù)的AI中臺,來解決目前企業(yè)文檔在AI技術(shù)構(gòu)建與應(yīng)用方面的問題。AI中臺可以實(shí)現(xiàn)各種AI算法的集成和自由組合,以幫助企業(yè)更迅速的對前臺業(yè)務(wù)的變化做出反應(yīng)。但目前國內(nèi)外學(xué)界關(guān)于面向企業(yè)文檔智能服務(wù)的AI中臺的研究還較為少見,因此本文重點(diǎn)研究在于對面向企業(yè)文檔智能服務(wù)的AI中臺進(jìn)行構(gòu)建研究,旨在為AI中臺的建設(shè)提供理論依據(jù)。

    1 研究現(xiàn)狀

    通過對知網(wǎng)全文數(shù)據(jù)庫進(jìn)行遍歷,以“ (文檔管理 + 檔案管理 + 文件管理) * 人工智能、(文檔管理 + 檔案管理 + 文件管理) * 人工智能 * 企業(yè)、人工智能 * 中臺”這些檢索式在知網(wǎng)的全文數(shù)據(jù)庫中進(jìn)行檢索,篩選收集到相關(guān)的目標(biāo)文獻(xiàn)。在對文獻(xiàn)進(jìn)行篩選和梳理后,發(fā)現(xiàn)目前國內(nèi)關(guān)于AI技術(shù)在企業(yè)文檔智能服務(wù)中的應(yīng)用、AI技術(shù)的模塊化應(yīng)用以及AI中臺的發(fā)展的研究情況如下。

    1.1 AI技術(shù)在企業(yè)文檔智能服務(wù)中的應(yīng)用

    AI技術(shù)在文檔智能服務(wù)中的應(yīng)用主要有智能化鑒定、智能化檢索、智能化解讀、智能化利用等。[1][2]在“互聯(lián)網(wǎng)+”的背景下,網(wǎng)絡(luò)中存在大量的檔案信息資源,為了更好的利用這些資源,在對文檔進(jìn)行鑒定和解讀的基礎(chǔ)上可以利用AI技術(shù)以智能化的手段,如智能Agent技術(shù)、專家系統(tǒng)、知識圖譜等,來提供面向企業(yè)文檔的智能服務(wù),如智能檢索,智能解析等。

    目前,AI技術(shù)在國內(nèi)外企業(yè)文檔智能服務(wù)中均已取得了一定的成果。在國內(nèi)應(yīng)用中,科大訊飛股份有限公司將語音AI 技術(shù)應(yīng)用到音視頻檔案開發(fā)和利用中,實(shí)現(xiàn)口述檔案智能化征集;[3]東軟集團(tuán)利用人工智能技術(shù)在檔案管理系統(tǒng)中添加相關(guān)的業(yè)務(wù)規(guī)則,針對不同類型的檔案提供相應(yīng)的質(zhì)量校驗(yàn)?zāi)P?,并進(jìn)行自動化檢查。[4]國泰君安證券股份有限公司采用人臉識別技術(shù),對企業(yè)工作人員的照片或身份證信息進(jìn)行采集以及特征化處理,并提取相關(guān)片段,應(yīng)用于公司人物、專題等檔案編研,同時(shí)進(jìn)行身份核對,保證企業(yè)信息安全。[5]江蘇核電采用圖像識別技術(shù),對文檔進(jìn)行自動化識別,可自動發(fā)現(xiàn)海量掃描數(shù)據(jù)中的異常圖像并輔助文檔管理人員快速處理。[6]而在國外,微軟亞洲研究院提出了結(jié)合文檔結(jié)構(gòu)信息和視覺信息的通用文檔預(yù)訓(xùn)練模型 layoutLM,在表單理解、票據(jù)理解、文檔圖像分類等任務(wù)的測試中均取得了目前的最佳成績;[7]意大利羅馬特雷大學(xué)的學(xué)者將機(jī)器視覺技術(shù)運(yùn)用于梵蒂岡秘密檔案的轉(zhuǎn)錄工作,以解決傳統(tǒng)OCR識別技術(shù)對中世紀(jì)檔案文本識別誤差大、效率低的問題,從而提升檔案轉(zhuǎn)錄工作的精準(zhǔn)度和效率;比爾肯特大學(xué)研究人員提出建立一個基于場景的視頻監(jiān)控檔案查詢系統(tǒng)。該視頻監(jiān)控檔案查詢系統(tǒng)通過引入倒置追蹤方案,可以實(shí)現(xiàn)對以場景為單位移動對象的查詢和搜索,同時(shí),該系統(tǒng)配置了視覺查詢專屬界面,用以提升圖像檢索的精確度。[8]

    1.2 “AI樂高模式”到AI中臺

    AI技術(shù)的開發(fā)具有成本高,周期長,門檻高的特點(diǎn)。為了使AI技術(shù)能夠快速的在各種應(yīng)場景中進(jìn)行應(yīng)用,很多企業(yè)開發(fā)了AI平臺,以此提供各種AI技術(shù)的接口,以供用戶快速使用。如百度的AI開放平臺,騰訊AI開放平臺,阿里智能應(yīng)用平臺,京東AI開放平臺等,都可根據(jù)用戶提出的需求,直接調(diào)用組合平臺中的各種AI技術(shù),幫助用戶快速使用AI技術(shù)來面對各種業(yè)務(wù)場景。2020年10月12日,李彥宏在第三屆數(shù)字中國建設(shè)峰會上提出了“樂高模式”[9],指將各種技術(shù)能力模塊化,使用者根據(jù)具體的業(yè)務(wù)場景,可以對這些模塊化技術(shù)能力進(jìn)行自由組合,迅速搭建能夠應(yīng)對該需求的技術(shù)體系,AI技術(shù)的樂高模式可以幫助每一個企業(yè)以較低的門檻較為迅速的向智能化轉(zhuǎn)型。模塊化的人工智能技術(shù)體系調(diào)用也可被稱“U盤式創(chuàng)新”[10],即面對不同的業(yè)務(wù)場景,企業(yè)可以使用不同的人工智能“U盤”,即插即用,這種U盤式思想極大提升了人工智能的利用效率。

    在基礎(chǔ)設(shè)施智能化層面,AI技術(shù)應(yīng)用的樂高模式已成為未來的發(fā)展趨勢。而中臺的建設(shè)為AI技術(shù)“樂高模式”的發(fā)展提供了平臺。國內(nèi)最早建設(shè)中臺的公司是阿里巴巴,自從阿里巴巴集團(tuán)宣布啟動“中臺戰(zhàn)略”以來,中臺技術(shù)也受到了越來越多企業(yè)的關(guān)注。其中,AI中臺是對企業(yè)需要的算法模型提供了分步構(gòu)建和全生命周期管理的服務(wù),讓企業(yè)可以將自己的業(yè)務(wù)不斷以“模塊化”的形式下沉為一個個算法模型,以達(dá)到復(fù)用、組合創(chuàng)新、規(guī)?;瘶?gòu)建智能服務(wù)的目的及業(yè)務(wù)賦能的作用[11]。AI中臺可以作為“樂高模式”的具體實(shí)現(xiàn)方式,各種模塊化的AI技術(shù)能力集中在企業(yè)內(nèi)部的AI中臺中,基于AI中臺企業(yè)可以對內(nèi)部的AI技術(shù)及算法進(jìn)行集成化管理,并根據(jù)不同的業(yè)務(wù)需求對AI基礎(chǔ)算法進(jìn)行快速組合開發(fā),通過AI中臺的建設(shè)與使用,可以實(shí)現(xiàn)“AI樂高模式”從理論到實(shí)踐的轉(zhuǎn)化,AI中臺的構(gòu)建為“樂高模式”的實(shí)現(xiàn)提供了解決方案。目前,基于AI技術(shù)在文檔智能服務(wù)中的重要作用,若將AI中臺也應(yīng)用于文檔智能服務(wù)中,那對企業(yè)文檔智能服務(wù)發(fā)展也會有極大的提升。

    從以上相關(guān)研究中可以看出,AI技術(shù)的模塊化應(yīng)用已逐漸成為一種趨勢,同時(shí)AI技術(shù)在企業(yè)文檔智能服務(wù)中也有著重要的應(yīng)用,各大企業(yè)也正增加AI技術(shù)在其中的比重,但很少對相應(yīng)的AI技術(shù)進(jìn)行集中的訓(xùn)練與管理,更多的是根據(jù)不同的業(yè)務(wù)場景中進(jìn)行即時(shí)的選擇與開發(fā),造成了一定的資源冗余與浪費(fèi),且無法快速響應(yīng)業(yè)務(wù)需求的變化。在當(dāng)前的研究中,對面向企業(yè)文檔智能服務(wù)的AI中臺的構(gòu)建關(guān)注相對較少,這也為本文提供了研究空間。

    2 面向企業(yè)文檔智能服務(wù)的AI中臺建設(shè)需求分析

    根據(jù)文獻(xiàn)調(diào)研和企業(yè)在生產(chǎn)活動中的實(shí)踐,本文對面向企業(yè)文檔智能服務(wù)的AI中臺的建設(shè)需求進(jìn)行了分析,主要從文檔數(shù)字化、知識化和AI技術(shù)優(yōu)化兩方面進(jìn)行了梳理。

    2.1 文檔數(shù)據(jù)化、知識化的需求

    目前企業(yè)普遍對文檔的利用不夠充分且效率低下。文檔大部分以紙質(zhì)版的形式進(jìn)行存儲,利用效率較低,無法在數(shù)據(jù)層面對企業(yè)各文檔中蘊(yùn)含的知識進(jìn)行挖掘與深化,這樣企業(yè)難以從以往大量的文檔數(shù)據(jù)中獲取更多新的知識;同時(shí)在企業(yè)的各項(xiàng)信息化建設(shè)中,數(shù)據(jù)孤島的現(xiàn)象比較嚴(yán)重,文檔之間沒有建立完整的關(guān)系網(wǎng)絡(luò),各個項(xiàng)目之間的文檔信息之間沒有實(shí)現(xiàn)互通,無法形成共享數(shù)據(jù)池,為企業(yè)之后的各項(xiàng)任務(wù)提供接口和數(shù)據(jù)服務(wù);并且文檔中的各項(xiàng)知識元也缺少知識關(guān)聯(lián),在搜索某一關(guān)鍵詞時(shí),無法提供與之相關(guān)的完整的知識網(wǎng)絡(luò),現(xiàn)有系統(tǒng)難以回答有關(guān)機(jī)組的發(fā)散性、綜合性、開放性的問題。

    而AI技術(shù)的應(yīng)用可以為以上提到的企業(yè)文檔智能服務(wù)中存在的問題提供解決方法,企業(yè)文檔數(shù)字化、數(shù)據(jù)化、知識化已成為一種新的趨勢。其中OCR文字識別技術(shù)可幫助企業(yè)對紙質(zhì)檔案數(shù)字圖像文件中的各種字符進(jìn)行識別,實(shí)現(xiàn)文字轉(zhuǎn)換,是文檔從數(shù)字化向數(shù)據(jù)化轉(zhuǎn)化的重要步驟。這對推動紙質(zhì)檔案管理具有重要的意義;圖像識別技術(shù)可以幫助企業(yè)對圖像文檔中的各類特征進(jìn)行識別,如人、物、地點(diǎn)等,實(shí)現(xiàn)圖像文檔的智能管理;自然語言處理技術(shù)可對企業(yè)中不同類型的文檔進(jìn)行處理,以實(shí)現(xiàn)文檔的統(tǒng)一管理,消除信息孤島,同時(shí),自然語言處理技術(shù)可以將文檔中的非結(jié)構(gòu)化數(shù)據(jù)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),并按照相應(yīng)類別進(jìn)行存儲,利于后續(xù)企業(yè)文檔的圖譜化組織與構(gòu)建,形成企業(yè)文檔知識庫,構(gòu)建基于知識庫的智能問答應(yīng)用,提升文檔利用效率,以實(shí)現(xiàn)企業(yè)文檔表示結(jié)構(gòu)化、組織知識化、利用智能化,更好更快的面向各種個性化業(yè)務(wù)。

    2.2 AI技術(shù)優(yōu)化的需求

    隨著AI技術(shù)在企業(yè)文檔智能服務(wù)中的應(yīng)用,如何優(yōu)化AI技術(shù)的開發(fā)及利用,也成為了企業(yè)急需解決的問題。若每出現(xiàn)一個業(yè)務(wù)需求,都需要根據(jù)該業(yè)務(wù)場景進(jìn)行一輪分析、數(shù)據(jù)收集、數(shù)據(jù)整理,模型建立、模型訓(xùn)練,最后構(gòu)建系統(tǒng)進(jìn)行應(yīng)用,那將耗費(fèi)大量的時(shí)間和物力成本,AI技術(shù)開發(fā)周期長,成本高的特點(diǎn),將導(dǎo)致系統(tǒng)無法快速響應(yīng)快速變化的業(yè)務(wù)需求;同時(shí),AI技術(shù)的開發(fā)流程以及某些算法高度類似,通用化程度很高,如果缺乏規(guī)劃,對于每個業(yè)務(wù)需求,系統(tǒng)的開發(fā)都會經(jīng)歷完整的流程,會造成大量的重復(fù)建設(shè),在這樣不斷重復(fù)的過程中,建設(shè)的系統(tǒng)會越來越多,即意味著矗立的煙囪越來越多,長此以往,整個系統(tǒng)的規(guī)模越來越大,系統(tǒng)越來越復(fù)雜,維護(hù)人力和成本直線增加,但效果卻不盡人意。并且各系統(tǒng)之間互不相通,各部門的文檔數(shù)據(jù)缺乏連貫性,信息無法共享。AI系統(tǒng)也無法從這些大量的文檔數(shù)據(jù)中更快更準(zhǔn)確的挖掘出其中蘊(yùn)含的信息,為業(yè)務(wù)決策提供更精準(zhǔn)的支撐。由此可見,企業(yè)在實(shí)現(xiàn)文檔數(shù)字化、化知識化之后,需要進(jìn)一步實(shí)現(xiàn)AI技術(shù)系統(tǒng)敏捷開發(fā),降低系統(tǒng)耦合度,和信息互通。

    針對以上需求,面向企業(yè)文檔智能服務(wù)的AI中臺的建立能幫助企業(yè)在實(shí)現(xiàn)文檔數(shù)字化、知識化之余,把各種通用AI技術(shù)能力算法、標(biāo)準(zhǔn)下沉,形成通用的算法池,這樣在面對新的業(yè)務(wù)需求時(shí),可對算法池的各項(xiàng)算法能力進(jìn)行靈活組配,調(diào)取即用,以此來減輕后臺系統(tǒng)的運(yùn)算負(fù)擔(dān),快速響應(yīng)前臺業(yè)務(wù)變化。同時(shí)算法池的實(shí)現(xiàn)易于AI技術(shù)能力的擴(kuò)展和自我學(xué)習(xí),在需要更新和維護(hù)時(shí),只需維護(hù)更新AI中臺算法能力,即可實(shí)現(xiàn)對所有應(yīng)用系統(tǒng)的技術(shù)升級,這樣的快速迭代,可極大降低人力物力成本。

    3 企業(yè)文檔AI中臺技術(shù)模型與實(shí)現(xiàn)路徑

    本文以中臺思想為基礎(chǔ),對面向企業(yè)文檔智能服務(wù)的AI中臺模型進(jìn)行初步的構(gòu)建,包括數(shù)據(jù)層、AI基礎(chǔ)設(shè)施層、文檔AI能力層。并根據(jù)AI技術(shù)在文檔管理中的應(yīng)用,對中臺中進(jìn)行應(yīng)用的AI技術(shù)進(jìn)行優(yōu)選。

    3.1 面向企業(yè)文檔智能服務(wù)的AI中臺架構(gòu)

    百度作為中國AI的先行者,在AI技術(shù)領(lǐng)域有著較為明顯的優(yōu)勢,目前,百度智能云已為國家電網(wǎng)、央視等客戶提供了產(chǎn)品與方案,效果良好,架構(gòu)通用性和適用性較強(qiáng)。因此,本文參考百度智能云的AI中臺架構(gòu)[12],在此基礎(chǔ)上構(gòu)建面向企業(yè)文檔智能服務(wù)的AI中臺架構(gòu)。百度智能云的AI中臺主要包括開發(fā)中心和資產(chǎn)中心,開發(fā)中心主要包括數(shù)據(jù)處理、資源調(diào)度和模型生產(chǎn)三個部分,數(shù)據(jù)處理、資源調(diào)度主要是為上層模型構(gòu)建提供底層資源,以便其進(jìn)行模型構(gòu)建和訓(xùn)練;資產(chǎn)中心主要包括模型中心、能力中心和資產(chǎn)共享中心,主要是根據(jù)下層的模型訓(xùn)練進(jìn)行算法集成,形成各種可調(diào)用的AI能力??紤]到該AI中臺主要是將其內(nèi)部的各種技術(shù)及算法提供給其他的公司使用,且面向企業(yè)文檔智能服務(wù)的AI中臺主要是以文檔為主要數(shù)據(jù)源,采用的AI技術(shù)服務(wù)于文檔管理,與百度的AI中臺有較大的差異,因此本文在此基礎(chǔ)上,結(jié)合AI技術(shù)在檔案管理中的實(shí)際應(yīng)用情況,將文檔AI中臺分為了數(shù)據(jù)層、AI基礎(chǔ)設(shè)施層、AI集成算法層。企業(yè)文檔AI中臺構(gòu)架如圖1所示。

    圖1 面向企業(yè)文檔智能服務(wù)的AI中臺架構(gòu)圖

    3.1.1 數(shù)據(jù)層

    數(shù)據(jù)層的數(shù)據(jù)存儲于數(shù)據(jù)庫,是數(shù)據(jù)庫中被指定用于上層算法模型訓(xùn)練的數(shù)據(jù),主要是企業(yè)中各個業(yè)務(wù)所產(chǎn)生的文檔數(shù)據(jù),包括各種文件數(shù)據(jù)如公文、信函、生產(chǎn)文件;信息系統(tǒng)數(shù)據(jù)如技術(shù)文件;檔案如工作記錄等,同時(shí)數(shù)據(jù)層具備對文檔數(shù)據(jù)中數(shù)據(jù)的獲取、聚合能力,如從文檔數(shù)據(jù)中獲取各種三元組,形成“知識庫”,這些基于文檔的關(guān)聯(lián)數(shù)據(jù),可以作為構(gòu)建語義檢索模型數(shù)據(jù)集,訓(xùn)練語義檢索模型,并且用于文檔類別模型的自動聚類與分類。數(shù)據(jù)層對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行清洗,篩選,標(biāo)注,提供跨域數(shù)據(jù)的治理能力,并將可用數(shù)據(jù)抽象封裝成服務(wù),作為AI中臺模型訓(xùn)練的數(shù)據(jù)基礎(chǔ)。同時(shí),數(shù)據(jù)層可以規(guī)定企業(yè)文檔數(shù)據(jù)的固定格式,以避免各種不規(guī)范的文檔后續(xù)難以利用的問題,方便計(jì)算機(jī)的統(tǒng)一識別、整理與提取。

    3.1.2 AI基礎(chǔ)設(shè)施層

    AI新基建強(qiáng)調(diào)各類通用技術(shù)的開源開放,以開放接口、模型庫、算法包等形式向公眾提供開放共享式的服務(wù),AI基礎(chǔ)設(shè)施層作為中臺的底層通用算法訓(xùn)練層,是將各項(xiàng)最基本AI算法能力池化,以便上層進(jìn)行調(diào)用組裝。本文擬構(gòu)建多個AI算法池,包括文字識別、圖像識別、自然語言處理這些與文檔管理緊密相關(guān)的算法,同時(shí)提供外部算法的接入接口。AI基礎(chǔ)設(shè)施層將構(gòu)建成為各項(xiàng)算法的底層“基板”,利用數(shù)據(jù)層提供的數(shù)據(jù),對其進(jìn)行進(jìn)一步的提取與解析,以此為基礎(chǔ)進(jìn)行AI學(xué)習(xí)、預(yù)測、分析,形成可復(fù)用的模型庫。AI基礎(chǔ)設(shè)施層是在滿足技術(shù)算法集成化和文檔數(shù)據(jù)進(jìn)一步處理要求的同時(shí),將各個算法進(jìn)行模塊化解耦,滿足外部算法的快速集成與未來新算法的持續(xù)擴(kuò)展。

    3.1.3 文檔 AI能力層

    文檔AI能力層是根據(jù)不同的文檔智能服務(wù)需求,對AI基礎(chǔ)設(shè)施層中各項(xiàng)基本算法進(jìn)行拼接整合后,形成面向不同智能服務(wù)的AI技術(shù)能力,即形成各種AI“工具包”,以解決不同業(yè)務(wù)場景的需要,例如面向文檔領(lǐng)域的專有命名實(shí)體識別能力,可以對其直接調(diào)用以識別紙質(zhì)文檔中不同文本類型中包含的實(shí)體:首先通過OCR技術(shù)對文本進(jìn)行掃描,對于表格文本和圖像還需使用表格識別和圖像識別技術(shù),再通過自然語言處理技術(shù)中的專有名詞識別技術(shù)進(jìn)行實(shí)體識別,以到達(dá)預(yù)期效果。類似的AI技術(shù)能力還有面向知識圖譜構(gòu)建的文本關(guān)系抽取、面向智能問答的自然語言語義解析、面向圖片分類的對象檢測場景識別、面向人物照片分類的人臉識別等,這些AI技術(shù)能力提供可統(tǒng)一調(diào)用的接口,如HTTP RESTful API、應(yīng)用程序SDK等,以便滿足系統(tǒng)AI能力調(diào)用和集成需求,從而能更加敏捷的對各種智能服務(wù)做出反應(yīng)。

    3.2 AI中臺的技術(shù)實(shí)現(xiàn)路徑

    依據(jù)層次模型的架構(gòu),AI中臺得以更好支持前臺創(chuàng)新的關(guān)鍵在于AI應(yīng)用能力的建設(shè)。一方面,需要技術(shù)基礎(chǔ)設(shè)施的構(gòu)建;另一方面,AI中臺還需實(shí)現(xiàn)能高效迭代、敏捷響應(yīng)的一系列AI應(yīng)用開發(fā)流程?;谄髽I(yè)文檔數(shù)據(jù)的管理閉環(huán),AI中臺需要提供統(tǒng)一的數(shù)據(jù)存儲、模型訓(xùn)練以及模塊部署與接口調(diào)用等,因而優(yōu)選人工智能技術(shù)和搭建AI應(yīng)用敏捷化開發(fā)通用流程是技術(shù)實(shí)現(xiàn)路徑的重點(diǎn)。

    3.2.1 人工智能技術(shù)的優(yōu)選

    作為支撐AI基礎(chǔ)設(shè)施層的重要組成部分,人工智能技術(shù)需要基于細(xì)分技術(shù)或算法來集成AI中臺三大算法池。而針對文檔管理方面尤其是文檔對象識別、語義分析、關(guān)系抽取等方面的應(yīng)用,需要優(yōu)選相關(guān)技術(shù)并形成一定的AI體系。

    基于企業(yè)文檔智能服務(wù)的業(yè)務(wù)場景需求,技術(shù)優(yōu)選的原則如下。除了必須包含機(jī)器學(xué)習(xí)、深度學(xué)習(xí)作為核心基礎(chǔ),大多數(shù)AI技術(shù)也往往與其他人工智能組合使用或者作為輔助為需求決策服務(wù);原則上選取的技術(shù)應(yīng)當(dāng)在文檔智能管理方面已有廣泛的應(yīng)用場景和可行性,能夠完成對文檔的識別、知識提取和關(guān)聯(lián)乃至進(jìn)一步分析挖掘及可視化,以支撐企業(yè)智能服務(wù)的具體功能應(yīng)用。另外,AI中臺系統(tǒng)優(yōu)化和數(shù)據(jù)存儲維護(hù)勢必還依賴于基于云平臺或邊緣計(jì)算平臺的底層數(shù)據(jù)管理技術(shù),才能保證自下而上的正常運(yùn)行。

    據(jù)此,自然語言處理、OCR識別、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、智能查詢、用戶畫像技術(shù)、數(shù)據(jù)可視化和數(shù)據(jù)存儲等底層數(shù)據(jù)管理技術(shù)成為企業(yè)文檔智能管理中更為適用、常見的技術(shù)。而在體系架構(gòu)層面,人工智能技術(shù)體系的分類研究尚未形成統(tǒng)一的觀點(diǎn),但由于人工智能作為多學(xué)科交叉結(jié)果和通用型技術(shù),在企業(yè)文檔智能管理方面的應(yīng)用處于更為更新快速、變化劇烈的動態(tài)發(fā)展?fàn)顟B(tài),它同上下游的相關(guān)技術(shù)和應(yīng)用一起形成錯綜復(fù)雜的技術(shù)體系網(wǎng)絡(luò)。為求全面,本文參考沈應(yīng)龍的研究[13],遵循根技術(shù)、核心共性技術(shù)、智能應(yīng)用技術(shù)的層次分類提出AI中臺的人工智能技術(shù)體系(見圖2),作為AI中臺架構(gòu)過程中應(yīng)用AI技術(shù)賦能、開發(fā)應(yīng)用的參考和基礎(chǔ)。

    圖2 面向企業(yè)文檔智能管理的人工智能技術(shù)體系

    3.2.2 面向智能服務(wù)的AI應(yīng)用敏捷化開發(fā)

    AI中臺的核心是將算法模型融入進(jìn)來構(gòu)建上層智慧服務(wù),通過不同能力的組配和功能邏輯實(shí)現(xiàn)、構(gòu)筑多種不同的應(yīng)用,從而實(shí)現(xiàn)面向智能服務(wù)需求的快速迭代、有效復(fù)用。因此其減少重復(fù)建設(shè)的點(diǎn)就在于,將每一個業(yè)務(wù)所拆解的AI應(yīng)用開發(fā)任務(wù)都需經(jīng)過的通用開發(fā)流程步驟集成為算法設(shè)施,實(shí)現(xiàn)敏捷化開發(fā)。

    從開發(fā)生命周期來看(見圖3),每個AI應(yīng)用的開發(fā)大體都經(jīng)過業(yè)務(wù)需求理解、模型能力學(xué)習(xí)、模塊集成處理三大層面的流程步驟[14][15],并加以迭代更新。

    圖3 面向智能服務(wù)的AI應(yīng)用敏捷化開發(fā)流程

    (1)業(yè)務(wù)需求理解

    根據(jù)業(yè)務(wù)需求設(shè)計(jì)實(shí)施開發(fā)方案、服務(wù)編排、服務(wù)共享。分析技術(shù)需求,明確數(shù)據(jù)獲取要求、模型訓(xùn)練任務(wù)和應(yīng)用開發(fā)的部署封裝指導(dǎo)。

    (2)模型能力學(xué)習(xí)

    包括數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注特征工程和模型訓(xùn)練等。

    獲取數(shù)據(jù)(可能包括文檔“知識庫”數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、用戶交互數(shù)據(jù)等),對數(shù)據(jù)進(jìn)行標(biāo)注和重新加工,最終輸出模型訓(xùn)練數(shù)據(jù)和生產(chǎn)數(shù)據(jù)。隨后依據(jù)模型服務(wù)任務(wù)、訓(xùn)練數(shù)據(jù)和其他相關(guān)信息進(jìn)行模型能力學(xué)習(xí)。實(shí)施過程中首先進(jìn)行特征處理,再將特征輸入模型進(jìn)行編碼和訓(xùn)練;將模型訓(xùn)練結(jié)果輸入模型追蹤的功能組件進(jìn)行模型評估;最終經(jīng)過迭代獲得最優(yōu)訓(xùn)練模型輸出。

    (3)模塊集成處理

    將訓(xùn)練的模型能力進(jìn)行模塊化組裝構(gòu)建,以“樂高模式”進(jìn)行AI應(yīng)用能力管理。對業(yè)務(wù)和技術(shù)需求調(diào)整具體參數(shù)配置,通過接口調(diào)用的形式完成能力組配和功能邏輯實(shí)現(xiàn),構(gòu)筑面向企業(yè)文檔智能服務(wù)多態(tài)化需求的不同應(yīng)用系統(tǒng)。

    面向智能服務(wù)的AI應(yīng)用敏捷化開發(fā)流程整體呈現(xiàn)半閉環(huán)狀態(tài),基于業(yè)務(wù)場景、技術(shù)需求進(jìn)行模型學(xué)習(xí)和能力構(gòu)建,經(jīng)過評估和部署的模型完成開發(fā)并進(jìn)入性能監(jiān)控階段,從而進(jìn)一步實(shí)現(xiàn)模型的應(yīng)用、完成文檔數(shù)據(jù)的分析與展示,實(shí)現(xiàn)AI能力開發(fā)后的模塊化功能集成與接口調(diào)用。

    4 AI中臺在企業(yè)文檔智能服務(wù)的應(yīng)用分析

    4.1 文檔業(yè)務(wù)維度

    企業(yè)文檔工作主要包括收集、管理和利用三個環(huán)節(jié),在收集文檔數(shù)據(jù)的基礎(chǔ)上,面向智能服務(wù)的文檔管理是手段、文檔利用是最終目的[16],AI中臺的構(gòu)建應(yīng)用大幅提升了企業(yè)在文檔業(yè)務(wù)不同階段的潛力。

    一方面,AI中臺通過對基于文檔知識數(shù)據(jù)的算法能力復(fù)用,更方便從大量文檔中快速準(zhǔn)確地挖掘信息,充分利用企業(yè)隱性知識,從知識層面加強(qiáng)文檔管理[17]。AI中臺建立通用算法池,避免了算法能力的重復(fù)建設(shè),所有算法只需要開發(fā)一遍再進(jìn)行實(shí)時(shí)調(diào)用即可;通用算法池作為中間調(diào)度板塊,加強(qiáng)了文檔管理系統(tǒng)與其它管理平臺的集成與關(guān)聯(lián)程度,促進(jìn)企業(yè)內(nèi)部的信息互通、知識共享。在文檔管理粒度精細(xì)化的基礎(chǔ)上,中臺的應(yīng)用從分發(fā)、檢索、存儲管理等方面提升了對文檔全流程聯(lián)動管理的效率,進(jìn)而能夠靈活響應(yīng)業(yè)務(wù)需求變化。

    另一方面,AI中臺對企業(yè)文檔信息的利用模式,是將數(shù)據(jù)模型服務(wù)與業(yè)務(wù)解決方案之間進(jìn)行連接,使每個層級都有用以提供文檔挖掘能力的可復(fù)用機(jī)制。集成AI算法能力的技術(shù)池,能避免所需應(yīng)用能力的重復(fù)建設(shè),在不同場景需求的功能要求下直接調(diào)用、集成其中相關(guān)的AI算法能力,再進(jìn)一步對文檔內(nèi)容進(jìn)行提煉、加工,更便捷高效地完成信息編研和知識服務(wù),從而達(dá)到直接面向企業(yè)文檔智能服務(wù)應(yīng)用、提高文檔挖掘開發(fā)程度與信息利用率的效果。

    4.2 企業(yè)管理維度

    (1)技術(shù)優(yōu)化效益

    AI中臺在企業(yè)文檔智能服務(wù)中的應(yīng)用將實(shí)現(xiàn)一種全局化管理的技術(shù)優(yōu)化,它通過人工智能的模塊化集成調(diào)用組合形成創(chuàng)新的技術(shù)產(chǎn)品的模式,搭建出可以實(shí)時(shí)調(diào)用技術(shù)能力的中間層平臺。通過實(shí)現(xiàn)技術(shù)優(yōu)化,更方便根據(jù)業(yè)務(wù)需求所屬場景和領(lǐng)域進(jìn)行高效組配、敏捷開發(fā),從而達(dá)到快速響應(yīng);也使得底層算法與面向需求的技術(shù)能力相對獨(dú)立分離,能對文檔非結(jié)構(gòu)化數(shù)據(jù)快速結(jié)構(gòu)化、語義化,提升數(shù)據(jù)價(jià)值和文檔利用率,以增強(qiáng)中臺效益的可持續(xù)性。

    (2)人員組織增益

    面向企業(yè)文檔智能服務(wù)的AI中臺在一定程度上能有效解決“重復(fù)造輪子”問題,進(jìn)而降低開發(fā)成本,在一定程度上減少技術(shù)人員消耗。中臺理論本就是為打破煙囪式開發(fā)弊端而興起的算法能力模塊化調(diào)用思想,其本身即為多個系統(tǒng)建設(shè)應(yīng)用打造一般化的“中央調(diào)度中心”,大大較少了項(xiàng)目建設(shè)的人力物力消耗;而AI中臺則更進(jìn)一步充分利用人工智能技術(shù)算法為中臺的敏捷化開發(fā)賦能。AI中臺的有效復(fù)用性得以加速文檔利用周期、有效提升業(yè)務(wù)人員和文檔管理者的工作效率;同時(shí),企業(yè)從低產(chǎn)能階段得到改善文檔工作流程、優(yōu)化企業(yè)業(yè)務(wù)流程的創(chuàng)新機(jī)會,從而能進(jìn)一步優(yōu)化組織結(jié)構(gòu)。

    (3)制度創(chuàng)新成果

    在信息化智慧化需求越發(fā)普遍的企業(yè)環(huán)境中,AI中臺對于以文檔智能管理為核心業(yè)務(wù)的大中小型企業(yè)都將實(shí)現(xiàn)制度化模式轉(zhuǎn)型。人工操作到算法智能的進(jìn)步,使得基于文檔智能服務(wù)的建設(shè)成果完成從傳統(tǒng)文檔管理模式到數(shù)字文檔管理模式再向文檔智能管理模式的有效轉(zhuǎn)型。而得益于文檔工作模式的轉(zhuǎn)變,AI中臺能進(jìn)一步實(shí)現(xiàn)文檔的知識化活化,在完善企業(yè)化建設(shè)的基礎(chǔ)上,向業(yè)務(wù)驅(qū)動、AI加持、知識服務(wù)的3.0時(shí)代邁進(jìn)。

    5 結(jié)語

    隨著 AI 的深度發(fā)展與應(yīng)用,檔案領(lǐng)域不可避免卷入AI浪潮中,為突破企業(yè)文檔管理工作中的棘手問題,提供新的機(jī)遇,中臺的建設(shè)引起了眾多企業(yè)的關(guān)注。本文借助中臺思想,構(gòu)建了面向企業(yè)文檔智能服務(wù)的AI中臺整體框架,并對AI中臺的構(gòu)建流程進(jìn)行了簡單的介紹,同時(shí)對AI中臺應(yīng)用的效益進(jìn)行了分析介紹。一方面,當(dāng)前國內(nèi)對于中臺結(jié)合人工智能技術(shù)應(yīng)用相關(guān)的文獻(xiàn)極少,對企業(yè)文檔智能管理的研究也尚處于起步階段,本文從理論層面貢獻(xiàn)了此類問題的創(chuàng)新研究角度與突破點(diǎn);另一方面,文章針對新時(shí)代企業(yè)文檔智能管理的需求提出了AI中臺的層次模型架構(gòu)與技術(shù)實(shí)現(xiàn)路徑,對企業(yè)具有一定的實(shí)踐指導(dǎo)意義。但整體而言,面向企業(yè)文檔智能服務(wù)的AI中臺在企業(yè)工作中的應(yīng)用還處于嘗試和探索階段,需要經(jīng)過實(shí)踐來不斷完善,這也是下一步研究的重點(diǎn)。

    猜你喜歡
    中臺文檔智能
    中臺是媒體轉(zhuǎn)型必經(jīng)之路嗎?
    ——媒體中臺建設(shè)的特點(diǎn)和誤區(qū)
    視聽界(2021年2期)2021-11-27 00:30:14
    有人一聲不吭向你扔了個文檔
    關(guān)于零售企業(yè)“中臺”建設(shè)的研究
    汽車制造企業(yè)質(zhì)量中臺研究
    以技術(shù)開發(fā)中心為中臺,數(shù)字化轉(zhuǎn)型之見解
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    广东省| 新宁县| 张家界市| 成都市| 沧源| 怀来县| 疏勒县| 余干县| 彩票| 偃师市| 卓资县| 玛多县| 滨州市| 祁连县| 博爱县| 邛崃市| 宣汉县| 中方县| 策勒县| 蒙城县| 鲁山县| 合水县| 罗田县| 唐河县| 班玛县| 崇明县| 普定县| 莒南县| 马公市| 光山县| 石河子市| 明光市| 思茅市| 友谊县| 枝江市| 枝江市| 襄城县| 普定县| 公安县| 临安市| 延庆县|