• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于AI技術(shù)的新媒體自動采編系統(tǒng)設(shè)計

      2022-09-14 02:30:58
      中國新技術(shù)新產(chǎn)品 2022年11期
      關(guān)鍵詞:資料庫分詞架構(gòu)

      楊 昆

      (辰溪縣融媒體中心,湖南 懷化 419500)

      0 引言

      在網(wǎng)絡(luò)快速發(fā)展的今天,新媒體的自動采編系統(tǒng)為媒體事業(yè)的發(fā)展奠定了堅實的技術(shù)基礎(chǔ)。但是,由于目前的采編系統(tǒng)功能較為單一,缺乏完整的作品分享庫,且存在權(quán)限不明確等問題,造成了工作效率低下,同時也不能保障系統(tǒng)資源的安全性。針對上述問題,該文提出一種基于AI技術(shù)的新型新媒體采編系統(tǒng)。能夠?qū)崿F(xiàn)新媒體內(nèi)容的網(wǎng)上協(xié)同工作,以及稿件資源的共享,將業(yè)務(wù)和辦公相結(jié)合,為企業(yè)的新媒體采編業(yè)務(wù)發(fā)展提供了一套完整的解決方案。在系統(tǒng)模塊的設(shè)計上,通過層次劃分,把控制層、服務(wù)層、數(shù)據(jù)層、應(yīng)用層等層次進行了劃分,使整個系統(tǒng)更加高效,更加好維護。在功能設(shè)計上,要充分考慮到新媒體的特性和不同的編輯生產(chǎn)要求,從而提高編輯處理系統(tǒng)的實用性。另外,還要考慮到系統(tǒng)的安全需求。從系統(tǒng)的可用性角度出發(fā),針對系統(tǒng)的具體應(yīng)用進行了測試,從功能和非功能兩個方面進行了驗證,結(jié)果表明該系統(tǒng)是可行的,滿足了對采編流程優(yōu)化、圖片管理、績效管理等功能性要求以及易用性、可靠性和安全性等非功能性要求。利用人工智能技術(shù),設(shè)計出一套新媒體的自動化采編系統(tǒng),實現(xiàn)了網(wǎng)上采編的全過程,以及新媒體辦公的集成系統(tǒng)。

      1 新媒體自動采編系統(tǒng)功能分解

      1.1 系統(tǒng)功能設(shè)計

      在基于AI技術(shù)的新媒體采編系統(tǒng)開發(fā)的流程中,結(jié)構(gòu)設(shè)計具有重大作用。在此基礎(chǔ)上,該文將整個采寫體系的總體框架劃分成五層,從底層到頂層,分別是平臺層、數(shù)據(jù)層、應(yīng)用層和用戶層。具體內(nèi)容如圖1所示。

      圖1 系統(tǒng)邏輯結(jié)構(gòu)圖

      平臺級為操作系統(tǒng),包括應(yīng)用服務(wù)器集群、緩存服務(wù)器集群以及系統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)。在已有的數(shù)據(jù)架構(gòu)基礎(chǔ)上,使用MySQL數(shù)據(jù)庫,并能適應(yīng)當前的爬蟲界面、檢索界面等。整合異質(zhì)的數(shù)據(jù)和信息來源,提供一個單一的接入端口,并針對不同的客戶需要,為其提供相應(yīng)的接口和服務(wù)。接受和檢視相關(guān)的資料,并執(zhí)行相關(guān)的交易。按照其對應(yīng)的服務(wù)職能,將其劃分成2類,即后臺管理和前端系統(tǒng)。由于該系統(tǒng)是對多個服務(wù)器進行采編,因此需要對各服務(wù)器進行不同的設(shè)計,將資料整理、文章編輯和審核等部分置于內(nèi)聯(lián)網(wǎng)的狀態(tài)下,服務(wù)器就是內(nèi)部網(wǎng)路伺服器,采購者可以利用網(wǎng)路接入外部網(wǎng)路伺服器傳送來自附近的突發(fā)訊息。根據(jù)新聞編輯體系結(jié)構(gòu),將外部網(wǎng)絡(luò)的用戶分成2個部分,即移動電話等平面媒體以及計算機的瀏覽。移動電話使用者通過移動電話或微信進行登錄,而PC瀏覽者則可以通過計算機上所安裝的瀏覽器進行登錄。在材料收集者找到新的材料后,可以不受時間和設(shè)備的限制,將所收集的材料迅速地存儲在資料庫中。在內(nèi)聯(lián)網(wǎng)環(huán)境下,使用者可以利用PC上的網(wǎng)頁,對收集到的資料進行整理、編輯和修改,并在審查后上傳至相關(guān)的網(wǎng)站。

      1.2 人工智能采編流程設(shè)計

      對相關(guān)軟件來說,快速檢索和良好的數(shù)據(jù)處理是非常關(guān)鍵的。該文的應(yīng)用程序采用了MySQL的數(shù)據(jù)庫,該系統(tǒng)的數(shù)據(jù)庫按以下步驟進行。1) 需求剖析。與新傳媒員工進行溝通與交流,跟著工作人員深入現(xiàn)場,觀摩從收集到發(fā)行的全流程,對企業(yè)的主要經(jīng)營行為進行紀錄和剖析,進而對數(shù)據(jù)庫的設(shè)計需求進行深入剖析。2) 概念性架構(gòu)的設(shè)計。利用此步驟建立資料的概念化模型,并對資料庫的邏輯架構(gòu)進行規(guī)劃,反映出資料庫的運作方式。3) 邏輯架構(gòu)的設(shè)計。依據(jù)前一步所提的概念模型,對數(shù)據(jù)庫進行邏輯架構(gòu)的規(guī)劃,以反映企業(yè)的業(yè)務(wù)邏輯。4) 實體架構(gòu)的設(shè)計。在此基礎(chǔ)上,根據(jù)所選取的資料庫和所設(shè)計的邏輯架構(gòu)來決定資料庫中各個資料庫的具體實施方法。5) 數(shù)據(jù)庫實現(xiàn)。根據(jù)上述步驟所設(shè)計的邏輯與實體架構(gòu),構(gòu)建一個資料庫及其對應(yīng)的數(shù)據(jù)庫,將資料儲存在資料庫內(nèi),并透過執(zhí)行來確認資料庫的合理性,若有不符合要求的情況,則即時變更資料庫與資料表的型式。6) 資料庫操作與維修。上述各工作步驟完成后,資料庫將正式投入使用,并要求系統(tǒng)管理員與維修者追蹤記錄資料庫的運作狀況,特別是在初期,出現(xiàn)問題后能即時處理。

      2 軟件設(shè)計

      新媒體自動采編系統(tǒng)需要解決的是熱點信息的收集與整理,實現(xiàn)對敏感熱詞的自動化確認、搜索、識別和采集,并經(jīng)過整理后完成文稿提交。因此偵搜熱點信息是新媒體自動采編的核心組成。

      2.1 熱詞偵搜算法設(shè)計

      要實現(xiàn)智能化的文字潤色,須有包括大量優(yōu)秀表達語句的語料庫。對該文的研究而言,干擾信息大多是廣告、作者信息和叢書信息等,這些信息本身的標簽權(quán)重值就較低。因此,基于AI技術(shù)的新媒體自動采編系統(tǒng)熱詞偵搜信息算法即可滿足需求,去除干擾信息的算法如公式(1)所示。

      式中:為輸入的新媒體文章序列;為輸出的總媒體文章序列;為序列的標簽;()為標簽過濾函數(shù)。

      標簽權(quán)重在0.5及以下時,基本是屬于無法為文字潤色提供服務(wù)的干擾文本信息。因此,標簽權(quán)重低于0.5的文章序列將被濾除。去除干擾信息之后的內(nèi)容資源就可以進行資源拆分了,資源拆分主要是為了提高資源處理效率。將一篇文檔拆分成多個文本片段,可以按段拆分,也可以按句拆分。拆分完成的文本片段包括的數(shù)據(jù)量大幅縮小,為后續(xù)的分詞處理環(huán)節(jié)提供了便利。

      分詞算法的3個層級表達如下:第一個層級為“詞語最大長度匹配”,它的含義為分詞結(jié)果都是從詞語庫中能夠匹配的最長詞語。第二個層級為“拆分詞組最少匹配方案”,它的含義為拆分后獲得的詞語個數(shù)最少的方案為最終選取的方案。第三個層級為“最小詞方差匹配方案”。如果前2個層級都無法很好地獲取到分詞結(jié)果,就需要使用第三個層級的分詞方案進行分詞?!白钚≡~方差匹配方案”的表達如公式(2)所示。

      式中:,…,L為各種分詞方案輸出的不同詞語序列;L為詞語序列L的詞語長度方差。

      方差最小的分詞結(jié)果即是當前方案下的輸出,拆分后的文本片段通過上述分詞環(huán)節(jié)能夠輸出大量詞語,這些詞語會作為基本元素存儲到基礎(chǔ)資源庫中。基礎(chǔ)資源庫里存儲的資源是經(jīng)過分詞處理之后的文本片段,要實現(xiàn)對用戶輸入內(nèi)容的語義理解,還需要對這些資源進行語義處理。關(guān)鍵詞提取功能能夠提取一段內(nèi)容的關(guān)鍵詞。關(guān)鍵詞是描述這段文字的核心信息,它可以代表這段文字的主題,根據(jù)研究本身的特征設(shè)計了如公式(3)和公式(4)所示的關(guān)鍵詞提取算法。

      式中:()為詞語出現(xiàn)的詞頻;n為詞語在輸入文本序列中出現(xiàn)的次數(shù);x為詞語所在句子的標簽權(quán)重;()為詞語i的關(guān)鍵詞權(quán)重值;為用一個完整標簽的輸入文本序列總個數(shù);M為包括詞語的用一個完整標簽的文本序列總個數(shù)。

      為降低某些常用詞語帶來的影響,在算法中引入了詞頻計算因子。概念擴展功能能夠在提取關(guān)鍵詞后使用關(guān)鍵詞和語義網(wǎng)進行概念擴展,將多個相同的概念指向同一段文字,以豐富、擴展檢索的內(nèi)容。根據(jù)公式(1)~公式(5),基于AI技術(shù)的新媒體自動采編系統(tǒng)偵搜熱點信息設(shè)計成立,可方便下一步的自動采編設(shè)計。

      2.2 新聞自動采編設(shè)計

      多渠道信息采集是新聞素材的來源,該體系可以采用多種方法進行收集。可以采用常規(guī)方法,將收集到的材料通過數(shù)據(jù)庫進行整理和存儲;也可以通過爬蟲技術(shù)獲取對應(yīng)網(wǎng)站的信息,除收集工作者積極收集資料,也可由讀者自行撰寫,材料獲取的模塊框架如圖2所示。

      圖2 素材采集功能模塊圖

      當收集到的材料被上傳時,首先將收集到的材料放在MaterailAdd.php頁面中,然后在相應(yīng)的頁面中單擊“加入”,把材料加入名為“材料管理類”的MaterailController.php中,隨后材料被錄入“材料表格”中。如果此資訊被成功地錄制,將會傳回已儲存的資訊,反之,會顯示儲存已失效。不合格的理由是必須填好的資料或者所填資料超出了字數(shù)的限度,收集者所提供的錯誤資訊會被重新修改和儲存。在執(zhí)行檢索功能時,在用戶界面中鍵入檢索關(guān)鍵詞或選定時段進行檢索,然后將所選的關(guān)鍵詞和所選定的時段發(fā)送至材料控件,利用此類中的方式,從資料庫中檢索出相應(yīng)的資料,并將檢索的結(jié)果反饋給資料庫,若檢索的結(jié)果超過10條將會出現(xiàn)頁面,如果未找到將會自動刪除。

      2.3 系統(tǒng)管理模塊

      系統(tǒng)管理員也被稱為超級管理員,具備上述用戶的全部功能,管理用戶、部門和角色,其功能架構(gòu)如圖3所示。

      圖3 系統(tǒng)管理功能結(jié)構(gòu)圖

      用戶的基本資料管理主要有添加用戶、刪除用戶和修改用戶基本資料等,用戶基本資料的管理有用戶名稱、密碼、角色權(quán)限以及所屬單位等。部門的信息管理功能包括新增部門、刪除部門和修改部門基本資料等,部門的變化很小,將部門的屬性被設(shè)定為0不會出現(xiàn)部門被刪除的情況。管理員對部門進行管理時,可以在頁面上對其進行增加、刪除和修改,將操作信息發(fā)送給項目控件,利用這個模塊中的方式,在類中使用相應(yīng)的方式,可以增加新的欄目,可以從欄目類別中移出方法,在邏輯類別中進行調(diào)用,進而可以對條目的內(nèi)容進行編輯。按照上述的步驟,對資料庫的欄目表進行相應(yīng)更改,并將作業(yè)后的資料反饋至系統(tǒng)管理員以便查看。

      3 系統(tǒng)測試

      3.1 測試準備

      在此基礎(chǔ)上,該文結(jié)合基于AI的新媒體采編系統(tǒng)的架構(gòu),構(gòu)建了采編服務(wù)器,并初步實現(xiàn)了對新媒體內(nèi)容的簡單收集與分發(fā)。校園網(wǎng)的內(nèi)部用戶可以在ChinaNet上不需要直接進入大型站點,就可瀏覽到主要內(nèi)容,同時還能降低中國網(wǎng)絡(luò)的流量。在RedhatLinux7.1操作系統(tǒng)中,該文采用了MySQL3.23.44、Apache1.3.22、PHP4.0.6以及FastTemplate模板等軟件。使用PHP、MySQL和Apache構(gòu)建Web站點是目前比較受歡迎的一種方式。MySQL2是一款比其他大型數(shù)據(jù)庫系統(tǒng)更易于操作的自由數(shù)據(jù)庫服務(wù)器。Apache3是當前應(yīng)用最廣泛的Web服務(wù)器應(yīng)用軟件,其源碼是自由的,可以在UnixWindows平臺上運行。在Apache中將PHP4作為一個靜態(tài)模塊,并提供MySQL的支持,以便使用PHP功能存取MySQL數(shù)據(jù)庫。

      3.2 測試結(jié)果

      該文采用PHP的命令方法實現(xiàn)了后臺數(shù)據(jù)的采集,并使用Linux操作系統(tǒng)的Cron指令完成了采集整理。該測試將介紹如何對特定的源文件進行分析,以獲取所需的新媒體信息。在一個網(wǎng)站上,從一個網(wǎng)站的HTML源文件中提取2個不同的新聞列表,就可以得到一個頁面1和一個內(nèi)容2的絕對網(wǎng)址,因此,可以將一個相對網(wǎng)址前后的唯一區(qū)別代碼作為一個特別的識別點。由于頁面的格式比較固定,收集器將網(wǎng)頁的原始資料下載后,通過特定的識別找到相應(yīng)的網(wǎng)頁,然后與網(wǎng)站的網(wǎng)址構(gòu)成絕對網(wǎng)址,以供下一步內(nèi)容網(wǎng)頁的下載。這種特定的識別方式應(yīng)該能夠識別出新媒體內(nèi)容的相對地址,而內(nèi)容頁面的分析原理與之相似,即將新聞標題、正文和圖片等從其來源文檔中提取出來。收集到的消息存儲到MySQL數(shù)據(jù)庫,相應(yīng)的表結(jié)構(gòu)見表1。

      表1 新媒體內(nèi)容正文表

      當新媒體內(nèi)容發(fā)行時,會自動產(chǎn)生一個標題清單的javascript。每次有使用者訪問時,該系統(tǒng)會使用FastTemplate模板來動態(tài)產(chǎn)生一個清單頁,當使用者點擊該網(wǎng)頁時,會動態(tài)地將包括文本和圖片的內(nèi)容從資料庫中提取出來,并使用FastTemplate模板動態(tài)地產(chǎn)生一個網(wǎng)頁。同時,系統(tǒng)還可以通過點擊來統(tǒng)計每天、每周的熱點話題。該系統(tǒng)架構(gòu)具有很強的擴展性,可以在基礎(chǔ)數(shù)據(jù)采集功能的基礎(chǔ)上對其他相關(guān)的功能進行擴充,以滿足用戶的各種需要。

      4 結(jié)語

      隨著網(wǎng)絡(luò)新媒介的日益增多,如何利用人工智能技術(shù)建立新的媒介,減少員工的工作壓力并提高工作效率已成為研究重點。該文設(shè)計的新媒體采編系統(tǒng)架構(gòu)具有很強的擴展性,可以在原有的基礎(chǔ)數(shù)據(jù)采集基礎(chǔ)上對其他相關(guān)功能進行擴充,以適應(yīng)不同的用戶需要。在此基礎(chǔ)上開發(fā)的抓取服務(wù)器,目前僅具有基本的數(shù)據(jù)采集和動態(tài)發(fā)布功能,需要不斷地改善和進步。下一步的研究重點是利用AI技術(shù)進行數(shù)據(jù)采集,以提高相關(guān)數(shù)據(jù)采集工作效率,并將各功能模塊自動化,為企業(yè)的業(yè)務(wù)發(fā)展注入新的生機。以人工智能為基礎(chǔ)的新媒體采編系統(tǒng)的應(yīng)用領(lǐng)域也從局域網(wǎng)向手機網(wǎng)絡(luò)延伸,進而使采編工作者擺脫了時空的限制,提高了新聞內(nèi)容的時效性。

      猜你喜歡
      資料庫分詞架構(gòu)
      基于FPGA的RNN硬件加速架構(gòu)
      基于內(nèi)容與協(xié)同過濾的GitHub學(xué)習(xí)資料庫推薦
      功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實踐
      汽車工程(2021年12期)2021-03-08 02:34:30
      國家社科基金重大項目“‘古今字’資料庫建設(shè)與相關(guān)專題研究”成果鑒定會順利召開
      施工企業(yè)技術(shù)資料庫的建立與完善
      天津科技(2020年5期)2020-01-08 12:27:35
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實現(xiàn)
      值得重視的分詞的特殊用法
      一種基于FPGA+ARM架構(gòu)的μPMU實現(xiàn)
      高考分詞作狀語考點歸納與疑難解析
      开化县| 准格尔旗| 博乐市| 大同县| 孟州市| 安达市| 邯郸县| 宁强县| 子长县| 安龙县| 江门市| 广元市| 东方市| 三台县| 蓬溪县| 湘阴县| 河南省| 屏东县| 湟中县| 黄陵县| 禹城市| 平罗县| 白河县| 柘城县| 万源市| 蓬莱市| 临汾市| 巩留县| 和平县| 马山县| 永平县| 招远市| 岚皋县| 林口县| 合川市| 新建县| 九江市| 云龙县| 贡山| 红河县| 沈阳市|