• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      機器人中文新聞易讀性的實證研究

      2020-12-07 06:10:50李靜姝
      傳媒 2020年20期
      關(guān)鍵詞:易讀性實證研究

      李靜姝

      摘要:目前的中文新聞易讀性研究與應(yīng)用,往往是偏質(zhì)化的、單面向“寫”一方的,鮮有的量化研究使用的理論也有過時之嫌,缺乏受眾因素相關(guān)的研究。本文沿著中文詞(詞組)與句子構(gòu)造同一性的特質(zhì),在文本結(jié)構(gòu)層面研究分級詞與易讀性的映照關(guān)系,提出了中文新聞的文本假設(shè)、分級詞頻、易讀性曲線和易讀性指數(shù)等概念,并實證性地建立起了中文新聞易讀性測量的灰色系統(tǒng)理論模型,實證結(jié)果表明,中文新聞易讀性應(yīng)充分關(guān)聯(lián)漢語特質(zhì)和中文新聞文本特點,從認(rèn)識其灰性本質(zhì)“切入”,利用分級詞頻“白化”出易讀性。

      關(guān)鍵詞:機器人中文新聞 易讀性 實證研究

      2015年9月10日,騰訊財經(jīng)推出第一篇機器人中文新聞,在新聞史上因“首發(fā)效應(yīng)”鐫刻上了人工智能中文新聞的歷史“原點”。隨后新華社、今日頭條、《光明日報》等媒體緊隨其后推出其機器人新聞產(chǎn)品,借助傳統(tǒng)媒體和新媒體的“雙平臺發(fā)力”,機器人中文新聞影響日現(xiàn)。這一新聞采訪與寫作的現(xiàn)象級光芒投射進媒介的天空,從而折射出新聞傳播領(lǐng)域?qū)氋F的創(chuàng)新意識。但距2006年美國湯姆森公司用機器人記者撰寫新聞,我們晚了近十年。綜合目前機器人中文新聞的發(fā)展現(xiàn)狀,多數(shù)以事實信息生成為主,且模板化較為明顯,難以跳出算法的“窠臼”。就技術(shù)實際應(yīng)用而言,還處于噱頭大于實用的初級階段。從2015年9月第一篇機器人新聞至今,尚未度過落地期從而有進一步的發(fā)展。筆者認(rèn)為,從新聞傳播的視角,探尋并解決某一“落地”問題,可促其日臻完善。

      機器人報道的質(zhì)量評價有多個維度,與可信度評價相比,機器人生成報道的可讀性對讀者的選擇性閱讀影響可能更大,未來應(yīng)當(dāng)進一步研究可讀性等報道質(zhì)量方面的因素對讀者選擇性閱讀的影響。新聞易讀性的測量一直是新聞學(xué)的重要研究內(nèi)容,易讀性又稱“可讀性”,指文本易于閱讀和理解的程度或性質(zhì)。筆者針對新聞易讀性測量中訓(xùn)練樣本集的文本特征、模擬受眾、易讀性“得分”及測量方法等問題,提出中文新聞易讀性基于《新漢語水平考試(HSK)詞匯表(2015年修訂版)》的灰性本質(zhì)及易讀性曲線的概念,繼而通過GM(1,1)建模測量中文新聞文本的易讀性指數(shù),并以騰訊機器人—Dreamwriter撰寫的新聞文本為例,進行實證研究。

      一、中文新聞易讀性新測量模型的建立

      通過黃敏的研究可以了解到,早在20世紀(jì)70年代,陳世敏和楊孝溁作為中文新聞易讀性研究的開拓者分別提出“易讀性分?jǐn)?shù)”和“讀物難易程度”的易讀性公式,黃敏還結(jié)合既有的研究探討了漢語特質(zhì)與中文新聞易讀性的關(guān)系。而2015年以來,中文新聞易讀性的相關(guān)研究并不多見,楊純莉2018年的碩士論文基本反映了該領(lǐng)域的研究現(xiàn)狀。由于已有的易讀性評價思想往往是根據(jù)文本庫各個文本特征與其閱讀測試的對應(yīng)關(guān)系建立回歸方程,然后對待評價文本或者說測試文本的文本特征進行“代入計算”。這類方法對于新聞的易讀性測量,既拘囿于文本庫,又極易受到模擬受眾諸如閱讀動機、文化程度等的嚴(yán)重影響。因此,實踐中所獲得的易讀性公式千差萬別,文本特征的“物理意義”也難以合理解釋和理解,中文新聞易讀性新的測量模型有待建立。

      1.中文新聞易讀性的文本特征。大眾傳播的定義要求它盡可能接觸最大數(shù)量的受眾,因此,它須盡量采用人們?nèi)菀桌斫獾臅鴮懶问交虮磉_方式。在西方,萊弗利和普雷西在1923年設(shè)計了第一個易讀性公式,提出詞匯的難度是決定文字資料難易程度的關(guān)鍵因素的假設(shè)。此后的易讀性研究無一例外地把詞、句作為易讀性研究的“主角”。邏輯學(xué)和語言學(xué)的知識告訴我們,文本詞匯的難度是易讀性的必要條件。已有的研究表明:在影響文本易讀性的字、詞、句、段、篇等不同層面因素中,詞匯因素?zé)o疑是最為重要的。朱德熙先生在《語法答問》中歸納的漢語語法特點:一是漢語詞類跟句法成分之間不存在簡單的一一對應(yīng)關(guān)系;二是漢語句子的構(gòu)造原則跟詞組的構(gòu)造原則基本上是一致的。

      鑒于以上分析,中文新聞易讀性的測量可以基于詞匯表,就像是易讀性的原本概念——英語的標(biāo)準(zhǔn)頻率表一樣。根據(jù)中文新聞的特點,筆者參考趙寧寧等的研究擬定文本指標(biāo)為:文本字?jǐn)?shù)(fw);成詞率(fb);分級詞頻(fHSKx,x=1,2,…,6);難詞頻(fdif);平均句長Asl共計10個指標(biāo)。

      2.易讀性曲線與易讀性指數(shù)。通過既往的中文新聞的易讀性的研究分析,可看出:第一,漢語水平基于新HSK詞匯表的分級與新聞文本易讀性間存在一定的“映照”關(guān)系;第二,fHSK1-6、 fdif呈遞減趨勢,其逆序則為F:{ fdif、fHSK6、…fHSK2、fHSK1}呈遞增趨勢;第三,對F序列進行累積得到新序列R,化趨勢為規(guī)律。鑒于此,實際上中文新聞易讀性外延明確,與受眾漢語水平成正相關(guān),而內(nèi)涵不明確——易讀性與R序列的關(guān)系,這正是20世紀(jì)90年代我國學(xué)者鄧聚龍先生創(chuàng)立的灰色系統(tǒng)理論所描述的灰色系統(tǒng)或簡稱灰系統(tǒng)。筆者對R序列進行灰色建?!?GM(1,1),以著重系統(tǒng)行為數(shù)據(jù)間、內(nèi)在關(guān)系間挖掘量化的方法,是外延內(nèi)涵均取的方法。

      根據(jù)以上分析,可以建立一個中文新聞文本易讀性模型,是個相對性概念。兩個文本的易讀性可由其F序列的遞增趨勢相關(guān)聯(lián),假設(shè)高級別詞頻小、低級別詞頻大,則易讀性就強,反之易讀性就差。為了把F序列的趨勢轉(zhuǎn)化成正增長序列R,且兩者的映照關(guān)系為cumsum(F)→ R。如果將R對F序列的變化過程(k = 1,2,…,7)作圖,這條曲線本文稱之為中文新聞文本易讀性曲線,且變化梯度愈大易讀性愈強(如圖1)。

      在GM(1,1)中,發(fā)展系數(shù)a反映了易讀性曲線的態(tài)勢,根據(jù)中文新聞寫作的規(guī)范,-a值的物理意義明確,若以A表示-a,A值愈大易讀性愈強,A稱為易讀性指數(shù),這就是中文新聞文本易讀性的測量模型的簡要表達。

      3.新詞的構(gòu)建及分級入庫。依照孔子學(xué)院總部編寫的HSK考試大綱(1~6級),新HSK詞匯表共有六個等級,分別含詞匯150、152、300、600、1298和2500個。但隨著社會發(fā)展進步,需要新詞匯來反映新的事物、新的現(xiàn)象。朱立迎和劉宗保分別就現(xiàn)代漢語新詞語構(gòu)詞法、造詞研究和述評進行了研究。本文參照這些“造詞”、探源和析構(gòu)等“造”的方法,簡約開辟新聞稿中的所謂新詞分級方法。以新HSK詞匯表的一至六級為基礎(chǔ),步驟如下:一是將待分級詞匯進行“解構(gòu)”。如精準(zhǔn)扶貧,分詞為:精準(zhǔn)扶貧、精準(zhǔn)、扶貧、精、準(zhǔn)、扶、貧;二是遍歷詞匯表對分詞進行“匹配”。結(jié)果(括號內(nèi)為詞匯級別):精(4)、準(zhǔn)(2)、扶(5)、貧(6);三是從難規(guī)則構(gòu)詞入庫。可得:精準(zhǔn)扶貧(6),即為六級。

      二、研究實例

      采集2019年1月的機器人Dreamwriter撰寫的新聞44篇,外加2015年9月10日第1篇Dreamwriter新聞,共45篇。其中NBA2018—2019賽季15篇、足球新聞10篇、財經(jīng)新聞20篇。

      1.文本集概述。將這45篇機器人新聞作為一個文本集。文本字?jǐn)?shù)均值和標(biāo)準(zhǔn)差分別為1146.8字、973.7字,文本字?jǐn)?shù)相差較大。字?jǐn)?shù)較多的為3篇足球的綜述文章,字?jǐn)?shù)較少的為個股新聞。如此看來,機器人新聞能駕馭長篇體育報道。從平均句長在24.6字~81.3字、均值和標(biāo)準(zhǔn)差分別為35.5字、9.8字看,句子長短跨度較大,其中4篇平均句長超過50字的,都為股市新聞,且每篇字?jǐn)?shù)也都超過1000字,股市新聞信息羅列現(xiàn)象明顯。

      2.模型檢驗與比較。基于新HSK詞匯表的中文新聞易讀性測量模型為:dR(1)/dt + aR(1) = u,其中R(1)為原始R序列的一次累加序列,R(1)為R(1)的均值化。這樣每個文本就對應(yīng)一個微分方程,其精度檢驗采取后驗差檢驗。

      3.建模與分析。對45篇Dreamwriter新聞逐一建模、精度檢驗,結(jié)果精度無一例外的是“好”的。通過以上模型比較,本文給中文新聞易讀性指數(shù)A定一個參考值:以0.28~0.30為“中等”、0.30~0.35為“較易”、大于0.40為“易”。

      從各級詞頻均值來看,一~六級詞頻到難詞頻存在下降趨勢,且趨勢明顯。一~五級累積詞頻占到97%,這說明與傳統(tǒng)的記者稿的易讀性大抵相當(dāng)。我國著名編輯家劉光裕在研究中曾指出:“漢字集巨大,但常用字并不多……能識2000漢字便能讀懂文章的97.4%?!边@也側(cè)面支持了以上觀點。

      筆者擬定10個文本特征的最后3個最大相關(guān)量都在前7個當(dāng)中,即明朗了可以用一至六級詞頻和難詞頻7個指標(biāo)表征文本的易讀性。45個文本計算A值的模型精度均為“好”。在表1中,易讀性“較易”以上的占到80%,由此可得這些新聞易讀性較高,但差距不小。NBA新聞的易讀性都在“較易”以上,且相對穩(wěn)定,表明這方面的報道相對成熟。3篇綜述文章的文本字?jǐn)?shù)/易讀性指數(shù)分別是:法甲4980/0.3253、西甲5316/0.2974和英超2170/0.3157,從易讀性的角度足見其駕馭文字的能力。至于財經(jīng)新聞,“開山之作”易讀性指數(shù)接近0.4,可能是因為它是一篇宏觀經(jīng)濟新聞。而易讀性指數(shù)較低的是對股市分析的報道,而非個股新聞。新聞學(xué)的知識告訴我們,筆者提出的模型既客觀地評價了不同內(nèi)容對易讀性的影響,又反映出了Dreamwriter新聞易讀性的“檔次”。

      三、結(jié)語

      最后,從易讀性的視角,就中文機器人新聞的守正創(chuàng)新提出幾點建議。

      1.正確認(rèn)識政策環(huán)境,強化傳媒產(chǎn)業(yè)基礎(chǔ)。近年來,國家出臺了一系列推動人工智能和“互聯(lián)網(wǎng)+”的政策措施, 必將對智媒體乃至傳媒產(chǎn)業(yè)生態(tài)環(huán)境的優(yōu)化建設(shè),提供堅實的政治、體制機制和法律保障?;凇懊襟w商業(yè)化—人工智能—大數(shù)據(jù)技術(shù)”的鏈接,建立自我強化的媒體生態(tài)系統(tǒng),形成多元化、可持續(xù)的商業(yè)模式和盈利模式,實現(xiàn)信息與用戶需求的智能匹配的媒體形態(tài)。這需要機器人新聞繼續(xù)在傳統(tǒng)媒體和新媒體“雙平臺發(fā)力”的同時,深化傳媒業(yè)改革,激發(fā)創(chuàng)新驅(qū)動的活力,促進機器人新聞的升級換代。

      2.加強中文機器人新聞的系統(tǒng)集成。機器新聞寫作遵循“抓取—分析—套用模板—成稿—人工把關(guān)”,故需要創(chuàng)建“資深新聞記者+中文文本處理專家+漢語言傳播專家”集成模式,把工程和人文有機地結(jié)合起來,講深入淺出的“行話”。隔行如隔山,學(xué)無止境;隔行不隔理,觸類旁通。因此,選擇機器人中文新聞某個方面,堅持問題導(dǎo)向,通過理念、手段和基礎(chǔ)工作創(chuàng)新,來加快其日臻完善?!八惴?、模版是機器新聞寫作永遠跳不出的‘窠臼”,前文所言機器人財經(jīng)新聞存在句子過長致使易讀性下降的問題,這有悖于萊弗利和普雷西“可能使用簡短的字和句”的忠告,不能不說是“模板”的問題。同樣是財經(jīng)新聞的個股新聞,在文字前附有一幅圖片,可視化增加了文本易讀性,相反相成,這又不失為“模板”好的一面。因此,各有關(guān)專家應(yīng)取長補短、補齊短板,沿著智媒發(fā)展之路分段領(lǐng)跑,汲取機器人新聞的源頭活水。

      3.強化技術(shù)手段創(chuàng)新。單就機器人新聞文本字面的易讀性而言:一方面,算法中耦合進易讀性評價模塊;另一方面,要機器深度學(xué)習(xí)那些易讀性高的新聞文本,換句話說就是要在構(gòu)建新聞文本庫時把易讀性作為優(yōu)選的重要指標(biāo)之一。而就機器人新聞的大數(shù)據(jù)性質(zhì)而言,可利用其易于可視化、可預(yù)測、能發(fā)現(xiàn)關(guān)聯(lián)關(guān)系的優(yōu)勢,來增加易讀性、可信度和興趣度。

      4.進一步擴展應(yīng)用范圍。機器人新聞應(yīng)當(dāng)大力推廣到媒體融合、各種(國內(nèi))聯(lián)賽等,生產(chǎn)用戶偏好的新聞內(nèi)容和新聞風(fēng)格,提供與用戶的個人生活場景相匹配的私人訂制產(chǎn)品。鑒于易讀性是語言分級讀物編寫在語料分級加工階段首要考慮的第一原則,本文所建立的模型是基于國家標(biāo)準(zhǔn)的“必要條件方法”,將對中小學(xué)標(biāo)準(zhǔn)化教材和對外漢語教學(xué)不無裨益。

      5.更加深化“人機協(xié)同”。對于中文機器人新聞來說,只有關(guān)聯(lián)起“內(nèi)容—技術(shù)—管理”,才能切實提高報道質(zhì)量。盡管機器人新聞的議程設(shè)置讓渡于算法和模板,大多數(shù)情況下,人工審核不但不能省,還要加強并對易讀性予以重視。試想,搭建一個平臺,在此人、機兩種記者研討易讀性的話題,機器人新聞質(zhì)量的提高便走出了先手棋。

      作者系華東師范大學(xué)傳播學(xué)院博士研究生

      本文系國家社科基金重大項目“加快推進傳統(tǒng)媒體和新興媒體融合發(fā)展研究”(項目編號:14ZDA049)的研究成果。

      參考文獻

      [1]喻國明,劉瑞一,武叢偉.新聞人的價值位移與人機協(xié)同的未來趨勢——試論機器新聞寫作對于新聞生產(chǎn)模式的再造效應(yīng)[J].新聞知識,2017(02).

      [2]唐緒軍,等.中國新媒體發(fā)展報告No.9(2018)[M].北京:社會科學(xué)文獻出版社,2018.

      [3]陳阿林,張素.中文閱讀難度模型及易讀性公式探索[J].計算機科學(xué), 1999(26).

      [4]黃敏.漢語特質(zhì)與中文新聞易讀性公式研究[J].新聞傳播與研究,2010(04).

      [5]鄧建國.機器人新聞:原理、風(fēng)險和影響[J].新聞記者,2016(09).

      [6]趙寧寧,韓曉媛.閱讀測試中的文本易讀性研究[J].考試研究,2017(04).

      猜你喜歡
      易讀性實證研究
      “隸黑體”屏幕端老年人易讀性漢字字體設(shè)計研究
      包裝工程(2023年24期)2023-12-27 09:20:00
      關(guān)于“科技新聞易讀性”的研究綜述
      傳媒論壇(2018年12期)2018-03-29 19:43:59
      ?? ??? ?? ?????? ??????? ??
      經(jīng)濟報道欄目的親眾訴求和易讀性分析
      記者搖籃(2017年7期)2017-07-29 02:31:28
      中國在新農(nóng)村建設(shè)中金融支持的實證研究
      簡述翻譯研究中實證研究法的應(yīng)用
      科技視界(2016年18期)2016-11-03 22:59:51
      玉雕專業(yè)學(xué)生專業(yè)認(rèn)同的實證研究
      人間(2016年26期)2016-11-03 18:10:25
      溫州小微企業(yè)融資環(huán)境及能力分析
      認(rèn)知語言視角下英語詞匯多義習(xí)得的實證研究
      科技視界(2016年21期)2016-10-17 19:05:25
      實證分析會計信息對股價的影響
      商(2016年27期)2016-10-17 05:39:59
      阿勒泰市| 祁东县| 商河县| 焦作市| 沂水县| 山西省| 东城区| 辉县市| 门源| 乌鲁木齐县| 焦作市| 泽普县| 武城县| 竹溪县| 科技| 德江县| 合肥市| 墨玉县| 连平县| 长垣县| 濮阳县| 清苑县| 宜都市| 郁南县| 凤庆县| 图片| 盐山县| 微山县| 五华县| 达州市| 邻水| 南陵县| 旬邑县| 锡林郭勒盟| 新沂市| 元氏县| 金华市| 兰西县| 昆明市| 天津市| 台湾省|