王哲
1概念內(nèi)涵
機(jī)器寫(xiě)作,又稱(chēng)自然語(yǔ)言生成,是自然語(yǔ)言處理領(lǐng)域的重要分支,指的是綜合運(yùn)用大數(shù)據(jù)分析、內(nèi)容理解和自然語(yǔ)言生成等,實(shí)現(xiàn)機(jī)器智能生成文本內(nèi)容的技術(shù)?;緞?chuàng)作流程主要分為數(shù)據(jù)采集、數(shù)據(jù)分析、自動(dòng)寫(xiě)稿、審核簽發(fā)等。其應(yīng)用級(jí)產(chǎn)品WordSmith的軟件于2007年首次出現(xiàn),由美國(guó)Automated Insights開(kāi)發(fā)。
2 機(jī)器寫(xiě)作簡(jiǎn)要流程
3機(jī)器寫(xiě)作的三大主流方式
計(jì)算機(jī)根據(jù)輸入的結(jié)構(gòu)化數(shù)據(jù)(報(bào)表、RDF數(shù)據(jù)等)進(jìn)行文字創(chuàng)作。該方式能夠生成原創(chuàng)稿件,是目前機(jī)器寫(xiě)作的主要方式,適用于天氣預(yù)報(bào)、醫(yī)療報(bào)告、賽事簡(jiǎn)訊、財(cái)經(jīng)報(bào)道等文本的生產(chǎn)。
計(jì)算機(jī)根據(jù)已有的文字素材(例如,已經(jīng)發(fā)表的新聞)進(jìn)行二次文字創(chuàng)作。該方式能夠基于已有稿件創(chuàng)作出不一樣的稿件,例如,為一篇新聞生成摘要,對(duì)多篇相關(guān)新聞進(jìn)行綜述,對(duì)一篇新聞進(jìn)行文字改寫(xiě)等。
計(jì)算機(jī)可以結(jié)合原創(chuàng)與二次創(chuàng)作兩種方式進(jìn)行文字創(chuàng)作,稿件中的一部分內(nèi)容從結(jié)構(gòu)化數(shù)據(jù)中直接生成,另一部分內(nèi)容則從已有文本中進(jìn)行提煉或改寫(xiě)得到,生成內(nèi)容更豐富、形式更多樣的文本。
4機(jī)器寫(xiě)作的各應(yīng)用領(lǐng)域
知識(shí)類(lèi)應(yīng)用
速報(bào)類(lèi)應(yīng)用
資訊聚合類(lèi)應(yīng)用
5平行語(yǔ)料缺乏
未來(lái)基于深度學(xué)習(xí)的機(jī)器寫(xiě)作需要大規(guī)模的平行語(yǔ)料進(jìn)行訓(xùn)練,而很多應(yīng)用場(chǎng)景卻缺乏此類(lèi)平行語(yǔ)料,因此有必要探索小數(shù)據(jù)下的學(xué)習(xí)機(jī)制來(lái)解決這個(gè)問(wèn)題。
領(lǐng)域遷移性不足
機(jī)器寫(xiě)作生成文本中信息與數(shù)據(jù)的準(zhǔn)確性、文本的可讀性不能完全得到保證,而不少應(yīng)用場(chǎng)景不能容忍文本質(zhì)量上的瑕疵,因此需要考慮結(jié)合更先進(jìn)的技術(shù)來(lái)提高所生成文本的質(zhì)量。
寫(xiě)作質(zhì)量難以客觀評(píng)價(jià)
機(jī)器寫(xiě)作的客觀評(píng)價(jià)指標(biāo)一般為BLEU和ROUGE,但文章的寫(xiě)作方式多樣,每個(gè)作者都可以根據(jù)同一命題寫(xiě)出內(nèi)容不一樣但質(zhì)量都很高的文章,未來(lái)有必要設(shè)計(jì)更合理的客觀評(píng)價(jià)指標(biāo)。