◎李 佳 潘衛(wèi)華
與其他傳播科學(xué)領(lǐng)域一致, 新聞學(xué)研究也已經(jīng)開始使用計(jì)算分析方法。在這些方法中,有監(jiān)督的機(jī)器學(xué)習(xí)技術(shù)得到了越來越廣泛的關(guān)注。 該技術(shù)的主要優(yōu)點(diǎn)在于其預(yù)測能力,例如,預(yù)測新聞價(jià)值或通用新聞框架的流行度。
那么, 有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)在什么條件下可以對新聞學(xué)研究帶來促進(jìn)作用?目前的研究存在哪些問題?新的技術(shù)將為新聞學(xué)理論的發(fā)展會帶來哪些變化?本文試加以分析。
有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)與其他統(tǒng)計(jì)推斷方法、 無監(jiān)督機(jī)器學(xué)習(xí)技術(shù)的最大區(qū)別在于其可預(yù)測性。舉例來說,有監(jiān)督機(jī)器學(xué)習(xí)是從訓(xùn)練數(shù)據(jù)中建立一個(gè)模式, 并依此模式預(yù)測新的實(shí)例。相比而言,無監(jiān)督學(xué)習(xí)的目的是對原始數(shù)據(jù)進(jìn)行分類,以便了解數(shù)據(jù)內(nèi)部的結(jié)構(gòu),在學(xué)習(xí)階段并不知道其分類結(jié)果是否正確。 而有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)可通過測試大量模型以找到在預(yù)測方面性能最佳的模型。
在新聞學(xué)研究中, 統(tǒng)計(jì)推斷的方法主要是用來做自動(dòng)內(nèi)容分析, 其最簡單的形式就是對數(shù)據(jù)庫中的某些關(guān)鍵字進(jìn)行計(jì)數(shù)。然而,這種基于字?jǐn)?shù)統(tǒng)計(jì)的文本分析方法不能對文本的前后文或者變量進(jìn)行關(guān)聯(lián)分析。 而有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)可以抓住大型新聞數(shù)據(jù)庫中更多的潛在和隱含變量,從而可以比簡單的字?jǐn)?shù)統(tǒng)計(jì)更好地理解文本的含義。
機(jī)器學(xué)習(xí)算法的目標(biāo)是對文本進(jìn)行編碼, 并用特定的標(biāo)簽進(jìn)行標(biāo)注。針對簡單的分類應(yīng)用,一般會采用二進(jìn)制的編碼方式, 來判斷文本所展現(xiàn)出來的情緒是積極的還是消極的,或者文本內(nèi)容主要針對的是男性用戶還是女性用戶。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展, 有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)甚至可以實(shí)現(xiàn)自動(dòng)編碼,從而進(jìn)一步降低時(shí)間和財(cái)務(wù)成本。從目前的研究結(jié)果來看, 研究人員普遍認(rèn)為有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)非常適合自動(dòng)內(nèi)容分析, 采用自動(dòng)編碼的方式可以彌補(bǔ)精度降低所帶來的損失。
總的來說, 在新聞學(xué)研究中采用有監(jiān)督機(jī)器學(xué)習(xí)的方式做內(nèi)容分析是很有必要的,其主要原因有三點(diǎn)。 第一,一般來說機(jī)器學(xué)習(xí)無需對文本數(shù)據(jù)進(jìn)行重新采樣, 從而可以在不增加成本的情況下同時(shí)對多個(gè)文本進(jìn)行分析。第二,有監(jiān)督機(jī)器學(xué)習(xí)可以提升新聞學(xué)研究的可靠性。 研究人員可以共享訓(xùn)練數(shù)據(jù)和算法, 從而保證標(biāo)簽的標(biāo)記方式完全相同,也就降低了人為操作導(dǎo)致錯(cuò)誤的可能性。 第三,有監(jiān)督機(jī)器學(xué)習(xí)可以促進(jìn)新聞理論研究, 幫助探索新的新聞學(xué)研究方法。
如上所述,采用有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)的優(yōu)勢之一是可以處理更大的樣本量,但大的樣本量也存在一定的問題。第一,可能存在數(shù)據(jù)質(zhì)量較低的問題,這也是自動(dòng)化和可靠性之間的固有平衡。 第二,對大樣本進(jìn)行處理,其統(tǒng)計(jì)能力或者性能會在達(dá)到某個(gè)閾值后不再提高, 過大的樣本量也增加了得出微不足道的結(jié)論的可能性。 第三,已有的社會科學(xué)方法論已經(jīng)在抽樣理論中得到了較好的發(fā)展, 在某些情況下使用相對較小的隨機(jī)樣本進(jìn)行抽樣往往會產(chǎn)生更好的結(jié)果。
在可靠性方面, 目前主要質(zhì)疑的是機(jī)器學(xué)習(xí)模型是否真能夠捕獲其目標(biāo)變量的深度內(nèi)涵和細(xì)微差別。事實(shí)上,目前的機(jī)器學(xué)習(xí)技術(shù)還無法掌握人類語言含義內(nèi)在的細(xì)微差別。 在文本分析中所使用的機(jī)器學(xué)習(xí)技術(shù)往往僅限于明確的概念,比如用來判斷某文本是否屬于娛樂新聞的范疇。當(dāng)機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到多項(xiàng)分類任務(wù)中時(shí), 其預(yù)測的準(zhǔn)確性會受到較大影響。此外,機(jī)器學(xué)習(xí)模型的可擴(kuò)展性也會受到新聞學(xué)研究領(lǐng)域依賴性與特殊性等方面的限制。比如,人們的審美、愛好、政治傾向等都會隨著時(shí)間改變,其對新聞傳播的影響也隨之變化。 有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)不僅需要大量的訓(xùn)練數(shù)據(jù), 而且在某些領(lǐng)域或時(shí)間段可能表現(xiàn)不佳。 因此,要想實(shí)現(xiàn)標(biāo)準(zhǔn)化的自動(dòng)編碼或者機(jī)器學(xué)習(xí)模型,幾乎是不可能的。
在線新聞數(shù)據(jù)的豐富和可用性加速了新聞學(xué)研究和計(jì)算機(jī)科學(xué)之間的融合, 這很大程度上超出了以往新聞學(xué)的研究范圍。目前來看,計(jì)算機(jī)行業(yè)研究者的首要重點(diǎn)是算法及其性能,而較少關(guān)注該算法如何提高我們對新聞的理解,這可能導(dǎo)致一種低水平的經(jīng)驗(yàn)主義。在某些情況下,研究中使用的與新聞相關(guān)的數(shù)據(jù)可以與任何其他類型的文本互換。目前,關(guān)于如何利用模型理解媒介這一社會機(jī)構(gòu)的理論研究很少。 這可能是由于計(jì)算機(jī)科學(xué)家和新聞學(xué)者都習(xí)慣了兩種不同的統(tǒng)計(jì)建模文化, 計(jì)算機(jī)科學(xué)家將統(tǒng)計(jì)數(shù)據(jù)視為做出準(zhǔn)確預(yù)測的工具, 而社會科學(xué)家則將統(tǒng)計(jì)數(shù)據(jù)視為根據(jù)理論假設(shè)揭示變量之間因果關(guān)系的工具。 不同的理論方法也反映出模型評估的不同標(biāo)準(zhǔn)。
為了在新聞學(xué)研究中可持續(xù)地使用機(jī)器學(xué)習(xí)技術(shù),我們認(rèn)為需要確保機(jī)器學(xué)習(xí)技術(shù)集成到新聞學(xué)研究現(xiàn)有的認(rèn)識論框架中。新聞學(xué)研究是本身就是跨學(xué)科領(lǐng)域的研究,因此,如何在傳統(tǒng)的新聞傳播學(xué)研究中融入計(jì)算機(jī)科學(xué)方法,使有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)成為新聞學(xué)研究現(xiàn)有方法框架的補(bǔ)充是值得探索的。
不斷變化的社會技術(shù)環(huán)境已向新聞學(xué)者提出了新的挑戰(zhàn)。 新聞學(xué)的許多核心理論在當(dāng)代數(shù)字新聞生態(tài)中得到了進(jìn)一步發(fā)展。我們認(rèn)為,可以利用有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)來對新聞學(xué)理論研究進(jìn)行補(bǔ)充。
舉例來說,上世紀(jì)媒體環(huán)境相對簡單,議程設(shè)置理論蓬勃發(fā)展。 但在當(dāng)前的媒體環(huán)境中,這一理論都受到了挑戰(zhàn)。議程設(shè)置理論放大了媒介的主導(dǎo)作用, 但忽略了受眾的能動(dòng)性。 下面來簡要說明為什么有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)可以幫助我們應(yīng)對復(fù)雜的媒體環(huán)境對議程設(shè)置理論的挑戰(zhàn)。
議程設(shè)置意味著因果關(guān)系主張,一般來說,預(yù)測和因果關(guān)系是相輔相成的。 有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)可以用于建立模型, 該模型可以根據(jù)以往的議程來預(yù)測未來某個(gè)時(shí)間點(diǎn)的議程。 首先,需要兩個(gè)分類器,一個(gè)用來確定主題或事件在不同的媒體平臺上是否屬于同一類別, 另一個(gè)用來確定產(chǎn)生信息的參與者的類型 (權(quán)威機(jī)構(gòu)、 新聞媒介、普通大眾等)。 然后,構(gòu)建一個(gè)可以處理預(yù)測時(shí)間相關(guān)的數(shù)據(jù)序列模型。 一旦有了一個(gè)可以預(yù)測未來議程的模型,我們可以將該模型運(yùn)用到實(shí)際的新聞生產(chǎn)中。 該模型的預(yù)測結(jié)果, 與實(shí)際的議程設(shè)置結(jié)果勢必存在一定的差距。 在新的媒體環(huán)境中,有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)可對媒體數(shù)據(jù)進(jìn)行分析, 并通過學(xué)習(xí)實(shí)際的議程設(shè)置結(jié)果對算法進(jìn)行修正,使預(yù)測模型不斷完善。 這意味著,有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)可以幫助解釋不同的因素, 如受眾的反饋意見對下一階段的議程設(shè)置有怎樣的影響, 從而使我們更好地掌握媒體生態(tài)。
總而言之, 機(jī)器學(xué)習(xí)技術(shù)可以用來對新聞理論輔以解釋,通過在理論研究中應(yīng)用有監(jiān)督機(jī)器學(xué)習(xí)技術(shù),我們可以更深入地了解這些理論在當(dāng)前時(shí)代所經(jīng)歷的變化。
我們分析了基于有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)在新聞學(xué)研究領(lǐng)域的現(xiàn)狀,并指出了未來的可能發(fā)展方向。 我們注意到,有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)在大型數(shù)據(jù)樣本、 可擴(kuò)展性和成本效率的假定優(yōu)勢并非在所有情況下都適用。根據(jù)項(xiàng)目的目標(biāo),基于傳統(tǒng)方法構(gòu)建的樣本可能更合適。
有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)目前在新聞研究中的應(yīng)用仍然由算法主導(dǎo),但為了進(jìn)一步發(fā)展,我們需要考慮如何將有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)納入現(xiàn)有新聞學(xué)的典型理論研究中。 這里潛在的研究方向是利用有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)的預(yù)測能力來掌握數(shù)字新聞生態(tài)系統(tǒng)的復(fù)雜性, 使預(yù)測能力與解釋性研究相協(xié)調(diào)。 當(dāng)然,有監(jiān)督機(jī)器學(xué)習(xí)只是一種分析方法,絕不能替代新聞學(xué)者已擁有的豐富的背景知識, 只有讓機(jī)器學(xué)習(xí)技術(shù)與當(dāng)前新聞學(xué)研究方法相輔相成, 才可能得到更加令人滿意的研究成果。