2012年8月7 日消息,加州大學(xué)洛杉磯分校電氣工程專業(yè)的女博士生Roj a Bandari開發(fā)了一種算法,預(yù)測新聞能否在Twit ter上流行,或者在社交網(wǎng)站上引發(fā)熱烈討論。據(jù)稱這一算法的準確率達到84%。
Bandar i此前曾在惠普實習(xí)。她在設(shè)計這一算法時也得到了惠普實驗室兩名研究員的幫助,相關(guān)論文則發(fā)表在今年6月的2012年國際人工智能發(fā)展協(xié)會大會上。
通過人工智能方法,Bandari和惠普兩名研究員分析了與超過4萬條新聞有關(guān)的數(shù)百萬條Twitt er消息。在4/5的情況下,如果算法將新聞打上“熱門”標簽,那么相關(guān)的Twit ter消息數(shù)量將超過100條,而對于非熱門新聞,相關(guān)的Twit ter消息通常少于20條。
這一算法能解決多方面的問題,而Bandari目前正專注于探索新聞如何實現(xiàn)病毒式傳播。她正在加州大學(xué)洛杉磯分校與Vwani Roychowdhury教授共同研究這一課題。
2010年時,他們研究了在2009年伊朗街頭游行中,信息在Twit ter上的傳播方式。這促使Bandar i對新聞在Twit t er上的熱門程度做進一步研究。她分析了每一篇新聞中的多個變量,發(fā)現(xiàn)影響新聞熱門程度的最重要因素是新聞的發(fā)布機構(gòu)。一些機構(gòu)的新聞會更多地連接至Twit ter消息,無論是被讀者還是新聞作者。
例如,《基督教科學(xué)箴言報》的每條新聞平均帶來16條Twit t er消息,其中一些新聞完全沒有出現(xiàn)在Twitt er上。與之相比,知名科技博客Mashabl e的每條新聞平均帶來超過1000條Twitt er消息,而最冷門的新聞甚至也帶來了360條消息。
“我們發(fā)現(xiàn),新聞來源是影響熱門程度的最關(guān)鍵因素?!盉andar i表示,“在Twitt er上,成功的消息源可能與其他地方有所不同,Mashabl e的新聞比CNN更流行。《基督教科學(xué)箴言報》可能是谷歌上最重要的新聞來源之一,但在Twitt er上幾乎不存在?!迸cTechCr unch、Mashabl e和赫芬頓郵報相比,《紐約時報》、《洛杉磯時報》和路透社等傳統(tǒng)新聞巨頭在Twit ter上并不是那么受歡迎。
Bandar i等人還設(shè)計了名為“主觀分類器”的機制,衡量新聞是否采用帶偏見,或情緒性很強的語言。研究人員將脫口秀節(jié)目主持人的談話實錄作為高度主觀性語言,同時將CSPAN作為客觀性語言。令Bandar i感到驚訝的是,主觀性語言這一指標不會對新聞熱門程度產(chǎn)生太大影響。無論是平淡的陳述還是激情的話語,都不會影響新聞熱門程度。
Bandari表示:“新聞行業(yè)有一種觀念,即一些新聞被炒熱是因為煽動了讀者感情,但實際上并非如此。如果希望使用過激的語言來增加曝光度,那么完全行不通。”
Twit ter以及一切微博服務(wù)的核心就是"轉(zhuǎn)發(fā)"
此外,話題與新聞熱門程度也沒有太大關(guān)系。在Twit t er上,科技類新聞最流行,但由于每一篇新聞都可以被歸入不止一個門類,因此準確預(yù)測很難。而盡管外界普遍認為涉及名人和知名企業(yè)的新聞將會引起更多關(guān)注,但實際結(jié)果也非如此。
Bandar i希望,自己的研究有助于增加記者和博客編輯所撰寫文章的轉(zhuǎn)發(fā)量。她表示:“如果你是一名科技新聞的自由撰稿人,那么不會想要給《基督教科學(xué)箴言報》寫文章。如果你來自傳統(tǒng)的大型媒體,那么現(xiàn)在情況已變。你需要與新興媒體競爭。此外人們對內(nèi)容更感興趣,而不是你文章中的語氣??鋸埖恼Z言無法帶來更多曝光。