□ 侯琰霖
微博分析:外媒業(yè)務(wù)拓展新方向
□ 侯琰霖
近兩年來(lái),對(duì)微博等個(gè)人媒體對(duì)社會(huì)經(jīng)濟(jì)影響的研究不僅成為學(xué)術(shù)熱點(diǎn)①,也成為彭博社、道瓊斯和湯姆森-路透社等金融新聞服務(wù)機(jī)構(gòu)創(chuàng)新的證券信息監(jiān)測(cè)服務(wù)產(chǎn)品。面對(duì)微博時(shí)代媒體環(huán)境的演化,西方金融新聞界與時(shí)俱進(jìn)的產(chǎn)品策略值得借鑒。
□ 對(duì)比道瓊斯指數(shù)日線與網(wǎng)上社區(qū)文章中冷靜值滯后三日的標(biāo)準(zhǔn)差Z分值數(shù)據(jù),可以發(fā)現(xiàn)兩者相同分布的時(shí)間大于不同分布的時(shí)間,這說(shuō)明大多數(shù)情況下網(wǎng)上社區(qū)中的冷靜指數(shù)能預(yù)測(cè)三日后的大盤走勢(shì)。
在信息泛濫的微博時(shí)代,網(wǎng)上社區(qū)巨大的數(shù)據(jù)量已經(jīng)超出了人力分析的極限,傳統(tǒng)的媒體剪報(bào)、郵件列表已經(jīng)不足以反映媒體對(duì)某項(xiàng)產(chǎn)品或服務(wù)的反應(yīng),基于語(yǔ)義分析的新聞服務(wù)成為媒體業(yè)務(wù)創(chuàng)新的方向。
微博等社交網(wǎng)絡(luò)中的文本一般都很瑣碎,即所謂“非結(jié)構(gòu)化信息”,通常具有以下特征:對(duì)特定對(duì)象非常有價(jià)值,但數(shù)據(jù)量很小而且非常分散;數(shù)據(jù)量龐大信息泛濫;在廣度和深度上都非常復(fù)雜且缺少元數(shù)據(jù),無(wú)法轉(zhuǎn)換成可以使用的結(jié)構(gòu)化格式。
一般說(shuō)來(lái),媒體核心競(jìng)爭(zhēng)力在于提供高質(zhì)量的新聞,而非研究開發(fā)創(chuàng)新的技術(shù)。因此,許多媒體機(jī)構(gòu)采取與創(chuàng)新技術(shù)開發(fā)者合作的方式進(jìn)軍新聞?wù)Z義分析業(yè)務(wù)領(lǐng)域。比如湯姆森-路透社同語(yǔ)義分析領(lǐng)域的頂尖公司之一Lexalytics公司合作開發(fā)市場(chǎng),Lexalytics提供語(yǔ)義平臺(tái),湯姆森-路透社根據(jù)金融用戶具體的業(yè)務(wù)領(lǐng)域和應(yīng)用進(jìn)行定制開發(fā);英國(guó)《金融時(shí)報(bào)》同領(lǐng)先的語(yǔ)義分析平臺(tái)廠商Endeca公司合作推出了語(yǔ)義搜索引擎Newssift,索引約4000家商業(yè)新聞源,包括網(wǎng)絡(luò)版報(bào)紙、博客、新聞門戶和調(diào)研機(jī)構(gòu)網(wǎng)站等,每日新聞索引量達(dá)12萬(wàn)篇。
語(yǔ)義分析通常都先建立一個(gè)詞典,對(duì)常用術(shù)語(yǔ)、概念和縮寫進(jìn)行描述。例如,道瓊斯與哥倫比亞大學(xué)和圣母大學(xué)的學(xué)者聯(lián)手編纂了一部約有3700個(gè)詞匯的詞典。這些詞匯描述了市場(chǎng)的情緒特征,例如“獨(dú)創(chuàng)性”(ingenuity)、“強(qiáng)度”(strength)和“贏家”(winner)等詞匯可表明市場(chǎng)情緒良好,“與訴訟相關(guān)的”(litigious)、“串謀”(colludes)和“風(fēng)險(xiǎn)”(risk)等詞匯則表明市場(chǎng)情緒不佳,計(jì)算機(jī)軟件通過(guò)計(jì)量微博等新聞來(lái)源關(guān)鍵詞來(lái)度量市場(chǎng)情緒的變化。湯姆森-路透社的合作伙伴L(zhǎng)exalytics公司的詞典更是包括了網(wǎng)上信息的表情符號(hào),例如表示笑臉的:)和表示心情不好的:等,利用特定的算法從推特網(wǎng)信息中提取出市場(chǎng)情緒的指標(biāo)。
像原生的經(jīng)濟(jì)數(shù)據(jù)一樣,新聞和社交媒體討論等所謂的“非結(jié)構(gòu)化數(shù)據(jù)”也都能使市場(chǎng)情緒發(fā)生從高潮到低谷的改變。希臘主權(quán)債務(wù)危機(jī)在2010年5月加深時(shí),華爾街金融界的自動(dòng)交易程序在新聞標(biāo)題中發(fā)現(xiàn)“深淵”(abyss)一詞,并據(jù)此拋售股票,導(dǎo)致了市場(chǎng)的大幅下挫。
近年來(lái)的一些研究發(fā)現(xiàn),網(wǎng)上社區(qū)中的情緒居然能預(yù)測(cè)股票。美國(guó)《新科學(xué)家New Scientist》雜志2010年6月刊登了吉姆·吉列的文章《博客和推特能夠預(yù)測(cè)未來(lái)》②,介紹了Gilbert等人對(duì)LiveJournal網(wǎng)站上發(fā)表的超過(guò)2000萬(wàn)的帖子中包含憂慮情緒的詞組之頻率的研究,發(fā)現(xiàn)當(dāng)焦慮指數(shù)劇增時(shí),標(biāo)準(zhǔn)普爾500指數(shù)將略微低于三日移動(dòng)平均線。
金融界迅速對(duì)這一發(fā)現(xiàn)做出反應(yīng),英國(guó)投資設(shè)立了一支2500萬(wàn)英鎊的對(duì)沖基金The Derwent Absolute Return Fund Ltd.,計(jì)劃從2011年2月開始根據(jù)對(duì)社交網(wǎng)站上的關(guān)鍵詞的變化進(jìn)行證券投資交易。其交易模型是分析推特網(wǎng)上諸如“calm”這樣的單詞出現(xiàn)的頻率高低進(jìn)行投資決策。
注重創(chuàng)新的華爾街金融機(jī)構(gòu)相當(dāng)看好微博所帶來(lái)的投資機(jī)會(huì)?!都~約時(shí)報(bào)》著名財(cái)經(jīng)記者格雷漢姆·包利在2010年12月發(fā)表了一篇被廣為引用的文章《新聞分析幫助華爾街交易商捕捉市場(chǎng)情緒》③,文中指出,“華爾街證券交易商正在利用功能強(qiáng)大的計(jì)算機(jī)來(lái)快速瀏覽新聞報(bào)道、社論、公司網(wǎng)站、博客文章甚至是推特信息,程序會(huì)對(duì)這種新聞進(jìn)行解讀,然后據(jù)此進(jìn)行自動(dòng)股票交易。彭博社、道瓊斯和湯姆森-路透社等新聞機(jī)構(gòu)都已開始幫助華爾街客戶自動(dòng)篩選能有助于股票交易的新聞。”
國(guó)際一流的新聞服務(wù)機(jī)構(gòu)已經(jīng)開始提供針對(duì)推特網(wǎng)等社交網(wǎng)絡(luò)的新聞監(jiān)測(cè)服務(wù),來(lái)幫助華爾街的金融客戶自動(dòng)篩選與交易趨勢(shì)有關(guān)的新聞。
在微博時(shí)代,前文提及的針對(duì)海量信息的過(guò)濾與搜索是一種業(yè)務(wù)模式,但這種搜索占用大量的帶寬和技術(shù)資源,就像是挖礦一樣要天天進(jìn)行。有挖礦的就有賣水的,提供語(yǔ)義分析標(biāo)簽服務(wù)就是這樣一項(xiàng)創(chuàng)新業(yè)務(wù)模式。
湯姆森-路透社早在2007年通過(guò)并購(gòu)引入了一項(xiàng)名為OpenCalais的語(yǔ)義標(biāo)簽服務(wù),該服務(wù)免費(fèi)為客戶提交的內(nèi)容創(chuàng)建語(yǔ)義元數(shù)據(jù),這些經(jīng)過(guò)標(biāo)記的內(nèi)容可以用于搜索、新聞聚合、博客、目錄和其他應(yīng)用。OpenCalais每天處理超過(guò)500萬(wàn)份文檔,用戶無(wú)需開發(fā)自己的軟件就可以使用它來(lái)建立自己的語(yǔ)義基礎(chǔ)設(shè)施和元數(shù)據(jù),并鏈接到其他網(wǎng)站。
湯姆森-路透社的語(yǔ)義標(biāo)簽服務(wù)是一項(xiàng)深謀遠(yuǎn)慮的戰(zhàn)略業(yè)務(wù),其價(jià)值就像如今的商家購(gòu)買百度搜索關(guān)鍵詞一樣,等到有大量的用戶采用OpenCalais作為其內(nèi)容的標(biāo)簽生成工具,湯姆森-路透社可以直接從其數(shù)據(jù)庫(kù)里發(fā)現(xiàn)信息動(dòng)態(tài)的變化,自然而然地就擁有了對(duì)證券新聞監(jiān)測(cè)服務(wù)的主導(dǎo)權(quán)。
本文介紹的針對(duì)社交網(wǎng)絡(luò)的信息監(jiān)測(cè)服務(wù)不僅能在證券領(lǐng)域牛刀小試,在市場(chǎng)營(yíng)銷效果評(píng)估、廣告監(jiān)測(cè)、輿情分析等領(lǐng)域也大有可為,將會(huì)為我國(guó)媒體開辟創(chuàng)新服務(wù)的一片新大陸。
【注釋】
① Eric Gilbert, Karrie Karahalios.Widespread Worry and the Stock Market[C].4th Int’l AAAI Conference on Weblogs and Social Media.2010
② Johan Bollen, Huina Mao, and Xiao-Jun Zeng. Twitter mood predicts the stock market. Journal of Computational Science, 2(1), March, Pages 1-8. 2011.
③ Giles, Jim. Blogs and tweets could predict the future[J]New Scientist. Vol. 206, no. 2765:20-21. 2010.
④ 樂天.語(yǔ)義Web:電腦能懂的網(wǎng)絡(luò)[N].計(jì)算機(jī)世界.2011-04-13.
何謂語(yǔ)義分析
語(yǔ)義分析(Semantic Analysis)是分析非結(jié)構(gòu)化信息的工具,語(yǔ)義技術(shù)對(duì)這類信息通過(guò)聚合、聯(lián)邦、分析以揭示某個(gè)概念或含義,然后生成可以供計(jì)算機(jī)分析的機(jī)讀新聞④。湯姆森-路透社提供的機(jī)讀新聞服務(wù)就應(yīng)用了語(yǔ)義技術(shù)。該服務(wù)收集和分析了來(lái)自3000多名路透社記者、其他第三方網(wǎng)絡(luò)新聞和博客,然后,根據(jù)人們對(duì)某個(gè)公司或者產(chǎn)品的好惡、新穎性等進(jìn)行評(píng)分。
中國(guó)傳媒大學(xué)媒體管理學(xué)院)