姜浩然* 周 萍 楊肖光
1.遼寧社會(huì)科學(xué)院社會(huì)學(xué)所 遼寧沈陽(yáng) 110031
2.復(fù)旦大學(xué)公共衛(wèi)生學(xué)院國(guó)家衛(wèi)生健康委衛(wèi)生技術(shù)評(píng)估重點(diǎn)實(shí)驗(yàn)室 上海 200032
“健康中國(guó)”是當(dāng)前中國(guó)重點(diǎn)推進(jìn)的國(guó)家級(jí)戰(zhàn)略。健康中國(guó)的內(nèi)涵極為豐富,涉及從微觀層面的健康生活方式、健康服務(wù),到宏觀層面的健康保障、健康環(huán)境、健康產(chǎn)業(yè)以及健康治理體系等各個(gè)方面[1],帶動(dòng)了全國(guó)范圍內(nèi)圍繞健康議題而開(kāi)展的各項(xiàng)政治、經(jīng)濟(jì)和社會(huì)活動(dòng)。健康中國(guó)建設(shè)的進(jìn)程也為各級(jí)各類(lèi)新聞媒體所持續(xù)關(guān)注。自十八屆五中全會(huì)提出“推進(jìn)健康中國(guó)建設(shè)”理念,到2016年8月全國(guó)衛(wèi)生與健康大會(huì)召開(kāi)及中央政治局審議通過(guò)《“健康中國(guó)2030”規(guī)劃》,再到十九大正式提出“實(shí)施健康中國(guó)戰(zhàn)略”,其間累積的大量媒體報(bào)道信息,為全景式的認(rèn)識(shí)這一國(guó)家重大政策的實(shí)施進(jìn)程提供了潛在的可能性。
新聞媒體是重要的信息載體、意見(jiàn)表達(dá)渠道和公共溝通平臺(tái)。媒體在及時(shí)、準(zhǔn)確記錄事件的發(fā)生的同時(shí),也反映了社會(huì)對(duì)于特定問(wèn)題的態(tài)度。同時(shí),媒體也承載著輿論導(dǎo)向的功能,在推行政策的過(guò)程中,政府也會(huì)有意識(shí)的利用媒體進(jìn)行宣傳和倡導(dǎo)。[2]在互聯(lián)網(wǎng)與大數(shù)據(jù)時(shí)代,隨著文本數(shù)據(jù)挖掘技術(shù)的突破,媒體報(bào)道的量化分析已引起研究者的重視,并廣泛應(yīng)用于各個(gè)領(lǐng)域,如金融、農(nóng)業(yè)、環(huán)境等。[3]然而,在衛(wèi)生與健康領(lǐng)域,媒體報(bào)道相關(guān)研究分析多停留在新聞傳播學(xué)的角度開(kāi)展的媒體報(bào)道內(nèi)容分析。[4]為數(shù)不多的基于量化的輿情分析[5]則以報(bào)道頻次、時(shí)間分布、關(guān)鍵詞詞頻等描述方法為主,對(duì)新聞文本信息挖掘的深度有限,也一定程度上影響了分析效果。
本文將利用文本挖掘(text-mining)的手段,對(duì)2016—2017年部分綜合性新聞媒體關(guān)于健康中國(guó)的報(bào)道進(jìn)行挖掘與分析,探索媒體報(bào)道健康中國(guó)的內(nèi)容、領(lǐng)域、總體性特點(diǎn),進(jìn)而從一個(gè)新的視角了解健康中國(guó)的政策導(dǎo)向、實(shí)施進(jìn)展和重點(diǎn)領(lǐng)域,為政府有關(guān)部門(mén)更好的推進(jìn)健康中國(guó)戰(zhàn)略提供參考。
1.1.1 數(shù)據(jù)采集
利用自編R語(yǔ)言程序,從國(guó)內(nèi)有影響力的門(mén)戶網(wǎng)站、重點(diǎn)報(bào)刊數(shù)字版等渠道采集部分綜合性新聞報(bào)道文本。具體來(lái)源是:從新浪、搜狐、鳳凰、騰訊、網(wǎng)易、人民網(wǎng)、新華網(wǎng)、中國(guó)新聞網(wǎng)等門(mén)戶網(wǎng)站的新聞?lì)l道采集時(shí)政新聞、社會(huì)新聞、財(cái)經(jīng)新聞以及新聞評(píng)論欄目的全部新聞;從財(cái)新網(wǎng)、新京報(bào)網(wǎng)、澎湃新聞網(wǎng)三個(gè)重要的綜合性媒體網(wǎng)站采集各子欄目新聞;同時(shí)采集了人民日?qǐng)?bào)、光明日?qǐng)?bào)、中國(guó)青年報(bào)三家重點(diǎn)報(bào)刊數(shù)字版的全部新聞,并去除國(guó)際新聞、娛樂(lè)新聞、體育新聞、廣告等欄目。新聞采集時(shí)間范圍為2016年1月1日—2017年12月31日。共獲取新聞文本總數(shù)5 343 966篇。需指出的是,本文數(shù)據(jù)來(lái)源全部為綜合性新聞媒體,并未納入《健康報(bào)》、《健康時(shí)報(bào)》等專(zhuān)業(yè)健康媒體。部分由于網(wǎng)站限制采集原因,同時(shí)也考慮到專(zhuān)業(yè)健康媒體可能會(huì)對(duì)數(shù)據(jù)整體分布造成影響。
1.1.2 數(shù)據(jù)篩選、過(guò)濾與分詞
采集到的原始新聞文本保留“標(biāo)題”、“發(fā)布時(shí)間”、“來(lái)源”和“正文”四個(gè)字段作為分析的基礎(chǔ)數(shù)據(jù)。首先以詞典規(guī)則的方法[6]篩選出與健康中國(guó)相關(guān)的媒體報(bào)道①詞典規(guī)則法即根據(jù)若干關(guān)鍵詞在文檔中出現(xiàn)的頻次與位置賦分,并以特定閾值為限進(jìn)行文本篩選或歸類(lèi)的方法。,具體方法是:
(1)篩選出標(biāo)題和正文中出現(xiàn)“健康中國(guó)、全民健康、健康融入所有政策”中任意一個(gè)關(guān)鍵詞的報(bào)道文本,作為初篩結(jié)果,共計(jì)13 630篇新聞。
(2)根據(jù)“健康中國(guó)、全民健康、健康融入所有政策”三個(gè)關(guān)鍵詞在新聞報(bào)道中的出現(xiàn)位置,對(duì)初篩新聞進(jìn)行打分。經(jīng)人工測(cè)試后確定的賦值規(guī)則為:如果任意關(guān)鍵詞出現(xiàn)在標(biāo)題位置則權(quán)重為6,出現(xiàn)在文本首段權(quán)重為3、非首段的首句權(quán)重2、非首段非首句權(quán)重0.6,按出現(xiàn)次數(shù)加權(quán)后加總得出主題得分。
(3)由于部分報(bào)道可能間或出現(xiàn)上述關(guān)鍵詞,但其報(bào)道本身與健康領(lǐng)域無(wú)關(guān)(如財(cái)經(jīng)新聞),故本文擬定了若干健康領(lǐng)域的關(guān)鍵詞②健康領(lǐng)域關(guān)鍵詞為:醫(yī)療、醫(yī)保、衛(wèi)生、醫(yī)藥、醫(yī)院、醫(yī)生、健康、疾病、治病、醫(yī)藥、醫(yī)療保險(xiǎn)、醫(yī)療保障、健身、健康產(chǎn)業(yè)、養(yǎng)老、醫(yī)改、病人、患者、衛(wèi)計(jì)委、診療、醫(yī)務(wù)、醫(yī)學(xué)、壽命、控?zé)?、吸煙、食品安全、殘疾、中醫(yī)、老年、疾控、老齡、慢病、慢性病、疫苗、疫情、用藥、防治、保健。,這些領(lǐng)域詞表中的任一詞在正文中出現(xiàn)一次計(jì)0.05分,加總后作為領(lǐng)域得分。主題得分與領(lǐng)域得分相加得到文檔總分。經(jīng)作者人工判斷并討論后,確定得分2.5分以上的入選,共計(jì)10 308篇。
(4)由于熱點(diǎn)新聞可能會(huì)被不同的網(wǎng)站多次轉(zhuǎn)發(fā),故本文利用文本相似度計(jì)算的方法[7],對(duì)新聞?wù)倪M(jìn)行了去重處理,剩余新聞6 999篇。作為文本分析的數(shù)據(jù)源。
1.1.3 文本分詞及預(yù)處理
對(duì)于6 999篇報(bào)道,在保留標(biāo)題、發(fā)布時(shí)間、來(lái)源字段不變的前提下,利用R語(yǔ)言jiebaR工具包[8]將新聞?wù)倪M(jìn)行分詞處理。分詞工具中加入自編詞庫(kù),避免一些專(zhuān)有詞匯(如“健康融入所有政策”)被錯(cuò)誤拆分。分詞后的文本去掉“的、我”等單字停用詞、數(shù)字和英文字母,詞語(yǔ)最小長(zhǎng)度保留為兩字,最終形成用于描述分析和主題模型分析所用的語(yǔ)料數(shù)據(jù)。
1.2.1 文本詞頻分布的描述分析
數(shù)據(jù)分析同樣使用R語(yǔ)言相關(guān)工具包完成。首先描述新聞在月度時(shí)間序列的分布情況,以及媒體來(lái)源統(tǒng)計(jì),對(duì)本文所分析的新聞文本集合進(jìn)行整體描述。文本關(guān)鍵詞及其詞頻識(shí)別與計(jì)算是文本挖掘內(nèi)容的重要方法[9],本文利用詞頻—逆文檔頻率(TF-IDF)方法[10]篩選出新聞文本中的高頻關(guān)鍵詞,并描述高頻詞的時(shí)間序列分布情況,以此發(fā)現(xiàn)媒體報(bào)道健康中國(guó)的聚焦點(diǎn)及其隨時(shí)間的進(jìn)展變化。
1.2.2 基于LDA主題模型(Topic Model)的文本挖掘
本文運(yùn)用主題模型(Topic Model)方法對(duì)6 999份已經(jīng)分詞的文本進(jìn)行自動(dòng)分類(lèi),嘗試發(fā)現(xiàn)健康中國(guó)相關(guān)新聞報(bào)道中不同側(cè)重點(diǎn)和方向。主題模型(topic-model)[11]是文本挖掘的重要進(jìn)展,可以通過(guò)無(wú)監(jiān)督類(lèi)機(jī)器學(xué)習(xí)算法,依據(jù)給定的主題數(shù)量對(duì)文檔進(jìn)行自動(dòng)分類(lèi)。該模型假設(shè),整個(gè)文檔集合中存在若干個(gè)主題(topic),每一個(gè)特定主題由文檔中包含的詞匯以不同的概率定義出來(lái),而每一篇特定文檔(document)中與某個(gè)主題的相關(guān)程度也是不一樣的。模型擬合的結(jié)果之一是展示某一特定主題所關(guān)聯(lián)的高頻詞及其從屬于該主題的概率,通過(guò)列舉高概率詞語(yǔ)組合,可以判斷出該主題的內(nèi)容。[12]此外,主題模型的擬合還可以實(shí)現(xiàn)按主題將文檔聚類(lèi)的效果。本文選擇主題模型中最為常用的LDA(Latent Dirichlet allocation)模型[12],利用 R語(yǔ)言 topicmodels工具包作為具體工具,對(duì)新聞?wù)Z料進(jìn)行主題識(shí)別。主題數(shù)量在運(yùn)行模型前由研究者自行確定。盡管在理論上可以用 perplexity[13]或 coherence[14]指標(biāo)評(píng)估主題區(qū)分效果,進(jìn)而確定合適的主題數(shù)量,但在實(shí)際研究中,通常做法是參考相關(guān)指標(biāo),通過(guò)人工審讀方式確定主題數(shù)量。故本文將在參照perplexity指標(biāo)的基礎(chǔ)上,以人工判斷的方式,選擇分類(lèi)效果最好的主題數(shù)量作為結(jié)果,詳見(jiàn)結(jié)果部分。
2.1.1 時(shí)間趨勢(shì)分布
圖1是2016年1月—2017年12月關(guān)于健康中國(guó)報(bào)道數(shù)量的時(shí)間分布趨勢(shì)(以未去重的13 630篇新聞?dòng)?jì)算),從中可以看到,健康中國(guó)的報(bào)道力度與全國(guó)“兩會(huì)”、全國(guó)衛(wèi)生與健康大會(huì)、中共十九大等事件密切相關(guān)。
圖1 月度健康中國(guó)相關(guān)新聞報(bào)道量分布
2.1.2 報(bào)道來(lái)源分布
從媒體來(lái)源上看,經(jīng)過(guò)去重的6 999篇報(bào)道來(lái)自超過(guò)500家國(guó)內(nèi)信息來(lái)源,形式以報(bào)紙和新聞網(wǎng)站為主,同時(shí)也有少量來(lái)自政府網(wǎng)站、新媒體、自媒體的信息被報(bào)紙和網(wǎng)站所轉(zhuǎn)載。表1列舉了報(bào)道超過(guò)50篇以上的媒體名稱(chēng)。
本文統(tǒng)計(jì)了健康中國(guó)報(bào)道的關(guān)鍵詞及其分布情況,以原始詞頻和TF-IDF加權(quán)得分分別統(tǒng)計(jì)。原始詞頻,即特定詞語(yǔ)在報(bào)道正文中出現(xiàn)的次數(shù),能夠在一定程度上表現(xiàn)出新聞報(bào)道用語(yǔ)的特點(diǎn)。表2是前32位原始詞頻表,圖2是相應(yīng)的前60位的原始詞云圖,可以看到,“健康”與“發(fā)展”是涉及最多的詞語(yǔ),而“推進(jìn)”、“建設(shè)”、“改革”、“促進(jìn)”、“實(shí)現(xiàn)”、“加快”等表示政府行動(dòng)的詞語(yǔ)也頻繁出現(xiàn)。
而TF-IDF得分則能夠反映出詞語(yǔ)在報(bào)道文本中的相對(duì)重要程度,能夠更好的反映出報(bào)道的主題和聚焦點(diǎn)。表3是TF-IDF得分前32位的高頻詞表,圖3是與之相應(yīng)的前60位的高頻詞TFIDF得分的詞云圖,如醫(yī)療衛(wèi)生方面(中醫(yī)藥、醫(yī)療、醫(yī)院、衛(wèi)生、患者、醫(yī)生等),體育健身方面(體育、活動(dòng)、全民健身、運(yùn)動(dòng)等),健康管理方面(健康體檢、營(yíng)養(yǎng)、居民等),以及健康產(chǎn)業(yè)方面(健康產(chǎn)業(yè)、企業(yè)、產(chǎn)業(yè)等),更多的反映出健康中國(guó)的內(nèi)容。
表1 媒體來(lái)源與報(bào)道數(shù)量
表2 報(bào)道中出現(xiàn)的熱點(diǎn)詞匯及詞頻(原始詞頻)
表3 報(bào)道關(guān)鍵詞及其TF-IDF得分
圖2 報(bào)道熱點(diǎn)詞匯詞云圖(原始詞頻)
根據(jù)主題模型分析的一般步驟[12],作者分別設(shè)定了5~25個(gè)主題數(shù)量,分別生成不同的主題分類(lèi)組合。在對(duì)分類(lèi)結(jié)果分別進(jìn)行人工審閱后發(fā)現(xiàn),主題數(shù)量設(shè)定為19的情況下,分類(lèi)效果最為明顯,能夠較好的反映出健康中國(guó)報(bào)道的不同方面。其中,表5中的6個(gè)主題類(lèi)別與醫(yī)療衛(wèi)生相關(guān),表6中的主題與民眾的健康生活相關(guān),表7則是健康產(chǎn)業(yè)相關(guān)主題。另外,還剩余一些相關(guān)性不明顯的主題,也一并列出。
圖3 報(bào)道熱點(diǎn)詞匯詞云圖(TF-IDF得分)
2.3.1 醫(yī)療衛(wèi)生類(lèi)主題
醫(yī)療衛(wèi)生類(lèi)主題是健康中國(guó)報(bào)道中最重要的主題類(lèi)別。表5列出了醫(yī)療衛(wèi)生類(lèi)中不同主題詞概率得分在前15位的詞,以及該類(lèi)別下新聞文檔的數(shù)量。其中主題1是與醫(yī)藥衛(wèi)生體制改革相關(guān)的報(bào)道,從中可以看到醫(yī)療、醫(yī)保、家庭醫(yī)生、分級(jí)診療等當(dāng)前國(guó)家醫(yī)改重點(diǎn)推進(jìn)的政策領(lǐng)域。這一主題類(lèi)別下的有報(bào)道659篇,也是所有主題中最多的。主題2是醫(yī)療服務(wù)相關(guān)的話題,圍繞醫(yī)生、患者、疾病等議題展開(kāi)。主題3是醫(yī)學(xué)教育和醫(yī)學(xué)人才培養(yǎng)的話題。在當(dāng)前醫(yī)學(xué)人才需求增加、醫(yī)患矛盾突出等背景下,這一話題也是媒體報(bào)道和討論的熱點(diǎn)。主題4與醫(yī)學(xué)科技創(chuàng)新、國(guó)際合作等議題相關(guān)。健康中國(guó)建設(shè)以科技創(chuàng)新為重要推動(dòng)力,同時(shí)也為科技發(fā)展和成果轉(zhuǎn)化提供了重要平臺(tái)。此外,該主題還提示了十九大以來(lái)愈加重要的“全球健康”議題。盡管在前15位關(guān)鍵詞中體現(xiàn)的不明顯,但是該主題的文檔集中也納入了諸如習(xí)近平總書(shū)記訪問(wèn)世界衛(wèi)生組織、全球健康促進(jìn)大會(huì)在上海召開(kāi)、中國(guó)與東盟、非洲國(guó)家地區(qū)的衛(wèi)生合作等新聞報(bào)道。主題5是中醫(yī)、中藥相關(guān)的話題,也說(shuō)明中醫(yī)藥以及中國(guó)傳統(tǒng)醫(yī)學(xué)文化在健康中國(guó)建設(shè)中的重要地位。主題6是與公共衛(wèi)生和疾病控制相關(guān)的話題,包括了疾病預(yù)防、婦女兒童保健、殘疾人、農(nóng)村地區(qū)等公共衛(wèi)生的重點(diǎn)領(lǐng)域。
表5 醫(yī)療衛(wèi)生類(lèi)相關(guān)主題及關(guān)鍵詞
2.3.2 健康生活類(lèi)主題
表6中的主題與民眾的健康生活更加密切。其中主題7是營(yíng)養(yǎng)與健康生活方式相關(guān)的話題,包括飲食、運(yùn)動(dòng)、常見(jiàn)疾病知識(shí)等。主題8的體育健身也是健康中國(guó)的重要內(nèi)容,其中可以看到從日常鍛煉、廣場(chǎng)休閑到專(zhuān)業(yè)體育賽事等各種類(lèi)別的體育健身在報(bào)道范圍中。主題9涉及到健康科普宣傳等活動(dòng),一定程度上反映了政府和社會(huì)開(kāi)展健康知識(shí)宣傳、提升民眾健康素養(yǎng)的行動(dòng)。主題10是食品安全相關(guān)話題。主題11則是健康中國(guó)的另一個(gè)重要話題——養(yǎng)老。
表6 社會(huì)生活類(lèi)主題及關(guān)鍵詞
(續(xù))
2.3.3 健康產(chǎn)業(yè)類(lèi)主題
表7中的主題與健康產(chǎn)業(yè)相關(guān)。主題12首先提及的企業(yè)、市場(chǎng)、產(chǎn)品等主要關(guān)鍵詞,說(shuō)明當(dāng)前健康產(chǎn)業(yè)發(fā)展的積極態(tài)勢(shì)。也可以看到互聯(lián)網(wǎng)、(人工)智能等最新的科技進(jìn)展在健康產(chǎn)業(yè)(如健康管理)中的重要作用。主題13和主題14分別代表了健康保險(xiǎn)和生物醫(yī)藥這兩個(gè)健康產(chǎn)業(yè)中的重點(diǎn)領(lǐng)域。前者連帶著金融、投資等健康產(chǎn)業(yè)的拓展領(lǐng)域,而后者則與上市、集團(tuán)化等資本運(yùn)作相關(guān)。主題15則涉及到市場(chǎng)與投資環(huán)境的治理、制度建設(shè)等。而農(nóng)業(yè)和農(nóng)村的話題也在這個(gè)主題下出現(xiàn)。主題16則提到了邊疆和少數(shù)民族地區(qū)的報(bào)道,特別是健康體檢相關(guān)話題,也顯示出健康中國(guó)在邊疆和少數(shù)民族地區(qū)實(shí)施過(guò)程中的特點(diǎn)。
表7 健康產(chǎn)業(yè)類(lèi)相關(guān)主題及關(guān)鍵詞
2.3.4 其他類(lèi)別主題
此外,模型中還歸類(lèi)了其他3個(gè)主題,大多為國(guó)家領(lǐng)導(dǎo)人講話或重要政策文件,以及宣傳落實(shí)黨的精神的新聞報(bào)道(表8)。這些政治類(lèi)的報(bào)道大多是綜合性的,涉及經(jīng)濟(jì)社會(huì)各個(gè)方面,健康中國(guó)有時(shí)僅作為一個(gè)話題在其中提及,因此在主題關(guān)鍵詞上體現(xiàn)的不是很明顯。而且由于是無(wú)監(jiān)督的自動(dòng)機(jī)器學(xué)習(xí),主題19也出現(xiàn)了主題混淆的現(xiàn)象。
表8 其他主題及關(guān)鍵詞
3.1.1 健康中國(guó)在媒體中占有重要位置
首先,從分析結(jié)果上看,健康中國(guó)作為國(guó)家宏觀戰(zhàn)略,始終保持著高度的媒體關(guān)注度,并且還在持續(xù)的上升。健康中國(guó)在媒體中的重要性可以從報(bào)道的時(shí)間與來(lái)源分布中凸顯出來(lái)。從報(bào)道的時(shí)間分布上看,在媒體報(bào)道集中的時(shí)間段內(nèi)(如兩會(huì)、十九大、全國(guó)衛(wèi)生與健康大會(huì)),健康中國(guó)的報(bào)道也呈現(xiàn)明顯的多發(fā)趨勢(shì),這也在一定程度上反映了媒體對(duì)于健康中國(guó)議題的關(guān)注度。從媒體報(bào)道來(lái)源可以看到,人民網(wǎng)、中國(guó)新聞網(wǎng)、央廣網(wǎng)、新華社、人民日?qǐng)?bào)等國(guó)家級(jí)媒體是健康中國(guó)新聞報(bào)道的最重要主體,這也充分體現(xiàn)出了當(dāng)前國(guó)家級(jí)媒體在宣傳健康中國(guó)政策過(guò)程中的重要作用。
3.1.2 健康中國(guó)媒體報(bào)道領(lǐng)域廣泛、內(nèi)容豐富
無(wú)論是詞頻分布分析還是主題模型分析,都可以看出健康中國(guó)報(bào)道分布在不同領(lǐng)域,媒體報(bào)道的內(nèi)容與健康中國(guó)的政策要點(diǎn)能夠基本呼應(yīng)。且不同類(lèi)別中文檔的分布數(shù)量相對(duì)平衡,體現(xiàn)出較好的區(qū)分情況。這也說(shuō)明本研究中的報(bào)道文本能夠相對(duì)全面和完整的覆蓋健康中國(guó)的各個(gè)方面。同時(shí),不同領(lǐng)域也呈現(xiàn)出各自特點(diǎn),如醫(yī)改和醫(yī)療衛(wèi)生體制問(wèn)題作為健康中國(guó)建設(shè)中的核心問(wèn)題,仍然受到媒體的大量關(guān)注。食品安全主題(主題10)一方面反映出媒體和公眾對(duì)于食品安全問(wèn)題高度的關(guān)注程度,另一方面也體現(xiàn)了政府在食品安全監(jiān)管的重視,以及對(duì)相關(guān)違法行為的打擊。而主題1中,養(yǎng)老與“產(chǎn)業(yè)”、“項(xiàng)目”等詞語(yǔ)關(guān)聯(lián)起來(lái),也反映出當(dāng)前養(yǎng)老向產(chǎn)業(yè)化和社會(huì)化方向的發(fā)展態(tài)勢(shì)。
3.1.3 健康中國(guó)的媒體報(bào)道態(tài)度趨向正面
雖然本文未做專(zhuān)門(mén)的文本情感分析(sentiment analysis),但從關(guān)鍵詞的羅列中可以發(fā)現(xiàn),媒體報(bào)道的健康中國(guó)相對(duì)正面和積極,“問(wèn)題”、“矛盾”等負(fù)向的詞語(yǔ)幾乎沒(méi)有在高頻詞中出現(xiàn)。這也說(shuō)明,健康中國(guó)作為一項(xiàng)普惠性的國(guó)家政策,并未在媒體和社會(huì)中引起太多爭(zhēng)議。一方面,國(guó)家借助媒體為政策的推進(jìn)營(yíng)造良好的輿論氛圍,另一方面,媒體也對(duì)于健康中國(guó)政策持積極態(tài)度,這都使得健康中國(guó)的報(bào)道在態(tài)度上較為正面。
從方法學(xué)角度看,本研究是利用計(jì)算機(jī)輔助技術(shù),從大規(guī)模非結(jié)構(gòu)化文本中提取健康政策信息的一次嘗試,體現(xiàn)出了文本挖掘方法在衛(wèi)生政策研究中的巨大潛力。文本挖掘方法的價(jià)值首先在于海量信息的處理能力。如前所述,健康中國(guó)是一個(gè)內(nèi)涵極為豐富的國(guó)家戰(zhàn)略,相關(guān)信息的處理要求已經(jīng)超出傳統(tǒng)的定性內(nèi)容分析方法的能力范圍,而這也恰恰是計(jì)算機(jī)輔助技術(shù)的優(yōu)勢(shì)所在。同時(shí),文本挖掘的結(jié)果也可以為進(jìn)一步的研究提供線索。如對(duì)于關(guān)鍵詞及其時(shí)間趨勢(shì)分布的分析,能夠?qū)φ哌M(jìn)程中的重點(diǎn)和熱點(diǎn)問(wèn)題起到提示作用,便于進(jìn)一步探索。主題模型本身在實(shí)現(xiàn)主題聚類(lèi)的同時(shí),也能夠有效的實(shí)現(xiàn)新聞文本的篩選和分類(lèi),有助于開(kāi)展常規(guī)的基于人工閱讀與編碼的內(nèi)容分析。
當(dāng)然,本文只是從文本挖掘的角度,從媒體報(bào)道的視角展示健康中國(guó)的整體進(jìn)展。這當(dāng)然無(wú)法反映健康中國(guó)的全貌,也不涉及效果評(píng)估或經(jīng)驗(yàn)總結(jié)。但分析結(jié)果也提示媒體報(bào)道能夠及時(shí)的反映出健康中國(guó)政策的內(nèi)容及其進(jìn)展,進(jìn)而成為認(rèn)識(shí)和解讀這一國(guó)家政策的潛在且有效的證據(jù)來(lái)源。隨著數(shù)據(jù)的積累、方法的進(jìn)步,相關(guān)研究工作將具有很好的政策價(jià)值與前景。
作為一種新的嘗試,本研究也存在一定的不足,主要體現(xiàn)在研究方法的精細(xì)度方面。新聞文本屬于高度非結(jié)構(gòu)化的數(shù)據(jù),固然TF-IDF、LDA主題模型等機(jī)器學(xué)習(xí)方法在挖掘文本信息方面較傳統(tǒng)的基于統(tǒng)計(jì)規(guī)則的方法有所深入,但分析結(jié)果的呈現(xiàn)仍相對(duì)簡(jiǎn)單。特別是新聞背景、報(bào)道時(shí)間、新聞?lì)悇e、來(lái)源分類(lèi)等重要的文本屬性信息也并未在分析中體現(xiàn)。近年來(lái),在文本挖掘的前沿研究中,文本屬性信息納入主題模型分析已經(jīng)有了很多進(jìn)展[15],而以詞向量方法為代表的深度學(xué)習(xí)方法在自然語(yǔ)言處理領(lǐng)域的突破[16],也使得文本內(nèi)在的語(yǔ)義關(guān)系分析成為可能。這些技術(shù)方法與新聞文本數(shù)據(jù)的進(jìn)一步結(jié)合,也將進(jìn)一步增強(qiáng)基于海量數(shù)據(jù)進(jìn)行衛(wèi)生政策研究的能力。
作者聲明本文無(wú)實(shí)際或潛在的利益沖突。