楊致君 丁詩琪 游 心 胡 秀 劉德喜
江西財(cái)經(jīng)大學(xué)信息管理學(xué)院 江西 南昌 330013
根據(jù)世界健康組織在2012年的研究表明,抑郁癥等心理健康疾病已成為危害人類健康的世界第四大疾病,心理健康危機(jī)的預(yù)防和檢測(cè)也日益得到政府和相關(guān)團(tuán)體的關(guān)注。然而,由于長(zhǎng)期以來缺乏對(duì)心理健康危機(jī)的重視以及傳統(tǒng)的對(duì)心理疾病患者的歧視,對(duì)精神疾病患者的保密制度不夠完善,尤其是在中小城市,導(dǎo)致了很多患有心理疾病的群體缺乏就診意識(shí)。
隨著互聯(lián)網(wǎng)的發(fā)展,出現(xiàn)了各種各樣的社交網(wǎng)絡(luò)通信工具,國(guó)外以推特為代表,國(guó)內(nèi)以微博、QQ空間為代表,吸引著越來越多的人進(jìn)行互動(dòng),形成了各種各樣的用戶群體,比如具有共同興趣愛好的群體、具有相同性格的群體等。人們也越來越趨于在微博和空間上發(fā)表自己的觀點(diǎn),表達(dá)自己的情感,為通過分析微博、QQ空間等社交網(wǎng)絡(luò)上用戶的行為及發(fā)表的言論監(jiān)測(cè)用戶心理健康提供了可能,尤其是近年來發(fā)生的青少年微博直播自殺事件,更是為通過分析微博追蹤用戶心理健康狀態(tài)提供了充分的事實(shí)依據(jù)。國(guó)內(nèi)的網(wǎng)絡(luò)社會(huì)中,微博是普及率和用戶粘度均名列前茅的社交平臺(tái),目前越來越大的研究著眼于通過微博內(nèi)容來對(duì)用戶進(jìn)行人物畫像,對(duì)用戶自殺傾向、情緒和情感及其原因進(jìn)行分析。
目前有不少的團(tuán)隊(duì)致力于通過社交媒體的監(jiān)測(cè)識(shí)別,找尋具有嚴(yán)重自殺傾向的人,并對(duì)他們提供幫助。2018年4月2日黃智生等學(xué)者發(fā)起了樹洞行動(dòng),希望通過智能主題巡視社交媒體,發(fā)現(xiàn)高風(fēng)險(xiǎn)自殺傾向人群,并組織人力實(shí)施教援。但是即使是周密的醫(yī)療團(tuán)隊(duì)實(shí)施的救援,也會(huì)有收效甚微的情況,其中-一個(gè)原因是,目前網(wǎng)絡(luò)監(jiān)控的主要重點(diǎn)在高心理危機(jī)的用戶,發(fā)起救援的時(shí)機(jī)是在確認(rèn)心理危機(jī)之后,這種援助行為一定程度上忽視了用戶自身的求助意愿。用戶在高自殺風(fēng)險(xiǎn)的情況下可能會(huì)對(duì)救援活動(dòng)產(chǎn)生抵觸,而用戶在具有求助意愿的情況下,交流與援助工作都可以進(jìn)行的更加順利。合適的干預(yù)時(shí)機(jī),可以為被救助者與施救者的溝通營(yíng)造出更加舒適的環(huán)境。因此干預(yù)時(shí)機(jī)的預(yù)測(cè)會(huì)對(duì)救助行動(dòng)產(chǎn)生積極影響。
并且目前國(guó)內(nèi)運(yùn)用微博和空間等社交媒體對(duì)用戶心理健康分析的研究比較少,主要集中于心理學(xué)、醫(yī)學(xué)等領(lǐng)域。雖然這些領(lǐng)域?qū)π睦斫】禒顩r的研究比較深入,但由于編碼能力較弱,無法對(duì)豐富的微博數(shù)據(jù)進(jìn)行充分的利用,挖掘出有用的信息,得到準(zhǔn)確結(jié)果,故而運(yùn)用微博數(shù)據(jù)對(duì)用戶心理健康的分析只停留在表面現(xiàn)象,無法進(jìn)入更深層次的研究。
隨著互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)的普及以及自然語言處理技術(shù)日益成熟,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的應(yīng)用為心理學(xué)領(lǐng)域的探究與計(jì)算機(jī)提供了更多的可能性。因此運(yùn)用數(shù)據(jù)挖掘和自然語言技術(shù)分析用戶在網(wǎng)絡(luò)上的言論及用戶使用網(wǎng)絡(luò)的行為,進(jìn)而預(yù)測(cè)用戶心理健康危機(jī)程度具有較大的社會(huì)意義。
江西財(cái)經(jīng)大學(xué)數(shù)據(jù)與知識(shí)工程重點(diǎn)實(shí)驗(yàn)室在文本挖掘、情感分析等領(lǐng)域有良好的研究基礎(chǔ),公開發(fā)表多篇高質(zhì)量研究論文,部分技術(shù)已獲得軟件著作權(quán)已收集50余位已自殺的微博用戶的微博數(shù)據(jù)、600多位江西財(cái)經(jīng)大學(xué)2016級(jí)學(xué)生的抑郁自評(píng)結(jié)果及他們自評(píng)前1年發(fā)表的微信或QQ空間數(shù)據(jù)、1萬余條由中科院心理研究所標(biāo)注有自殺傾向的微博數(shù)據(jù),以及3萬余條來自CLPsych2017心理危機(jī)評(píng)測(cè)的數(shù)據(jù),為模型的研究和訓(xùn)練提供了數(shù)據(jù)支持。
指導(dǎo)教師劉德喜團(tuán)隊(duì)參加計(jì)算語言學(xué)年會(huì)ACL專題討論會(huì)CLPsych2017共享任務(wù)評(píng)測(cè)(心理危機(jī)預(yù)測(cè))獲得第一名(全球19個(gè)大學(xué)或研究機(jī)構(gòu),16支隊(duì)伍,251個(gè)runs),參加COAE2014微博新情感詞抽取任務(wù)評(píng)測(cè)獲得第二名,目前在國(guó)家自然科學(xué)基金項(xiàng)目和江西省自然科學(xué)基金的資助下從事基于社會(huì)化短文本主題模型的社會(huì)網(wǎng)絡(luò)用戶心理健康分析研究,為本項(xiàng)目提供了良好的理論和技術(shù)支持。
本項(xiàng)目利用先進(jìn)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和自然語言處理技術(shù),在抓取用戶網(wǎng)絡(luò)數(shù)據(jù)(如微博、QQ空間、微信等)的基礎(chǔ)上,設(shè)計(jì)分類和預(yù)測(cè)模型,預(yù)測(cè)網(wǎng)絡(luò)用戶的心理危機(jī)狀況,并將該預(yù)測(cè)模型進(jìn)行上線,為江西財(cái)經(jīng)大學(xué)心理健康教育與咨詢中心提供新的平臺(tái)和手段,改善大學(xué)生心理健康狀況。
傳統(tǒng)心理健康危機(jī)檢測(cè)方法,如自評(píng)量表問卷方法等,是侵入式的,填寫自評(píng)量表選項(xiàng)可能不一定是被試者的真實(shí)意圖;另外,非實(shí)時(shí)性也是傳統(tǒng)心理健康危機(jī)檢測(cè)的不足,通常問卷最短要一年或更久才能完成一次;加之大量患者并不愿意主動(dòng)向心理健康咨詢專家求助,使得傳統(tǒng)方法比較受限?;谖谋就诰虻脑诰€社交網(wǎng)絡(luò)用戶心理危機(jī)預(yù)測(cè)系統(tǒng)能夠克服傳統(tǒng)方法的不足,為及時(shí)發(fā)現(xiàn)潛在的心理健康危機(jī)者提供了新的渠道。
4.1 團(tuán)隊(duì)前期準(zhǔn)備 項(xiàng)目伊始,在導(dǎo)師的指導(dǎo)下首先閱讀了心理學(xué)、數(shù)據(jù)挖掘、自然語言處理相關(guān)的書籍,掌握一定基礎(chǔ)后,研讀了和項(xiàng)目相關(guān)性較強(qiáng)的文獻(xiàn)[1~4],從中獲得了一些靈感,對(duì)項(xiàng)目的未來有了一個(gè)比較清晰的路線。先后解決了數(shù)據(jù)爬取過程中遇到的一系列難題,測(cè)試了SVM分類模型、CRF預(yù)測(cè)模型,以及百度NLP、哈工大LTP、斯坦福NLP一系列接口和工具。
4.2 數(shù)據(jù)爬取的問題與解決 由于過量的爬蟲會(huì)給企業(yè)的服務(wù)器造成嚴(yán)重影響,很多網(wǎng)站都設(shè)置了反爬蟲的系列措施,比如:機(jī)器人識(shí)別,登錄驗(yàn)證,訪客界面,檢測(cè)IP頻率,限制端口等,給研究帶來了不小的挑戰(zhàn)。對(duì)于這些問題,我們主要采取了以下幾種方法,確保了數(shù)據(jù)的文明獲取、授權(quán)獲取、正常獲取:
4.2.1 設(shè)置爬取速度 由于爬蟲發(fā)送請(qǐng)求的速度比較快,會(huì)對(duì)服務(wù)器造成一定的影響,盡可能控制爬取速度,做到文明爬取。
4.2.2 多主機(jī)策略 這種策略比較可靠,一般一些網(wǎng)站會(huì)部署許多服務(wù)器,而我們?cè)诒緳C(jī)上ping網(wǎng)站,由于寬帶運(yùn)營(yíng)商的原因,往往只能訪問到固定的一個(gè)服務(wù)器,通過IP訪問服務(wù)器一定要在http頭部指明host,python3.6可使用urllib訪問特定IP地址的方式。這種策略的并行性也比較高,在單IP的情況下,通過多線程爬取不同服務(wù)器上的網(wǎng)站被禁的可能性會(huì)大大降低。
4.2.3 偽裝瀏覽器 偽裝瀏覽器,也就是修改User-Agent。User-Agent是指包含瀏覽器信息、操作系統(tǒng)信息等的一個(gè)字符串,也稱之為一種特殊的網(wǎng)絡(luò)協(xié)議。服務(wù)器通過它判斷當(dāng)前訪問對(duì)象是瀏覽器、郵件客戶端還是網(wǎng)絡(luò)爬蟲。
因此,可以把User-Agent的值改為瀏覽器的方式,甚至可以設(shè)置一個(gè)User-Agent池,存放多個(gè)“瀏覽器”,每次爬取的時(shí)候隨機(jī)取一個(gè)來設(shè)置request的User-Agent,這樣User-Agent會(huì)一直在變化,防止被墻。
4.2.4 修改IP 其實(shí)微博識(shí)別的是IP,不是賬號(hào),當(dāng)需要連續(xù)抓取很多數(shù)據(jù)的時(shí)候,模擬登錄沒有意義。只要是同一個(gè)IP,不管怎么換賬號(hào)也沒有用,主要的是換IP。Web Server應(yīng)對(duì)爬蟲的策略之一就是直接將IP或者整個(gè)IP段都封掉禁止訪問,當(dāng)IP被禁封后,轉(zhuǎn)換到其他IP繼續(xù)訪問即可。方法:代理IP、本地IP數(shù)據(jù)庫(使用IP池)。
4.3 模型與工具的使用
4.3.1 SVM分類模型 支持向量機(jī)(Support Vector Machine,SVM)是一個(gè)經(jīng)典二分類算法,其找到的分割超平面具有更好的魯棒性,因此廣泛使用在很多任務(wù)上,并表現(xiàn)出了很強(qiáng)優(yōu)勢(shì)。
研究中主要采用SVM模型解決一些簡(jiǎn)單基本的二分類問題,比如:情感是否為消極,某條消極數(shù)據(jù)中是否存在原因等。
4.3.2 CRF預(yù)測(cè)模型 隨機(jī)場(chǎng)是由若干個(gè)位置組成的整體,當(dāng)給每一個(gè)位置中按照某種分布隨機(jī)賦一個(gè)值后,其全體就叫做隨機(jī)場(chǎng)。馬爾可夫隨機(jī)場(chǎng)是隨機(jī)場(chǎng)的特例,它假設(shè)隨機(jī)場(chǎng)中某一個(gè)位置的賦值僅僅與和它相鄰位置的賦值有關(guān),和與其不相鄰位置的賦值無關(guān)。
CRF是馬爾可夫隨機(jī)場(chǎng)的特例,它假設(shè)馬爾可夫隨機(jī)場(chǎng)中只有X和Y兩種變量,X一般是給定的,而Y一般是在給定X的條件下我們的輸出。X和Y有相同的結(jié)構(gòu)的CRF就構(gòu)成了線性鏈條件隨機(jī)場(chǎng)。
研究中主要采用CRF模型結(jié)合大量的數(shù)據(jù),選取一定的特征,做詞法、句法、情感傾向的判斷,最后根據(jù)訓(xùn)練好的模型對(duì)未知的新數(shù)據(jù)進(jìn)行預(yù)測(cè)。
4.3.3 百度NLP、哈工大LTP、斯坦福NLP 百度NLP隸屬于百度AI開放平臺(tái),其中涵蓋了語音識(shí)別、自然語言處理、圖像識(shí)別、智能對(duì)話等諸多領(lǐng)域,企業(yè)本身具有龐大的數(shù)據(jù)量,加上非常專業(yè)的工程師團(tuán)隊(duì)和開放的眾開發(fā)模式,使得各功能的效果都達(dá)到了一個(gè)較高標(biāo)準(zhǔn)。
哈工大LTP語言云以哈工大社會(huì)計(jì)算與信息檢索研究中心研發(fā)的 “語言技術(shù)平臺(tái)(LTP)”為基礎(chǔ),為用戶提供高效精準(zhǔn)的中文自然語言處理云服務(wù)。使用“語言云”非常簡(jiǎn)單,只需要根據(jù)API參數(shù)構(gòu)造HTTP請(qǐng)求即可在線獲得分析結(jié)果,而無需下載SDK、無需購(gòu)買高性能的機(jī)器,同時(shí)支持跨平臺(tái)、跨語言編程等。
斯坦福NLP是以工具包的形式進(jìn)行使用,在調(diào)節(jié)參數(shù)等方面非常方便,所有的模型都是離線可用,且代碼基于Java,適合部署在本地服務(wù)器上進(jìn)行測(cè)試使用。
本研究主要運(yùn)用以上平臺(tái)或者工具包進(jìn)行分詞、詞性標(biāo)注、句法分析、情感傾向分析等基本自然語言處理操作,其優(yōu)秀的表現(xiàn)和簡(jiǎn)單的調(diào)用方式給研究過程帶來了極大的便利性。
4.4 研究成效 自然語言處理主要有分詞、詞性標(biāo)注、句法分析、情感傾向分析這幾類,經(jīng)過一系列的學(xué)習(xí)和測(cè)試,最終找到三條較為有價(jià)值的路線,分別為:
(1)以jieba分詞和詞性標(biāo)注為主的工具類路線;
(2)以現(xiàn)有數(shù)據(jù)為主的數(shù)據(jù)訓(xùn)練路線(現(xiàn)有數(shù)據(jù)主要包括:1.3萬消極數(shù)據(jù),10萬百度分詞標(biāo)注數(shù)據(jù),人民日?qǐng)?bào)1998.01詞性標(biāo)注數(shù)據(jù),jieba等65萬帶頻數(shù)的詞性標(biāo)注數(shù)據(jù));
(3)以學(xué)習(xí)版為主、企業(yè)版為輔的百度NLP接口類路線;
上述路線各有優(yōu)劣,路線1主要以現(xiàn)成的工具為主,由于其普適性,在面對(duì)不同類型的數(shù)據(jù)集時(shí),其表現(xiàn)往往會(huì)很不穩(wěn)定,在本研究的數(shù)據(jù)集上效果一般;路線2采取的方法是選擇一定的模型和特征進(jìn)行訓(xùn)練,而后應(yīng)用于對(duì)未知文本的分析和預(yù)測(cè),經(jīng)驗(yàn)證,其效果尚可;路線3則選取達(dá)到一定業(yè)界標(biāo)準(zhǔn)的接口,其使用完全是黑盒模式,無法進(jìn)行參數(shù)的修改和結(jié)果的調(diào)優(yōu),但其總體表現(xiàn)要優(yōu)于前兩種。
經(jīng)討論,最終確定以路線3為主,路線1和路線2為輔的方式進(jìn)行系統(tǒng)的設(shè)計(jì),并先行開發(fā)出一款C/S結(jié)構(gòu)的系統(tǒng),系統(tǒng)初級(jí)版本僅融合百度NLP接口模式,功能包括:微博自動(dòng)爬取、分詞、詞性標(biāo)注、句法分析、情感傾向分析、情感波動(dòng)可視化、心理危機(jī)預(yù)警。系統(tǒng)于2018年11月完成V1.4版本的Demo,已取得軟件著作權(quán),并在2018年江西省創(chuàng)新創(chuàng)業(yè)服務(wù)外包大賽中獲二等獎(jiǎng)。
項(xiàng)目截止目前為止,大致理清了思路,并開發(fā)出擁有基本功能的C/S模式軟件,但多終端同步在C/S模式下開發(fā)成本較高,且隨著移動(dòng)端的迅速崛起和APP市場(chǎng)的趨于飽和,接下來項(xiàng)目團(tuán)隊(duì)將把開發(fā)系統(tǒng)的思路調(diào)整到B/S模式,并在原有基礎(chǔ)上實(shí)現(xiàn)以下新增特性(預(yù)計(jì)2020年底前初步上線):
(1)服務(wù)端自動(dòng)爬取指定社交平臺(tái)數(shù)據(jù)(微博、朋友圈、豆瓣等);
(2)在服務(wù)器對(duì)數(shù)據(jù)進(jìn)行清洗,并分布式進(jìn)行NLP分析;
(3)前端展示“個(gè)人畫像”和“總體監(jiān)控圖”,實(shí)時(shí)更新、實(shí)時(shí)預(yù)警;
(4)采取單點(diǎn)爬取、批量爬取、批量導(dǎo)入的多模式數(shù)據(jù)分析;
(5)在NLP階段使用“一主兩副”三種模型或工具,提高容錯(cuò)率;
(6)拓展“可視化”和“個(gè)性化推薦”模塊,增強(qiáng)用戶體驗(yàn)。
探索科學(xué)(學(xué)術(shù)版)2020年9期