摘 要 自殺風(fēng)險(xiǎn)識別是自殺預(yù)防的重要環(huán)節(jié),但傳統(tǒng)的自陳量表篩查存在虛報(bào)/ 漏報(bào)率高的局限。通過兩步連續(xù)實(shí)驗(yàn)對主題統(tǒng)覺測驗(yàn)(TAT)進(jìn)行的改編實(shí)現(xiàn)了基于TAT 的小程序自助施測方案,并獲取音頻及文本數(shù)據(jù)用于機(jī)器學(xué)習(xí)建模,構(gòu)建了針對自殺意念的自殺風(fēng)險(xiǎn)識別模型。結(jié)果發(fā)現(xiàn),在測驗(yàn)耗時(shí)更短的情況下,該模型取得了與前人研究相比綜合指數(shù)更優(yōu)的模型效果;詞頻分析及關(guān)鍵詞共線網(wǎng)絡(luò)分析發(fā)現(xiàn)高自殺風(fēng)險(xiǎn)組被試在敘述文本中提及了更多與自殺、自傷相關(guān)的詞匯以及主題,且使用了更多的排除詞。經(jīng)改編后的TAT 小程序施測方案流程標(biāo)準(zhǔn)化且施測便捷,后續(xù)可收集更多高質(zhì)量的樣本以構(gòu)建泛化性能更優(yōu)的模型,應(yīng)用于自殺風(fēng)險(xiǎn)識別的輔助評估中。
關(guān)鍵詞 自殺風(fēng)險(xiǎn)識別 主題統(tǒng)覺測驗(yàn) 機(jī)器學(xué)習(xí) 語音識別 文本分析
1 引言
自殺風(fēng)險(xiǎn)識別是自殺預(yù)防中的重要環(huán)節(jié)。在目前的臨床工作中,自殺風(fēng)險(xiǎn)評估幾乎完全依賴個(gè)體對自殺意念的自我報(bào)告,而回答者可能會由于不信任和病恥感隱瞞實(shí)際的自殺風(fēng)險(xiǎn) (Ellis et al., 2016;Millner et al., 2019) 。同時(shí),根據(jù)自我報(bào)告的自殺風(fēng)險(xiǎn)評估也會受回答者反應(yīng)風(fēng)格、社會贊許效應(yīng)等因素影響,存在檢驗(yàn)效度不高的應(yīng)用局限 (喻婷等,2020) 。
人工智能技術(shù)的發(fā)展為自殺風(fēng)險(xiǎn)識別提供了更為客觀且精確的方法 (Torous et al., 2018)。例如,國內(nèi)已有研究者借助微博上的海量文本數(shù)據(jù)及人工智能技術(shù)準(zhǔn)確地找到危機(jī)干預(yù)對象 (王夢茜,2020)。但使用文本特征提取的風(fēng)險(xiǎn)識別方法易受個(gè)體的語言偏好、語詞風(fēng)格等因素的影響,難以遷移到新環(huán)境及人群中 (Bernert et al., 2020)。音頻類型數(shù)據(jù) (包含語言、語音)已成為自殺風(fēng)險(xiǎn)識別研究的新方向。語音數(shù)據(jù)作為聲音的物理屬性比語言更為客觀,提供的信息更加豐富且易測量,可實(shí)現(xiàn)對個(gè)人精神狀態(tài)的即時(shí)感知 (Cummins et al.,2015; Johar, 2015)。已有的研究支持多源數(shù)據(jù)構(gòu)建的模型識別效果更優(yōu)且泛化性能好 (D'mello amp;Kory, 2015);將語音及文本數(shù)據(jù)結(jié)合起來建模能夠取得更優(yōu)的自殺識別效果 (Belouali et al., 2021)。
但是,目前使用音頻數(shù)據(jù)的實(shí)驗(yàn)研究還存在諸多局限。其一,音頻數(shù)據(jù)的采集方法常用訪談法、自助問答、朗讀等,缺乏理論依據(jù)。Belouali等( 2021)通過設(shè)計(jì)自助問答APP 展開的研究雖耗時(shí)較短,但敘述時(shí)間的標(biāo)準(zhǔn)差過大,且最終所構(gòu)建的模型效果不佳,問題的選擇也同樣缺乏理論支持。其二,通過語音收集的數(shù)據(jù)采集缺少標(biāo)準(zhǔn)化方法,因而難以獲取大量數(shù)據(jù)以訓(xùn)練出能夠?qū)嶋H應(yīng)用的模型。Cummins 等 (2015)呼吁研究者建立標(biāo)準(zhǔn)化的音頻數(shù)據(jù)收集流程,以推進(jìn)基于音頻識別的自殺風(fēng)險(xiǎn)研究及應(yīng)用。
投射測驗(yàn)是一種激發(fā)認(rèn)知與情緒的技術(shù) (Basu,2014), 其中著名的主題統(tǒng)覺測驗(yàn)(thematicapperception test, TAT)具有與自殺相關(guān)的研究證據(jù)多、測驗(yàn)?zāi)康南鄬﹄[蔽、敘述結(jié)構(gòu)性強(qiáng)等優(yōu)點(diǎn),因而將TAT 改編為具有標(biāo)準(zhǔn)化流程的線上測驗(yàn)具有可行性。但過往研究中,使用TAT 識別自殺風(fēng)險(xiǎn)的方法多為僅根據(jù)圖片內(nèi)容選擇圖片,缺乏實(shí)證研究。例如,圖版14 由于容易被理解為一個(gè)男人想要從窗臺上跳下來而被部分研究采用。
綜上所述,已有的自殺風(fēng)險(xiǎn)識別研究存在識別效果不佳、流程缺乏標(biāo)準(zhǔn)化、材料選擇缺乏實(shí)證研究的局限。本研究將使用主題統(tǒng)覺測驗(yàn)作為刺激材料,通過兩步實(shí)驗(yàn)逐步縮減施測圖片數(shù)量并驗(yàn)證改編后的測驗(yàn)方案可行性,最終在移動端實(shí)現(xiàn)一個(gè)簡短有效、流程標(biāo)準(zhǔn)化的語音收集方案。進(jìn)而構(gòu)建出自殺風(fēng)險(xiǎn)識別模型,以期為后續(xù)的心理健康狀態(tài)監(jiān)測與危機(jī)干預(yù)工作奠定基礎(chǔ)。
考慮到自殺意念是自殺行為的前奏,也是自殺的敏感預(yù)測因素,本研究以自殺意念的高低作為自殺風(fēng)險(xiǎn)的劃分標(biāo)準(zhǔn)。實(shí)驗(yàn)1 以前人研究為基礎(chǔ),縮減施測圖片數(shù)量并確定施測材料;使用騰訊會議施測獲取音頻數(shù)據(jù)、構(gòu)建模型并評估效果;通過比較模型效果,選擇出綜合效果最佳的兩張圖片應(yīng)用于實(shí)驗(yàn)2。由于微信小程序具有不需安裝、便捷易用等優(yōu)點(diǎn),適宜作為本實(shí)驗(yàn)程序的載體,實(shí)驗(yàn)2 將進(jìn)一步構(gòu)建小程序施測方案以提高可應(yīng)用性,對高自殺意念群體的文本、語音特點(diǎn)進(jìn)行研究,提高基于線上TAT 進(jìn)行自殺風(fēng)險(xiǎn)識別的可能性。
2 實(shí)驗(yàn)1 主題統(tǒng)覺測驗(yàn)應(yīng)用于自殺風(fēng)險(xiǎn)識別初探
2.1 實(shí)驗(yàn)方法
2.1.1 問卷研究工具
常規(guī)心理咨詢效果評估表中文版 。常規(guī)心理咨詢效果評估表 (Clinical Outcomes in RoutineEvaluation Outcome Measure, CORE-OM)共包含34個(gè)項(xiàng)目,采取5 點(diǎn)計(jì)分,其中的風(fēng)險(xiǎn)維度可用于評估自傷、自殺的想法 (Bedford et al., 2010)。本研究采用其由Zhang 等人 (2020)進(jìn)行本土化翻譯并檢驗(yàn)信效度的中文版。本研究中該量表的克隆巴赫α 系數(shù)為 .951。
貝克自殺意念量表中文版。貝克自殺意念量表 (Beck Scale for Suicide Ideation)最初由Beck 和Steer (1991) 編制。由李獻(xiàn)云等 (2010)修訂后的成人版中文貝克自殺意念量表 (Beck Scale forSuicide Indeation-Chinese Version, BSI-CV) 共19 個(gè)項(xiàng)目,使用3 點(diǎn)評分,包含自殺意念及自殺傾向兩個(gè)維度。前5 項(xiàng)的得分反映了自殺意念的強(qiáng)烈程度,后14 項(xiàng)反映了自殺風(fēng)險(xiǎn)的大小。 本研究中,BSICV的克隆巴赫α 系數(shù)為.934;CORE-OM中的自我-危機(jī)維度與BSI-CV 量表的皮爾遜相關(guān)系數(shù)為.786,達(dá)到顯著相關(guān)。
2.1.2 研究對象
Cummins 等 (2015)認(rèn)為在使用人工智能技術(shù)開展自殺風(fēng)險(xiǎn)識別研究時(shí),應(yīng)制定嚴(yán)格的入組標(biāo)準(zhǔn)及排除標(biāo)準(zhǔn),盡量從量表得分的兩端進(jìn)行組的劃分。本研究遵循這條建議,將BSI-CV 總分gt;10 分、CORE-OM 自我危機(jī)維度總分gt;6 分定義為高自殺風(fēng)險(xiǎn)。WHO 于2014 年發(fā)布的自殺預(yù)防報(bào)告顯示自殺是年輕人 (15~29 歲)的第二大死因,因此本研究將入組年齡范圍定為18~29 歲。采用方便取樣法,通過在社交媒體 (朋友圈、微信群)發(fā)放招募廣告進(jìn)行受試者招募。受試者同意后,填寫量表、參與實(shí)驗(yàn)并錄制音頻。通過作答時(shí)間、連續(xù)相同作答、異常值、前后答題一致性等指標(biāo)對有效問卷進(jìn)行篩選,共有731 份問卷通過。進(jìn)一步根據(jù)以上入組標(biāo)準(zhǔn)篩查符合入組條件并愿意進(jìn)行進(jìn)一步線上施測的受試者共76 名。完成測驗(yàn)后進(jìn)行音頻質(zhì)量檢查,如遇受試者不愿意參與錄音、敘述時(shí)間不達(dá)標(biāo) (平均每張圖片敘述時(shí)間少于1 分鐘)、內(nèi)容缺失、意外干擾等情況,則不納入后續(xù)分析。最終,共34 名高風(fēng)險(xiǎn)組受試者、30 名低風(fēng)險(xiǎn)組受試者的音頻數(shù)據(jù)被納入,問卷得分情況如下表1 所示。本研究通過某大學(xué)倫理委員會的審核(審批號:HR2-0116-2021)。
2.1.3 測驗(yàn)程序:主題統(tǒng)覺測驗(yàn)改編
結(jié)合研究目的及以往研究證據(jù)選擇TAT 施測圖片,以縮減圖片數(shù)量、初步縮減測驗(yàn)時(shí)間,避免受試者的負(fù)荷太大。首先選取男女性受試者均適用的圖片, 包括圖1、2、5、10、11、14、15、16、20,吉沅洪 (2020)推薦使用 3BM、8BM、9GF、12BG;其次,選取以往自殺相關(guān)研究中推薦使用的TAT 圖片。Rustad 等 (2003)總結(jié)出三幅最可能誘發(fā)受試者自殺態(tài)度發(fā)生變化的圖片:14、3BM、3GF。吉沅洪 (2020)提出,圖片15 容易引出關(guān)于死亡或敵意的主題。
共采用TAT 圖片14 張,均節(jié)選自于原版TAT 測驗(yàn)。編號為:1、2、3BM、3GF、5、8BM、9GF、10、11、12BG、14、15、20、16,其中圖16 為空白圖片。圖片播放順序由其編號決定,測驗(yàn)結(jié)束前進(jìn)行積極事件回憶任務(wù),希望受試者能夠通過回憶并分享快樂的事件,在測驗(yàn)結(jié)束時(shí)從想象世界回到現(xiàn)實(shí)世界。
敘述提綱及測驗(yàn)說明參考Murray(1935)的原版以及吉沅洪 (2020)修訂后的指導(dǎo)語。實(shí)驗(yàn)程序使用Microsoft PowerPoint 制作,通過騰訊會議將屏幕共享給受試者開展測驗(yàn)。測驗(yàn)流程包括指導(dǎo)語、練習(xí)、TAT 圖片呈現(xiàn)、空白圖片呈現(xiàn)以及積極事件回憶。在正式實(shí)驗(yàn)開始前開展預(yù)實(shí)驗(yàn),并通過受試者的反饋 (詢問是否勞累、是否不適等)和實(shí)驗(yàn)的耗時(shí)對測驗(yàn)進(jìn)行調(diào)整。在TAT 圖片呈現(xiàn)過程中穿插了一次休息。。
2.1.4 施測及數(shù)據(jù)采集
測驗(yàn)通過騰訊會議展開,在征得受試者同意后開啟音頻錄制。為提高音頻質(zhì)量,提前設(shè)置以下內(nèi)容:(1)打開音樂模式與專業(yè)音頻;(2)開啟高保真模式與回音消除,以增強(qiáng)采集音質(zhì)、避免回聲干擾;(3)開啟同時(shí)錄制音頻文件。會議完成后,音頻被保存為采樣深度32bit、采樣率32kHZ、單聲道的 .m4a 格式音頻。采用Adobe Audition 2021 進(jìn)行剪輯,僅保存受試者敘述部分。音頻文件依據(jù)圖片分別保存為采樣深度32bit、采樣率32kHz、單聲道的 .wav 格式音頻。剪輯完成后,使用訊飛聽見將音頻轉(zhuǎn)錄為txt 文本,轉(zhuǎn)錄正確率達(dá)97.5%;后由人工對比語音進(jìn)行逐句核對并修正轉(zhuǎn)錄結(jié)果,以進(jìn)一步提高轉(zhuǎn)錄正確率。
共有34 名高自殺風(fēng)險(xiǎn)組受試者、30 名低風(fēng)險(xiǎn)組受試者的完整測驗(yàn)音頻被納入,每位受試者產(chǎn)生13 段敘述音頻 (已除去練習(xí)),共產(chǎn)生了830 段 (2段敘述缺失)音頻及對應(yīng)的文本稿。
2.1.5 機(jī)器學(xué)習(xí)建模
機(jī)器學(xué)習(xí)建模主要采用Python 第三方提供的機(jī)器學(xué)習(xí)庫SKLearn 實(shí)現(xiàn),其提供了從數(shù)據(jù)預(yù)處理到驗(yàn)證模型的一系列接口。使用Pandas 庫及Numpy庫讀取及處理數(shù)據(jù)。使用Matplotlib 進(jìn)行繪圖。
特征提取。采用openSMILE ①對語音信號進(jìn)行特征提取。選用的特征集為2010 年INTERSPEECH副語言挑戰(zhàn)特征集 (The INTERSPEECH 2010Paralinguistic Challenge feature set, IS_10), 因其包含的語音特征全面且研究證據(jù)豐富。
采用文心②提取文本特征。該系統(tǒng)為語言探索和字詞計(jì)算分析軟件 (Linguistic Inquiry and WordCount, LIWC)的一種,由中科院心理所根據(jù)中國大陸地區(qū)簡體語言特點(diǎn),參照LIWC2007 和C-LIWC詞庫進(jìn)行研發(fā),并在C-LIWC 的基礎(chǔ)上加入了微博上使用頻率最高的5000 余詞 (Gao et al., 2013)。
綜上,對每段敘述的音頻文件提取出1582 維特征,每段敘述的文本稿提取出102 維特征。合并后形成包含1684 維特征的數(shù)據(jù)集。
數(shù)據(jù)預(yù)處理。本研究數(shù)據(jù)集均衡,且不存在缺失值、重復(fù)值。對數(shù)據(jù)集進(jìn)行的預(yù)處理操作為標(biāo)準(zhǔn)化 (Standardization),以減少特征間取值范圍差異。取值范圍差異大會對基于距離的模型,例如支持向量機(jī)、K 近鄰等產(chǎn)生影響。采用打亂 (Shuffle)使數(shù)據(jù)隨機(jī)化,從而避免過擬合。
特征選擇。采用隨機(jī)森林模型進(jìn)行特征選擇,因其能夠篩選出重要性高的特征,并且對其進(jìn)行重要性排序。以數(shù)據(jù)集提取出的特征為例,進(jìn)行特征選擇并對重要性進(jìn)行排序后,取重要性排在前十的特征。
數(shù)據(jù)集劃分。K 折交叉驗(yàn)證要比另一種交叉驗(yàn)證方法留出法 (Hold-Out)的結(jié)果更穩(wěn)定,適宜用于小樣本研究。研究表明,K 取5 或10 能夠在評估效果和計(jì)算復(fù)雜度之間達(dá)到綜合最優(yōu) (Rodriguez etal., 2010)。因本研究樣本量較小,使用10 折交叉驗(yàn)證對數(shù)據(jù)集進(jìn)行多次劃分。
訓(xùn)練模型。采用已被廣泛應(yīng)用于自殺相關(guān)研究(Boudreaux et al., 2021)的四種機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,包括支持向量機(jī) (support vector machine,SVM)、隨機(jī)森林 (random forest, RF)、邏輯回歸 (logistic regression, LR)及K 近鄰 (K-nearestNeighbor,KNN)。
模型評估。采用準(zhǔn)確性 (accuracy, ACC)、精確率 (precision, Pre)、召回率 (recall)、F1-Score、操作者特征曲線 (receiver operating characteristic,ROC)、ROC 曲線下面積 (area under curve, AUC)作為模型評估指標(biāo)。
2.2 結(jié)果
2.2.1 機(jī)器學(xué)習(xí)結(jié)果
圖5、10、14 數(shù)據(jù)集構(gòu)建的模型綜合效果 (通過ACC 及AUC 評估)最佳,其中綜合效果最優(yōu)的是圖14 數(shù)據(jù)集構(gòu)建的SVM 模型 (ACC=.81,平均AUC=.92) 。
整個(gè)系列任務(wù)中建模效果最好并且最穩(wěn)定的兩個(gè)模型為LR ( 平均ACC=.78,std =.02; 平均AUC=.83,std =.06) 及SVM ( 平均ACC=.77,std =.03; 平均AUC=.83,std =.04)。以平均ACC作為指標(biāo),使用R 繪圖,LR 和SVM 這兩個(gè)模型較RF 及KNN 表現(xiàn)更好。所構(gòu)建的LR 模型平均ACC 達(dá)到了.78 (std = .023), 平均AUC 達(dá)到了.83 (std =.064);SVM 模型平均ACC 達(dá)到了.77(std =.028),AUC 達(dá)到了.83 (std =.035)。SVM已被前人研究證明用在小樣本數(shù)據(jù)中效果良好,隨著研究樣本的擴(kuò)大,LR 可能是更優(yōu)的選擇。
2.2.2 語音時(shí)長
使用PlayTime 統(tǒng)計(jì)音頻時(shí)長。繪制箱線圖以比較圖片敘述時(shí)間差異。通過比較兩組受試者在每張圖片上的語音時(shí)長的中位數(shù)、上下四分位數(shù)、離群值、極值和均值 (由× 表示),發(fā)現(xiàn)除圖片3BM、5、8BM、BEI 的敘述時(shí)長在兩組間的差異未通過顯著性檢驗(yàn),其余圖片的敘述長度差異均通過了顯著性檢驗(yàn)。
2.2.3 文本分析
KH Coder (以下簡稱KHC)是一款專門用于非結(jié)構(gòu)化文本分析的開源文本分析工具。本研究使用其進(jìn)行詞頻分析及關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析。
(1)詞頻分析
首先將所有受試者在敘述中產(chǎn)生的全部敘述文本保存為UTF-8 編碼的.txt 文件,導(dǎo)入KH Coder 后進(jìn)行分詞。采用Stanford POS Tagger 進(jìn)行詞性標(biāo)注,設(shè)置停用詞。預(yù)處理后進(jìn)行詞頻統(tǒng)計(jì),對兩組使用頻次位于前50 位的詞進(jìn)行梳理。結(jié)果發(fā)現(xiàn),在兩組受試者的敘述中,出現(xiàn)頻次最高的均為關(guān)系類詞匯,例如朋友、孩子、媽媽等;以及與圖片內(nèi)容相關(guān)的詞,例如樹、門等。也有出現(xiàn)頻次差異較大的詞匯,例如包含“殺”、“死”的詞在高風(fēng)險(xiǎn)組敘述中出現(xiàn)的次數(shù)較多。為深入了解兩組受試者的詞匯表達(dá)差異,對全部分詞結(jié)果查閱后,總結(jié)出與自殺、自傷、消極情緒相關(guān)的一系列詞匯。將總結(jié)的詞匯提前設(shè)置為強(qiáng)制提取詞 (Force Pick Up),結(jié)果發(fā)現(xiàn),與低風(fēng)險(xiǎn)組相比,高風(fēng)險(xiǎn)組提及的自殺、自傷、消極情緒詞匯頻次更多,并且包含更多種類。
(2)關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析
關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析能夠顯示詞與詞之間的關(guān)系。首先在KHC 中對文本數(shù)據(jù)進(jìn)行預(yù)處理,接著對詞性、使用詞匯數(shù)量、詞匯取舍進(jìn)行設(shè)置。關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析結(jié)果發(fā)現(xiàn),高風(fēng)險(xiǎn)組的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中有4 個(gè)節(jié)點(diǎn)與自殺、死亡相關(guān),低風(fēng)險(xiǎn)組僅有1 個(gè)節(jié)點(diǎn)與自殺、死亡相關(guān)。關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析結(jié)果見上圖1。
3 實(shí)驗(yàn)2 主題統(tǒng)覺測驗(yàn)應(yīng)用于自殺風(fēng)險(xiǎn)識別的快速施測方法——來自用戶通過小程序自助施測的數(shù)據(jù)
3.1 研究方法
3.1.1 研究對象
實(shí)驗(yàn)2 受試者入組標(biāo)準(zhǔn)及排除標(biāo)準(zhǔn)同實(shí)驗(yàn)1。被納入后續(xù)數(shù)據(jù)分析的受試者共58 名 (高風(fēng)險(xiǎn)組:29 名;低風(fēng)險(xiǎn)組:29 名)。基本信息及問卷得分情況如下圖表2 所示。
3.1.2 測驗(yàn)程序
實(shí)驗(yàn)1 中,圖片5、10、14 對應(yīng)的數(shù)據(jù)集均構(gòu)建出了效果良好的模型,實(shí)驗(yàn)2 根據(jù)實(shí)驗(yàn)1 的結(jié)果繼續(xù)采用這三張TAT 圖片作為施測材料。此外,雖然圖14 構(gòu)建出的最佳模型效果比圖5、10 更優(yōu),但該圖版在前人研究中即常與自殺、死亡的主題聯(lián)系起來,在實(shí)驗(yàn)1 中也發(fā)現(xiàn)高風(fēng)險(xiǎn)組受試者多將這張圖片與跳樓聯(lián)系起來,在實(shí)際應(yīng)用中可能存在潛在的倫理風(fēng)險(xiǎn),因而暫不考慮施測圖14。
測驗(yàn)程序載體使用微信小程序(可使用微信小程序搜索“看圖說話心理測評”),通過微信開發(fā)者工具制作。調(diào)用官方提供的RecorderManager API實(shí)現(xiàn)錄音功能并對音頻采集格式進(jìn)行指定。音頻存儲采用阿里云OSS 對象存儲平臺。
3.1.3 施測及數(shù)據(jù)采集
以圖5 的敘述為例。首先掃描小程序二維碼進(jìn)入測驗(yàn),閱讀實(shí)驗(yàn)整體說明后,逐步完成閱讀分測驗(yàn)說明、填寫受試者序號、查看圖片并想象、講述這四個(gè)步驟。完成測驗(yàn)后,音頻自動上傳至服務(wù)器端。
對于音頻采集,指定錄音時(shí)間不超過4 分鐘(24000ms),超過會自動停止錄音;采樣率指定了最高的44.1KHZ,以保留更完整的音頻信息;音頻格式選用AAC (高級音頻編碼),該格式音頻在相同的比特率情況下聲音表現(xiàn)通常優(yōu)于MP3 格式。后采用Adobe Audition 保存為采樣率44.1KHZ、采樣深度32Bit、單聲道的.wav 格式音頻,使用訊飛聽見進(jìn)行轉(zhuǎn)錄以產(chǎn)生對應(yīng)的文本稿。共有29 名高風(fēng)險(xiǎn)組受試者、29 名低風(fēng)險(xiǎn)組受試者產(chǎn)生的測驗(yàn)音頻被納入,每位受試者產(chǎn)生了2 段敘述音頻,共產(chǎn)生了116 段音頻及相對應(yīng)的文本稿。
3.2 結(jié)果
3.2.1 模型效果
機(jī)器學(xué)習(xí)的建模過程同實(shí)驗(yàn)1。對2個(gè)數(shù)據(jù)集( 圖5 及圖10)分別提取的1684 維數(shù)據(jù)使用4 個(gè)分類器進(jìn)行建模并評估模型效果。相比于實(shí)驗(yàn)1,實(shí)驗(yàn)2的數(shù)據(jù)集在兩類樣本及性別比例上更加均衡,均為1:1。使用KiraWaveTar 將圖片5 和10 的音頻合成為全長音頻,并提取出音頻及文本特征形成新的數(shù)據(jù)集。研究2 所構(gòu)建的模型效果及其與研究1 的比較如下表3 所示。
實(shí)驗(yàn)2 中,由圖5、圖10 數(shù)據(jù)集分別構(gòu)建出的SVM 模型綜合評估效果均稍優(yōu)于實(shí)驗(yàn)1 中相對應(yīng)的SVM 模型。由實(shí)驗(yàn)2 中圖5 及圖10 共同組成的數(shù)據(jù)集構(gòu)建的LR 模型的ACC 指標(biāo)為所有模型最高,達(dá)到了.83。
3.2.2 語音時(shí)長
為比較施測方式不同是否會影響語音敘述時(shí)長,與實(shí)驗(yàn)1 敘述時(shí)長進(jìn)行對比分析。結(jié)果表明,低風(fēng)險(xiǎn)組受試者在實(shí)驗(yàn)2 中對圖5、10 這兩張圖片的敘述時(shí)間增加,且對圖10 的敘述時(shí)間顯著上升。而高風(fēng)險(xiǎn)組受試者對這兩張圖片的敘述時(shí)間相較于實(shí)驗(yàn)一均有所下降。
3.2.3 文本特征
對全長敘述文本提取的全部文本特征進(jìn)行方差分析。p lt; .05 的文本特征共 2 個(gè),分別為排除詞(exclusive)及死亡詞 (death),且排除詞被選擇的頻次最高。對文字特征被選頻次進(jìn)行統(tǒng)計(jì)的結(jié)果及含義如上表4 所示。
4 討論
研究通過兩個(gè)實(shí)驗(yàn)對TAT 進(jìn)行改編,最終形成TAT 自助施測小程序施測方案,在測驗(yàn)耗時(shí)更短的情況下取得了與前人研究相比綜合效果更優(yōu)的識別效果。實(shí)驗(yàn)1 通過回顧前人研究,制定測驗(yàn)流程和指導(dǎo)語,將施測圖片數(shù)量由原版的31 張圖片縮減為14 張;但耗時(shí)仍較長,受試者完成全部圖片的敘述 (不含指導(dǎo)語、反饋及休息時(shí)間)所需時(shí)長為28.11±15.52 分鐘。通過對所構(gòu)建的模型效果進(jìn)行比較,進(jìn)一步選擇出2 張圖片作為小程序施測材料。實(shí)驗(yàn)2 中,受試者僅需完成2 張圖片的敘述。圖5 平均敘述時(shí)長為111.57±45.09s,圖10 平均敘述時(shí)長為132.34±50.98s,測驗(yàn)時(shí)間短于Pestian 等(2017)使用訪談法開展的研究( 平均耗時(shí)為8.1±4.5分鐘)。在自殺風(fēng)險(xiǎn)識別效果上,以實(shí)驗(yàn)2 中圖5的數(shù)據(jù)集為例,所構(gòu)建的SVM 模型準(zhǔn)確性 (ACC)為 .80,曲線下面積 (AUC)為 .89。AUC 指標(biāo)通常是衡量分類模型的最佳選擇,研究2 中最佳模型的AUC= .91 (圖5+10 數(shù)據(jù)集構(gòu)建的SVM 模型),優(yōu)于Belouali 等 (2021)通過自助問答法開展的研究 (最高AUC= .80),略遜于Pestian 等 (2017)使用訪談法開展的研究 (最高AUC= .93)。其原因可能是Pestian 的研究樣本量更大,且在醫(yī)院情景下展開,不僅對入組受試者的要求更嚴(yán)格,也能夠控制音頻設(shè)備、環(huán)境等因素帶來的影響。
模型效果證明TAT 是適宜用于自殺風(fēng)險(xiǎn)識別的材料。此外,TAT 圖片的模糊情境也有利于其應(yīng)用于自殺風(fēng)險(xiǎn)識別中,這一點(diǎn)可由受試者的敘述文本體現(xiàn)。使用社交媒體數(shù)據(jù)展開的研究發(fā)現(xiàn),自殺傾向者會更常用意象來表達(dá)死亡意圖,通常并非直接談?wù)撟约旱乃劳?,而是用隱喻的方式表達(dá),例如地鐵、回家、遠(yuǎn)方等意象 (高一虹, 孟玲, 2019)。在本研究中,“窗戶”這個(gè)意象在高風(fēng)險(xiǎn)組的敘述中出現(xiàn)了76 次,由關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)發(fā)現(xiàn)“窗戶”與“跳下去”形成一個(gè)節(jié)點(diǎn),一段典型敘述為:“這個(gè)人想要從窗戶跳下去”。而在低風(fēng)險(xiǎn)組的敘述中,“窗戶”這個(gè)節(jié)點(diǎn)僅出現(xiàn)了42 次,并且多與圖片人物聯(lián)系起來,一段典型敘述為“這個(gè)男人站在窗戶前”。已有研究通過博客的文本內(nèi)容對抑郁的隱喻展開了研究,將常用的抑郁隱喻總結(jié)成戰(zhàn)爭 (war)和旅程 (journey)這兩個(gè)主題。例如戰(zhàn)爭主題包含了戰(zhàn)斗 (fight)、投降 (surrender)等詞,旅程主題包含了方向 (direction)、道路 (road)等詞 (Coll-Floritet al., 2021)。但自殺的口語隱喻研究目前較為缺乏,若能發(fā)現(xiàn)一系列隱喻并應(yīng)用到自殺守門員等培訓(xùn)中,則有利于心理工作者對于自殺信號的識別。
最終的TAT 小程序自助施測方案還利于收集口語材料以展開對自殺口語特征的研究。詞頻分析與關(guān)鍵詞網(wǎng)絡(luò)分析結(jié)果顯示,高自殺風(fēng)險(xiǎn)組提到了更多的與自殺、自傷、消極情緒相關(guān)的詞匯,并由更多的圖片內(nèi)容聯(lián)想到了自傷、自殺,例如以下節(jié)點(diǎn):沙發(fā)—自殺、窗戶—跳下去、死—害怕、結(jié)束—生命。大量研究證據(jù)表明,高自殺風(fēng)險(xiǎn)者在遺書、網(wǎng)絡(luò)帖子、故事書寫等各類文本表達(dá)中更多地使用了自殺、自傷相關(guān)詞匯 (王呈珊等, 2021; Pestian et al., 2017,2020),本研究的結(jié)果說明高自殺風(fēng)險(xiǎn)者在口語表達(dá)中也有相似的特征。除上述特征外,研究還發(fā)現(xiàn)了其他的語言特征。Exclusive (排除詞:取消、但是、除外)在實(shí)驗(yàn)1、2 中均為被隨機(jī)森林算法選擇頻次最多的文本特征。對實(shí)驗(yàn)2 由圖5、10 敘述文本組合形成的全長文本中所提取出的文本特征進(jìn)行t 檢驗(yàn),發(fā)現(xiàn)高自殺風(fēng)險(xiǎn)組用了更多的排除詞(p lt; .01)和死亡詞p lt; .05 )。這與對微博上自殺死亡用戶展開的LIWC 分析結(jié)果一致,該研究同樣發(fā)現(xiàn)自殺死亡組使用更多的排除詞和死亡詞,與對照組相比達(dá)到了顯著差異 (管理等, 2015)。這提示兩組受試者可能存在的是整體語言特征上的差異,而不限于文本來源。高自殺風(fēng)險(xiǎn)組的敘述中還表現(xiàn)出了對生命意義的尋求,在關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析中發(fā)現(xiàn)了“世界-活著-意義”這個(gè)特殊的高頻節(jié)點(diǎn)( gt;25人次)。
未來可通過服務(wù)器端的完善,進(jìn)一步提高小程序施測方案的應(yīng)用性。例如調(diào)用文本轉(zhuǎn)錄API 以實(shí)現(xiàn)自動文本轉(zhuǎn)錄功能,并配合服務(wù)器端的LIWC 程序,通過規(guī)則定義將一系列LIWC 特征組合成為通俗易懂的反饋展示給受試者。還可實(shí)現(xiàn)語音降噪處理功能,以減輕后續(xù)語音處理工作的負(fù)擔(dān);但這也可能會導(dǎo)致音頻質(zhì)量降低,從而削弱特征的可識別性。
本研究的不足之處包括:其一,本研究希望能克服傳統(tǒng)施測方法的局限,如虛報(bào)漏報(bào)等,但本研究入組受試者的刪選仍然是通過問卷進(jìn)行。雖然使用了兩個(gè)量表以確認(rèn)是否前后答題一致、進(jìn)行了嚴(yán)格的問卷篩選并嚴(yán)格遵循入組標(biāo)準(zhǔn),并按照Cummins 等 (2015)建議,邀請?jiān)诹勘肀憩F(xiàn)上處于兩端的受試者參與研究,但仍然可能在入組的受試者答的量表上存在漏報(bào)、虛報(bào)的問題。未來研究可考慮與醫(yī)療機(jī)構(gòu)合作,通過醫(yī)師評估等方式確保入組受試者得到更為準(zhǔn)確的自殺風(fēng)險(xiǎn)評估。其二,本研究數(shù)據(jù)量仍較小。機(jī)器學(xué)習(xí)模型的建立及評估均需要大量的高質(zhì)量數(shù)據(jù),未來可通過自助施測的方式來收集更多的音頻數(shù)據(jù)。其三,本研究使用自殺意念作為自殺風(fēng)險(xiǎn)的評估手段,但自殺風(fēng)險(xiǎn)包含其他側(cè)面,如非自殺性自傷、既往自殺未遂等。未來研究可考慮在收集到更大樣本量的情況下進(jìn)行更細(xì)致的劃分,并且考慮對全套TAT 測驗(yàn)進(jìn)行施測,或使用多種音頻獲取方法并比較不同音頻獲取方法的效果。
參考文獻(xiàn)
高一虹, 孟玲. (2019). 自殺傾向的話語表述——大學(xué)生“走飯”微博分析.
外語與外語教學(xué), 1, 43-55.
管理, 郝碧波, 劉天俐, 程綺瑾, 葉兆輝, 朱廷劭. (2015). 新浪微博用戶中
自殺死亡和無自殺意念者特征差異的研究. 中華流行病學(xué)雜志, 36 (5),
421-425.
吉沅洪. (2020). 圖片物語: 主題統(tǒng)覺測試(TAT) 心理案例分析. 華東師范
大學(xué)出版社.
李獻(xiàn)云, 費(fèi)立鵬, 童永勝, 李可進(jìn), 張亞利, 張艷萍, 牛雅娟. (2010). Beck
自殺意念量表中文版在社區(qū)成年人群中應(yīng)用的信效度. 中國心理衛(wèi)
生雜志, 24 (4), 250-255.
王呈珊, 宋新明, 朱廷劭, 張鐘杰, 劉天俐. (2021). 一位自殺博主遺言評論
留言的主題分析. 中國心理衛(wèi)生雜志, 35 (2), 121-126.
王夢茜. (2020). 自殺在線預(yù)防: 愿他們鼓起勇氣, 踏過荊棘. 教育家, 38,
35-37.
喻婷, 胡德英, 許珂, 周依, 滕芬. (2020). 自殺風(fēng)險(xiǎn)非傳統(tǒng)評估法的研究進(jìn)
展. 護(hù)理研究, 34 (1), 86-90.
Basu, J. (2014). Psychologists' ambivalence toward ambiguity: Relocating the
projective test debate for multiple interpretative hypotheses. Journal of
Projective Psychology and Mental Health, 21(1), 25-36.
Beck, A. T., amp; Steer, R. A. (1991). Manual for the beck scale for suicide ideation.
Psychological Corporation.
Bedford, A., Watson, R., Lyne, J., Tibbles, J., Davies, F., amp; Deary, I. J. (2010).
Mokken scaling and principal components analyses of the CORE-OM in a
large clinical sample. Clinical Psychology and Psychotherapy, 17(1), 51-62.
Belouali, A., Gupta, S., Sourirajan, V., Yu, J. W., Allen, N., Alaoui, A., amp; Reinhard,
M. J. (2021). Acoustic and language analysis of speech for suicidal ideation
among US veterans. BioData Mining, 14 (1), 11.
Bernert, R. A., Hilberg, A. M., Melia, R., Kim, J. P., Shah, N. H., amp; Abnousi, F.
(2020). Artificial intelligence and suicide prevention: A systematic review
of machine learning investigations. International Journal of Environmental
Research and Public Health, 17(16), 5929.
Boudreaux, E. D., Rundensteiner, E., Liu, F. F., Wang, B., Larkin, C., Agu, E., amp;
Davis-Martin, R. E. (2021). Applying machine learning approaches to suicide
prediction using healthcare data: Overview and future directions. Frontiers in
Psychiatry, 12, 707916.
Coll-Florit, M., Climent, S., Sanfilippo, M., amp; Hernández-Encuentra, E. (2021).
Metaphors of depression. Studying first person accounts of life with depression
published in blogs. Metaphor and Symbol, 36 (1), 1-19.
Cummins, N., Scherer, S., Krajewski, J., Schnieder, S., Epps, J., amp; Quatieri, T.
F. (2015). A review of depression and suicide risk assessment using speech
analysis. Speech Communication, 71 (1), 10-49.
D'mello, S. K., amp; Kory, J. (2015). A review and meta-analysis of multimodal affect
detection systems. ACM Computing Surveys, 47 (3), 1-36.
Ellis, T. E., Rufino, K. A., amp; Green, K. L. (2016). Implicit measure of life/death
orientation predicts response of suicidal ideation to treatment in psychiatric
inpatients. Archives of Suicide Research, 20(1), 59-68.
Gao, R., Hao, B. B., Li, H., Gao, Y. S., amp; Zhu, T. S. (2013). Developing simplified
Chinese psychological linguistic analysis dictionary for microblog.
International conference on brain and health informatics , Springer.
Johar, S. (2015). Emotion, affect and personality in speech: The Bias of language
and paralanguage. Springer.
Millner, A. J., Augenstein, T. M., Visser, K. H., Gallagher, K., Vergara, G. A.,
D' Angelo, E. J., amp; Nock, M. K. (2019). Implicit cognitions as a behavioral
marker of suicide attempts in adolescents. Archives of Suicide Research,
23 (1), 47-63.
Pestian, J. P., Santel, D., Sorter, M., Bayram, U., Connolly, B., Glauser, T., amp;
Cohen, K. (2020). A machine learning approach to identifying changes in
suicidal language. Suicide and Life-Threatening Behavior, 50(5), 939-947.
Pestian, J. P., Sorter, M., Connolly, B., Bretonnel Cohen, K., McCullumsmith,
C., Gee, J. T., amp; Group, S. T. M. R. (2017). A machine learning approach to
identifying the thought markers of suicidal subjects: A prospective multicenter
trial. Suicide and Life-Threatening Behavior, 47(1), 112-121.
Rodriguez, J. D., Perez, A., amp; Lozano, J. A. (2010). Sensitivity analysis of k-fold
cross validation in prediction error estimation. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 32(3), 569-575.
Rustad, R. A., Small, J. E., Jobes, D. A., Safer, M. A., amp; Peterson, R. J. (2003).
The impact of rock videos and music with suicidal content on thoughts and
attitudes about suicide. Suicide and Life-Threatening Behavior, 33 (2), 120-
131.
Torous, J., Larsen, M. E., Depp, C., Cosco, T. D., Barnett, I., Nock, M. K., amp; Firth,
J. (2018). Smartphones, sensors, and machine learning to advance realtime
prediction and interventions for suicide prevention: A review of current
progress and next steps. Current Psychiatry Reports, 20 (7), 51
Zhang, Y., Hu, J., Evans, C., Jin, L. W., Wu, M. Y., Wang, C. Y., amp; Chen, G.
P. (2020). Psychometric properties of the Chinese version of the clinical
outcomes in routine evaluation-outcome measure (CORE-OM). British
Journal of Guidance and Counselling, 48(2), 289-299.