許立鵬,宋文愛(ài)
(中北大學(xué) 軟件學(xué)院,山西 太原 030051)
自殺已經(jīng)成為當(dāng)今世界導(dǎo)致人類死亡的第三大因素. 認(rèn)識(shí)自殺、了解自殺、研究自殺、識(shí)別自殺甚至于干預(yù)自殺已經(jīng)刻不容緩. 美國(guó)精神衛(wèi)生專家認(rèn)為自殺行為可分為自殺意念、自殺未遂和自殺死亡,這三類情況可逐漸發(fā)展和重疊[1]. 據(jù)世界衛(wèi)生組織報(bào)告,在全球每40 s就有1人死于自殺,而1個(gè)人的自殺,可能會(huì)影響其6個(gè)親友至少20年. 經(jīng)報(bào)告數(shù)據(jù)顯示,在半個(gè)世紀(jì)里全球產(chǎn)生自殺行為的人群年齡正逐漸趨于年輕化: 由50年前的30歲左右人群居多到今天的16歲左右. 互聯(lián)網(wǎng)的飛速發(fā)展,催生出了一系列聊天交友平臺(tái),如QQ、微信、貼吧、微博、知乎等等. 而患有精神疾病的人們往往羞于在他人面前吐露心聲,往往面對(duì)他人時(shí)偽裝自己,在無(wú)人的角落里展現(xiàn)最真實(shí)的自己. 于是,互聯(lián)網(wǎng)的發(fā)展,為這些患者提供了一個(gè)虛擬的“無(wú)人角落”,在這里他們發(fā)泄自己的情緒,吐露自己的心聲,表達(dá)自己的意念,研究也表明,那些有自傷史,或自殺風(fēng)險(xiǎn)高的人,他們經(jīng)常使用互聯(lián)網(wǎng)來(lái)表達(dá)自己的自殺行為[2],而且社交媒體數(shù)據(jù)經(jīng)常反映用戶的情緒狀態(tài)[3],自然語(yǔ)言處理技術(shù)與機(jī)器學(xué)習(xí)的發(fā)展,也使得人們可以通過(guò)機(jī)器實(shí)現(xiàn)很多人類完成較為困難的任務(wù),使得通過(guò)社交媒體探究自殺意念成為可能.
一部分學(xué)者研究了導(dǎo)致自殺的因素,如Karambelas T 在他的文章中說(shuō),抑郁是自殺的最大風(fēng)險(xiǎn)因素,自殺意念是抑郁的一種癥狀,同時(shí)文章還提到,抑郁癥產(chǎn)生的這些自我傷害行為,像切割(身體)或者燃燒,大多數(shù)時(shí)候是自殺的前兆[4]; 還有一部分學(xué)者研究了這些自殺因素在社交媒體中的表現(xiàn)形式,如Qijin Cheng等通過(guò)對(duì)中國(guó)社交媒體上的用戶數(shù)據(jù)進(jìn)行研究發(fā)現(xiàn),有自殺行為的用戶高頻率地使用人稱代詞、表達(dá)計(jì)劃的詞以及多功能詞,但是卻很少使用動(dòng)詞,研究還發(fā)現(xiàn)嚴(yán)重抑郁癥患者和有較大壓力的人在產(chǎn)生自殺行為時(shí)較多地使用第二人稱代詞[5]; 有一部分學(xué)者也會(huì)研究如何識(shí)別那些有自殺意念的帖子,如Xiaolei Huang等以n-gram特征與心理詞典為特征、以支持向量機(jī)算法為核心構(gòu)建機(jī)器學(xué)習(xí)分類模型以識(shí)別具有自殺意念的帖子[6].
在最初的自殺意念檢測(cè)研究中,大多數(shù)學(xué)者采用n-gram特征工程 + 傳統(tǒng)機(jī)器學(xué)習(xí)算法(如支持向量機(jī)等)的方式來(lái)實(shí)現(xiàn)樣本的二分類任務(wù),進(jìn)而實(shí)現(xiàn)自殺意念的檢測(cè). 但是由于n-gram特征的局限性,模型的準(zhǔn)確率比較低,因此為了提升模型的識(shí)別準(zhǔn)確率,學(xué)者們構(gòu)建了自殺詞典,采用n-gram特征 + 自殺詞典 + 傳統(tǒng)機(jī)器學(xué)習(xí)算法的方式實(shí)現(xiàn)自殺意念的檢測(cè). 然而由于字典構(gòu)建的方式的缺陷使得這種提升很有限,如Xiaolei Huang等人構(gòu)建心理詞典,僅僅是以積極詞匯和消極詞匯為元素構(gòu)建該詞典[6],這就導(dǎo)致該詞典元素在表示自殺意念時(shí)缺少很多必要的信息,從而不能完全表現(xiàn)出自殺者與正常人在語(yǔ)言上的不同,導(dǎo)致其模型性能的提升并不明顯.
因此,本文提出了基于各自殺誘因在社交媒體上的語(yǔ)言表達(dá)來(lái)構(gòu)建自殺詞典. 該詞典適用于各種自殺研究場(chǎng)景,遷移性強(qiáng),由于其涵蓋了大部分的自殺誘因內(nèi)容,使得模型有較強(qiáng)的泛化性能. 同時(shí),本文還提出了“新”特征 - 詞性特征,如第二人稱代詞等,加入該特征的原因在于有大量的研究表明: 有自殺傾向的人在社交媒體上表達(dá)自殺意念時(shí)常常使用更多地特定詞性,如抑郁癥患者在表達(dá)自殺意念時(shí)通常更多地使用第二人稱代詞,卻很少使用第一人稱,因此通過(guò)句子中人稱代詞的使用情況可以更好地區(qū)分有自殺意念的樣本與無(wú)自殺意念的樣本.
在社交媒體中反映其語(yǔ)言特征的自殺誘因如表 1 所示.
表 1 各自殺誘因與自殺意念之間的關(guān)系
根據(jù)表 1 中的文獻(xiàn)可以確定相應(yīng)的自殺誘因在自殺意念檢測(cè)中是重要的,且在微博等社交媒體中可以被反映出來(lái).
下面介紹自殺誘因在社交媒體中的語(yǔ)言特征[32],本文涉及到的語(yǔ)言特征主要包括詞匯特征與詞性特征,見(jiàn)表 2 和表 3.
表 2 各自殺誘因的部分詞性特征
表 3 各自殺誘因的部分詞匯表達(dá)
續(xù)表3:
自殺誘因語(yǔ)言特征(詞匯特征)情緒憤怒, 罪惡, 煩惱, 對(duì)抗, 不滿人格很好, 很開(kāi)心, 吃驚的, 最好的, 激動(dòng)的, 派對(duì), 懸掛, 晚餐, 或許, 也許, 焦慮, 不確定, 失控, 憤怒, 絕望, 自我干擾, 行為失控, 情感失控(失調(diào)), 脆弱, 懷疑, 疑問(wèn), 對(duì)立, 恐懼, 抑制, 社會(huì), 害羞, 悲觀, 侵略, 敵意, 沖動(dòng)失業(yè)失業(yè), 丟失工作, 工廠, 訪問(wèn), 薪水煙煙草, 吸煙, 吸煙者, 煙霧, 尼古丁, 香煙, 戒煙, 停止, 放棄, 安非他酮, 伐尼克蘭酒精醉酒, 嗡嗡聲, 浪費(fèi), 虛度, 被摧毀, 醉意, 嘔吐, 醉人, 辣味, 影響, 醉漢經(jīng)歷死亡, 逃生, 睡著, 喚醒, 結(jié)束, 生活, 殺死, 消失, 嘗試, 再次, 沖動(dòng), 打架, 欺凌, 欺負(fù), 父母, 父親, 姐姐, 兄弟, 朋友, 我們, 我自己, 爸爸, 祖父母嚴(yán)重疾病癌癥, 癲癇, 哮喘, 肝臟疾病, 糖尿病, 高血壓, 中風(fēng), 艾滋病, 艾滋病, 獲得性免疫缺陷綜合征, 慢性風(fēng)濕性疾病
語(yǔ)言特征是語(yǔ)言所特有的,它包含了詞匯、語(yǔ)法、語(yǔ)義、語(yǔ)音、詞性等多種內(nèi)容. 詞匯又包括了消極詞匯、積極詞匯、同義詞、反義詞、近義詞等內(nèi)容; 詞性包括了動(dòng)詞、名詞、代詞、形容詞、冠詞、量詞等內(nèi)容. 在通過(guò)大量的文獻(xiàn)查閱后,收集了一些關(guān)于自殺誘因在社交媒體上的詞匯、詞性等語(yǔ)言特征. 對(duì)于各自殺誘因中的高頻詞匯,本文做了同義詞與反義詞的擴(kuò)展,一起存儲(chǔ)在高頻詞匯表中,所使用的工具是WordNet.
對(duì)于搜集到的語(yǔ)言特征作如下處理,結(jié)果見(jiàn)表 2,表 3:
1) 剔除無(wú)法在文本中反映的語(yǔ)言特征,如音調(diào)、音色等;
2) 對(duì)詞匯特征中的“綜合”詞,如焦慮,擴(kuò)展其內(nèi)容,即把可以形容“綜合”詞的詞語(yǔ),加入自殺詞典中;
3) 消除重復(fù)特征;
4) 對(duì)在語(yǔ)音等社交媒體中獲得的特征與在文本下的特征做相對(duì)應(yīng)的轉(zhuǎn)化,如人稱代詞等;
5) 對(duì)收集到的語(yǔ)言特征做統(tǒng)一化的表達(dá).
n-gram特征: n-gram模型語(yǔ)言模型基于馬爾可夫假設(shè)進(jìn)行了限制,即第n個(gè)詞出現(xiàn)的概率僅與它前面出現(xiàn)的n-1個(gè)詞有關(guān).
于是,n-gram數(shù)學(xué)表達(dá)為
P(s)=P(w1)…P(wT│w1w2…).
(1)
本文使用Uni-gram, Bi-gram以及Tri-gram從數(shù)據(jù)中提取特征,其數(shù)學(xué)表示為:
Uni-gram:
P(s)=P(w1)…P(wT│wT-1).
(2)
Bi-gram:
P(s)=P(w1)…P(wT│wT-1wT-2).
(3)
Tri-gram:
P(s)=P(w1)…P(wT│wT-1wT-2wT-3),
(4)
式中:wi表示詞i;T表示總詞數(shù);s代表句子.
其運(yùn)行過(guò)程如圖1 所示:
1) 首先對(duì)句子信息進(jìn)行粗切分,得到語(yǔ)段序列;
2) 對(duì)語(yǔ)段序列進(jìn)行g(shù)ram切分,得到gram頻度列表;
3) 選擇頻度大于設(shè)定閾值的gram片段作為新的特征向量;
4) 每個(gè)gram片段就是一個(gè)向量維度,形成特征向量表.
圖1 n-gram特征提取過(guò)程Fig.1 n-gram feature extraction process
對(duì)本文中使用TF-IDF模型來(lái)量化n-gram特征與詞匯特征. TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一個(gè)字詞對(duì)于一個(gè)文檔或一個(gè)語(yǔ)料庫(kù)中的其中一份文檔的重要程度,是一種常用的加權(quán)技術(shù). 字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)呈正比增加,但也會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率呈反比下降.
詞頻(Term Frequency,TF): 是指該詞在文章中出現(xiàn)的頻率,本文中是指在本語(yǔ)句中該詞出現(xiàn)的頻率,其數(shù)學(xué)計(jì)算公式表示為
(5)
式中:ni,j表示在句子j中詞i出現(xiàn)的次數(shù).
IDF(Inverse Document Frequency)是一個(gè)詞語(yǔ)普遍性的度量. 本文中,某一詞語(yǔ)的IDF可由數(shù)據(jù)總量數(shù)除以包含該詞語(yǔ)的語(yǔ)句的數(shù)目,再將結(jié)果取以10為底的對(duì)數(shù)得到,其數(shù)學(xué)計(jì)算公式為
(6)
式中: |D|表示數(shù)據(jù)集中數(shù)據(jù)的總量; |{j∶ti∈dj}|表示在數(shù)據(jù)集|D|中包含詞i的句子j的數(shù)量,而分母加1是為了避免當(dāng)詞語(yǔ)不在語(yǔ)料庫(kù)中時(shí),出現(xiàn)分母為0的情況. 于是,有
tf-idf=tfi,j*idfi.
(7)
直觀地,某一特定語(yǔ)句內(nèi)的高詞語(yǔ)頻率,以及該詞語(yǔ)在整個(gè)數(shù)據(jù)集中的低文檔頻率,可以產(chǎn)生高權(quán)重的TF-IDF,因此,TF-IDF傾向于過(guò)濾掉那些常見(jiàn)的詞語(yǔ),保留重要的詞語(yǔ).
最后根據(jù)均值歸一化公式對(duì)其歸一化為0~1區(qū)間,數(shù)學(xué)公式表示為
(8)
式中:μ表示所有數(shù)據(jù)的均值; max表示所有數(shù)據(jù)中的最大值; min表示所有數(shù)據(jù)中的最小值.
對(duì)于詞性特征,使用SC-LIWC——簡(jiǎn)體中文版的Linguistic Inquiry and Word Count,來(lái)統(tǒng)計(jì)句子中的詞性特征. 本文使用由中國(guó)科學(xué)院心理研究所開(kāi)發(fā)的文心中文心理分析系統(tǒng)(Text Mind)來(lái)實(shí)現(xiàn)SC-LIWC的功能: 當(dāng)輸入一條數(shù)據(jù)后,“文心”會(huì)分析句子中的所有成分,給出包含人稱代詞、動(dòng)詞、介詞等102個(gè)特征的占比. 因此,本文從中提取包含表1元素在內(nèi)的詞性特征并提取其他相關(guān)特征如句子詞計(jì)數(shù)等.
由于n-gram特征的局限性,在加入由詞匯表達(dá)的自殺誘因的完備詞典后,模型的精準(zhǔn)率提高應(yīng)是題中之意,于是有假設(shè)1:
假設(shè) 1 基于n-gram特征與完備的詞典特征的模型在精準(zhǔn)率上應(yīng)優(yōu)于基于n-gram特征的模型;
同樣地,在加入分類性較強(qiáng)的詞性特征后,對(duì)假設(shè)1中的模型的精準(zhǔn)率的提高也是預(yù)期的效果,于是有假設(shè)2:
假設(shè) 2 基于n-gram特征、完備的詞典特征與詞性特征的模型在精準(zhǔn)率上應(yīng)優(yōu)于基于n-gram特征模型與基于n-gram特征和完備的詞典特征的模型.
3.2.1 數(shù)據(jù)來(lái)源
本文的數(shù)據(jù)主要來(lái)自于微博中的“自殺樹(shù)洞”. “自殺樹(shù)洞”是微博名為“走飯”的微博下的留言評(píng)論. 這里是很多有心理疾病以及有自殺意念甚至實(shí)施自殺行為的人宣泄、表達(dá)他們情感的地方.
3.2.2 數(shù)據(jù)預(yù)處理
為了獲得標(biāo)準(zhǔn)化的數(shù)據(jù),使用Python腳本完成:
1) 對(duì)評(píng)論內(nèi)容、評(píng)論人id的獲??;
2) 同時(shí)對(duì)爬取時(shí)間進(jìn)行轉(zhuǎn)換標(biāo)準(zhǔn)化;
3) 刪除包含亂碼的數(shù)據(jù);
4) 對(duì)評(píng)論內(nèi)容中的標(biāo)點(diǎn)符號(hào)統(tǒng)一化為逗號(hào).
3.2.3 數(shù)據(jù)標(biāo)注
由于本文所完成的實(shí)驗(yàn)為有監(jiān)督的學(xué)習(xí),因此,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)簽的標(biāo)注. 在本實(shí)驗(yàn)中,數(shù)據(jù)標(biāo)注是雇傭5名心理學(xué)專業(yè)人士人為進(jìn)行的,要求如下:
1) 若本人認(rèn)為該數(shù)據(jù)有自殺傾向,則標(biāo)記為“有自殺傾向”;
2) 若認(rèn)為該數(shù)據(jù)無(wú)自殺傾向,則標(biāo)記為“無(wú)自殺傾向”;
3) 若本人認(rèn)為該數(shù)據(jù)無(wú)法確定是否有自殺傾向,則標(biāo)記為“無(wú)法確定”.
對(duì)反饋回來(lái)的數(shù)據(jù)按如下規(guī)則進(jìn)行總和,對(duì)相同數(shù)據(jù):
1) 若標(biāo)記為“有自殺傾向”的標(biāo)記數(shù)大于3,則判定該數(shù)據(jù)的標(biāo)記為“有自殺傾向”,記為“1”;
2) 若標(biāo)記為“無(wú)自殺傾向”的標(biāo)記數(shù)大于3,則判斷該數(shù)據(jù)的標(biāo)記為“無(wú)自殺傾向”,記為“0”;
3) 若標(biāo)記為“無(wú)法確定”的標(biāo)記數(shù)等于3,則要求所有專家討論該數(shù)據(jù),仍按上述規(guī)則1,2確定最終標(biāo)記.
通過(guò)數(shù)據(jù)預(yù)處理,數(shù)據(jù)標(biāo)注等工作,最終獲得可使用數(shù)據(jù)7 000例,其中正樣例3 500例,負(fù)樣例3 500例.
設(shè)置對(duì)照組實(shí)驗(yàn)與實(shí)驗(yàn)組實(shí)驗(yàn),通過(guò)控制變量的方法來(lái)論證假設(shè)1的正確性. 表 4 給出了實(shí)驗(yàn)組與對(duì)照組的設(shè)置.
表 4 實(shí)驗(yàn)組與對(duì)照組設(shè)置
為了探索在SVM和Random Forest算法下組間模型的差異,現(xiàn)設(shè)置如下實(shí)驗(yàn),表 5 給出了相應(yīng)的實(shí)驗(yàn)設(shè)置.
表 5 組間模型差異實(shí)驗(yàn)設(shè)置
評(píng)估模型性能好壞的度量有很多,如準(zhǔn)確率、錯(cuò)誤率、精準(zhǔn)率、召回率、F1度量等等. 但是每一種性能度量方式所關(guān)注的信息又各不相同,例如錯(cuò)誤率衡量的是在所有數(shù)據(jù)中有多少數(shù)據(jù)被分類錯(cuò)誤,而精準(zhǔn)率衡量的是在所有預(yù)測(cè)出來(lái)的數(shù)據(jù)中有多少是數(shù)據(jù)真正含有自殺傾向的.
本論文采用精準(zhǔn)率(precision)、召回率(recall)、F1度量以及t檢驗(yàn)來(lái)衡量模型的性能,其在本論文中代表的含義為: 精準(zhǔn)率,評(píng)估的是模型所預(yù)測(cè)的所有數(shù)據(jù)中有多大的比例是真正含有自殺傾向的數(shù)據(jù); 召回率,評(píng)估的是模型在所有真正含有自殺傾向的數(shù)據(jù)中有多大比例的數(shù)據(jù)被預(yù)測(cè)正確;F1度量,平衡精準(zhǔn)率與召回率. 表 6 為分類結(jié)果的混淆矩陣.
表 6 分類結(jié)果的混淆矩陣
精準(zhǔn)率的數(shù)學(xué)公式定義為:
(9)
召回率的數(shù)學(xué)公式定義為
(10)
F1度量的數(shù)學(xué)公式定義為
(11)
學(xué)習(xí)器A與B在k-折交叉驗(yàn)證下的t檢驗(yàn)計(jì)算公式為
(12)
式中:μ為均值;σ為方差.
本節(jié)對(duì)不同算法下對(duì)照組、實(shí)驗(yàn)組-1以及實(shí)驗(yàn)組-2所得模型進(jìn)行性能評(píng)估,結(jié)果見(jiàn)表 7,同時(shí),表 8 給出了組間的模型差異評(píng)估,表 9 為p值及其參考意義.
表 7 各分類算法下各組模型評(píng)估結(jié)果
表 8 各算法下組間模型的差異評(píng)估結(jié)果
表 9 p值對(duì)應(yīng)的假設(shè)的統(tǒng)計(jì)學(xué)意義
由表 7,表 8,圖2~圖3 可得:
1) 由表 7,圖2~圖3中各算法下的對(duì)照組與實(shí)驗(yàn)組-1在精準(zhǔn)率度量上可以看出,完備的字典對(duì)于基于n-gram特征的模型在精準(zhǔn)率性能上有所提高,這也符合假設(shè)1的預(yù)期期望;
2) 由表7,圖2~圖3中各算法下的對(duì)照組、實(shí)驗(yàn)組-1與實(shí)驗(yàn)組-2在精準(zhǔn)率度量上可以看出,詞性特征對(duì)于基于n-gram特征與完備詞典特征的模型在精準(zhǔn)率性能上也有所提高,這同樣符合假設(shè)2的預(yù)期期望;
3) 由表 7 中,圖2~圖3中實(shí)驗(yàn)組-2與實(shí)驗(yàn)組-3在精準(zhǔn)率度量上可以看出,不添加n-gram特征會(huì)使得模型在精準(zhǔn)率上有所提升,這種提升在2%左右,但是在召回率上有所下降,這種下降在6%左右;
圖2 支持向量機(jī)算法下各類特征所得模型的度量Fig.2 Measurement of models obtained from various features under support vector machine algorithm
圖3 隨機(jī)森林算法下各類特征所得模型的度量Fig.3 Measurement of models obtained from various features under random forest algorithm
4) 由表 7 中,圖3中實(shí)驗(yàn)組-2與實(shí)驗(yàn)組-3在精準(zhǔn)率度量上可以看出,不添加n-gram特征會(huì)使得模型在精準(zhǔn)率上有所提升,這種提升在6%左右,在召回率上也有所提升,這種提升在9%左右;
5) 由表 7,圖2~圖3中各算法下模型的F1度量來(lái)看,基于n-gram特征與語(yǔ)言特征的模型優(yōu)于基于n-gram特征的模型;
6) 由表 7,圖2中各部分?jǐn)?shù)據(jù)可以看出,隨機(jī)森林算法在語(yǔ)言特征下表現(xiàn)最優(yōu),提升最大: 精準(zhǔn)率提升約20%,召回率提升約21%,F(xiàn)1值提升約20%,即模型整體性能提升約20%;
7) 由表8與表9可以得出,無(wú)論哪種分類算法,基于n-gram特征的模型與基于n-gram特征和語(yǔ)言特征的模型都有極其顯著的差異性,且后者優(yōu)于前者;
8) 由表8和表9可以得出,支持向量機(jī)算法,n-gram特征使得兩個(gè)模型產(chǎn)生顯著性差異: 添加n-gram特征的模型優(yōu)于不添加n-gram特征的模型;
9) 由表8和表9還可以得出,隨機(jī)森林算法,n-gram特征使得兩個(gè)模型產(chǎn)生極其顯著性差異: 不添加n-gram特征的模型優(yōu)于添加n-gram特征的模型.
關(guān)于自殺的話題,尤其是青少年的自殺,一直以來(lái)都備受關(guān)注. 過(guò)去由于技術(shù)的限制以及數(shù)據(jù)的稀少,無(wú)法完成對(duì)龐大社交媒體的自殺監(jiān)控. 而近年來(lái)隨著人工智能的快速發(fā)展,使得對(duì)社交媒體的自殺監(jiān)控變?yōu)榱丝赡? 近10年,機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域中關(guān)于如何提高自殺意念檢測(cè)的準(zhǔn)確率成為了心理學(xué)研究中的一大熱點(diǎn)課題.
本文的主要貢獻(xiàn)在于:
1) 提供了一個(gè)較為完備的、可遷移行強(qiáng)的自殺詞典;
2) 提出了語(yǔ)言特征,并證明了該特征對(duì)基于n-gram特征與基于n-gram特征和詞典模型的模型的性能有所提高;
3) 試驗(yàn)了不同分類算法在n-gram特征、詞典特征、語(yǔ)言特征下的模型性能,為特征與算法的選擇提供了一定的依據(jù).
后續(xù)可以在以下方面繼續(xù)展開(kāi)研究:
1) 在確定自殺意念擁有者后,對(duì)其近期內(nèi)的微博進(jìn)行分析,在原有特征中加入時(shí)間特征進(jìn)行橫向擴(kuò)展,進(jìn)一步確定其自殺意念;
2) 在現(xiàn)有特征中加入與用戶相關(guān)的其他特征,繼續(xù)提升模型的分類性能;
3) 對(duì)自殺誘因進(jìn)行細(xì)化,實(shí)現(xiàn)可以確定用戶是因何產(chǎn)生自殺意念的系統(tǒng);
4) 通過(guò)BERT模型完成語(yǔ)言的特征的粗粒度提取,以語(yǔ)言特征為細(xì)粒度特征,通過(guò)CNN模型實(shí)現(xiàn)自殺意念檢測(cè).