衛(wèi)衛(wèi)
摘要:伴隨著我國對于數據挖掘以及自然語言相關技術的不斷提高,在Web上研究者也加強了對資源的關注力度。但由于現階段金融證券領域缺乏一定的情感語料庫,因此將情感分析加入到金融證券域內相關技術的應用情況十分少見。面對數量巨大的非結構化Web文本金融信息,加強對金融信息領域特征的考慮,充分利用基于語素的金融證券域文本情感的計算方法對Web文檔的情感分析有著巨大影響。
關鍵詞:金融信息,情感分析;領域特征
中圖分類號:G4 文獻標識碼:A
一、引言
公眾可以通過Web新聞或者論壇的方式對上市公司進行一定的評論,同時結合一定的計算方法對每個文檔計算出一個情感值,情感傾向主要通過情感值來體現,而文檔的傾向強度則是由情感值的絕對值進行控制。運用基于語素的金融證券域文本情感這一計算方法,可以避免資料庫缺少這一局限性,在不斷實驗數據以及結果來看,這種方法可以高校的分析出Web金融信息的情感傾向。
二、相關工作
使用文本情感分析方法已經成為目前一種相對前端的分析手段,而在金融證券域中的全面開展,就需要立足于金融證券域的實際需求。從現階段對情感傾向性的研究來看,主要分為兩種:一種是利用機器學習的方法進行文本分類,將文本放置到特定的類別中,即正向或者負向;另一種則是給文本計算一個情感傾向值,傾向性則是通過值的符號來體現,而傾向強度則是通過值的絕對值大小來體現。
要在金融證券域中應用這種方法,主要從以下幾點展開:①對不同種類的相關對象進行分類。在具體分類過程中,很難考慮到所有方面,主要立足于我國證券的主要實施情況;②要有一定的時間限定,指的是在某一時間段內應該對什么類型的文本信息進行提取,這能才能夠滿足不同經濟指標的基本平衡;③對文本信息量進行確定。如何把握選取文本量與質的關系,也就是在相對的量內選擇能夠體現情感傾向的典型文本。想要完成好這些基礎性工作,就必須進行全面性的閱讀和學習,從而得到一些學術上的基礎。同時也要對文本信息的時段、真?zhèn)吻闆r以及發(fā)布主體進行仔細辨別,確保文本的全面性,從而提高結論的公正。
三、基于語素的文本情感分析
3.1基礎框架
任何一項工作的開展都需要在一定的框架范圍內實行,因此,基于語素的金融證券文本情感探測也需要建立一定的框架。從當前Web上金融信息的基本內容來看,主要包含兩類:一種是不同金融網站的新聞、專家品論、公告等等;而另一種則是不同股吧論壇上的帖子。前者的褒貶性不明顯,但內容具有一定的真實性,通常被選作研究對象。
因此,在對金融證券進行框架構建時,首先據需要針對金融證券產品實施文本情感探測,選取的目標也要具有一定針對性,其應具有一定的典型性、代表性。同時在對對探測內容進行框架構建時,就要以企業(yè)的經濟數據作為基礎,立足于金融證券域內的評價、評論以及基本預測,對于一些情感傾向性強的文本信息,應該進行歸納、綜合、分類以及提取。
3.2種子集選取
在建立的框架內,通過針對性選取,例如相關各種典型的預測以及企業(yè)走向較為理性的評價等等,并對其進行選取甄別,在大量信息中總結出具有一定規(guī)律的結論,從而指導不同主體的具體發(fā)展。而在實際的工作過程中,需要大量的精力用在具有一定代表性的不同情感傾做為選取目標。特別需要注意的基本原則是,對于選取的情感文本不能融入自己的情感傾向,以一種相對客觀的心態(tài)面對文本信息。從現階段金融證券于的基本情況來看,其并沒有現成的情感此點,因此需要從現階段金融證券語料庫出發(fā),對所需的情感詞典進行構造,首先就是對正向種子集和負向種子集進行定義,并根據同義關系或者反義關系對其進行擴展。
3.3文檔情感傾向性計算
這里所講的傾向性,主要指的是不同的相關主體,在對相關經濟形式的具體觀察下,從而產生的具有一定個人槍桿的評論等等,雖然其中包含了一定的個人主觀色彩,有著不同種類有利于個人的祈禱祝福,但是其中仍然具有較多的理性成分。在通過對文本中的詞匯、語句甚至是整篇文芳的格局處理等進行分析,都可以得到相對文檔并且能夠用于計算的可靠數據,從而結合企業(yè)發(fā)展的數據得出合理的結論。因此,在計算過程中要以文本的細粒度做為基本,從而展開情感屬性的相關研究,盡可能地將設計相關政府輿情分析、企業(yè)的發(fā)展趨勢以及其他主體的個人追求分析,都需要在計算過程中包含進去,這樣才能夠得到經濟的綜合運算結果。
同時,對于文檔傾向性的計算主要可以從三方面進行,分別是詞匯級別、句子級別以及文檔級別。由于情感詞的傾向做為一個句子甚至一個文檔的情感傾向的具體表現,充分利用建立好的詞典對情感詞傾向進行計算:
3.3.1詞的情感傾向性計算
組成詞的語素情感傾向決定了次的情感傾向,因此,可以通過組成詞的語素情感分數來計算次的情感傾向值。在一個語素中,當其出現在正向情感詞典中的次數較多時,則這個語素更傾向于褒義;反之,在負向情感此點中的次數較多時,則這個語素更傾向于貶義。
3.3.2句子情感傾向性計算
構成句中情感詞的傾向決定了句子的情感傾向。由于否定詞會使情感詞的極性反轉,這就導致在計算句子情感傾向值的時,要考慮否定詞的具體作用。同理,程度副詞也具有于否定詞相同的結果,因此也要考慮其中。
3.3.3文檔情感傾向性計算
通常情況下,人們總會將一些重要的、能夠表達觀點的句子放在相對顯眼的位置,例如標題、段首、段末等,因此,在計算一個文檔的整體傾向性時,需要考慮情感劇的位置對情感值的印象影響。
結語:在對金融證券域語素的文本情感的不斷分析我們可以認為,情感文本探測是現階段各相關主體的認識動態(tài)的重要指標。應用這種探測方法,需要堅持不懈,并且在其他相關分析軟件的原有基礎上進行不斷研發(fā),這樣就可以為其他主體提供相對全面的思考。從現階段金融證券域的情感探測領域來看,仍然缺少針對性較強的分析原件,這就需要相關技術人員以及專業(yè)部門提高科研力度,以期在金融證券域的語素情感傾向探測上取得全面應用。
參考文獻
[1]李國林,萬常選,邊海容,楊莉,鐘敏娟. 基于語素的金融證券域文本情感探測[J].計算機研究域發(fā)展,2011,(48):54-59.
[2]梁利高.基于語素的金融證券域文本情感探索[J].財政金融,2013,(14).