鄧杰
【摘 要】在大數(shù)據(jù)的領域中,對大量數(shù)據(jù)的文本分析是基石,后面的所有數(shù)據(jù)的解析都是依賴與此,規(guī)則維護的效率以及準確率至關重要。本文主要是對比了目前常用的幾種語義分析的方法,提出了相對來說效率更高,準確率也能得到保障的方法。
【關鍵詞】文本分析;手工編寫規(guī)則;機器學習
1 背景內(nèi)容
規(guī)則維護的辦法,目前主要思路如下:先整理大量的樣本數(shù)據(jù),先手工打上各種分類標簽或者關鍵字,然后以這些手工梳理好后的樣本數(shù)據(jù)或者關鍵字為基準去手工編寫規(guī)則。
但是后期隨著關鍵字的變化或者樣本數(shù)據(jù)的豐富,會發(fā)現(xiàn)現(xiàn)有規(guī)則的準確性、覆蓋率越來越低,甚至出現(xiàn)大量的樣本數(shù)據(jù)都匹配不到現(xiàn)在的分類中。定期對現(xiàn)有規(guī)則的維護是一項很重要并且很必須的工作。
隨著規(guī)則的積累和樣本量的增加,手工維護規(guī)則的工作量會越來越來,為了保證語義分析的效果,規(guī)則開發(fā)維護的人員會越來越多,會使得成本增加;另一方面因為規(guī)則的積累,導致規(guī)則混亂,在累加規(guī)則中,甚至會出現(xiàn)在手工維護規(guī)則后,規(guī)則的準確性和覆蓋性越來越低。
2 文本分析常用方法
2.1 手工編寫規(guī)則
1)提供大量的樣本數(shù)據(jù);
2)通過人工手動去打上相應的標簽、關鍵字;
3)數(shù)據(jù)分析師根據(jù)關鍵詞,輸出分類對應的規(guī)則;
4)再用另外一部分樣本去驗證手工編寫規(guī)則的準確率、覆蓋率;
5)對于有明顯某些分類的準確率覆蓋率較低的分類,需要專項再重新去分析優(yōu)化。
優(yōu)點:
相應分類樣本充足的情況下,準確率覆蓋率都可以達到較高的值。
缺點:
需要大量的業(yè)務人員,能夠?qū)颖緮?shù)據(jù)歸納分類;
需要大量的分析師,并且對分析師要求還較高,需要了解業(yè)務,能夠通過大量數(shù)據(jù)識別關鍵字進行分析;
編寫規(guī)則的周期較長;
規(guī)則需要定期維護,否則準確率覆蓋率會逐漸降低;
由于樣本局限性,在實際應用場景中,會有大量的數(shù)據(jù)匹配不到分類;
2.2 機器學習通過訓練生成數(shù)據(jù)模型
1)提供樣本數(shù)據(jù)(對比手工編寫規(guī)則的量要?。?;
2)用樣本數(shù)據(jù)做訓練,生成數(shù)據(jù)模型;
3)用訓練后的數(shù)據(jù)模型驗證新的樣本數(shù)據(jù);
4)對于準確性較差的分類,需要再次調(diào)整優(yōu)化數(shù)據(jù)模型,提高準確率。
優(yōu)點:
規(guī)則周期短;
需要的人力少;
需要樣本量相對來說少;
缺點:
整體的準確率達不到手工編寫規(guī)則的值;
3 機器學習結合人工編寫規(guī)則
3.1 方法論的產(chǎn)生
純手工維護規(guī)則,可以使得某些分類的準確率達到很高,但是輸出規(guī)則需要很長的周期,并且也很多人力支撐,輸出的規(guī)則很有局限性,不在樣本范圍內(nèi)的規(guī)則或者關鍵字,無法識別,后期需要很高的維
成本;
機器學習通過訓練,能夠很快速的生成數(shù)據(jù)模型,對業(yè)務數(shù)據(jù)進行分析。但是準確率無法達到手工收工維護規(guī)則的程度。
手工維護規(guī)則精度夠,但是周期長、可擴展性不強;機器學習可擴展性好,周期短,但是精度不夠。
那何不集合這兩種方法的優(yōu)點,提升規(guī)則維護效率,縮短規(guī)則生成周期,并且后期維護成本也不用那么高。
3.2 方法步驟
1)提供樣本數(shù)據(jù)(對比手工編寫規(guī)則的量要?。?;
2)通過樣本數(shù)據(jù)做訓練,生成數(shù)據(jù)模型;
3)用訓練后的數(shù)據(jù)模型驗證新的樣本數(shù)據(jù);
4)對于準確率較差的分類,需要再次調(diào)整優(yōu)化提高準確性5)模型訓練后準確性還是較差的分類,手工編寫規(guī)則,提供準確性;
6)機器學習可以輸出相應的關鍵字,提高了編寫規(guī)則的效率;
7)對于后期新增的業(yè)務場景和數(shù)據(jù),機器學習可以及時識別,降低了無法識別分類的概率。
3.3 方法論總結
機器學習和傳統(tǒng)的手工編寫規(guī)則相結合的方法,既提高了規(guī)則輸出的效率,又保障了一定的準確性;既減少了維護工作的人力訴求,也保障了維護工作的準確率的穩(wěn)定性。兩者相互取長補短,互相融合使用,可以有效得提升規(guī)則維護得效率。