自然語言處理是剛需,只要我們的企業(yè)、我們的客戶希望用人工智能技術(shù)來賦能行業(yè)應(yīng)用,就離不開對(duì)自然語言的處理。
—北京神州泰岳軟件股份有限公司AI研究院首席架構(gòu)師劉大雙
很高興有機(jī)會(huì)和大家分享神州泰岳在自然語言處理方面的工作。越來越多企業(yè)已經(jīng)意識(shí)到,可以用人工智能技術(shù)手段為行業(yè)應(yīng)用賦能。
而今,自然語言處理是剛需,只要我們的企業(yè)、我們的客戶希望用人工智能技術(shù)手段為行業(yè)應(yīng)用賦能,就離不開對(duì)自然語言或者對(duì)文本的處理。同時(shí),自然語言處理也是一個(gè)高頻需求。但是,自然語言處理的痛點(diǎn)到底在哪里呢?
第一,自然語言處理的技術(shù)門檻高。
第二,自然語言處理的人才成本相對(duì)比較高,維護(hù)一定規(guī)模的團(tuán)隊(duì)代價(jià)非常高。
第三,自然語言處理的效果很難保證。
那么,神州泰岳是如何為市場(chǎng)提供一個(gè)自然語言處理分析平臺(tái)的呢?
首先,我們來看一下,業(yè)界的重量級(jí)友商BAT在自然語言處理方面做了哪些努力?
BAT首先做的一件事是開放平臺(tái),以輸出技術(shù)框架和基礎(chǔ)技術(shù)為主,授人以漁。
百度云提供Paddl e Paddl e深度學(xué)習(xí)框架,提供詞法分析、依存句法分析等13項(xiàng)基礎(chǔ)服務(wù),提供文本審核、機(jī)器翻譯、服務(wù)機(jī)器人場(chǎng)景服務(wù)。
阿里云提供機(jī)器學(xué)習(xí)PAI,提供分詞、詞性標(biāo)注等8項(xiàng)基礎(chǔ)服務(wù),支持機(jī)器翻譯場(chǎng)景。
騰訊云提供云智AI平臺(tái)及應(yīng)用服務(wù),提供詞法、句法分析等4項(xiàng)基礎(chǔ)服務(wù),支持機(jī)器翻譯、內(nèi)容理解場(chǎng)景。
用戶可以利用這些技術(shù)接口開發(fā)滿足業(yè)務(wù)需要的NLP應(yīng)用,NLP應(yīng)用開發(fā)依然需要用戶具有一定的專業(yè)知識(shí),而且效果無法保證。
基于以上考慮,我們泰岳語義工廠讓NLP技術(shù)賦能行業(yè)應(yīng)用開發(fā),授人以魚。泰岳語義工廠為什么要這樣做?
第一,全面性。泰岳語義工廠可以提供一個(gè)比較全面的基礎(chǔ)技術(shù)和應(yīng)用場(chǎng)景服務(wù),涵蓋NLP基礎(chǔ)技術(shù)、領(lǐng)域場(chǎng)景、數(shù)據(jù)服務(wù)共200多項(xiàng)。
第二,專業(yè)性。泰岳語義工廠聚焦于中文語義分析技術(shù)積累20多年,具有中國(guó)特色自然語言處理的能力。
第三,場(chǎng)景化。泰岳語義工廠提供16個(gè)行業(yè)領(lǐng)域、140多個(gè)場(chǎng)景化服務(wù),我們?cè)?40多個(gè)場(chǎng)景之外也提供了相關(guān)數(shù)據(jù)服務(wù),可以提供數(shù)據(jù)代加工,如果客戶希望我們幫他進(jìn)行加工的話,我們也可以提供相關(guān)的服務(wù)。
第四,應(yīng)用開發(fā)。泰岳語義只需一次調(diào)用,開放文本變結(jié)構(gòu)化數(shù)據(jù)。比如,對(duì)裁判文書的解析,只需輸入裁判文書,便可得到40多項(xiàng)數(shù)據(jù)解析,可以把裁判文書的要素準(zhǔn)確解析出來。
泰岳語義工廠可以提供最專業(yè)、最全面、最便捷、性價(jià)比最高的語義分析服務(wù),泰岳語義工廠的自然語言處理技術(shù),以國(guó)家中文信息處理業(yè)務(wù)將近20年的一個(gè)研究成果為基礎(chǔ)。所以,我們可以把泰岳語義工廠叫做自成一派中文信息處理技術(shù)。
泰岳語義工廠可以提供場(chǎng)景應(yīng)用服務(wù)、數(shù)據(jù)服務(wù)、NLP基礎(chǔ)服務(wù)。
場(chǎng)景應(yīng)用服務(wù)包括銀行、政府、互聯(lián)網(wǎng)、電商、證券、保險(xiǎn)、企業(yè)應(yīng)用、運(yùn)營(yíng)商、定制化等場(chǎng)景應(yīng)用服務(wù)。
數(shù)據(jù)服務(wù)包括語義資源服務(wù)、深度學(xué)習(xí)模型、數(shù)據(jù)資源服務(wù)、數(shù)據(jù)加工服務(wù)等。
NLP基礎(chǔ)服務(wù)包括深度學(xué)習(xí)、信息抽取、情感計(jì)算、自動(dòng)寫作等。
整個(gè)泰岳語義工廠底層平臺(tái)采用的是專利的開發(fā)工具,我們把它叫做OEC開發(fā)工具,這是專利技術(shù)平臺(tái),以這個(gè)平臺(tái)來開發(fā)泰岳語義工廠,可以保證泰岳語義工廠的技術(shù)先進(jìn)性。
泰岳語義工廠在研發(fā)和交付方面不敢自稱是國(guó)內(nèi)投入最大的,但是,泰岳語義工廠在NLP領(lǐng)域在國(guó)內(nèi)較為領(lǐng)先。
泰岳自然語義處理技術(shù)自成一派:
第一,基于概念計(jì)算的智慧語義認(rèn)知技術(shù),擁有20年的技術(shù)積累,200多項(xiàng)發(fā)明專利。
第二,強(qiáng)大的研發(fā)、交付團(tuán)隊(duì),ACL終身成就獎(jiǎng)獲得者李生教授指導(dǎo)100人研發(fā)、500人交付。
第三,自然語言處理技術(shù)得到業(yè)界認(rèn)可,客戶涵蓋金融、公安、電信、能源、交通等領(lǐng)域。
第四,豐富的語料資源,Chi nese Wor d Vec t or s目前是最全的中文預(yù)訓(xùn)練詞向量集合。
第五,Di nf o-OEC非結(jié)構(gòu)化文本分析挖掘平臺(tái),專利產(chǎn)品保證語義工廠的技術(shù)優(yōu)勢(shì)。
接下來,和大家分享一下泰岳語義工廠的商業(yè)模式。泰岳語義工廠希望成為企業(yè)用戶、行業(yè)用戶的NLP引擎,希望作為內(nèi)核為企業(yè)用戶、行業(yè)用戶提供NLP服務(wù),希望為企業(yè)客戶的行業(yè)應(yīng)用賦能。泰岳語義工廠讓線上和線下相結(jié)合,線上為客戶提供Saa S服務(wù)平臺(tái),線下通過與行業(yè)合作伙伴合作的方式為客戶提供OEM授權(quán),并為行業(yè)應(yīng)用開發(fā)賦能;泰岳語義工廠讓能力和數(shù)據(jù)相結(jié)合,我們以輸出能力為主,同時(shí)我們也展開數(shù)據(jù)合作,包括自身數(shù)據(jù)積累,以及為客戶使用數(shù)據(jù)加工服務(wù)??傊?,泰岳語義工廠希望成為行業(yè)應(yīng)用客戶的NLP引擎。