文/陳功文
人工智能中的語(yǔ)義分析是進(jìn)行自然語(yǔ)言的處理技術(shù),其中包括自然語(yǔ)言、計(jì)算語(yǔ)言、認(rèn)知語(yǔ)言等很多學(xué)科。人工智能中的語(yǔ)義分析技術(shù)發(fā)展迅速,尤其是深度學(xué)習(xí)技術(shù)更是發(fā)展迅猛,圍棋對(duì)弈、圖像識(shí)別、自動(dòng)駕駛、語(yǔ)音識(shí)別等都進(jìn)行了應(yīng)用,并得到了突破性進(jìn)展。語(yǔ)義分析的目標(biāo)是進(jìn)行模型和系統(tǒng)的有效建立,做到各個(gè)語(yǔ)言單位自動(dòng)語(yǔ)義分析,進(jìn)而對(duì)文本語(yǔ)義更好的理解。
語(yǔ)義分析基礎(chǔ)技術(shù)包括詞語(yǔ)級(jí)、句子級(jí)和篇章級(jí)的語(yǔ)義分析技術(shù)。
(1)詞語(yǔ)級(jí)語(yǔ)義分析是進(jìn)行詞匯含義理解,有詞義消歧和詞義表示兩個(gè)方面。詞義消歧是結(jié)合多義詞在文本環(huán)境理解和確定詞語(yǔ)含義。其中有詞典當(dāng)中詞義和語(yǔ)料中詞義消歧。要進(jìn)行詞典構(gòu)建和上下文建模。詞義表示是同義詞網(wǎng)絡(luò)中的路徑信息,也是思路數(shù)字化。如今機(jī)器學(xué)習(xí)算法的不斷進(jìn)步和發(fā)展,詞義表示方式詞向量或詞嵌入。其思路是利用訓(xùn)練把語(yǔ)言當(dāng)中的每個(gè)詞進(jìn)行映射形成固定維數(shù)向量,讓這些向量形成詞向量空間,每個(gè)向量被看做空間中的點(diǎn),同時(shí)引入距離,利用這個(gè)詞間的距離進(jìn)行詞相似性的判斷。
(2)句子級(jí)語(yǔ)義分析,這是結(jié)合句中詞的含義、句子句法結(jié)構(gòu)等信息,進(jìn)行推導(dǎo)句子含義的表述形式。包括淺層語(yǔ)義分析和深層語(yǔ)義分析。淺層語(yǔ)義分析是進(jìn)行語(yǔ)義角色標(biāo)注。利用SRL找出句子核心語(yǔ)義角色。如今SRL是根據(jù)句法實(shí)施結(jié)果分析,就是對(duì)某個(gè)句子得出句法分析結(jié)果,再根據(jù)這個(gè)句法分析結(jié)果實(shí)現(xiàn)SRL。深層語(yǔ)義分析是把整個(gè)句子進(jìn)行轉(zhuǎn)化,形成形式化表示,需要知識(shí)庫(kù)的支持,在知識(shí)庫(kù)當(dāng)中,進(jìn)行實(shí)體及關(guān)系、屬性進(jìn)行預(yù)先定義。
(3)篇章級(jí)語(yǔ)義分析。是給定文本,進(jìn)行自動(dòng)識(shí)別篇章結(jié)構(gòu),明確其中的連接詞、論元、篇章關(guān)系類(lèi)別等。篇章結(jié)構(gòu)可分為顯式和隱式兩種關(guān)系式,顯式篇章連接詞體現(xiàn)在文本當(dāng)中,隱式篇章連接詞不在文本中體現(xiàn),能夠結(jié)合上下文的語(yǔ)言環(huán)境進(jìn)行推導(dǎo)。
DINFO-OEC平臺(tái)是進(jìn)行非結(jié)構(gòu)化大數(shù)據(jù)信息分析,具有挖掘能力,也是企業(yè)進(jìn)行大數(shù)據(jù)發(fā)展戰(zhàn)略的有效工具。大多數(shù)大數(shù)據(jù)是非結(jié)構(gòu)化大數(shù)據(jù),其業(yè)務(wù)對(duì)象和對(duì)象間關(guān)系等存在于文本中,文本內(nèi)容有很多來(lái)源,有各種靈活的表達(dá)方式,具有很大歧義性,所以,不能應(yīng)用BI工具等有效分析,不能對(duì)業(yè)務(wù)實(shí)施無(wú)法直接服務(wù),體現(xiàn)業(yè)務(wù)的作用。非結(jié)構(gòu)化大數(shù)據(jù)是進(jìn)行大數(shù)據(jù)處理的重點(diǎn)和難點(diǎn)。DINFOOEC平臺(tái)可以和自然語(yǔ)言處理相結(jié)合,實(shí)施深度學(xué)習(xí)等進(jìn)行文本挖掘,多維度業(yè)務(wù)建模能力,以智能語(yǔ)義感知技術(shù)為基礎(chǔ),給非結(jié)構(gòu)化大數(shù)據(jù)提供自動(dòng)化處理和智能理解的能力,進(jìn)行文本知識(shí)業(yè)務(wù)標(biāo)簽標(biāo)記,實(shí)施非結(jié)構(gòu)化信息轉(zhuǎn)換。
DINFO-OEC平臺(tái)可以實(shí)施與主流Hadoop、Spark等各大數(shù)據(jù)平臺(tái)對(duì)接,以分布式存儲(chǔ)和計(jì)算能力,挖掘復(fù)雜、大量的大數(shù)據(jù)分析,進(jìn)行大量數(shù)據(jù)實(shí)時(shí)分析計(jì)算,發(fā)揮以海量歷史數(shù)據(jù)為基礎(chǔ)的交互式搜索作用。DINFO-OEC平臺(tái)可以和常用商業(yè)智能系統(tǒng)結(jié)合,進(jìn)行挖掘結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的結(jié)合分析,實(shí)施挖掘大數(shù)據(jù)分析情況下的業(yè)務(wù)創(chuàng)新。
業(yè)務(wù)建模技術(shù)是進(jìn)行業(yè)務(wù)與語(yǔ)言的不同層次建模,是根據(jù)本體論中心,進(jìn)行合理規(guī)劃業(yè)務(wù)知識(shí),實(shí)施業(yè)務(wù)規(guī)則建模配置,建立形式化的業(yè)務(wù)規(guī)則。業(yè)務(wù)建模技術(shù)可以進(jìn)行分離業(yè)務(wù)和非結(jié)構(gòu)化數(shù)據(jù)語(yǔ)言表達(dá),對(duì)業(yè)務(wù)和語(yǔ)言兩層次實(shí)施區(qū)分建模。業(yè)務(wù)層次可以實(shí)施業(yè)務(wù)本體構(gòu)建,發(fā)現(xiàn)和配置業(yè)務(wù)要素;語(yǔ)言層次實(shí)施維護(hù)和構(gòu)建語(yǔ)言概念,建設(shè)同義詞庫(kù)和常用詞庫(kù)。
2.3.1 面向非結(jié)構(gòu)化數(shù)據(jù)建模能力
INDO-OEC業(yè)務(wù)建模,可以把各種業(yè)務(wù)規(guī)則與多樣的語(yǔ)言表達(dá)實(shí)施統(tǒng)一建模,要在本體、要素、概念等三個(gè)維度實(shí)施分析挖掘模型建設(shè),進(jìn)行分離語(yǔ)言表達(dá)和業(yè)務(wù)描述,讓業(yè)務(wù)人員對(duì)自己擅長(zhǎng)的業(yè)務(wù)要求和業(yè)務(wù)規(guī)則實(shí)施建模,而不對(duì)自然語(yǔ)言的表達(dá)復(fù)雜性、歧義性、多樣性等進(jìn)行表達(dá)。
2.3.2 非結(jié)構(gòu)化數(shù)據(jù)分析挖掘能力
平臺(tái)可以進(jìn)行智慧語(yǔ)義的感知,進(jìn)行強(qiáng)大自然語(yǔ)言理解的相關(guān)算法,其中有內(nèi)容分類(lèi)、主題分析、實(shí)體識(shí)別、推薦引擎、聚類(lèi)、語(yǔ)義分析、啟發(fā)式搜索引擎、摘要引擎等。平臺(tái)產(chǎn)品可以實(shí)施多種分析挖掘算法,有C計(jì)算,其中包括進(jìn)行抽取概念、挖掘概念表達(dá)形式、匹配算法的概念表達(dá)式;S計(jì)算,這里有經(jīng)常應(yīng)用的統(tǒng)計(jì)挖掘算法,其中有KNN、SVM、決策樹(shù)等各種算法;R計(jì)算,提供概念關(guān)聯(lián)發(fā)現(xiàn)算法。
2.3.3 支持多語(yǔ)言分析挖掘能力
系統(tǒng)內(nèi)置了各種語(yǔ)言分析挖掘算法。以相應(yīng)的算法流程,支持多種語(yǔ)言,具有很好的語(yǔ)種擴(kuò)展性好。增加新的語(yǔ)種,不需要進(jìn)行算法修改。有進(jìn)行多語(yǔ)種有效復(fù)能力。平臺(tái)對(duì)多語(yǔ)種業(yè)務(wù)規(guī)則可以保持一致。維護(hù)業(yè)務(wù)規(guī)則,也就是對(duì)系統(tǒng)本體樹(shù)的維護(hù),只進(jìn)行中文簡(jiǎn)體版本的維護(hù),不對(duì)其他語(yǔ)種本提樹(shù)實(shí)施維護(hù),進(jìn)而降低了維護(hù)本體樹(shù)的工作量。有跨語(yǔ)種的建模能力。平臺(tái)可以實(shí)施中文簡(jiǎn)體版應(yīng)用,進(jìn)行其他語(yǔ)種本體樹(shù)書(shū)寫(xiě)規(guī)則。進(jìn)行本體樹(shù)類(lèi)別維護(hù)和修改,不用對(duì)其他語(yǔ)種進(jìn)行掌握。
2.3.4 實(shí)施大數(shù)據(jù)技術(shù)和存儲(chǔ)平臺(tái)集成能力
平臺(tái)支持主流Hadoop、Map/Reduce批量計(jì)算、Spark實(shí)時(shí)計(jì)算、HDFS、Hbase、kafka等進(jìn)行存取。Hadoop平臺(tái)有相應(yīng)的Apache Hadoop、華 為FusionInsights、IBM BigInsights、EMC Pivotal HD??墒沁M(jìn)行架構(gòu)SOA集群,和Oracle、Mysql、DB2等各種主力數(shù)據(jù)庫(kù)的各種產(chǎn)品進(jìn)行集成。
人工智能技術(shù)在快速發(fā)展,讓機(jī)器可以進(jìn)行人的功能實(shí)施有效模擬,可以對(duì)客戶實(shí)施批量個(gè)性化、人性化服務(wù),進(jìn)而對(duì)金融行業(yè)有重要影響,人工智能是進(jìn)行銀行客戶溝通、客戶金融需求發(fā)現(xiàn)的重要影響因素。它會(huì)進(jìn)行新的金融產(chǎn)品、服務(wù)方式和渠道、授信融資、風(fēng)險(xiǎn)管理、投資決策等深入改革和創(chuàng)新。人工智能技術(shù)能夠進(jìn)行客戶,可以進(jìn)行各類(lèi)金融交易、支持授信、金融分析決策,還會(huì)應(yīng)用到風(fēng)險(xiǎn)防控、監(jiān)督上,會(huì)對(duì)金融現(xiàn)有格局進(jìn)行大幅度改革,相應(yīng)的金融服務(wù),包括銀行、理財(cái)、保險(xiǎn)、投資、借貸、投資等各方面的智能化和個(gè)性化發(fā)展。證券研報(bào)大數(shù)據(jù)云服務(wù),是對(duì)證券業(yè)、基金業(yè)發(fā)等研究人員、分析師實(shí)施的大數(shù)據(jù)云服務(wù)。相應(yīng)的系統(tǒng)具有SaaS服務(wù),能夠全網(wǎng)采集公告、研報(bào),并實(shí)施各種事件結(jié)構(gòu)化的分析,進(jìn)行研報(bào)一站式的智能搜索,并挖掘以時(shí)間軸、信息錨點(diǎn)為基礎(chǔ)的大數(shù)據(jù)分析。系統(tǒng)可以對(duì)分析師進(jìn)行幫助,使其大數(shù)據(jù)角度分析研究,有效提升工作質(zhì)量和效率。
全國(guó)三線以上城市的各級(jí)政府每年發(fā)布產(chǎn)業(yè)政策4萬(wàn)項(xiàng)以上,其中一線城市每年發(fā)布政策2000項(xiàng)以上。對(duì)于企業(yè)來(lái)說(shuō),通過(guò)智能化匹配政策無(wú)疑可以有效地解決信息不對(duì)稱(chēng)、成本效率等問(wèn)題;對(duì)于科技服務(wù)機(jī)構(gòu)來(lái)說(shuō),通過(guò)智能化匹配及信息化工具的使用,可以有效地解決向互聯(lián)網(wǎng)+專(zhuān)業(yè)服務(wù)轉(zhuǎn)型面臨的各種問(wèn)題;政府部門(mén)通過(guò)智能匹配可以實(shí)現(xiàn)精準(zhǔn)扶持、智慧決策。研發(fā)政策匹配項(xiàng)目是以云服務(wù)為基礎(chǔ)給企業(yè)、政府、組織開(kāi)發(fā)的互聯(lián)網(wǎng)平臺(tái)。這個(gè)系統(tǒng)數(shù)據(jù)采集模塊有自動(dòng)去重、可配置和過(guò)濾垃圾等功能,以智慧語(yǔ)義識(shí)別技術(shù)應(yīng)用到系統(tǒng)分析挖掘功能中,確保準(zhǔn)確實(shí)施語(yǔ)義分析,從而使得政策實(shí)施定向更準(zhǔn)。此外,系統(tǒng)能夠結(jié)合客戶需求實(shí)施政策匹配、政策定制等。
客服行業(yè)是勞動(dòng)密集行業(yè),一些大公司需要很高的成本。應(yīng)用智能機(jī)器人客服能夠?qū)χ貜?fù)性、簡(jiǎn)單性工作進(jìn)行有效解決??梢越o企業(yè)節(jié)省成本和人工費(fèi)用,有效提高運(yùn)營(yíng)效率。神州泰岳應(yīng)用的小富機(jī)器人4.0是智能客服機(jī)器人,可以進(jìn)行全媒體時(shí)代智能客服。
(1)是業(yè)務(wù)場(chǎng)景機(jī)器人。客服、營(yíng)銷(xiāo)、外呼等各種業(yè)務(wù)具有不同場(chǎng)景,具有不同業(yè)務(wù)邏輯。小富4.0機(jī)器人設(shè)置了各種場(chǎng)景模式,實(shí)施區(qū)分設(shè)計(jì)相應(yīng)知識(shí)類(lèi)型及交互方式,提供具有針對(duì)性和專(zhuān)業(yè)性的智能化服務(wù)。
(2)實(shí)施整體業(yè)務(wù)建模,有相應(yīng)的延展性。以具體場(chǎng)景業(yè)務(wù)理解為基礎(chǔ)實(shí)施整體建模,有完整業(yè)務(wù)邏輯,增強(qiáng)了機(jī)器人可復(fù)用性和思維延展性,提高應(yīng)答效率。
(3)知識(shí)類(lèi)型表達(dá)系統(tǒng)具有差異化,實(shí)施智能引導(dǎo)各種會(huì)話,不是進(jìn)行反復(fù)跳轉(zhuǎn)預(yù)設(shè)問(wèn)題。這種機(jī)器人具有知識(shí)性,有記憶能力,能夠以業(yè)務(wù)邏輯為基礎(chǔ)實(shí)施自創(chuàng)問(wèn)答邏輯,進(jìn)行進(jìn)行自然。親切的交換。
(4)知識(shí)碎片化智能加工,能夠直接得到準(zhǔn)確答案,不是得到答案范圍。智能機(jī)器人有各種知識(shí)加工方式,能夠?qū)Y(jié)構(gòu)化、非結(jié)構(gòu)化知識(shí)實(shí)施碎片化智能建立文檔??梢灾苯訉?duì)客戶提問(wèn)進(jìn)行回饋。
綜上所述,人工智能中的語(yǔ)義分析技術(shù)是現(xiàn)代的先進(jìn)的大數(shù)據(jù)技術(shù),是進(jìn)行自然語(yǔ)言處理的技術(shù),可以在各個(gè)行業(yè)中有效應(yīng)用,提供工作質(zhì)量和效果,實(shí)現(xiàn)人工智能新體驗(yàn),促進(jìn)各行業(yè)的不斷發(fā)展和進(jìn)步。