[摘 要] 作為智能代理,電子商務(wù)銷售問答系統(tǒng)可以在B2C和C2C類型的電子商務(wù)中,替代網(wǎng)絡(luò)銷售人員的工作。構(gòu)建一個高性能的在線銷售問答系統(tǒng),需要綜合運用自然語言處理、問答技術(shù)、人工智能、市場營銷和客戶關(guān)系管理等多門學(xué)科的知識。這種系統(tǒng)是一種復(fù)雜的問答系統(tǒng),可以使用多種格式的數(shù)據(jù)源:常問問答集合、半結(jié)構(gòu)化的銷售政策文本以及結(jié)構(gòu)化的客戶關(guān)系數(shù)據(jù)。系統(tǒng)使用句子相似度計算、自然文本提取、數(shù)據(jù)庫檢索技術(shù)從這些不同格式的文本中提取答案,并通過人工智能進(jìn)行推理和篩選。從而使得系統(tǒng)不僅能對常問問題進(jìn)行解答,而且可以使用客戶關(guān)系數(shù)據(jù),進(jìn)行有針對性的回答,從而達(dá)到促進(jìn)銷售的目的。
[關(guān)鍵詞] 問答系統(tǒng) 在線銷售 客戶關(guān)系管理 智能代理
一、引言
電子商務(wù)銷售問答系統(tǒng)可以運用在B2C和C2C類型的電子商務(wù)中,部分替代網(wǎng)絡(luò)銷售人員的工作,從而降低交易費用,具有較高的現(xiàn)實價值,是自然語言處理系統(tǒng)的一個有效運用方向。考慮到目前自然語言理解和問答技術(shù)的進(jìn)展,綜合使用TREC QA Track中的factoid 和list類型,構(gòu)建一個銷售問答系統(tǒng)具有理論上的可行性。然而,要符合人類進(jìn)行更深層次的營銷的特點,高水平的銷售系統(tǒng)有區(qū)別于一般的問答系統(tǒng),它還包括更多。例如,識別顧客、針對性推薦和促銷。這就要求系統(tǒng)能夠識別場景,擁有期望,形成策略。
二、系統(tǒng)總體設(shè)計
1.電子商務(wù)問答系統(tǒng)的特點
TREC 的QA測試促進(jìn)了相關(guān)技術(shù)的不斷發(fā)展。從1999年的TEC-8開始,該測試無論在問題類型還難度上都不斷的增加。其類型包括了factoid、list question和ciQA,知識來源也從新聞材料擴(kuò)展到博客這種非正式信息。2007年的TREC QA測試中,來自世界各地的高校、科研機(jī)構(gòu)和企業(yè)共21支隊伍參與了主任務(wù)競賽,國內(nèi)的復(fù)旦大學(xué)、清華大學(xué)都進(jìn)入了前10位。
歷屆QA測試都有很多研究隊伍參與,各自的技術(shù)路線存在差異,測試成績不一。早期的TREC QA測試中,芝加哥大學(xué)的FAQ Finder使用這統(tǒng)計學(xué)和語義學(xué)的方法計算句子相似度。系統(tǒng)接受自然語言提問,然后去尋找數(shù)據(jù)庫中的常問問答對。如果找到與提問相似的問答對,就提取對應(yīng)的答案,然后返回給用戶。在測試文本集使用新聞材料后,Language Computer Corportaion的LCC系統(tǒng)一直都穩(wěn)定的居于前列, Marius A. Pasca總結(jié)了這種高性能問答系統(tǒng)的特點:(1)預(yù)期答案類型的識別;(2)關(guān)鍵詞的詞匯變換;(3)語義學(xué)運用。隨后的幾年里,在TIPSTER系統(tǒng)推動下,高性能的命名實體識別器、句法分析器相繼得到運用。Diego Mollá報告了AnswerFinder,該系統(tǒng)基于命名實體識別技術(shù),運用詞法、句法和語義信息來提取答案。
在QA測試中取得的技術(shù)進(jìn)步被迅速用于各種應(yīng)用系統(tǒng)中。Hoojung Chung等人報告了一種能夠回答天氣信息的問答系統(tǒng),綜合運用了命名實體識別、用戶簡檔、推理規(guī)則、問題分類等技術(shù)。
2.系統(tǒng)的知識庫
根據(jù)銷售流程分析,銷售系統(tǒng)的知識來自于幾種數(shù)據(jù):客戶關(guān)系管理數(shù)據(jù)、企業(yè)銷售政策、常問問答對和背景知識。它們分別屬于三種形式:問答對、自然文本和結(jié)構(gòu)化信息。基本的流程如圖。
如果是背景知識類的問題,直接分別從常問問答對和背景知識文本中提取答案,然后進(jìn)行一致性對比,最終生成輸出;對于非背景內(nèi)容提問,先從常問問答對中,使用基于統(tǒng)計學(xué)和語義學(xué)的方法計算句子相似度來提取答案;然后從企業(yè)銷售政策文本中,使用檢索和命名實體的方法提取答案;再使用判定規(guī)則進(jìn)行一致性比較,篩選出排列前面的答案;最后查詢客戶數(shù)據(jù),通過人工智能推理,做最后篩選。
3.總體結(jié)構(gòu)(圖見下頁)
三、系統(tǒng)組成部分
1.問題分析
對于輸入的自然語言問題,進(jìn)行兩種基本類型的處理:常問問答對和文本提取。類型一:對于常問問答對,從輸入句子中去掉停用詞,將句子轉(zhuǎn)換為一個詞語向量集合;類型二:文本提取:根據(jù)命名實體識別器、時間規(guī)范、推理規(guī)則和用戶簡檔,形成檢索關(guān)鍵詞,并進(jìn)行問題分類。
2.答案提取
類型一:我們使用兩種方法綜合計算問題相似度:統(tǒng)計學(xué)方法和語義學(xué)方法。對于統(tǒng)計學(xué)方法,使用tfidf。盡管統(tǒng)計學(xué)方法對于計算相似度很有用,但是由于自然語言的靈活性,它仍然是不夠的。因此,當(dāng)使用tfidf不能得到足夠的分值時,我們使用反饋方式,放松查詢條件,從而讓系統(tǒng)使用Hownet進(jìn)行語義擴(kuò)展。擴(kuò)展后形成新的詞語向量集合,按條件重復(fù)這個過程。
類型二:使用IR搜索引擎,從答案文本集合中獲取排名前50的句子作為候選答案;對候選答案,綜合使用詞法、語法和邏輯對問句和答案之間的疊和程度進(jìn)行評分;在提取答案時,根據(jù)語法疊和度和詞語疊和度,按照提取規(guī)則對最終答案進(jìn)行計分,提取得分最高的答案。
3.答案綜合
對于同一問題,通過對不同數(shù)據(jù)源提取答案,可能會獲得不一致的結(jié)果。因此,需要對結(jié)果進(jìn)行一致性比較和判別。例如,對于銷售價格,如果節(jié)假日開展了促銷活動,使用了新的折扣,常問問題集里面的答案就不正確了。
同一問題,對于不同客戶,也可能有不同的答案。例如針對普通客戶和VIP客戶的不同折扣,因此需要使用客戶關(guān)系數(shù)據(jù)模塊,獲得客戶數(shù)據(jù)信息。
最后建立基于謂詞的若干判定規(guī)則,進(jìn)行推理和比較,獲得最終的答案。
四、結(jié)論
構(gòu)建一個高性能的電子商務(wù)在線銷售問答代理系統(tǒng),需要綜合運用自然語言處理、問答技術(shù)、人工智能、市場營銷和客戶關(guān)系管理等多門學(xué)科的知識。這種系統(tǒng)是一種更復(fù)雜的問答系統(tǒng),可以使用多種格式的數(shù)據(jù)源:常問問答集合、半結(jié)構(gòu)化的銷售政策文本以及結(jié)構(gòu)化的客戶關(guān)系數(shù)據(jù)。系統(tǒng)使用不同的技術(shù)從這些不同格式的文本中提取答案。系統(tǒng)不僅能對常問問題進(jìn)行解答,而且可以使用客戶關(guān)系數(shù)據(jù),識別客戶背景,根據(jù)客戶特點進(jìn)行有針對性的回答,從而達(dá)到促進(jìn)銷售的目的。用基于自然語言和人工智能的技術(shù)模擬人類進(jìn)行銷售,是一個復(fù)雜的智能過程,我們的研究僅僅是起步。更類似于人類的系統(tǒng),它能夠具有態(tài)度和期望、能夠根據(jù)外部信息設(shè)計行動策略,高效促銷和滿足客戶。構(gòu)建這樣的系統(tǒng),需要更多的努力和研究。
參考文獻(xiàn):
[1]王 波 薛媛媚:網(wǎng)上銷售常問問答系統(tǒng)的構(gòu)建[J].軟件導(dǎo)刊
[2]Hoa Trang Dang, Diane Kelly, and Jimmy Lin . Overview of the TREC 2007 Question Answering Track[C].In Proceeding of the Sixteenth Text Retrieval Conference(TREC 2007), Gaithersburg, Maryland, USA: NIST, 2008
[3]Bruce, B. C. Generation as a social action. Proc[C].Theoretical Issue in Natural Language Processing(ACL), 64~67. Reprinted in RNLP, 1975
[4]Robin D. Burke, Kristian J. Hamond, Vladimir A, Kulyukin. Question Answering for Frequently-asked Question Files: Experience with the FAQ Finder Systme[J]. AI Magazine ,1996
[5]Marius A. Pasca , Sanda M. Harabagiu. High Performance Question/Answering[C]. Annual ACM Conference on Research and Development in Information Retrieval, New Orleans, Louisiana, United States, 2001
[6]Diego Mollá , Mary Gardiner. Answerfinder - question answering by combining lexical, syntactic and semantic information[C].In Australasian Language Technology Workshop (ALTW), 2004
[7]Haiqing HU, Peilin JIANG, Fuji REN and Shingo KUROIWA. A New Question Answering System for Chinese Restricted Domain[J].IEICE Transactions on Information and Systems, 2006 E89-D(6):1848~1859
[8]Dan Moldovan, Sanda Harabagiu, LASSO: A Tool for Surfing the Answer Net[R].Department of Computer Science and Engineering; Southern Methodist University,2000
[9]Salton, G., McGillm, M. Introduction to modern information retrieval[M].New Yourk: McGraw-Hill, 1983
[10]Jennifer Chu-Carroll, Krzysztof Czuba, Pablo Duboue, John Prager. IBM’s PIQUANY Ⅱ in TREC 2005[C].Proceedings of TREC2005. Gaithersburg, Maryland, USA: NIST, 2006
[11]陳明亮:客戶生命周期模式研究[J].浙江大學(xué)學(xué)報(人文社會科學(xué)版),2002,11:66~60
[12]James Allen:自然語言理解(第二版)[M].北京:電子工業(yè)出版社,2005
[13]蔡自興:人工智能及其應(yīng)用(第三版)[M].北京:清華大學(xué)出版社,2004