姚寒冰,王麗清,徐永躍
(云南大學(xué) 信息學(xué)院 云南省高校數(shù)字媒體技術(shù)重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650223)
供需信息跨語言檢索算法研究
姚寒冰,王麗清,徐永躍
(云南大學(xué) 信息學(xué)院 云南省高校數(shù)字媒體技術(shù)重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650223)
經(jīng)濟(jì)全球化促進(jìn)了互聯(lián)網(wǎng)電子商務(wù)的快速發(fā)展,跨境電商因其巨大的發(fā)展?jié)摿Τ蔀樾碌馁Q(mào)易增長點(diǎn)。由于貿(mào)易的基礎(chǔ)與前提是供需雙方信息的高效共享和溝通,而跨境電商因涉及不同語言之間的互譯,使得信息交流的及時(shí)性、準(zhǔn)確性不足,導(dǎo)致喪失貿(mào)易時(shí)機(jī),甚至導(dǎo)致貿(mào)易失敗。為此,提出了一種基于自然語言的跨語言協(xié)同機(jī)器翻譯的信息檢索算法。該算法可使供給方可根據(jù)所提供商品服務(wù)的特點(diǎn)進(jìn)行靈活的擴(kuò)展描述,并為需求方提供自然語言描述方法,需求方可使用不同的語言進(jìn)行輸入,完成跨語言的檢索。為驗(yàn)證協(xié)同機(jī)器翻譯的自然語言實(shí)現(xiàn)供需信息的檢索和自動(dòng)匹配能力,進(jìn)行了相關(guān)驗(yàn)證實(shí)驗(yàn)測試。實(shí)驗(yàn)測試結(jié)果表明,所提出的算法可滿足供給方對自身商品或服務(wù)進(jìn)行特有屬性擴(kuò)展描述的需求,同時(shí)具有多語種拓展?jié)摿?,有助于消除供需雙方的語言障礙。
跨語種;供需;自然語言;檢索
近年來,對于供需自動(dòng)檢索的方法和跨語言信息檢索已有很多研究。最常見的檢索方式是對供給方的商品或服務(wù),進(jìn)行樹狀目錄分級(jí),由需求方逐級(jí)進(jìn)行人工選擇。這種方式操作方便,但是存在供給方的商品或服務(wù)只能套入固定模式的樹狀目錄分級(jí)結(jié)構(gòu)、難以擴(kuò)展某些獨(dú)特商品或服務(wù)的特色,以及需求方不一定對于該樹狀目錄分級(jí)結(jié)構(gòu)很清楚等弊端。另外,還有基于多目標(biāo)離散差分進(jìn)化算法的交易檢索方法[1]、基于B2B電子交易環(huán)境的供需匹配概念框架[2]、基于圖論的商品自動(dòng)匹配系統(tǒng)[3]、基于商品本體結(jié)構(gòu)語義相似度匹配算法[4]、基于電子中介下商品交易為背景的方法[5]等。但是以上方法,都沒有解決跨語種供需信息自動(dòng)匹配檢索的問題,導(dǎo)致不同語種環(huán)境下的應(yīng)用存在局限。
自然語言檢索方面的研究包括面向自然語言檢索的標(biāo)引技術(shù)、自然語言提問分析與處理、自然語言檢索的匹配過程及概念控制[6]、基于有限狀態(tài)方法模型的自然語言處理[7]、基于語義的自然語言檢索方法[8]等;多語種信息組織與檢索方面的研究包括多語言本體構(gòu)建與協(xié)調(diào)、基于關(guān)聯(lián)數(shù)據(jù)的多語言語義網(wǎng)建設(shè)、跨語種語言資源和知識(shí)組織系統(tǒng)互操作、多語言文本分類與聚類、交互式多語言信息檢索[9]、基于聚類的個(gè)性化跨語言信息檢索方法[10]、基于知識(shí)源、雙語詞典和機(jī)器翻譯的跨語言檢索[11]、在語境單元框架上的匹配和生成機(jī)制實(shí)現(xiàn)跨語言檢索[12]、基于可對比語料庫訓(xùn)練的跨語言信息檢索模型[13]等,還有基于語義網(wǎng)的多語種自然語言查詢方法[14]等。
為此,提出了一種基于語義分析的信息檢索算法,即由需求方輸入一段自然語言描述需求信息,并與供給信息進(jìn)行比對。該算法在對需求方的自然語言提問進(jìn)行語義分析處理、對多語種結(jié)構(gòu)組織的信息庫進(jìn)行匹配檢索、對中間庫和同義詞庫進(jìn)行共同檢索的基礎(chǔ)上,按照權(quán)重算法進(jìn)行共有特征(包括顏色、重量、價(jià)格等商品特有屬性)的檢索比對,借助人工/機(jī)器翻譯機(jī)制,建立多語種的供求商品或服務(wù)信息庫,該庫作為跨語言檢索的中間庫,同時(shí)構(gòu)建同義詞庫提供比對。
1.1 供求商品或服務(wù)信息庫設(shè)計(jì)
供求商品或服務(wù)信息庫用于提供供方商品或服務(wù)的有關(guān)信息,由以下幾部分組成:
(1)供給信息描述。
每一大類商品或服務(wù),設(shè)置相對固定的一系列屬性,即固定屬性。對于每一單獨(dú)的商品或服務(wù),另可各自擴(kuò)展一系列不確定總數(shù)的屬性,稱為自定義屬性,由多個(gè)可準(zhǔn)確描述商品或服務(wù)的獨(dú)具特點(diǎn)的詞匯構(gòu)成。屬性分為文本類型和數(shù)值類型,數(shù)值類型的屬性,還需提供單位名稱,并可有上下限。文本類型的屬性值、單位名稱,由人工/機(jī)器翻譯機(jī)制取得多語言結(jié)果并完成存儲(chǔ)。
(2)自定義屬性。
自定義屬性,如果由每一單獨(dú)商品或服務(wù)各自分散存儲(chǔ),結(jié)果將極大地增加數(shù)據(jù)庫冗余,進(jìn)而降低檢索算法的效率,惡化用戶體驗(yàn)。因此,在實(shí)現(xiàn)中進(jìn)行集中存儲(chǔ),即多個(gè)相同的自定義屬性值,只存儲(chǔ)一條。
自定義屬性與商品或服務(wù)之間構(gòu)成多對多的關(guān)聯(lián)關(guān)系。1種商品或服務(wù)可具有1條或多條自定義屬性,1條自定義屬性值可歸屬于1種或多種不同商品或服務(wù)。
(3)權(quán)重。
對于固定屬性和自定義屬性,都具有不同的權(quán)重值。對于固定屬性,預(yù)先設(shè)置相對固定的權(quán)重值。對于自定義屬性,預(yù)設(shè)權(quán)重值隨系統(tǒng)平臺(tái)提供的商品服務(wù)的不斷變化而動(dòng)態(tài)變化,表示該自定義屬性的稀有程度,越稀有的自定義屬性,權(quán)重值越高。
權(quán)重值的生成是指該商品服務(wù)類別中的自定義屬性總數(shù)與該自定義屬性所屬商品或服務(wù)數(shù)量之間的比值。
(4)同義詞表。
同義詞表用于完成含義相似、相近詞的檢索,獲取一致的結(jié)果。
在一個(gè)語種中,一組含義相同或相近的詞匯可構(gòu)成一組同義詞?;诟髡Z種的同義詞典,以及相關(guān)商品或服務(wù)領(lǐng)域的專業(yè)知識(shí),構(gòu)建同義詞表。
1.2 庫生成和更新
供求商品或服務(wù)信息庫的生成和更新,由不同角色協(xié)同完成,如圖1所示。
如圖1所示,新入庫的商品或服務(wù),由供給方人工錄入其固定屬性和自定義屬性;系統(tǒng)后臺(tái)自動(dòng)根據(jù)當(dāng)前語種檢索同義詞典,歸并同義屬性,并計(jì)算權(quán)重值;系統(tǒng)后臺(tái)自動(dòng)由機(jī)器翻譯得到其他語種對應(yīng)屬性值;系統(tǒng)后臺(tái)自動(dòng)對所有已錄入的自定義屬性定期掃描以重新設(shè)置權(quán)重值;系統(tǒng)管理維護(hù)人員不定期人工檢查機(jī)器翻譯得到的屬性值,并進(jìn)行人工翻譯校正。
供求商品或服務(wù)信息庫的構(gòu)建,以中文為主。信息庫構(gòu)建完成后,便可根據(jù)一種語種的檢索匹配,迅速找到所有已有語種的對應(yīng)信息庫內(nèi)容,為供給方-需求方語言不通情況下的供需匹配提供一定的便利。通過數(shù)據(jù)庫表擴(kuò)展字段,即可支持新語種的加入。實(shí)現(xiàn)了跨語種和可擴(kuò)展的特性。并通過關(guān)鍵詞和同義詞的關(guān)聯(lián)關(guān)系,提高檢索匹配信息庫內(nèi)容的準(zhǔn)確性和兼容性。
1.3 跨語言信息檢索算法
當(dāng)需求方提出需求信息時(shí),由跨語言信息檢索算法對供求商品或服務(wù)信息庫進(jìn)行檢索,實(shí)現(xiàn)供需匹配。算法實(shí)現(xiàn)的主要思路是:需求方輸入的需求信息,與供求信息庫中的商品或服務(wù)的屬性值進(jìn)行比對,命中的屬性權(quán)重值總和,超過一定閾值時(shí),即為匹配成功。按權(quán)重總和由高到低進(jìn)行排列,表示匹配程度的吻合度。
在計(jì)算過程中,根據(jù)屬性不同的值類型,有不同的命中定義。
(1)對于文本類型的屬性,當(dāng)需求信息包含該屬性值,或者此屬性值的同義詞時(shí),即為命中。
(2)對于數(shù)值類型的屬性,根據(jù)不同語言的不同表達(dá)方式構(gòu)建不同的正則表達(dá)式,形成正則表達(dá)式庫,并附加該屬性的單位,對需求信息進(jìn)行語義分析,取得數(shù)值范圍。例如:“300到500元”、“400元左右”,正則表達(dá)式分別為^-?[1-9]d*到-?[1-9]d*元$、^-?[1-9]d元左右$。
(3)對于數(shù)值類型的屬性,對需求信息中不同形式的單位描述,設(shè)置單位換算規(guī)則,如需求信息描述與供應(yīng)信息所使用的單位不符時(shí),可進(jìn)行換算。
(4)當(dāng)取得具有上下限的數(shù)值范圍時(shí),屬性值處于該范圍之內(nèi),即為命中。
(5)當(dāng)只取得一個(gè)數(shù)值時(shí),浮動(dòng)上下30%并取整,作為上下限。
這樣,需求信息與供給信息匹配程度的吻合度,與命中屬性總數(shù)、命中屬性的稀有性成正比,并能適應(yīng)自然語言中的不同表達(dá)。
具體示例:如權(quán)重值總和的閾值為1 000,供給商品或服務(wù)信息庫中有某種蘋果具有以下固定屬性:產(chǎn)地:市(權(quán)重值600);品種:紅富士(權(quán)重值350);果徑:80~85 mm(權(quán)重值200);是否有機(jī)食品:否(權(quán)重值50);規(guī)格:4 000 g(權(quán)重值50);數(shù)量:15個(gè)(權(quán)重值50);價(jià)格:65元(權(quán)重值400)。具有以下自定義屬性:套袋防蟲(權(quán)重值700)。
當(dāng)有需求方提交需求信息:“A市產(chǎn)的有套袋防蟲的紅富士蘋果,每公斤15元左右?!盇市、紅富士、套袋防蟲3個(gè)屬性由于被文本包含而命中,并由語義分析獲得價(jià)格需求:15元、單位:公斤,供求信息中的規(guī)格為4 000 g,根據(jù)單位換位規(guī)則得到需求方的價(jià)格需求為60元,在商品價(jià)格屬性浮動(dòng)范圍內(nèi),也命中。因此,共命中產(chǎn)地、品種、價(jià)格、套袋防蟲4個(gè)屬性,權(quán)重值總和為2 050,超過閾值,供給信息和需求信息檢索命中,獲得了匹配。
當(dāng)有需求方提交英文信息:“Red fuji apple in A-City,15 Yuan per kg?!币部赏ㄟ^英文關(guān)鍵詞Red apple、A-City、Yuan、kg命中有關(guān)屬性,從而獲得檢索匹配,這樣就可實(shí)現(xiàn)跨語種檢索,在一定程度上克服供給方、需求方之間的語言障礙。
算法實(shí)現(xiàn)的實(shí)際效果,主要依賴于供求商品或服務(wù)信息庫的建設(shè)質(zhì)量,由以下因素構(gòu)成:商品或服務(wù)信息的總量、商品或服務(wù)的屬性描述的準(zhǔn)確性、同義詞庫的準(zhǔn)確性、商品或服務(wù)信息的翻譯質(zhì)量。其中,總量、翻譯質(zhì)量可以用量化指標(biāo)表示,翻譯質(zhì)量以機(jī)器翻譯所占的比例代表,比例越高,翻譯質(zhì)量越低。
在應(yīng)用系統(tǒng)中,基于以上指標(biāo),對算法效果進(jìn)行了測試。測試樣例,分別基于中、英、泰三個(gè)語種,使用100條自然語言描述的需求信息對供給信息庫進(jìn)行匹配檢索。
測試前,分別抽取20條需求信息樣本,人工在供給信息庫中逐條分析是否含可匹配的供給信息,得到期待匹配比例,用于與應(yīng)用系統(tǒng)實(shí)際得到的匹配結(jié)果的比例進(jìn)行對比。另外,測試表明檢索平均耗時(shí)不大于10 ms,可以滿足用戶體驗(yàn)要求。
檢索得到的匹配結(jié)果對比如表1所示。
表1 應(yīng)用系統(tǒng)匹配效果測試結(jié)果 %
由測試結(jié)果可以得出,信息庫的建設(shè)質(zhì)量對檢索效率有較大影響,通過信息庫的不斷完善,可以滿足并改善用戶體驗(yàn)。具體方法有增加商品或服務(wù)信息的總量,加快人工翻譯的進(jìn)度,增強(qiáng)人工翻譯的質(zhì)量,增加同義詞庫的容量和準(zhǔn)確性,通過系統(tǒng)界面信息或系統(tǒng)后臺(tái)人員與供給方的互動(dòng)溝通等方式引導(dǎo)供給方增強(qiáng)商品或服務(wù)信息的準(zhǔn)確性。
為解決自然語言實(shí)現(xiàn)供需信息的檢索和自動(dòng)匹配,滿足供給方對自身商品或服務(wù)的特有屬性擴(kuò)展進(jìn)行描述的需求,提出了一種基于可擴(kuò)展多語種供求商品或服務(wù)信息庫和協(xié)同機(jī)器翻譯自然語言的供需信息跨語言信息檢索算法。測試結(jié)果表明,該算法一定程度上滿足了供需信息檢索與自動(dòng)匹配的需求,彌補(bǔ)了傳統(tǒng)供需檢索匹配方式在自然語言和特性描述支持上的不足,可方便地進(jìn)行多語種的擴(kuò)展,使得供需雙方的語言障礙在一定程度上得以克服,并獲得了較好的用戶體驗(yàn)效果。
[1] 蔣忠中,樊治平,汪定偉,等.具模糊信息的多數(shù)量多屬性電子交易匹配問題[J].管理科學(xué)學(xué)報(bào),2014,17(5):52-65.
[2] Alpar F Z.Matchmaking framework for B2B e-marketplaces[J].Informatica Economica Journal,2010,14(4):164-170.
[3] 陳 向,劉 義,柴躍廷.基于圖論的電子易貨商品自動(dòng)匹配系統(tǒng)[J].計(jì)算機(jī)工程,2009,35(17):283-284.
[4] 陳冬林,聶規(guī)劃,劉平峰.基于本體的B2B電子商務(wù)MAS模型及商品匹配算法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(10):199-201.
[5] 梁海明,姜艷萍.一種考慮中介交易態(tài)度的買賣雙邊匹配決策方法[J].運(yùn)籌與管理,2013,22(5):128-133.
[6] 耿 騫,賴茂生.自然語言檢索的實(shí)現(xiàn)及其關(guān)鍵問題[J].情報(bào)科學(xué),2007,25(5):733-741.
[7] Anssi Y J, Andras K, Jacques S.Finite-state methods and models in natural language processing[J].Natural Language Engineering,2011,17(2):141-144.
[8] 謝文亮,王石榴.基于語義Web的科技期刊網(wǎng)絡(luò)信息檢索及其應(yīng)用[J].科技管理研究,2015,35(2):196-200.
[9] 司 莉,莊曉喆,賈 歡.近10年來國外多語言信息組織與檢索研究進(jìn)展與啟示[J].中國圖書館學(xué)報(bào),2015,41(4):112-126.
[10] 龐觀松,張黎莎,蔣盛益.個(gè)性化跨語言學(xué)術(shù)搜索技術(shù)研究[J].情報(bào)學(xué)報(bào),2011,30(8):870-874.
[11] 張玥杰,郭依昆,連 理,等.基于英漢機(jī)譯實(shí)現(xiàn)跨語言信息檢索[J].小型微型計(jì)算機(jī)系統(tǒng),2004,25(7):1135-1140.
[12] 吳 晨,繆建明,張 全.跨語種信息檢索中的文本比較及結(jié)果生成算法[J].計(jì)算機(jī)工程與應(yīng)用,2005,41(29):11-15.
[13] Vulic I,Smet W,Moens M F.Cross-language information retrieval models based on latent topic models trained with document-aligned comparable corpora[J].Information Retrieval,2013,16(3):331-368.
[14] Al-Nazer A,Albukhitan S,Helmy T.Cross-domain semantic web model for understanding multilingual natural language queries:english/arabic health/food domain use case[J].Procedia Computer Science,2016,83:607-614.
Research on Automatic Retrieving Algorithm of Cross-language Supply and Demand Information
YAO Han-bing,WANG Li-qing,XU Yong-yue
(Key Lab of Digital Media Technology of Universities in Yunnan Province,School of Information Science and Engineering of Yunnan University,Kunming 650223,China)
Economic globalization has promoted the rapid development of Internet e-commerce.And the cross-border e-commerce suppliers have become a new growth point of trade due to its huge potential of development.Since basis and prerequisite of trade are efficient sharing and communication of information between supplier and demander,cross-border e-commerce involves translation between different languages,which results in lack of the real-time and accuracy in information exchanges as well as miss of trade opportunities or even failure in trade.To solve this problem a cross-language information retrieval algorithm based on natural language and collaborated with machine translation is proposed,which enable supplier to describe the characteristics of the goods or services flexibly and provide demander for different natural language to describe its own demand for completion of retrieval of cross-language.In order to verify ability of retrieval and automatic matching of supplier and demander information collaborated with machine translation,the verification experiment has been conducted and its results show that the proposed algorithm has met demands of the supplier to depict unique attributes of their goods or services and has owned potentials for multilingual development,which can help to eliminate the language barrier between the supplier and demander.
cross-language;supply and demand;natural language;retrieval
2016-08-18
2016-11-23 網(wǎng)絡(luò)出版時(shí)間:2017-07-05
云南省科技創(chuàng)新強(qiáng)省資助項(xiàng)目(2014AB021)
姚寒冰(1978-),男,工程師,碩士,研究方向?yàn)樾畔⑾到y(tǒng);王麗清,通信作者,副研究員,碩士生導(dǎo)師,研究方向?yàn)樾畔⑾到y(tǒng)與檢索、電子商務(wù)等。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170705.1650.038.html
TP391
A
1673-629X(2017)08-0152-04
10.3969/j.issn.1673-629X.2017.08.032