在垂直搜索領(lǐng)域,微軟始終保持著奔跑的姿態(tài):借助英庫(kù)(Engkoo),傳統(tǒng)的在線詞典模式被突破。
“毫不夸張地說,我對(duì)英庫(kù)渴望已久?!蔽④泚喼扪芯吭鹤匀挥?jì)算組副研究員劉曉華在采訪快結(jié)束時(shí)才對(duì)記者說了一句很“私人”的感受?!拔沂且粋€(gè)中國(guó)人,在微軟亞洲研究院,我的日常語(yǔ)言變成了英語(yǔ),日??陬^交流還好說,但是發(fā)郵件、演示PPT、寫研究論文就需要精益求精。這樣特定的角色就要求我像美國(guó)人一樣寫出純正、地道的英文來?!?/p>
坐在劉曉華身邊的Matthew Scott掛著夏威夷陽(yáng)光般親切的笑容,這個(gè)來自紐約的小伙子是微軟亞洲研究院技術(shù)轉(zhuǎn)化組軟件開發(fā)工程師,同時(shí),也是英庫(kù)項(xiàng)目的負(fù)責(zé)人,Matthew Scott現(xiàn)在還聽不懂劉曉華和記者之間的中文對(duì)話。對(duì)于一個(gè)不懂漢語(yǔ)的外國(guó)人,卻在負(fù)責(zé)一個(gè)用來幫助中國(guó)人寫英文的垂直搜索引擎的疑惑,記者很快釋然了。因?yàn)閺腗atthew Scott的微笑中感受到的是他與這個(gè)全球性的跨國(guó)企業(yè)相似的表情:充滿“親和力”的本地化創(chuàng)新。
微軟作為一名后來新兵在紛繁的在線詞典市場(chǎng),從幫助國(guó)人寫好英文文章的角度,選擇了與谷歌、網(wǎng)易有道詞典、愛詞霸完全不同的開始。
希格瑪?shù)牡氐烙⑶?/p>
英庫(kù)在線英語(yǔ)工具(www.engkoo.com)本質(zhì)上是一個(gè)幫助中國(guó)人學(xué)習(xí)英語(yǔ)的垂直搜索引擎。與微軟亞洲研究院的有些研究成果相似,英庫(kù)的誕生是微軟亞洲研究院研究員們的無數(shù)次冒險(xiǎn)和嘗試之一?!伴_始的想法也并不在于商業(yè)上的應(yīng)用,而是流傳在研究院內(nèi)部的一個(gè)有用的小工具。”Matthew Scott對(duì)記者說。
英庫(kù)凝結(jié)了包括創(chuàng)新工程組、語(yǔ)音組、用戶界面組、機(jī)器學(xué)習(xí)組等不同領(lǐng)域的研究團(tuán)隊(duì)的集體的智慧,而微軟亞洲研究院的研究員們就成了英庫(kù)第一批使用者。
英庫(kù)融合了包括微軟Office詞典、電子百科全書等十余部經(jīng)過授權(quán)的專業(yè)詞典,通過對(duì)整個(gè)互聯(lián)網(wǎng)的網(wǎng)頁(yè)進(jìn)行分析,抽取、整理獲得數(shù)量巨大不斷更新的雙語(yǔ)例句和短語(yǔ),再利用自然語(yǔ)言計(jì)算、統(tǒng)計(jì)機(jī)器學(xué)習(xí)等技術(shù)對(duì)雙語(yǔ)例句做了自動(dòng)分類、質(zhì)量分析、相關(guān)度排序、語(yǔ)法分析等處理,在此基礎(chǔ)之上構(gòu)建了基于語(yǔ)言學(xué)特征的高維索引,從而提供了超越關(guān)鍵詞的新的檢索體驗(yàn)。
經(jīng)過了無數(shù)次的改進(jìn),英庫(kù)經(jīng)受住了希格瑪大廈里這群“最聰明”人的挑剔和“找茬”。在去年11月微軟亞洲研究院“創(chuàng)新日”活動(dòng)上,英庫(kù)和其它展出的四十多項(xiàng)創(chuàng)新成果首次亮相就吸引了眾人目光。
“也許別的在線詞典的搜索功能已經(jīng)很完善,但是英庫(kù)著實(shí)為用戶著想,不僅詞庫(kù)完整,更注重用戶的體驗(yàn)以及操作的便捷。我相信英庫(kù)一定會(huì)在將來成為最受歡迎的在線詞典之一?!北本├砉ご髮W(xué)微軟技術(shù)俱樂部王維堃在看過技術(shù)演示后說。
世搜新語(yǔ)
界面友好度和細(xì)節(jié)上的斟酌往往決定了軟件的生命力,相較于大多數(shù)停留在翻譯功能的在線詞典來說,英庫(kù)的確是個(gè)突破。
“在寫作過程中,常需要找一個(gè)詞來搭配另外一個(gè)詞來潤(rùn)色句子表達(dá),英庫(kù)的詞性百搭就提供了這樣的功能,輸入句子主干,對(duì)于無法確定的單詞,可以使用該詞的詞性縮寫代替,英庫(kù)就能自動(dòng)搜索出符合要求的例句,這對(duì)于我寫技術(shù)性的英文報(bào)告幫助太大了?!眲匀A這樣向記者介紹。
在英庫(kù)詞典搜索框中輸入一個(gè)單詞,所有相關(guān)的信息都匯集于一個(gè)頁(yè)面。在頁(yè)面上端,列出了常用解釋,同時(shí)包括音標(biāo)、詞性、中英文翻譯、詞形變化等。這種基于千萬數(shù)量級(jí)權(quán)威詞典和網(wǎng)上最新詞匯而搜索到的詞匯釋義被Matthew Scott形容為“與時(shí)俱進(jìn)”。
緊接著詞匯釋義的是關(guān)于所搜索詞的例句搜索結(jié)果,包括英文例句、中文例句和例句的來源。這些例句是從海量的互聯(lián)網(wǎng)數(shù)據(jù)中選擇出來的,通過復(fù)雜的機(jī)器語(yǔ)言分析和算法,把有拼寫錯(cuò)誤、語(yǔ)法錯(cuò)誤、句子特別長(zhǎng)、或者包含怪符號(hào)、中文翻譯質(zhì)量差的排除掉,之后再對(duì)篩選后的數(shù)據(jù)進(jìn)一步算分?jǐn)?shù)?!艾F(xiàn)在可以呈現(xiàn)出10條例句,就會(huì)有一個(gè)質(zhì)量由高到低的排序,以后會(huì)呈現(xiàn)更多的例句,通過機(jī)器計(jì)算來讓用戶自己選擇?!盡atthew Scott向記者介紹到。
值得一提的是英庫(kù)的例句檢索功能。通過對(duì)例句進(jìn)行進(jìn)一步的加工,無論是口語(yǔ)的、書面語(yǔ)的,還是技術(shù)性詞匯,用戶根據(jù)這些檢索條件,選擇對(duì)應(yīng)難度的例句。因此無論是小學(xué)生寫作文、還是專業(yè)研究者寫論文或者是員工給老板呈報(bào)告,都可以找到適合自己文章難度的例句。以“mouse”這個(gè)單詞為例,它既有老鼠的意思,同時(shí)也是鼠標(biāo)的意思。
對(duì)于相似的詞條,可以把兩個(gè)近義詞拖放到一起,在同一個(gè)頁(yè)面中進(jìn)行比較,不僅可以比較詞的原型,還可以比較詞的變形和不同的詞性。而點(diǎn)擊頁(yè)面中出現(xiàn)的單詞,可以局部刷新,并且能用機(jī)器合成的朗讀音來地道的朗讀例句。
起跑之后
“現(xiàn)在的英庫(kù)只是一個(gè)起點(diǎn)。我們希望它作為一個(gè)渠道,未來能不斷把研究院更新的研究成果放在上面,而不僅僅只有垂直搜索的功能?!盡atthewScott對(duì)記者說道。
從幫助中國(guó)人寫地道的英文文章出發(fā),微軟的定位很明確:做在線詞典的第二個(gè)層次。因?yàn)樵诰€的翻譯結(jié)果往往難以達(dá)到文章寫作的要求,這個(gè)時(shí)候就可以通過英庫(kù)驗(yàn)證從而得到地道的英文表達(dá)。
說起英庫(kù)的未來,Matthew Scott雙眼放出激動(dòng)的光芒:“接下來,英庫(kù)上馬上就會(huì)添加一些更有用的功能,比如把英文句子劃出,通過機(jī)器的翻譯立刻用中文表達(dá)出來;包括英文句子和英文段落的機(jī)器翻譯和表達(dá)方式,這些都是我們正在研究的課題?!?/p>
語(yǔ)言是人們溝通的手段,技術(shù)縮短了交流的距離,微軟在這兩個(gè)對(duì)人類發(fā)展最重要領(lǐng)域之間架起了一座橋梁。
微軟在基礎(chǔ)研究階段就定下了產(chǎn)品的基調(diào):面向中國(guó)文化和中國(guó)用戶的需求。從人立方、對(duì)聯(lián)搜索到如今的英庫(kù)在線英語(yǔ)工具,微軟亞洲研究院在垂直搜索領(lǐng)域保持著奔跑的姿態(tài)。