苑輝
在互聯(lián)網(wǎng)、移動互聯(lián)盛行的當(dāng)下,充斥了海量的數(shù)據(jù)信息,在這樣一個數(shù)據(jù)爆炸、信息過載的時代,要如何在浩如煙海的數(shù)據(jù)中尋覓真正有價值的、滿足需求匹配的信息,已成為各大搜索引擎技術(shù)公司亟須解決的問題。
搜索引擎技術(shù)經(jīng)過了數(shù)十年的迭代更新已日趨成熟,作為一個以搜索引擎為核心業(yè)務(wù)的公司,可以是像Google、百度這樣的世界級頭部公司,同時也在不斷涌現(xiàn)出各類創(chuàng)新型企業(yè)。
雖然在搜索引擎的世界里,也基本遵循贏者通吃的規(guī)律,但是在精確細分的垂直領(lǐng)域,仍有一些專用搜索引擎在為客戶提供更專業(yè)、更精準(zhǔn)的服務(wù),這仍是一個充滿創(chuàng)新機會和市場潛力的專業(yè)領(lǐng)域,給了初創(chuàng)企業(yè)一個良好的生存環(huán)境和成長機遇。
在今年上海市科委等組織的2018“創(chuàng)業(yè)在上海”國際創(chuàng)新創(chuàng)業(yè)大賽暨第七屆中國中心創(chuàng)新創(chuàng)業(yè)大賽(上海賽區(qū))比賽中,上海海納信達數(shù)據(jù)技術(shù)有限公司的參賽項目——具有自主知識產(chǎn)權(quán)的海納智能搜索引擎,就是一項專注于垂直搜索引擎領(lǐng)域的專業(yè)搜索引擎,在上海賽和國際賽中頗受好評。
專注知識領(lǐng)域,為科研服務(wù)
海納信達——這是一家年輕的初創(chuàng)公司,公司技術(shù)團隊核心成員專注搜索引擎領(lǐng)域已經(jīng)十多年時間,同時擁有一批充滿創(chuàng)新精神的年輕技術(shù)人才,勇于直面挑戰(zhàn)、敢于創(chuàng)新嘗試。
公司致力于搜索引擎(Search Engine)的技術(shù)迭代更新,打破傳統(tǒng)搜索引擎的技術(shù)框架,自主研發(fā)了一套專業(yè)性更強的垂直搜索引擎。
傳統(tǒng)的搜索引擎指的是根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。我們常見的Google、百度等通用搜索引擎就如同互聯(lián)網(wǎng)第一次出現(xiàn)的門戶網(wǎng)站一樣,是要實現(xiàn)大量的信息整合導(dǎo)航,以極快的查詢,將所有網(wǎng)站上的信息整理在一個平臺上供用戶使用,可以說這種模式使得信息的價值第一次普遍的被眾多商家認可,迅速成為互聯(lián)網(wǎng)中最有價值的領(lǐng)域。
而垂直搜索引擎是應(yīng)用于某一個行業(yè)、專業(yè)的搜索引擎,是搜索引擎的延伸和應(yīng)用細分化。垂直搜索引擎為用戶提供的并不是上百甚至上千萬相關(guān)網(wǎng)頁,而是范圍極為縮小、極具針對性的具體信息。因此,很多特定行業(yè)的用戶更加青睞垂直搜索引擎。
人們?nèi)粘J褂玫闹T多檢索服務(wù)中,涵蓋了各類專業(yè)領(lǐng)域,比如查找喜歡的餐廳、查詢喜好的產(chǎn)品、搜索性價比高的機票或酒店等,種種此類都是搜索引擎的應(yīng)用場景。
海納信達智能搜索引擎更專注于知識發(fā)現(xiàn)與知識服務(wù),竭力為用戶提供精準(zhǔn)的知識發(fā)現(xiàn)工具和優(yōu)質(zhì)的知識服務(wù)平臺,這亦是海納信達的經(jīng)營理念。
海納信達選擇這一經(jīng)營理念,首先是因為科研領(lǐng)域需要做大量的知識查詢、獲取和學(xué)習(xí)工作;更因為團隊里核心成員大多長期從事科研工作,深知在科研工作中,經(jīng)常遭遇信息檢索的煩惱。
如今,各個學(xué)科領(lǐng)域已經(jīng)演變成相互延伸、相互交叉的復(fù)雜系統(tǒng),如果能夠通過一個專業(yè)搜索引擎高效地找到需要的知識,快速了解該領(lǐng)域的研發(fā)趨勢,明確各學(xué)科之間的關(guān)聯(lián),無異于是找到巨人的肩膀。對科研管理者來說,這樣的專業(yè)搜索引擎方便實現(xiàn)創(chuàng)新成果的國際、國內(nèi)對標(biāo);對企事業(yè)單位來說,可以大大減少調(diào)研的時間,提高科研對接效率,可以說這樣的搜索引擎是各個領(lǐng)域“創(chuàng)新工具箱”中不可或缺的工具。選擇這個領(lǐng)域創(chuàng)業(yè),似乎是海納信達團隊的“天性”使然,是長期從事科研工作的職業(yè)驅(qū)使、興趣所在,也是因為切身需求而產(chǎn)生的研發(fā)動力,也是某種不可明狀的責(zé)任推動,即通過努力,為更多人實現(xiàn)知識的價值,讓更多人便捷、高效的獲得知識。
助力中國工程院,為創(chuàng)新賦能
海納信達自創(chuàng)業(yè)以來,自主開發(fā)的搜索引擎已經(jīng)廣泛應(yīng)用在圖書館、高等院校和大型科研機構(gòu),中國工程院的科技知識服務(wù)平臺就是其中最典型的一例。
他們研發(fā)的產(chǎn)品,是中國工程院為國內(nèi)外工程科技領(lǐng)域提供知識發(fā)現(xiàn)和服務(wù)平臺(KnowledgeGO,簡稱“K-GO”)的核心引擎(見圖1)。中國工程院是我國工程技術(shù)界的最高榮譽性、咨詢性學(xué)術(shù)機構(gòu),是國家工程科技思想庫,目前正按照國家要求致力于建設(shè)新型高端智庫,以科學(xué)咨詢支撐科學(xué)決策,以科學(xué)決策引領(lǐng)科學(xué)發(fā)展。K-GO平臺的目標(biāo)是建設(shè)一個國際先進、國內(nèi)領(lǐng)先、具有廣泛影響力的工程科技領(lǐng)域信息匯聚中心、數(shù)據(jù)挖掘中心和知識服務(wù)中心。
中國工程院的知識服務(wù)平臺匯集了聯(lián)盟資源、網(wǎng)絡(luò)資源、合作資源、采購資源、自建資源等5大來源數(shù)據(jù),數(shù)據(jù)內(nèi)容涵蓋國內(nèi)外期刊、學(xué)位、會議等文獻資源,中國專利、外國專利、智庫、標(biāo)準(zhǔn)、學(xué)術(shù)報告、科研成果等特色資源和24個領(lǐng)域的統(tǒng)計數(shù)據(jù)和科學(xué)數(shù)據(jù)等,數(shù)據(jù)總量已經(jīng)超過46億條,打造了工程科技領(lǐng)域最大、最全、最及時的元數(shù)據(jù)海。
作為中國工程科技知識中心全力打造的搜索品牌,K-GO搜索引擎提供在檢索效率、數(shù)據(jù)整合清洗、特色數(shù)據(jù)庫展示等方面特色突出,完全體現(xiàn)了知識中心在科學(xué)數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、智庫報告、科技文獻等方面的資源整合能力。
K-GO目前還密切關(guān)注工程科技領(lǐng)域的趨勢研究、關(guān)聯(lián)研究、領(lǐng)域交叉、關(guān)聯(lián)學(xué)者等熱點,并提供相似文獻、參考文獻、引證文獻、同作者文獻、年度引用量等文獻詳情信息,為科研工作者輕松方便的查找文獻,快速高效的撰寫論文和報告,洞察和把握研究趨勢和熱點領(lǐng)域,提供了便利的渠道和方式(見圖2)。
釋放知識價值,為認知計算而變
俗話說,錢花了才是你的,知識有用才有價值,檢索就是實現(xiàn)價值的第一步。人類知識的積累早已龐大到超越個體的認知范圍。事實上,即便不是在數(shù)字時代,檢索早已是門學(xué)問,數(shù)據(jù)時代,信息沉積更是數(shù)量級的增長,而且在很多專業(yè)領(lǐng)域,數(shù)據(jù)是沉積在不同的數(shù)據(jù)庫中,且是些“異構(gòu)數(shù)據(jù)庫”。圖書館、高校往往要購買不同的數(shù)據(jù)庫,才能滿足需求,但是這不僅造成了檢索的困難、繁瑣,不同數(shù)據(jù)庫檢索后的信息,很難綜合分析。信息雖然爆炸,卻不能按照人們的意圖“運行”,實在是信息的浪費。
海納信達的搜索引擎,專為科研機構(gòu)定制。例如他們打造的某專業(yè)國防數(shù)字圖書館,整合了圖書館各類復(fù)雜、異構(gòu)數(shù)字資源,構(gòu)建了統(tǒng)一的檢索系統(tǒng)及門戶網(wǎng)站:已整合數(shù)據(jù)資源15大類,90多個資源庫,元數(shù)據(jù)量達1.5億條以上;是軍網(wǎng)中最受歡迎、訪問量最大的數(shù)字圖書館網(wǎng)站:系統(tǒng)平均日點擊量15萬次/日,峰值同時在線人數(shù)超過500人,峰值數(shù)據(jù)流量超過300Mbps/秒。
事實上,這種針對異構(gòu)數(shù)據(jù)源檢索的知識服務(wù)可以運用于各種專業(yè)領(lǐng)域。例如實時采集法規(guī)、政策、標(biāo)準(zhǔn)、專利等信息;實時采集國內(nèi)外新聞、行業(yè)新聞、技術(shù)文章,助力行業(yè)分析,為行業(yè)研究提供專業(yè)知識服務(wù)。針對企業(yè)服務(wù),可以實現(xiàn)競爭分析、傳播評估、輿情監(jiān)測、客戶服務(wù)、危機公關(guān)。例如實時采集競爭對手及供應(yīng)商的新聞、人事、產(chǎn)品等信息;實時采集公共信源的商業(yè)信息、招投標(biāo)信息;實時采集本企業(yè)的品牌以及競爭對手的品牌信息,了解消費者的需求與反饋;實時采集國內(nèi)外、地方新聞、政策法規(guī)、經(jīng)濟、產(chǎn)業(yè)等信息。這些應(yīng)用場景,正是當(dāng)前行業(yè)競爭、企業(yè)競爭加劇產(chǎn)生的需求,也是各行業(yè)創(chuàng)新加速的必然需求。
目前,在海納信達深耕的科教、軍事領(lǐng)域,除了打通知識庫,海納信達還在傾力打造自然語言知識搜索。未來,平臺將支持知識圖譜和人工智能的應(yīng)用,目標(biāo)是通過智能閱讀、知識關(guān)聯(lián)和綜合推理,實現(xiàn)智能化的認知搜索。這意味著,我們可以通過一句日常的普通的語言,而不是關(guān)鍵字向系統(tǒng)提出問題,就能得到更加豐富、精準(zhǔn)和個性化的結(jié)果。