吳正洋 陳先哲
[摘 要] 隨著Web 2.0及社交網(wǎng)絡(luò)的普及,以協(xié)同合作為推動(dòng)力的科技創(chuàng)新有了新的開展環(huán)境。利用學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái),學(xué)術(shù)人員可以共享及快速獲取開展科研活動(dòng)所需的各類學(xué)術(shù)信息和資源,廣泛發(fā)布合作需求信息,尋求合作伙伴,以及與身處不同地域的合作伙伴進(jìn)行實(shí)時(shí)交流,實(shí)現(xiàn)跨學(xué)科的科研合作。“提高協(xié)同效率”是學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái)設(shè)計(jì)的核心理念,本文以此為基礎(chǔ),重點(diǎn)討論了學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái)建設(shè)中的兩個(gè)問題:一是信息采集及語義化處理;二是開展協(xié)同創(chuàng)新所需信息的推薦方法。最后,展示了一個(gè)學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái)的實(shí)例。
[關(guān)鍵詞] 學(xué)術(shù);社交;網(wǎng)絡(luò);平臺(tái);協(xié)同;創(chuàng)新
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 11. 057
[中圖分類號(hào)] TP393;TP311 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673 - 0194(2014)11- 0089- 03
1 引 言
創(chuàng)新是學(xué)術(shù)發(fā)展的核心動(dòng)力,促進(jìn)學(xué)科交流,加強(qiáng)交叉學(xué)科研究,是推動(dòng)科技創(chuàng)新的重要手段。2012年教育部啟動(dòng)2011計(jì)劃,旨在鼓勵(lì)積極開展跨學(xué)科合作,校企合作,實(shí)現(xiàn)協(xié)同創(chuàng)新。然而,如何獲取跨學(xué)科領(lǐng)域的有效信息,找到最佳合作伙伴,是協(xié)同創(chuàng)新工作開展需要解決的首要問題。隨著Web 2.0及社交網(wǎng)絡(luò)工具的廣泛應(yīng)用,人們的交流方式由傳統(tǒng)的語言文字交流,發(fā)展為基于網(wǎng)絡(luò)平臺(tái)的即時(shí)通訊、多媒體、多渠道的交流。尤其是社交網(wǎng)絡(luò)(SNS,Social Networking Services)的普及,使人際關(guān)系發(fā)展、信息傳播速率得到了顯著提高,傳統(tǒng)的協(xié)作模式和研究方法都面臨新的變革。近年來,眾多面向?qū)W術(shù)科研的社交網(wǎng)絡(luò)平臺(tái)(如學(xué)者網(wǎng)、中國知網(wǎng)學(xué)者圈、學(xué)術(shù)網(wǎng)等)逐漸興起,帶動(dòng)增加了學(xué)術(shù)人員在社交網(wǎng)絡(luò)上的活動(dòng)。以學(xué)者網(wǎng)為例,2013年度,其活躍用戶數(shù)增加了932人。因?yàn)閷W(xué)術(shù)人員作為高層次知識(shí)結(jié)構(gòu)的人群,具有更高水平的網(wǎng)絡(luò)活動(dòng)接受度和參與度。同時(shí),在社交網(wǎng)絡(luò)平臺(tái)的應(yīng)用中,也在不斷產(chǎn)生各種新的交流方式,信息共享的種類、信息傳播的范圍、信息擴(kuò)散的速率都在以幾何倍數(shù)增大,對(duì)用戶而言,接收信息變得非常容易,交流合作的機(jī)會(huì)也不斷增多,學(xué)術(shù)社交網(wǎng)絡(luò)為學(xué)術(shù)人員開展協(xié)同創(chuàng)新活動(dòng)提供了一個(gè)支持平臺(tái)。本文從提高有效信息的獲取率、發(fā)掘最優(yōu)的潛在合作者等方面研究學(xué)術(shù)社交網(wǎng)絡(luò)的應(yīng)用技術(shù),使其能夠?yàn)閷W(xué)術(shù)人員的協(xié)同創(chuàng)新提供更強(qiáng)大的支持。
2 協(xié)同與創(chuàng)新
1976年,德國斯圖加特大學(xué)的哈肯教授(Hermann Haken)首次系統(tǒng)地論述了協(xié)同論,著重探討各種系統(tǒng)從無序變?yōu)橛行驎r(shí)的相似性。近幾十年來,協(xié)同論從對(duì)物理學(xué)相關(guān)領(lǐng)域的研究,逐漸發(fā)展成為應(yīng)用廣泛的綜合性學(xué)科。協(xié)同思想廣泛應(yīng)用在制造行業(yè),用于優(yōu)化大規(guī)模工程設(shè)計(jì)以及生產(chǎn)的過程優(yōu)化和資源配備。隨著科技發(fā)展,制造行業(yè)的生產(chǎn)規(guī)模日益擴(kuò)大,越來越多的資源和業(yè)務(wù)流程需要優(yōu)化整合,傳統(tǒng)的人工記錄或協(xié)調(diào)已經(jīng)無法適應(yīng)生產(chǎn)需要,鑒于此,計(jì)算機(jī)輔助制造研究興起,各類管理信息系統(tǒng)、協(xié)同軟件(Collaboration Software)應(yīng)運(yùn)而生。協(xié)同軟件[1]是指那些以團(tuán)隊(duì)協(xié)作為目標(biāo)的協(xié)作軟件工具,主要包括群組協(xié)作管理,如:工作流管理、項(xiàng)目管理等;各種通信軟件,如E-Mail、即時(shí)通信、VoIP等。據(jù)Gartner統(tǒng)計(jì)分析,從2003年開始,全球范圍協(xié)同軟件已成為用戶應(yīng)用軟件采購最大熱點(diǎn),位居信息化應(yīng)用軟件首位,到2005年全球協(xié)同軟件市場的營業(yè)額將達(dá)500億美元,到2006年協(xié)同軟件市場規(guī)模將趕超ERP。
從事科學(xué)研究工作的學(xué)術(shù)人員,對(duì)于學(xué)術(shù)交流、項(xiàng)目合作等信息的需求比較大,經(jīng)常使用網(wǎng)絡(luò)平臺(tái)輔助教學(xué)科研工作。然而在互聯(lián)網(wǎng)上,存在的信息資源極為豐富、信息的結(jié)構(gòu)也極為復(fù)雜,要提高用戶創(chuàng)新能力,重點(diǎn)是要提高協(xié)同效率。提高協(xié)同效率包括兩方面的內(nèi)容:一是提高用戶操作的便捷度;二是為用戶提供有利于跨學(xué)科合作的資源信息。由于術(shù)業(yè)有專攻,學(xué)術(shù)人員可能對(duì)不同學(xué)科的知識(shí)沒有深入了解,如果想快速檢索其他學(xué)科的專業(yè)信息,尤其是與本人研究領(lǐng)域有交叉的知識(shí),尚存在一定的難度。如何快速跨學(xué)科檢索,是學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái)需要解決的核心問題。
3 信息獲取及處理
互聯(lián)網(wǎng)上以下兩類信息常用于科研輔助活動(dòng):①著作、論文、項(xiàng)目摘要、專利等科研成果信息;②由學(xué)術(shù)人員發(fā)布的對(duì)于開展學(xué)術(shù)合作的需求信息。
學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái)數(shù)據(jù)來源可以通過采集—清洗—分類存儲(chǔ)的過程形成。從互聯(lián)網(wǎng)上采集數(shù)據(jù),首先,通過程序進(jìn)行清洗,然后,將數(shù)據(jù)分為成果信息與需求信息,分別進(jìn)行存儲(chǔ);再利用學(xué)術(shù)領(lǐng)域本體分析學(xué)術(shù)關(guān)系并生成學(xué)術(shù)關(guān)聯(lián)知識(shí)庫。
3.1 數(shù)據(jù)采集
數(shù)據(jù)有兩個(gè)來源:一是從互聯(lián)網(wǎng)上直接抓取,二是學(xué)術(shù)人員根據(jù)系統(tǒng)要求提供。協(xié)作所需要的學(xué)術(shù)人員基本信息、成果信息、協(xié)作需求信息等可以在系統(tǒng)使用的過程中產(chǎn)生并收集,而更多的學(xué)術(shù)信息需要通過抓取互聯(lián)網(wǎng)上的數(shù)據(jù)獲得。目前業(yè)界有一些成熟的搜索引擎框架,能夠?qū)崿F(xiàn)這一功能,比較常用的是基于Java的開源搜索引擎,包括Apache Lucene、Nutch、MG4J等,其中,建立在Hadoop分布式系統(tǒng)上的Apache Nutch是一個(gè)較全面的軟件框架,它提供了開發(fā)人員運(yùn)行自己的搜索引擎所需的全部工具,包括網(wǎng)頁全文搜索和Web爬蟲。在運(yùn)行Nutch框架的基礎(chǔ)上,開發(fā)針對(duì)學(xué)術(shù)信息網(wǎng)頁的插件來擴(kuò)展其功能,將互聯(lián)網(wǎng)上的學(xué)術(shù)信息網(wǎng)頁轉(zhuǎn)化為文獻(xiàn)對(duì)象,再進(jìn)行存儲(chǔ)[2]。數(shù)據(jù)清洗主要是將抓取到的數(shù)據(jù)進(jìn)行檢索和再判斷,刪除一些不必要的冗余或誤差,比如,數(shù)據(jù)抓取軟件可能會(huì)在不同的數(shù)據(jù)源采集到同一篇期刊論文信息,此時(shí)就需要利用查冗算法檢索匹配該論文的多項(xiàng)有關(guān)信息,如作者、單位、發(fā)表的刊物名稱等,如果找到多個(gè)結(jié)果,就保留一個(gè),并記錄重復(fù)版本數(shù),同時(shí)刪除其他結(jié)果。
3.2 語義化處理
為提高信息檢索的效率,需要對(duì)學(xué)術(shù)實(shí)體進(jìn)行語義化處理。首先要對(duì)學(xué)科知識(shí)進(jìn)行預(yù)處理,學(xué)科知識(shí)預(yù)處理主要是針對(duì)學(xué)科進(jìn)行語義描述,可利用DBpedia中關(guān)于各學(xué)科的定義和屬性關(guān)系劃分學(xué)科知識(shí)點(diǎn)層次結(jié)構(gòu)。DBpedia是從維基百科的詞條里擷取出的結(jié)構(gòu)化資料,在實(shí)現(xiàn)學(xué)科知識(shí)的描述后,便于根據(jù)學(xué)科關(guān)鍵字進(jìn)行檢索和匹配。同時(shí),還要對(duì)成果信息和需求信息進(jìn)行關(guān)系分析,如對(duì)論文、著作、項(xiàng)目摘要等所包含屬性的邏輯關(guān)系進(jìn)行分析,以論文為例,論文的作者、合著者之間有合作關(guān)系,論文關(guān)鍵字能夠反映學(xué)科知識(shí)點(diǎn)之間的關(guān)系,作者歸屬單位、作者所在學(xué)科等重要關(guān)系也能夠從中體現(xiàn)。整理邏輯關(guān)系并用OWL本體文件方式進(jìn)行存儲(chǔ),可用于信息檢索和智能推薦。
4 推薦優(yōu)化
4.1 推薦策略
電子商務(wù)中比較常用的智能推薦方法是協(xié)同過濾算法[3],該方法的原理是通過建立學(xué)術(shù)人員偏好數(shù)據(jù)庫,找到與指定用戶偏好相匹配的其他用戶,根據(jù)找到的這些用戶對(duì)某一信息的評(píng)價(jià),作為指定用戶對(duì)此類信息的喜好程度。在學(xué)術(shù)社交網(wǎng)絡(luò)中,學(xué)術(shù)人員查詢信息、下載資源、評(píng)論等行為比較活躍,將學(xué)術(shù)人員產(chǎn)生的偏好數(shù)據(jù)搜集并進(jìn)行實(shí)時(shí)更新,再根據(jù)相似學(xué)術(shù)人員的喜好進(jìn)行推薦,便能夠達(dá)到比較好的推薦效果。
在運(yùn)用協(xié)同過濾算法的基礎(chǔ)上,還可以根據(jù)學(xué)術(shù)人員的特點(diǎn)實(shí)現(xiàn)推薦功能。學(xué)術(shù)人員在注冊時(shí)通常都會(huì)提供所在高校、研究方向、研究興趣等信息,甚至包括學(xué)歷、職稱等信息,可以利用這些信息來計(jì)算學(xué)術(shù)人員的相似度,進(jìn)而進(jìn)行更精確的推薦。
4.2 推薦排序
推薦算法能夠給出若干推薦結(jié)果,而隨著平臺(tái)上活躍學(xué)術(shù)人員及共享資源的增多,產(chǎn)生的推薦結(jié)果數(shù)量也會(huì)增多,此時(shí),有必要對(duì)推薦結(jié)果進(jìn)行排序。要解決排序問題,首先要為每個(gè)推薦的結(jié)果賦值,可稱之為偏好值,該值能反映學(xué)術(shù)人員對(duì)于某論文、著作或項(xiàng)目信息以及對(duì)某領(lǐng)域?qū)<业南埠贸潭?,從而作為推薦結(jié)果排序的依據(jù),可設(shè)定偏好值越大的結(jié)果越可能是學(xué)術(shù)人員想要的結(jié)果。
推薦結(jié)果是依據(jù)相似學(xué)術(shù)人員的喜好,所以在偏好值方面可以參考兩個(gè)數(shù)據(jù):一是學(xué)術(shù)人員相似度,二是相似的學(xué)術(shù)人員對(duì)某類信息的偏好程度。某學(xué)術(shù)人員的特征可以依據(jù)注冊信息,結(jié)合網(wǎng)絡(luò)社交行為記錄,并根據(jù)這些信息建立學(xué)術(shù)人員特征文檔。學(xué)術(shù)人員特征文檔能夠反映相應(yīng)學(xué)術(shù)人員的基本特征和行為活動(dòng),如此,學(xué)術(shù)人員的相似度問題就轉(zhuǎn)化為了學(xué)術(shù)人員特征文檔的相似度問題。文檔相似度的計(jì)算方法有很多種[4],比較經(jīng)典的有基于文本向量空間模型(Text Vector Space Model, TVSM)[5],還有基于集合模型的相似度計(jì)算方法、基于層次結(jié)構(gòu)的相似度計(jì)算方法等,也有綜合計(jì)算方法[6]。在按相似度進(jìn)行相似學(xué)術(shù)人員排序后,再按各學(xué)術(shù)人員對(duì)于某信息的偏好程度進(jìn)行二次排序,并記錄數(shù)值,以此作為推薦結(jié)果的順序。
5 應(yīng)用實(shí)例
為提高學(xué)術(shù)人員個(gè)人信息的共享度,擴(kuò)大被檢索范圍,學(xué)術(shù)社交網(wǎng)絡(luò)可為其設(shè)置個(gè)人空間。個(gè)人空間是對(duì)學(xué)術(shù)人員個(gè)人信息進(jìn)行規(guī)范定義的模塊。同時(shí),也為可充當(dāng)他們的網(wǎng)上助手,融合了記事本、研究備忘錄、個(gè)人簡歷管理、成果展示平臺(tái)等功能,還可以用于添加及聯(lián)絡(luò)好友等。為了方便學(xué)術(shù)人員之間開展協(xié)同合作交流,學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái)還可以向?qū)W術(shù)人員用戶提供學(xué)術(shù)團(tuán)隊(duì)空間,方便共享資源、即時(shí)通訊、及時(shí)掌握?qǐng)F(tuán)隊(duì)研究進(jìn)展等。個(gè)人空間界面效果如圖1所示.
6 結(jié)束語
“開放、合作、協(xié)同”日益成為創(chuàng)新的必然發(fā)展方向,我國推行協(xié)同創(chuàng)新計(jì)劃也正是基于以上背景。本學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái)正是基于此理念設(shè)計(jì):一是通過界面整合相關(guān)應(yīng)用,使各創(chuàng)新主體操作更便捷;二是通過優(yōu)化數(shù)據(jù),為各創(chuàng)新主體提供有利于跨學(xué)科合作的學(xué)術(shù)信息。這個(gè)平臺(tái)的功能發(fā)揮和進(jìn)一步開發(fā),可以使高校、科研院所、企業(yè)等科研用戶更加緊密團(tuán)結(jié),多模式、深層次地開展合作,在基礎(chǔ)研究、應(yīng)用研究、開發(fā)研究之間形成完整鏈條。
主要參考文獻(xiàn)
[1]湯庸, 冀高峰, 朱君. 協(xié)同軟件技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2007.
[2]李建國,毛承潔,劉曉,等. 學(xué)術(shù)信息服務(wù)平臺(tái)的研究與設(shè)計(jì)[J]. 華南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2012,44(3):51-54.
[3]Sarwar B, Karypis G, Konstan J,et al. Item-based Collaborative Filtering Recommendation Algorithms[C]//Proceedings of the 10th International Conference on World Wide Web. ACM, 2001: 285-295.
[4]周博,岑榮偉,劉奕群,等. 一種基于文檔相似度的檢索結(jié)果重排序方法[J]. 中文信息學(xué)報(bào),2010,24(3):19-23.
[5]賀超波,沈玉利,余建輝,等. 基于學(xué)術(shù)社區(qū)的科技論文推薦方法[J]. 華南師范大學(xué)學(xué)報(bào): 自然科學(xué)版,2012,44(3):55-58.
[6]宋玲,馬軍,連莉,等.文檔相似度綜合計(jì)算研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2006,42(30):160-163.