周全海 王雅冬
摘 要
習(xí)近平總書記在中央黨的群團(tuán)工作會(huì)議上寄望,“工青婦等群團(tuán)組織要下大氣力開展網(wǎng)上工作,亮出群團(tuán)組織的旗幟,發(fā)出我們的聲音,讓群眾能在網(wǎng)上找到自己的組織,參加組織的活動(dòng)?!本W(wǎng)上科技工作者之家融合科協(xié)系統(tǒng)資源,著眼科技工作者的實(shí)際需求,助推廣大科技工作者在經(jīng)濟(jì)建設(shè)和社會(huì)發(fā)展中發(fā)揮重要作用。
關(guān)鍵詞
網(wǎng)上科技工作者之家;平臺(tái);建設(shè);服務(wù)
中圖分類號(hào): F273.1 ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.19694/j.cnki.issn2095-2457.2020.16.001
隨著互聯(lián)網(wǎng)的普及和快速發(fā)展,科技工作者“倒逼”科協(xié)工作方式改變的趨勢已越來越明顯,同時(shí)也對(duì)科協(xié)工作提出了新的要求。建設(shè)科技工作者之家有利于精準(zhǔn)挖掘智庫建設(shè)、學(xué)術(shù)交流、對(duì)外聯(lián)系、科學(xué)普及方面的潛在價(jià)值,人才服務(wù)、創(chuàng)新創(chuàng)業(yè)等方面的信息資源,進(jìn)一步密切與有關(guān)部門和地方的聯(lián)合協(xié)同,引導(dǎo)服務(wù)資源下沉和精準(zhǔn)落地。
1 前車可鑒:建設(shè)網(wǎng)上科技工作者之家存在的問題
1)現(xiàn)有平臺(tái)專業(yè)性不強(qiáng),服務(wù)內(nèi)容單一。很多網(wǎng)上平臺(tái)內(nèi)容過于泛泛,沒有科技特色,對(duì)各領(lǐng)域各層次,特別是高端學(xué)者和學(xué)術(shù)帶頭人等科技人員吸引力不強(qiáng),科技工作者沒有“家”的歸屬感。
2)用戶缺乏交互,傳達(dá)信息能力欠缺。缺乏活躍的在線交互是平臺(tái)最突出的問題,包括日常交互量低,交互頻率低,交互間隔長,溝通內(nèi)容廣泛不集中等。很多平臺(tái)宣傳不到位,不為人知,“家”徒有空殼而無實(shí)質(zhì),這種情況出現(xiàn)的根本原因仍是平臺(tái)無法提供準(zhǔn)確有效的服務(wù),用戶感興趣的內(nèi)容缺失,“家”無法發(fā)展壯大,“家人”沒有交流的欲望,達(dá)不到及時(shí)傳遞和溝通信息的目的,造成平臺(tái)資源浪費(fèi)。
2 著眼當(dāng)下:讓更多網(wǎng)上資源向科技工作者傾斜
1)建設(shè)網(wǎng)上科技工作者之家有助于掌握網(wǎng)絡(luò)意識(shí)形態(tài)工作主動(dòng)權(quán),引導(dǎo)科技工作者堅(jiān)定政治立場,緊密團(tuán)結(jié)在黨的周圍??茀f(xié)是黨領(lǐng)導(dǎo)下團(tuán)結(jié)聯(lián)系廣大科技工作者的人民團(tuán)體,網(wǎng)上科技工作者之家不僅是科技工作者互聯(lián)網(wǎng)平臺(tái)上的發(fā)聲渠道,更是科協(xié)引領(lǐng)科技工作者正確輿論導(dǎo)向、價(jià)值取向的平臺(tái)。打造科技工作者線上興趣圈、行業(yè)圈,吸引科技工作者積極參與學(xué)術(shù)交流、話題討論,拓寬科技工作者科研社交、學(xué)術(shù)成長、參與社會(huì)治理的渠道,團(tuán)結(jié)一心聽黨話、跟黨走,成為服務(wù)黨和政府科學(xué)決策的堅(jiān)強(qiáng)后盾。
2)建設(shè)網(wǎng)上科技工作者之家是線上聯(lián)系服務(wù)科技工作者的重要手段。網(wǎng)上科技工作者之家借助信息技術(shù)手段精準(zhǔn)定位科技工作者,通過提供科技資訊、獎(jiǎng)項(xiàng)申報(bào)、成果轉(zhuǎn)化、在線交流等服務(wù),建立具體化、常態(tài)化的聯(lián)系服務(wù)科技工作者的機(jī)制,讓科技工作者切實(shí)感受到“家”的關(guān)懷和溫暖。
3)建設(shè)網(wǎng)上科技工作者之家是為科技工作者提供人性化管理服務(wù)的基本要求。人性化管理即科協(xié)工作更多地圍繞科技工作者的生活、工作習(xí)慣展開,使管理更貼近科技工作者個(gè)人,從而達(dá)到充分挖掘科技工作者潛能的目的。一是滿足科技工作者提高自身素質(zhì)的需求,為科技工作者提供個(gè)性化培訓(xùn)、科技成果展示轉(zhuǎn)化的平臺(tái)等;二是要廣開言路、發(fā)揚(yáng)民主,暢通交流渠道,讓科技工作者在“家”中暢所欲言,對(duì)合理意見認(rèn)真采納,了解科技工作者真實(shí)的想法和意見需求,使科技工作者思想上歸屬于科協(xié),感情上依附于科協(xié)。
4)建設(shè)網(wǎng)上科技工作者之家是服務(wù)提高全民科學(xué)素質(zhì)的重要途徑??茖W(xué)技術(shù)已成為現(xiàn)代生產(chǎn)力發(fā)展和經(jīng)濟(jì)增長的第一要素,是推動(dòng)現(xiàn)代生產(chǎn)力發(fā)展中的重要因素和重要力量??破展ぷ髯鳛榭茀f(xié)的重點(diǎn)工作之一,建設(shè)網(wǎng)上科技工作者之家有助于統(tǒng)籌科普資源建成科普資源庫,全邊界打通科普專家、活動(dòng)、場館的資源壁壘,推進(jìn)科普專家匹配檢索、科普活動(dòng)效果評(píng)估、科普資源互通分享的科普信息化新格局。
3 技術(shù)支持:完善數(shù)據(jù)標(biāo)準(zhǔn),整合網(wǎng)絡(luò)數(shù)據(jù)資源
通過網(wǎng)絡(luò)抓取工具對(duì)互聯(lián)網(wǎng)中資源進(jìn)行主動(dòng)的、有針對(duì)性的采集,包括科技新聞、政策數(shù)據(jù)、人才數(shù)據(jù)、科研項(xiàng)目數(shù)據(jù)、智庫成果數(shù)據(jù)等,實(shí)現(xiàn)對(duì)科技前沿資訊、政策信息、科技成果等信息的獲取。
3.1 網(wǎng)頁定向爬取
即針對(duì)不同的網(wǎng)頁構(gòu)建不同的網(wǎng)頁爬取模板,可以精準(zhǔn)的獲取目標(biāo)站點(diǎn)的信息,通過構(gòu)建的模板進(jìn)行信息匹配,實(shí)現(xiàn)主要參數(shù)和屬性的抽取。
(1)網(wǎng)頁全量爬取
通過分段抽取的方式,抽取網(wǎng)頁中的title、keywords、Descri ption標(biāo)簽、文本信息等網(wǎng)頁數(shù)據(jù)。
(2)模板定制
開發(fā)定向爬取的模板,完善定向爬取模板庫,目前涵蓋科技成果類、學(xué)術(shù)類、專利類、科研類等主流的網(wǎng)站,網(wǎng)站樣式更新后,會(huì)及時(shí)調(diào)整對(duì)應(yīng)模板。
(3)網(wǎng)頁去噪
為提高爬取內(nèi)容的有效性,需要對(duì)網(wǎng)頁進(jìn)行去噪聲處理,去除網(wǎng)頁周圍的廣告、推薦等無意義的信息。
(4)防封策略
網(wǎng)站為了避免數(shù)據(jù)被爬取,增加了多種多樣的反爬蟲措施,隨著對(duì)爬取IP的查封力度不斷加大,網(wǎng)站主要通過一段時(shí)間內(nèi)的訪問頻率對(duì)爬取IP進(jìn)行識(shí)別與認(rèn)定,故可以通過限定每個(gè)IP對(duì)同一網(wǎng)頁爬取的頻率規(guī)避爬取IP被封的風(fēng)險(xiǎn)。
3.2 文本分析
(1)信息抽取
文本抽取:先對(duì)網(wǎng)頁進(jìn)行去噪處理,再對(duì)網(wǎng)頁內(nèi)容進(jìn)行分段提取,獲取用戶訪問網(wǎng)頁的內(nèi)容。
資源獲?。簩?duì)權(quán)威網(wǎng)站進(jìn)行爬取時(shí)多采用配置模版的方式,實(shí)現(xiàn)對(duì)應(yīng)資源的主要屬性和參數(shù)的抽取,一般每個(gè)資源配置一種模版,將對(duì)應(yīng)信息形成資源標(biāo)簽體系,以便在網(wǎng)頁解析時(shí)了解用戶的興趣點(diǎn)。
(2)文本處理
采用自然語言處理技術(shù)(NLP),通過中文分詞對(duì)爬取的網(wǎng)頁內(nèi)容進(jìn)行切分,運(yùn)用機(jī)器學(xué)習(xí)算法和上下文關(guān)聯(lián)實(shí)現(xiàn)新詞發(fā)現(xiàn),統(tǒng)計(jì)通過分詞匹配產(chǎn)生詞庫數(shù)據(jù)的頻率。
3.3 分類存儲(chǔ)
匹配分詞:采用以內(nèi)容標(biāo)簽為基礎(chǔ)的分詞庫對(duì)網(wǎng)頁采集內(nèi)容進(jìn)行文本分詞處理,在此基礎(chǔ)上確定網(wǎng)頁內(nèi)容的語意方向。
分詞保存:通過URL對(duì)應(yīng)網(wǎng)頁的爬取、信息抽取、分類后形成URL分類實(shí)例進(jìn)行保存。
3.4 網(wǎng)頁內(nèi)容分析
(1)內(nèi)容識(shí)別
通過對(duì)URL的構(gòu)成規(guī)則及URL所承載的頁面內(nèi)容的解析,實(shí)現(xiàn)對(duì)用戶訪問的URL按照內(nèi)容信息及網(wǎng)站頻道進(jìn)行分類定義。
規(guī)則分類:通過構(gòu)建規(guī)則定義URL的分類依據(jù),繼而通過用戶訪問的URL識(shí)別用戶流向,得到網(wǎng)站名稱、網(wǎng)站分類、頻道名稱、內(nèi)容分類,實(shí)現(xiàn)對(duì)用戶訪問的URL按照內(nèi)容信息及網(wǎng)站頻道進(jìn)行有效分類。
實(shí)例分類:通過實(shí)例庫對(duì)網(wǎng)頁內(nèi)容分類進(jìn)行定義,識(shí)別頁面上用戶關(guān)注的內(nèi)容。通過實(shí)例庫,得到用戶訪問頁面的標(biāo)簽。
實(shí)例庫更新:通過網(wǎng)頁解析模版獲取URL分類信息,將信息更新至實(shí)例庫,用于網(wǎng)頁內(nèi)容識(shí)別。更新模塊對(duì)爬蟲程序輸出的爬取結(jié)果清單進(jìn)行自動(dòng)掃描,若清單中所有條目的Json字段非空,則批量更新至URL實(shí)例庫。
4 未來可期:打造具有科協(xié)特色的智慧網(wǎng)絡(luò)服務(wù)平臺(tái)
(1)加強(qiáng)用戶聯(lián)系,建設(shè)智能交互社區(qū)。構(gòu)建社區(qū)生態(tài),增加用戶黏性,避免成為缺乏聯(lián)系的信息“孤島”。設(shè)計(jì)開發(fā)WAP版網(wǎng)上科技工作者之家、微信公眾號(hào)等,為用戶提供功能完整、交互便捷的移動(dòng)端服務(wù),實(shí)現(xiàn)消息提醒、移動(dòng)辦公、業(yè)務(wù)辦理、移動(dòng)科普等功能,滿足移動(dòng)端的使用需求,讓科協(xié)服務(wù)“送到指尖”。突出便捷性,在保證安全性的同時(shí),簡化使用程序,做到“即注即用”,避免過于繁瑣的程序削減科技工作者的交流欲望。PC端和移動(dòng)端雙向同步聯(lián)動(dòng),使瀏覽、查詢、聊天等功能實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)互通,形成PC端和移動(dòng)端用戶聯(lián)動(dòng)、線上交流與線下活動(dòng)聯(lián)動(dòng)的多渠道、立體式科協(xié)網(wǎng)絡(luò),全方位覆蓋用戶群。對(duì)每位用戶創(chuàng)建個(gè)人展示頁面,用戶可發(fā)布個(gè)人動(dòng)態(tài)、時(shí)評(píng)、研究成果等,引入評(píng)論、轉(zhuǎn)發(fā)、點(diǎn)贊等功能并擇優(yōu)抓取到主頁,增強(qiáng)用戶的互動(dòng)性和展示欲望。
(2)突出科協(xié)特色,開發(fā)興趣板塊。集成當(dāng)今流行的應(yīng)用和互動(dòng)方式,形成圖、文、長短視頻、直播等多維度信息發(fā)布平臺(tái)。開設(shè)基層科普知識(shí)、科技政策解讀、學(xué)術(shù)講座視頻、專家互動(dòng)交流等創(chuàng)意版塊,滿足各層次科技工作者的興趣點(diǎn),實(shí)現(xiàn)專家與基層科技工作者之間的對(duì)話交流。
(3)整合企業(yè)資源,開拓科技成果轉(zhuǎn)化路徑。以網(wǎng)上科技工作者之家為依托,使企業(yè)與科技工作者之間產(chǎn)生直接聯(lián)系,使科技工作者針對(duì)市場需求進(jìn)行科學(xué)研究,提高科研成果的轉(zhuǎn)化率利用率。協(xié)調(diào)高端科技人才在網(wǎng)上直接與企業(yè)對(duì)接,降低交流成本,通過提供科技咨詢服務(wù)、專業(yè)技術(shù)指導(dǎo)等方式,引導(dǎo)科研人員服務(wù)經(jīng)濟(jì)社會(huì)發(fā)展,開拓服務(wù)科技成果轉(zhuǎn)化線上路徑。匯編最新科技成果推薦給相關(guān)領(lǐng)域企業(yè),方便企業(yè)掌握一手資訊,有針對(duì)性的邀請(qǐng)專家合作。
(4)利用大數(shù)據(jù)技術(shù),為科學(xué)決策提供支撐。利用網(wǎng)上科技工作者之家搜集的科研成果數(shù)據(jù)、發(fā)明專利、研究論文等資源,分析科技事件發(fā)展的脈絡(luò),對(duì)未來科技趨勢進(jìn)行分析預(yù)測。通過網(wǎng)頁抓取、文本分析、網(wǎng)頁分類保存、網(wǎng)頁內(nèi)容分析4個(gè)過程,整合網(wǎng)絡(luò)數(shù)據(jù)資源,包括科技新聞、政策數(shù)據(jù)、人才數(shù)據(jù)、科研項(xiàng)目數(shù)據(jù)、智庫成果數(shù)據(jù)等,生成數(shù)據(jù)分析報(bào)告,提供給有需要的企業(yè)和科技工作者。繪制精準(zhǔn)表述科技工作者特點(diǎn)的畫像,定向推送訊息,聯(lián)結(jié)科技工作者之間的“關(guān)系網(wǎng)”,實(shí)現(xiàn)“量體裁衣”式服務(wù)。