遼寧對外經(jīng)貿(mào)學(xué)院信息管理系 李志曉
微博搜索技術(shù)及隱私安全問題的研究
遼寧對外經(jīng)貿(mào)學(xué)院信息管理系 李志曉
通過與谷歌搜索進(jìn)行比較研究,找出微博搜索技術(shù)的優(yōu)缺點,并提出了利用網(wǎng)絡(luò)爬蟲技術(shù)來提高微博搜索的多樣性和準(zhǔn)確性。同時分析了微博用戶個人隱私安全問題的泄露途徑和保護(hù)途徑,以及微博實名制的必要性。
谷歌搜索;網(wǎng)絡(luò)爬蟲;隱私安全
目前,有很多重要的時事熱點事件都是由微博最先進(jìn)行報道的。微博搜索技術(shù)發(fā)展的重要性不言而喻。其實微博在搜索和查詢方面都具獨特的特征,微博搜索技術(shù)其實是屬于信息檢索技術(shù)領(lǐng)域的,或者說是屬于文本檢索的范疇,這也是近段間以來的研究熱點之一。微博就是一個由大量文檔數(shù)據(jù)組成的被檢索語料庫,根據(jù)用戶提供的檢索詞,經(jīng)過檢索模型對文檔數(shù)據(jù)庫中相近的語義詞進(jìn)行對比,最后將結(jié)果按照升降順序返回給用戶。但是,由于微博搜索技術(shù)缺少對商業(yè)智能的支撐,簡單的來說就是現(xiàn)在的微博搜索技術(shù)基本是把傳統(tǒng)網(wǎng)頁搜索的基礎(chǔ)內(nèi)容進(jìn)行了克隆,缺少對信息的挖掘整理,且微博的搜索結(jié)果和搜索范圍也僅僅只限于微博本身,因此用戶需要耗費大量的時間精力去對匹配結(jié)果進(jìn)行歸納提煉,才能獲取到最終所需的信息。經(jīng)常會導(dǎo)致用戶感到困難并且對檢索結(jié)果不滿。
為了更好的挖掘微博搜索技術(shù)的問題,本文將搜索引擎中其中比較重要的三點與相對比較成熟的搜索機制比如谷歌搜索,進(jìn)行比較思考從而為微博搜索的進(jìn)一步發(fā)展提供意見。
2.1 熱門搜索列表的比較
隨著計算機行業(yè)的快速發(fā)展,網(wǎng)絡(luò)信息量直線增長,為了掌握最新最有用的熱門信息,提供熱門信息列表讓用戶方便的獲取最新信息也是很有必要的。通過對微博熱門列表和谷歌熱門列表進(jìn)行比較分析,可以看新浪微博作為時效性強的搜索引擎網(wǎng)站,不管你處在任何頁面都能夠看到"發(fā)現(xiàn)"的這個功能,單擊就能看見熱門列表的存在,而谷歌搜索在熱門列表的體現(xiàn)則比新浪微博豐富很多,不僅包含熱門搜索詞并且還對熱門信息進(jìn)行了分類,為用戶提供了方便的服務(wù)。但是在建立熱門列表時一定要注意的是在一定程度上要幫助用戶過濾垃圾信息。因此檢索系統(tǒng)需要開發(fā)專門的篩選器,在信息進(jìn)入到語義搜索之前用這個篩選器篩選掉可疑的垃圾信息,并對搜索出的結(jié)果進(jìn)行整合。
2.2 搜索提示與結(jié)果的比較
對于缺少搜索經(jīng)驗和搜索詞不明確的用戶來說,在搜索過程中不可或缺的會有探索式的搜索過程,然后在過程中不斷發(fā)現(xiàn)自己的信息需求。所以說檢索提示對一個搜索引擎來說是至關(guān)重要的。當(dāng)用戶輸搜索詞時在檢索框中會相應(yīng)顯示出與搜索詞相關(guān)的最熱門搜索條目并進(jìn)行實時排序,這樣不僅能減少用戶輸入耗費時間而且同時也是熱門列表的另一種表現(xiàn)方式。
用戶在搜索過程中難免會出現(xiàn)輸入錯別字或在不注意的情況下輸入拼音的情況,從而導(dǎo)致搜索結(jié)果不理想。先說新浪搜索,當(dāng)你輸入錯別字后它便不會出現(xiàn)檢索提示了,而是在搜索結(jié)果會自動給出"你要搜的是不是XXX"內(nèi)容,而谷歌搜索則在用戶輸入錯別字時自動顯示出搜索提示來幫助用戶進(jìn)行錯別字糾正,從而幫助用戶獲取正確的搜索信息。可以發(fā)現(xiàn)谷歌搜索提供了錯別字糾正的功能而微博搜索并沒與實現(xiàn)這一點。
"網(wǎng)絡(luò)爬蟲"也可以叫做蜘蛛程序。爬蟲是搜索引擎中的重要組成部分,它可以自動的對網(wǎng)頁程序進(jìn)行抓取并且同時獲得網(wǎng)頁的鏈接地址,然后從網(wǎng)站的首頁開始對網(wǎng)頁的內(nèi)容進(jìn)行讀取并獲得另一個網(wǎng)頁的鏈接地址,就這樣不停的從一個站點移動至另外的站點,直到把網(wǎng)站的所有內(nèi)容抓取盡為止。所以它對一個搜索引擎的的查準(zhǔn)率和搜索詞提示率都起著重大的作用。在微博中想要加入爬蟲技術(shù)需要設(shè)置入口網(wǎng)站地址,爬蟲通過一定的方法將網(wǎng)頁的源代碼以文檔的形式保存在微博引擎中,然后以匹配邏輯繼續(xù)提取下面的網(wǎng)頁地址再次進(jìn)行保存。當(dāng)滿足一定條件時,爬蟲停止工作。利用網(wǎng)絡(luò)爬蟲的主動性和智能性來解決微博搜索目前面臨的問題。
3.1 增加搜索結(jié)果的多樣性
微博目前的搜索技術(shù)在運行中沒有辦法發(fā)現(xiàn)網(wǎng)頁中的信息的規(guī)律和關(guān)鍵字,缺乏一定的智能性。所以在微博中需要建立較完整的的資料庫,以便爬蟲來獲取關(guān)鍵信息。比如建立一個基于微博搜索的媒體新聞網(wǎng)站爬蟲模型,讓微博搜索引擎通過爬蟲技術(shù)與相對成熟的新聞網(wǎng)站建立聯(lián)系。再建立時間的限制,讓微博的爬蟲接口獲取最新的微博和新聞,因為新聞網(wǎng)站的信息來源廣、具備比較高的參考價值,且每條新聞的發(fā)布都有一個后臺支撐著,這樣確保不存在過多垃圾信息,完全圍繞事件進(jìn)行微博發(fā)布,緊扣信息主題,不存在虛假和謠言信息。因此利用爬蟲建立網(wǎng)站聯(lián)系,可以對這些信息進(jìn)行聚類,增加了消息的可靠性和準(zhǔn)確性的同時也增加了微博搜索結(jié)果的多樣性。
3.2 增加搜索結(jié)果的準(zhǔn)確性
由于微博搜索的特殊性,所以關(guān)鍵字搜索在微博搜索引擎中就顯得尤為重要。在對微博主題進(jìn)行爬蟲時,需要構(gòu)建關(guān)鍵詞詞庫來幫助爬蟲對系統(tǒng)的微博信息進(jìn)行爬取,增加搜索結(jié)果的準(zhǔn)確性和覆蓋性,從而解決微博搜索結(jié)果的疏散性。
如果需要對微博搜索結(jié)果的準(zhǔn)確性進(jìn)行增加,這就需要對增加對關(guān)鍵字的數(shù)據(jù)挖掘,根據(jù)微博的文本內(nèi)容進(jìn)行聚集分析,得到不同的分類結(jié)果,從而產(chǎn)生關(guān)鍵字庫模板。并且對不同事件所涉及關(guān)鍵詞組再次進(jìn)行分類。這樣當(dāng)用戶輸入的搜索詞時,爬蟲在關(guān)鍵字庫模板中進(jìn)行分類抓取,從而得到用戶所需的查找內(nèi)容。并且把通過數(shù)據(jù)挖掘獲取到事件的時間點,聚集在一起進(jìn)行爬蟲抓取,做為數(shù)據(jù)挖掘的第一階段,在準(zhǔn)確性的基礎(chǔ)上增加了實時性。例如把近期提及一篇新聞關(guān)鍵字的微博文章和新聞都聚集在一起,再用爬蟲后的關(guān)鍵字模塊進(jìn)行關(guān)鍵字標(biāo)注,最后通過比對映射增加關(guān)聯(lián)詞詞庫,這樣微博的搜索引擎便可以對用戶大量的輸入詞進(jìn)行完整的內(nèi)容搜索和聯(lián)想。雖然微博搜索結(jié)果有一定的疏散性,但是微博信息具有很強的交互性,利用這個特性獲取事件爬取的關(guān)鍵詞然后形成詞庫,放入到數(shù)據(jù)庫中為搜索的后續(xù)信息做好前提工作。
通過查閱資料我發(fā)現(xiàn)國內(nèi)已經(jīng)開發(fā)出針對于中文的分詞技術(shù),且技術(shù)相對成熟,常用的中文分詞包有庖丁解牛分詞包(適用于Lucene整合)Ling Pipe(開源自然語言處理的Java 開源工具包)等。該技術(shù)可以完成中文分詞詞性標(biāo)注和未登錄詞識別等功能,并將結(jié)果存入到數(shù)據(jù)庫中。假如用戶想查詢與雪有關(guān)的微博內(nèi)容,利用爬蟲的關(guān)鍵字抓取技術(shù)可以可以搜索到很多與雪有關(guān)的內(nèi)容,但是如果把這個分詞技術(shù)建立在爬蟲關(guān)鍵字基礎(chǔ)上的話,那么會增加微博搜索引擎的后臺支持,當(dāng)用戶輸入雪時在搜索結(jié)果頁面中會同時展示類似冬天、寒冷等類似的微博內(nèi)容。這樣既豐富了內(nèi)容又節(jié)省了時間,提高了搜索效率。
總結(jié)來說將爬蟲技術(shù)應(yīng)用于微博搜索需要完成三個階段:
(1)構(gòu)建關(guān)鍵詞詞庫模板,綜合關(guān)鍵詞,形成模板,并實時更新。
(2)增大搜索引擎接口,選定具有代表性的信息庫來源。
(3)數(shù)據(jù)挖掘,利用分詞技術(shù)提取關(guān)鍵字的特征詞。隨著信息時代的高速發(fā)展,國內(nèi)外的熱點新聞熱點話題在網(wǎng)絡(luò)上更新的越來越迅速,關(guān)鍵詞的更新也越來越快。通過爬蟲技術(shù)在微博搜索中的應(yīng)用,增加了搜索結(jié)果的時效性、高效性、準(zhǔn)確性。
4.1 微博是否需要實名制
隨著網(wǎng)絡(luò)實名制的的發(fā)展,越來越多的社交平臺要求用戶在注冊時需要填寫自己的真實信息,如個人的地理位置、教育信息等方便在網(wǎng)絡(luò)社交圈中找到自己的好友。以社交網(wǎng)絡(luò)人人網(wǎng)為例,它是一個實名制的社交平臺,用戶注冊人人網(wǎng)時需要進(jìn)行個人身份證號、出生日期這些重要的個人信息的填寫來完成注冊,就相當(dāng)于把用戶的個人信息完全的裸露在網(wǎng)絡(luò)上,我認(rèn)為這樣做是利弊相間的,雖然增加了用戶在網(wǎng)絡(luò)中的舒適感和真實感但是同時方便了不法分子對這些信息進(jìn)行利用,增加了用戶被網(wǎng)絡(luò)詐騙的幾率。微博雖然暫時還沒有實行制度,但隨著網(wǎng)絡(luò)在我們?nèi)粘I钪械膽?yīng)用,我相信微博實名制指日可待。其實只要微博能夠有個人隱私數(shù)據(jù)的保護(hù)技術(shù),如自動提醒用戶自己的信息將被收集展示,由用戶自己決定是否繼續(xù)錄入自己的信息。網(wǎng)絡(luò)社交平臺的實名制度究竟是增加了用戶在網(wǎng)絡(luò)上的"存在感還是更大程度的暴露了用戶真實生活中的個人隱私?所以網(wǎng)絡(luò)社交平臺是否需要實名制,也是一個需要探討解決的問題。
4.2 用戶信息的泄露與保護(hù)措施
微博的魅力在于它會引導(dǎo)我們找到很多好久不聯(lián)系同學(xué),并且通過關(guān)注很容易的就看到他們的最近生活狀態(tài),微博還有一個特點就是沒有用戶訪問記錄,你可以盡情的"窺視"每個人的微博主頁,可以輕而易舉的了解一個人的交際網(wǎng)。這從側(cè)面也體現(xiàn)出了微博泄露用戶個人信息的嚴(yán)重程度。所以用戶在使用微博發(fā)布信息時,必須要知道,你在社交網(wǎng)絡(luò)上的發(fā)布的所有動態(tài)都是完全透明性的,所以一定要提高安全意識。
要處理微博用戶個人隱私安全面臨的問題,需要從用戶本身的安全保護(hù)意識和提升網(wǎng)絡(luò)技術(shù)支程的方面著手處理。因為有很多用戶并不了解信息泄露的嚴(yán)重性所以社交平臺應(yīng)該負(fù)起這個責(zé)任。并且積極引領(lǐng)用戶去了解怎么樣去保護(hù)自己的信息隱私安全,如定期變更密碼或不要隨意展現(xiàn)自己的地理位置等,提升用戶的安全意識。在當(dāng)下的網(wǎng)絡(luò)情況,多數(shù)的社交軟件都有和第三方軟件合作,比如當(dāng)用戶要完成一個新的注冊,在下方就會彈出授權(quán)第三方登陸,當(dāng)用戶同意授權(quán)后,第三方軟件則會竊取到用戶的大量信息,形成巨大的信息泄露源。所以,微博應(yīng)該在確保第三方程序安全的同時應(yīng)該有種技術(shù)讓用戶在第三方登錄時能夠完全自主選擇個人信息的展示的程度。所以,這就需要建立一個能夠控制隱私信息流的技術(shù)支撐,通過對用戶端口與服務(wù)器端口的局限設(shè)計,就能夠加強對信息流的監(jiān)管控制,從而達(dá)到保護(hù)用戶隱私安全的目標(biāo)。微博作為一個社交平臺網(wǎng)絡(luò),應(yīng)該加強自身的安全程度,采取合理有效的措施保護(hù)用戶的個人信息安全。
微博搜索的問世,是搜索系統(tǒng)發(fā)展中至關(guān)重要的一步。盡管它現(xiàn)在的發(fā)展仍然存在著很多漏洞,但是相信只要能把爬蟲技術(shù)合理的應(yīng)用到微博搜索中去,利用關(guān)鍵詞庫模板的爬蟲技術(shù)進(jìn)行微博搜索結(jié)果的進(jìn)一步完善。同時微博要盡快的的加強對用戶信息的保護(hù),積極引領(lǐng)用戶加強對隱私安全的意識,希望國家也質(zhì)定些相關(guān)的法律政策,為社交平臺的網(wǎng)絡(luò)用戶提供一個安全的上網(wǎng)環(huán)境。
[1]林紅靜,黃夢醒?;谖⒉┬畔⒌年P(guān)鍵詞庫爬蟲策略[J]。海南大學(xué)學(xué)報,2016(02):17.
[2]周中華,謝江,張惠然?;赑ython的新浪微博數(shù)據(jù)爬蟲[J]。計算機應(yīng)用,2014(11):35-36.
[3]陳晨。基于主題爬蟲的個性化搜索引擎技術(shù)研究[J]。黑龍江科技信息,2110(11):38-40.
[4]衛(wèi)冰潔,王斌,李帥,李鵬。微博檢索的研究進(jìn)展[J]。中文信息學(xué)報,2015(02):11-12.