□鄒新明 朱本軍 張麗靜
2010年9月23日,北大圖書館自建數據庫“北大博文”(http://bowen.lib.pku.edu.cn/)正式對外發(fā)布。顧名思義,“北大博文”是匯集北大人博客文章的特色數據庫。
據筆者粗略的調查,“北大博文”是國內首家收集整理博客文章的數據庫,是網絡資源整理開發(fā)的新的嘗試。作為此類數據庫的探索性建設,“北大博文”雖然并不完美,但它卻具有一定的探索和借鑒意義。筆者不揣淺陋,擬就“北大博文”的建設思路、具體做法及相關思考三方面略加介紹,以就教于方家。
“北大博文”是由北大圖書館特藏部創(chuàng)意建設的。最初的靈感來自對“博客”這一日漸流行的網絡交流傳播形式的關注。
“博客”是繼E-mail、BBS、ICQ 之后出現的網絡交流媒介之一,大約2000年左右在中國開始流行,在網上開設博客一度成為時尚。博客之所以吸引大眾的參與,在于它自由的表達方式和平等的發(fā)表環(huán)境。但毋庸諱言的是,精英博客的影響力一般遠遠大于普通人的博客。
在關注博客的過程中,我們注意到,北大的很多學者都開設了自己的博客,并且顯示出越來越巨大的影響力,這與他們以及北大在學術界的聲譽地位有很大的關系。從我們的深入調查看,雖然有的學者淺嘗輒止,但仍有不少學者對博客這種自由便捷的思想表達和傳播方式情有獨鐘,數年下來,“積攢”了數百篇博文的學者大有人在。陳平原、饒毅、張維迎、曹文軒、賀衛(wèi)方、孔慶東、何懷宏、吳國盛、王岳川、張頤武、鄭也夫、林毅夫、汪丁丁、姚洋,……這些北大的名師,不僅在學術圈內聲名顯赫,他們的博客在普通人群中也具有很強大的號召力,擁有眾多的愛好者、支持者。
北大學者博文的內容,我們可以借用“北大博文”的廣告詞來概括:“這里有獨坐書齋的玄思冥想,這里有放眼天下的激揚文字,這里有苦辣酸甜的北大往事,這里有睿智幽默的人生感悟?!睉撜f,“北大博文”的內容正是北大學術文化傳統(tǒng)的很好的體現。眾所周知,北大學者既潛心學術,苦苦求索,又以天下為己任,關心時事。翻開北大的百余年歷史,我們可以看到以北大教授為核心的《新青年》編輯部同仁對中國思想文化的巨大影響;可以了解回國之初發(fā)誓“二十年不談政治”的胡適,于1922年創(chuàng)辦《努力周報》,忍不住公開批評時政;可以發(fā)現抨擊孔、宋權貴,被稱為“傅大炮”的傅斯年……??梢哉f,北大的學術思想的影響,不僅限于北大,也不僅限于學術界,已經擴展到中國思想、文化、政治等廣闊領域。正是由于這種積極入世、關心天下事的傳統(tǒng),北大學者的博文往往關注當下的時事問題,如國家發(fā)展研究院、光華管理學院、經濟學院的學者經常對當前經濟熱點問題提出自己的看法,北大法學院的教授則對時下的法律熱點問題進行解讀或批評等等。他們既具有廣博的專業(yè)知識,又具有敏銳的現實洞察力,因此發(fā)表的博文往往分析透徹,切中要害,深受喜歡思考現實問題的讀者的喜愛。
從北大學者博客的內容看,這些博文相當于書寫時代的日記、札記、隨筆等,這些資料不僅是他們個人的學術史和傳記的重要資料,也是北大學術史,乃至中國思想文化史的重要資料,這些博客將成為未來歷史學家研究我們這個時代的重要參考。此外,由于博客的自由隨意的特點,很多博文更能反映北大學者的真性情,這些文字是在正式出版的著作、論文中難得一見的,因此更顯珍貴。
從目前北大學者的博客看,他們一般都散見于不同的網站,如新浪、搜狐、網易等,而且很多人的博客都經歷了幾次“搬遷”,這就給閱讀者帶來很大不便。
另一方面,由于博客服務提供商的不穩(wěn)定性,而且由于他們提供的是免費博客托管,往往對博客服務的安全性和穩(wěn)定性不承擔任何責任,一旦博客服務提供商出現問題或者中斷服務,后果可想而知。因此,博客在長期存取方面存在很大的隱患。
鑒于上述原因,我們認為有必要對北大學者的博客進行收集整理,保存這些珍貴而易被忽視、遺失的資料,同時為讀者瀏覽提供方便。
據筆者調查,目前國內討論圖書館收藏博客資源的論文僅有浙江傳媒學院圖書館朱丹陽的《博客作為圖書館館藏資源的可能性初探》[1]。此外,武漢大學圖書館的謝春枝探討了博客長期存取的問題[2][3]。實踐方面,據介紹,英國2004年開始的第一個公眾網絡信息保存計劃UKWAC就包括博客的歸檔保存,而新加坡國家圖書館則計劃于2010年前對在新加坡注冊的所有博客進行存檔。
在確定對北大學者博客進行收集、整理、保存的必要性之后,我們對此項創(chuàng)意的可行性進行了調查分析,主要包括以下三個方面。
1.2.1 硬件保證
就現在博文的情況而言,一般以文字為主,即使涉及圖片,一般都比較小。因此,博文數據庫對于計算機和網絡等硬件方面沒有太高的要求。
1.2.2 讀者群
隨著網絡的普及,網絡閱讀已經成為很多人的重要閱讀方式,這其中就包括博文的閱讀。而北大學者博客現在和潛在的影響力都不容低估,他們的博文會受到校內外讀者的喜愛。
1.2.3 現有博文的規(guī)模
所謂“巧婦難為無米之炊”,“北大博文”能否成功的關鍵在于北大學者的博文是否已經具有一定的規(guī)模。據我們不完全網絡調查,北大學者擁有自己博客的至少有70余人,其中經常堅持更新的有30余人,累計博文在一百篇以上的有22人,其中三人的累計量更是高達七八百篇。從上述調查情況看,“北大博文”已有數千篇的基本積累,并且可以保證每天數篇的更新量,既有一定規(guī)模,又有一定的發(fā)展前景。
如果說上面討論的三個方面大致相當于“北大博文”建設的天時、地利,那么可以說,“北大博文”還具備了建設的“人和”因素。首先,特藏部提出的“北大博文”創(chuàng)意得到北大圖書館領導的肯定和大力支持。其次,特藏部和系統(tǒng)部積極協(xié)作,特藏部負責“北大博文”的總體設計,系統(tǒng)部負責軟件平臺的開發(fā)維護。于是,在各方面條件都很成熟有利的情況下,“北大博文”順利建成。
在進行了一定的博文閱讀,并經多次協(xié)商討論之后,我們決定采取先經網絡聚合器收集,再人工遴選發(fā)布的辦法,對于沒有收集的舊博文和沒有訂閱地址的博客,則采取人工收集的方式,然后在發(fā)布平臺整理發(fā)布。
此外,我們認為有必要對博文的內容進行一定的分析歸類,為讀者的閱讀提供一定的引導和幫助。經過研究,我們設立了六大類欄目:人文時事、人生百味、北大往事、燕園論學、休閑娛樂、職場經驗。為方便讀者,“北大博文”首頁設有分類檢索和按院系瀏覽欄。
“北大博文”主要分為收集和發(fā)布兩大環(huán)節(jié),由于目前無法做到將二者結合,一步到位,系統(tǒng)部設計了采集和發(fā)布兩個平臺,均采用開源軟件。在軟件平臺的選擇上,我們做了綜合考慮:一是數據要有很好的互操作性,便于管理和維護,避免出現“信息孤島”。二是軟件平臺需要有非常好的開放性,便于圖書館本地設計界面風格、增減功能?,F分別加以介紹:
2.2.1 開源采集平臺Gregarius
Gregarius是一款基于 Web的RSS/RDF/ATOM新聞聚合器。通過它可以收割來自不同博客源的數據。同時可以OPML標準導入/導出數據。
2.2.2 開源發(fā)布平臺 WordPress
Word Press最初是一個專門用來發(fā)布個人博客的開源軟件,但最近一些年系統(tǒng)在開源社區(qū)的管理維護下逐漸升級,不僅擁有了強大的內容管理功能,而且具備良好的開放性。使用WordPress軟件的用戶可以直接從開源社區(qū)中下載使用其主題(http://wordpress.org/extend/themes/)和功能插件(http://wordpress.org/extend/plugins/),也可 以本地開發(fā)相應主題和插件。除此之外,在數據互操作性方面也非常友好,用戶可以利用WordPress自帶數據工具導出XML格式的數據,還可以利用開源社區(qū)的功能插件,如Export Post插件、Photo Gallery XML Export插件等與其他數據系統(tǒng)進行數據互操作,避免系統(tǒng)成為一個信息孤島。
“北大博文”的操作比較簡單,首先利用“北大博文聚合服務器”實時收集更新博文,然后通過Word-Press控制臺編輯發(fā)布博文。主要需要操作的各項包括添加博文題名,編輯博客文本,添加博主姓名、博客地址、博文時間、博主所在院系等內容,給出博文分類等。
“北大博文”自發(fā)布以來,已發(fā)布博文1300余篇,引起讀者的關注,受到讀者的好評,讀者瀏覽量也不斷上升,月瀏覽量已經上升到近9000次(2010年11月24日至12月23日)。從2010年11月24日至12月23日一個月的調查統(tǒng)計看,訪問者52%來自北京,其余則來自北京以外各省市,以河南、廣東、江蘇、山東等省為多。
“北大博文”發(fā)布后,也吸引了一些讀者積極參與,經濟學院、馬克思主義學院兩位老師主動聯系我們,要求添加他們的博客。同時,也有讀者與我們聯系,提出改善意見。
在進行博文的收集整理過程中,筆者也對遇到的問題進行了一些思考。
收集發(fā)布博文的形式問題,是采取我們目前的收集整理重新發(fā)布的方式,還是采取網絡聚合的方式?應該說這兩種方式各有利弊,前者便于工作人員對博客內容進行一定的篩選,并為讀者閱讀提供一定的引導,不足是要一篇篇手工添加,比較費時費力,而且不能保持博客的原貌。后者只要添加訂閱地址,后續(xù)工作由網絡聚合器自動執(zhí)行,比較方便易行,不足是不能對博客內容進行管理控制,而且對于沒有訂閱地址的博客無法收入,也無法回溯舊的博文。
博客是全部照收,還是有所挑選。筆者現在執(zhí)行的原則是堅持原創(chuàng)性,對于轉貼的文字一律不收。在具體內容上,一些與博文沒有直接關系的照片不收,一些容易引起歧義或爭執(zhí)的博文暫時不收。這樣的做法,無疑會對保持博文的完整性產生影響,具體應該如何處理,還須進一步探討。
從收藏內容看,高校師生博客可以看作高校文庫的新的潛在收藏資源。從這一意義上說,“北大博文”現在的收錄范圍還是比較狹窄的,需要擴充到學生和更多的老師。另外,由于人力有限,我們目前收錄的以北大人文社科的學者的博客為主,而且以最新博客為主,他們往日的積累還沒有完全回溯發(fā)布。因此,我們認為,“北大博文”還有很多工作要做,具體包括:
3.3.1 收集和征集更多的博客
(1)教師博客
由于教師博客一般采用實名,這就為搜索他們的博客提供了方便。下一步準備對理工科各院系老師的博客實行“地毯式搜索”,進一步發(fā)現新的博客。此外還要通過一定的形式宣傳“北大博文”,征集博客地址。
(2)學生博客
學生博客一般不使用實名,即使采用實名,由于重名者很多,給辨別博主是否為北大學生帶來很大困難。北大學生思想活躍,他們的博客也是不容忽視的重要資源,因此必須想辦法通過諸如公開征集、深入調查等方式來收集他們的博客。
3.3.2 已經收集博客的回溯
由于目前博文發(fā)布采取人工拷貝粘貼的方式,舊博客的回溯非常費功夫,需要一定的人力保障。
3.3.3 關注并考慮是否收錄“微博”
“微博”由于技術門檻低,發(fā)布途徑多而頗受青睞。北大人的微博現狀如何,需要加以調查,并根據實際情況決定是否收入“北大博文”。
“北大博文”是我們對網絡資源整理開發(fā)的一個嘗試,它多少體現了E時代圖書館人在資源整合方面的重要作用,同時也提醒我們關注新的媒介資源,及時加以收集、整理和保存,并提供相應的服務。
最后,我們希望“北大博文”能夠起到“拋磚引玉”的作用,期待更多同仁加入到博客的收集整理行列,彼此互通有無,共同提高。
參考資料
1 朱丹陽.博客作為圖書館館藏資源的可能性初探.情報探索,2009(1):71-73
2 謝春枝.博客長期存取的國外研究與實踐.圖書情報工作,2009,53(8):50-53
3 謝春枝.博客長期存取的現狀和對策研究.圖書情報知識,2009(6):81-86