張寧昳
(浙江傳媒學院 浙江杭州 310018)
個性化推薦系統(tǒng)在Web2.0時代成為一種很好的挖掘“暗文本”進行信息篩選的解決方案,這種解決方案越來越普遍的使用在目前的網(wǎng)絡(luò)現(xiàn)實中。Amazon、Google和IBM等互聯(lián)網(wǎng)應(yīng)用服務(wù)商都已將這種個性化推薦系統(tǒng)融入到了自己的產(chǎn)品當中,也為這種個性化推薦系統(tǒng)的數(shù)據(jù)底層積累了越來越多的海量文本。個性化推薦系統(tǒng)輸出文本的組織結(jié)構(gòu)是個性化推薦系統(tǒng)交付給用戶成果的最直接,也是最直觀的方式之一。文本的組織結(jié)構(gòu)在一定程度上決定著人們是如何獲得這些文本的,將怎樣定位這些獲得文本的優(yōu)先級,甚至影響到人從文本中獲得的知識在腦中的組織結(jié)構(gòu)。個性化推薦系統(tǒng)通過輸出的推薦文本間存在著怎樣的文本組織結(jié)構(gòu)成為一個值得認真探究的問題。
Amazon是世界上最大的網(wǎng)上商店,其ALEX排名位列全球第八。每天有上千萬本圖書在Amazon被交易。Amazon有相當久遠的文本個性化推薦系統(tǒng)開發(fā)使用歷史,1997 年,Amazon的創(chuàng)始人杰夫·貝索斯(Jeff Bezos)決定開始嘗試根據(jù)客戶以前的購物喜好為其推薦具體的書籍。在此之前,個性化推薦系統(tǒng)才剛剛在1995年被提出,當時還只是一個實驗室理論級別的概念,而其它的互聯(lián)網(wǎng)公司則是直至2001年才開始在他們的服務(wù)中加入了個性化推薦系統(tǒng),如,2001年,IBM電子商務(wù)平臺Websphere中增加了個性化功能推薦功能;2007年,Google才在其AdWords添加了個性化推薦功能,雅虎推出了個性化推薦廣告方案 SmartAds;2009 年,美國著名的網(wǎng)上零售商Overstock才開始使用個性化推薦功能。由此可以看出1997年進入個性化推薦系統(tǒng)開發(fā)的Amazon可謂是這個領(lǐng)域的先驅(qū)了。
Amazon個性化推薦系統(tǒng)的發(fā)展史也可以說推動了個性化推薦系統(tǒng)的發(fā)展,Amazon最早的系統(tǒng)采用了準確度非常低的原始統(tǒng)計方法來處理大量的客戶數(shù)據(jù),并以此為依據(jù)進行商品推薦,直至1998年,Amazon申請“item-to-item”協(xié)同過濾技術(shù),并將這種技術(shù)在Amazon中推廣使用才使得個性化推薦系統(tǒng)變的開始完善起來。現(xiàn)在,經(jīng)過了很多的改進的Amazon推薦系統(tǒng)是目前運用最成功的推薦系統(tǒng)之一,Amazon2012年報顯示,其將近30%的圖書銷售量源自個性化推薦系統(tǒng)。Amazon個性化推薦系統(tǒng)中被相關(guān)關(guān)系連接起來的主要是文本,16年的發(fā)展也沉淀積累了海量的文本和相關(guān)信息,相關(guān)關(guān)系和文本組織結(jié)構(gòu)也相對穩(wěn)定而成熟。
本文選擇Amazon的書籍個性化推薦系統(tǒng)作為主要的數(shù)據(jù)來源,對自然科學、人文社科兩個學科分類標準大類中的487個相關(guān)性聯(lián)接的文本樣本進行了統(tǒng)計分析。為了方便本研究的數(shù)據(jù)總結(jié)和分析,本文對所收集的數(shù)據(jù)進行了四層數(shù)據(jù)結(jié)構(gòu)模型,即:
(1)一層:數(shù)據(jù)起始層,五個學科大類每個大類各隨機選取兩個文本作為起始數(shù)據(jù);
(2)二層:一層文本經(jīng)過個性化推薦系統(tǒng)推薦而得的文本集合;
(3)三層:由二層文本經(jīng)個性化推薦系統(tǒng)推薦而得的文本集合;
(4)四層:由三層文本經(jīng)過個性化推薦系統(tǒng)推薦而得的文本合集。
2.2.1 雙向可逆性的文本組織結(jié)構(gòu)聯(lián)結(jié)方式
在數(shù)據(jù)分析的過程中,一個典型的個案引起了我們的注意,在對一層起始數(shù)據(jù)《大數(shù)據(jù)時代》及其二三層數(shù)據(jù)進行分析的過程中,研究者注意到這樣一個現(xiàn)象,一層數(shù)據(jù)《大數(shù)據(jù)時代》經(jīng)過個性化推薦系統(tǒng)推薦了我們的二層推薦文本之一《第三次工業(yè)革命:新經(jīng)濟模式如何改變世界 》。當研究者進一步觀察由《第三次工業(yè)革命:新經(jīng)濟模式如何改變世界 》經(jīng)推薦系統(tǒng)推薦的文本時,發(fā)現(xiàn)其中第一位的推薦文本就是《大數(shù)據(jù)時代》。經(jīng)過個性化推薦系統(tǒng)組織的文本之間存在一種回歸現(xiàn)象,即從一個文本起始經(jīng)過兩次上文本推薦,輸出的推薦結(jié)果中包含了起始文本。
為了研究這種現(xiàn)象,我們從總量為214個文本的二層數(shù)據(jù)中隨機抽取了40個文本進行調(diào)查,其中有36個文本出現(xiàn)了這種回歸現(xiàn)象,占到了總數(shù)的百分之九十。高達百分之九十的回歸現(xiàn)象發(fā)生率表現(xiàn)出了回歸現(xiàn)象在由個性化推薦系統(tǒng)聯(lián)系起來的文本之間。將這種組織結(jié)構(gòu)直接可視化之后可以得到一個環(huán)狀的組織機構(gòu),但進一步歸納內(nèi)在的邏輯我們能夠得到雙向可逆的組織結(jié)構(gòu)(見圖1),而這種普遍存在的回歸現(xiàn)象起始,可認為是個性化推薦系統(tǒng)下文本的雙向可逆的組織結(jié)構(gòu)聯(lián)結(jié)方式的外在表現(xiàn)。
圖1 回歸現(xiàn)象的可視化歸納示意圖
從推薦輸出的文本是否對使用者提供使用價值而言,雙向可逆文本在第二次經(jīng)過個性化推薦系統(tǒng)推薦的過程中產(chǎn)生了重復性的無效信息。簡而言之,就是以A作起始文本,該文本經(jīng)過個性化推薦系統(tǒng)的推薦輸出推薦文本B,推薦文本B經(jīng)過個性化推薦系統(tǒng)推薦輸出結(jié)果為A的文本。此時的A文本對于基于B的文本推薦的結(jié)果就是一個重復性的無效信息。
這一冗余信息廣泛的分布在整個個性化推薦系統(tǒng)的每條推薦結(jié)果中,這種重復性的信息其實有很高的相關(guān)關(guān)系,但是對于個性化推薦系統(tǒng)的使用者而言還是太過機械,也許這是日后個性化推薦系統(tǒng)往更加智能精確方向改進、發(fā)展的一個突破口。
2.2.2 網(wǎng)狀的文本間組織結(jié)構(gòu)
進一步擴展上述的回歸性研究的范圍,隨機的從214個二層文本中抽取24個文本,研究一個起始文本經(jīng)過三次及以上的個性化推薦系統(tǒng)推薦,每次推薦輸出的結(jié)果。出現(xiàn)了一個有趣的現(xiàn)象。如,一層起始文本為《果殼中的宇宙》,經(jīng)個性化推薦系統(tǒng),二層文本出現(xiàn)《相對論》,經(jīng)個性化推薦系統(tǒng)再推薦,三層文本出現(xiàn)《物種起源》,再經(jīng)系統(tǒng)推薦,四層文本中出現(xiàn)《果殼中的宇宙》,即為一層起始文本。在隨機選取的24個文本中,經(jīng)過5次個性化推薦系統(tǒng)推薦后文本出現(xiàn)回歸現(xiàn)象的有16個,占到了總數(shù)的66.7%。
隨機抽樣顯示這種多邊形的文本組織結(jié)構(gòu)廣泛的存在于個性化推薦系統(tǒng)輸出的文本中,且由于各個起始文本在個性化推薦系統(tǒng)推薦結(jié)構(gòu)輸出的時候往往輸出不止一個結(jié)果,由此為每個多邊形的“節(jié)點”——文本提供了接向其他多邊形的接口。由于這種單個的多邊形結(jié)構(gòu)可以疊加,而通過疊加后的個性化推薦系統(tǒng)輸出的文本間就呈現(xiàn)出了一種網(wǎng)狀的組織結(jié)構(gòu)(見圖2)。
圖2 網(wǎng)狀文本組織結(jié)構(gòu)疊加效果圖(局部)
2.3.1 文本學科間橫向組織結(jié)構(gòu)緊密
不同學科的起始文本經(jīng)過個性化推薦系統(tǒng)文本推薦后,輸出的文本學科門類傾向于和不同學科的文本在組織結(jié)構(gòu)上建立起聯(lián)系,這種現(xiàn)象在所有的統(tǒng)計樣本中都有體現(xiàn),如,天文學的起始文本,系統(tǒng)推薦后有物理學、文學、歷史學、數(shù)學、生物學、哲學、力學、系統(tǒng)學及經(jīng)濟學;以物理學為起始文本的系統(tǒng)推薦結(jié)果有天文學、物理學、文學、歷史學、數(shù)學、生物學、哲學、力學、心理學、林學和經(jīng)濟學。比較突出的是天文學文本,其不光與自然科學領(lǐng)域的物理學、生物學、化學、力學等學科有著緊密關(guān)聯(lián),還與人文學科中的歷史學、文學、哲學、經(jīng)濟學文本建立起了組織機構(gòu)上的聯(lián)系。這種組織上的聯(lián)系使得單文本在組織結(jié)構(gòu)中的獨立性得到了很大的提升,不需要依附于原有的學科分類組織結(jié)構(gòu)形式。
2.3.2 層級間文本內(nèi)容具有相對沿承關(guān)系
天文學起始文本經(jīng)過一次個性化推薦系統(tǒng)推薦輸出的推薦文本共有50個,其中天文學文本13個、物理學文本12個、文學文本6個、數(shù)學文本5個、歷史學文本4個、生物學文本3個、哲學文本2個、力學文本2個、化學文本1個、系統(tǒng)科學文本1個、經(jīng)濟學文本1個。按照比例劃分:天文學文本占推薦文本總數(shù)的26%、物理學文本占24%、文學文本占12%、數(shù)學文本占到10%、歷史學文本占8%、生物學文本占6%、哲學文本占4%、力學文本占4%、化學、系統(tǒng)科學、經(jīng)濟學文本各占2%。
天文學起始文本經(jīng)過一次個性化推薦系統(tǒng)推薦輸出的推薦文本共有38個,其中天文學文本6個、物理學文本10個、文學文本7個、數(shù)學文本2個、歷史學文本4個、生物學文本1個、哲學文本1個、力學文本1個、心理學1個、林學2個。按照比例劃分:天文學文本占推薦文本總數(shù)的15%、物理學文本占26%、文學文本占18%、數(shù)學文本占到5%、歷史學文本占10%、生物學、哲學、心理學文本各占3%、林學文本占5%。
可見,天文學起始文本經(jīng)過個性化推薦系統(tǒng)推薦所得的文本中同為天文學的文本占到了最大的比重為26%,物理學為其實文本經(jīng)過個性化推薦系統(tǒng)所得的文本中物理學文本占到的比重最大為26%。在人文學科這種沿承關(guān)系更加明顯,以文學為起始文本經(jīng)過一次個性化推薦系統(tǒng)推薦輸出的文本學科統(tǒng)計表達到了80%。
2.3.3 文本組織結(jié)構(gòu)更加開放
經(jīng)過追蹤8組文本個性化推薦系統(tǒng)推薦后輸出的文本在3天內(nèi)的變化情況,一一對比三天前和三天后8組文本經(jīng)過個性化推薦系統(tǒng)輸出的文本,筆者得到了如下數(shù)據(jù):1組文本的個性化推薦內(nèi)容中出現(xiàn)了從前未出現(xiàn)過的新增文本內(nèi)容。從統(tǒng)計學上來說這是一個非常不起眼的樣本量,可這個新增文本內(nèi)容展現(xiàn)了開放的文本組織結(jié)構(gòu)特征。
這從個性化推薦系統(tǒng)的原理上也可以得到證明,個性化信息系統(tǒng)通過相關(guān)關(guān)系來進行推薦,而這種相關(guān)關(guān)系是通過使用者行為建立起來的,使用者行為是一個動態(tài)的過程,這個過程適應(yīng)著不斷出現(xiàn)的新文本。新的文本也在這個動態(tài)的過程中被與原有的文本建立起相關(guān)關(guān)系,并因為這種相關(guān)關(guān)系被納入系統(tǒng)當中。
2.3.4 文本組織結(jié)構(gòu)相對穩(wěn)定
進一步研究8組文本個性化推薦系統(tǒng)推薦后輸出的文本在3天內(nèi)的變化情況,筆者發(fā)現(xiàn)每組數(shù)據(jù)中個性化推薦系統(tǒng)輸出的文本在排序上每次都與上次略有不同。但其中七組經(jīng)過推薦后的文本內(nèi)容沒有發(fā)生改變。簡而言之,個性化推薦系統(tǒng)輸出的推薦文本結(jié)果只是在排序上發(fā)生了改變,而具體文本沒有發(fā)生太大的變化。體現(xiàn)出個性化推薦系統(tǒng)輸出的文本結(jié)構(gòu)上具有相對的穩(wěn)定性。
Amazon的文本組織結(jié)構(gòu)幫助文本的接受者建立文本間關(guān)系的初步認識,是一種最直接最直觀的接觸個性化推薦系統(tǒng)交付給我們成果的方式之一。文本的組織結(jié)構(gòu)在一定程度上決定著人們是如何獲得這些文本的,將怎樣定位這些獲得文本的優(yōu)先級,甚至影響到人們從文本中獲得的知識在腦中的組織結(jié)構(gòu)。這種組織結(jié)構(gòu)特點對目前已開展大量個性化服務(wù)的圖書館而言,具有一定的啟示作用。
從以上可以看出,由于個性化推薦系統(tǒng)的影響,Amazon輸出的文本的組織結(jié)構(gòu)學科橫向間的關(guān)系非常的緊密,這意味著從前相互關(guān)系松散的學科間的聯(lián)系也變的緊密起來。因此,用戶從一個學科的起始文本引向另一個嶄新學科的文本的步長變的相對較短。如從《量子世界:寫給所有人的量子物理》這個物理學的文本出發(fā)到獲得一個《三體》這個文學文本需要經(jīng)過的途徑變的非常的短,只需要通過兩次或更少次數(shù)的信息篩選。對圖書館來說,一方面,學科間的緊密聯(lián)系,使得圖書館的信息資源相互間的聯(lián)系也進一步緊密,如何根據(jù)個性化推薦實現(xiàn)資源的導購、實現(xiàn)資源的緊密一體化,以為用戶特別是需要專業(yè)化信息的用戶提供基于用戶學科文本知識需求的知識推薦服務(wù),將是資源建設(shè)中無法避免的一大問題。另一方面,跨學科資源獲取的路徑變短,將為圖書館的信息服務(wù)人員,特別是為用戶提供信息服務(wù)的書目推薦人員、信息咨詢館員、學科館員等提出了挑戰(zhàn),合理配置館員的學科背景,通過培訓等教育手段實現(xiàn)館員學科知識的均衡化與合理化,以為用戶提供所需的跨學科資源信息,也必將成為未來圖書館館員建設(shè)的一大考慮因素。
個性化推薦系統(tǒng)在表述上從來不強化其影響下內(nèi)在的文本內(nèi)容組織結(jié)構(gòu)關(guān)系,個性化推薦系統(tǒng)輸出推薦文本的時候,表述上一般使用“其他的用戶也購買了”、“猜你喜歡”等類似說法。這些說法有很弱的組織結(jié)構(gòu)關(guān)系、邏輯關(guān)系,使得原始文本和被推薦文本之間很難快速的在人腦中被組織進原有的知識體系。這種注重推薦輸出文本結(jié)構(gòu)而不重視推薦文本推薦原因和內(nèi)在邏輯的文本獲得習慣日益養(yǎng)成,弱化了人們對文本間邏輯組織,結(jié)構(gòu)組織的需要,呈現(xiàn)出弱化邏輯關(guān)系的特征。這些信息獲取習慣的養(yǎng)成,也將影響到民眾到圖書館獲取信息的行為和需求,圖書館傳統(tǒng)的編目、分類可能對用戶來說他們并不掌握,甚至都不曾在資源的檢索中應(yīng)用,進一步弱化圖書館所藏文獻文本間的學科關(guān)系。Worlcat等一站式資源發(fā)現(xiàn)服務(wù)系統(tǒng)的應(yīng)用,已說明圖書館注意到了用戶的這些需求,進而通過資源的知識關(guān)聯(lián)去實現(xiàn)圖書館的資源組織、資源檢索與資源提供方式。圖書館只有實現(xiàn)資源的語義開發(fā)與數(shù)據(jù)關(guān)聯(lián),通過知識的關(guān)聯(lián)去建立館藏資源、網(wǎng)絡(luò)資源與共享資源的組織結(jié)構(gòu),進而為用戶提供基于知識組織的知識服務(wù),才有可能保持社會信息存儲中心、服務(wù)中心的社會地位。
海量的數(shù)據(jù)使得人力的篩選變的有點力不從心,于是信息篩選從復雜的計算法和數(shù)據(jù)模型中找到信息篩選的捷徑。兩個典型的例子就是美國的《郝芬頓郵報》和《高客網(wǎng)》在采編新聞時通常將數(shù)據(jù)作為重要的參考因素,而非編輯的新聞敏感度。這種趨勢意味著人力在海量信息的沖擊下有時已經(jīng)無力承擔守門人的角色,開始向算法和數(shù)學模型尋求解決方案。這意味著守門人的權(quán)利開始下放給算法。信息篩選原則被革新。個性化推薦系統(tǒng)是一種基于海量數(shù)據(jù)模型和復雜算法的信息篩選系統(tǒng),它與它具有同類性質(zhì)的數(shù)據(jù)系統(tǒng)的使用正在一點點改變信息篩選的原則。而圖書館目前提供的個性化推薦服務(wù),還并未真正達到完全的智能化與系統(tǒng)化,根據(jù)用戶的信息定制,通過E-mail、RSS等途徑或技術(shù)來實現(xiàn)是圖書館個性化服務(wù)的主要實現(xiàn)方式,而這些方式明顯遠遠落后于Amazon長期堅持的計算機智能化管理平臺,因為這種管理平臺一方面可以積累大量的文本數(shù)據(jù)、用戶習慣等大量的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù),同時還可以通過算法及文本關(guān)聯(lián)模型的改進來實現(xiàn)對個性化服務(wù)的效果提升。
個性化推薦系統(tǒng)是一種基于海量數(shù)據(jù)和計算機算法的信息篩選方式,并在文本選擇與提取領(lǐng)域得到了廣泛利用,盡管如本文選取的Amazon個性化推薦系統(tǒng)經(jīng)過了十余年的發(fā)展與改進,已具有了廣泛的成功實踐經(jīng)驗,但隨著社會計算機技術(shù)的發(fā)展與用戶信息行為的變化,個性化推薦系統(tǒng)還將進一步得到發(fā)展,并在文本的組織結(jié)構(gòu)等方面表現(xiàn)出新的特征。圖書館界需注意到這些個性化推薦系統(tǒng)所表現(xiàn)出的特征,以改進自己的個性化推薦系統(tǒng),并通過對這些互聯(lián)網(wǎng)企業(yè)的個性化推薦系統(tǒng)特征的分析,去提升、改變自己的館藏建設(shè)、人才建設(shè)與服務(wù)建設(shè),進而推動圖書館事業(yè)的發(fā)展。
[1]Web2.0 時代我們需要什么樣的閱讀 [EB/OL].[2012-06-29].http://www.bookdao.com/article/41363/?type=98.
[2]劉友林.基于網(wǎng)絡(luò)結(jié)構(gòu)的個性化推薦系統(tǒng)的研究[D].上海:東華大學2012年碩士畢業(yè)論文,2012.
[3]Amazon[EB/OL].[2012-06-29].http://www.amazon.cn/.
[4]從亞馬遜公司的發(fā)展看電子商務(wù)[EB/OL].[2012-06-29].http://www.360doc.com/content/08/1231/12/43201_2233494.shtml.
[5]Alysis全面支持 IBM WebSphere電子商務(wù)平臺[EB/OL].[2012-06-29].http://news.chinabyte.com/240/1247740.shtml.
[6]谷歌AdWords添加關(guān)鍵字搜索 可看月搜索頻率 [EB/OL].[2012-06-29].http://news.ccidnet.com/art/1032/20080711/1503165_1.html.
[7]雅虎推SmartAds定制工具提高網(wǎng)絡(luò)廣告競爭能力[EB/OL].[2012-06-29].http://www.cnetnews.com.cn/2007/0703/415547.shtml.
[8]話說精準營銷[EB/OL].[2012-06-29].http://www.a-wa ys.cn/news/content-30.html.
[9]亞馬遜公司(Amazon):世界上銷售量最大的網(wǎng)上書店[EB/OL].[2012-06-29].http://wiki.mbalib.com/wiki/AMAZON.