漂流
向量的名字中,就包含了方向的天然基因.向量概念的出現(xiàn),顛覆了我們對(duì)于數(shù)學(xué)的許多固有的認(rèn)識(shí).
向量又稱為矢量,最初被應(yīng)用于物理學(xué),向量是既有方向又有大小的量,向量的大小或方向不同會(huì)產(chǎn)生不同的量.
“向量”一詞來自力學(xué)、解析幾何中的有向線段.最先使用有向線段表示向量的是英國(guó)科學(xué)家牛頓.
大約公元前350年,古希臘著名學(xué)者亞里士多德就知道了力可以表示成向量,兩個(gè)力的組合作用可用平行四邊形法則來解決.
一般日常生活中使用的向量是一種帶幾何性質(zhì)的量,除零向量外,總可以畫出箭頭表示方向.在進(jìn)入大學(xué)后,我們還將在高等數(shù)學(xué)中學(xué)習(xí)到更廣泛的向量.如把所有實(shí)系數(shù)多項(xiàng)式的全體看成一個(gè)多項(xiàng)式空間,這里的多項(xiàng)式都可看成一個(gè)向量,在這種情況下,要找出起點(diǎn)和終點(diǎn)甚至畫出箭頭表示方向是辦不到的,這種空間中的向量比幾何中的向量要廣泛得多,可以是任意數(shù)學(xué)對(duì)象或物理對(duì)象.
向量既是幾何的研究對(duì)象,又是代數(shù)的研究對(duì)象,是溝通代數(shù)、幾何的橋梁,是重要的數(shù)學(xué)模型,其廣泛的應(yīng)用也就順理成章了.
物理中的矢量是向量的原型,向量在物理中有廣泛應(yīng)用是不言而喻的.向量與物理學(xué)中的力學(xué)、運(yùn)動(dòng)學(xué)等有著天然的聯(lián)系.很多物理量如力、速度、位移以及電場(chǎng)強(qiáng)度、磁感應(yīng)強(qiáng)度等都是向量.將向量這一工具應(yīng)用到物理中,可以使物理題解答更簡(jiǎn)捷、更清晰.
向量知識(shí)不僅是解決物理題的有利工具,而且在機(jī)器人設(shè)計(jì)與操控、衛(wèi)星定位、飛船設(shè)計(jì)等現(xiàn)代技術(shù)中也有著廣泛的應(yīng)用,大顯身手.
在計(jì)算機(jī)圖像處理技術(shù)中,存儲(chǔ)圖像有一種向量格式.向量圖形(也稱“矢量圖”)是以坐標(biāo)數(shù)值去表示一些控制點(diǎn),而點(diǎn)與點(diǎn)之間用線連起來便成圖形,所以也稱外框圖形.因?yàn)槭怯米鴺?biāo)及外框方式去記錄圖形,所以圖形可以隨意放大及縮小,其效果都是一樣的,其突出的優(yōu)點(diǎn)是所需的存儲(chǔ)空間相對(duì)于圖像小了很多.
在現(xiàn)代生活中遇到解決不了的問題時(shí),我們常常會(huì)“百度”一下,其實(shí)這中間就有向量的影子.比如目前應(yīng)用最廣泛的百度和谷歌搜索,通常使用信息檢索技術(shù)中的布爾檢索.
布爾模型已經(jīng)可以解決一個(gè)很重要的問題,就是找到和用戶需求相關(guān)的文檔(其中還需要很多技術(shù)處理等).但是這樣找到的文檔會(huì)有很多,數(shù)以萬計(jì),這遠(yuǎn)遠(yuǎn)不是用戶所要的.用戶也不會(huì)去從幾萬個(gè)文檔中挑選自己要找的.我們需要對(duì)結(jié)果進(jìn)行排序,把最能滿足用戶需求的文檔放在最上面顯示給用戶,就像谷歌和百度做的一樣.
細(xì)心的同學(xué)會(huì)發(fā)現(xiàn),其實(shí)信息檢索是一個(gè)循序漸進(jìn)的剪枝和篩選過程,最后留下的就是用戶想要的.
我們需要一種評(píng)分機(jī)制來進(jìn)行排序,通過得分的高低排出TOP N的文檔返回給用戶.如何確定這種評(píng)分的標(biāo)準(zhǔn)呢?向量空間模型(VSM)方法就是其中重要的一種.為了清楚說明問題,我們首先介紹2個(gè)概念:TF和IDF.
TF即Term Frequency,表示一個(gè)Term t出現(xiàn)在Document d中的次數(shù),這是文檔中一個(gè)很重要的概念.出現(xiàn)次數(shù)更多意味著重要程度越高,當(dāng)然需要注意的是,相關(guān)度的提高并不是和次數(shù)的提高成同比的.因此通常對(duì)TF做如下的處理:
Wl=log10(TF十1),這樣做就是要弱化次數(shù)對(duì)于相關(guān)度的影響.數(shù)學(xué)模型的思想和方法體現(xiàn)得淋漓盡致.
DF即Document Frequency,表示一個(gè)Term在整個(gè)文檔集中出現(xiàn)的頻率,與TF相反,一個(gè)Term的重要程度是隨著它在語料庫中出現(xiàn)的頻率成反比的,比如and,or等詞在幾乎所有文檔中都出現(xiàn),那么這些詞的意義就很弱,而一些專業(yè)詞匯只在幾篇文檔中出現(xiàn)過,顯然意義更加重要.IDF就是DF取倒數(shù),這里只是為了表示方便.
同樣,為了弱化頻率的效果,我們也做如下處理
有了上面的TF和IDF作為權(quán)重,我們可以很簡(jiǎn)單地計(jì)算所有詞的權(quán)重,然后用一個(gè)n維(平面向量是二維向量)的向量來表示一個(gè)文檔,同樣用n維的向量來表示Query,Query中如果沒有對(duì)應(yīng)的Term,該維權(quán)重為O.
我們已經(jīng)知道,無論是在平面還是在空間中,如果兩個(gè)向量的夾角越小,說明兩個(gè)向量越相似,反之兩個(gè)向量越無關(guān),我們可以很簡(jiǎn)單地得到向量之間的相似度.空間向量模型可以說是信息檢索中相當(dāng)常見并且非常重要的模型之一.理解起來非常簡(jiǎn)單直觀,并且效果也是很不錯(cuò)的.
同樣,向量中也有著豐富的文化內(nèi)涵,寓言故事《南轅北轍》告訴我們,很多時(shí)候,方向是否正確對(duì)事情的結(jié)果至關(guān)重要,向量的方向就像我們的人生目標(biāo)或理想,向量的模就是我們?yōu)榱诉_(dá)到目標(biāo)而付出努力的多少,只有具有了向量的這兩個(gè)條件我們才能實(shí)現(xiàn)自己的理想!
最后讓我們一起來欣賞一首關(guān)于向量的數(shù)學(xué)小詩:
我的向量
給你一個(gè)方向,你就是我的向量.
給你一個(gè)坐標(biāo)系,你就在我心中飛翔.
給你一組基底,帶著我,揚(yáng)帆啟航.
繁復(fù)的幾何關(guān)系,變成純代數(shù)的情殤.
優(yōu)美的動(dòng)態(tài)結(jié)構(gòu),沒有人情冷暖世態(tài)炎涼.
哪怕山高路遠(yuǎn),哪怕風(fēng)雨蒼茫,不管起點(diǎn)在哪,你始終在水一方.
啊,我的向量,你是一股無窮的力量,溶進(jìn)了我的身體,在我的心中,靜靜地流淌!