娜塔莎·雅克是美國華盛頓大學(xué)的助理教授。此前在美國麻省理工學(xué)院讀博期間,她曾開發(fā)一種語言模型微調(diào)技術(shù),后被用于OpenAI使用到基于人類反饋強(qiáng)化學(xué)習(xí)訓(xùn)練的產(chǎn)品中。
同時,她還曾在谷歌DeepMind和谷歌大腦等公司有過實習(xí)經(jīng)歷,也曾擔(dān)任過OpenAI學(xué)者導(dǎo)師。在博士后期間,娜塔莎師從目前論文有著16萬多次引用量、谷歌學(xué)術(shù)指數(shù)為175、被人稱為“頂會狂魔”的美國加利福尼亞大學(xué)伯克利分校謝爾蓋·列文教授。
目前,除了在華盛頓大學(xué)擔(dān)任助理教授之外,娜塔莎也是谷歌DeepMind的高級研究科學(xué)家。
最近,她和團(tuán)隊發(fā)表的一篇論文被神經(jīng)信息處理系統(tǒng)大會(NeurIPS)收錄。在發(fā)表于本次大會的所有論文中,這篇論文排在前2%。
除了展示這篇論文之外,娜塔莎課題組成員也深入?yún)⑴c此次大會。娜塔莎在社交平臺上發(fā)帖稱,盡管自己的團(tuán)隊僅成立一年,但是此次一共有10名課題組成員在NeurIPS上亮相。
而在這篇排名NeurIPS大會前2%的論文中,她和團(tuán)隊開發(fā)了一種名為“變分偏好學(xué)習(xí)”的技術(shù),能針對大模型生成內(nèi)容進(jìn)行微調(diào),以便更符合用戶的個人偏好。
相關(guān)論文的題目為《通過變分偏好學(xué)習(xí)實現(xiàn)基于人類反饋的個性化強(qiáng)化學(xué)習(xí)》。
娜塔莎告訴媒體,盡管自己此前的研究成果為人類反饋強(qiáng)化學(xué)習(xí)(RLHF)帶來了助力,但是這種方法并不完美。更早之前,一個來自同行論文中的案例讓她感觸頗深:一名來自低收入家庭的學(xué)生向大模型提問,希望了解目標(biāo)大學(xué)的招生信息。
但是該大模型的生成內(nèi)容,是根據(jù)大多數(shù)申請者的情況生成的,而在這些人中并沒有太多來自低收入家庭的學(xué)生。
那么,對于這名來自低收入家庭的學(xué)生來說,該大模型可能并不會向其提供教育資金援助信息。這是因為目前的人類反饋強(qiáng)化學(xué)習(xí)技術(shù)無法解釋不同人群中個體偏好的自然差異。當(dāng)這些差異出現(xiàn)時,該技術(shù)只會針對這些差異求平均值。
在訓(xùn)練大模型的時候通常會使用到數(shù)據(jù)集,而數(shù)據(jù)集里往往包括一些固有偏見和不恰當(dāng)信息。此前,人們在開發(fā)大模型時,往往是利用人類反饋強(qiáng)化技術(shù),從大模型的生成內(nèi)容中過濾掉這些信息。
娜塔莎表示,有些大模型公司的研究人員并沒有接受過政策或社會學(xué)方面的培訓(xùn),但是他們卻決定著大模型應(yīng)該說什么和不應(yīng)該說什么。
在使用人類反饋強(qiáng)化學(xué)習(xí)這一技術(shù)時,它會讓大模型通過比較不同的輸出,來選擇其中更好的一個輸出。
它的確能夠提高生成內(nèi)容的質(zhì)量,包括在不合適的生成內(nèi)容上設(shè)置護(hù)欄。不過,這也意味著大模型會“繼承”真人訓(xùn)練者的價值體系。
仍以低收入家庭學(xué)生查找大學(xué)申請信息的問題為例,如果大模型接受了人類反饋的訓(xùn)練,它可能永遠(yuǎn)也不會提供有關(guān)教育資金援助的信息,而這會損害來自低收入家庭的學(xué)生的利益。
與此同時,在使用人類反饋強(qiáng)化學(xué)習(xí)技術(shù)的時候,大模型會將所有偏好平均在一起,但這樣生成的內(nèi)容可能并不準(zhǔn)確。舉個例子,你和鄰居都在使用家用機(jī)器人來收拾盤子。假如你希望機(jī)器人將盤子放在桌子右上角,而你的鄰居希望機(jī)器人把盤子放在桌子右下角。然而,家用機(jī)器人的開發(fā)者只是根據(jù)他們自己的偏好進(jìn)行訓(xùn)練,那么機(jī)器人就會平均這些偏好,這樣一來就很難按照每個用戶的想法來把盤子放在正確位置。
娜塔莎對媒體直言:“(以ChatGPT為例)本質(zhì)上是OpenAI的研究人員決定對模型說什么是合適的,什么是不合適的,然后將模型送到1億月活用戶的手上。但我們認(rèn)為這還不夠,因為人們的偏好非常不同。什么是恰當(dāng)?shù)?,什么是不恰?dāng)?shù)?,這取決于文化、規(guī)范和個人,這實際上是一個更深層次的問題。實際上,人工智能模型往往比人更有偏見,因為它們是在所有歷史數(shù)據(jù)上進(jìn)行訓(xùn)練的?!?/p>
娜塔莎課題組此次提出的“變分偏好學(xué)習(xí)”方法,是一種訓(xùn)練人工智能系統(tǒng)的方法,其能從具有不同偏好的不同用戶群體中學(xué)習(xí),即能讓大模型用戶自己承擔(dān)改進(jìn)輸出的角色。
只需四個查詢步驟,“變分偏好學(xué)習(xí)”就可以弄清用戶的偏好。這讓“變分偏好學(xué)習(xí)”不僅能用于言語交流,還能用于訓(xùn)練機(jī)器人以便讓其在家庭等個人環(huán)境中執(zhí)行簡單任務(wù)。
“變分偏好學(xué)習(xí)”能夠用于可操縱的個性化模型學(xué)習(xí),以及能夠捕獲用戶偏好中的不確定性和差異?!白兎制脤W(xué)習(xí)”方法通過與用戶互動來預(yù)測用戶的偏好,然后相應(yīng)地調(diào)整其輸出,即它可以讓大模型推斷出用戶的隱藏偏好。
也就是說,它能夠獲悉人類用戶更加喜歡的答案。用戶的獨(dú)特偏好便是“嵌入向量”,基于此大模型能夠針對個人偏好做出個性化預(yù)測,并在輸出內(nèi)容時堅持這些判斷。
在語言實驗和模擬機(jī)器人實驗中,娜塔莎和團(tuán)隊創(chuàng)建了一些數(shù)據(jù)集。他們發(fā)現(xiàn),用于訓(xùn)練ChatGPT等大模型的人類反饋強(qiáng)化技術(shù)根本無法適應(yīng)這些數(shù)據(jù)集,在預(yù)測用戶的二元偏好方面的準(zhǔn)確率只有50%,而當(dāng)娜塔莎引入由“變分偏好學(xué)習(xí)”方法打造的大模型時,準(zhǔn)確率能提高10%~25%。
為了滿足多元對齊的需求,娜塔莎等人還開發(fā)出一類多模態(tài)人類反饋強(qiáng)化學(xué)習(xí)方法,這一方法基于潛在變量公式。在沒有額外用戶特定數(shù)據(jù)的情況下,可以推斷出特定的學(xué)習(xí)獎勵模型和學(xué)習(xí)獎勵策略。
這種獎勵建模并非易事,需要圍繞模型架構(gòu)和獎勵縮放進(jìn)行仔細(xì)的算法考慮。為此,她和團(tuán)隊在代表不同用戶偏好的多元語言數(shù)據(jù)集上進(jìn)行實驗,結(jié)果發(fā)現(xiàn)獎勵函數(shù)的準(zhǔn)確性確實能被上述方法提高。
總的來說,“變分偏好學(xué)習(xí)”既適用于ChatGPT等大型語言模型,也適用于機(jī)器人,也能更好地反映用戶的不同價值觀。
不過,這項成果的一個主要局限性在于,截至目前并未出現(xiàn)包含不同用戶意見的大規(guī)?,F(xiàn)實偏好數(shù)據(jù)集。在這種限制之下,娜塔莎等人只能自行創(chuàng)建偏好數(shù)據(jù)集。
盡管這也是人們在研究個性化人類反饋強(qiáng)化學(xué)習(xí)時經(jīng)常采用的方法,但是未來她打算使用本次提出的“變分偏好學(xué)習(xí)”方法,從不同用戶群體中提取更真實的偏好數(shù)據(jù)。
與此同時,她認(rèn)為“變分偏好學(xué)習(xí)”除能用于建模不同用戶的偏好外,還能在大模型中發(fā)揮一定的安全優(yōu)勢。(綜合整理報道)
(策劃/小文)