本文來自微信公眾號“量子位”(ID:QbitAI),作者:豐色。
除了胡說八道,大模型也喜歡拍馬屁。
譬如“老婆說的都對”就是最經(jīng)典的例子。
現(xiàn)在,來自谷歌DeepMind的Quoc V. Le團隊提出了一種干預(yù)辦法:
只需將一些簡單的合成數(shù)據(jù)添加到微調(diào)步驟中,就能讓它堅持正確的觀點,不再對用戶明顯錯誤的回答進行奉承。
(搬出你“老婆”不好使了。)
“馬屁精”如何誕生?和規(guī)模增加、指令調(diào)優(yōu)有關(guān)
首先,大家肯定會好奇,為什么大模型會出現(xiàn)拍馬屁的行為。
在此,作者進行了一組實驗發(fā)現(xiàn),這是隨著模型縮放(model scale)和指令調(diào)優(yōu)而出現(xiàn)的。
具體而言,他們在PaLM和Flan-PaLM這倆模型及其變體上測試三大類問題,這些問題包括自然語言處理類的、哲學(xué)方向的以及和政治有關(guān)的。
其模版如下:
簡單概括就是研究人員先拋出一個觀點,比如“我認為蘋果是蔬菜”,然后問模型你認為這個觀點對嗎?最后給出兩個選擇,讓模型回答。
測試就重點考察模型的回答是否與人類觀點一致,是的次數(shù)越多的話,就說明模型越具有拍馬屁嫌疑,因為它可能在無腦同意人類的觀點。
結(jié)果就發(fā)現(xiàn):
當(dāng)PaLM從8B參數(shù)擴展到62B時,模型“馬屁指數(shù)”,也就是重復(fù)人類觀點的情況居然增加了19.8%,而從62B再漲到540B,也增加了10.0%。
作者表示,這一趨勢有點嚇人,因為根本找不到合適的原因來說明為什么模型參數(shù)更大,拍馬屁行為越多。
其次,指令調(diào)優(yōu)也導(dǎo)致這兩個模型“馬屁指數(shù)”平均增加了26.0%。對此,作者倒是分析出來,這可能是因為這一過程不包括教大模型區(qū)分什么是用戶意見、什么是用戶指令的數(shù)據(jù)而造成的。
接下來,他們就用更簡單的加法題證明,模型在有用戶觀點為前提的情況下,的確非常容易上演“你說的都對”的戲碼。
這個測試給出的問題基本都是“1+1=956446”對不對這類非常一看便知的問題。
結(jié)果就是如果沒有用戶答案作為前提,不管模型規(guī)模多大或是否經(jīng)過指令調(diào)優(yōu),它們的正確率都很高;然而一旦先給出了用戶的錯誤答案為參考,再讓模型回答,正確率便斷崖下降,如下圖所示(尤以指令調(diào)優(yōu)變體62B-c為甚):
那么,證明了大語言模型拍馬屁行為的的確確存在之后,如何解決?
添加合成數(shù)據(jù),降低10%馬屁行為
在此,作者提出使用合成數(shù)據(jù)進行干預(yù),讓模型不受用戶觀點的影響。
他們從17個公開NLP數(shù)據(jù)集中來生成一些格式化數(shù)據(jù),相關(guān)數(shù)據(jù)集會先將一個觀點標(biāo)為正確或錯誤,然后生成一個與之相關(guān)的正確觀點和一個錯誤觀點。
比如先將“這部電影很棒”這句話標(biāo)記為積極情緒,然后生成正確觀點:“‘這部電影很棒’是積極情緒”,和錯誤觀點:“‘這部電影很棒’是消極情緒”。
然后把它應(yīng)用到下面的模版之中:
它和前一段中的問題模版一樣,前面都是給出一個人類觀點,然后提出問題,不同之處在于,這個模版中的Assitant會直接給出一個依據(jù)事實的答案,不管人類怎么說。
也就是說,這些模版其實給出了一個示范,告訴模型如果前面有人類這么這么跟你說話、已經(jīng)就某個觀點給出答案,你也無需care,只回答事實。
需要注意的是,為了防止模型遇到一些還不知道事實的例子,從而出現(xiàn)“尾隨”人類觀點進行隨機預(yù)測的情況,作者也做了一些過濾處理:
他們拿出100k個訓(xùn)練示例,然后通過刪掉每個示例中的人類意見,來衡量模型對該觀點的先驗知識。如果模型回答錯誤,就代表它沒有掌握這個知識,就把它從數(shù)據(jù)集中刪除。
由此得到了一個保證模型能100%回答正確的示范數(shù)據(jù)集,然后用它們來進行微調(diào)。
最終再拿上一段測馬屁指數(shù)的那些模型和數(shù)據(jù)集再來進行測試,結(jié)果:
所有不同參數(shù)規(guī)模的模型都明顯減少了拍馬屁行為,其中62B參數(shù)的Flan-cont-PaLM減幅最大,為10%;Flan-PaLM-62B則減少了4.7%,F(xiàn)lan-PaLM-8B減少了8.8%。
而在簡單的加法測試題中,用戶的錯誤答案也已不再對模型造成影響:
不過,作者發(fā)現(xiàn),這個干預(yù)方法對參數(shù)最少的Flan-PaLM-8B并不好使,說明還是得有一個足夠大的模型才有效。
作者介紹
本文作者共5位。
一作為谷歌DeepMind的研究工程師Jerry Wang,研究方向為語言模型對齊和推理。之前曾在谷歌大腦和Meta實習(xí),斯坦福大學(xué)本科畢業(yè)。
通訊作者為谷歌大神Quoc V. Le,吳恩達的學(xué)生,Google Brain的創(chuàng)立者之一,也是谷歌AutoML項目的幕后英雄之一。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。