RLAIF的獨特之處在于利用其他人工智能模型的反饋來提升性能,相較于傳統(tǒng)的人工反饋,這種方法更具有成本效益、速度快、透明度高、可擴展性強的優(yōu)勢。Starling-7B基于新的Nectar數(shù)據(jù)集進行訓練,包含183,000個聊天提示和380萬個成對比較。
研究人員使用兩個基準測試(MT-Bench和AlpacaEval)評估了Starling-7B的性能,這兩個測試使用GPT-4進行評分,分別關注模型在簡單指令跟隨任務中的安全性和幫助性。Starling-7B在MT-Bench中表現(xiàn)良好,與OpenAI的GPT-4和GPT-4Turbo相媲美,在AlpacaEval中達到了與商業(yè)聊天機器人相當?shù)乃健?/p>
研究人員指出,RLAIF主要改善了模型的幫助性和安全性,而在基本能力方面,如回答基于知識的問題、數(shù)學或編碼等,改進較小。
盡管基準測試的實際應用有限,但對RLAIF的應用前景充滿希望。研究人員建議的下一步是通過引入高質量的人工反饋數(shù)據(jù),更好地調整模型以滿足人類需求。
與此同時,研究人員強調,Starling-7B和其他類似的大型語言模型在需要推理或數(shù)學任務時仍然存在困難,并可能產生幻覺。他們將Nectar數(shù)據(jù)集、Starling-RM-7B-alpha獎勵模型和Starling-LM-7B-alpha語言模型發(fā)布在Hugging Face上,并提供了研究許可證,代碼和論文將很快公開。感興趣的人還可以在聊天機器人領域測試該模型。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。