本文來自于微信公眾號 AIGC開放社區(qū)(ID:AIGCOPEN),作者:AIGC開放社區(qū)。
全球社交、科技巨頭Meta在官網(wǎng)開源了全新模型——LlamaGuard。
據(jù)悉,Llama Guard是一個基于Llama2-7b的輸入、輸出保護模型,可對人機會話過程中的提問和回復進行分類,以判斷其是否存在風險。可與Llama2等模型一起使用,極大提升其安全性。
Llama Guard也是Meta推出的“Purple Llama”安全評估項目中,輸入、輸出保障環(huán)節(jié)的重要組成部分,這也是首個在輸入輸出防護中區(qū)分用戶與AI風險的模型。
Llama Guard簡單介紹
研究人員設計了一個包含法律和政策風險的安全風險分類體系。分類體系包含6大類可能的安全風險:暴力與仇恨、色情內(nèi)容、非法武器、犯罪計劃等。
此外還詳細說明了每個風險類別中的易犯錯誤。
通過使用Anthropic提供的人機對話數(shù)據(jù)集,對數(shù)據(jù)進行標記。標記內(nèi)容包括對話提問與回應中的風險類別及是否存在安全隱患。最終收集了近14000條標注好的對話樣本。
再以Llama2-7b作為基礎模型,采用指令式學習框架進行訓練。此框架將分類任務表述為一個接一個的指令任務。
使Llama Guard根據(jù)輸入指令和數(shù)據(jù)學習進行多類分類。研究人員為用戶提問和機器回復分別編寫指令,實現(xiàn)對其語義結構的區(qū)分。
還采取數(shù)據(jù)增強方法,強化模型只考慮給定輸入中的分類信息。
測試數(shù)據(jù)
首先在內(nèi)部測試集上進行驗證,Llama Guard在整體和每個單獨分類上的表現(xiàn)都超過了其他內(nèi)容監(jiān)管工具。
然后,研究人員采用零樣本和少量實例學習的方法,將Llama Guard遷移到其他公開測試集上進行驗證。
測試結果顯示,在ToxicChat數(shù)據(jù)集上,Llama Guar的平均準確率高于所有基線方法;在OpenAI評估數(shù)據(jù)集上,Llama Guard在零樣本的情況下與OpenAI內(nèi)容監(jiān)管API表現(xiàn)相當。
此外,Llama Guard使用了指令調(diào)優(yōu),可以適配不同的AI分類法或政策。用戶可以通過零樣本或小樣本的方式便可實現(xiàn)指令遷移,以適配不同的應用場景需求。
文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。