本文來自于微信公眾號 AIGC開放社區(qū)(ID:AIGCOPEN),作者:AIGC開放社區(qū)。
全球社交、科技巨頭Meta在官網(wǎng)開源了全新模型——LlamaGuard。
據(jù)悉,Llama Guard是一個基于Llama2-7b的輸入、輸出保護模型,可對人機會話過程中的提問和回復進行分類,以判斷其是否存在風險?膳cLlama2等模型一起使用,極大提升其安全性。
Llama Guard也是Meta推出的“Purple Llama”安全評估項目中,輸入、輸出保障環(huán)節(jié)的重要組成部分,這也是首個在輸入輸出防護中區(qū)分用戶與AI風險的模型。
Llama Guard簡單介紹
研究人員設(shè)計了一個包含法律和政策風險的安全風險分類體系。分類體系包含6大類可能的安全風險:暴力與仇恨、色情內(nèi)容、非法武器、犯罪計劃等。
此外還詳細說明了每個風險類別中的易犯錯誤。
通過使用Anthropic提供的人機對話數(shù)據(jù)集,對數(shù)據(jù)進行標記。標記內(nèi)容包括對話提問與回應(yīng)中的風險類別及是否存在安全隱患。最終收集了近14000條標注好的對話樣本。
再以Llama2-7b作為基礎(chǔ)模型,采用指令式學習框架進行訓練。此框架將分類任務(wù)表述為一個接一個的指令任務(wù)。
使Llama Guard根據(jù)輸入指令和數(shù)據(jù)學習進行多類分類。研究人員為用戶提問和機器回復分別編寫指令,實現(xiàn)對其語義結(jié)構(gòu)的區(qū)分。
還采取數(shù)據(jù)增強方法,強化模型只考慮給定輸入中的分類信息。
測試數(shù)據(jù)
首先在內(nèi)部測試集上進行驗證,Llama Guard在整體和每個單獨分類上的表現(xiàn)都超過了其他內(nèi)容監(jiān)管工具。
然后,研究人員采用零樣本和少量實例學習的方法,將Llama Guard遷移到其他公開測試集上進行驗證。
測試結(jié)果顯示,在ToxicChat數(shù)據(jù)集上,Llama Guar的平均準確率高于所有基線方法;在OpenAI評估數(shù)據(jù)集上,Llama Guard在零樣本的情況下與OpenAI內(nèi)容監(jiān)管API表現(xiàn)相當。
此外,Llama Guard使用了指令調(diào)優(yōu),可以適配不同的AI分類法或政策。用戶可以通過零樣本或小樣本的方式便可實現(xiàn)指令遷移,以適配不同的應(yīng)用場景需求。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。