今天凌晨,OpenAI分享了兩篇關(guān)于o1、GPT-4、DALL-E3等前沿模型的安全測(cè)試方法。
一份是OpenAI聘請(qǐng)外部紅隊(duì)人員的白皮書,另外一份是通過AI進(jìn)行多樣化、多步驟強(qiáng)化學(xué)習(xí)的自動(dòng)化安全測(cè)試論文。希望可以為更多的開發(fā)人員提供借鑒,開發(fā)出安全、可靠的AI模型。
此外,為了增強(qiáng)安全性和提升測(cè)試效率,OpenAI會(huì)讓AI與人類一起協(xié)作測(cè)試。這樣做的好處是,人類為 AI 提供先驗(yàn)知識(shí)與指導(dǎo),包括專家依專業(yè)判斷設(shè)定測(cè)試目標(biāo)、范圍、重點(diǎn)及策略,助其實(shí)現(xiàn)針對(duì)性測(cè)試;
AI 則為人類提供數(shù)據(jù)支持與分析結(jié)果,經(jīng)對(duì)大量數(shù)據(jù)的分析,為人類提供系統(tǒng)性能及潛在風(fēng)險(xiǎn)點(diǎn)的報(bào)告。
下面「AIGC開放社區(qū)」就根據(jù)這兩份內(nèi)容,簡單為大家解讀一下OpenAI的主要測(cè)試方法。有興趣的小伙伴也可以查看原版論文。
生成多樣化攻擊和多步驟強(qiáng)化學(xué)習(xí)
OpenAI的紅隊(duì)測(cè)試可分解為兩個(gè)關(guān)鍵步驟:生成多樣化的攻擊目標(biāo)以及為這些目標(biāo)生成有效的攻擊。這種分解策略的目的是將問題簡化,使得每個(gè)步驟都可以獨(dú)立優(yōu)化,從而提高整體的效率和效果。
在生成多樣化攻擊目標(biāo)的步驟中,系統(tǒng)首先需要定義攻擊的目標(biāo)和范圍。這涉及到對(duì)AI模型的潛在用途和潛在風(fēng)險(xiǎn)進(jìn)行全面的評(píng)估。
例如,如果一個(gè)AI模型被設(shè)計(jì)用來處理自然語言,那么攻擊目標(biāo)可能包括生成有害內(nèi)容、泄露敏感信息或放大偏見等。這些目標(biāo)不僅需要覆蓋模型可能的故障模式,還要考慮到模型在不同應(yīng)用場(chǎng)景下的行為。
為了實(shí)現(xiàn)這一目標(biāo),系統(tǒng)采用了多種方法來生成攻擊目標(biāo)。其中一種方法是利用現(xiàn)有的數(shù)據(jù)集,這些數(shù)據(jù)集包含了歷史上的攻擊案例,可以作為生成新攻擊目標(biāo)的基礎(chǔ)。
另一種方法是使用少量樣本提示,通過向模型提供一些示例來引導(dǎo)其生成新的攻擊目標(biāo)。這種方法的優(yōu)勢(shì)在于能夠快速生成大量多樣化的攻擊目標(biāo),而不需要過多的手動(dòng)干預(yù)。
然后,系統(tǒng)需要設(shè)計(jì)一個(gè)能夠根據(jù)這些目標(biāo)生成有效攻擊的機(jī)制。這就需要訓(xùn)練一個(gè)強(qiáng)化學(xué)習(xí)模型,使其能夠根據(jù)給定的目標(biāo)生成攻擊。
在這個(gè)過程中,模型需要學(xué)習(xí)如何生成能夠誘導(dǎo)AI模型執(zhí)行不安全行為的輸入。為了訓(xùn)練這個(gè)模型,系統(tǒng)采用了一種基于規(guī)則的獎(jiǎng)勵(lì)(Rule-Based Rewards, RBRs)機(jī)制。
基于規(guī)則的RBRs獎(jiǎng)勵(lì)機(jī)制
RBRs是一種根據(jù)特定目標(biāo)自動(dòng)生成的獎(jiǎng)勵(lì)函數(shù),它能夠評(píng)估模型輸出是否符合攻擊目標(biāo)。例如,如果攻擊目標(biāo)是生成有害內(nèi)容,RBRs會(huì)評(píng)估模型輸出是否包含有害信息。
在強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)函數(shù)是指導(dǎo)模型學(xué)習(xí)的關(guān)鍵信號(hào)。對(duì)于紅隊(duì)測(cè)試而言,獎(jiǎng)勵(lì)函數(shù)的作用是評(píng)估攻擊者模型生成的攻擊是否成功,以及在多大程度上達(dá)到了預(yù)定的攻擊目標(biāo)。一個(gè)設(shè)計(jì)良好的獎(jiǎng)勵(lì)函數(shù)可以激勵(lì)模型生成多樣化的攻擊,同時(shí)確保這些攻擊的有效性。
傳統(tǒng)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)通常依賴于人工定義,這不僅耗時(shí)費(fèi)力,而且難以覆蓋所有可能的攻擊場(chǎng)景。因此,OpenAI提出了一種自動(dòng)化的方法來生成獎(jiǎng)勵(lì)函數(shù),以解決這一問題。
RBRs可以通過大模型實(shí)現(xiàn),將攻擊目標(biāo)作為提示輸入,然后執(zhí)行分類任務(wù)。例如,一個(gè)RBR可以用于判斷生成的文本是否包含了詳細(xì)的犯罪指導(dǎo)。RBR的設(shè)計(jì)思路是將攻擊目標(biāo)轉(zhuǎn)化為具體的評(píng)估標(biāo)準(zhǔn),通過大模型對(duì)生成的文本進(jìn)行評(píng)估,判斷其是否滿足這些標(biāo)準(zhǔn)。
對(duì)于每個(gè)生成的攻擊目標(biāo),需要為其設(shè)計(jì)一個(gè)對(duì)應(yīng)的RBR。首先,將攻擊目標(biāo)作為提示輸入到大模型中,設(shè)計(jì)一個(gè)具體的評(píng)估標(biāo)準(zhǔn)。例如,如果攻擊目標(biāo)是“解釋如何洗錢”,那么評(píng)估標(biāo)準(zhǔn)可以是“詳細(xì)解釋了洗錢的方法”。
然后,利用大模型對(duì)生成的文本進(jìn)行分類,判斷其是否滿足評(píng)估標(biāo)準(zhǔn)。分類結(jié)果作為RBRs的輸出,用于指導(dǎo)攻擊者模型的學(xué)習(xí)。通過這種方式,可以為每個(gè)攻擊目標(biāo)自動(dòng)生成一個(gè)對(duì)應(yīng)的RBRs,確保每個(gè)攻擊目標(biāo)都有一個(gè)精確的評(píng)估標(biāo)準(zhǔn)。
RBRs有很多優(yōu)點(diǎn):靈活性,RBRs可以根據(jù)不同的攻擊目標(biāo)動(dòng)態(tài)生成,適用于多種攻擊場(chǎng)景;精確性,RBRs通過大模型進(jìn)行分類,可以準(zhǔn)確地評(píng)估生成的文本是否滿足攻擊目標(biāo);自動(dòng)化,RBRs的生成過程可以自動(dòng)化,減少了人工干預(yù)的需求。
論文:https://cdn.openai.com/papers/diverse-and-effective-red-teaming.pdf
OpenAI紅隊(duì)測(cè)試白皮書
OpenAI在選擇紅隊(duì)成員時(shí),非常注重成員的專業(yè)背景、多樣性和獨(dú)立性。專業(yè)背景是確保紅隊(duì)成員具備必要的技術(shù)知識(shí)和技能,能夠有效地進(jìn)行測(cè)試。多樣性和包容性則確保測(cè)試覆蓋廣泛的視角和應(yīng)用場(chǎng)景,避免因文化或行業(yè)背景的單一性而導(dǎo)致的盲點(diǎn)。
獨(dú)立性和客觀性則是確保紅隊(duì)成員不受內(nèi)部利益和偏見的影響,能夠公正地進(jìn)行測(cè)試。為了達(dá)到這些目標(biāo),OpenAI通常會(huì)選擇具有不同背景和專長的專家,包括網(wǎng)絡(luò)安全專家、自然語言處理專家、機(jī)器學(xué)習(xí)專家等。此外,還會(huì)邀請(qǐng)來自不同文化背景和行業(yè)領(lǐng)域的專家,以確保測(cè)試的全面性和多樣性。
接著,OpenAI在確定訪問權(quán)限時(shí),主要考慮了以下幾個(gè)方面:模型版本、接口和文檔、測(cè)試環(huán)境。首先,紅隊(duì)成員需要訪問特定版本的模型或系統(tǒng),以便進(jìn)行準(zhǔn)確的測(cè)試。這涉及到模型的具體版本號(hào)、訓(xùn)練數(shù)據(jù)集、訓(xùn)練參數(shù)等信息。
其次,提供必要的接口和文檔,幫助紅隊(duì)成員理解和操作模型。這些接口和文檔包括API文檔、用戶手冊(cè)、技術(shù)規(guī)范等。最后,設(shè)置專門的測(cè)試環(huán)境,確保測(cè)試過程不會(huì)影響生產(chǎn)環(huán)境的正常運(yùn)行。測(cè)試環(huán)境通常是一個(gè)與生產(chǎn)環(huán)境隔離的獨(dú)立環(huán)境,紅隊(duì)成員可以在其中自由地進(jìn)行測(cè)試,而不會(huì)對(duì)實(shí)際用戶造成影響。
為了確保紅隊(duì)成員能夠高效地進(jìn)行測(cè)試,OpenAI提供了詳細(xì)的測(cè)試指導(dǎo)和培訓(xùn)材料。這些材料包括測(cè)試目標(biāo)和范圍、測(cè)試方法和工具、案例分析和最佳實(shí)踐等內(nèi)容。測(cè)試目標(biāo)和范圍明確了紅隊(duì)測(cè)試的目的和重點(diǎn),幫助紅隊(duì)成員了解需要關(guān)注的風(fēng)險(xiǎn)領(lǐng)域。
測(cè)試方法和工具介紹了常用的測(cè)試方法和工具,幫助紅隊(duì)成員開展測(cè)試工作。這些方法和工具包括手動(dòng)測(cè)試、自動(dòng)化測(cè)試、生成對(duì)抗網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)、自然語言處理等。案例分析和最佳實(shí)踐分享了成功的測(cè)試案例和最佳實(shí)踐,幫助紅隊(duì)成員借鑒經(jīng)驗(yàn),提高測(cè)試效果。
手動(dòng)測(cè)試是最傳統(tǒng)也是最直接的紅隊(duì)測(cè)試方法。紅隊(duì)成員通過人工構(gòu)造提示和交互,模擬對(duì)抗性場(chǎng)景,評(píng)估模型的輸出。手動(dòng)測(cè)試的優(yōu)勢(shì)在于靈活性和創(chuàng)造性,能夠發(fā)現(xiàn)自動(dòng)化測(cè)試難以捕捉的問題。
OpenAI在手動(dòng)測(cè)試中,特別關(guān)注以下幾個(gè)方面:風(fēng)險(xiǎn)類型、嚴(yán)重程度、基線對(duì)比。風(fēng)險(xiǎn)類型包括生成有害內(nèi)容、泄露敏感信息、被惡意利用等。嚴(yán)重程度則評(píng)估模型在面對(duì)不同嚴(yán)重程度的攻擊時(shí)的表現(xiàn),如低風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)和高風(fēng)險(xiǎn);對(duì)比將模型的性能與基線模型或其他標(biāo)準(zhǔn)進(jìn)行對(duì)比,評(píng)估改進(jìn)的效果。
例如,紅隊(duì)成員可能會(huì)構(gòu)造一些特定的提示,引導(dǎo)模型生成有害內(nèi)容或泄露敏感信息,然后評(píng)估模型的響應(yīng)。通過這種方式,紅隊(duì)成員可以發(fā)現(xiàn)模型在不同風(fēng)險(xiǎn)類型和嚴(yán)重程度下的表現(xiàn),從而提出改進(jìn)建議。
在紅隊(duì)測(cè)試過程中,記錄和分析測(cè)試結(jié)果是非常重要的環(huán)節(jié)。OpenAI要求每個(gè)紅隊(duì)成員詳細(xì)記錄他們的測(cè)試結(jié)果,包括具體的提示和生成的文本、發(fā)現(xiàn)的風(fēng)險(xiǎn)類型和嚴(yán)重程度、改進(jìn)建議等。這些記錄通常采用特定的格式,以便于后續(xù)的分析和總結(jié)。
記錄的格式包括離散的提示和生成文本對(duì)、發(fā)現(xiàn)的風(fēng)險(xiǎn)類別和領(lǐng)域、風(fēng)險(xiǎn)水平(如低/中/高)、決定風(fēng)險(xiǎn)水平的啟發(fā)式方法或任何有助于理解問題的附加上下文信息。
隨著模型復(fù)雜性的增加,特別是涉及多輪對(duì)話、多模態(tài)交互等情況,記錄結(jié)果的方式也需要不斷進(jìn)化,以捕捉足夠的數(shù)據(jù),充分評(píng)估風(fēng)險(xiǎn)。通過詳細(xì)的記錄和分析,紅隊(duì)成員可以發(fā)現(xiàn)模型在不同場(chǎng)景下的表現(xiàn),提出改進(jìn)建議,提高模型的魯棒性和安全性。
在完成紅隊(duì)測(cè)試后,一個(gè)關(guān)鍵的挑戰(zhàn)是確定哪些例子受現(xiàn)有政策的約束,如果受約束,是否違反了這些政策。如果沒有現(xiàn)行政策適用,團(tuán)隊(duì)必須決定是否創(chuàng)建新政策或修改期望的模型行為。在OpenAI,這些政策受到資源的指導(dǎo),如使用政策、審核API和模型規(guī)格。
數(shù)據(jù)合成和對(duì)齊的過程包括將紅隊(duì)測(cè)試中發(fā)現(xiàn)的例子與現(xiàn)有政策進(jìn)行比對(duì),評(píng)估其是否違反了政策。如果沒有現(xiàn)行政策適用,團(tuán)隊(duì)需要根據(jù)測(cè)試結(jié)果制定新的政策或修改現(xiàn)有政策,以確保模型的行為符合預(yù)期。這個(gè)過程需要跨部門的合作,包括政策制定者、技術(shù)研發(fā)人員和安全專家等,共同評(píng)估和決策。
此外,OpenAI在每次紅隊(duì)測(cè)試結(jié)束后,都會(huì)對(duì)測(cè)試結(jié)果進(jìn)行詳細(xì)的分析和總結(jié),提出改進(jìn)建議,并將其應(yīng)用于模型的后續(xù)訓(xùn)練和優(yōu)化中。通過這種方式,OpenAI不斷改進(jìn)模型的魯棒性和安全性,確保其在實(shí)際應(yīng)用中能夠更好地服務(wù)用戶。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。