OpenAI公開o1模型測(cè)試方法，人機(jī)協(xié)作時(shí)代！

2024年11月22日 10:18:19 來源：AIGC開放社區(qū)公眾號(hào)

　　今天凌晨，OpenAI分享了兩篇關(guān)于o1、GPT-4、DALL-E3等前沿模型的安全測(cè)試方法。

　　一份是OpenAI聘請(qǐng)外部紅隊(duì)人員的白皮書，另外一份是通過AI進(jìn)行多樣化、多步驟強(qiáng)化學(xué)習(xí)的自動(dòng)化安全測(cè)試論文。希望可以為更多的開發(fā)人員提供借鑒，開發(fā)出安全、可靠的AI模型。

　　此外，為了增強(qiáng)安全性和提升測(cè)試效率，OpenAI會(huì)讓AI與人類一起協(xié)作測(cè)試。這樣做的好處是，人類為 AI 提供先驗(yàn)知識(shí)與指導(dǎo)，包括專家依專業(yè)判斷設(shè)定測(cè)試目標(biāo)、范圍、重點(diǎn)及策略，助其實(shí)現(xiàn)針對(duì)性測(cè)試;

　　AI 則為人類提供數(shù)據(jù)支持與分析結(jié)果，經(jīng)對(duì)大量數(shù)據(jù)的分析，為人類提供系統(tǒng)性能及潛在風(fēng)險(xiǎn)點(diǎn)的報(bào)告。

　　下面「AIGC開放社區(qū)」就根據(jù)這兩份內(nèi)容，簡單為大家解讀一下OpenAI的主要測(cè)試方法。有興趣的小伙伴也可以查看原版論文。

　　生成多樣化攻擊和多步驟強(qiáng)化學(xué)習(xí)

　　OpenAI的紅隊(duì)測(cè)試可分解為兩個(gè)關(guān)鍵步驟:生成多樣化的攻擊目標(biāo)以及為這些目標(biāo)生成有效的攻擊。這種分解策略的目的是將問題簡化，使得每個(gè)步驟都可以獨(dú)立優(yōu)化，從而提高整體的效率和效果。

　　在生成多樣化攻擊目標(biāo)的步驟中，系統(tǒng)首先需要定義攻擊的目標(biāo)和范圍。這涉及到對(duì)AI模型的潛在用途和潛在風(fēng)險(xiǎn)進(jìn)行全面的評(píng)估。

　　例如，如果一個(gè)AI模型被設(shè)計(jì)用來處理自然語言，那么攻擊目標(biāo)可能包括生成有害內(nèi)容、泄露敏感信息或放大偏見等。這些目標(biāo)不僅需要覆蓋模型可能的故障模式，還要考慮到模型在不同應(yīng)用場(chǎng)景下的行為。

　　為了實(shí)現(xiàn)這一目標(biāo)，系統(tǒng)采用了多種方法來生成攻擊目標(biāo)。其中一種方法是利用現(xiàn)有的數(shù)據(jù)集，這些數(shù)據(jù)集包含了歷史上的攻擊案例，可以作為生成新攻擊目標(biāo)的基礎(chǔ)。

　　另一種方法是使用少量樣本提示，通過向模型提供一些示例來引導(dǎo)其生成新的攻擊目標(biāo)。這種方法的優(yōu)勢(shì)在于能夠快速生成大量多樣化的攻擊目標(biāo)，而不需要過多的手動(dòng)干預(yù)。

　　然后，系統(tǒng)需要設(shè)計(jì)一個(gè)能夠根據(jù)這些目標(biāo)生成有效攻擊的機(jī)制。這就需要訓(xùn)練一個(gè)強(qiáng)化學(xué)習(xí)模型，使其能夠根據(jù)給定的目標(biāo)生成攻擊。

　　在這個(gè)過程中，模型需要學(xué)習(xí)如何生成能夠誘導(dǎo)AI模型執(zhí)行不安全行為的輸入。為了訓(xùn)練這個(gè)模型，系統(tǒng)采用了一種基于規(guī)則的獎(jiǎng)勵(lì)(Rule-Based Rewards， RBRs)機(jī)制。

　　基于規(guī)則的RBRs獎(jiǎng)勵(lì)機(jī)制

　　RBRs是一種根據(jù)特定目標(biāo)自動(dòng)生成的獎(jiǎng)勵(lì)函數(shù)，它能夠評(píng)估模型輸出是否符合攻擊目標(biāo)。例如，如果攻擊目標(biāo)是生成有害內(nèi)容，RBRs會(huì)評(píng)估模型輸出是否包含有害信息。

　　在強(qiáng)化學(xué)習(xí)中，獎(jiǎng)勵(lì)函數(shù)是指導(dǎo)模型學(xué)習(xí)的關(guān)鍵信號(hào)。對(duì)于紅隊(duì)測(cè)試而言，獎(jiǎng)勵(lì)函數(shù)的作用是評(píng)估攻擊者模型生成的攻擊是否成功，以及在多大程度上達(dá)到了預(yù)定的攻擊目標(biāo)。一個(gè)設(shè)計(jì)良好的獎(jiǎng)勵(lì)函數(shù)可以激勵(lì)模型生成多樣化的攻擊，同時(shí)確保這些攻擊的有效性。

　　傳統(tǒng)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)通常依賴于人工定義，這不僅耗時(shí)費(fèi)力，而且難以覆蓋所有可能的攻擊場(chǎng)景。因此，OpenAI提出了一種自動(dòng)化的方法來生成獎(jiǎng)勵(lì)函數(shù)，以解決這一問題。

　　RBRs可以通過大模型實(shí)現(xiàn)，將攻擊目標(biāo)作為提示輸入，然后執(zhí)行分類任務(wù)。例如，一個(gè)RBR可以用于判斷生成的文本是否包含了詳細(xì)的犯罪指導(dǎo)。RBR的設(shè)計(jì)思路是將攻擊目標(biāo)轉(zhuǎn)化為具體的評(píng)估標(biāo)準(zhǔn)，通過大模型對(duì)生成的文本進(jìn)行評(píng)估，判斷其是否滿足這些標(biāo)準(zhǔn)。

　　對(duì)于每個(gè)生成的攻擊目標(biāo)，需要為其設(shè)計(jì)一個(gè)對(duì)應(yīng)的RBR。首先，將攻擊目標(biāo)作為提示輸入到大模型中，設(shè)計(jì)一個(gè)具體的評(píng)估標(biāo)準(zhǔn)。例如，如果攻擊目標(biāo)是“解釋如何洗錢”，那么評(píng)估標(biāo)準(zhǔn)可以是“詳細(xì)解釋了洗錢的方法”。

　　然后，利用大模型對(duì)生成的文本進(jìn)行分類，判斷其是否滿足評(píng)估標(biāo)準(zhǔn)。分類結(jié)果作為RBRs的輸出，用于指導(dǎo)攻擊者模型的學(xué)習(xí)。通過這種方式，可以為每個(gè)攻擊目標(biāo)自動(dòng)生成一個(gè)對(duì)應(yīng)的RBRs，確保每個(gè)攻擊目標(biāo)都有一個(gè)精確的評(píng)估標(biāo)準(zhǔn)。

　　RBRs有很多優(yōu)點(diǎn):靈活性，RBRs可以根據(jù)不同的攻擊目標(biāo)動(dòng)態(tài)生成，適用于多種攻擊場(chǎng)景;精確性，RBRs通過大模型進(jìn)行分類，可以準(zhǔn)確地評(píng)估生成的文本是否滿足攻擊目標(biāo);自動(dòng)化，RBRs的生成過程可以自動(dòng)化，減少了人工干預(yù)的需求。

　　論文:https://cdn.openai.com/papers/diverse-and-effective-red-teaming.pdf

　　OpenAI紅隊(duì)測(cè)試白皮書

　　OpenAI在選擇紅隊(duì)成員時(shí)，非常注重成員的專業(yè)背景、多樣性和獨(dú)立性。專業(yè)背景是確保紅隊(duì)成員具備必要的技術(shù)知識(shí)和技能，能夠有效地進(jìn)行測(cè)試。多樣性和包容性則確保測(cè)試覆蓋廣泛的視角和應(yīng)用場(chǎng)景，避免因文化或行業(yè)背景的單一性而導(dǎo)致的盲點(diǎn)。

　　獨(dú)立性和客觀性則是確保紅隊(duì)成員不受內(nèi)部利益和偏見的影響，能夠公正地進(jìn)行測(cè)試。為了達(dá)到這些目標(biāo)，OpenAI通常會(huì)選擇具有不同背景和專長的專家，包括網(wǎng)絡(luò)安全專家、自然語言處理專家、機(jī)器學(xué)習(xí)專家等。此外，還會(huì)邀請(qǐng)來自不同文化背景和行業(yè)領(lǐng)域的專家，以確保測(cè)試的全面性和多樣性。

　　接著，OpenAI在確定訪問權(quán)限時(shí)，主要考慮了以下幾個(gè)方面:模型版本、接口和文檔、測(cè)試環(huán)境。首先，紅隊(duì)成員需要訪問特定版本的模型或系統(tǒng)，以便進(jìn)行準(zhǔn)確的測(cè)試。這涉及到模型的具體版本號(hào)、訓(xùn)練數(shù)據(jù)集、訓(xùn)練參數(shù)等信息。

　　其次，提供必要的接口和文檔，幫助紅隊(duì)成員理解和操作模型。這些接口和文檔包括API文檔、用戶手冊(cè)、技術(shù)規(guī)范等。最后，設(shè)置專門的測(cè)試環(huán)境，確保測(cè)試過程不會(huì)影響生產(chǎn)環(huán)境的正常運(yùn)行。測(cè)試環(huán)境通常是一個(gè)與生產(chǎn)環(huán)境隔離的獨(dú)立環(huán)境，紅隊(duì)成員可以在其中自由地進(jìn)行測(cè)試，而不會(huì)對(duì)實(shí)際用戶造成影響。

　　為了確保紅隊(duì)成員能夠高效地進(jìn)行測(cè)試，OpenAI提供了詳細(xì)的測(cè)試指導(dǎo)和培訓(xùn)材料。這些材料包括測(cè)試目標(biāo)和范圍、測(cè)試方法和工具、案例分析和最佳實(shí)踐等內(nèi)容。測(cè)試目標(biāo)和范圍明確了紅隊(duì)測(cè)試的目的和重點(diǎn)，幫助紅隊(duì)成員了解需要關(guān)注的風(fēng)險(xiǎn)領(lǐng)域。

　　測(cè)試方法和工具介紹了常用的測(cè)試方法和工具，幫助紅隊(duì)成員開展測(cè)試工作。這些方法和工具包括手動(dòng)測(cè)試、自動(dòng)化測(cè)試、生成對(duì)抗網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)、自然語言處理等。案例分析和最佳實(shí)踐分享了成功的測(cè)試案例和最佳實(shí)踐，幫助紅隊(duì)成員借鑒經(jīng)驗(yàn)，提高測(cè)試效果。

　　手動(dòng)測(cè)試是最傳統(tǒng)也是最直接的紅隊(duì)測(cè)試方法。紅隊(duì)成員通過人工構(gòu)造提示和交互，模擬對(duì)抗性場(chǎng)景，評(píng)估模型的輸出。手動(dòng)測(cè)試的優(yōu)勢(shì)在于靈活性和創(chuàng)造性，能夠發(fā)現(xiàn)自動(dòng)化測(cè)試難以捕捉的問題。

　　OpenAI在手動(dòng)測(cè)試中，特別關(guān)注以下幾個(gè)方面:風(fēng)險(xiǎn)類型、嚴(yán)重程度、基線對(duì)比。風(fēng)險(xiǎn)類型包括生成有害內(nèi)容、泄露敏感信息、被惡意利用等。嚴(yán)重程度則評(píng)估模型在面對(duì)不同嚴(yán)重程度的攻擊時(shí)的表現(xiàn)，如低風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)�；€對(duì)比將模型的性能與基線模型或其他標(biāo)準(zhǔn)進(jìn)行對(duì)比，評(píng)估改進(jìn)的效果。

　　例如，紅隊(duì)成員可能會(huì)構(gòu)造一些特定的提示，引導(dǎo)模型生成有害內(nèi)容或泄露敏感信息，然后評(píng)估模型的響應(yīng)。通過這種方式，紅隊(duì)成員可以發(fā)現(xiàn)模型在不同風(fēng)險(xiǎn)類型和嚴(yán)重程度下的表現(xiàn)，從而提出改進(jìn)建議。

　　在紅隊(duì)測(cè)試過程中，記錄和分析測(cè)試結(jié)果是非常重要的環(huán)節(jié)。OpenAI要求每個(gè)紅隊(duì)成員詳細(xì)記錄他們的測(cè)試結(jié)果，包括具體的提示和生成的文本、發(fā)現(xiàn)的風(fēng)險(xiǎn)類型和嚴(yán)重程度、改進(jìn)建議等。這些記錄通常采用特定的格式，以便于后續(xù)的分析和總結(jié)。

　　記錄的格式包括離散的提示和生成文本對(duì)、發(fā)現(xiàn)的風(fēng)險(xiǎn)類別和領(lǐng)域、風(fēng)險(xiǎn)水平(如低/中/高)、決定風(fēng)險(xiǎn)水平的啟發(fā)式方法或任何有助于理解問題的附加上下文信息。

　　隨著模型復(fù)雜性的增加，特別是涉及多輪對(duì)話、多模態(tài)交互等情況，記錄結(jié)果的方式也需要不斷進(jìn)化，以捕捉足夠的數(shù)據(jù)，充分評(píng)估風(fēng)險(xiǎn)。通過詳細(xì)的記錄和分析，紅隊(duì)成員可以發(fā)現(xiàn)模型在不同場(chǎng)景下的表現(xiàn)，提出改進(jìn)建議，提高模型的魯棒性和安全性。

　　在完成紅隊(duì)測(cè)試后，一個(gè)關(guān)鍵的挑戰(zhàn)是確定哪些例子受現(xiàn)有政策的約束，如果受約束，是否違反了這些政策。如果沒有現(xiàn)行政策適用，團(tuán)隊(duì)必須決定是否創(chuàng)建新政策或修改期望的模型行為。在OpenAI，這些政策受到資源的指導(dǎo)，如使用政策、審核API和模型規(guī)格。

　　數(shù)據(jù)合成和對(duì)齊的過程包括將紅隊(duì)測(cè)試中發(fā)現(xiàn)的例子與現(xiàn)有政策進(jìn)行比對(duì)，評(píng)估其是否違反了政策。如果沒有現(xiàn)行政策適用，團(tuán)隊(duì)需要根據(jù)測(cè)試結(jié)果制定新的政策或修改現(xiàn)有政策，以確保模型的行為符合預(yù)期。這個(gè)過程需要跨部門的合作，包括政策制定者、技術(shù)研發(fā)人員和安全專家等，共同評(píng)估和決策。

　　此外，OpenAI在每次紅隊(duì)測(cè)試結(jié)束后，都會(huì)對(duì)測(cè)試結(jié)果進(jìn)行詳細(xì)的分析和總結(jié)，提出改進(jìn)建議，并將其應(yīng)用于模型的后續(xù)訓(xùn)練和優(yōu)化中。通過這種方式，OpenAI不斷改進(jìn)模型的魯棒性和安全性，確保其在實(shí)際應(yīng)用中能夠更好地服務(wù)用戶。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信