下單前先比價(jià)不花冤枉錢(qián) 同款圖書(shū)京東價(jià)低于抖音6折日媒感慨中國(guó)電動(dòng)汽車(chē)/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒(méi)戲消委會(huì)吹風(fēng)機(jī)品質(zhì)檢測(cè)結(jié)果揭曉 徠芬獨(dú)占鰲頭 共話(huà)新質(zhì)營(yíng)銷(xiāo)力,2024梅花數(shù)據(jù)峰會(huì)圓滿(mǎn)落幕索尼影像專(zhuān)業(yè)服務(wù) PRO Support 升級(jí),成為會(huì)員至少需注冊(cè) 2 臺(tái) α 全畫(huà)幅相機(jī)、3 支 G 大師鏡頭消息稱(chēng)vivo加碼電池軍備競(jìng)賽:6500mAh 旗艦機(jī)+7500mAh中端機(jī)寶馬M8雙門(mén)轎跑車(chē)明年年初將停產(chǎn),后續(xù)無(wú)2026款車(chē)型比亞迪:2025 款漢家族車(chē)型城市領(lǐng)航智駕功能開(kāi)啟內(nèi)測(cè)雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計(jì)劃iQOO Z9 Turbo長(zhǎng)續(xù)航版手機(jī)被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷(xiāo)量大跌:曝保時(shí)捷將重新評(píng)估電動(dòng)汽車(chē)計(jì)劃來(lái)京東參與榮耀Magic7 RSR 保時(shí)捷設(shè)計(jì)預(yù)售 享365天只換不修國(guó)補(bǔ)期間電視迎來(lái)?yè)Q機(jī)潮,最暢銷(xiāo)MiniLED品牌花落誰(shuí)家?美團(tuán)旗下微信社群團(tuán)購(gòu)業(yè)務(wù)“團(tuán)買(mǎi)買(mǎi)”宣布年底停運(yùn)消息稱(chēng)微軟正與第三方廠(chǎng)商洽談,試圖合作推出Xbox游戲掌機(jī)設(shè)備在海外,要再造一個(gè)京東物流?消息稱(chēng)蘋(píng)果正為AirPods開(kāi)發(fā)多項(xiàng)健康功能,包括心率監(jiān)測(cè)和溫度感應(yīng)一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗(yàn)東芝全部業(yè)務(wù)實(shí)現(xiàn)盈利,退市裁員重組后終于賺錢(qián)
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    以AI對(duì)抗AI,大模型安全的“進(jìn)化論”

    2023年09月14日 11:44:18   來(lái)源:光錐智能

      文丨劉雨琦

      編|王一粟

      “互聯(lián)網(wǎng)時(shí)代,我們是更危險(xiǎn),還是更安全?”

      2016年,互聯(lián)網(wǎng)正值高速發(fā)展之際,電梯廣告經(jīng)常出現(xiàn)這幾個(gè)大字,兩行標(biāo)語(yǔ),從病毒木馬到網(wǎng)絡(luò)詐騙,對(duì)于安全的思考、安全防范技術(shù)的建立一直在與科技發(fā)展賽跑。同樣,大模型時(shí)代發(fā)展的早期,也引發(fā)了許多安全考量。

      英特網(wǎng)被發(fā)明的十年后,互聯(lián)網(wǎng)防護(hù)技術(shù)和產(chǎn)業(yè)鏈才開(kāi)始補(bǔ)齊,而參考了過(guò)去幾十年的經(jīng)驗(yàn),在大模型誕生后不到半年的時(shí)間里,圍繞著模型安全、數(shù)據(jù)安全、內(nèi)容安全的討論,就已經(jīng)不絕于耳。

      最近一周,在上海外灘大會(huì)、浦江創(chuàng)新論壇、國(guó)家網(wǎng)安周等場(chǎng)合,產(chǎn)學(xué)研界針對(duì)于大模型應(yīng)用落地所帶來(lái)的數(shù)據(jù)安全問(wèn)題(包括數(shù)據(jù)投毒、信息泄露、版權(quán)風(fēng)險(xiǎn)等)、模型安全問(wèn)題(模型本身的安全漏洞、惡意利用等)、內(nèi)容安全問(wèn)題(生成內(nèi)容包含違規(guī)、違法、色情等敏感信息等)、AI 倫理問(wèn)題等進(jìn)行了一系列的討論。

      如何為大模型保駕護(hù)航?

      國(guó)內(nèi)一些安全廠(chǎng)商,如360、螞蟻、深信服、奇安信、山石科技等都在積極研發(fā)大模型安全技術(shù)。

      大模型需要“醫(yī)生”和“保鏢”

      大模型作為新物種的誕生,在訓(xùn)練過(guò)程中要有安全監(jiān)控,在大模型最后推向市場(chǎng)的時(shí)候,也需要一次“質(zhì)檢”,質(zhì)檢后流入市場(chǎng),需要可控的使用方式,這都是解決安全問(wèn)題的宏觀思路。

      無(wú)論是通用大模型還是面向垂直領(lǐng)域的行業(yè)大模型,目前來(lái)看,模型安全的保護(hù)主要分為三個(gè)部分:

      一是訓(xùn)練階段的數(shù)據(jù)問(wèn)題:如果數(shù)據(jù)采集不當(dāng)、存在偏見(jiàn)或標(biāo)簽錯(cuò)誤、數(shù)據(jù)被投毒,都有可能導(dǎo)致大模型產(chǎn)生錯(cuò)誤輸出、存在歧視或其他負(fù)面影響,同時(shí)數(shù)據(jù)在應(yīng)用的過(guò)程中,也要面臨數(shù)據(jù)泄露、隱私曝光等風(fēng)險(xiǎn);

      二是模型本身的可控問(wèn)題:模型的可靠性、穩(wěn)定性、魯棒性等都需要進(jìn)行檢驗(yàn),例如此前有用戶(hù)構(gòu)造針對(duì)性語(yǔ)句對(duì)模型進(jìn)行誘導(dǎo),大模型可能生產(chǎn)帶有欺詐、歧視、政治傾向等風(fēng)險(xiǎn)內(nèi)容;

      三是大模型在實(shí)際場(chǎng)景中應(yīng)用的安全問(wèn)題:在實(shí)際的使用過(guò)程中,不同用戶(hù)群體的交互和應(yīng)用都需要謹(jǐn)慎評(píng)估,尤其是金融、醫(yī)療等領(lǐng)域?qū)δP洼敵龅恼_性要求極高,如果應(yīng)用不當(dāng),一石就容易激起千層浪。

      多位業(yè)內(nèi)人士向光錐智能表示:“模型安全需要一體化的技術(shù)防護(hù)體系,單獨(dú)某一環(huán)節(jié)的把控解決不了根本問(wèn)題。”

      參考互聯(lián)網(wǎng)安全的發(fā)展路徑,誕生了諸多“病毒查殺”軟件公司,一般檢測(cè)、定位問(wèn)題往往是第一步。

      光錐智能了解到,螞蟻的“蟻天鑒”,包含了大模型安全檢測(cè)平臺(tái)“蟻鑒2.0”、大模型風(fēng)險(xiǎn)防御平臺(tái)“天鑒”,覆蓋了從檢測(cè)到治理到防御的全鏈條。蟻鑒2.0可對(duì)大模型進(jìn)行多維度的安全掃描,檢查存在的數(shù)據(jù)安全隱患、內(nèi)容風(fēng)險(xiǎn)點(diǎn)等問(wèn)題。相當(dāng)于站在“黑產(chǎn)”角度,通過(guò)智能攻擊對(duì)抗技術(shù),自動(dòng)生成數(shù)百萬(wàn)的誘導(dǎo)性問(wèn)題,對(duì)生成式大模型進(jìn)行誘導(dǎo)式問(wèn)答,找出大模型的弱點(diǎn)和漏洞。

      從技術(shù)的角度來(lái)看,蟻鑒采用了最新的“對(duì)抗智能”技術(shù)路線(xiàn),使用智能對(duì)抗技術(shù)不斷向大模型“投射問(wèn)題”,觀察模型生成的回答,判斷是否存在風(fēng)險(xiǎn)。通過(guò)持續(xù)“拷問(wèn)”,就像醫(yī)生多次詢(xún)問(wèn)病人癥狀,平臺(tái)可以盤(pán)查解析大模型的健康狀況。

      通過(guò)生成對(duì)抗樣本,開(kāi)發(fā)檢測(cè)對(duì)抗樣本的算法系統(tǒng),來(lái)提升大模型安全性,已經(jīng)成為一種主流技術(shù)趨勢(shì)。在行業(yè)中,已有OpenAI、谷歌、微軟、英偉達(dá)等一眾巨頭公司將對(duì)抗智能技術(shù)運(yùn)用到其產(chǎn)品和服務(wù)中。

      比如,在這種技術(shù)思路下,多倫多大學(xué)研發(fā)的 CleverHans 系統(tǒng),就像一個(gè)專(zhuān)門(mén)設(shè)計(jì)來(lái)考驗(yàn)防盜系統(tǒng)的“小偷”,它會(huì)故意添加一些小干擾,來(lái)試圖欺騙 AI 安防系統(tǒng)。在正常情況下,AI 系統(tǒng)可以準(zhǔn)確識(shí)別“小貓”的圖片,但 CleverHan 系統(tǒng)偏要在“小貓”圖片上輕微修改幾個(gè)像素點(diǎn),給 AI 營(yíng)造一種這是一張小狗圖片的假象。假如,AI 系統(tǒng)被愚弄過(guò)去,那就代表其存在安全漏洞。

      相比檢測(cè)“診斷”,“防治”也非常重要。螞蟻天鑒就像一個(gè)智能盾牌,可以防患于未然。通過(guò)智能分析用戶(hù)提問(wèn)意圖來(lái)進(jìn)行防御,天鑒可以攔截某些試圖誘導(dǎo)模型生成敏感內(nèi)容的惡意問(wèn)題,確保外部惡意誘導(dǎo)無(wú)法傳入大模型。同時(shí),對(duì)模型輸出內(nèi)容實(shí)施二次過(guò)濾,自動(dòng)識(shí)別風(fēng)險(xiǎn)信息并進(jìn)行干預(yù),確保大模型輸出的內(nèi)容符合規(guī)范。

      更重要的是,數(shù)據(jù)問(wèn)題是模型安全的源頭,中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所主任石霖曾在一場(chǎng)學(xué)術(shù)交流會(huì)上分享道:“現(xiàn)在有非常多安全廠(chǎng)商采取了安全舉措,包括對(duì)訓(xùn)練數(shù)據(jù)做一些清洗,對(duì)輸入輸出內(nèi)容做過(guò)濾,另外還有監(jiān)測(cè)和鑒別等安全防控措施。”

      這需要防御平臺(tái)作用在數(shù)據(jù)源頭,針對(duì)數(shù)據(jù)源頭有毒、模型深度黑盒不可控等問(wèn)題。螞蟻集團(tuán)大安全機(jī)器智能部?jī)?nèi)容算法總監(jiān);奂呀榻B,目前,天鑒正在嘗試通過(guò)數(shù)據(jù)去毒、對(duì)齊訓(xùn)練、可解釋性研究等手段保障模型安全。

      用魔法打敗魔法,以AI對(duì)抗AI

      數(shù)字世界里和人眼世界里的內(nèi)容特征是不一樣的。

      隨著大模型時(shí)代的到來(lái),其強(qiáng)大能力也為安全防護(hù)技術(shù)的變革提供了新的思路。“用 AI 的力量來(lái)對(duì)抗 AI ”已經(jīng)成為一個(gè)熱點(diǎn)方向。

      事實(shí)上,對(duì)抗攻防思路并不是模型安全的專(zhuān)屬。早在上個(gè)十年,面對(duì)種種安全威脅,人工智能領(lǐng)域就逐步形成了“以攻測(cè)防——以攻促防——攻防一體化”的安全理念,通過(guò)模擬各類(lèi)攻擊場(chǎng)景,不斷探索模型和系統(tǒng)的弱點(diǎn),以此推動(dòng)算法和工程端的防御能力加強(qiáng)。

      只不過(guò),以往安全防護(hù)主要依賴(lài)機(jī)器學(xué)習(xí)算法模型,這需要大量專(zhuān)業(yè)數(shù)據(jù)知識(shí)積累,且面臨知識(shí)盲區(qū)和小樣本冷啟動(dòng)不及時(shí)的問(wèn)題。利用大模型技術(shù),可以實(shí)現(xiàn)更智能化的安全防控。

      這體現(xiàn)在幾個(gè)方面。一是大模型能夠提供智能安全“參謀”;诤A课谋具M(jìn)行預(yù)訓(xùn)練的大模型,可以成為優(yōu)秀的“參謀”,對(duì)癥提出適當(dāng)?shù)姆治龊头烙呗浴1热,通過(guò)簡(jiǎn)單的自然語(yǔ)言描述,可以快速分析安全局勢(shì),提出應(yīng)對(duì)措施建議,輔助安全團(tuán)隊(duì)規(guī)劃解決方案。這類(lèi)似于一個(gè)智能安全“小助手”。

      從產(chǎn)業(yè)界的現(xiàn)狀來(lái)看,AI 安全與否如何評(píng)測(cè),目前尚缺乏一套易用和標(biāo)準(zhǔn)化的評(píng)測(cè)工具和規(guī)則。

      這也是大模型防御中能夠補(bǔ)充的另一方面,通過(guò)大模型技術(shù)學(xué)習(xí)風(fēng)險(xiǎn)知識(shí)和標(biāo)準(zhǔn)規(guī)則來(lái)提升 AI 對(duì)于風(fēng)險(xiǎn)的認(rèn)知理解能力,以實(shí)現(xiàn)用大模型對(duì)抗大模型來(lái)進(jìn)行極速防御和快速冷啟動(dòng)的目的。

      大模型安全既要“快“也要“慢”,這兩個(gè)邏輯并不矛盾。在大模型安全防御方面要“快”,要能快速檢測(cè)、查殺病毒,確保服務(wù)無(wú)毒害,這其中就包括了“數(shù)據(jù)去毒”、“安全護(hù)欄”、“AIGC風(fēng)險(xiǎn)檢測(cè)”幾個(gè)關(guān)鍵防御部分;而在大模型安全可信方面要“慢”,要能長(zhǎng)遠(yuǎn)的、體系的保證整個(gè)系統(tǒng)環(huán)境的可控、可信,這其中就包括了“安全測(cè)評(píng)”、“解構(gòu)可控”、“人類(lèi)社會(huì)共治”等方面。

      以文本安全為例,大模型可以基于安全標(biāo)準(zhǔn)規(guī)則、風(fēng)險(xiǎn)領(lǐng)域知識(shí)和歷史風(fēng)險(xiǎn)樣本,進(jìn)行訓(xùn)練,提升模型對(duì)于風(fēng)險(xiǎn)標(biāo)準(zhǔn)和內(nèi)容的理解力,從而實(shí)現(xiàn)對(duì)風(fēng)險(xiǎn)檢測(cè)能力的提升。也采用大模型生成能力結(jié)合安全知識(shí)圖譜,來(lái)構(gòu)造攻擊樣本持續(xù)迭代優(yōu)化檢測(cè)模型。

      一位安全專(zhuān)家表示:“相比人工收集的有限樣本,大模型生成的海量多樣化樣本,將使安全檢測(cè)模型'見(jiàn)多識(shí)廣',更快適應(yīng)新的威脅方式。”

      這項(xiàng)技術(shù),也被螞蟻應(yīng)用在了AIGC內(nèi)容檢測(cè)中。;奂烟峒暗溃“AIGC深度偽造檢測(cè),也是采用以攻測(cè)防,以攻促防的思路,通過(guò)不同方式、不同風(fēng)格、不同生成模型來(lái)進(jìn)行生成,建立近千萬(wàn)的深度偽造數(shù)據(jù),訓(xùn)練模型快速分辨內(nèi)容是機(jī)器生成還是人工生成,從而實(shí)現(xiàn)泛化性和魯棒性更好的檢測(cè)模型。”

      針對(duì)AIGC在運(yùn)用過(guò)程中引發(fā)的問(wèn)題,國(guó)際上也已經(jīng)有頭部公司開(kāi)始著手布局。

      OpenAI此前表示,考慮在ChatGPT中添加數(shù)字水印技術(shù),以降低模型被濫用帶來(lái)的負(fù)面影響;谷歌在今年的開(kāi)發(fā)者大會(huì)中表示,將確保公司的每一張 AI 生成圖片都內(nèi)嵌水印;今年1月初,英偉達(dá)也發(fā)布了一款名為FakeCatcher的軟件,以查出視頻中的人臉是否為深度偽造。

      回顧互聯(lián)網(wǎng)發(fā)展史,混亂和高速發(fā)展往往是一對(duì)“孿生兄弟”,而正是在網(wǎng)絡(luò)安全產(chǎn)業(yè)化趨于成熟后,互聯(lián)網(wǎng)才真正迎來(lái)了百花齊放的應(yīng)用落地。

      同樣,模型安全并不只是某一家安全廠(chǎng)商的任務(wù),而是當(dāng)安全科技形成了可信圍欄后,大模型技術(shù)才真的能“飛入尋常百姓家”。

      “大模型是非常復(fù)雜的問(wèn)題,倫理、數(shù)據(jù)、訓(xùn)練等領(lǐng)域的復(fù)雜度都是前所未有的,是一個(gè)新領(lǐng)域,也是擺在所有人面前的一個(gè)命題。螞蟻'蟻天鑒'在大模型安全視角上做了一些探索,但目前還有很多問(wèn)題待研究解決,比如回答的內(nèi)容真實(shí)性和準(zhǔn)確性等難題,它還需要不斷迭代,不斷完善,需要全社會(huì)共同協(xié)作努力。”;奂炎詈笳f(shuō)道。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類(lèi)目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線(xiàn)上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性?xún)r(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。