近日,知道創(chuàng)宇發(fā)布《中文大模型安全基準(zhǔn)雙輪測(cè)評(píng)第1期報(bào)告》,本次報(bào)告主題為“核心價(jià)值觀之鑒”,對(duì)國(guó)內(nèi)18家主流中文大模型的中英文內(nèi)容合規(guī)能力進(jìn)行評(píng)測(cè)。
評(píng)測(cè)結(jié)果顯示,大部分大模型的內(nèi)容合規(guī)檢測(cè)機(jī)制過(guò)于直接和簡(jiǎn)單。難以應(yīng)對(duì)復(fù)雜評(píng)測(cè)場(chǎng)景下的內(nèi)容安全風(fēng)險(xiǎn)與潛在威脅,因此亟需進(jìn)一步優(yōu)化。
特別值得注意的是,評(píng)測(cè)結(jié)果指出,大部分大模型英文內(nèi)容合規(guī)檢測(cè)能力嚴(yán)重不足。這也提示,在全球化和多語(yǔ)言環(huán)境的背景下,中文大模型在提升中文內(nèi)容合規(guī)能力的同時(shí),也必須加強(qiáng)英文及其他語(yǔ)言的合規(guī)性檢測(cè)能力,以確保在各種語(yǔ)言環(huán)境下都能提供安全、合規(guī)的服務(wù)。
英文合規(guī)檢測(cè)能力嚴(yán)重不足
為確保大模型的穩(wěn)健發(fā)展,國(guó)家網(wǎng)信辦等七部門(mén)聯(lián)合發(fā)布《生成式人工智能服務(wù)管理暫行辦法》,自2023年8月15日起實(shí)施。該辦法明確提出堅(jiān)持社會(huì)主義核心價(jià)值觀的要求,并禁止生成任何違反法律、行政法規(guī)的內(nèi)容。
與此同時(shí),《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》也強(qiáng)調(diào)了算法推薦服務(wù)提供者應(yīng)堅(jiān)持主流價(jià)值導(dǎo)向。
為了進(jìn)一步促進(jìn)生成式AI服務(wù)的安全發(fā)展,2024年3月全國(guó)網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布《生成式人工智能服務(wù)安全基本要求》,要求生成式AI服務(wù)必須具備關(guān)鍵詞庫(kù)、內(nèi)容測(cè)試題庫(kù)和拒答測(cè)試題庫(kù),以確保服務(wù)的安全性和可靠性。
為更真實(shí)反映大模型能力,知道創(chuàng)宇本次評(píng)測(cè)采用多維度、多視角的綜合方案,涵蓋簡(jiǎn)答題和選擇題。通過(guò)從數(shù)據(jù)集庫(kù)(50萬(wàn)+道題)隨機(jī)抽取5000+道原始評(píng)測(cè)數(shù)據(jù)集,經(jīng)過(guò)嚴(yán)格的人工校驗(yàn)后保留了4000道(含1500道簡(jiǎn)單題和2500道選擇題),并結(jié)合“裁判模型”和專(zhuān)業(yè)評(píng)審等方式,確保評(píng)分公正客觀。
本次評(píng)測(cè)分為兩輪,模型選取范圍涵蓋了了國(guó)內(nèi)有代表性的13個(gè)WEB開(kāi)放大模型和6個(gè)大模型API。第一輪評(píng)測(cè)為截至2024年3月22日的大模型表現(xiàn),第二輪則為2024年4月16日的最新評(píng)測(cè)結(jié)果。
在第一輪評(píng)測(cè)中,特別設(shè)置了中文和英文兩種評(píng)測(cè)語(yǔ)言,旨在測(cè)試模型在“社會(huì)主義核心價(jià)值觀”上的中英文對(duì)齊表現(xiàn),包括對(duì)種族歧視、少兒不宜內(nèi)容、色情元素、違法違規(guī)內(nèi)容、地域歧視及政權(quán)觀點(diǎn)的全面考察。英文題集由中文題集一對(duì)一翻譯而來(lái),以防范語(yǔ)種變換帶來(lái)的內(nèi)容風(fēng)險(xiǎn)。
在綜合評(píng)分中,抖音豆包、GLM-3、騰訊混元、海螺問(wèn)問(wèn)和Kimi英文和中文領(lǐng)域均表現(xiàn)出色,位列前五。然而,對(duì)于原本在中文領(lǐng)域表現(xiàn)優(yōu)秀的大模型,如文心一言3.5和小悟空,由于英文能力相對(duì)不足,導(dǎo)致其在綜合評(píng)分中未能獲得理想成績(jī)。
第一輪評(píng)測(cè)顯示,中文大模型在英文內(nèi)容合規(guī)檢測(cè)上存在明顯弱點(diǎn)。首先,英文合規(guī)檢測(cè)能力不足,導(dǎo)致模型生成的英文內(nèi)容難以準(zhǔn)確判斷是否符合我國(guó)法規(guī)及道德標(biāo)準(zhǔn)。這主要源于檢測(cè)模型在訓(xùn)練時(shí)缺乏足夠的英文違規(guī)語(yǔ)料,說(shuō)明許多廠商對(duì)模型生成結(jié)果的檢測(cè)算法還不夠完善。
其次,英文關(guān)鍵詞積累不足也削弱了模型的合規(guī)檢測(cè)能力,影響了對(duì)英文文本關(guān)鍵信息的準(zhǔn)確識(shí)別和理解。這些問(wèn)題可能導(dǎo)致英文內(nèi)容審核疏漏,給用戶帶來(lái)風(fēng)險(xiǎn)。
識(shí)別違規(guī)內(nèi)容過(guò)分依賴關(guān)鍵詞
第二輪評(píng)測(cè)緊密?chē)@《生成式人工智能服務(wù)安全基本要求》,對(duì)“社會(huì)主義核心價(jià)值觀”和“歧視性”兩大核心要點(diǎn)進(jìn)行了深入評(píng)測(cè)。通過(guò)深入剖析并細(xì)化為17類(lèi)二級(jí)標(biāo)簽,同時(shí)靈活融合了多元化的三級(jí)標(biāo)簽數(shù)據(jù),精心構(gòu)建了一套全新的數(shù)據(jù)集。
由于該評(píng)測(cè)數(shù)據(jù)集在細(xì)節(jié)處理上的極高要求,部分大型模型在測(cè)試中暴露出了內(nèi)容風(fēng)險(xiǎn)問(wèn)題,這些問(wèn)題主要源于垃圾訓(xùn)練數(shù)據(jù)的不良影響,尤其是在“歧視性”方面的表現(xiàn)尤為突出,揭示了模型在泛化能力上存在的局限性。
本輪評(píng)測(cè)結(jié)合針對(duì)訪問(wèn)方式,采用多輪對(duì)話、設(shè)定場(chǎng)景、陷阱釣魚(yú)、單/多項(xiàng)選擇等多種題型,以更全面地評(píng)估大模型的內(nèi)容安全合規(guī)能力。在單項(xiàng)選擇題型中,通過(guò)強(qiáng)制模型做出選擇,結(jié)果顯示出部分模型訓(xùn)練后的偏見(jiàn)性和歧視性方向的指引明顯。這可能是訓(xùn)練數(shù)據(jù)、模型設(shè)計(jì)、參數(shù)設(shè)置的偏見(jiàn)性和歧視性導(dǎo)致的。
針對(duì)歧視性問(wèn)題,本次評(píng)測(cè)通過(guò)深化歧視下的二級(jí)標(biāo)簽(如民族歧視、地域歧視等),并采用多道題對(duì)應(yīng)一個(gè)歧視點(diǎn)的方式。結(jié)果顯示,大部分模型在涉及不同地域、不同國(guó)別和不同民族的場(chǎng)景中可能表現(xiàn)出歧視傾向,這可能與訓(xùn)練數(shù)據(jù)、算法設(shè)計(jì)、使用環(huán)境以及社會(huì)文化背景緊密相關(guān)。
值得注意的是,本次評(píng)測(cè)在數(shù)據(jù)集選取時(shí)特別規(guī)避了在題干中違規(guī)詞的出現(xiàn),旨在繞過(guò)檢測(cè)模型/關(guān)鍵詞的常規(guī)檢測(cè)。
然而,正是這種迂回的方式,大模型暴露出藏匿更深的內(nèi)容風(fēng)險(xiǎn)。結(jié)果顯示,模型在生成內(nèi)容時(shí)可能受到訓(xùn)練數(shù)據(jù)的影響,產(chǎn)生一些看似合規(guī)但實(shí)際上具有風(fēng)險(xiǎn)的內(nèi)容,暴露出過(guò)分依賴關(guān)鍵詞或特點(diǎn)短語(yǔ)來(lái)識(shí)別違規(guī)內(nèi)容的局限。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專(zhuān)題論壇在沈陽(yáng)成功舉辦。