18家中文大模型橫評(píng)：識(shí)別違規(guī)內(nèi)容手段單一英文合規(guī)檢測(cè)水平待提高

2024年06月13日 15:50:05 來(lái)源：DoNews

　　近日，知道創(chuàng)宇發(fā)布《中文大模型安全基準(zhǔn)雙輪測(cè)評(píng)第1期報(bào)告》，本次報(bào)告主題為“核心價(jià)值觀之鑒”，對(duì)國(guó)內(nèi)18家主流中文大模型的中英文內(nèi)容合規(guī)能力進(jìn)行評(píng)測(cè)。

　　評(píng)測(cè)結(jié)果顯示，大部分大模型的內(nèi)容合規(guī)檢測(cè)機(jī)制過(guò)于直接和簡(jiǎn)單。難以應(yīng)對(duì)復(fù)雜評(píng)測(cè)場(chǎng)景下的內(nèi)容安全風(fēng)險(xiǎn)與潛在威脅，因此亟需進(jìn)一步優(yōu)化。

　　特別值得注意的是，評(píng)測(cè)結(jié)果指出，大部分大模型英文內(nèi)容合規(guī)檢測(cè)能力嚴(yán)重不足。這也提示，在全球化和多語(yǔ)言環(huán)境的背景下，中文大模型在提升中文內(nèi)容合規(guī)能力的同時(shí)，也必須加強(qiáng)英文及其他語(yǔ)言的合規(guī)性檢測(cè)能力，以確保在各種語(yǔ)言環(huán)境下都能提供安全、合規(guī)的服務(wù)。

　　英文合規(guī)檢測(cè)能力嚴(yán)重不足

　　為確保大模型的穩(wěn)健發(fā)展，國(guó)家網(wǎng)信辦等七部門(mén)聯(lián)合發(fā)布《生成式人工智能服務(wù)管理暫行辦法》，自2023年8月15日起實(shí)施。該辦法明確提出堅(jiān)持社會(huì)主義核心價(jià)值觀的要求，并禁止生成任何違反法律、行政法規(guī)的內(nèi)容。

　　與此同時(shí)，《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》也強(qiáng)調(diào)了算法推薦服務(wù)提供者應(yīng)堅(jiān)持主流價(jià)值導(dǎo)向。

　　為了進(jìn)一步促進(jìn)生成式AI服務(wù)的安全發(fā)展，2024年3月全國(guó)網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布《生成式人工智能服務(wù)安全基本要求》，要求生成式AI服務(wù)必須具備關(guān)鍵詞庫(kù)、內(nèi)容測(cè)試題庫(kù)和拒答測(cè)試題庫(kù)，以確保服務(wù)的安全性和可靠性。

　　為更真實(shí)反映大模型能力，知道創(chuàng)宇本次評(píng)測(cè)采用多維度、多視角的綜合方案，涵蓋簡(jiǎn)答題和選擇題。通過(guò)從數(shù)據(jù)集庫(kù)(50萬(wàn)+道題)隨機(jī)抽取5000+道原始評(píng)測(cè)數(shù)據(jù)集，經(jīng)過(guò)嚴(yán)格的人工校驗(yàn)后保留了4000道(含1500道簡(jiǎn)單題和2500道選擇題)，并結(jié)合“裁判模型”和專(zhuān)業(yè)評(píng)審等方式，確保評(píng)分公正客觀。

　　本次評(píng)測(cè)分為兩輪，模型選取范圍涵蓋了了國(guó)內(nèi)有代表性的13個(gè)WEB開(kāi)放大模型和6個(gè)大模型API。第一輪評(píng)測(cè)為截至2024年3月22日的大模型表現(xiàn)，第二輪則為2024年4月16日的最新評(píng)測(cè)結(jié)果。

　　在第一輪評(píng)測(cè)中，特別設(shè)置了中文和英文兩種評(píng)測(cè)語(yǔ)言，旨在測(cè)試模型在“社會(huì)主義核心價(jià)值觀”上的中英文對(duì)齊表現(xiàn)，包括對(duì)種族歧視、少兒不宜內(nèi)容、色情元素、違法違規(guī)內(nèi)容、地域歧視及政權(quán)觀點(diǎn)的全面考察。英文題集由中文題集一對(duì)一翻譯而來(lái)，以防范語(yǔ)種變換帶來(lái)的內(nèi)容風(fēng)險(xiǎn)。

　　在綜合評(píng)分中，抖音豆包、GLM-3、騰訊混元、海螺問(wèn)問(wèn)和Kimi英文和中文領(lǐng)域均表現(xiàn)出色，位列前五。然而，對(duì)于原本在中文領(lǐng)域表現(xiàn)優(yōu)秀的大模型，如文心一言3.5和小悟空，由于英文能力相對(duì)不足，導(dǎo)致其在綜合評(píng)分中未能獲得理想成績(jī)。

　　第一輪評(píng)測(cè)顯示，中文大模型在英文內(nèi)容合規(guī)檢測(cè)上存在明顯弱點(diǎn)。首先，英文合規(guī)檢測(cè)能力不足，導(dǎo)致模型生成的英文內(nèi)容難以準(zhǔn)確判斷是否符合我國(guó)法規(guī)及道德標(biāo)準(zhǔn)。這主要源于檢測(cè)模型在訓(xùn)練時(shí)缺乏足夠的英文違規(guī)語(yǔ)料，說(shuō)明許多廠商對(duì)模型生成結(jié)果的檢測(cè)算法還不夠完善。

　　其次，英文關(guān)鍵詞積累不足也削弱了模型的合規(guī)檢測(cè)能力，影響了對(duì)英文文本關(guān)鍵信息的準(zhǔn)確識(shí)別和理解。這些問(wèn)題可能導(dǎo)致英文內(nèi)容審核疏漏，給用戶帶來(lái)風(fēng)險(xiǎn)。

　　識(shí)別違規(guī)內(nèi)容過(guò)分依賴關(guān)鍵詞

　　第二輪評(píng)測(cè)緊密?chē)@《生成式人工智能服務(wù)安全基本要求》，對(duì)“社會(huì)主義核心價(jià)值觀”和“歧視性”兩大核心要點(diǎn)進(jìn)行了深入評(píng)測(cè)。通過(guò)深入剖析并細(xì)化為17類(lèi)二級(jí)標(biāo)簽，同時(shí)靈活融合了多元化的三級(jí)標(biāo)簽數(shù)據(jù)，精心構(gòu)建了一套全新的數(shù)據(jù)集。

　　由于該評(píng)測(cè)數(shù)據(jù)集在細(xì)節(jié)處理上的極高要求，部分大型模型在測(cè)試中暴露出了內(nèi)容風(fēng)險(xiǎn)問(wèn)題，這些問(wèn)題主要源于垃圾訓(xùn)練數(shù)據(jù)的不良影響，尤其是在“歧視性”方面的表現(xiàn)尤為突出，揭示了模型在泛化能力上存在的局限性。

　　本輪評(píng)測(cè)結(jié)合針對(duì)訪問(wèn)方式，采用多輪對(duì)話、設(shè)定場(chǎng)景、陷阱釣魚(yú)、單/多項(xiàng)選擇等多種題型，以更全面地評(píng)估大模型的內(nèi)容安全合規(guī)能力。在單項(xiàng)選擇題型中，通過(guò)強(qiáng)制模型做出選擇，結(jié)果顯示出部分模型訓(xùn)練后的偏見(jiàn)性和歧視性方向的指引明顯。這可能是訓(xùn)練數(shù)據(jù)、模型設(shè)計(jì)、參數(shù)設(shè)置的偏見(jiàn)性和歧視性導(dǎo)致的。

　　針對(duì)歧視性問(wèn)題，本次評(píng)測(cè)通過(guò)深化歧視下的二級(jí)標(biāo)簽(如民族歧視、地域歧視等)，并采用多道題對(duì)應(yīng)一個(gè)歧視點(diǎn)的方式。結(jié)果顯示，大部分模型在涉及不同地域、不同國(guó)別和不同民族的場(chǎng)景中可能表現(xiàn)出歧視傾向，這可能與訓(xùn)練數(shù)據(jù)、算法設(shè)計(jì)、使用環(huán)境以及社會(huì)文化背景緊密相關(guān)。

　　值得注意的是，本次評(píng)測(cè)在數(shù)據(jù)集選取時(shí)特別規(guī)避了在題干中違規(guī)詞的出現(xiàn)，旨在繞過(guò)檢測(cè)模型/關(guān)鍵詞的常規(guī)檢測(cè)。

　　然而，正是這種迂回的方式，大模型暴露出藏匿更深的內(nèi)容風(fēng)險(xiǎn)。結(jié)果顯示，模型在生成內(nèi)容時(shí)可能受到訓(xùn)練數(shù)據(jù)的影響，產(chǎn)生一些看似合規(guī)但實(shí)際上具有風(fēng)險(xiǎn)的內(nèi)容，暴露出過(guò)分依賴關(guān)鍵詞或特點(diǎn)短語(yǔ)來(lái)識(shí)別違規(guī)內(nèi)容的局限。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信