E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動(dòng)6000億GTV后,抖音計(jì)劃偷襲美團(tuán)大本營(yíng)AGI Open Network(AON):賦能每個(gè)人創(chuàng)建、部署和貨幣化AI Agent貸款利率史上最低了嗎?東融教你看懂歷年啥水平“客服來(lái)電”有詐?抖音客服上線“驗(yàn)證助手”助用戶識(shí)別詐騙OpenAI新模型GPT-5研發(fā)未達(dá)預(yù)期:成本高昂 效果不佳曝天馬打入果鏈:為蘋(píng)果HomePod供應(yīng)LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運(yùn)營(yíng)商e&,展示全球首個(gè)固網(wǎng)游戲端到端網(wǎng)絡(luò)切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒(méi)放棄曲面屏開(kāi)發(fā)!最新專(zhuān)利曝光暗示有望回歸三大運(yùn)營(yíng)商11月成績(jī)單:用戶數(shù)據(jù)增幅放緩打造下一個(gè)英偉達(dá),孫正義的2026芯片計(jì)劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢(shì)AI時(shí)代云安全新范式,暢捷通智能守護(hù)小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強(qiáng)金融大模型 Baichuan4-Finance年末家電消費(fèi)觀察:品質(zhì)生活類(lèi)產(chǎn)品熱賣(mài),將持續(xù)迎來(lái)剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見(jiàn)突破性進(jìn)展新一代語(yǔ)言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    18家中文大模型橫評(píng):識(shí)別違規(guī)內(nèi)容手段單一 英文合規(guī)檢測(cè)水平待提高

    2024年06月13日 15:50:05   來(lái)源:DoNews

      近日,知道創(chuàng)宇發(fā)布《中文大模型安全基準(zhǔn)雙輪測(cè)評(píng)第1期報(bào)告》,本次報(bào)告主題為“核心價(jià)值觀之鑒”,對(duì)國(guó)內(nèi)18家主流中文大模型的中英文內(nèi)容合規(guī)能力進(jìn)行評(píng)測(cè)。

      評(píng)測(cè)結(jié)果顯示,大部分大模型的內(nèi)容合規(guī)檢測(cè)機(jī)制過(guò)于直接和簡(jiǎn)單。難以應(yīng)對(duì)復(fù)雜評(píng)測(cè)場(chǎng)景下的內(nèi)容安全風(fēng)險(xiǎn)與潛在威脅,因此亟需進(jìn)一步優(yōu)化。

      特別值得注意的是,評(píng)測(cè)結(jié)果指出,大部分大模型英文內(nèi)容合規(guī)檢測(cè)能力嚴(yán)重不足。這也提示,在全球化和多語(yǔ)言環(huán)境的背景下,中文大模型在提升中文內(nèi)容合規(guī)能力的同時(shí),也必須加強(qiáng)英文及其他語(yǔ)言的合規(guī)性檢測(cè)能力,以確保在各種語(yǔ)言環(huán)境下都能提供安全、合規(guī)的服務(wù)。

      英文合規(guī)檢測(cè)能力嚴(yán)重不足

      為確保大模型的穩(wěn)健發(fā)展,國(guó)家網(wǎng)信辦等七部門(mén)聯(lián)合發(fā)布《生成式人工智能服務(wù)管理暫行辦法》,自2023年8月15日起實(shí)施。該辦法明確提出堅(jiān)持社會(huì)主義核心價(jià)值觀的要求,并禁止生成任何違反法律、行政法規(guī)的內(nèi)容。

      與此同時(shí),《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》也強(qiáng)調(diào)了算法推薦服務(wù)提供者應(yīng)堅(jiān)持主流價(jià)值導(dǎo)向。

      為了進(jìn)一步促進(jìn)生成式AI服務(wù)的安全發(fā)展,2024年3月全國(guó)網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布《生成式人工智能服務(wù)安全基本要求》,要求生成式AI服務(wù)必須具備關(guān)鍵詞庫(kù)、內(nèi)容測(cè)試題庫(kù)和拒答測(cè)試題庫(kù),以確保服務(wù)的安全性和可靠性。

      為更真實(shí)反映大模型能力,知道創(chuàng)宇本次評(píng)測(cè)采用多維度、多視角的綜合方案,涵蓋簡(jiǎn)答題和選擇題。通過(guò)從數(shù)據(jù)集庫(kù)(50萬(wàn)+道題)隨機(jī)抽取5000+道原始評(píng)測(cè)數(shù)據(jù)集,經(jīng)過(guò)嚴(yán)格的人工校驗(yàn)后保留了4000道(含1500道簡(jiǎn)單題和2500道選擇題),并結(jié)合“裁判模型”和專(zhuān)業(yè)評(píng)審等方式,確保評(píng)分公正客觀。

      本次評(píng)測(cè)分為兩輪,模型選取范圍涵蓋了了國(guó)內(nèi)有代表性的13個(gè)WEB開(kāi)放大模型和6個(gè)大模型API。第一輪評(píng)測(cè)為截至2024年3月22日的大模型表現(xiàn),第二輪則為2024年4月16日的最新評(píng)測(cè)結(jié)果。

      在第一輪評(píng)測(cè)中,特別設(shè)置了中文和英文兩種評(píng)測(cè)語(yǔ)言,旨在測(cè)試模型在“社會(huì)主義核心價(jià)值觀”上的中英文對(duì)齊表現(xiàn),包括對(duì)種族歧視、少兒不宜內(nèi)容、色情元素、違法違規(guī)內(nèi)容、地域歧視及政權(quán)觀點(diǎn)的全面考察。英文題集由中文題集一對(duì)一翻譯而來(lái),以防范語(yǔ)種變換帶來(lái)的內(nèi)容風(fēng)險(xiǎn)。

      在綜合評(píng)分中,抖音豆包、GLM-3、騰訊混元、海螺問(wèn)問(wèn)和Kimi英文和中文領(lǐng)域均表現(xiàn)出色,位列前五。然而,對(duì)于原本在中文領(lǐng)域表現(xiàn)優(yōu)秀的大模型,如文心一言3.5和小悟空,由于英文能力相對(duì)不足,導(dǎo)致其在綜合評(píng)分中未能獲得理想成績(jī)。

      第一輪評(píng)測(cè)顯示,中文大模型在英文內(nèi)容合規(guī)檢測(cè)上存在明顯弱點(diǎn)。首先,英文合規(guī)檢測(cè)能力不足,導(dǎo)致模型生成的英文內(nèi)容難以準(zhǔn)確判斷是否符合我國(guó)法規(guī)及道德標(biāo)準(zhǔn)。這主要源于檢測(cè)模型在訓(xùn)練時(shí)缺乏足夠的英文違規(guī)語(yǔ)料,說(shuō)明許多廠商對(duì)模型生成結(jié)果的檢測(cè)算法還不夠完善。

      其次,英文關(guān)鍵詞積累不足也削弱了模型的合規(guī)檢測(cè)能力,影響了對(duì)英文文本關(guān)鍵信息的準(zhǔn)確識(shí)別和理解。這些問(wèn)題可能導(dǎo)致英文內(nèi)容審核疏漏,給用戶帶來(lái)風(fēng)險(xiǎn)。

      識(shí)別違規(guī)內(nèi)容過(guò)分依賴關(guān)鍵詞

      第二輪評(píng)測(cè)緊密?chē)@《生成式人工智能服務(wù)安全基本要求》,對(duì)“社會(huì)主義核心價(jià)值觀”和“歧視性”兩大核心要點(diǎn)進(jìn)行了深入評(píng)測(cè)。通過(guò)深入剖析并細(xì)化為17類(lèi)二級(jí)標(biāo)簽,同時(shí)靈活融合了多元化的三級(jí)標(biāo)簽數(shù)據(jù),精心構(gòu)建了一套全新的數(shù)據(jù)集。

      由于該評(píng)測(cè)數(shù)據(jù)集在細(xì)節(jié)處理上的極高要求,部分大型模型在測(cè)試中暴露出了內(nèi)容風(fēng)險(xiǎn)問(wèn)題,這些問(wèn)題主要源于垃圾訓(xùn)練數(shù)據(jù)的不良影響,尤其是在“歧視性”方面的表現(xiàn)尤為突出,揭示了模型在泛化能力上存在的局限性。

      本輪評(píng)測(cè)結(jié)合針對(duì)訪問(wèn)方式,采用多輪對(duì)話、設(shè)定場(chǎng)景、陷阱釣魚(yú)、單/多項(xiàng)選擇等多種題型,以更全面地評(píng)估大模型的內(nèi)容安全合規(guī)能力。在單項(xiàng)選擇題型中,通過(guò)強(qiáng)制模型做出選擇,結(jié)果顯示出部分模型訓(xùn)練后的偏見(jiàn)性和歧視性方向的指引明顯。這可能是訓(xùn)練數(shù)據(jù)、模型設(shè)計(jì)、參數(shù)設(shè)置的偏見(jiàn)性和歧視性導(dǎo)致的。

      針對(duì)歧視性問(wèn)題,本次評(píng)測(cè)通過(guò)深化歧視下的二級(jí)標(biāo)簽(如民族歧視、地域歧視等),并采用多道題對(duì)應(yīng)一個(gè)歧視點(diǎn)的方式。結(jié)果顯示,大部分模型在涉及不同地域、不同國(guó)別和不同民族的場(chǎng)景中可能表現(xiàn)出歧視傾向,這可能與訓(xùn)練數(shù)據(jù)、算法設(shè)計(jì)、使用環(huán)境以及社會(huì)文化背景緊密相關(guān)。

      值得注意的是,本次評(píng)測(cè)在數(shù)據(jù)集選取時(shí)特別規(guī)避了在題干中違規(guī)詞的出現(xiàn),旨在繞過(guò)檢測(cè)模型/關(guān)鍵詞的常規(guī)檢測(cè)。

      然而,正是這種迂回的方式,大模型暴露出藏匿更深的內(nèi)容風(fēng)險(xiǎn)。結(jié)果顯示,模型在生成內(nèi)容時(shí)可能受到訓(xùn)練數(shù)據(jù)的影響,產(chǎn)生一些看似合規(guī)但實(shí)際上具有風(fēng)險(xiǎn)的內(nèi)容,暴露出過(guò)分依賴關(guān)鍵詞或特點(diǎn)短語(yǔ)來(lái)識(shí)別違規(guī)內(nèi)容的局限。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類(lèi)目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專(zhuān)題論壇在沈陽(yáng)成功舉辦。