合合信息啟信產業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產量突破 100 萬輛,到 2027 年建成萬億級產業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或將停產沖上熱搜!閑魚相關搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術邂逅千年色彩美學!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領域三星新專利探索AR技術新應用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機器也能說人話了?
  • 首頁 > 云計算頻道 > 大模型

    可協(xié)助AI語言模型改善自我糾錯能力,谷歌推出BIG-Bench Mistake數(shù)據(jù)集

    2024年01月15日 20:14:51   來源:IT之家

      谷歌研究院日前使用自家 BIG-Bench 基準測試建立了一項“BIG-Bench Mistake”數(shù)據(jù)集,并利用相關數(shù)據(jù)集對市面上流行的語言模型“出錯概率”及“糾錯能力”進行了一系列評估研究。

      谷歌研究人員表示,由于過去沒有能夠評估大語言模型“出錯概率”及“自我糾錯能力”的數(shù)據(jù)集,因此他們創(chuàng)建了一項名為“BIG-Bench Mistake”的專用基準數(shù)據(jù)集用于評估測試。

      據(jù)悉,研究人員首先使用 PaLM 語言模型在自家 BIG-Bench 基準測試任務中運行了 5 項任務,之后將生成的“思維鏈(Chain-of-Thought)”軌跡修改加入“邏輯錯誤”部分,之后重新丟給模型判斷思維鏈軌跡中哪些地方存在錯誤。

      為了提升數(shù)據(jù)集準確程度,谷歌研究人員反復進行上述過程,最終形成了一項內含“255 項邏輯錯誤”的“BIG-Bench Mistake”專用基準數(shù)據(jù)集。

      研究人員提到,由于“BIG-Bench Mistake”數(shù)據(jù)集中的邏輯錯誤較為“簡單明確”,因此可以作為一個良好的測試標準,可協(xié)助語言模型先從簡單的邏輯錯誤開始練習,逐步提升辨識錯誤的能力。

      研究人員利用該數(shù)據(jù)集對市面上模型進行測試,發(fā)現(xiàn)雖然絕大多數(shù)語言模型可以識別在推理過程中出現(xiàn)的邏輯錯誤并進行自我修正,但這個過程“并不夠理想”,通常需要人工干預來糾正模型輸出的內容。

      從報告中發(fā)現(xiàn),谷歌聲稱“目前最先進的大語言模型”自我糾錯能力也相對有限,在相關測試結果中成績發(fā)揮最好的模型,也僅僅找出了 52.9% 的邏輯錯誤。

      谷歌研究人員同時聲稱,這一 BIG-Bench Mistake 數(shù)據(jù)集有利于改善模型自我糾錯能力,經過相關測試任務微調后的模型,“即便是小型模型表現(xiàn)也通常比零樣本提示的大模型更好”。

      據(jù)此,谷歌認為在模型糾錯方面,可以使用專有小型模型“監(jiān)督”大型模型,相對于讓大語言模型學會“糾正自我錯誤”,部署專用于監(jiān)督大模型的小型專用模型有利于改善效率、降低相關 AI 部署成本,并更便于微調。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。