谷歌研究院日前使用自家 BIG-Bench 基準測試建立了一項“BIG-Bench Mistake”數(shù)據(jù)集,并利用相關數(shù)據(jù)集對市面上流行的語言模型“出錯概率”及“糾錯能力”進行了一系列評估研究。
谷歌研究人員表示,由于過去沒有能夠評估大語言模型“出錯概率”及“自我糾錯能力”的數(shù)據(jù)集,因此他們創(chuàng)建了一項名為“BIG-Bench Mistake”的專用基準數(shù)據(jù)集用于評估測試。
據(jù)悉,研究人員首先使用 PaLM 語言模型在自家 BIG-Bench 基準測試任務中運行了 5 項任務,之后將生成的“思維鏈(Chain-of-Thought)”軌跡修改加入“邏輯錯誤”部分,之后重新丟給模型判斷思維鏈軌跡中哪些地方存在錯誤。
為了提升數(shù)據(jù)集準確程度,谷歌研究人員反復進行上述過程,最終形成了一項內含“255 項邏輯錯誤”的“BIG-Bench Mistake”專用基準數(shù)據(jù)集。
研究人員提到,由于“BIG-Bench Mistake”數(shù)據(jù)集中的邏輯錯誤較為“簡單明確”,因此可以作為一個良好的測試標準,可協(xié)助語言模型先從簡單的邏輯錯誤開始練習,逐步提升辨識錯誤的能力。
研究人員利用該數(shù)據(jù)集對市面上模型進行測試,發(fā)現(xiàn)雖然絕大多數(shù)語言模型可以識別在推理過程中出現(xiàn)的邏輯錯誤并進行自我修正,但這個過程“并不夠理想”,通常需要人工干預來糾正模型輸出的內容。
從報告中發(fā)現(xiàn),谷歌聲稱“目前最先進的大語言模型”自我糾錯能力也相對有限,在相關測試結果中成績發(fā)揮最好的模型,也僅僅找出了 52.9% 的邏輯錯誤。
谷歌研究人員同時聲稱,這一 BIG-Bench Mistake 數(shù)據(jù)集有利于改善模型自我糾錯能力,經過相關測試任務微調后的模型,“即便是小型模型表現(xiàn)也通常比零樣本提示的大模型更好”。
據(jù)此,谷歌認為在模型糾錯方面,可以使用專有小型模型“監(jiān)督”大型模型,相對于讓大語言模型學會“糾正自我錯誤”,部署專用于監(jiān)督大模型的小型專用模型有利于改善效率、降低相關 AI 部署成本,并更便于微調。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。