冰雪大世界盛大開園,美的空調橫跨50℃打造“東北夏威夷”臺灣小土豆勇闖冰雪大世界,美的空調真暖快車成為最熱打卡點京東iPhone 16系列年底大放價!至高補貼1200元價格低過11.11新一季圓滿假期結伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞中國聯通組織“魅力亞冬,與智慧同行” 主題采訪活動“萬象分區(qū)”引領電視行業(yè)新潮流,TCL這步棋下得著實漂亮!百度職業(yè)院校專屬項目“大國智匠”引領職業(yè)教育新范式百度大模型助力2024年碼蹄杯程序設計大賽,全國高校學子展現卓越編程實力碼蹄杯人物特寫:四位編程少年的追夢之旅金倉數據庫四項成果入選2024星河案例亞信科技參加2024通信產業(yè)大會 CTO歐陽曄博士等做主題演講用專業(yè)贏得信賴 美好蘊育潤康引領孕產營養(yǎng)新風尚解鎖新成就!愛企查“度秘書”粉絲突破10萬!英特爾終止x86S架構計劃:純64位設計再度戛然而止豆包大模型全面升級,相關概念股瘋漲,字節(jié)發(fā)布緊急警示申通、圓通、韻達發(fā)布 11 月簡報:快遞業(yè)務量、收入均同比增長,單票收入均下降SensorTower發(fā)11月中國手游全球收入排行榜 庫洛入榜“YO!原”千里來相會 華為智能生活館·太原茂業(yè)重裝開業(yè)微軟承認并調查Microsoft 365 應用出現“產品已停用”錯誤SK 海力士被曝贏得博通HBM訂單,預計明年 1b DRAM 月產能將擴大到 16~17 萬片
  • 首頁 > 云計算頻道 > 大模型

    DeepMind終結大模型幻覺?標注事實比人類靠譜、還便宜20倍,全開源

    2024年03月29日 15:19:13   來源:機器之心公眾號

      DeepMind 這篇論文一出,人類標注者的飯碗也要被砸了嗎?

      大模型的幻覺終于要終結了?

      今日,社媒平臺 reddit 上的一則帖子引起網友熱議。帖子討論的是谷歌 DeepMind 昨日提交的一篇論文《Long-form factuality in large language models》(大語言模型的長篇事實性),文中提出的方法和結果讓人得出大膽的結論:對于負擔得起的人來說,大語言模型幻覺不再是問題了。

      我們知道,大語言模型在響應開放式主題的 fact-seeking(事實尋求)提示時,通常會生成包含事實錯誤的內容。DeepMind 針對這一現象進行了一些探索性研究。

      首先,為了對一個模型在開放域的長篇事實性進行基準測試,研究者使用 GPT-4生成 LongFact,它是一個包含38個主題、數千個問題的提示集。然后他們提出使用搜索增強事實評估器(Search-Augmented Factuality Evaluator, SAFE)來將 LLM 智能體用作長篇事實性的自動評估器。

      對于 SAFE,它利用 LLM 將長篇響應分解為一組單獨的事實,并使用多步推理過程來評估每個事實的準確性。這里多步推理過程包括將搜索查詢發(fā)送到 Google 搜索并確定搜索結果是否支持某個事實 。

      此外,研究者提出將 F1分數(F1@K)擴展為長篇事實性的聚合指標。他們平衡了響應中支持的事實的百分比(精度)和所提供事實相對于代表用戶首選響應長度的超參數的百分比(召回率)。

      實證結果表明,LLM 智能體可以實現超越人類的評級性能。在一組約16k 個單獨的事實上,SAFE 在72% 的情況下與人類注釋者一致,并且在100個分歧案例的隨機子集上,SAFE 的贏率為76%。同時,SAFE 的成本比人類注釋者便宜20倍以上。

      研究者還使用 LongFact,對四個大模型系列(Gemini、GPT、Claude 和 PaLM-2)的13種流行的語言模型進行了基準測試,結果發(fā)現較大的語言模型通?梢詫崿F更好的長篇事實性。

      論文作者之一、谷歌研究科學家 Quoc V. Le 表示,這篇對長篇事實性進行評估和基準測試的新工作提出了一個新數據集、 一種新評估方法以及一種兼顧精度和召回率的聚合指標。同時所有數據和代碼將開源以供未來工作使用。

      方法概覽

      LONGFACT:使用 LLM 生成長篇事實性的多主題基準

      首先來看使用 GPT-4生成的 LongFact 提示集,包含了2280個事實尋求提示,這些提示要求跨38個手動選擇主題的長篇響應。研究者表示,LongFact 是第一個用于評估各個領域長篇事實性的提示集。

      LongFact 包含兩個任務:LongFact-Concepts 和 LongFact-Objects,根據問題是否詢問概念或對象來區(qū)分。研究者為每個主題生成30個獨特的提示,每個任務各有1140個提示。

      SAFE:LLM 智能體作為事實性自動評分者

      研究者提出了搜索增強事實評估器(SAFE),它的運行原理如下所示:

      a)將長篇的響應拆分為單獨的獨立事實;

      b)確定每個單獨的事實是否與回答上下文中的提示相關;

      c) 對于每個相關事實,在多步過程中迭代地發(fā)出 Google 搜索查詢,并推理搜索結果是否支持該事實。

      他們認為 SAFE 的關鍵創(chuàng)新在于使用語言模型作為智能體,來生成多步 Google 搜索查詢,并仔細推理搜索結果是否支持事實。下圖3為推理鏈示例。

      為了將長篇響應拆分為單獨的獨立事實,研究者首先提示語言模型將長篇響應中的每個句子拆分為單獨的事實,然后通過指示模型將模糊引用(如代詞)替換為它們在響應上下文中引用的正確實體,將每個單獨的事實修改為獨立的。

      為了對每個獨立的事實進行評分,他們使用語言模型來推理該事實是否與在響應上下文中回答的提示相關,接著使用多步方法將每個剩余的相關事實評級為「支持」或「不支持」。具體如下圖1所示。

      在每個步驟中,模型都會根據要評分的事實和之前獲得的搜索結果來生成搜索查詢。經過一定數量的步驟后,模型執(zhí)行推理以確定搜索結果是否支持該事實,如上圖3所示。在對所有事實進行評級后,SAFE 針對給定提示 - 響應對的輸出指標為 「支持」事實的數量、「不相關」事實的數量以及「不支持」事實的數量。

      實驗結果

      LLM 智能體成為比人類更好的事實注釋者

      為了定量評估使用 SAFE 獲得注釋的質量,研究者使用了眾包人類注釋。這些數據包含496個提示 - 響應對,其中響應被手動拆分為單獨的事實(總共16011個單獨的事實),并且每個單獨的事實都被手動標記為支持、不相關或不支持。

      他們直接比較每個事實的 SAFE 注釋和人類注釋,結果發(fā)現 SAFE 在72.0% 的單獨事實上與人類一致,如下圖4所示。這表明 SAFE 在大多數單獨事實上都達到了人類水平的表現。然后檢查隨機采訪的100個單獨事實的子集,其中 SAFE 的注釋與人類評分者的注釋不一致。

      研究者手動重新注釋每個事實(允許訪問 Google 搜索,而不僅僅是維基百科,以獲得更全面的注釋),并使用這些標簽作為基本事實。他們發(fā)現,在這些分歧案例中,SAFE 注釋的正確率為76%,而人工注釋的正確率僅為19%,這代表 SAFE 的勝率是4比1。具體如下圖5所示。

      這里,兩種注釋方案的價格非常值得關注。使用人工注釋對單個模型響應進行評級的成本為4美元,而使用 GPT-3.5-Turbo 和 Serper API 的 SAFE 僅為0.19美元。

      Gemini、GPT、Claude 和 PaLM-2系列基準測試

      最后,研究者在 LongFact 上對下表1中四個模型系列(Gemini、GPT、Claude 和 PaLM-2)的13個大語言模型進行了廣泛的基準測試。

      具體來講,他們利用了 LongFact-Objects 中250個提示組成的相同隨機子集來評估每個模型,然后使用 SAFE 獲取每個模型響應的原始評估指標,并利用 F1@K 指標進行聚合。

      結果發(fā)現,一般而言,較大的語言模型可以實現更好的長篇事實性。如下圖6和下表2所示,GPT-4-Turbo 優(yōu)于 GPT-4,GPT-4優(yōu)于 GPT-3.5-Turbo,Gemini-Ultra 優(yōu)于 Gemini-Pro,PaLM-2-L-IT-RLHF 優(yōu)于 PaLM-2-L-IT。

      更多技術細節(jié)和實驗結果請參閱原論文。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(AVC)推總數據顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯網標識解析體系

    9月14日,2024全球工業(yè)互聯網大會——工業(yè)互聯網標識解析專題論壇在沈陽成功舉辦。