DeepMind終結大模型幻覺？標注事實比人類靠譜、還便宜20倍，全開源

2024年03月29日 15:19:13 來源：機器之心公眾號

　　DeepMind 這篇論文一出，人類標注者的飯碗也要被砸了嗎?

　　大模型的幻覺終于要終結了?

　　今日，社媒平臺 reddit 上的一則帖子引起網友熱議。帖子討論的是谷歌 DeepMind 昨日提交的一篇論文《Long-form factuality in large language models》(大語言模型的長篇事實性)，文中提出的方法和結果讓人得出大膽的結論:對于負擔得起的人來說，大語言模型幻覺不再是問題了。

　　我們知道，大語言模型在響應開放式主題的 fact-seeking(事實尋求)提示時，通常會生成包含事實錯誤的內容。DeepMind 針對這一現象進行了一些探索性研究。

　　首先，為了對一個模型在開放域的長篇事實性進行基準測試，研究者使用 GPT-4生成 LongFact，它是一個包含38個主題、數千個問題的提示集。然后他們提出使用搜索增強事實評估器(Search-Augmented Factuality Evaluator， SAFE)來將 LLM 智能體用作長篇事實性的自動評估器。

　　對于 SAFE，它利用 LLM 將長篇響應分解為一組單獨的事實，并使用多步推理過程來評估每個事實的準確性。這里多步推理過程包括將搜索查詢發(fā)送到 Google 搜索并確定搜索結果是否支持某個事實。

　　此外，研究者提出將 F1分數(F1@K)擴展為長篇事實性的聚合指標。他們平衡了響應中支持的事實的百分比(精度)和所提供事實相對于代表用戶首選響應長度的超參數的百分比(召回率)。

　　實證結果表明，LLM 智能體可以實現超越人類的評級性能。在一組約16k 個單獨的事實上，SAFE 在72% 的情況下與人類注釋者一致，并且在100個分歧案例的隨機子集上，SAFE 的贏率為76%。同時，SAFE 的成本比人類注釋者便宜20倍以上。

　　研究者還使用 LongFact，對四個大模型系列(Gemini、GPT、Claude 和 PaLM-2)的13種流行的語言模型進行了基準測試，結果發(fā)現較大的語言模型通�？梢詫崿F更好的長篇事實性。

　　論文作者之一、谷歌研究科學家 Quoc V. Le 表示，這篇對長篇事實性進行評估和基準測試的新工作提出了一個新數據集、一種新評估方法以及一種兼顧精度和召回率的聚合指標。同時所有數據和代碼將開源以供未來工作使用。

　　方法概覽

　　LONGFACT:使用 LLM 生成長篇事實性的多主題基準

　　首先來看使用 GPT-4生成的 LongFact 提示集，包含了2280個事實尋求提示，這些提示要求跨38個手動選擇主題的長篇響應。研究者表示，LongFact 是第一個用于評估各個領域長篇事實性的提示集。

　　LongFact 包含兩個任務:LongFact-Concepts 和 LongFact-Objects，根據問題是否詢問概念或對象來區(qū)分。研究者為每個主題生成30個獨特的提示，每個任務各有1140個提示。

　　SAFE:LLM 智能體作為事實性自動評分者

　　研究者提出了搜索增強事實評估器(SAFE)，它的運行原理如下所示:

　　a)將長篇的響應拆分為單獨的獨立事實;

　　b)確定每個單獨的事實是否與回答上下文中的提示相關;

　　c) 對于每個相關事實，在多步過程中迭代地發(fā)出 Google 搜索查詢，并推理搜索結果是否支持該事實。

　　他們認為 SAFE 的關鍵創(chuàng)新在于使用語言模型作為智能體，來生成多步 Google 搜索查詢，并仔細推理搜索結果是否支持事實。下圖3為推理鏈示例。

　　為了將長篇響應拆分為單獨的獨立事實，研究者首先提示語言模型將長篇響應中的每個句子拆分為單獨的事實，然后通過指示模型將模糊引用(如代詞)替換為它們在響應上下文中引用的正確實體，將每個單獨的事實修改為獨立的。

　　為了對每個獨立的事實進行評分，他們使用語言模型來推理該事實是否與在響應上下文中回答的提示相關，接著使用多步方法將每個剩余的相關事實評級為「支持」或「不支持」。具體如下圖1所示。

　　在每個步驟中，模型都會根據要評分的事實和之前獲得的搜索結果來生成搜索查詢。經過一定數量的步驟后，模型執(zhí)行推理以確定搜索結果是否支持該事實，如上圖3所示。在對所有事實進行評級后，SAFE 針對給定提示 - 響應對的輸出指標為「支持」事實的數量、「不相關」事實的數量以及「不支持」事實的數量。

　　實驗結果

　　LLM 智能體成為比人類更好的事實注釋者

　　為了定量評估使用 SAFE 獲得注釋的質量，研究者使用了眾包人類注釋。這些數據包含496個提示 - 響應對，其中響應被手動拆分為單獨的事實(總共16011個單獨的事實)，并且每個單獨的事實都被手動標記為支持、不相關或不支持。

　　他們直接比較每個事實的 SAFE 注釋和人類注釋，結果發(fā)現 SAFE 在72.0% 的單獨事實上與人類一致，如下圖4所示。這表明 SAFE 在大多數單獨事實上都達到了人類水平的表現。然后檢查隨機采訪的100個單獨事實的子集，其中 SAFE 的注釋與人類評分者的注釋不一致。

　　研究者手動重新注釋每個事實(允許訪問 Google 搜索，而不僅僅是維基百科，以獲得更全面的注釋)，并使用這些標簽作為基本事實。他們發(fā)現，在這些分歧案例中，SAFE 注釋的正確率為76%，而人工注釋的正確率僅為19%，這代表 SAFE 的勝率是4比1。具體如下圖5所示。

　　這里，兩種注釋方案的價格非常值得關注。使用人工注釋對單個模型響應進行評級的成本為4美元，而使用 GPT-3.5-Turbo 和 Serper API 的 SAFE 僅為0.19美元。

　　Gemini、GPT、Claude 和 PaLM-2系列基準測試

　　最后，研究者在 LongFact 上對下表1中四個模型系列(Gemini、GPT、Claude 和 PaLM-2)的13個大語言模型進行了廣泛的基準測試。

　　具體來講，他們利用了 LongFact-Objects 中250個提示組成的相同隨機子集來評估每個模型，然后使用 SAFE 獲取每個模型響應的原始評估指標，并利用 F1@K 指標進行聚合。

　　結果發(fā)現，一般而言，較大的語言模型可以實現更好的長篇事實性。如下圖6和下表2所示，GPT-4-Turbo 優(yōu)于 GPT-4，GPT-4優(yōu)于 GPT-3.5-Turbo，Gemini-Ultra 優(yōu)于 Gemini-Pro，PaLM-2-L-IT-RLHF 優(yōu)于 PaLM-2-L-IT。

　　更多技術細節(jié)和實驗結果請參閱原論文。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

[No. ]
分享到微信