谷歌發(fā)布 FACTS Grounding 基準：Gemini、GPT-4o、Claude 當評委，成 AI 大語言模型“幻覺照妖鏡”

2024年12月18日 15:24:27 來源：IT之家

　　谷歌DeepMind 團隊于12月17日發(fā)布博文，宣布推出 FACTS Grounding 基準測試，評估大型語言模型(LLMs)根據(jù)給定材料是否準確作答，并避免“幻覺”（即捏造信息）的能力，從而提升 LLMs 的事實準確性，增強用戶信任度，并拓展其應用范圍。

　　數(shù)據(jù)集

　　在數(shù)據(jù)集方面，ACTS Grounding 數(shù)據(jù)集包含 1719 個示例，涵蓋金融、科技、零售、醫(yī)療和法律等多個領域，每個示例包含一篇文檔、一條要求 LLM 基于文檔的系統(tǒng)指令和隨附的提示詞。

　　示例文檔長度不一，最長可達 32000 個 token(約 20000 字)。用戶請求涵蓋摘要、問答生成和改寫等任務，但不包含需要創(chuàng)造力、數(shù)學或復雜推理的任務。IT之家附上演示圖片如下：

　　數(shù)據(jù)集分為 860 個“公共”示例和 859 個“私有”示例，目前已發(fā)布公共數(shù)據(jù)集供評估使用，私有數(shù)據(jù)集用于排行榜評分，以防止基準污染和排行榜作弊。

　　評估方案

　　在評估方案上，F(xiàn)ACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作為評委，評估答案的充分性、事實準確性和文檔支持性。

　　評估分為兩個階段：首先評估響應是否符合資格，即是否充分回答了用戶請求;然后評估響應的事實準確性，即是否完全基于所提供的文檔，有沒有出現(xiàn)“幻覺”，然后基于該模型在所有示例上的平均得分，最終計算得出。

　　在 FACTS Grounding Benchmark 中，谷歌的 Gemini 模型在事實準確的文本生成方面取得了最高分。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

即時

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网