谷歌DeepMind 團隊于12月17日發(fā)布博文,宣布推出 FACTS Grounding 基準測試,評估大型語言模型(LLMs)根據(jù)給定材料是否準確作答,并避免“幻覺”(即捏造信息)的能力,從而提升 LLMs 的事實準確性,增強用戶信任度,并拓展其應用范圍。
數(shù)據(jù)集
在數(shù)據(jù)集方面,ACTS Grounding 數(shù)據(jù)集包含 1719 個示例,涵蓋金融、科技、零售、醫(yī)療和法律等多個領域,每個示例包含一篇文檔、一條要求 LLM 基于文檔的系統(tǒng)指令和隨附的提示詞。
示例文檔長度不一,最長可達 32000 個 token(約 20000 字)。用戶請求涵蓋摘要、問答生成和改寫等任務,但不包含需要創(chuàng)造力、數(shù)學或復雜推理的任務。IT之家附上演示圖片如下:
數(shù)據(jù)集分為 860 個“公共”示例和 859 個“私有”示例,目前已發(fā)布公共數(shù)據(jù)集供評估使用,私有數(shù)據(jù)集用于排行榜評分,以防止基準污染和排行榜作弊。
評估方案
在評估方案上,F(xiàn)ACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作為評委,評估答案的充分性、事實準確性和文檔支持性。
評估分為兩個階段:首先評估響應是否符合資格,即是否充分回答了用戶請求;然后評估響應的事實準確性,即是否完全基于所提供的文檔,有沒有出現(xiàn)“幻覺”,然后基于該模型在所有示例上的平均得分,最終計算得出。
在 FACTS Grounding Benchmark 中,谷歌的 Gemini 模型在事實準確的文本生成方面取得了最高分。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。