曝蘋果智能眼鏡項(xiàng)目已啟動 但最少要5年后才會推出亞馬遜急了 開始偷拼多多了從小米“聽勸”做雙區(qū)洗烘洗衣機(jī),看傳統(tǒng)家電企業(yè)的創(chuàng)新之困全球最大智能體賽事決賽:近萬人參賽,27個(gè)團(tuán)隊(duì)獲獎(jiǎng)FF:Faraday X已與頂級主機(jī)廠簽署系列車型產(chǎn)品研發(fā)交付協(xié)議復(fù)盤史上最長雙十一:168位抖音主播銷售額破億,大主播“冰火兩重天”珠海航展驚現(xiàn)中國版變形金剛 小鵬匯天“陸地航母”完成公開首飛回歸即頂流,時(shí)代變了,李子柒沒變視頻號直播新功能內(nèi)測字節(jié)、快手、Vidu“打野”升級,AI視頻小步快跑雙十一,一個(gè)狂歡消費(fèi)時(shí)代結(jié)束了一年賣200億,學(xué)習(xí)機(jī)巧抓家長“教育補(bǔ)償感”即夢上線指令編輯功能,用戶可一句話輕松改圖唯品會雙11銷量前十品牌中有7個(gè)國貨品牌網(wǎng)傳蘋果高密度電池折戟:iPhone 17 Air將會變厚三星承認(rèn)One UI 6.1.1更新導(dǎo)致Galaxy S23系列手機(jī)音質(zhì)下降研報(bào)稱5G專網(wǎng)收入將大幅增長 CAGR高達(dá)20%國產(chǎn)汽車出海第一,是比亞迪還是奇瑞?迅雷在香港設(shè)立全球技術(shù)中心:涵蓋 AI 實(shí)驗(yàn)室、投資孵化器等李彥宏:智能體是AI應(yīng)用的最主流形態(tài),即將迎來爆發(fā)點(diǎn)
  • 首頁 > 云計(jì)算頻道 > 大模型

    谷歌蘋果最新發(fā)現(xiàn):LLM知道但不告訴你,掌握知識比表現(xiàn)出來的多

    2024年10月21日 09:30:20   來源:新智元導(dǎo)讀

      【新智元導(dǎo)讀】近日,來自谷歌和蘋果的研究表明:AI模型掌握的知識比表現(xiàn)出來的要多得多!這些真實(shí)性信息集中在特定的token中,利用這一屬性可以顯著提高檢測LLM錯(cuò)誤輸出的能力。

      大模型的應(yīng)用歷來受幻覺所擾。

      這個(gè)幻覺可以指代LLM產(chǎn)生的任何類型的錯(cuò)誤:事實(shí)不準(zhǔn)確、偏見、常識推理失敗等等。

      ——是因?yàn)榇竽P蛯W(xué)半天白學(xué)了嗎?并不是。

      近日,來自谷歌和蘋果的研究表明:AI模型掌握的知識比表現(xiàn)出來的更多!

    論文地址:https://arxiv.org/pdf/2410.02707

      論文地址:https://arxiv.org/pdf/2410.02707

      研究人員在LLM內(nèi)部表示上訓(xùn)練分類器,以預(yù)測與生成輸出的真實(shí)性相關(guān)的各種特征。

      結(jié)果表明LLM的內(nèi)部狀態(tài)編碼反映出的真實(shí)性信息,比以前認(rèn)識到的要多得多。

      這些真實(shí)性信息集中在特定的token中,利用這一屬性可以顯著提高檢測LLM錯(cuò)誤輸出的能力。

      雖說這種錯(cuò)誤檢測無法在數(shù)據(jù)集中泛化,但好處是,模型的內(nèi)部表示可用于預(yù)測模型可能犯的錯(cuò)誤類型,從而幫助我們制定緩解錯(cuò)誤的策略。

      研究揭示了LLM內(nèi)部編碼和外部行為之間的差異:可能編碼了正確的答案,卻生成了不正確的答案。

      ——簡單來說就是,LLM它知道,但它不想告訴你!

      LLM在裝傻

      作者建議將重點(diǎn)從以人類為中心的幻覺解釋轉(zhuǎn)移到以模型為中心的視角,檢查模型的中間激活。

      不同于使用RAG或者依賴更強(qiáng)大的LLM judge,本文工作的重點(diǎn)是僅依賴于模型輸出的logits、softmax后的概率和隱藏狀態(tài)的計(jì)算。

      錯(cuò)誤檢測器

      第一步是確定真實(shí)性信號在LLM中的編碼位置。

      假設(shè)我們可以訪問LLM的內(nèi)部狀態(tài)(白盒),但不能訪問任何外部資源(搜索引擎或其他LLM)。

      建立一個(gè)數(shù)據(jù)集D,由N個(gè)問題標(biāo)簽對組成,對于每個(gè)問題,提示模型生成響應(yīng),從而得到一組預(yù)測答案。

      接下來,比較LLM生成的回答與正確答案,從而構(gòu)建錯(cuò)誤檢測數(shù)據(jù)集(這一部可由AI代勞)。

      實(shí)驗(yàn)選擇了四個(gè)LLM:Mistral-7b,Mistral-7b-instruct-v0.2,Llama3-8b和Llama3-8b-instruct。

      作者選取了10個(gè)跨越不同領(lǐng)域和任務(wù)的數(shù)據(jù)集:TriviaQA、HotpotQA(with/without context)、Natural Questions、Winobias、Winogrande、MNLI、Math、IMDB review sentiment analysis和另一個(gè)自制的電影角色數(shù)據(jù)集。

      實(shí)驗(yàn)允許無限制地生成響應(yīng)以模擬現(xiàn)實(shí)世界LLM的用法,并貪婪地解碼答案。

      性能指標(biāo)

      測量ROC曲線下面積以評估錯(cuò)誤檢測器,這能夠反映模型在多個(gè)閾值中區(qū)分陽性和陰性情況的能力,平衡靈敏度(真陽性率)和特異性(假陽性率)。

      錯(cuò)誤檢測方法

      Majority:始終預(yù)測訓(xùn)練數(shù)據(jù)中最頻繁的標(biāo)簽。

      聚合概率/logits:從之前的研究中選取幾種方法,包括計(jì)算這些值的最小值、最大值或平均值。

      P(True):通過提示要求LLM評估其生成的正確性時(shí)。

      Probing:在模型的中間激活上訓(xùn)練一個(gè)小分類器,以預(yù)測已處理文本的特征,這里使用線性探測分類器對靜態(tài)token進(jìn)行錯(cuò)誤檢測。

      作者認(rèn)為,現(xiàn)有方法忽略了一個(gè)關(guān)鍵的細(xì)節(jié):用于錯(cuò)誤檢測token的選擇。

      研究者通常只關(guān)注最后生成的token或取平均值,然而,由于LLM一般會生成長格式響應(yīng),這種做法可能會錯(cuò)過重要的部分。

      本文中,作者關(guān)注表示確切答案的token(EXACT ANSWER TOKENS),它代表了生成的響應(yīng)中最有意義的部分。

      這里將EXACT ANSWER TOKENS定義為,如果修改則會改變答案正確性的token。

      實(shí)踐中,作者使用設(shè)置好的instruct模型代勞,來提取確切答案。之后,通過簡單的搜索過程確定對應(yīng)的token。

      重點(diǎn)關(guān)注4個(gè)特定token:第一個(gè)確切答案的token及其前一個(gè)token、最后一個(gè)確切答案token及其后一個(gè)token。

      作者廣泛分析了層和token選擇對分類器的激活提取的影響,通過系統(tǒng)地探測模型的所有層,從最后一個(gè)問題token開始,一直到最終生成的token。

      上圖顯示了Mistral-7b-Struct中各個(gè)層和token關(guān)于探測的AUC指標(biāo)。雖然一些數(shù)據(jù)集似乎更容易進(jìn)行錯(cuò)誤預(yù)測,但所有數(shù)據(jù)集都表現(xiàn)出一致的真實(shí)性編碼模式,中后期層通常會產(chǎn)生最有效的探測結(jié)果。

      通過比較使用和不使用EXACT ANSWER TOKENS的性能,來評估各種錯(cuò)誤檢測方法,上表展示了三個(gè)代表性數(shù)據(jù)集上的AUC。

      不同任務(wù)中的泛化

      了解錯(cuò)誤檢測器在不同任務(wù)中的泛化能力,對于實(shí)際應(yīng)用程序至關(guān)重要。

      上圖(a)顯示了Mistral-7b-instruct的泛化結(jié)果,大于0.5的值表示泛化成功。乍一看,大多數(shù)熱圖值超過了0.5,似乎任務(wù)之間存在一定程度的泛化。

      然而事實(shí)上,大部分性能可以通過基于logit的真度檢測來實(shí)現(xiàn)。圖(b)顯示了從最強(qiáng)的基于Logit的基線(Logit-min-exact)中減去結(jié)果后的相同熱圖。

      這表示檢測器的泛化程度很少超過僅依賴Logit所能達(dá)到的效果。所以,泛化并不源于真實(shí)性的內(nèi)部編碼,而是反映了已經(jīng)通過logits等外部特征訪問的信息。

      經(jīng)過訓(xùn)練的探測分類器可以預(yù)測錯(cuò)誤,但其泛化能力只發(fā)生在需要相似技能的任務(wù)(如事實(shí)檢索)中。

      對于涉及不同技能的任務(wù),例如情感分析,探測分類器與基于logit的不確定性預(yù)測器效果差不多。

      錯(cuò)誤類型研究

      在確定了錯(cuò)誤檢測的局限性,并研究了不同任務(wù)的錯(cuò)誤編碼有何不同之后,作者深入研究了單個(gè)任務(wù)中的錯(cuò)誤,根據(jù)模型對重復(fù)樣本的響應(yīng)對其錯(cuò)誤進(jìn)行分類。

      比如,持續(xù)生成的相同錯(cuò)誤與偶爾生成的錯(cuò)誤屬于不同類別。

      研究人員在T = 30的溫度設(shè)置下,對數(shù)據(jù)集中的每個(gè)樣本進(jìn)行采樣,然后分析答案的結(jié)果分布。

      上圖展示了三種代表性的錯(cuò)誤類型:

      圖(4a)中,模型通常會給出正確的答案,但偶爾會出錯(cuò),這意味著存在正確的信息,但采樣可能會導(dǎo)致錯(cuò)誤。

      圖(4b)中,模型經(jīng)常犯同樣的錯(cuò)誤,但仍保留了一些知識。

      圖(4c)中,模型生成了大量錯(cuò)誤的答案,整體置信度較低。

      分類的標(biāo)準(zhǔn)有三個(gè):生成的不同答案的數(shù)量,正確答案的頻率,以及最常見的錯(cuò)誤答案的頻率。

      上表顯示了所有模型的測試集結(jié)果。結(jié)果表明,可以從貪婪解碼的中間表示中預(yù)測錯(cuò)誤類型。

      檢測正確答案

      模型的這種內(nèi)部真實(shí)性如何在響應(yīng)生成過程中與其外部行為保持一致?

      作者使用經(jīng)過錯(cuò)誤檢測訓(xùn)練的探測器,從同一問題的30個(gè)響應(yīng)中選擇一個(gè)答案,根據(jù)所選答案衡量模型的準(zhǔn)確性。

      如果這種準(zhǔn)確性與傳統(tǒng)解碼方法(如貪婪解碼)沒有顯著差異,則表明LLM的真實(shí)性內(nèi)部表示與其外部行為一致。

      實(shí)驗(yàn)在TriviaQA、Winobias和Math上進(jìn)行,選擇probe評估的正確性概率最高的答案。這里比較了三個(gè)基線:貪婪解碼;從30個(gè)候選答案中隨機(jī)選擇;選擇生成的最頻繁的答案。

      結(jié)果如上圖所示,總體而言,使用探針選擇答案可以提高LLM所有檢查任務(wù)的準(zhǔn)確性。但是,改進(jìn)的程度因錯(cuò)誤類型而異。

      探針可以有效地識別正確答案的事實(shí)表明,LLM的內(nèi)部編碼與其外部行為之間存在重大脫節(jié):即使模型編碼了哪個(gè)答案是正確的信息,它在實(shí)踐中仍然可能生成錯(cuò)誤的答案。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。