云天勵(lì)飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充FF發(fā)布第二品牌Faraday X:對(duì)標(biāo)豐田 專注增程式混動(dòng)車型黑神話悟空總收入超67億:銷量已超2000萬(wàn)份通快成立激光業(yè)務(wù)區(qū)域中心(中國(guó)),強(qiáng)勢(shì)布局中國(guó)市場(chǎng)Sandalwood Advisors受邀參加第31屆中信里昂投資者論壇淘寶倒逼新風(fēng)向:一場(chǎng)電商減負(fù)運(yùn)動(dòng)博浪AI時(shí)代,阿里、華為“硬碰硬”Youtube將推出人工智能工具 可生成創(chuàng)意、標(biāo)題甚至完整視頻申通、圓通、韻達(dá)發(fā)布 8 月簡(jiǎn)報(bào):快遞業(yè)務(wù)量、收入均同比增長(zhǎng),單票收入均下降蘋(píng)果iPhone 16系列開(kāi)啟發(fā)售,Max最高加2500元TECNO 全球發(fā)布二代折疊屏旗艦—PHANTOM V Fold2 5G及PHANTOM V Flip2 5G科大訊飛還是AI“小甜甜”嗎?消息稱美團(tuán)外賣調(diào)整經(jīng)營(yíng)目標(biāo),從追求 GMV 變?yōu)樽非笥唵瘟?/a>消息稱淘寶“大服飾全球包郵計(jì)劃”升級(jí),品類“擴(kuò)容”至全行業(yè)Brightband獲1000萬(wàn)美元融資,可用AI預(yù)測(cè)極端天氣菊樂(lè)股份再次申報(bào)IPO:四度闖關(guān)未果,超七成收入來(lái)自四川傳AI芯片設(shè)計(jì)公司Ampere尋求出售,或放棄IPO引領(lǐng)通用具身新時(shí)代:普渡發(fā)布首款類人形機(jī)器人PUDU D7辦公軟件的超級(jí)英雄?金山WPS AI會(huì)員人數(shù)破百萬(wàn),鴻蒙版全面開(kāi)跑
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    拯救被「掰彎」的GPT-4!西交微軟北大聯(lián)合提出IN2訓(xùn)練治療LLM「中間迷失」

    2024年05月22日 09:31:58   來(lái)源:新智元公眾號(hào)

      近日,西交微軟北大聯(lián)合提出信息密集型訓(xùn)練大法,使用純數(shù)據(jù)驅(qū)動(dòng)的方式,矯正LLM訓(xùn)練過(guò)程產(chǎn)生的偏見(jiàn),在一定程度上治療了大語(yǔ)言模型丟失中間信息的問(wèn)題。

      辛辛苦苦給大語(yǔ)言模型輸入了一大堆提示,它卻只記住了開(kāi)頭和結(jié)尾?

      這個(gè)現(xiàn)象叫做LLM的中間迷失(Lost in the Middle),是大模型當(dāng)前仍面臨的最大挑戰(zhàn)之一。

      畢竟,LLM現(xiàn)在的上下文長(zhǎng)度已經(jīng)沖到了百萬(wàn)級(jí)別,而難以處理中間的信息,會(huì)使得LLM在評(píng)估大量數(shù)據(jù)時(shí)不再可靠。

      其實(shí),我們?nèi)祟愐灿蓄愃啤钢虚g迷失」的毛病,心理學(xué)上叫「Primacy/recency effect」,感興趣的讀者可以參見(jiàn):

      「我怕零點(diǎn)的鐘聲太響......后面忘了」

      不過(guò)就在不久前,來(lái)自西交、微軟和北大的研究人員,開(kāi)發(fā)了一種純粹的數(shù)據(jù)驅(qū)動(dòng)解決方案,來(lái)治療LLM丟失中間信息的癥狀:

      研究人員認(rèn)為,Lost in the Middle的原因是訓(xùn)練數(shù)據(jù)中的無(wú)意偏差。

      因?yàn)長(zhǎng)LM的預(yù)訓(xùn)練側(cè)重于根據(jù)最近的一些token預(yù)測(cè)下一個(gè)token,而在微調(diào)過(guò)程中,真正的指令又往往位于上下文開(kāi)始的位置。

      這在不知不覺(jué)中引入了一種立場(chǎng)偏見(jiàn),讓LLM認(rèn)為重要信息總是位于上下文的開(kāi)頭和結(jié)尾。

      基于這樣的見(jiàn)解,研究人員提出了信息密集型(INformation-INtensive,IN2)訓(xùn)練方法,來(lái)建立數(shù)據(jù)之間的橋梁。

      既然是訓(xùn)練過(guò)程造成的偏見(jiàn),那么就用訓(xùn)練數(shù)據(jù)來(lái)解決。

      IN2訓(xùn)練使用合成問(wèn)答數(shù)據(jù),向模型顯式指出重要信息可以位于上下文中的任何位置。

      整個(gè)上下文長(zhǎng)度(4K-32K個(gè)token),被分為許多128個(gè)token的片段,而答案所對(duì)應(yīng)的信息位于隨機(jī)位置的片段中。

      研究人員使用了兩種類型的訓(xùn)練問(wèn)題:一種是要求在一個(gè)片段中提供細(xì)節(jié),另一種是需要整合和推斷來(lái)自多個(gè)片段的信息。

      IN2訓(xùn)練到底效果如何?使用明星模型Mistral-7B來(lái)試試。

      將IN2訓(xùn)練應(yīng)用于Mistral-7B,得到了新模型FILM-7B(FILl-in-the-Middle),然后測(cè)試為長(zhǎng)上下文設(shè)計(jì)的三個(gè)新的提取任務(wù)。

      測(cè)試任務(wù)涵蓋不同的上下文類型(文檔、代碼、結(jié)構(gòu)化數(shù)據(jù))和搜索模式(向前、向后、雙向)。

      結(jié)果表明,IN2顯著降低了原始Mistral模型的「中間丟失」問(wèn)題。更厲害的是,作為只有7B的模型,F(xiàn)ILM的性能在很多情況下甚至超越了GPT-4Turbo。

      在保持自己執(zhí)行短上下文任務(wù)能力的同時(shí),F(xiàn)ILM-7B在各種長(zhǎng)上下文任務(wù)中也表現(xiàn)出色,例如總結(jié)長(zhǎng)文本,回答有關(guān)長(zhǎng)文檔的問(wèn)題,以及對(duì)多個(gè)文檔的推理。

      上表是不同模型在現(xiàn)實(shí)的長(zhǎng)上下文任務(wù)中的表現(xiàn)。與本體Mistral-7B 相比,INformation-INtensive (IN2) 訓(xùn)練帶來(lái)的提升很明顯,F(xiàn)ILM-7B的綜合成績(jī)僅次于GPT-4Turbo。

      不過(guò)有一說(shuō)一,Lost in the Middle的問(wèn)題并沒(méi)有完全解決,而且在長(zhǎng)上下文存在問(wèn)題的情況下,GPT-4Turbo也仍然是上下文基準(zhǔn)中最強(qiáng)的模型。

      Lost in the Middle

      LLM丟失中間信息的問(wèn)題最早由斯坦福、UC伯克利和Samaya AI的研究人員在去年發(fā)現(xiàn)。

      當(dāng)面對(duì)較長(zhǎng)的信息流時(shí),人類傾向于記住開(kāi)頭和結(jié)尾,中間的內(nèi)容更容易被忽視。

      沒(méi)想到LLM也學(xué)會(huì)了這個(gè)套路:對(duì)于從輸入中檢索信息的任務(wù),當(dāng)信息位于輸入的開(kāi)頭或結(jié)尾時(shí),模型的表現(xiàn)最好。

      但是,當(dāng)相關(guān)信息位于輸入的中間時(shí),性能會(huì)顯著下降。尤其是在回答需要從多個(gè)文檔中提取信息的問(wèn)題時(shí),性能下降尤為明顯。

      ——真是干啥啥不行,偷懶第一名。

      模型必須同時(shí)處理的輸入越多,其性能往往越差。——而在實(shí)際得應(yīng)用場(chǎng)景中,往往就是需要LLM同時(shí)均勻地處理大量信息。

      另外,研究結(jié)果還表明,大型語(yǔ)言模型使用額外信息的效率是有限的,具有特別詳細(xì)指令的「大型提示」可能弊大于利。

      對(duì)于許多長(zhǎng)上下文LLM,中間信息丟失的現(xiàn)象普遍存在。上表測(cè)試了當(dāng)時(shí)市面上流行的各種款式LLM,包括GPT-4,一共是七種。

      可以看出,不論是開(kāi)源還是閉源模型的強(qiáng)者,測(cè)試結(jié)果都顯示出明顯的U形曲線,說(shuō)明都是在兩頭效果好,而中間就拉跨了。

      即使強(qiáng)如GPT-4,也難逃被「掰彎」的命運(yùn)。

      這也不禁讓人質(zhì)疑:你們這些卷超長(zhǎng)上下文的模型到底有沒(méi)有用啊?不但吃得多,中間信息也記不住。

      信息密集型訓(xùn)練大法

      為了明確教導(dǎo)模型,在長(zhǎng)上下文中的任何位置都可以包含關(guān)鍵信息。研究人員構(gòu)建了一個(gè)長(zhǎng)上下文問(wèn)答訓(xùn)練數(shù)據(jù)集 D = {L,q,a},其中問(wèn)題q的答案a,來(lái)自長(zhǎng)上下文L中的隨機(jī)位置。

      下圖展示了整個(gè)數(shù)據(jù)構(gòu)建過(guò)程。具體來(lái)說(shuō),訓(xùn)練數(shù)據(jù)D基于通用自然語(yǔ)言語(yǔ)料庫(kù)C。給定一個(gè)原始文本,首先使用LLM(GPT-4-Turbo)生成一個(gè)問(wèn)答對(duì) (q,a),然后合成一個(gè)長(zhǎng)上下文 L,其中包括來(lái)自C的其他隨機(jī)抽樣文本的必要信息。

      上圖包含兩種類型的問(wèn)答對(duì):(1)對(duì)長(zhǎng)上下文中細(xì)粒度信息的掌握;(2)對(duì)長(zhǎng)上下文中不同位置出現(xiàn)的信息進(jìn)行整合和推理。

      細(xì)粒度信息感知

      將包含128個(gè)token的段視為上下文的最小信息單元。給定一個(gè)原始文本C,首先從中隨機(jī)提取一個(gè)128個(gè)token的段s,然后生成q、a和 L:

      信息整合和推理

      除了利用每個(gè)片段之外,研究人員還考慮為兩個(gè)或多個(gè)片段中包含的信息生成問(wèn)答對(duì)。

      按照上面最小信息單元的設(shè)置,同樣將全文拆分為一組128個(gè)token的段 [s],然后相應(yīng)地生成 q、a和L:

      使用LLM生成多跳問(wèn)答對(duì),保證每個(gè)問(wèn)題對(duì)應(yīng)的答案至少需要兩個(gè)段內(nèi)的信息。

      訓(xùn)練

      整個(gè)訓(xùn)練數(shù)據(jù)集包含:1.1M用于細(xì)粒度信息感知的長(zhǎng)上下文數(shù)據(jù)(∼63%)、300K用于信息整合和推理的長(zhǎng)上下文數(shù)據(jù)(∼17%)、150K短上下文問(wèn)答數(shù)據(jù)(∼9%)和200K通用指令調(diào)整數(shù)據(jù)(∼11%)。

      使用上面構(gòu)建的訓(xùn)練數(shù)據(jù),研究人員對(duì)Mistral-7B-Instruct-v0.2執(zhí)行 IN2訓(xùn)練:將長(zhǎng)上下文和問(wèn)題作為指令,并使用答案部分的損失來(lái)更新模型。

      超參數(shù):將全局批處理大小設(shè)置為128,使用余弦學(xué)習(xí)率衰減,最大值為1e-6。

      模型訓(xùn)練在16個(gè)80G A100GPU上進(jìn)行,采用由pytorch FSDP實(shí)現(xiàn)的完整分片策略和cpu卸載策略,整個(gè)訓(xùn)練過(guò)程耗時(shí)大約18天。

      VAL 探測(cè)

      研究人員提出了VAL探測(cè)方法,作為評(píng)估語(yǔ)言模型上下文性能的更合適的方法,涵蓋了不同的上下文風(fēng)格和檢索模式,以進(jìn)行更徹底的評(píng)估。

      下圖表示VAL探測(cè)中的三個(gè)任務(wù)。檢索模式由檢索關(guān)鍵字與要檢索的信息之間的相對(duì)位置決定。

      這里考慮了三種上下文樣式(文檔、代碼和結(jié)構(gòu)化數(shù)據(jù)上下文)和三種檢索模式(前向、后向和雙向檢索)。

      VAL探測(cè)中的每個(gè)上下文都包含約32K個(gè)token,每個(gè)任務(wù)包含約3K個(gè)示例。

      文檔句子檢索(雙向):上下文由許多自然語(yǔ)言句子組成,目的是檢索包含給定片段的單個(gè)句子。這些句子是從arXiv上的論文摘要中抽取的。

      此任務(wù)遵循雙向檢索模式,因?yàn)轭A(yù)期的檢索結(jié)果包含上下文中給定片段之前和之后的單詞。評(píng)估指標(biāo)是單詞級(jí)別的召回率分?jǐn)?shù)。

      代碼函數(shù)檢索(向后):上下文由Python函數(shù)組成,目的是檢索函數(shù)定義中給定代碼行的函數(shù)名稱。原始代碼函數(shù)是從StarCoder數(shù)據(jù)集中采樣的,并為每個(gè)函數(shù)隨機(jī)選擇三行定義。

      此任務(wù)遵循向后檢索模式,因?yàn)楹瘮?shù)名稱始終位于定義之前。評(píng)估指標(biāo)是匹配精度。

      數(shù)據(jù)庫(kù)實(shí)體檢索(向前):上下文包含結(jié)構(gòu)化實(shí)體列表,每個(gè)實(shí)體都有三個(gè)字段:ID、label和description,目的是檢索給定ID的標(biāo)簽和說(shuō)明。這些實(shí)體是從維基百科數(shù)據(jù)中采樣的。

      此任務(wù)遵循正向檢索模式,因?yàn)闃?biāo)簽和說(shuō)明跟隨ID。以寬松的匹配準(zhǔn)確性作為衡量標(biāo)準(zhǔn):如果響應(yīng)中的標(biāo)簽或描述完全匹配,則給出1分,否則為0分。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。