合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運(yùn)行時安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗(yàn)全面升級機(jī)器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機(jī)器也能說人話了?
  • 首頁 > 云計(jì)算頻道 > 大模型

    「有效上下文」提升20倍!DeepMind發(fā)布ReadAgent框架

    2024年04月07日 11:13:37   來源:新智元公眾號

      基于Transformer的大語言模型(LLM)具有很強(qiáng)的語言理解能力,但LLM一次能夠讀取的文本量仍然受到極大限制。

      除了上下文窗口較小外,LLM的性能會隨著輸入內(nèi)容長度的增加而下降,即便輸入內(nèi)容未超過模型的上下文窗口長度限制也是如此。

      相比之下,人類卻可以閱讀、理解和推理很長的文本。

      LLM和人類在閱讀長度上存在差異的主要原因在于閱讀方法:LLM逐字地輸入精確的內(nèi)容,并且該過程相對被動;但過于準(zhǔn)確的信息往往會被遺忘,而閱讀過程更注重理解模糊的要點(diǎn)信息,即不考慮準(zhǔn)確單詞的內(nèi)容能記憶更長時間。

      人類閱讀也是一個互動的過程,比如回答問題時還需要從原文中進(jìn)行檢索。

      為了解決這些限制,來自Google DeepMind和Google Research的研究人員提出了一個全新的LLM系統(tǒng)ReadAgent,受人類如何交互式閱讀長文檔的啟發(fā),將有效上下文長度增加了20倍。

      論文鏈接:https://arxiv.org/abs/2402.09727

      受人類交互式閱讀長文檔的啟發(fā),研究人員將ReadAgent實(shí)現(xiàn)為一個簡單的提示系統(tǒng),使用LLMs的高級語言功能:

      1. 決定將哪些內(nèi)容存儲在記憶片段(memory episode)中;

      2. 將記憶片段壓縮成稱為要點(diǎn)記憶的簡短片段記憶,

      3. 如果ReadAgent需要提醒自己完成任務(wù)的相關(guān)細(xì)節(jié),則采取行動(action)來查找原始文本中的段落。

      在實(shí)驗(yàn)評估中,相比檢索、原始長上下文、要點(diǎn)記憶(gist memories)方法,ReadAgent在三個長文檔閱讀理解任務(wù)(QuALITY,NarrativeQA和QMSum)上的性能表現(xiàn)都優(yōu)于基線,同時將有效上下文窗口擴(kuò)展了3-20倍。

      ReadAgent框架

      1. 要點(diǎn)記憶(gist memory)

      要點(diǎn)記憶是原始長上下文中文本塊的短要點(diǎn)的有序集合,構(gòu)建gist記憶有兩個步驟:分頁(pagination)和記憶提要(memory gisting)。

      片段分頁(episode pagination)

      當(dāng)ReadAgent閱讀長文本時,通過選擇暫停閱讀的位置來決定在記憶片段中存儲哪些內(nèi)容。

      每一步都會為LLM提供部分文本,從上一個暫停點(diǎn)開始,并在達(dá)到最大單詞數(shù)限制時結(jié)束;提示LLM選擇段落之間的哪個點(diǎn)將是自然的暫停點(diǎn),然后將前一個和當(dāng)前暫停點(diǎn)之間的內(nèi)容視為一個episode,也可以叫做頁(page)。

      記憶提要(memory gisting)

      對于每一頁,提示LLM將確切的內(nèi)容縮短為要點(diǎn)或摘要。

      2. 并行和順序交互查找

      由于要點(diǎn)記憶與頁相關(guān),所以只需提示LLM來找出哪一頁更像是答案,并在給定特定任務(wù)的情況下再次閱讀,主要有兩種查找策略:同時并行查找所有頁面(ReadAgent-P)和每次查找一個頁面(ReadAgent-S)。

      ReadAgent-P

      比如說,在問答任務(wù)中,通常會給LLM輸入一個可以查找的最大頁數(shù),但也會指示其使用盡可能少的頁面,以避免不必要的計(jì)算開銷和干擾信息(distracting information)。

      ReadAgent-S

      順序查找策略中,模型一次請求一頁,在決定展開(expand)哪個頁面之前,先查看之前展開過的頁面,從而使模型能夠訪問比并行查找更多的信息,預(yù)期在某些特殊情況下表現(xiàn)得更好。

      但與模型的交互次數(shù)越多,其計(jì)算成本也越高。

      3. 計(jì)算開銷和可擴(kuò)展性

      片段分頁、記憶提要和交互式查找需要迭代推理,也存在潛在的計(jì)算開銷,但具體開銷由一個小因子線性約束,使得該方法的計(jì)算開銷不會輸入長度的增加而劇烈提升。

      由于查找和響應(yīng)大多是條件要點(diǎn)(conditioned gists)而非全文,所以在同一上下文中的任務(wù)越多,成本也就越低。

      4. ReadAgent變體

      當(dāng)使用長文本時,用戶可能會提前知道要解決的任務(wù):在這種情況下,提要步驟可以在提示中包括任務(wù)描述,使得LLM可以更好地壓縮與任務(wù)無關(guān)的信息,從而提高效率并減少干擾信息,即條件ReadAgent

      更通用的任務(wù)設(shè)置下,在準(zhǔn)備提要時可能不知道具體任務(wù),或者可能知道提出的要點(diǎn)需要用于多個不同的任務(wù),例如回答關(guān)于文本的問題等。

      因此,通過排除注冊步驟中的任務(wù),LLM可以產(chǎn)生更廣泛有用的提要,代價是減少壓縮和增加干擾注意力的信息,即非條件ReadAgent。

      這篇論文中只探討了無條件設(shè)置,但在某些情況下,條件設(shè)置可能更有優(yōu)勢。

      迭代提要(iterative gisting)

      對于一段很長的事件歷史,例如對話等,可以考慮通過迭代提要來進(jìn)一步壓縮舊記憶來實(shí)現(xiàn)更長的上下文,對應(yīng)于人類的話,舊記憶更模糊。

      實(shí)驗(yàn)結(jié)果

      研究人員評估了ReadAgent在三個長上下文問答挑戰(zhàn)中的長文檔閱讀理解能力:QuALITY、NarrativeQA和QMSum。

      雖然ReadAgent不需要訓(xùn)練,但研究人員仍然選擇在訓(xùn)練集上開發(fā)了一個模型并在驗(yàn)證、測試和/或開發(fā)集上進(jìn)行了測試,以避免過擬合系統(tǒng)超參數(shù)的風(fēng)險(xiǎn)。

      選用的模型為指令微調(diào)后的PaLM 2-L模型。

      評估指標(biāo)為壓縮率(compression rate, CR),計(jì)算方法如下:

      LLM評分器

      NarrativeQA和QMSum都有一個或多個自由形式的參考回復(fù),通常使用諸如ROUGE-F之類的語法匹配度量來評估。

      除此之外,研究人員使用自動LLM評分器來評估這些數(shù)據(jù)集,作為人工評估的替代方法。

      上面兩個提示中,「嚴(yán)格LLM評分器提示」用于判斷是否存在精確匹配,「許可LLM評分器提示」用于判斷是否存在精確匹配或部分匹配。

      基于此,研究人員提出了兩個評價指標(biāo):LLM-Rating-1(LR-1)是一個嚴(yán)格的評估分?jǐn)?shù),計(jì)算所有示例中精確匹配的百分比;LLM-Rating-2(LR-2)計(jì)算精確匹配和部分匹配的百分比。

      長上下文閱讀理解

      QuALITY

      QuALITY是一個多選問答任務(wù),每個問題包含四個答案,使用來自多個不同來源的文本數(shù)據(jù)。

      實(shí)驗(yàn)結(jié)果顯示,ReadAgent(查找1-5頁)實(shí)現(xiàn)了最好的結(jié)果,壓縮率為66.97%(即提要后上下文窗口中可以容納3倍的token)。

      當(dāng)增加允許查找的最大頁數(shù)(最多5頁)時,性能會不斷提高;在6頁時,性能開始略有下降,即6頁上下文可能會增加干擾信息。

      NarrativeQA

      在三個閱讀理解數(shù)據(jù)集中,NarrativeQA的平均上下文長度最長,為了將gists放入上下文窗口,需要擴(kuò)展頁面的尺寸大小。

      提要對Gutenburg文本(書籍)的壓縮率為96.80%,對電影劇本的壓縮率為91.98%

      QMSum

      QMSum由各種主題的會議記錄以及相關(guān)問題或說明組成,長度從1,000字到26,300字不等,平均長度約為10,000字,其答案是自由形式的文本,標(biāo)準(zhǔn)的評估指標(biāo)是ROUGE-F

      可以看到性能隨著壓縮率的降低而提高,因此查找更多頁面的技術(shù)往往比查找更少頁面的技術(shù)做得更好。

      還可以看到ReadAgentS大大優(yōu)于ReadAgent-P(以及所有基線),性能改進(jìn)的代價是檢索階段的請求數(shù)量增加了六倍。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎

    近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。