2024 vivo開(kāi)發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來(lái)了,阿里云「通義靈碼」全面進(jìn)化,全流程開(kāi)發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷(xiāo)量及銷(xiāo)售額領(lǐng)先鴻蒙PC要來(lái)了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬(wàn)臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專(zhuān)利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購(gòu)物體驗(yàn)全面升級(jí)機(jī)器人公司1X推出世界模型Apple Intelligence測(cè)試版現(xiàn)已開(kāi)放革命性AI對(duì)話(huà)系統(tǒng)Moshi問(wèn)世:機(jī)器也能說(shuō)人話(huà)了?阿里國(guó)際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶(hù)打造行業(yè)領(lǐng)先的目標(biāo)網(wǎng)絡(luò)AI 3D生成天花板再拉升!清華團(tuán)隊(duì)煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實(shí)況圖重裝微信:以免丟失微信聊天記錄
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    卷完參數(shù)后 大模型公司又盯上了“長(zhǎng)文本”?

    2023年10月12日 17:28:15   來(lái)源:微信公眾號(hào)光錐智能

      本文來(lái)自于微信公眾號(hào)光錐智能(ID:guangzhui-tech),作者:郝 鑫。

      4000到40萬(wàn)token,大模型正在以“肉眼可見(jiàn)”的速度越變?cè)?ldquo;長(zhǎng)”。

      長(zhǎng)文本能力似乎成為象征著大模型廠商出手的又一新“標(biāo)配”。

      國(guó)外,OpenAI經(jīng)過(guò)三次升級(jí),GPT-3.5上下文輸入長(zhǎng)度從4千增長(zhǎng)至1.6萬(wàn)token,GPT-4從8千增長(zhǎng)至3.2萬(wàn)token(token:模型輸入和輸出的基本單位);OpenAI最強(qiáng)競(jìng)爭(zhēng)對(duì)手Anthropic一次性將上下文長(zhǎng)度打到了10萬(wàn)token;LongLLaMA將上下文的長(zhǎng)度擴(kuò)展到25.6萬(wàn)token,甚至更多。

      國(guó)內(nèi),光錐智能獲悉,大模型初創(chuàng)公司月之暗面發(fā)布智能助手產(chǎn)品Kimi Chat可支持輸入20萬(wàn)漢字,按OpenAI的計(jì)算標(biāo)準(zhǔn)約為40萬(wàn)token;港中文賈佳亞團(tuán)隊(duì)聯(lián)合MIT發(fā)布的新技術(shù)LongLoRA,可將7B模型的文本長(zhǎng)度拓展到10萬(wàn)token,70B模型的文本長(zhǎng)度拓展到3.2萬(wàn)token。

      據(jù)光錐智能不完全統(tǒng)計(jì),目前,國(guó)內(nèi)外已有OpenAI、Anthropic、Meta、月之暗面等一大批頂級(jí)的大模型技術(shù)公司、機(jī)構(gòu)和團(tuán)隊(duì)將對(duì)上下文長(zhǎng)度的拓展作為更新升級(jí)的重點(diǎn)。

      毫無(wú)例外,這些國(guó)內(nèi)外大模型公司或機(jī)構(gòu)都是資本市場(chǎng)熱捧的“當(dāng)紅炸子雞”。

      OpenAI自不必說(shuō),大模型Top級(jí)明星研究機(jī)構(gòu),斬獲投資近120億美元,拿走了美國(guó)生成式AI領(lǐng)域60%的融資;Anthropic近期風(fēng)頭正盛,接連被曝亞馬遜、谷歌投資消息,前后相差不過(guò)幾天,估值有望達(dá)到300億美元,較3月份翻五番;成立僅半年的月之暗面出道即巔峰,一成立就迅速完成首輪融資,獲得紅杉、真格、今日資本、monolith等一線VC的押注,市場(chǎng)估值已超過(guò)3億美元,而后,紅杉孵化式支持,循序完成兩輪共計(jì)近20億元融資。

      大模型公司鉚足勁攻克長(zhǎng)文本技術(shù),上下文本長(zhǎng)度擴(kuò)大100倍意味著什么?

      表面上看是可輸入的文本長(zhǎng)度越來(lái)越長(zhǎng),閱讀能力越來(lái)越強(qiáng)。

      若將抽象的token值量化,GPT-3.5的4000token最多只能輸入3000個(gè)英文單詞或者2000個(gè)漢字,連一篇公眾號(hào)文章都難以讀完;3.2萬(wàn)token的GPT-4達(dá)到了閱讀一篇短篇小說(shuō)的程度;10萬(wàn)token的Claude可輸入約7.5萬(wàn)個(gè)單詞,僅22秒就可以閱讀完一本《了不起的蓋茨比》;40萬(wàn)token的Kimi Chat支持輸入20萬(wàn)漢字,閱讀一本長(zhǎng)篇巨著。

      另一方面,長(zhǎng)文本技術(shù)也在推動(dòng)大模型更深層次的產(chǎn)業(yè)落地,金融、司法、科研等精艱深的領(lǐng)域里,長(zhǎng)文檔摘要總結(jié)、閱讀理解、問(wèn)答等能力是其基本,也是亟待智能化升級(jí)的練兵場(chǎng)。

      參考上一輪大模型廠商“卷”參數(shù),大模型參數(shù)不是越大就越好,各家都在通過(guò)盡可能地?cái)U(kuò)大參數(shù)找到大模型性能最優(yōu)的“臨界點(diǎn)”。同理,作為共同決定模型效果的另一項(xiàng)指標(biāo)——文本長(zhǎng)度,也不是越長(zhǎng),模型效果就越好。

      有研究已經(jīng)證明,大模型可以支持更長(zhǎng)的上下文輸入與模型效果更好之間并不能直接畫(huà)上等號(hào)。模型能夠處理的上下文長(zhǎng)度不是真正的關(guān)鍵點(diǎn),更重要的是模型對(duì)上下文內(nèi)容的使用。

      不過(guò),就目前而言,國(guó)內(nèi)外對(duì)于文本長(zhǎng)度的探索還遠(yuǎn)沒(méi)有達(dá)到“臨界點(diǎn)”狀態(tài)。國(guó)內(nèi)外大模型公司還在馬不停蹄地突破,40萬(wàn)token或許也還只是開(kāi)始。

      為什么要“卷”長(zhǎng)文本?

      月之暗面創(chuàng)始人楊植麟告訴光錐智能,在技術(shù)研發(fā)過(guò)程中,其團(tuán)隊(duì)發(fā)現(xiàn)正是由于大模型輸入長(zhǎng)度受限,才造成了許多大模型應(yīng)用落地的困境,這也是月之暗面、OpenAI等一眾大模型公司在當(dāng)下聚焦長(zhǎng)文本技術(shù)的原因所在。

      比如在虛擬角色場(chǎng)景中,由于長(zhǎng)文本能力不足,虛擬角色會(huì)忘記重要信息;基于大模型開(kāi)發(fā)劇本殺類(lèi)游戲時(shí),輸入prompt長(zhǎng)度不夠,則只能削減規(guī)則和設(shè)定,從而無(wú)法達(dá)到預(yù)期游戲效果;在法律、銀行等高精度專(zhuān)業(yè)領(lǐng)域,深度內(nèi)容分析、生成常常受挫。

      在通往未來(lái)Agent和AI原生應(yīng)用的道路上,長(zhǎng)文本依然扮演著重要的角色,Agent任務(wù)運(yùn)行需要依靠歷史信息進(jìn)行新的規(guī)劃和決策,AI原生應(yīng)用需要依靠上下文本來(lái)保持連貫、個(gè)性化的用戶(hù)體驗(yàn)。

      楊植麟認(rèn)為,無(wú)論是文字、語(yǔ)音還是視頻,對(duì)海量數(shù)據(jù)的無(wú)損壓縮可以實(shí)現(xiàn)高程度的智能。“無(wú)損壓縮或大模型研究的進(jìn)展曾極度依賴(lài)‘參數(shù)為王’模式,該模式下壓縮比直接與參數(shù)量相關(guān)。但我們認(rèn)為無(wú)損壓縮比或大模型的上限是由單步能力和執(zhí)行的步驟數(shù)共同決定的。其中,單步能力與參數(shù)量呈正相關(guān),而執(zhí)行步驟數(shù)即上下文長(zhǎng)度。”

      如果形象化地去理解這句話(huà),“無(wú)損壓縮”就像是一位裁縫,需要把一塊完整的布裁剪成合身的衣服。一開(kāi)始這位裁縫的思路是要去準(zhǔn)備各種尺寸的裁剪模板(參數(shù)),模板越多,裁剪出來(lái)的衣服也越合身。但現(xiàn)在的新思路是,即使模板不多,只要反復(fù)裁剪、量體裁衣也能使衣服極致合身。

      同時(shí),事實(shí)已經(jīng)證明,即使是千億參數(shù)的大模型也無(wú)法完全避免幻覺(jué)和胡說(shuō)八道的問(wèn)題。相比于短文本,長(zhǎng)文本可以通過(guò)提供更多上下文信息和細(xì)節(jié)信息,來(lái)輔助模型判斷語(yǔ)義,進(jìn)一步減少歧義,并且基于所提供事實(shí)基礎(chǔ)上的歸納、推理也更加準(zhǔn)確。

      由此可見(jiàn),長(zhǎng)文本技術(shù)既可以解決大模型誕生初期被詬病的一些問(wèn)題,增強(qiáng)一些功能,同時(shí)也是當(dāng)前進(jìn)一步推進(jìn)產(chǎn)業(yè)和應(yīng)用落地的一環(huán)關(guān)鍵技術(shù),這也從側(cè)面證明通用大模型的發(fā)展又邁入了一個(gè)新的階段,從LLM到Long LLM時(shí)代。

      透過(guò)月之暗面的新發(fā)布的Kimi Chat,或許能一窺Long LLM階段大模型的升級(jí)功能。

      首先是對(duì)超長(zhǎng)文本關(guān)鍵信息提取、總結(jié)和分析的基礎(chǔ)功能。如輸入公眾號(hào)的鏈接可以快速分析文章大意;新出爐的財(cái)報(bào)可以快速提取關(guān)鍵信息,并能以表格、思維導(dǎo)圖等簡(jiǎn)潔的形式呈現(xiàn);輸入整本書(shū)、專(zhuān)業(yè)法律條文后,用戶(hù)可以通過(guò)提問(wèn)來(lái)獲取有效信息。

      在代碼方面,可以實(shí)現(xiàn)文字直接轉(zhuǎn)化代碼,只要將論文丟給對(duì)話(huà)機(jī)器人,就能根據(jù)論文復(fù)現(xiàn)代碼生成過(guò)程,并能在其基礎(chǔ)上進(jìn)行修改,這比當(dāng)初ChatGPT發(fā)布會(huì)上,演示草稿生成網(wǎng)站代碼又進(jìn)了一大步。

      在長(zhǎng)對(duì)話(huà)場(chǎng)景中,對(duì)話(huà)機(jī)器人還可以實(shí)現(xiàn)角色扮演,通過(guò)輸入公眾人物的語(yǔ)料,設(shè)置語(yǔ)氣、人物性格,可以實(shí)現(xiàn)與喬布斯、馬斯克一對(duì)一對(duì)話(huà),國(guó)外大模型公司Character AI已經(jīng)開(kāi)發(fā)了類(lèi)似的AI伴侶應(yīng)用,且移動(dòng)端的DAU遠(yuǎn)高于ChatGPT,達(dá)到了361萬(wàn)。在月之暗面的演示中,只需要一個(gè)網(wǎng)址,就可以在Kimi Chat中和自己喜歡的原神角色聊天。

      以上的例子,共同說(shuō)明了脫離簡(jiǎn)單的對(duì)話(huà)輪次,類(lèi)ChatGPT等對(duì)話(huà)機(jī)器人正在走向?qū)I(yè)化、個(gè)性化、深度化的發(fā)展方向,這或許也是撬動(dòng)產(chǎn)業(yè)和超級(jí)APP落地的又一抓手。

      楊植麟向光錐智能透露,不同于OpenAI只提供ChatGPT一個(gè)產(chǎn)品和最先進(jìn)的多模態(tài)基礎(chǔ)能力,月之暗面瞄準(zhǔn)的是下一個(gè)C端超級(jí)APP:以長(zhǎng)文本技術(shù)為突破,在其基礎(chǔ)通用模型基礎(chǔ)上去裂變出N個(gè)應(yīng)用。

      “國(guó)內(nèi)大模型市場(chǎng)格局會(huì)分為 toB 和 toC 兩個(gè)不同的陣營(yíng),在 toC 陣營(yíng)里,會(huì)出現(xiàn)super-app,這些超級(jí)應(yīng)用是基于自研模型做出來(lái)的。”楊植麟判斷道。

      不過(guò),現(xiàn)階段市面上的長(zhǎng)文本對(duì)話(huà)場(chǎng)景還有很大的優(yōu)化空間。比如有些不支持聯(lián)網(wǎng),只能通過(guò)官方更新數(shù)據(jù)庫(kù)才獲得最新信息;在生成對(duì)話(huà)的過(guò)程中無(wú)法暫停和修改,只能等待對(duì)話(huà)結(jié)束;即使有了背景資料和上傳文件支持,還是偶爾會(huì)出現(xiàn)胡說(shuō)八道、憑空捏造的情況。

      長(zhǎng)文本的“不可能三角”困境

      在商業(yè)領(lǐng)域有一組典型的價(jià)格、質(zhì)量和規(guī)模的“不可能三角”,三者存在相互制約關(guān)系,互相之間不可兼得。

      在長(zhǎng)文本方面,也存在文本長(zhǎng)短、注意力和算力類(lèi)似的“不可能三角”。

    圖片

      (圖:文本長(zhǎng)短、注意力、算力“不可能三角”)

      這表現(xiàn)為,文本越長(zhǎng),越難聚集充分注意力,難以完整消化;注意力限制下,短文本無(wú)法完整解讀復(fù)雜信息;處理長(zhǎng)文本需要大量算力,提高成本。

      追本溯源,從根本上看這是因?yàn)楝F(xiàn)在大部分模型都是基于Transformer結(jié)構(gòu)。該結(jié)構(gòu)中包含一項(xiàng)最重要的組件即自注意力機(jī)制,在該機(jī)制下,對(duì)話(huà)機(jī)器人就可以跨越用戶(hù)輸入信息順序的限制,隨意地去分析各信息間的關(guān)系。

      但與之帶來(lái)的代價(jià)是,自注意力機(jī)制的計(jì)算量會(huì)隨著上下文長(zhǎng)度的增加呈平方級(jí)增長(zhǎng),比如上下文增加32倍時(shí),計(jì)算量實(shí)際會(huì)增長(zhǎng)1000倍。

      一些發(fā)表的論文給予了佐證:過(guò)長(zhǎng)的上下文會(huì)使得相關(guān)信息的占比顯著下降,加劇注意力分散似乎成為了不可避免的命運(yùn)。

      這就構(gòu)成了“不可能三角”中的第一組矛盾——文本長(zhǎng)短與注意力,也從根本上解釋了大模型長(zhǎng)文本技術(shù)難以突破的原因。

      從“卷”大模型參數(shù)到現(xiàn)在,算力一直都是稀缺的資源。OpenAI創(chuàng)始人Altman曾表示,ChatGPT-432K的服務(wù)無(wú)法立馬完全向所有用戶(hù)開(kāi)放,最大的限制就在于GPU短缺。

      對(duì)此,楊植麟也稱(chēng):“GPU是一個(gè)重要的基礎(chǔ),但還不光是GPU的問(wèn)題。這里面是不同因素的結(jié)合,一方面是GPU,一方面是能源轉(zhuǎn)換成智能的效率。效率進(jìn)一步拆解可能包含算法的優(yōu)化、工程的優(yōu)化、模態(tài)的優(yōu)化以及上下文的優(yōu)化等等。”

      更為重要的是,在大模型實(shí)際部署環(huán)節(jié),企業(yè)端根本無(wú)法提供很大的算力支持,這也就倒逼廠商無(wú)論是擴(kuò)大模型參數(shù)還是文本長(zhǎng)度,都要緊守算力一關(guān)。但現(xiàn)階段要想突破更長(zhǎng)的文本技術(shù),就不得不消耗更多的算力,于是就形成了文本長(zhǎng)短與算力之間的第二組矛盾。

      騰訊NLP工程師楊雨(化名)表示:“大模型長(zhǎng)文本建模目前還沒(méi)有一個(gè)統(tǒng)一的解決方案,造成困擾的原因正是源于Transformer自身的結(jié)構(gòu),而全新的架構(gòu)已經(jīng)在路上了。”

      當(dāng)前無(wú)論從軟件還是硬件設(shè)計(jì),大部分都是圍繞Transformer架構(gòu)來(lái)打造,短時(shí)間內(nèi)新架構(gòu)很難完全顛覆,但圍繞Transformer架構(gòu)產(chǎn)生了幾種優(yōu)化方案。

      楊雨對(duì)光錐智能說(shuō),“目前主要有三種不同的解決方案,分別為借助模型外部工具輔助處理長(zhǎng)文本,優(yōu)化自注意力機(jī)制計(jì)算和利用模型優(yōu)化的一般方法。”

      第一種解決方案的核心思路就是給大模型開(kāi)“外掛”。主要方法是將長(zhǎng)文本切分為多個(gè)短文本處理,模型在處理長(zhǎng)文本時(shí),會(huì)在數(shù)據(jù)庫(kù)中對(duì)短文本進(jìn)行檢索,以此來(lái)獲得多個(gè)短文本回答構(gòu)成的長(zhǎng)文本。每次只加載所需要的短文本片段,從而避開(kāi)了模型無(wú)法一次讀入整個(gè)長(zhǎng)文本的問(wèn)題。

      第二種解決方案是現(xiàn)在使用最多的方法,主要核心在于重新構(gòu)建自注意力計(jì)算方式。比如LongLoRA技術(shù)的核心就在于將長(zhǎng)文本劃分成不同的組,在每個(gè)組里進(jìn)行計(jì)算,而不用計(jì)算每個(gè)詞之間的關(guān)系,以此來(lái)降低計(jì)算量,提高速度。

      前兩種模式也被楊植麟稱(chēng)之為“蜜蜂”模型,即通過(guò)對(duì)檢索增強(qiáng)的生成或上下文的降采樣,保留對(duì)部分輸入的注意力機(jī)制,來(lái)實(shí)現(xiàn)長(zhǎng)文本處理的效果。

      據(jù)楊植麟介紹,在優(yōu)化自注意力機(jī)制計(jì)算還存在一種方式,也被其稱(chēng)之為 “金魚(yú)”模型。即通過(guò)滑動(dòng)窗口等方式主動(dòng)拋棄上文,以此來(lái)專(zhuān)注對(duì)用戶(hù)最新輸入信息的回答。這樣做的優(yōu)點(diǎn)顯而易見(jiàn),但是卻無(wú)法跨文檔、跨對(duì)話(huà)比較和總結(jié)分析。

      第三種解決方案是專(zhuān)注于對(duì)模型的優(yōu)化。如LongLLaMA以O(shè)penLLaMA-3B和OpenLLaMA-7B 模型為起點(diǎn),在其基礎(chǔ)上進(jìn)行微調(diào),產(chǎn)生了LONGLLAMAs新模型。該模型很容易外推到更長(zhǎng)的序列,例如在8K token上訓(xùn)練的模型,可以很容易外推到256K窗口大小。

      對(duì)模型的優(yōu)化還有一種較為普遍的方式,就是通過(guò)通過(guò)減少參數(shù)量(例如減少到百億參數(shù))來(lái)提升上下文長(zhǎng)度,這被楊植麟稱(chēng)之為 “蝌蚪”模型。這種方法會(huì)降低模型本身的能力,雖然能支持更長(zhǎng)上下文,但是任務(wù)難度變大后就會(huì)出現(xiàn)問(wèn)題。

      長(zhǎng)文本的“不可能三角”困境或許暫時(shí)還無(wú)解,但這也明確了大模型廠商在長(zhǎng)文本的探索路徑:在文本長(zhǎng)短、注意力和算力三者之中做取舍,找到最佳的平衡點(diǎn),既能夠處理足夠的信息,又能兼顧注意力計(jì)算與算力成本限制。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。