9月9日,掘力計(jì)劃第 23 期線上技術(shù)沙龍邀請(qǐng)到吳碧珠博士做客,為大家?guī)?lái)題為《Linly Chinese LLaMA-2中文開(kāi)源大模型方案分享》的演講,吳博士是寧波諾丁漢大學(xué)和深圳大學(xué)聯(lián)合培養(yǎng)的在讀博士生,主要從事自監(jiān)督學(xué)習(xí)、基于人體骨架點(diǎn)視頻序列的動(dòng)作識(shí)別和大語(yǔ)言模型方面的研究,師從深圳大學(xué)計(jì)算機(jī)學(xué)院沈琳琳教授。本次分享吳博士詳細(xì)介紹了沈琳琳教授團(tuán)隊(duì)自主研發(fā)的Linly系列中文開(kāi)源大模型的技術(shù)方案,包括項(xiàng)目背景、模型架構(gòu)、訓(xùn)練數(shù)據(jù)以及模型應(yīng)用等方面。
直播回放地址:https://juejin.cn/live/jpowermeetup23
近年來(lái),以 ChatGPT 為代表的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型獲得了廣泛的關(guān)注。這類模型依賴大量文本訓(xùn)練,可以完成閱讀理解、文本生成等多種自然語(yǔ)言處理任務(wù)。但目前許多流行的大規(guī)模語(yǔ)言模型,例如 LLaMA、Falcon 等,其訓(xùn)練數(shù)據(jù)以英文為主,直接應(yīng)用于中文場(chǎng)景的效果并不理想。為此,深圳大學(xué)沈琳琳教授團(tuán)隊(duì)發(fā)起了 Linly 項(xiàng)目,目標(biāo)是基于英文底座模型,通過(guò)大規(guī)模中英文增量訓(xùn)練對(duì)齊模型的跨語(yǔ)言表示,將語(yǔ)言能力遷移到中文上來(lái)獲得性能強(qiáng)大的中文預(yù)訓(xùn)練模型。
Linly 項(xiàng)目基于 TencentPretrain 框架完成模型訓(xùn)練,該框架模塊化實(shí)現(xiàn)了主流模型架構(gòu),支持快速迭代不同規(guī)模的模型。目前 Linly 已在 GitHub 開(kāi)源了不同模型架構(gòu)、不同參數(shù)量級(jí)、不同序列長(zhǎng)度的中文大模型,代碼庫(kù)的周訪問(wèn)量達(dá)萬(wàn)級(jí),stars 近 3000,影響力日益擴(kuò)大。這些模型直接在主流大模型基礎(chǔ)之上,擴(kuò)充了中文詞匯表,并增加中文訓(xùn)練數(shù)據(jù)來(lái)進(jìn)行中文化適配。相比起直接將國(guó)外主流大模型的英文回答結(jié)果翻譯成中文的方式,Linly 模型更符合中文語(yǔ)義表達(dá)習(xí)慣,同時(shí)也保留了原大模型強(qiáng)大的英文問(wèn)答能力。模型支持多種量化精度,可在不同硬件設(shè)備上部署。
一、Linly項(xiàng)目亮點(diǎn)
作為開(kāi)源可商用的中文大模型項(xiàng)目,Linly 有以下突出優(yōu)點(diǎn):
1. 完全開(kāi)源:模型、代碼、數(shù)據(jù)集、訓(xùn)練方案均公開(kāi),可供自由使用及再現(xiàn)。
2. 支持多種推理硬件:提供了 CPU、GPU 等部署版本,降低應(yīng)用門(mén)檻。
3. 兼容主流模型應(yīng)用生態(tài):可無(wú)縫應(yīng)用于 LLaMA 等模型的下游任務(wù)場(chǎng)景。
4. 性能強(qiáng)勁:在匿名大模型對(duì)戰(zhàn)平臺(tái)的綜合測(cè)評(píng)結(jié)果中,Linly 名列前茅。
二、大語(yǔ)言模型基礎(chǔ)知識(shí)
相比于傳統(tǒng)的監(jiān)督學(xué)習(xí)方法,大模型訓(xùn)練采用的是預(yù)訓(xùn)練-微調(diào)的范式。先利用大規(guī)模無(wú)標(biāo)注語(yǔ)料進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,得到通用語(yǔ)言理解能力,然后使用少量標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)以適應(yīng)不同的具體下游任務(wù)。這種方法可以減少人工標(biāo)注數(shù)據(jù)的工作量。
常見(jiàn)的無(wú)監(jiān)督預(yù)訓(xùn)練模型主要有掩碼語(yǔ)言模型(代表作:Bert),單向語(yǔ)言模型(代表作:GPT系列)和去噪語(yǔ)言模型(代表作:BART)。目前大部分大模型都采用單向語(yǔ)言模型的預(yù)訓(xùn)練方式,其預(yù)訓(xùn)練目標(biāo)是續(xù)寫(xiě),即根據(jù)前文生成后續(xù)文本,也稱單向語(yǔ)言模型。預(yù)訓(xùn)練階段,模型根據(jù)前面的信息,預(yù)測(cè)下一個(gè) token 最有可能是詞匯表中的哪一個(gè),用分類任務(wù)中常用的交叉熵?fù)p失函數(shù)來(lái)約束模型的訓(xùn)練,從而獲得語(yǔ)言生成能力。微調(diào)階段,使用少量標(biāo)注數(shù)據(jù)使模型適應(yīng)特定任務(wù),該階段的訓(xùn)練方式和前一階段一樣,也做續(xù)寫(xiě)任務(wù)的訓(xùn)練,不過(guò)只計(jì)算完成任務(wù)部分 token 的損失值。
三、Linly方案設(shè)計(jì)
Linly 項(xiàng)目使用自主研發(fā)的 TencentPretrain 框架實(shí)現(xiàn)模型訓(xùn)練,該框架通過(guò)模塊化設(shè)計(jì)提取了不同模型的共性部分,可以輕松實(shí)現(xiàn)新模型以及訓(xùn)練算法的構(gòu)建。
1. 模型選型
鑒于 GPT 類模型在大模型中廣泛應(yīng)用,Linly 項(xiàng)目選擇在 LLaMA-2 的基礎(chǔ)上進(jìn)行中文化改造。LLaMA-2 作為通用語(yǔ)言模型,中文化后可在中文任務(wù)上達(dá)到不錯(cuò)性能。
2. 數(shù)據(jù)構(gòu)建
由于 LLaMA-2 原詞匯表僅包含 700 多個(gè)中文漢字,直接在此基礎(chǔ)上用中文數(shù)據(jù)訓(xùn)練的效率不高。Linly 項(xiàng)目團(tuán)隊(duì)進(jìn)一步擴(kuò)充中文詞匯表,多支持了 8000 多個(gè)漢字、中文符號(hào)和 20000 多個(gè)詞組,以提高在中文數(shù)據(jù)上訓(xùn)練的效率及性能。
訓(xùn)練數(shù)據(jù)包含中文語(yǔ)料、英文語(yǔ)料、中文指令數(shù)據(jù)、英文指令數(shù)據(jù)和英文翻譯成中文的平行語(yǔ)料數(shù)據(jù)。采用課程學(xué)習(xí)的策略,即在訓(xùn)練過(guò)程中逐步減少英文數(shù)據(jù)所占的比例,增加中文數(shù)據(jù)所占的比例,實(shí)現(xiàn)在不降低英文能力的前提下,同時(shí)將英文能力絲滑遷移至中文數(shù)據(jù)上的效果。
3. 模型訓(xùn)練
訓(xùn)練 Linly 大模型時(shí),針對(duì)大模型最長(zhǎng)輸入文本長(zhǎng)度的限制,采用了 full-sentence 的技巧,即當(dāng)句子長(zhǎng)度不足最長(zhǎng)輸入文本長(zhǎng)度時(shí),在接上分隔符并接上新文本時(shí),選擇長(zhǎng)度加和盡可能接近最長(zhǎng)輸入文本長(zhǎng)度的文本。這樣可以提升訓(xùn)練的效率,同時(shí)也盡量避免了由于新接入句子長(zhǎng)度過(guò)長(zhǎng)而不得不將其剩下部分當(dāng)成新句子的“截?cái)?rdquo;現(xiàn)象。模型并行訓(xùn)練方面,使用 DeepSpeed 實(shí)現(xiàn)數(shù)據(jù)、張量和流水線三個(gè)維度的并行,加速收斂。
四、Linly應(yīng)用
在大模型的應(yīng)用方面,Linly 也進(jìn)行了大量探索。基于Linly大模型微調(diào)的中文金融知識(shí)問(wèn)答大模型“聚寶盆”就取得了不錯(cuò)的效果。Linly 數(shù)字人結(jié)合最新語(yǔ)音驅(qū)動(dòng)人類生成的工作,達(dá)到將與大模型交互過(guò)程可視化的效果。Hugging Face 平臺(tái)也提供了Linly模型的在線體驗(yàn)?梢(jiàn) Linly 模型具備與國(guó)際先進(jìn)水平接軌的語(yǔ)言理解與生成能力,在中文場(chǎng)景具有廣闊的應(yīng)用前景。在未來(lái)的工作中,Linly項(xiàng)目成員還將探索大模型在AI智能體、具身智能和虛擬人等場(chǎng)景的應(yīng)用。
本次分享內(nèi)容豐富,從多個(gè)維度全面介紹了 Linly 項(xiàng)目的技術(shù)方案及應(yīng)用情況,讓聽(tīng)眾對(duì)這一開(kāi)源中文大模型有了更為清晰和立體的理解。演講中大量案例讓觀眾直觀感受大模型帶來(lái)的人工智能新技術(shù)新應(yīng)用,也讓業(yè)界看到了中文大模型彌補(bǔ)國(guó)際開(kāi)源模型中文能力不足的可能性?梢灶A(yù)見(jiàn),在強(qiáng)大的學(xué)術(shù)團(tuán)隊(duì)和開(kāi)源社區(qū)的支持下,Linly 系列模型會(huì)不斷壯大,在更多領(lǐng)域產(chǎn)生重要影響,推動(dòng)我國(guó)自主可控人工智能技術(shù)向縱深發(fā)展。
掘力計(jì)劃
掘力計(jì)劃由稀土掘金技術(shù)社區(qū)發(fā)起,致力于打造一個(gè)高品質(zhì)的技術(shù)分享和交流的系列品牌。聚集國(guó)內(nèi)外頂尖的技術(shù)專家、開(kāi)發(fā)者和實(shí)踐者,通過(guò)線下沙龍、閉門(mén)會(huì)、公開(kāi)課等多種形式分享最前沿的技術(shù)動(dòng)態(tài)。(作者:任嘉志)
近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。
近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。