掘力計劃第23期 - 開源中文大模型Linly LLaMA-2帶來人工智能新技術(shù)新應(yīng)用

2023年09月15日 18:33:43 來源：中文科技資訊

　　9月9日，掘力計劃第 23 期線上技術(shù)沙龍邀請到吳碧珠博士做客，為大家?guī)眍}為《Linly Chinese LLaMA-2中文開源大模型方案分享》的演講，吳博士是寧波諾丁漢大學(xué)和深圳大學(xué)聯(lián)合培養(yǎng)的在讀博士生，主要從事自監(jiān)督學(xué)習(xí)、基于人體骨架點視頻序列的動作識別和大語言模型方面的研究，師從深圳大學(xué)計算機學(xué)院沈琳琳教授。本次分享吳博士詳細(xì)介紹了沈琳琳教授團(tuán)隊自主研發(fā)的Linly系列中文開源大模型的技術(shù)方案，包括項目背景、模型架構(gòu)、訓(xùn)練數(shù)據(jù)以及模型應(yīng)用等方面。

圖片1.png

　　直播回放地址：https://juejin.cn/live/jpowermeetup23

　　近年來，以 ChatGPT 為代表的大規(guī)模預(yù)訓(xùn)練語言模型獲得了廣泛的關(guān)注。這類模型依賴大量文本訓(xùn)練，可以完成閱讀理解、文本生成等多種自然語言處理任務(wù)。但目前許多流行的大規(guī)模語言模型，例如 LLaMA、Falcon 等，其訓(xùn)練數(shù)據(jù)以英文為主，直接應(yīng)用于中文場景的效果并不理想。為此，深圳大學(xué)沈琳琳教授團(tuán)隊發(fā)起了 Linly 項目，目標(biāo)是基于英文底座模型，通過大規(guī)模中英文增量訓(xùn)練對齊模型的跨語言表示，將語言能力遷移到中文上來獲得性能強大的中文預(yù)訓(xùn)練模型。

　　Linly 項目基于 TencentPretrain 框架完成模型訓(xùn)練，該框架模塊化實現(xiàn)了主流模型架構(gòu)，支持快速迭代不同規(guī)模的模型。目前 Linly 已在 GitHub 開源了不同模型架構(gòu)、不同參數(shù)量級、不同序列長度的中文大模型，代碼庫的周訪問量達(dá)萬級，stars 近 3000，影響力日益擴大。這些模型直接在主流大模型基礎(chǔ)之上，擴充了中文詞匯表，并增加中文訓(xùn)練數(shù)據(jù)來進(jìn)行中文化適配。相比起直接將國外主流大模型的英文回答結(jié)果翻譯成中文的方式，Linly 模型更符合中文語義表達(dá)習(xí)慣，同時也保留了原大模型強大的英文問答能力。模型支持多種量化精度，可在不同硬件設(shè)備上部署。

　　一、Linly項目亮點

圖片2.png

　　作為開源可商用的中文大模型項目，Linly 有以下突出優(yōu)點:

　　1. 完全開源：模型、代碼、數(shù)據(jù)集、訓(xùn)練方案均公開，可供自由使用及再現(xiàn)。

　　2. 支持多種推理硬件：提供了 CPU、GPU 等部署版本，降低應(yīng)用門檻。

　　3. 兼容主流模型應(yīng)用生態(tài)：可無縫應(yīng)用于 LLaMA 等模型的下游任務(wù)場景。

　　4. 性能強勁：在匿名大模型對戰(zhàn)平臺的綜合測評結(jié)果中，Linly 名列前茅。

　　二、大語言模型基礎(chǔ)知識

圖片3.png

　　相比于傳統(tǒng)的監(jiān)督學(xué)習(xí)方法，大模型訓(xùn)練采用的是預(yù)訓(xùn)練-微調(diào)的范式。先利用大規(guī)模無標(biāo)注語料進(jìn)行無監(jiān)督預(yù)訓(xùn)練，得到通用語言理解能力，然后使用少量標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)以適應(yīng)不同的具體下游任務(wù)。這種方法可以減少人工標(biāo)注數(shù)據(jù)的工作量。

　　常見的無監(jiān)督預(yù)訓(xùn)練模型主要有掩碼語言模型(代表作：Bert)，單向語言模型(代表作：GPT系列)和去噪語言模型(代表作：BART)。目前大部分大模型都采用單向語言模型的預(yù)訓(xùn)練方式，其預(yù)訓(xùn)練目標(biāo)是續(xù)寫，即根據(jù)前文生成后續(xù)文本，也稱單向語言模型。預(yù)訓(xùn)練階段，模型根據(jù)前面的信息，預(yù)測下一個 token 最有可能是詞匯表中的哪一個，用分類任務(wù)中常用的交叉熵?fù)p失函數(shù)來約束模型的訓(xùn)練，從而獲得語言生成能力。微調(diào)階段，使用少量標(biāo)注數(shù)據(jù)使模型適應(yīng)特定任務(wù)，該階段的訓(xùn)練方式和前一階段一樣，也做續(xù)寫任務(wù)的訓(xùn)練，不過只計算完成任務(wù)部分 token 的損失值。

　　三、Linly方案設(shè)計

圖片4.png

　　Linly 項目使用自主研發(fā)的 TencentPretrain 框架實現(xiàn)模型訓(xùn)練，該框架通過模塊化設(shè)計提取了不同模型的共性部分，可以輕松實現(xiàn)新模型以及訓(xùn)練算法的構(gòu)建。

　　1. 模型選型

　　鑒于 GPT 類模型在大模型中廣泛應(yīng)用，Linly 項目選擇在 LLaMA-2 的基礎(chǔ)上進(jìn)行中文化改造。LLaMA-2 作為通用語言模型，中文化后可在中文任務(wù)上達(dá)到不錯性能。

　　2. 數(shù)據(jù)構(gòu)建

　　由于 LLaMA-2 原詞匯表僅包含 700 多個中文漢字，直接在此基礎(chǔ)上用中文數(shù)據(jù)訓(xùn)練的效率不高。Linly 項目團(tuán)隊進(jìn)一步擴充中文詞匯表，多支持了 8000 多個漢字、中文符號和 20000 多個詞組，以提高在中文數(shù)據(jù)上訓(xùn)練的效率及性能。

　　訓(xùn)練數(shù)據(jù)包含中文語料、英文語料、中文指令數(shù)據(jù)、英文指令數(shù)據(jù)和英文翻譯成中文的平行語料數(shù)據(jù)。采用課程學(xué)習(xí)的策略，即在訓(xùn)練過程中逐步減少英文數(shù)據(jù)所占的比例，增加中文數(shù)據(jù)所占的比例，實現(xiàn)在不降低英文能力的前提下，同時將英文能力絲滑遷移至中文數(shù)據(jù)上的效果。

　　3. 模型訓(xùn)練

　　訓(xùn)練 Linly 大模型時，針對大模型最長輸入文本長度的限制，采用了 full-sentence 的技巧，即當(dāng)句子長度不足最長輸入文本長度時，在接上分隔符并接上新文本時，選擇長度加和盡可能接近最長輸入文本長度的文本。這樣可以提升訓(xùn)練的效率，同時也盡量避免了由于新接入句子長度過長而不得不將其剩下部分當(dāng)成新句子的“截斷”現(xiàn)象。模型并行訓(xùn)練方面，使用 DeepSpeed 實現(xiàn)數(shù)據(jù)、張量和流水線三個維度的并行，加速收斂。

　　四、Linly應(yīng)用

圖片5.png

　　在大模型的應(yīng)用方面，Linly 也進(jìn)行了大量探索�；贚inly大模型微調(diào)的中文金融知識問答大模型“聚寶盆”就取得了不錯的效果。Linly 數(shù)字人結(jié)合最新語音驅(qū)動人類生成的工作，達(dá)到將與大模型交互過程可視化的效果。Hugging Face 平臺也提供了Linly模型的在線體驗�？梢� Linly 模型具備與國際先進(jìn)水平接軌的語言理解與生成能力，在中文場景具有廣闊的應(yīng)用前景。在未來的工作中，Linly項目成員還將探索大模型在AI智能體、具身智能和虛擬人等場景的應(yīng)用。

　　本次分享內(nèi)容豐富，從多個維度全面介紹了 Linly 項目的技術(shù)方案及應(yīng)用情況，讓聽眾對這一開源中文大模型有了更為清晰和立體的理解。演講中大量案例讓觀眾直觀感受大模型帶來的人工智能新技術(shù)新應(yīng)用，也讓業(yè)界看到了中文大模型彌補國際開源模型中文能力不足的可能性。可以預(yù)見，在強大的學(xué)術(shù)團(tuán)隊和開源社區(qū)的支持下，Linly 系列模型會不斷壯大，在更多領(lǐng)域產(chǎn)生重要影響，推動我國自主可控人工智能技術(shù)向縱深發(fā)展。

　　掘力計劃

　　掘力計劃由稀土掘金技術(shù)社區(qū)發(fā)起，致力于打造一個高品質(zhì)的技術(shù)分享和交流的系列品牌。聚集國內(nèi)外頂尖的技術(shù)專家、開發(fā)者和實踐者，通過線下沙龍、閉門會、公開課等多種形式分享最前沿的技術(shù)動態(tài)。(作者：任嘉志)

[No. X048]
分享到微信