合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫(huà)像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車(chē)產(chǎn)量突破 100 萬(wàn)輛,到 2027 年建成萬(wàn)億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋(píng)果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚(yú)相關(guān)搜索量暴漲384%2024 vivo開(kāi)發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來(lái)了,阿里云「通義靈碼」全面進(jìn)化,全流程開(kāi)發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來(lái)了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬(wàn)臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購(gòu)物體驗(yàn)全面升級(jí)機(jī)器人公司1X推出世界模型Apple Intelligence測(cè)試版現(xiàn)已開(kāi)放革命性AI對(duì)話系統(tǒng)Moshi問(wèn)世:機(jī)器也能說(shuō)人話了?
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    掘力計(jì)劃第23期 - 開(kāi)源中文大模型Linly LLaMA-2帶來(lái)人工智能新技術(shù)新應(yīng)用

    2023年09月15日 18:33:43   來(lái)源:中文科技資訊

      9月9日,掘力計(jì)劃第 23 期線上技術(shù)沙龍邀請(qǐng)到吳碧珠博士做客,為大家?guī)?lái)題為《Linly Chinese LLaMA-2中文開(kāi)源大模型方案分享》的演講,吳博士是寧波諾丁漢大學(xué)和深圳大學(xué)聯(lián)合培養(yǎng)的在讀博士生,主要從事自監(jiān)督學(xué)習(xí)、基于人體骨架點(diǎn)視頻序列的動(dòng)作識(shí)別和大語(yǔ)言模型方面的研究,師從深圳大學(xué)計(jì)算機(jī)學(xué)院沈琳琳教授。本次分享吳博士詳細(xì)介紹了沈琳琳教授團(tuán)隊(duì)自主研發(fā)的Linly系列中文開(kāi)源大模型的技術(shù)方案,包括項(xiàng)目背景、模型架構(gòu)、訓(xùn)練數(shù)據(jù)以及模型應(yīng)用等方面。

    圖片1.png

      直播回放地址:https://juejin.cn/live/jpowermeetup23

      近年來(lái),以 ChatGPT 為代表的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型獲得了廣泛的關(guān)注。這類模型依賴大量文本訓(xùn)練,可以完成閱讀理解、文本生成等多種自然語(yǔ)言處理任務(wù)。但目前許多流行的大規(guī)模語(yǔ)言模型,例如 LLaMA、Falcon 等,其訓(xùn)練數(shù)據(jù)以英文為主,直接應(yīng)用于中文場(chǎng)景的效果并不理想。為此,深圳大學(xué)沈琳琳教授團(tuán)隊(duì)發(fā)起了 Linly 項(xiàng)目,目標(biāo)是基于英文底座模型,通過(guò)大規(guī)模中英文增量訓(xùn)練對(duì)齊模型的跨語(yǔ)言表示,將語(yǔ)言能力遷移到中文上來(lái)獲得性能強(qiáng)大的中文預(yù)訓(xùn)練模型。

      Linly 項(xiàng)目基于 TencentPretrain 框架完成模型訓(xùn)練,該框架模塊化實(shí)現(xiàn)了主流模型架構(gòu),支持快速迭代不同規(guī)模的模型。目前 Linly 已在 GitHub 開(kāi)源了不同模型架構(gòu)、不同參數(shù)量級(jí)、不同序列長(zhǎng)度的中文大模型,代碼庫(kù)的周訪問(wèn)量達(dá)萬(wàn)級(jí),stars 近 3000,影響力日益擴(kuò)大。這些模型直接在主流大模型基礎(chǔ)之上,擴(kuò)充了中文詞匯表,并增加中文訓(xùn)練數(shù)據(jù)來(lái)進(jìn)行中文化適配。相比起直接將國(guó)外主流大模型的英文回答結(jié)果翻譯成中文的方式,Linly 模型更符合中文語(yǔ)義表達(dá)習(xí)慣,同時(shí)也保留了原大模型強(qiáng)大的英文問(wèn)答能力。模型支持多種量化精度,可在不同硬件設(shè)備上部署。

      一、Linly項(xiàng)目亮點(diǎn)

    圖片2.png

      作為開(kāi)源可商用的中文大模型項(xiàng)目,Linly 有以下突出優(yōu)點(diǎn):

      1. 完全開(kāi)源:模型、代碼、數(shù)據(jù)集、訓(xùn)練方案均公開(kāi),可供自由使用及再現(xiàn)。

      2. 支持多種推理硬件:提供了 CPU、GPU 等部署版本,降低應(yīng)用門(mén)檻。

      3. 兼容主流模型應(yīng)用生態(tài):可無(wú)縫應(yīng)用于 LLaMA 等模型的下游任務(wù)場(chǎng)景。

      4. 性能強(qiáng)勁:在匿名大模型對(duì)戰(zhàn)平臺(tái)的綜合測(cè)評(píng)結(jié)果中,Linly 名列前茅。

      二、大語(yǔ)言模型基礎(chǔ)知識(shí)

    圖片3.png

      相比于傳統(tǒng)的監(jiān)督學(xué)習(xí)方法,大模型訓(xùn)練采用的是預(yù)訓(xùn)練-微調(diào)的范式。先利用大規(guī)模無(wú)標(biāo)注語(yǔ)料進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,得到通用語(yǔ)言理解能力,然后使用少量標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)以適應(yīng)不同的具體下游任務(wù)。這種方法可以減少人工標(biāo)注數(shù)據(jù)的工作量。

      常見(jiàn)的無(wú)監(jiān)督預(yù)訓(xùn)練模型主要有掩碼語(yǔ)言模型(代表作:Bert),單向語(yǔ)言模型(代表作:GPT系列)和去噪語(yǔ)言模型(代表作:BART)。目前大部分大模型都采用單向語(yǔ)言模型的預(yù)訓(xùn)練方式,其預(yù)訓(xùn)練目標(biāo)是續(xù)寫(xiě),即根據(jù)前文生成后續(xù)文本,也稱單向語(yǔ)言模型。預(yù)訓(xùn)練階段,模型根據(jù)前面的信息,預(yù)測(cè)下一個(gè) token 最有可能是詞匯表中的哪一個(gè),用分類任務(wù)中常用的交叉熵?fù)p失函數(shù)來(lái)約束模型的訓(xùn)練,從而獲得語(yǔ)言生成能力。微調(diào)階段,使用少量標(biāo)注數(shù)據(jù)使模型適應(yīng)特定任務(wù),該階段的訓(xùn)練方式和前一階段一樣,也做續(xù)寫(xiě)任務(wù)的訓(xùn)練,不過(guò)只計(jì)算完成任務(wù)部分 token 的損失值。

      三、Linly方案設(shè)計(jì)

    圖片4.png

      Linly 項(xiàng)目使用自主研發(fā)的 TencentPretrain 框架實(shí)現(xiàn)模型訓(xùn)練,該框架通過(guò)模塊化設(shè)計(jì)提取了不同模型的共性部分,可以輕松實(shí)現(xiàn)新模型以及訓(xùn)練算法的構(gòu)建。

      1. 模型選型

      鑒于 GPT 類模型在大模型中廣泛應(yīng)用,Linly 項(xiàng)目選擇在 LLaMA-2 的基礎(chǔ)上進(jìn)行中文化改造。LLaMA-2 作為通用語(yǔ)言模型,中文化后可在中文任務(wù)上達(dá)到不錯(cuò)性能。

      2. 數(shù)據(jù)構(gòu)建

      由于 LLaMA-2 原詞匯表僅包含 700 多個(gè)中文漢字,直接在此基礎(chǔ)上用中文數(shù)據(jù)訓(xùn)練的效率不高。Linly 項(xiàng)目團(tuán)隊(duì)進(jìn)一步擴(kuò)充中文詞匯表,多支持了 8000 多個(gè)漢字、中文符號(hào)和 20000 多個(gè)詞組,以提高在中文數(shù)據(jù)上訓(xùn)練的效率及性能。

      訓(xùn)練數(shù)據(jù)包含中文語(yǔ)料、英文語(yǔ)料、中文指令數(shù)據(jù)、英文指令數(shù)據(jù)和英文翻譯成中文的平行語(yǔ)料數(shù)據(jù)。采用課程學(xué)習(xí)的策略,即在訓(xùn)練過(guò)程中逐步減少英文數(shù)據(jù)所占的比例,增加中文數(shù)據(jù)所占的比例,實(shí)現(xiàn)在不降低英文能力的前提下,同時(shí)將英文能力絲滑遷移至中文數(shù)據(jù)上的效果。

      3. 模型訓(xùn)練

      訓(xùn)練 Linly 大模型時(shí),針對(duì)大模型最長(zhǎng)輸入文本長(zhǎng)度的限制,采用了 full-sentence 的技巧,即當(dāng)句子長(zhǎng)度不足最長(zhǎng)輸入文本長(zhǎng)度時(shí),在接上分隔符并接上新文本時(shí),選擇長(zhǎng)度加和盡可能接近最長(zhǎng)輸入文本長(zhǎng)度的文本。這樣可以提升訓(xùn)練的效率,同時(shí)也盡量避免了由于新接入句子長(zhǎng)度過(guò)長(zhǎng)而不得不將其剩下部分當(dāng)成新句子的“截?cái)?rdquo;現(xiàn)象。模型并行訓(xùn)練方面,使用 DeepSpeed 實(shí)現(xiàn)數(shù)據(jù)、張量和流水線三個(gè)維度的并行,加速收斂。

      四、Linly應(yīng)用

    圖片5.png

      在大模型的應(yīng)用方面,Linly 也進(jìn)行了大量探索。基于Linly大模型微調(diào)的中文金融知識(shí)問(wèn)答大模型“聚寶盆”就取得了不錯(cuò)的效果。Linly 數(shù)字人結(jié)合最新語(yǔ)音驅(qū)動(dòng)人類生成的工作,達(dá)到將與大模型交互過(guò)程可視化的效果。Hugging Face 平臺(tái)也提供了Linly模型的在線體驗(yàn)?梢(jiàn) Linly 模型具備與國(guó)際先進(jìn)水平接軌的語(yǔ)言理解與生成能力,在中文場(chǎng)景具有廣闊的應(yīng)用前景。在未來(lái)的工作中,Linly項(xiàng)目成員還將探索大模型在AI智能體、具身智能和虛擬人等場(chǎng)景的應(yīng)用。

      本次分享內(nèi)容豐富,從多個(gè)維度全面介紹了 Linly 項(xiàng)目的技術(shù)方案及應(yīng)用情況,讓聽(tīng)眾對(duì)這一開(kāi)源中文大模型有了更為清晰和立體的理解。演講中大量案例讓觀眾直觀感受大模型帶來(lái)的人工智能新技術(shù)新應(yīng)用,也讓業(yè)界看到了中文大模型彌補(bǔ)國(guó)際開(kāi)源模型中文能力不足的可能性?梢灶A(yù)見(jiàn),在強(qiáng)大的學(xué)術(shù)團(tuán)隊(duì)和開(kāi)源社區(qū)的支持下,Linly 系列模型會(huì)不斷壯大,在更多領(lǐng)域產(chǎn)生重要影響,推動(dòng)我國(guó)自主可控人工智能技術(shù)向縱深發(fā)展。

      掘力計(jì)劃

      掘力計(jì)劃由稀土掘金技術(shù)社區(qū)發(fā)起,致力于打造一個(gè)高品質(zhì)的技術(shù)分享和交流的系列品牌。聚集國(guó)內(nèi)外頂尖的技術(shù)專家、開(kāi)發(fā)者和實(shí)踐者,通過(guò)線下沙龍、閉門(mén)會(huì)、公開(kāi)課等多種形式分享最前沿的技術(shù)動(dòng)態(tài)。(作者:任嘉志)

      

    [No. X048]
    分享到微信

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

    2024年3月12日,由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。