言犀基礎大模型

2024年01月15日 15:11:01 來源：中國通信院華東分院

　　2021 年 1 月，京東科技在原京東數(shù)科與京東智聯(lián)云基礎上重組完成，融合了兩大技術(shù)業(yè)務板塊的綜合實力，京東科技現(xiàn)已成為整個京東集團對外提供技術(shù)服務的核心平臺，擁有豐富的產(chǎn)業(yè)理解力、深厚的風險管理能力、用戶運營能力和企業(yè)服務能力，能面向不同行業(yè)為客戶提供行業(yè)應用、產(chǎn)品開發(fā)與產(chǎn)業(yè)數(shù)字化服務。京東作為一家新型實體企業(yè)，擁有著深厚的產(chǎn)業(yè)基因和供應鏈場景，源于真實的業(yè)務需求、深度復雜的場景任務和廣泛的實體經(jīng)濟發(fā)展要求，促使京東的 AI 技術(shù)是面向知識密集型、任務型場景，解決真實產(chǎn)業(yè)問題的技術(shù)。且京東云旗下的言犀團隊在任務型智能對話交互關(guān)鍵技術(shù)方向擁有豐富的積累和廣泛的落地，擁有包括文本生成、語音生成、對話生成等系列領先技術(shù)，并打造出了智能客服系統(tǒng)、京小智平臺商家服務系統(tǒng)、智能政務熱線、言犀數(shù)字人等系列產(chǎn)品和解決方案。

　　京東科技深耕人工智能領域多年，形成了從算法到應用場景的鏈路，并通過自研推出言犀基礎大模型，賦予客戶在各自行業(yè)中快速構(gòu)建、部署，應用人工智能的能力。通過言犀基礎大模型，企業(yè)可以建立從業(yè)務的大量數(shù)據(jù)中自我學習、自驅(qū)迭代的能力，并實現(xiàn)對企業(yè)實施、運營、維護的一體化覆蓋，同時言犀大模型中的小型化技術(shù)能夠使企業(yè)具備云管邊端協(xié)同運營的能力，增強企業(yè)面對非標準化、算力通訊資源受限場景的應對能力，和面對業(yè)務變化的快速響應能力。

　　需求分析

　　目前基礎大模型正處于蓬勃發(fā)展階段，各行業(yè)、各領域以構(gòu)建數(shù)字化、線上化、搭建虛擬仿真場景為主要應用。在當前階段下，基礎大模型面臨著以下問題：一、由于基礎技術(shù)的限制以及大部分企業(yè)在大模型應用和硬件設備開發(fā)能力的不足，從而導致無法自主生產(chǎn)原生 AI 模型。

　　二、除了用戶單點大模型開發(fā)技術(shù)能力的不足，在各行業(yè)鏈條中的軟硬件互通、數(shù)據(jù)標準化和應用功能融合等問題中都存在著無法克服的壁壘。

　　三、大模型訓練硬件的能源消耗問題，在當前全球綠色經(jīng)濟的背景下，平穩(wěn)運行離不開大規(guī)模的數(shù)據(jù)中心和云計算中心等基礎設施的支撐，而大部分企業(yè)則無法滿足以上的要求，從而無法實現(xiàn)大模型的應用。

　　針對以上情況，開發(fā)言犀基礎大模型，以實現(xiàn)低門檻構(gòu)建基于人工智能技術(shù)的解決方案，是本項目需要解決的問題。

　　案例介紹

　　京東推出的言犀基礎大模型，將著力圍繞內(nèi)容生成、人機對話、用戶意圖理解、信息抽取、情感分類等幾大類任務，圍繞零售、物流、金融、健康、政務場景進行落地應用。

　　1) 優(yōu)質(zhì)的場景和數(shù)據(jù)讓模型產(chǎn)業(yè)屬性更強

　　京東的言犀大模型，是扎根產(chǎn)業(yè)的原生大模型。憑借著從基礎設施、模型層、MaaS 層、SaaS 層全棧的技術(shù)布局，打造多款端到端的大模型技術(shù)產(chǎn)品。

　　言犀大模型擁有三個差異化的特性：

　　第一，它是產(chǎn)業(yè)原生的，有更強的產(chǎn)業(yè)屬性。

　　第二，它是價值驅(qū)動的，有更高的應用價值。

　　第三，它是開放協(xié)同的，有更快的迭代效率。

　　另一方面，京東連接著產(chǎn)業(yè)互聯(lián)網(wǎng)和消費互聯(lián)網(wǎng)，在對內(nèi)實踐和對外產(chǎn)業(yè)數(shù)智化過程中積累了眾多優(yōu)質(zhì)的數(shù)據(jù)，區(qū)別于一些通用域數(shù)據(jù)的靜態(tài)數(shù)據(jù)，京東的數(shù)據(jù)是“鮮活的”，憑借每年產(chǎn)生數(shù)百億的交互數(shù)據(jù)，保證了模型的持續(xù)迭代和優(yōu)化。京東的大模型是在預訓練階段就接了 70% 通用域數(shù)據(jù)和接近 30% 京東特有的產(chǎn)業(yè)數(shù)據(jù)相結(jié)合去做訓練，這就保證了模型擁有大模型的“常識”，并擁有產(chǎn)業(yè)模型的“專業(yè)”。

　　2) 京東言犀大模型技術(shù)架構(gòu)

　　京東言犀大模型是基于京東云的高性能計算集群，采用 Megatron+DeepSpeed 的分布式訓練框架，訓練的 Decoder-Only 架構(gòu)模型。在通用知識獲取方面，言犀大模型添加了約 30% 的京東域自身的產(chǎn)業(yè)數(shù)據(jù)，并通過構(gòu)建高質(zhì)量的指令數(shù)據(jù)，幫助模型具備更強的產(chǎn)業(yè)屬性。除了模型訓練本身，京東言犀大模型還在模型的轉(zhuǎn)換層和服務層進行了自研算法的深耕，提升了大模型本身的推理速度和部署性能，讓大模型的能力能夠充分的下沉到業(yè)務端，并通過集成平臺能力打造真正的模型及服務。

　　3) 前沿的算法能力保證模型具備高應用價值

　　預訓練層面

　　源于業(yè)務應用需求，京東在 2020 年就提出了 K-PLUG 模型，將領域知識注入大模型中，以提高大模型的專業(yè)性和忠實度，并在 2021 年對該項工作進行了發(fā)表。K-PLUG 方法是基于 Transformer 模型架構(gòu) X 京東的產(chǎn)業(yè)知識進行的預訓練。

　　該算法幫助模型在實體屬性抽取準確率為 96%;在生成式多輪對話 ROUGE-L(指標主要是對比機器生成的內(nèi)容與人類的標準內(nèi)容的匹配度)，以 27% 領先于斯坦福經(jīng)典的 Pointer-Generator;在上下文多輪問答知識檢索率以 74% 準確率領先于行業(yè)。

　　推理部署層面

　　除了在大模型的預訓練階段，言犀大模型通過上述算法增強了產(chǎn)業(yè)領域知識，在模型的推理層面，京東言犀采用量化矩陣算子融合、自適應參數(shù)矩陣量化、自動算子切分與卡間并行、內(nèi)存優(yōu)化與緩存等多種策略，將推理速度提升 6.2 倍，且在“首字”推理速度的大模型推理難點上，京東言犀大模型采用自研的算法，極大程度的提升了大模型在推理方面的性能。在部署方向，依靠流式推理有效解碼傳輸機制、動態(tài)批處理、異構(gòu)集群部署等方法，將部署成本降低了 90%。

　　此外，京東言犀大模型還擁有配套的 AI 開發(fā)計算平臺，用于快速的模型迭代，效率提升 10 倍以上，讓模型能夠不斷的學習新的知識。

　　4) 澎湃算力打造開放協(xié)同的大模型生態(tài)

　　為了訓練大模型，京東早在 2021 年就在重慶建成了大模型集群，也是全國首個基于 DGX SuperPOD 架構(gòu)的超大規(guī)模計算集群—天琴，該集群在保障京東自身大模型訓練的同時，還將集群的每秒浮點運算次數(shù)提升 40%，多卡線性加速比提升 90%，為后續(xù)大模型的持續(xù)發(fā)展打下良好的基礎。

　　另一方面，為了更好的應對大模型背景下的海量數(shù)據(jù)存儲問題，京東還自研了向量數(shù)據(jù)庫 Vearch，支持百億級向量監(jiān)檢索，召回實現(xiàn)毫秒級延遲，智能儲存分層實現(xiàn)成本降低 60%，大幅提升了模型推理泛化能力與推理效率。

　　效益分析

　　該解決方案以京東全產(chǎn)業(yè)鏈為核心優(yōu)勢，從產(chǎn)業(yè)場景、軟件平臺、安全合規(guī)等多個方面為用戶帶來價值。

　　產(chǎn)業(yè)場景方面 : 用戶將借助京東積累的歷史行業(yè)知識，低成本快速構(gòu)建該用戶所在細分領域大模型應用，使用戶快速取得局部市場的先發(fā)優(yōu)勢(量化標準為縮短開發(fā)周期及成本降低)。

　　軟件應用方面 : 為了讓模型有更好的能力和應用，京東將開發(fā)言犀大模型過程中積累下來的能力解耦整合出來，以大模型開發(fā)平臺的形式開放給京東的合作伙伴。該平臺以京東云的私有云、公有云和混合云等高性能計算集群為底座，內(nèi)置了包括數(shù)據(jù)、模型訓練和部署推理等工具能力，不僅支持京東自身的言犀框架，也同時會支持各個主流的開源模型框架，促進大模型生態(tài)的發(fā)展。

　　安全合規(guī)方面：言犀 AI 大模型具備數(shù)據(jù)隱私和內(nèi)容安全可控的價值：

　　5) 數(shù)據(jù)隱私安全

　　我司在人機交互研究中進行訓練數(shù)據(jù)處理、人工智能模型的訓練時，嚴格遵守使用深度合成技術(shù)中的個人隱私保護要求，確保訓練數(shù)據(jù)數(shù)據(jù)來源合法性，并使用脫敏數(shù)據(jù)進行模型訓練。

　　6) 內(nèi)容生成可控性

　　惡意代碼、插件和網(wǎng)絡釣魚電子郵件有可能被 ChatGPT 生成。為了杜絕此安全隱患，京東云言犀團隊會在模型訓練時引入人工反饋機制降低和杜絕模型生成有害信息的回復。同時引入審核 API 來阻止某些有害內(nèi)容的輸出，例如，當收到要求編寫用于從被黑客攻擊的設備竊取數(shù)據(jù)的代碼或制作網(wǎng)絡釣魚電子郵件時，模型會拒絕該要求并指出此類內(nèi)容是“非法、不道德且有害的”。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信