首頁 > 云計算頻道 > 大模型

鵝廠革新大模型工具全鏈條！5分鐘開發(fā)AI助手

2024年05月21日 09:37:16 來源：量子位公眾號

　　大模型的風，吹進中小學了。

　　在河南，十幾所中小學的學生老師，都已經(jīng)用上專用大模型輔助學習和教課。

　　而且是熟讀新課標教材的那種，解答習題正確率達到95%。

　　但開發(fā)難度并不高，無需拿著海量數(shù)據(jù)從頭訓練一個模型，甚至都不一定需要懂編程，大幅降低大模型應用落地門檻。

　　這就是騰訊云剛剛公開的大模型商業(yè)化新進展。

　　在騰訊云生成式AI產(chǎn)業(yè)應用峰會上，鵝廠一口氣發(fā)布騰訊混元大模型最新進展、三大引擎工具、以及全面升級的騰訊云TI平臺等。

　　他們共同將大模型應用落地全流程鏈條進行大幅革新。

　　比如開頭提到的教育行業(yè)落地案例，就是基于騰訊云最新發(fā)布的大模型知識引擎實現(xiàn)。僅需5分鐘，該引擎即可幫助用戶生成“企業(yè)級”的AI問答應用。

　　透過如上實際落地案例，騰訊云究竟如何理解生成式AI產(chǎn)業(yè)應用?有了更明確解答。

　　5分鐘，做一個大模型問答應用

　　騰訊云提出的知識引擎是一個基于LLM+RAG模式的知識應用構(gòu)建平臺。

　　它整合了騰訊混元大模型以及行業(yè)特定大模型能力，并結(jié)合文檔技術(shù)，可以向用戶提供大模型企業(yè)只是服務應用模板，以及文檔解析、向量檢索、多輪改寫等原子能力。

　　在河南中小學實際落地的豫教大模型就是在混元的基礎上，通過知識引擎構(gòu)建、引入海量教育領域數(shù)據(jù)，微調(diào)之后的行業(yè)大模型。

　　從技術(shù)架構(gòu)來看，知識引擎分為3層:

　　大模型底座層

　　平臺層

　　應用層

　　其中，大模型底座是基礎設施，關(guān)鍵組件為大模型推理與解析引擎，它通過高度優(yōu)化的模型推理能力處理復雜數(shù)據(jù)解析和理解任務，確保信息提取的精確性和效率。

　　平臺層涵蓋知識問答系統(tǒng)(含任務導向型應用)。中間層負責整合大模型底座能力，提供問答、信息檢索等服務，通過標準化接口實現(xiàn)與不同業(yè)務場景靈活對接。

　　應用層包括控制臺界面和開放API接口，面向終端用戶和開發(fā)者，能夠讓大模型能力輕松被嵌入到各類外部系統(tǒng)中。

　　為了能夠達到更好的應用效果，騰訊云知識引擎在底層算法方面進行了一系列創(chuàng)新:

　　自研TRAG技術(shù)架構(gòu)

　　集成OCR解析大模型和多模態(tài)閱讀理解大模型

　　業(yè)內(nèi)首個基于語義判斷的知識切分模型

　　多元檢索和增強型檢索

　　首先，知識引擎使用騰訊自研的TRAG技術(shù)，不局限于向量化和檢索增強，對全流程每個環(huán)節(jié)進行優(yōu)化，包括文檔處理、檢索、理解和生成等。

　　其次，OCR解析大模型能夠直接端到端分析各種復雜文檔，比如文檔元素多樣(包括段落、圖、表、子圖等)排版復雜(如橫縱向多欄、圖/圖注群組等)的Word。通過將復雜文檔圖片表格轉(zhuǎn)換成可編輯的Markdown文本，它可以準確識別圖表等關(guān)鍵元素，并且按照人類閱讀順序理解文檔，整體準確率提升25%。處理復雜圖文PDF、PPT方面，騰訊云知識引擎還開發(fā)了混合圖文的多模態(tài)閱讀理解大模型。

　　然后，RAG能夠精確檢索的前提是做好知識切分，如何保證整個信息塊的語義完整一直是業(yè)內(nèi)難題。騰訊云采用了一種“暴力解法”，提出業(yè)內(nèi)首個基于語義判斷的知識切分模型，用大模型的方式直接對每個文本做語義級別的切分，然后對多個段落去做更準確拆分，確保每個切片在長度可控的情況下語義是最完整的，沒有缺字、斷章取義的情況。

　　最后在檢索方面，騰訊云智慧引擎通過長文檔embedding模型，將檢索最大長度提升至4k字符，遠高于業(yè)內(nèi)平均水平(通常512字)，并采用混合檢索、text2sql表格檢索等策略，進一步提高復雜知識的檢索精度，可以處理上萬行超大表格的精確篩選。

　　在提升平臺專業(yè)性的同時，騰訊云知識引擎還保障了易用性。

　　它提供開箱可用的應用模板和可被集成的原子能力API，低代碼/無代碼即可快速創(chuàng)建大模型應用。并構(gòu)建了完善工具鏈，支持用戶自定義模型選擇、角色設定、提示詞自動優(yōu)化、知識庫管理及維護等，同時支持對話測試-修正-發(fā)布-反饋增強的一站式處理。

　　實際應用流程只需4步，短至5分鐘即可搞定。

　　第一步，一鍵導入企業(yè)專屬知識。

　　第二步，填寫基礎配置。也就是你想要一個怎樣的大模型助手，比如汽車售后專家、保險銷售、理財顧問等。

　　然后選擇相應的底層模型。

　　第三步，測試發(fā)布。

　　第四步就能接入應用了。

　　通過API調(diào)用，快速接入智能客服、內(nèi)部只是問答、數(shù)字人等產(chǎn)品，一個企業(yè)級的知識問答應用就答應好了。

　　此外，基于騰訊自研的高性能向量數(shù)據(jù)庫(可支持百萬級QPS及毫秒級查詢延遲)以及相關(guān)加速技術(shù)，騰訊云知識引擎能在保障精度的前提下進一步提升模型推理性能。實際演示中，每次回答完成基本耗時在5秒左右。

　　總結(jié)一下，騰訊云知識引擎集成更先進的技術(shù)，同時還降低使用門檻，主要面向編程小白or非專業(yè)人士，能推進大模型應用更快走向千行百業(yè)。

　　這不僅給當下RAG需求市場提供了一個新選擇，同時也是生成式AI應用落地的一個范式參考。

　　而這還只是騰訊云生成式AI產(chǎn)業(yè)應用峰會新發(fā)布內(nèi)容的冰山一角。

　　一同亮相的，還有騰訊混元最新進展和騰訊云TI平臺全面升級。

　　0門檻應用開發(fā)、定制化大模型全覆蓋

　　最新發(fā)布中，騰訊全面升級混元大模型能力。

　　提供萬億參數(shù)hunyuan-pro、千億參數(shù)hunyuan-standard、百億參數(shù)hunyuan-lite等多種尺寸模型，通過騰訊云面向企業(yè)、開發(fā)者全量開放。其中hunyuan-standard支持256K上下文，具備單次處理超過38萬字符的超長文本能力。

　　升級后的騰訊混元，模型總體性能相比上一代提升50%，部分中文能力已追平GPT-4。在多模態(tài)能力方面，支持生圖、生視頻、生3D，比如視頻方面，支持16s 視頻生成。

　　基于最新混元大模型底座，這一次騰訊面向AIGC應用落地趨勢、面向產(chǎn)業(yè)帶來的，可以說是一波全方位無死角的更新。

　　除了知識引擎以外，騰訊云大模型圖像創(chuàng)作引擎具備高質(zhì)量AI圖像生成和編輯能力，可提供AI寫真、線稿生圖、圖像風格化等能力;騰訊云大模型視頻創(chuàng)作引擎可生成、編輯高質(zhì)量視頻，提供視頻轉(zhuǎn)譯、視頻風格化、畫布拓展等功能。

　　它們更多面向有應用場景，欠缺開發(fā)能力的B端用戶，提供大模型應用浪潮下的低門檻工具鏈。

　　但這還不夠，騰訊云還發(fā)布“騰訊元器”，進一步拓寬了大模型應用的落地范圍——

　　即使是缺少數(shù)據(jù)、工程能力的普通人，也可以一句話打造專屬智能體，讓創(chuàng)意這個大模型時代的重要資源分分鐘“變現(xiàn)”。

　　具體來說，通過提示詞、插件、工作流、AI輔助等創(chuàng)作能力，用戶能低門檻在該平臺上創(chuàng)建AI智能體。

　　更關(guān)鍵的是，還能將這些智能體發(fā)布到QQ、微信等騰訊App上，享受騰訊全域分發(fā)渠道。

　　另一方面，面向更專業(yè)用戶打造行業(yè)大模型的需求，騰訊云TI平臺也完成了全面升級。

　　騰訊云TI平臺是一個全棧式人工智能開發(fā)服務平臺，簡單來說，就是從數(shù)據(jù)獲取、數(shù)據(jù)處理，到算法構(gòu)建、模型訓練、模型評估、模型部署，再到AI應用開發(fā)的大模型落地全鏈路，這個平臺都能一站式打包搞定。

　　在自家的混元大模型之外，TI平臺還內(nèi)置了Llama3、Llama2、Baichuan2、Qwen等一系列主流大模型。基于TI平臺，用戶只需要少量算力+領域?qū)I(yè)數(shù)據(jù)，就能高效構(gòu)建出專屬行業(yè)大模型。

　　此番TI平臺的升級，主要集中在三個方面，以解決企業(yè)實際遇到的應用難題:

　　大規(guī)模數(shù)據(jù)處理耗時長

　　工程化迭代大模型算力利用率低、訓練周期長

　　從模型到應用落地難度高

　　首先，是發(fā)布了全新數(shù)據(jù)處理鏈，并且是全開源、易擴展、開箱即用的那種。

　　具體來說，騰訊云TI平臺提供了三大類數(shù)據(jù)處理pipeline，包括100多種任務類型的精調(diào)配比數(shù)據(jù)，支持知識問答、有監(jiān)督的多輪和單輪問答以及無監(jiān)督的預訓練等。

　　此外，還提供原始數(shù)據(jù)分析、數(shù)據(jù)清洗、數(shù)據(jù)去重等功能，并擁有超過100萬條的預置配比數(shù)據(jù)。

　　通過Prompt優(yōu)化和訓練格式生成，TI平臺能夠根據(jù)精調(diào)任務類型智能分配配比數(shù)據(jù)，無需額外配置就能自動加載配比數(shù)據(jù)，快速開始精調(diào)任務，并且在Notebook中提供了預置的數(shù)據(jù)處理鏈代碼，方便用戶快速上手。