混元單日調(diào)用tokens達千億后，騰訊大模型戰(zhàn)略露出全貌

2024年07月09日 08:59:06 明敏來源：量子位公眾號

　　大模型之爭，到了不只是拼技術(shù)的時刻。

　　最新的行業(yè)風向是:誰能大范圍應(yīng)用落地?誰能笑到最后?誰能真正產(chǎn)生價值?

　　對大模型行業(yè)玩家的評判標準也不再只看技術(shù)。戰(zhàn)略布局、落地進展、未來判斷……成為了更被重視的維度。

　　無論“楊植麟們”還是大廠高管，公開探討大模型的頻率越來越高，包括一直低調(diào)的騰訊。

　　前腳，騰訊云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生萬字采訪釋出，回應(yīng)“關(guān)于騰訊大模型的一切”;后腳，在萬眾矚目的WAIC上，騰訊云副總裁、騰訊云智能、騰訊優(yōu)圖實驗室負責人吳運聲帶來大模型產(chǎn)品最新進展。

　　兩波強勢輸出下，騰訊大模型戰(zhàn)略緩緩露出全貌:

　　圍繞著企業(yè)訓(xùn)練大模型和應(yīng)用大模型的需求，提供AI infra、自主可控的大模型以及貼近場景的智能應(yīng)用。在這一過程中，騰訊不斷提升模型性能的同時，也在不斷降低模型使用的門檻，通過封裝好的PaaS產(chǎn)品來讓企業(yè)構(gòu)建面向具體場景的應(yīng)用，包括智能客服和營銷工具等。

　　混元單日調(diào)用tokens數(shù)已達千億級

　　簡單梳理騰訊云業(yè)務(wù)，其AI布局大致可以分為基礎(chǔ)設(shè)施、模型層、工具平臺層和應(yīng)用層這四大方面。

　　在底層能力上，騰訊云構(gòu)建了HCC高性能算力集群、AIGC云存儲和星脈高性能網(wǎng)絡(luò)，這是訓(xùn)練大模型的基礎(chǔ)。

　　基礎(chǔ)之上，去年9月，騰訊混元大模型橫空出世，目前已擴展至萬億參數(shù)規(guī)模，由7萬億tokens的預(yù)訓(xùn)練語料訓(xùn)練而來，能力已覆蓋了文本、多模態(tài)理解及生成等。

　　文本生成上，混元率先在國內(nèi)采用MoE架構(gòu)，最新升級后的模型性能較上一代提升50%，部分中文能力已追平GPT-4!它的超長文能力也已在騰訊元寶中上線，一次性能夠處理長達1000萬字的文檔，并支持多種格式的文件解析，如PDF、PPTX。它還能基于文檔內(nèi)容生成柱狀圖、折線圖和餅狀圖等。

　　就在最近，騰訊元寶還上新了AI深度搜索模式，支持從深度和廣度上提供更結(jié)構(gòu)化、更豐富的回答。

　　圖像生成上，混元推出首個中文原生的DiT架構(gòu)(Diffusion With Transformer)文生圖模型，并直接將訓(xùn)練代碼、推理代碼、模型權(quán)重等完整模型全部開源!它創(chuàng)新性結(jié)合了雙語CLIP和多語言T5編碼器來提升理解能力，這是Stable Diffusion3所不具備的，并應(yīng)用多模態(tài)大語言模型來改進圖像描述。

　　通過混元DiT 的加速庫，生圖時間還能縮短75%，大幅提升推理效率。發(fā)布一個多月，騰訊混元 DiT 目前在 github 上 star 數(shù)已有2.6k，是目前最受歡迎的國產(chǎn)開源文生圖模型。

　　視頻生成方面，支持文生視頻、圖生視頻、圖文生視頻、視頻生視頻等能力。另外，在3D生成等領(lǐng)域，騰訊混元已布局文/圖生3D，單圖僅需30秒即可生成3D模型。

　　值得一提的是，騰訊還在持續(xù)開源大模型成果。

　　如上提到的全鏈路自研DiT文生圖模型(15B)以及小顯存版本均宣布對外開源。其中小顯存版僅需6GB內(nèi)存即可運行，個人電腦上就能運行，并與LoRA、ControlNet等插件，都已適配至Diffusers庫;對開發(fā)者非常友好。

　　由此，騰訊構(gòu)建了扎實的技術(shù)底座和模型能力，并持續(xù)跟進趨勢做快速迭代。以此為基礎(chǔ)，騰訊云進一步搭建了上層工具和應(yīng)用。

　　實際上，圍繞核心場景，構(gòu)建產(chǎn)業(yè)應(yīng)用，才是騰訊大模型戰(zhàn)略的核心。

　　湯道生在與騰訊新聞《潛望》的采訪中透露，對于AI，他比較看重怎么讓大家在產(chǎn)業(yè)場景把AI用起來、需要提供什么工具和能力。目前他感覺，大模型很大程度回到關(guān)注RAG(檢索增強生成)模式，降低出現(xiàn)幻覺的概率，同時也比較重視怎么把握“智能體”的方向。

　　對應(yīng)到騰訊云的實際業(yè)務(wù)，這些思考已經(jīng)開始逐漸顯現(xiàn)。

　　簡化開發(fā)流程，低門檻加速大模型場景落地

　　大家都知道產(chǎn)業(yè)落地是關(guān)鍵，但問題是:怎么做?

　　吳運聲表示，騰訊云認為大模型的廣泛應(yīng)用落地，不是某一家或某幾家企業(yè)憑借自身技術(shù)實現(xiàn)的，更可行的路線是降低技術(shù)開發(fā)門檻，讓產(chǎn)業(yè)中更多企業(yè)能夠參與到AI應(yīng)用落地進程中。

　　因此，騰訊云構(gòu)建了大模型知識引擎、圖像創(chuàng)作引擎、視頻創(chuàng)作引擎三大PaaS工具，將大模型技術(shù)封裝，讓各行各業(yè)的用戶能直接上手使用。

　　其中，知識引擎就是剛剛湯道生提到的RAG模式。它基于LLM+RAG模式，是一個創(chuàng)新的知識應(yīng)用構(gòu)建平臺，滿足了當前產(chǎn)業(yè)應(yīng)用對大模型的迫切需求。

　　這一平臺的亮點在于，僅需5分鐘，用戶便能通過低代碼或無代碼的方式，快速構(gòu)建知識服務(wù)應(yīng)用，如客服、知識問答等，極大地降低了開發(fā)門檻，讓人人都能玩轉(zhuǎn)大模型應(yīng)用。

　　知識引擎整合了騰訊的混元大模型以及特定行業(yè)的大模型能力，結(jié)合先進的文檔技術(shù)，為用戶提供了企業(yè)知識服務(wù)應(yīng)用模板。此外，它還提供了文檔解析、向量檢索、多輪改寫等原子能力，助力企業(yè)用戶構(gòu)建高效的AI問答系統(tǒng)。

　　而它的背后，是騰訊一系列自研技術(shù)的支撐!包括自研的TRAG技術(shù)架構(gòu)和首個基于語義判斷的知識切分模型。這些技術(shù)從底層解決了諸多行業(yè)應(yīng)用難題，如確保信息塊的語義完整性，這是業(yè)內(nèi)長期面臨的挑戰(zhàn)。

　　騰訊云采用了一種創(chuàng)新的“暴力解法”，提出了業(yè)內(nèi)首個基于語義判斷的知識切分模型。這一模型能夠?qū)γ總€文本進行語義級別的切分，并在多個段落中進行更準確的拆分，確保每個切片在長度可控的同時，語義完整，避免了信息的缺失和斷章取義。

　　此外，知識引擎將檢索的最大長度提升至4k字符，遠超業(yè)內(nèi)平均水平(通常為512字)。通過混合檢索、text2sql表格檢索等策略，進一步提高了復(fù)雜知識的檢索精度，能夠處理上萬行的超大表格進行精確篩選。

　　知識引擎的應(yīng)用場景廣泛，包括智能客服、智能營銷、知識管理、數(shù)據(jù)分析、辦公協(xié)同、數(shù)智人等，這些都是業(yè)界公認的大模型最先落地的領(lǐng)域。

　　例如，騰訊企點客服在知識引擎的支持下全面升級，不僅支持大模型多輪對話，還能為人工客服推薦答案，智能生成工單和會話小結(jié)。此外，它還能整合到騰訊企點營銷SCRM中，有效提升客戶轉(zhuǎn)化率。在人才培訓(xùn)領(lǐng)域，知識引擎結(jié)合騰訊樂享知識學(xué)習平臺，將員工的知識智慧匯聚成企業(yè)知識庫，促進了內(nèi)部知識分享和傳播。

　　最新發(fā)布中，知識引擎還進一步升級了多模態(tài)檢索能力和企業(yè)類型知識覆蓋面，進一步提升了知識引擎的專業(yè)能力。

　　圖像創(chuàng)作引擎，則可提供圖像風格化、AI寫真訓(xùn)練與生成、商品背景生成、線稿生成等能力。

　　基于混元文生圖大模型，圖像創(chuàng)作引擎能提供更符合國內(nèi)要求的圖像。它具備更高質(zhì)量的中文理解能力，可生成更優(yōu)質(zhì)的圖像，繪畫能力更符合東方審美。

　　視頻創(chuàng)作引擎基于支持視頻轉(zhuǎn)譯、視頻風格化、圖像跳舞、視頻插幀、藝術(shù)字視頻、運動筆刷、畫布拓展等應(yīng)用，主要面向視頻創(chuàng)作者，可以應(yīng)用在短視頻平臺、廣告營銷、游戲等領(lǐng)域。

　　它最新推出了復(fù)雜舞蹈編排算法，基于3D建模和背部生成技術(shù)，可以實現(xiàn)僅基于一張圖像，就生成可轉(zhuǎn)身的舞蹈編排。要知道，市面上大多生成技術(shù)，都只能固定視角，更別說轉(zhuǎn)身了。

　　另外，對于想要自己訓(xùn)練大模型的行業(yè)客戶，騰訊還推出了TI平臺等工具。它面向?qū)I(yè)AI工程師，可提供從數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型訓(xùn)練、模型評估到模型服務(wù)的全流程開發(fā)支持。

　　TI平臺內(nèi)包含豐富的算法組件，支持多種算法框架，滿足多種應(yīng)用場景需求。

　　最新升級中，TI平臺發(fā)布全新數(shù)據(jù)處理鏈、大模型精調(diào)工具鏈;并且和知識引擎聯(lián)調(diào)，實現(xiàn)了邊迭代邊評測機制，企業(yè)能及時了解并優(yōu)化大模型業(yè)務(wù)效果。

　　如閱文集團、瑞金醫(yī)院等，都利用TI平臺訓(xùn)練出了自己的大模型。

　　據(jù)閱文集團總裁黃琰介紹，閱文旗下網(wǎng)文行業(yè)大模型“閱文妙筆”可輔助網(wǎng)文多模態(tài)創(chuàng)作、支持用戶和角色對話、還能進行多語種翻譯。

　　醫(yī)學(xué)領(lǐng)域，瑞金醫(yī)院-上海市數(shù)字醫(yī)學(xué)創(chuàng)新中心首席技術(shù)官黃飛躍介紹，去年發(fā)布的瑞金醫(yī)學(xué)大模型，基于數(shù)億醫(yī)學(xué)數(shù)據(jù)訓(xùn)練而來。已推出體檢報告生成和電子病歷生成系統(tǒng)，并在瑞金院內(nèi)應(yīng)用。以體檢報告生成為例，平均每5秒即可自動生成一份總檢報告，為醫(yī)生節(jié)約50%+的撰寫時間。

　　總結(jié)來看，騰訊云的大模型產(chǎn)品矩陣，盡可能兼顧到了市面上所有突出需求。比如構(gòu)建專有大模型、零門檻上手、快速開發(fā)等。

　　這也傳遞了騰訊對技術(shù)趨勢的理解:大模型必須用起來才有價值。技術(shù)的打造只是起點，把技術(shù)落地到產(chǎn)業(yè)場景、創(chuàng)造價值才是目標。

　　而在騰訊自身內(nèi)部，這些價值已經(jīng)初步顯現(xiàn)。

　　聚焦模型場景落地，騰訊決定打一場持久戰(zhàn)

　　模型落地，實用為先。

　　騰訊混元大模型是鮮少一亮相，就宣布落地應(yīng)用的模型。

　　去年9月，混元已接入騰訊會議、微信搜一搜、騰訊文檔等，而且已經(jīng)能看到可觀增長。

　　比如AI代碼助手，在騰訊集團內(nèi)部已經(jīng)實現(xiàn)了50%以上的開發(fā)崗員工覆蓋。騰訊會議AI助手在上線4個月里，日調(diào)用量增長20倍。

　　目前騰訊內(nèi)部已有600+業(yè)務(wù)和場景接入混元大模型，覆蓋金融科技、營銷、廣告、會議、文檔等典型場景。

　　同時，騰訊也推出了AI智能體創(chuàng)作與開發(fā)平臺騰訊元器，以豐富混元應(yīng)用生態(tài)。

　　企業(yè)和開發(fā)者可以基于騰訊元器，使用騰訊官方的插件和知識庫直接創(chuàng)建智能體。開發(fā)完成后，將智能體一鍵分發(fā)到QQ、微信客服、騰訊云等渠道上。

　　這與湯道生在采訪中的觀點遙相呼應(yīng)，不是只有做大模型的玩家才是做AI。騰訊的機制下，各自團隊都在關(guān)注AI跟自己業(yè)務(wù)有什么關(guān)系，有多點布局。