大模型之爭,到了不只是拼技術(shù)的時刻。
最新的行業(yè)風向是:誰能大范圍應(yīng)用落地?誰能笑到最后?誰能真正產(chǎn)生價值?
對大模型行業(yè)玩家的評判標準也不再只看技術(shù)。戰(zhàn)略布局、落地進展、未來判斷……成為了更被重視的維度。
無論“楊植麟們”還是大廠高管,公開探討大模型的頻率越來越高,包括一直低調(diào)的騰訊。
前腳,騰訊云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生萬字采訪釋出,回應(yīng)“關(guān)于騰訊大模型的一切”;后腳,在萬眾矚目的WAIC上,騰訊云副總裁、騰訊云智能、騰訊優(yōu)圖實驗室負責人吳運聲帶來大模型產(chǎn)品最新進展。
兩波強勢輸出下,騰訊大模型戰(zhàn)略緩緩露出全貌:
圍繞著企業(yè)訓(xùn)練大模型和應(yīng)用大模型的需求,提供AI infra、自主可控的大模型以及貼近場景的智能應(yīng)用。在這一過程中,騰訊不斷提升模型性能的同時,也在不斷降低模型使用的門檻,通過封裝好的PaaS產(chǎn)品來讓企業(yè)構(gòu)建面向具體場景的應(yīng)用,包括智能客服和營銷工具等。
混元單日調(diào)用tokens數(shù)已達千億級
簡單梳理騰訊云業(yè)務(wù),其AI布局大致可以分為基礎(chǔ)設(shè)施、模型層、工具平臺層和應(yīng)用層這四大方面。
在底層能力上,騰訊云構(gòu)建了HCC高性能算力集群、AIGC云存儲和星脈高性能網(wǎng)絡(luò),這是訓(xùn)練大模型的基礎(chǔ)。
基礎(chǔ)之上,去年9月,騰訊混元大模型橫空出世,目前已擴展至萬億參數(shù)規(guī)模,由7萬億tokens的預(yù)訓(xùn)練語料訓(xùn)練而來,能力已覆蓋了文本、多模態(tài)理解及生成等。
文本生成上,混元率先在國內(nèi)采用MoE架構(gòu),最新升級后的模型性能較上一代提升50%,部分中文能力已追平GPT-4!它的超長文能力也已在騰訊元寶中上線,一次性能夠處理長達1000萬字的文檔,并支持多種格式的文件解析,如PDF、PPTX。它還能基于文檔內(nèi)容生成柱狀圖、折線圖和餅狀圖等。
就在最近,騰訊元寶還上新了AI深度搜索模式,支持從深度和廣度上提供更結(jié)構(gòu)化、更豐富的回答。
圖像生成上,混元推出首個中文原生的DiT架構(gòu)(Diffusion With Transformer)文生圖模型,并直接將訓(xùn)練代碼、推理代碼、模型權(quán)重等完整模型全部開源!它創(chuàng)新性結(jié)合了雙語CLIP和多語言T5編碼器來提升理解能力,這是Stable Diffusion3所不具備的,并應(yīng)用多模態(tài)大語言模型來改進圖像描述。
通過混元DiT 的加速庫,生圖時間還能縮短75%,大幅提升推理效率。發(fā)布一個多月,騰訊混元 DiT 目前在 github 上 star 數(shù)已有2.6k,是目前最受歡迎的國產(chǎn)開源文生圖模型。
視頻生成方面,支持文生視頻、圖生視頻、圖文生視頻、視頻生視頻等能力。另外,在3D生成等領(lǐng)域,騰訊混元已布局文/圖生3D,單圖僅需30秒即可生成3D模型。
值得一提的是,騰訊還在持續(xù)開源大模型成果。
如上提到的全鏈路自研DiT文生圖模型(15B)以及小顯存版本均宣布對外開源。其中小顯存版僅需6GB內(nèi)存即可運行,個人電腦上就能運行,并與LoRA、ControlNet等插件,都已適配至Diffusers庫;對開發(fā)者非常友好。
由此,騰訊構(gòu)建了扎實的技術(shù)底座和模型能力,并持續(xù)跟進趨勢做快速迭代。以此為基礎(chǔ),騰訊云進一步搭建了上層工具和應(yīng)用。
實際上,圍繞核心場景,構(gòu)建產(chǎn)業(yè)應(yīng)用,才是騰訊大模型戰(zhàn)略的核心。
湯道生在與騰訊新聞《潛望》的采訪中透露,對于AI,他比較看重怎么讓大家在產(chǎn)業(yè)場景把AI用起來、需要提供什么工具和能力。目前他感覺,大模型很大程度回到關(guān)注RAG(檢索增強生成)模式,降低出現(xiàn)幻覺的概率,同時也比較重視怎么把握“智能體”的方向。
對應(yīng)到騰訊云的實際業(yè)務(wù),這些思考已經(jīng)開始逐漸顯現(xiàn)。
簡化開發(fā)流程,低門檻加速大模型場景落地
大家都知道產(chǎn)業(yè)落地是關(guān)鍵,但問題是:怎么做?
吳運聲表示,騰訊云認為大模型的廣泛應(yīng)用落地,不是某一家或某幾家企業(yè)憑借自身技術(shù)實現(xiàn)的,更可行的路線是降低技術(shù)開發(fā)門檻,讓產(chǎn)業(yè)中更多企業(yè)能夠參與到AI應(yīng)用落地進程中。
因此,騰訊云構(gòu)建了大模型知識引擎、圖像創(chuàng)作引擎、視頻創(chuàng)作引擎三大PaaS工具,將大模型技術(shù)封裝,讓各行各業(yè)的用戶能直接上手使用。
其中,知識引擎就是剛剛湯道生提到的RAG模式。它基于LLM+RAG模式,是一個創(chuàng)新的知識應(yīng)用構(gòu)建平臺,滿足了當前產(chǎn)業(yè)應(yīng)用對大模型的迫切需求。
這一平臺的亮點在于,僅需5分鐘,用戶便能通過低代碼或無代碼的方式,快速構(gòu)建知識服務(wù)應(yīng)用,如客服、知識問答等,極大地降低了開發(fā)門檻,讓人人都能玩轉(zhuǎn)大模型應(yīng)用。
知識引擎整合了騰訊的混元大模型以及特定行業(yè)的大模型能力,結(jié)合先進的文檔技術(shù),為用戶提供了企業(yè)知識服務(wù)應(yīng)用模板。此外,它還提供了文檔解析、向量檢索、多輪改寫等原子能力,助力企業(yè)用戶構(gòu)建高效的AI問答系統(tǒng)。
而它的背后,是騰訊一系列自研技術(shù)的支撐!包括自研的TRAG技術(shù)架構(gòu)和首個基于語義判斷的知識切分模型。這些技術(shù)從底層解決了諸多行業(yè)應(yīng)用難題,如確保信息塊的語義完整性,這是業(yè)內(nèi)長期面臨的挑戰(zhàn)。
騰訊云采用了一種創(chuàng)新的“暴力解法”,提出了業(yè)內(nèi)首個基于語義判斷的知識切分模型。這一模型能夠?qū)γ總文本進行語義級別的切分,并在多個段落中進行更準確的拆分,確保每個切片在長度可控的同時,語義完整,避免了信息的缺失和斷章取義。
此外,知識引擎將檢索的最大長度提升至4k字符,遠超業(yè)內(nèi)平均水平(通常為512字)。通過混合檢索、text2sql表格檢索等策略,進一步提高了復(fù)雜知識的檢索精度,能夠處理上萬行的超大表格進行精確篩選。
知識引擎的應(yīng)用場景廣泛,包括智能客服、智能營銷、知識管理、數(shù)據(jù)分析、辦公協(xié)同、數(shù)智人等,這些都是業(yè)界公認的大模型最先落地的領(lǐng)域。
例如,騰訊企點客服在知識引擎的支持下全面升級,不僅支持大模型多輪對話,還能為人工客服推薦答案,智能生成工單和會話小結(jié)。此外,它還能整合到騰訊企點營銷SCRM中,有效提升客戶轉(zhuǎn)化率。在人才培訓(xùn)領(lǐng)域,知識引擎結(jié)合騰訊樂享知識學(xué)習平臺,將員工的知識智慧匯聚成企業(yè)知識庫,促進了內(nèi)部知識分享和傳播。
最新發(fā)布中,知識引擎還進一步升級了多模態(tài)檢索能力和企業(yè)類型知識覆蓋面,進一步提升了知識引擎的專業(yè)能力。
圖像創(chuàng)作引擎,則可提供圖像風格化、AI寫真訓(xùn)練與生成、商品背景生成、線稿生成等能力。
基于混元文生圖大模型,圖像創(chuàng)作引擎能提供更符合國內(nèi)要求的圖像。它具備更高質(zhì)量的中文理解能力,可生成更優(yōu)質(zhì)的圖像,繪畫能力更符合東方審美。
視頻創(chuàng)作引擎基于支持視頻轉(zhuǎn)譯、視頻風格化、圖像跳舞、視頻插幀、藝術(shù)字視頻、運動筆刷、畫布拓展等應(yīng)用,主要面向視頻創(chuàng)作者,可以應(yīng)用在短視頻平臺、廣告營銷、游戲等領(lǐng)域。
它最新推出了復(fù)雜舞蹈編排算法,基于3D建模和背部生成技術(shù),可以實現(xiàn)僅基于一張圖像,就生成可轉(zhuǎn)身的舞蹈編排。要知道,市面上大多生成技術(shù),都只能固定視角,更別說轉(zhuǎn)身了。
另外,對于想要自己訓(xùn)練大模型的行業(yè)客戶,騰訊還推出了TI平臺等工具。它面向?qū)I(yè)AI工程師,可提供從數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型訓(xùn)練、模型評估到模型服務(wù)的全流程開發(fā)支持。
TI平臺內(nèi)包含豐富的算法組件,支持多種算法框架,滿足多種應(yīng)用場景需求。
最新升級中,TI平臺發(fā)布全新數(shù)據(jù)處理鏈、大模型精調(diào)工具鏈;并且和知識引擎聯(lián)調(diào),實現(xiàn)了邊迭代邊評測機制,企業(yè)能及時了解并優(yōu)化大模型業(yè)務(wù)效果。
如閱文集團、瑞金醫(yī)院等,都利用TI平臺訓(xùn)練出了自己的大模型。
據(jù)閱文集團總裁黃琰介紹,閱文旗下網(wǎng)文行業(yè)大模型“閱文妙筆”可輔助網(wǎng)文多模態(tài)創(chuàng)作、支持用戶和角色對話、還能進行多語種翻譯。
醫(yī)學(xué)領(lǐng)域,瑞金醫(yī)院-上海市數(shù)字醫(yī)學(xué)創(chuàng)新中心首席技術(shù)官黃飛躍介紹,去年發(fā)布的瑞金醫(yī)學(xué)大模型,基于數(shù)億醫(yī)學(xué)數(shù)據(jù)訓(xùn)練而來。已推出體檢報告生成和電子病歷生成系統(tǒng),并在瑞金院內(nèi)應(yīng)用。以體檢報告生成為例,平均每5秒即可自動生成一份總檢報告,為醫(yī)生節(jié)約50%+的撰寫時間。
總結(jié)來看,騰訊云的大模型產(chǎn)品矩陣,盡可能兼顧到了市面上所有突出需求。比如構(gòu)建專有大模型、零門檻上手、快速開發(fā)等。
這也傳遞了騰訊對技術(shù)趨勢的理解:大模型必須用起來才有價值。技術(shù)的打造只是起點,把技術(shù)落地到產(chǎn)業(yè)場景、創(chuàng)造價值才是目標。
而在騰訊自身內(nèi)部,這些價值已經(jīng)初步顯現(xiàn)。
聚焦模型場景落地,騰訊決定打一場持久戰(zhàn)
模型落地,實用為先。
騰訊混元大模型是鮮少一亮相,就宣布落地應(yīng)用的模型。
去年9月,混元已接入騰訊會議、微信搜一搜、騰訊文檔等,而且已經(jīng)能看到可觀增長。
比如AI代碼助手,在騰訊集團內(nèi)部已經(jīng)實現(xiàn)了50%以上的開發(fā)崗員工覆蓋。騰訊會議AI助手在上線4個月里,日調(diào)用量增長20倍。
目前騰訊內(nèi)部已有600+業(yè)務(wù)和場景接入混元大模型,覆蓋金融科技、營銷、廣告、會議、文檔等典型場景。
同時,騰訊也推出了AI智能體創(chuàng)作與開發(fā)平臺騰訊元器,以豐富混元應(yīng)用生態(tài)。
企業(yè)和開發(fā)者可以基于騰訊元器,使用騰訊官方的插件和知識庫直接創(chuàng)建智能體。開發(fā)完成后,將智能體一鍵分發(fā)到QQ、微信客服、騰訊云等渠道上。
這與湯道生在采訪中的觀點遙相呼應(yīng),不是只有做大模型的玩家才是做AI。騰訊的機制下,各自團隊都在關(guān)注AI跟自己業(yè)務(wù)有什么關(guān)系,有多點布局。
回看騰訊亮出的整體戰(zhàn)略,其核心策略其實是“產(chǎn)業(yè)實用”。
在這個大命題下,大模型作為其中一個重要板塊,為產(chǎn)品和業(yè)務(wù)提供先進技術(shù)能力。
如今,騰訊大模型的底層技術(shù)和產(chǎn)品矩陣都更加完善,它們本身和盤托出,就是對騰訊大模型策略最好的解釋。
至于為啥騰訊云值得期待?
吳運聲坦白講很難用一兩個詞就清晰表達騰訊云的差異化優(yōu)勢。
在產(chǎn)研結(jié)合、人員配置、激勵機制、考核指標等方方面面,騰訊云都面向?qū)嵱寐涞囟鰳?gòu)建,這不僅代表技術(shù)路線差異,甚至也傳遞企業(yè)文化、組織建設(shè)差異。
而這或許恰好透露了騰訊在大模型/AI應(yīng)用落地上的決心。
由內(nèi)而外,騰訊決定打一場持久戰(zhàn)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。