• 首頁 > 云計算頻道 > 大模型

    鵝廠革新大模型工具全鏈條!5分鐘開發(fā)AI助手

    2024年05月21日 09:37:16   來源:量子位公眾號

      大模型的風,吹進中小學了。

      在河南,十幾所中小學的學生老師,都已經(jīng)用上專用大模型輔助學習和教課。

      而且是熟讀新課標教材的那種,解答習題正確率達到95%。

      但開發(fā)難度并不高,無需拿著海量數(shù)據(jù)從頭訓練一個模型,甚至都不一定需要懂編程,大幅降低大模型應用落地門檻。

      這就是騰訊云剛剛公開的大模型商業(yè)化新進展。

      在騰訊云生成式AI產(chǎn)業(yè)應用峰會上,鵝廠一口氣發(fā)布騰訊混元大模型最新進展、三大引擎工具、以及全面升級的騰訊云TI平臺等。

      他們共同將大模型應用落地全流程鏈條進行大幅革新。

      比如開頭提到的教育行業(yè)落地案例,就是基于騰訊云最新發(fā)布的大模型知識引擎實現(xiàn)。僅需5分鐘,該引擎即可幫助用戶生成“企業(yè)級”的AI問答應用。

      透過如上實際落地案例,騰訊云究竟如何理解生成式AI產(chǎn)業(yè)應用?有了更明確解答。

      5分鐘,做一個大模型問答應用

      騰訊云提出的知識引擎是一個基于LLM+RAG模式的知識應用構(gòu)建平臺。

      它整合了騰訊混元大模型以及行業(yè)特定大模型能力,并結(jié)合文檔技術(shù),可以向用戶提供大模型企業(yè)只是服務應用模板,以及文檔解析、向量檢索、多輪改寫等原子能力。

      在河南中小學實際落地的豫教大模型就是在混元的基礎上,通過知識引擎構(gòu)建、引入海量教育領域數(shù)據(jù),微調(diào)之后的行業(yè)大模型。

      從技術(shù)架構(gòu)來看,知識引擎分為3層:

      大模型底座層

      平臺層

      應用層

      其中,大模型底座是基礎設施,關(guān)鍵組件為大模型推理與解析引擎,它通過高度優(yōu)化的模型推理能力處理復雜數(shù)據(jù)解析和理解任務,確保信息提取的精確性和效率。

      平臺層涵蓋知識問答系統(tǒng)(含任務導向型應用)。中間層負責整合大模型底座能力,提供問答、信息檢索等服務,通過標準化接口實現(xiàn)與不同業(yè)務場景靈活對接。

      應用層包括控制臺界面和開放API接口,面向終端用戶和開發(fā)者,能夠讓大模型能力輕松被嵌入到各類外部系統(tǒng)中。

      為了能夠達到更好的應用效果,騰訊云知識引擎在底層算法方面進行了一系列創(chuàng)新:

      自研TRAG技術(shù)架構(gòu)

      集成OCR解析大模型和多模態(tài)閱讀理解大模型

      業(yè)內(nèi)首個基于語義判斷的知識切分模型

      多元檢索和增強型檢索

      首先,知識引擎使用騰訊自研的TRAG技術(shù),不局限于向量化和檢索增強,對全流程每個環(huán)節(jié)進行優(yōu)化,包括文檔處理、檢索、理解和生成等。

      其次,OCR解析大模型能夠直接端到端分析各種復雜文檔,比如文檔元素多樣(包括段落、圖、表、子圖等)排版復雜(如橫縱向多欄、圖/圖注群組等)的Word。通過將復雜文檔圖片表格轉(zhuǎn)換成可編輯的Markdown文本,它可以準確識別圖表等關(guān)鍵元素,并且按照人類閱讀順序理解文檔,整體準確率提升25%。處理復雜圖文PDF、PPT方面,騰訊云知識引擎還開發(fā)了混合圖文的多模態(tài)閱讀理解大模型。

      然后,RAG能夠精確檢索的前提是做好知識切分,如何保證整個信息塊的語義完整一直是業(yè)內(nèi)難題。騰訊云采用了一種“暴力解法”,提出業(yè)內(nèi)首個基于語義判斷的知識切分模型,用大模型的方式直接對每個文本做語義級別的切分,然后對多個段落去做更準確拆分,確保每個切片在長度可控的情況下語義是最完整的,沒有缺字、斷章取義的情況。

      最后在檢索方面,騰訊云智慧引擎通過長文檔embedding模型,將檢索最大長度提升至4k字符,遠高于業(yè)內(nèi)平均水平(通常512字),并采用混合檢索、text2sql表格檢索等策略,進一步提高復雜知識的檢索精度,可以處理上萬行超大表格的精確篩選。

      在提升平臺專業(yè)性的同時,騰訊云知識引擎還保障了易用性。

      它提供開箱可用的應用模板和可被集成的原子能力API,低代碼/無代碼即可快速創(chuàng)建大模型應用。并構(gòu)建了完善工具鏈,支持用戶自定義模型選擇、角色設定、提示詞自動優(yōu)化、知識庫管理及維護等,同時支持對話測試-修正-發(fā)布-反饋增強的一站式處理。

      實際應用流程只需4步,短至5分鐘即可搞定。

      第一步,一鍵導入企業(yè)專屬知識。

      第二步,填寫基礎配置。也就是你想要一個怎樣的大模型助手,比如汽車售后專家、保險銷售、理財顧問等。

      然后選擇相應的底層模型。

      第三步,測試發(fā)布。

      第四步就能接入應用了。

      通過API調(diào)用,快速接入智能客服、內(nèi)部只是問答、數(shù)字人等產(chǎn)品,一個企業(yè)級的知識問答應用就答應好了。

      此外,基于騰訊自研的高性能向量數(shù)據(jù)庫(可支持百萬級QPS及毫秒級查詢延遲)以及相關(guān)加速技術(shù),騰訊云知識引擎能在保障精度的前提下進一步提升模型推理性能。實際演示中,每次回答完成基本耗時在5秒左右。

      總結(jié)一下,騰訊云知識引擎集成更先進的技術(shù),同時還降低使用門檻,主要面向編程小白or非專業(yè)人士,能推進大模型應用更快走向千行百業(yè)。

      這不僅給當下RAG需求市場提供了一個新選擇,同時也是生成式AI應用落地的一個范式參考。

      而這還只是騰訊云生成式AI產(chǎn)業(yè)應用峰會新發(fā)布內(nèi)容的冰山一角。

      一同亮相的,還有騰訊混元最新進展和騰訊云TI平臺全面升級

      0門檻應用開發(fā)、定制化大模型全覆蓋

      最新發(fā)布中,騰訊全面升級混元大模型能力。

      提供萬億參數(shù)hunyuan-pro、千億參數(shù)hunyuan-standard、百億參數(shù)hunyuan-lite等多種尺寸模型,通過騰訊云面向企業(yè)、開發(fā)者全量開放。其中hunyuan-standard支持256K上下文,具備單次處理超過38萬字符的超長文本能力。

      升級后的騰訊混元,模型總體性能相比上一代提升50%,部分中文能力已追平GPT-4。在多模態(tài)能力方面,支持生圖、生視頻、生3D,比如視頻方面,支持16s 視頻生成。

      基于最新混元大模型底座,這一次騰訊面向AIGC應用落地趨勢、面向產(chǎn)業(yè)帶來的,可以說是一波全方位無死角的更新。

      除了知識引擎以外,騰訊云大模型圖像創(chuàng)作引擎具備高質(zhì)量AI圖像生成和編輯能力,可提供AI寫真、線稿生圖、圖像風格化等能力;騰訊云大模型視頻創(chuàng)作引擎可生成、編輯高質(zhì)量視頻,提供視頻轉(zhuǎn)譯、視頻風格化、畫布拓展等功能。

      它們更多面向有應用場景,欠缺開發(fā)能力的B端用戶,提供大模型應用浪潮下的低門檻工具鏈。

      但這還不夠,騰訊云還發(fā)布“騰訊元器”,進一步拓寬了大模型應用的落地范圍——

      即使是缺少數(shù)據(jù)、工程能力的普通人,也可以一句話打造專屬智能體,讓創(chuàng)意這個大模型時代的重要資源分分鐘“變現(xiàn)”。

      具體來說,通過提示詞、插件、工作流、AI輔助等創(chuàng)作能力,用戶能低門檻在該平臺上創(chuàng)建AI智能體。

      更關(guān)鍵的是,還能將這些智能體發(fā)布到QQ、微信等騰訊App上,享受騰訊全域分發(fā)渠道。

      另一方面,面向更專業(yè)用戶打造行業(yè)大模型的需求,騰訊云TI平臺也完成了全面升級。

      騰訊云TI平臺是一個全棧式人工智能開發(fā)服務平臺,簡單來說,就是從數(shù)據(jù)獲取、數(shù)據(jù)處理,到算法構(gòu)建、模型訓練、模型評估、模型部署,再到AI應用開發(fā)的大模型落地全鏈路,這個平臺都能一站式打包搞定。

      在自家的混元大模型之外,TI平臺還內(nèi)置了Llama3、Llama2、Baichuan2、Qwen等一系列主流大模型。基于TI平臺,用戶只需要少量算力+領域?qū)I(yè)數(shù)據(jù),就能高效構(gòu)建出專屬行業(yè)大模型。

      此番TI平臺的升級,主要集中在三個方面,以解決企業(yè)實際遇到的應用難題:

      大規(guī)模數(shù)據(jù)處理耗時長

      工程化迭代大模型算力利用率低、訓練周期長

      從模型到應用落地難度高

      首先,是發(fā)布了全新數(shù)據(jù)處理鏈,并且是全開源、易擴展、開箱即用的那種。

      具體來說,騰訊云TI平臺提供了三大類數(shù)據(jù)處理pipeline,包括100多種任務類型的精調(diào)配比數(shù)據(jù),支持知識問答、有監(jiān)督的多輪和單輪問答以及無監(jiān)督的預訓練等。

      此外,還提供原始數(shù)據(jù)分析、數(shù)據(jù)清洗、數(shù)據(jù)去重等功能,并擁有超過100萬條的預置配比數(shù)據(jù)。

      通過Prompt優(yōu)化和訓練格式生成,TI平臺能夠根據(jù)精調(diào)任務類型智能分配配比數(shù)據(jù),無需額外配置就能自動加載配比數(shù)據(jù),快速開始精調(diào)任務,并且在Notebook中提供了預置的數(shù)據(jù)處理鏈代碼,方便用戶快速上手。

    圖片

      其次,是上新了大模型精調(diào)工具鏈

      該工具鏈支持任務排隊以提升并發(fā)處理能力,采用自研的Angel大模型計算和并行優(yōu)化方案以提高效率,同時具備故障隔離和自動恢復功能以增強穩(wěn)定性。

      值得一提的是,該工具鏈支持國產(chǎn)化硬件,比如昇騰系列芯片。

      最后,TI平臺通過與知識引擎的強強聯(lián)合,提供了一種邊迭代邊測評的機制,使用戶能夠及時了解并優(yōu)化大模型的業(yè)務效果。

      平臺支持客觀和主觀兩種測評方式,可以結(jié)合業(yè)務中的實際難題和知識庫,進行端到端效果評測。

      目前,廣東工業(yè)大學、騰訊云和中國大熊貓保護研究中心已經(jīng)基于TI平臺+知識引擎展開了AI大熊貓保護的探索。

      項目組在一階段打造了全球首個大熊貓智能行為識別模型及智慧系統(tǒng),能識別大熊貓進食、喝水、睡覺等日常行為,準確率超過80%。

      有意思的是,就在騰訊云生成式AI產(chǎn)業(yè)應用峰會現(xiàn)場,Gartner還聯(lián)合騰訊發(fā)布了一份《生成式AI產(chǎn)業(yè)落地路徑研究報告》。

      其中提到,目前生成式AI的落地路線主要分為三種:

      標準軟件路線,即直接采購基于大模型能力的成熟應用

      標準模型能力增強路線,即調(diào)用大模型API或通過提示工程對模型能力進行增強

      定制化模型精調(diào)訓練路線,即結(jié)合企業(yè)專屬數(shù)據(jù)定制大模型

      結(jié)果上看,騰訊云的這一波生成式AI重磅更新,可以說是全面覆蓋了這三條路線。

      生成式AI邁入產(chǎn)業(yè)落地階段

      伴隨著2024而來,業(yè)界越來越強烈的共識是,大模型的最新關(guān)鍵詞之一,就是“應用”。

      無論是Sora掀起的科技圈新風暴,還是OpenAI、谷歌在多模態(tài)智能助手方面輪番上演肌肉秀,背后指向的趨勢都是:

      生成式AI進入第二階段,場上玩家們正在從卷基礎模型的研發(fā),邁入到應用落地探索的新階段。

      在這一浪潮之中,其實不僅僅是AIGC產(chǎn)品的開發(fā)廠商,越來越多的傳統(tǒng)企業(yè)也已經(jīng)被卷入實踐的第一線。

      值此之時,如何結(jié)合自身AIGC場景,選擇合適的落地路線,將成為越來越多企業(yè)需要思考的問題。

      騰訊云此番交卷,其實也在釋放一種信號:

      對于平臺廠商而言,如何與產(chǎn)業(yè)相結(jié)合,真正把大模型應用的門檻全方位降到更低,已成為新階段的競爭關(guān)鍵。

      作為旁觀者,值得期待的是,這些具體實際的落地腳步,或許就是趨勢變革連點成線的關(guān)鍵。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。