“客服來電”有詐?抖音客服上線“驗(yàn)證助手”助用戶識別詐騙OpenAI新模型GPT-5研發(fā)未達(dá)預(yù)期:成本高昂 效果不佳曝天馬打入果鏈:為蘋果HomePod供應(yīng)LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運(yùn)營商e&,展示全球首個(gè)固網(wǎng)游戲端到端網(wǎng)絡(luò)切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒放棄曲面屏開發(fā)!最新專利曝光暗示有望回歸三大運(yùn)營商11月成績單:用戶數(shù)據(jù)增幅放緩打造下一個(gè)英偉達(dá),孫正義的2026芯片計(jì)劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢AI時(shí)代云安全新范式,暢捷通智能守護(hù)小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強(qiáng)金融大模型 Baichuan4-Finance年末家電消費(fèi)觀察:品質(zhì)生活類產(chǎn)品熱賣,將持續(xù)迎來剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進(jìn)展新一代語言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型谷歌向投資者保證人工智能本月將迎來“驚人”表現(xiàn)多模態(tài)大模型引爆應(yīng)用場景 階躍星辰完成數(shù)億美元融資星動紀(jì)元發(fā)布端到端原生機(jī)器人大模型ERA-42 實(shí)現(xiàn)機(jī)器人復(fù)雜場景操作免費(fèi)模式強(qiáng)攻下,快手、抖音用“短劇VIP”反擊?
  • 首頁 > 云計(jì)算頻道 > 大模型

    騰訊混元大模型再進(jìn)化,文生圖能力重磅上線

    2023年10月27日 12:16:48   來源:微信公眾號機(jī)器之心

      本文來自于微信公眾號 機(jī)器之心(ID:almosthuman2014),作者:機(jī)器之心。

      2023年,大模型的落地按下加速鍵,文生圖便是最火熱的應(yīng)用方向之一。

      自從 Stable Diffusion 誕生以來,海內(nèi)外的文生圖大模型不斷涌現(xiàn),一時(shí)有「神仙打架」之感。每一次技術(shù)迭代,都帶來了模型生成效果和速度的飛速提升。

      就在今天,騰訊混元大模型也宣布了最新進(jìn)展:文生圖能力正式上線。

      一上手試用,我們就看到了混元大模型對于博大精深的中餐文化的理解。這里選取了讓很多大模型犯難的「螞蟻上樹」,但混元輕松生成:

      問題來了,現(xiàn)在的文生圖大模型這么卷,混元大模型還有沒有其他特別的優(yōu)勢?

      據(jù)官方介紹,如果從算法、模型方面來講,當(dāng)前文生圖大模型還存在一些挑戰(zhàn),比如語義理解不夠精準(zhǔn)、生成圖片結(jié)構(gòu)不合理、畫面細(xì)節(jié)不夠和質(zhì)感不高等問題。

      騰訊很早就開始在廣告場景進(jìn)行 AI 自動生成圖像的探索,相關(guān)的積累不可謂不深厚。此次混元大模型升級的文生圖能力,恰恰希望解決「語義、內(nèi)容、質(zhì)感」這三點(diǎn)難題。

      據(jù)介紹,相比其他大模型,騰訊混元的文生圖在人像真實(shí)感、場景真實(shí)感上有比較明顯的優(yōu)勢,同時(shí),在中國風(fēng)景、動漫游戲等場景等生成上有較好的表現(xiàn)。

      上手實(shí)測:混元文生圖,有什么不一樣?

      做好「文生圖」這件事,對「文」的充分理解至關(guān)重要。

      在語義理解方面,混元文生圖模型采用了中英文雙語細(xì)粒度的模型,同時(shí)基于中英文雙語建模實(shí)現(xiàn)雙語理解,且通過優(yōu)化算法提升了模型對細(xì)節(jié)的感知能力與生成效果。

      在此之前,像 Stable Diffusion 這樣的熱門模型雖然支持一定程度的中文,但其核心數(shù)據(jù)集 LAION-5B 仍以西方化內(nèi)容為主,對中國的語言、美食、文化、習(xí)俗都理解不夠。

      而混元文生圖模型是一個(gè)中文原生的文生圖模型,無論用戶輸入的中文詩句還是成語,都可以直接要求其創(chuàng)作畫作。

      在內(nèi)容合理性方面,混元文生圖通過增強(qiáng)算法模型的圖像二維空間位置感知能力,并將人體骨架和人手結(jié)構(gòu)等先驗(yàn)信息引入到生成過程中,讓生成的圖像結(jié)構(gòu)更合理,改善了 AI 生成人體結(jié)構(gòu)和手部不合理的問題。

      在畫面質(zhì)感方面,混元文生圖基于多模型融合的方法,提升生成質(zhì)感。經(jīng)過優(yōu)化之后,混元文生圖的人像模型(發(fā)絲、皺紋等)效果提升了30%,場景模型(草木、波紋等)效果提升了25%。

      這三方面的技術(shù)優(yōu)勢,對于混元大模型文生圖產(chǎn)品體驗(yàn)的提升是顯而易見的。

      為了驗(yàn)證上述能力,機(jī)器之心設(shè)置了一些題目,第一時(shí)間對混元大模型進(jìn)行了摸底測試。

      鑒于混元是中文原生模型,自然也比其他同類產(chǎn)品更懂「古代中國的語言」,我們首先讓它根據(jù)古詩詞進(jìn)行繪畫。

      我們選取一句非常有意境的古詩「醉后不知天在水,滿船清夢壓星河」來測試,看混元大模型能否生成極具畫面感的圖。

      在《泊船瓜洲》這首詩中,一句「春風(fēng)又綠江南岸,明月何時(shí)照我還」,寫出了無數(shù)游子的鄉(xiāng)愁。混元的生成結(jié)果,提取出「春光」、「水岸」、「明月」等意象進(jìn)行有機(jī)組合,讓人看到之后仿佛置身詩句場景之中:

      然后是有趣的「中國菜繪畫」環(huán)節(jié),來一道「魚香肉絲」經(jīng)典考題吧:

      從讓人 san 值狂掉的中餐繪畫,到現(xiàn)在看圖下飯的水準(zhǔn),我們也能感受到文生圖技術(shù)的不斷進(jìn)化。

      接下來看看在業(yè)界公認(rèn)的「人像真實(shí)感」難題上,混元做得如何:

      我們知道最初 Midjourney 爆火,就是因?yàn)橄旅孢@張情侶照片,讓人無法分辨這竟然無 AI 生成的。

      現(xiàn)在,我們考察一下混元大模型生成「照騙」的能力。使用的 Prompt 是:

      你覺得真實(shí)感如何?在我們看來,Prompt 中提到的細(xì)節(jié)拉滿。

      這也就是騰訊重點(diǎn)強(qiáng)調(diào)的:混元大模型通過優(yōu)化算法提升了對細(xì)節(jié)的感知能力與生成效果。這種能力,在很多具體的場景中才得以體現(xiàn)。

      例如在動畫場景中,生成「一頭小鹿在森林中奔跑、帶動落葉飛起、月亮很亮很大、小鳥在空中飛翔,氛圍感,CG 風(fēng)格,側(cè)面視角」。

      是不是特別像是小時(shí)候看的動畫中的畫面?

      此外,在動漫創(chuàng)作中,文生圖應(yīng)用潛力巨大。

      我們給到混元大模型的 Prompt 是「生成3D,動漫風(fēng)格,1個(gè)女孩,金色頭發(fā),微笑,短發(fā),城市背景」:

      你覺得生成效果如何?是不是可以直接拿來當(dāng)壁紙了?

      文生圖背后,有哪些自研技術(shù)?

      工欲善其事,必先利其器,對于大模型同樣如此。

      我們了解到,除了創(chuàng)新模型算法,騰訊混元大模型實(shí)現(xiàn)這樣接中文地氣的文生圖效果,其背后還離不開高質(zhì)量的圖文匹配數(shù)據(jù)、自研的機(jī)器學(xué)習(xí)框架以及強(qiáng)大的算力基礎(chǔ)設(shè)施。

      騰訊混元大模型已經(jīng)形成了從模型算法到機(jī)器學(xué)習(xí)框架再到 AI 基礎(chǔ)設(shè)施的全鏈路自研技術(shù)路徑。多層次的技術(shù)沉淀,意味著大模型的進(jìn)化需要一步一個(gè)腳印,從實(shí)踐出發(fā),在實(shí)踐中提升。

      首先來看支撐模型訓(xùn)練的數(shù)據(jù)工程。

      對于任何 AI 特別是大模型而言,數(shù)據(jù)都是不可或缺的三大要素之一。大模型文生圖功能亦是如此,圖文數(shù)據(jù)尤其是圖文之間的匹配數(shù)據(jù)對生成效果的影響舉足輕重。

      但是網(wǎng)絡(luò)上已有數(shù)據(jù)并不是都能拿來即用的,其中很大的問題是文字對圖片的描述不一定準(zhǔn)確,這就導(dǎo)致大多數(shù)圖文匹配數(shù)據(jù)質(zhì)量比較差。如果拿來用,即使訓(xùn)練時(shí)間很長,模型生成效果依然達(dá)不到預(yù)期,也會影響生成質(zhì)量的穩(wěn)定性和后續(xù)的迭代效率。

      因此,提升圖文數(shù)據(jù)質(zhì)量成為保證文生圖效果的「第一道關(guān)」。這時(shí)候往往需要通過工程化的方式提升數(shù)據(jù)質(zhì)量,支撐模型訓(xùn)練、優(yōu)化和升級,構(gòu)筑算法模型的護(hù)城河。

      面對圖文匹配數(shù)據(jù)問題,騰訊混元文生圖團(tuán)隊(duì)的應(yīng)對策略是這樣的:首先細(xì)粒度地完善中文 prompt,提升圖文相關(guān)性,最大化數(shù)據(jù)質(zhì)量;然后采取訓(xùn)練數(shù)據(jù)分層、分級的策略,逐步優(yōu)化模型,最大化數(shù)據(jù)效果;最后建設(shè)數(shù)據(jù)飛輪,它是大模型快速迭代的關(guān)鍵。團(tuán)隊(duì)基于線上用戶使用大模型的反饋,自動化構(gòu)建訓(xùn)練數(shù)據(jù),加快模型迭代,最大化數(shù)據(jù)效率。

      數(shù)據(jù)質(zhì)量、效果和效率提上去了,這就為良好的文生圖效果打下了基礎(chǔ)。而接下來要講的機(jī)器學(xué)習(xí)框架同樣重要。

      強(qiáng)大的機(jī)器學(xué)習(xí)框架或平臺會極大地提升開發(fā)者構(gòu)建、訓(xùn)練和部署模型的速度和效率。騰訊針對大模型訓(xùn)練和推理場景,自研了 Angel 機(jī)器學(xué)習(xí)平臺,主要包括負(fù)責(zé)訓(xùn)練的 AngelPTM 和負(fù)責(zé)推理的 AngelHCF 兩大部分。

      其中 AngelPTM 采用 ZeRO-Cache 優(yōu)化策略,成為超大模型訓(xùn)練利器,它通過存儲管理擴(kuò)大單機(jī)模型容量,通過多流異步提高資源利用率,通過顯存管理提高顯存效率。此外利用4D 并行提高可用顯存上限,減少千卡通信壓力,釋放計(jì)算潛能。自動續(xù)訓(xùn)機(jī)制支持千卡故障自動容錯(cuò),減少中斷時(shí)間。模型訓(xùn)練情況也在實(shí)時(shí)監(jiān)控之下,協(xié)同算法優(yōu)化模型訓(xùn)練方向。

      目前,AngelPTM 基于業(yè)界首創(chuàng)的 ZeRO-Cache 機(jī)制 +4D 并行實(shí)現(xiàn)了千億混元基座模型的高速訓(xùn)練,訓(xùn)練速度相比主流開源框架(DeepSpeed-Chat)提升1倍。

      AngelHCF 主要從定制多樣化服務(wù)策略、并行策略、框架加速(覆蓋常用 GPU 加速方法)、模型壓縮(支持業(yè)界常用壓縮方法)和高效模型 Debug 能力五個(gè)層面提升大模型的推理性能。推理速度相比業(yè)界主流框架(FasterTransformer)提升1.3倍。

      騰訊表示,其 Angel 機(jī)器學(xué)習(xí)平臺具備了領(lǐng)先性能,能夠幫助提供更好的基建體系,助力大模型們高速運(yùn)行。這使得混元大模型生成高質(zhì)圖片的同時(shí),生成速度也大大改進(jìn)。

      擁有了高質(zhì)量的數(shù)據(jù)、高效的機(jī)器學(xué)習(xí)框架,大模型的持續(xù)運(yùn)行還面臨著算力層面的考驗(yàn)。畢竟,大模型時(shí)代,算力為王。

      騰訊混元文生圖功能離不開騰訊云提供的強(qiáng)大算力基礎(chǔ)設(shè)施。2023年4月,騰訊云發(fā)布新一代 HCC 高性能計(jì)算集群,采用最新一代星星海自研服務(wù)器,并基于自研網(wǎng)絡(luò)和存儲架構(gòu),實(shí)現(xiàn)了3.2T 超高互聯(lián)帶寬、TB 級吞吐能力和千萬級 IOPS。新一代集群算力性能較前代提升了3倍,較傳統(tǒng)算力集群方案提升12倍以上。

      夯實(shí)底層硬件的同時(shí),上層軟件能力也要齊頭并進(jìn)。新一代 HCC 集群集成了騰訊云自研的 TACO 訓(xùn)練加速引擎,從網(wǎng)絡(luò)協(xié)議、通信策略、AI 框架、模型編譯層面做了大量系統(tǒng)級優(yōu)化。這套全生態(tài)的訓(xùn)練加速方案不僅可以幫助客戶降低 AI 優(yōu)化門檻,提升 AI 訓(xùn)練性能,還使訓(xùn)練調(diào)優(yōu)和算力成本大大降低。

      看起來,制約大模型的三大要素算法、數(shù)據(jù)和算力,在騰訊混元大模型這里都不成問題了。自然而然,文生圖質(zhì)量和效果也得到了保障。

      效果「以假亂真」,

      文生圖能力已嵌入騰訊廣告場景

      今天我們看到的混元大模型文生圖能力,并非一蹴而就,而是一個(gè)實(shí)實(shí)在在的演進(jìn)過程。

      在上個(gè)月舉行的2023騰訊全球數(shù)字生態(tài)大會上,騰訊混元大模型正式亮相。騰訊集團(tuán)副總裁蔣杰當(dāng)時(shí)表示,混元永遠(yuǎn)在路上。騰訊會一直演進(jìn)混元的能力,并希望每個(gè)月都會給大家?guī)眢@喜。

      目前,騰訊已有180個(gè)內(nèi)部業(yè)務(wù)接入混元大模型,包括包括騰訊會議、騰訊文檔、企業(yè)微信、騰訊廣告和微信搜一搜等。同時(shí)來自零售、教育、金融、醫(yī)療、傳媒、交通、政務(wù)等多個(gè)行業(yè)的客戶也通過騰訊云調(diào)用騰訊混元 API,應(yīng)用領(lǐng)域涉及智能問答、內(nèi)容創(chuàng)作、數(shù)據(jù)分析、代碼助手等多個(gè)場景。

      此次開放的文生圖能力便是騰訊混元大模型帶給我們的最大驚喜,展示其在圖像自動生成領(lǐng)域的領(lǐng)先能力。當(dāng)然,騰訊混元文生圖也在逐漸進(jìn)化中,后續(xù)會開發(fā)更多文生圖相關(guān)以及圖生圖功能。我們可以狠狠期待一波了。

      目前,混元文生圖能力已經(jīng)嵌入到了騰訊廣告場景中,比如生成商品廣告或廣告配圖。在廣告業(yè)務(wù)下的多輪測評中,騰訊混元文生圖的案例優(yōu)秀率和廣告主采納率分別達(dá)到86% 和26%,均高于同類模型。

      我們先來看下面這個(gè)示例,要求混元大模型生成一個(gè)酒店房間。從效果來看,升級后混元文生圖效果明顯更好,設(shè)計(jì)感、品質(zhì)感提升很大,細(xì)節(jié)更加豐富。即使與 Midjourney 比較一番,效果也不相上下。

      人物類生成場景也有類似的效果。升級后混元生成的人像真實(shí)感更強(qiáng),比如面部膚色、皺紋等細(xì)節(jié)。

      廣告場景之外,騰訊內(nèi)部還在不斷探索其他文生圖的需求場景,比如游戲場景中生成游戲元素和游戲角色、內(nèi)容場景中生成小說配圖、插圖,云業(yè)務(wù)場景中將混元能力開放給不同行業(yè)的客戶。

      大浪淘沙,再強(qiáng)悍的模型,也要讓更多人用上并持續(xù)獲得反饋,才有可能百尺竿頭更進(jìn)一步。

      可以預(yù)見,未來騰訊產(chǎn)品中將迎來混元文生圖能力的大爆發(fā),用戶也將體驗(yàn)更多 AIGC 帶來的魅力。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。