日均tokens使用量超5000億，AI生圖玩法猛猛上新：豆包大模型為什么越來越「香」了？

2024年07月29日 16:05:47 來源：機(jī)器之心公眾號

　　2024年的 AI 圖像生成技術(shù)，又提升到了一個新高度。

　　技術(shù)的飛速迭代，讓這一領(lǐng)域的商業(yè)化落地進(jìn)入加速階段。前有 Midjourney v6史詩級更新，后有開源巨頭 Stable Diffusion3獨(dú)領(lǐng)風(fēng)騷，而 DALL・E3背靠 ChatGPT 這棵「大樹」，也收獲了眾多用戶的關(guān)注。

　　當(dāng)然了，在這條賽道上，來自國內(nèi)的選手毫不遜色。

　　近日，國產(chǎn)大模型「頂流」—— 字節(jié)跳動豆包大模型，迎來一場集中放送:

　　在2024火山引擎 AI 創(chuàng)新巡展成都站活動上，豆包大模型團(tuán)隊(duì)公布了豆包大模型的最新進(jìn)展，以及文生圖模型、語音模型等垂直模型的新升級。

　　與此同時，豆包大模型家族的最新成員 ——「豆包・圖生圖模型」正式面世，一口氣上新了50多項(xiàng)玩法。

　　作為國產(chǎn)大模型中的實(shí)力之作，豆包大模型在今年5月通過火山引擎正式對外提供服務(wù)。盡管入場時間不是最早，但今天的豆包大模型已經(jīng)是國內(nèi)使用量最大、應(yīng)用場景最豐富的大模型之一。

　　這場活動中，火山引擎還透露了一個數(shù)字:截至2024年7月，豆包大模型的日均 tokens 使用量已經(jīng)超過5000億。

　　與此同時，豆包大模型的技術(shù)實(shí)力在短時間內(nèi)也經(jīng)歷了多次迭代。在多個公開評測集以及專業(yè)的第三方評測中，豆包通用模型 pro 均表現(xiàn)出眾，是得分最高的國產(chǎn)大模型。

　　至于豆包大模型的「功力」究竟練到了哪一層?我們不妨體驗(yàn)一把再下結(jié)論。

　　國產(chǎn) AI 猛猛上新

　　豆包大模型為什么能俘獲用戶的心?

　　我們就從剛剛更新的圖像生成方面來考驗(yàn)一下豆包大模型。對 AIGC 應(yīng)用接觸比較多的用戶可能都有一個感受:AI 圖像生成類產(chǎn)品越來越卷，彼此之間也越來越難拉開差距。

　　這種直觀感受的變化，幾乎能完全對應(yīng)上底層技術(shù)的演進(jìn)節(jié)點(diǎn)。與一些早期 GAN 模型的生成水準(zhǔn)相比，如今的圖像生成質(zhì)量已經(jīng)讓大部分人覺得「真假難辨」。在這個過程中，學(xué)界和業(yè)界對圖像生成質(zhì)量的評估維度也發(fā)生了巨大變化:像 FID Score 這樣的指標(biāo)已經(jīng)不足以全面反映模型能力，人類評估成為了評估圖像生成質(zhì)量的黃金標(biāo)準(zhǔn)。盡管經(jīng)濟(jì)和時間成本更高，但這種方式可以提供更加細(xì)微且可解釋的感知反饋。

　　以「文生圖」方向?yàn)槔�，現(xiàn)階段的目標(biāo)可以總結(jié)為對綜合維度的全面提升，具體可拆分為圖像美感、圖文一致性、內(nèi)容創(chuàng)造、復(fù)雜度適應(yīng)性四個維度。在這幾方面，豆包・文生圖都達(dá)到了業(yè)界較高水準(zhǔn)。

　　在用戶感受最強(qiáng)烈的「圖文匹配」維度上，豆包・文生圖模型不斷進(jìn)化，比如很好地理解多數(shù)量主體、主客體關(guān)系、人物構(gòu)造和空間構(gòu)造等信息:

　　Prompt:古代日本鬼機(jī)甲、中國朋克、太空歌劇、科幻小說、古代未來主義、神秘、明亮、不對稱密集構(gòu)圖、32k 超高清、電影光、氣氛光、電影、柔和的調(diào)色板、超現(xiàn)實(shí)、自由度、自然體積光。

　　而在「畫面效果美感」層面，豆包・文生圖模型非常善于從光影明暗、氛圍色彩和人物美感方面進(jìn)行畫面質(zhì)感提升:

　　Prompt:OC 渲染，3D 設(shè)計(jì)，長發(fā)小女孩，人臉朝著鏡頭，中心構(gòu)圖，帽子上長滿鮮花，輪廓清晰，面部細(xì)節(jié)放大，帽子細(xì)節(jié)放大，畫質(zhì)高清，超清畫質(zhì)，深景深，背景是花海

　　此外，作為國產(chǎn) AI 精品之作，面對中國人物、物品、朝代、美食、藝術(shù)風(fēng)格等元素，豆包・文生圖模型也展現(xiàn)出了更加深刻的理解力。

　　Prompt:超寫實(shí)畫風(fēng)，唐代，長安，元宵節(jié)夜市，唐代侍女，燈火輝煌，細(xì)節(jié)完美，特寫，熱鬧非凡，超高清，4K

　　Prompt:國風(fēng)水墨繪畫，點(diǎn)彩、肌理磨砂、陳家泠、大面留白的構(gòu)圖，高清16k故宮遠(yuǎn)景，雪景、流暢建筑結(jié)構(gòu)，層次，白色主色，淡雅

　　基于雙語大模型文本編碼器，豆包・文生圖模型對英文 Pormpt 的理解同樣精準(zhǔn):

　　Prompt:butterfly candle， in the style of y2k aesthetic， pop-culture-infused， jewelry by painters and sculptors， text and emoji installations， money themed， playful animation， humble charm

　　Prompt:World of Warcraft， outdoor scene， green grassland with a river flowing through it， rocky cliffside with a cave entrance， a small wooden bridge over the waterway， lush trees and wildflowers on both sides of the stream， white clouds in a blue sky， fantasy landscape concept art style， game illustration design， concept design for world building， concept art in the style of game illustration design，3D

　　不久之后，豆包・文生圖模型還將升級到2.0版本。豆包視覺團(tuán)隊(duì)表示，新版本將比當(dāng)前模型的生成效果有40% 的提升，對比當(dāng)前版本，圖文一致性和美感會有大幅提升。

　　與文生圖略有不同，在圖像美感和結(jié)構(gòu)等因素之外，圖生圖更算是一種應(yīng)用模型，質(zhì)量評估更加關(guān)注「一致性」和「相似度」兩個維度。豆包・圖生圖模型的能力涵蓋「AI 寫真」、「圖像風(fēng)格化」、「擴(kuò)圖 / 局部重繪」三個主要方向，共提供了50余種風(fēng)格玩法。

　　「AI 寫真」算是以圖生圖方向中使用頻率非常高的一種玩法，豆包・圖生圖模型的一大亮點(diǎn)是高度還原人物特征，能夠精準(zhǔn)捕捉輪廓、表情、姿態(tài)等多維特征，輕松生成定制化寫真:

　　豆包・圖生圖模型還能具備優(yōu)秀的圖片擴(kuò)展、局部重繪和涂抹能力，在邏輯合理的前提下，還能充滿想象力。

　　比如在下方的任務(wù)中，用戶想要實(shí)現(xiàn)自然的局部消除，豆包・圖生圖模型生成結(jié)果也做到了平滑過渡:

　　對于只想局部進(jìn)行重繪的需求，豆包・圖生圖模型能夠精準(zhǔn)修改圖像局部內(nèi)容，無縫融合原有畫面。比如將粉色外套改為藍(lán)色牛仔外套:

　　面對下方的人物照背景擴(kuò)圖任務(wù)，豆包・圖生圖模型給出的結(jié)果，實(shí)現(xiàn)了良好的景觀結(jié)構(gòu)及光線保持:

　　豆包大模型，如何躋身圖像生成賽道上游?

　　感受完這一波 Demo，我們好奇:是從什么時候開始，豆包大模型在圖像生成方面有了這么深厚的實(shí)力?

　　兩年前，Stable Diffusion 的橫空出世，宣告了 AIGC 時代的正式開啟。隨后，AI 社區(qū)形成了巨大的迭代效應(yīng)，基于各個版本 Stable Diffusion 開源模型的 AI 圖像生成工具被迅速創(chuàng)造出來，不斷刷新生成質(zhì)量和速度的上限。

　　不到半年后，DiT 架構(gòu)的提出，驗(yàn)證了 Scaling Law 在圖像生成領(lǐng)域同樣成立。越來越多的研究選擇用 Transformer 替代傳統(tǒng)的 U-Net，讓擴(kuò)散模型繼承了其他領(lǐng)域的最佳實(shí)踐和訓(xùn)練方法，增強(qiáng)了圖像生成模型的可擴(kuò)展性、魯棒性和效率，還提高了對文字提示的理解能力和圖像生成質(zhì)量，有效增加了定制化、生成內(nèi)容可控性方面的優(yōu)勢。

　　早在豆包大模型誕生前的幾年，字節(jié)跳動就開始關(guān)注圖像生成相關(guān)技術(shù)，近兩年更是持續(xù)增加這方面的研發(fā)投入，保持著創(chuàng)新成果的高頻產(chǎn)出。這也是為什么豆包大模型一經(jīng)面世，就可以驚艷所有人。

　　Scaling Law 被驗(yàn)證帶來的另外一個啟示是，算力基礎(chǔ)提升、訓(xùn)練數(shù)據(jù)增加、數(shù)據(jù)質(zhì)量改善成為了圖像生成模型能力提升的關(guān)鍵因素。在這些方面，字節(jié)跳動自研的豆包大模型在圖像生成能力進(jìn)化上具備天然優(yōu)勢。

　　但 Stable Diffusion 模型的訓(xùn)練和推理仍然是一個復(fù)雜且耗時的過程，比如，擴(kuò)散模型在推理過程中天然存在的多步數(shù)迭代去噪特性會導(dǎo)致較高的計(jì)算成本。如何在提升生成質(zhì)量的同時加快速度，成為了圖像生成領(lǐng)域的關(guān)鍵問題。

　　豆包視覺團(tuán)隊(duì)提出了多項(xiàng)創(chuàng)新成果，從不同的維度嘗試解決這個難題，并將這些成果開放給了 AI 社區(qū)。

　　一項(xiàng)代表性的成果是Hyber-SD，這是一種新穎的擴(kuò)散模型蒸餾框架，在壓縮去噪步數(shù)的同時可保持接近無損的性能，在 SDXL 和 SD1.5兩種架構(gòu)上都能在1到8步內(nèi)生成中實(shí)現(xiàn) SOTA 級別的圖像生成。（https://huggingface.co/ByteDance/Hyper-SD）

　　另外一項(xiàng)研究SDXL- Lightning則通過一種名為「漸進(jìn)式對抗蒸餾」(Progressive Adversarial Distillation)的創(chuàng)新技術(shù)，實(shí)現(xiàn)了生成質(zhì)量和生成速度的雙重提升:僅需短短2步或4步，模型就能生成極高質(zhì)量和分辨率的圖像，將計(jì)算和時間成本降低了十倍，而且能在實(shí)現(xiàn)更高分辨率和更佳細(xì)節(jié)的同時保持良好的多樣性和圖文匹配度。（https://huggingface.co/ByteDance/SDXL-Lightning）

　　同時，豆包視覺團(tuán)隊(duì)還提出了一個利用反饋學(xué)習(xí)全面增強(qiáng)擴(kuò)散模型的統(tǒng)一框架UniFL。通過整合感知、解耦和對抗性反饋學(xué)習(xí)，這個框架不僅在生成質(zhì)量和推理加速方面表現(xiàn)優(yōu)秀，還在 LoRA、ControlNet、AnimateDiff 等各類下游任務(wù)中展現(xiàn)出了很好的泛化能力。（https://arxiv.org/pdf/2404.05595）

　　眾所周知，Stable Diffusion 的核心功能是從文本生成圖像，而 ControlNet、Adapter 等技術(shù)的融合，能夠在保留部分圖像信息的同時添加一些額外控制條件，引導(dǎo)生成與給定參考圖像「相似」的結(jié)果。這些技術(shù)的融合演變出了我們今天見到的各項(xiàng)「圖生圖」功能，并進(jìn)一步消除了 AI 圖像生成技術(shù)的商用門檻。

　　在這方面，豆包視覺團(tuán)隊(duì)同樣有深厚技術(shù)積累，僅今年就在國際計(jì)算機(jī)視覺頂會 CVPR 中發(fā)表了十多篇論文，提出了數(shù)十項(xiàng)相關(guān)專利。

　　針對圖像Inpaint/Outpaint問題，豆包視覺團(tuán)隊(duì)提出了ByteEdit。關(guān)鍵創(chuàng)新包括三點(diǎn):首先，增大訓(xùn)練數(shù)據(jù)量級，兼容自然圖像輸入、mask 輸入、無 prompt 輸入，讓模型「看到」更多泛化場景;其次，引入一致性獎勵模型，重點(diǎn)提升生成結(jié)果一致性，讓希望填充的區(qū)域和非填充區(qū)域更加的和諧;然后，引入漸進(jìn)式的分階段對抗訓(xùn)練策略，在不損失模型性能條件下實(shí)現(xiàn)速度的提升。（https://byte-edit.github.io）

　　針對ID 保持，豆包視覺團(tuán)隊(duì)提出了PuLID，通過引入一個新的訓(xùn)練分支，在訓(xùn)練中加入了對比對齊損失和更精確的 ID 損失，讓 ID 適配器學(xué)習(xí)如何在注入的 ID 信息的同時，減少對原模型行為的破壞，從而在保證較高 ID 相似度的同時，兼顧編輯能力、風(fēng)格化能力以及畫面質(zhì)量等方面的效果。（https://www.hub.com/ToTheBeginning/PuLID）

　　針對IP 保持，豆包視覺團(tuán)隊(duì)提出了一種「參考圖 IP - 文本」解耦控制的通用場景 IP 定制化生成方法RealCustom，對于任意開放域物體或人物 IP 均可實(shí)現(xiàn)無需微調(diào)的實(shí)時定制化生成。（https://corleone-huang.github.io/realcustom/）

　　「更強(qiáng)模型、更低價格、更易落地」

　　短短兩年內(nèi)，AI 在圖像生成上的持續(xù)進(jìn)步，打破了長期存在的專業(yè)門檻，讓任何人都可以創(chuàng)造出高質(zhì)量的視覺作品，帶來了一場前所未有的革命。豆包大模型的圖像生成能力，已經(jīng)為字節(jié)跳動旗下多個應(yīng)用提供技術(shù)支持，包括抖音、剪映、醒圖、即夢、豆包、星繪。對于大眾來說，AIGC 已經(jīng)實(shí)實(shí)在在地改變了生活。

　　但從企業(yè)用戶的角度來說，這些最前沿的技術(shù)仍然存在一些應(yīng)用壁壘，涉及數(shù)據(jù)、人才、算力等多方面因素。對于各行各業(yè)的用戶來說，即使有了強(qiáng)大的開源模型可供選擇，也需要解決計(jì)算資源、專業(yè)知識、模型微調(diào)等方面的挑戰(zhàn)。

　　成本的全方位降低，才是推動大模型真正實(shí)現(xiàn)價值創(chuàng)造的關(guān)鍵因素。

　　自發(fā)布以來，豆包大模型正在通過火山引擎源源不斷地向千行百業(yè)輸出技術(shù)能力，推動大模型技術(shù)實(shí)現(xiàn)更廣泛深入的行業(yè)落地。

　　目前，包括豆包・文生圖模型和豆包・圖生圖模型在內(nèi)，豆包大模型家族的成員數(shù)量已經(jīng)達(dá)到了10個。這些針對應(yīng)用場景細(xì)分的模型都會上線火山方舟，開放給火山引擎的眾多企業(yè)客戶合作共創(chuàng)。

　　飛速增長的使用量，也在幫助豆包大模型持續(xù)打磨自身能力。自2024年5月15日豆包大模型發(fā)布至今，短短兩個月內(nèi)，平均每家企業(yè)客戶的日均 tokens 使用量已經(jīng)增長了22倍。

　　豆包大模型家族「集體照」。

　　同時，火山引擎提供了更豐富的核心插件、更強(qiáng)大的系統(tǒng)性能以及更優(yōu)質(zhì)的平臺體驗(yàn)，企業(yè)可根據(jù)自身業(yè)務(wù)場景需求靈活選擇、快速落地。比如，依靠豆包・圖生圖模型，客戶利用幾張圖片即可訓(xùn)練專屬的數(shù)字分身。

　　在很多情況下，價格仍然是客戶的首要考慮因素�；鹕揭嬲锹氏葘⒆顝�(qiáng)模型版本降價的行業(yè)先行者，以更強(qiáng)模型、更低價格滿足企業(yè)復(fù)雜業(yè)務(wù)場景需求，真正推動大模型落地。

　　憑借充沛 GPU 算力資源池，并通過潮汐、混部等方式，實(shí)現(xiàn)資源的高利用率和極致降低成本，即使是在大模型價格戰(zhàn)越來越激烈的未來，火山引擎所提供的大模型服務(wù)仍然保持著絕對吸引力。

　　中國公司正在開啟大模型競爭的下一章

　　轟轟烈烈的百模大戰(zhàn)之后，海內(nèi)外的大模型快速涌現(xiàn)。盡管有 OpenAI 等一系列強(qiáng)大的競爭對手，但豆包大模型還是殺出了自己的一條路。

　　過去一段時間，人們喜歡談?wù)搰a(chǎn)大模型技術(shù)的追趕。從「追趕」到「媲美」，很多中國團(tuán)隊(duì)只用了一年、半年時間，這其中也包括豆包大模型團(tuán)隊(duì)。

　　短時間內(nèi)躋身圖像生成這條賽道的上游，與豆包大模型團(tuán)隊(duì)在研發(fā)和人才方面的投入密不可分。近幾年，越來越多頂尖大模型人才的加入，純粹極致的技術(shù)研究氛圍，大規(guī)模的研發(fā)資源投入，都是成就豆包這一國產(chǎn)大模型代表作的重要因素。

　　特別是在應(yīng)用場景優(yōu)勢的加持下，當(dāng)大模型被「用起來」的這天，人們看到了中國大模型走進(jìn)千行百業(yè)時的充足「后勁」。

　　可以期待的是，大模型這條賽道的競爭正在開啟新篇章，而在新的章節(jié)里，國產(chǎn)大模型將有機(jī)會書寫更加濃墨重彩的一筆。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅(jiān)持質(zhì)價比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

日均tokens使用量超5000億，AI生圖玩法猛猛上新：豆包大模型為什么越來越「香」了？

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

日均tokens使用量超5000億，AI生圖玩法猛猛上新：豆包大模型為什么越來越「香」了？

擴(kuò)展閱讀

日均tokens使用量超5000億，AI生圖玩法猛猛上新：豆包大模型為什么越來越「香」了？