穩(wěn)扎穩(wěn)打,中影光峰4K 14米 VLED LED電影屏通過DCI認(rèn)證并投入市場(chǎng)安吉爾空間大師亮相IFA 斬獲年度創(chuàng)新產(chǎn)品成果大獎(jiǎng)電動(dòng)自行車強(qiáng)制性“國(guó)標(biāo)”再修訂,綠源電動(dòng)車以創(chuàng)新技術(shù)引領(lǐng)產(chǎn)業(yè)高質(zhì)量發(fā)展輕松籌:十年深耕大健康領(lǐng)域,打造全方位健康保障生態(tài)面對(duì)承壓的小家電市場(chǎng),小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營(yíng)收比超5%,科沃斯、石頭科技升高技術(shù)壁壘激光顯示全面“向新”發(fā)展,未來激光電視主機(jī)僅有iPad大小2024年冷年空調(diào)市場(chǎng)總結(jié):規(guī)模下探,結(jié)構(gòu)降級(jí),空調(diào)行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學(xué)能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經(jīng)典配色!索尼發(fā)布30周年紀(jì)念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動(dòng)能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機(jī)型蓄勢(shì)待發(fā)云天勵(lì)飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充FF發(fā)布第二品牌Faraday X:對(duì)標(biāo)豐田 專注增程式混動(dòng)車型黑神話悟空總收入超67億:銷量已超2000萬份通快成立激光業(yè)務(wù)區(qū)域中心(中國(guó)),強(qiáng)勢(shì)布局中國(guó)市場(chǎng)
  • 首頁 > 云計(jì)算頻道 > 大模型

    日均tokens使用量超5000億,AI生圖玩法猛猛上新:豆包大模型為什么越來越「香」了?

    2024年07月29日 16:05:47   來源:機(jī)器之心公眾號(hào)

      2024年的 AI 圖像生成技術(shù),又提升到了一個(gè)新高度。

      技術(shù)的飛速迭代,讓這一領(lǐng)域的商業(yè)化落地進(jìn)入加速階段。前有 Midjourney v6史詩級(jí)更新,后有開源巨頭 Stable Diffusion3獨(dú)領(lǐng)風(fēng)騷,而 DALL・E3背靠 ChatGPT 這棵「大樹」,也收獲了眾多用戶的關(guān)注。

      當(dāng)然了,在這條賽道上,來自國(guó)內(nèi)的選手毫不遜色。

      近日,國(guó)產(chǎn)大模型「頂流」—— 字節(jié)跳動(dòng)豆包大模型,迎來一場(chǎng)集中放送:

      在2024火山引擎 AI 創(chuàng)新巡展成都站活動(dòng)上,豆包大模型團(tuán)隊(duì)公布了豆包大模型的最新進(jìn)展,以及文生圖模型、語音模型等垂直模型的新升級(jí)。

      與此同時(shí),豆包大模型家族的最新成員 ——「豆包・圖生圖模型」正式面世,一口氣上新了50多項(xiàng)玩法。

      作為國(guó)產(chǎn)大模型中的實(shí)力之作,豆包大模型在今年5月通過火山引擎正式對(duì)外提供服務(wù)。盡管入場(chǎng)時(shí)間不是最早,但今天的豆包大模型已經(jīng)是國(guó)內(nèi)使用量最大、應(yīng)用場(chǎng)景最豐富的大模型之一。

      這場(chǎng)活動(dòng)中,火山引擎還透露了一個(gè)數(shù)字:截至2024年7月,豆包大模型的日均 tokens 使用量已經(jīng)超過5000億。

      與此同時(shí),豆包大模型的技術(shù)實(shí)力在短時(shí)間內(nèi)也經(jīng)歷了多次迭代。在多個(gè)公開評(píng)測(cè)集以及專業(yè)的第三方評(píng)測(cè)中,豆包通用模型 pro 均表現(xiàn)出眾,是得分最高的國(guó)產(chǎn)大模型。

      至于豆包大模型的「功力」究竟練到了哪一層?我們不妨體驗(yàn)一把再下結(jié)論。

      國(guó)產(chǎn) AI 猛猛上新

      豆包大模型為什么能俘獲用戶的心?

      我們就從剛剛更新的圖像生成方面來考驗(yàn)一下豆包大模型。對(duì) AIGC 應(yīng)用接觸比較多的用戶可能都有一個(gè)感受:AI 圖像生成類產(chǎn)品越來越卷,彼此之間也越來越難拉開差距。

      這種直觀感受的變化,幾乎能完全對(duì)應(yīng)上底層技術(shù)的演進(jìn)節(jié)點(diǎn)。與一些早期 GAN 模型的生成水準(zhǔn)相比,如今的圖像生成質(zhì)量已經(jīng)讓大部分人覺得「真假難辨」。在這個(gè)過程中,學(xué)界和業(yè)界對(duì)圖像生成質(zhì)量的評(píng)估維度也發(fā)生了巨大變化:像 FID Score 這樣的指標(biāo)已經(jīng)不足以全面反映模型能力,人類評(píng)估成為了評(píng)估圖像生成質(zhì)量的黃金標(biāo)準(zhǔn)。盡管經(jīng)濟(jì)和時(shí)間成本更高,但這種方式可以提供更加細(xì)微且可解釋的感知反饋。

      以「文生圖」方向?yàn)槔,現(xiàn)階段的目標(biāo)可以總結(jié)為對(duì)綜合維度的全面提升,具體可拆分為圖像美感、圖文一致性、內(nèi)容創(chuàng)造、復(fù)雜度適應(yīng)性四個(gè)維度。在這幾方面,豆包・文生圖都達(dá)到了業(yè)界較高水準(zhǔn)。

      在用戶感受最強(qiáng)烈的「圖文匹配」維度上,豆包・文生圖模型不斷進(jìn)化,比如很好地理解多數(shù)量主體、主客體關(guān)系、人物構(gòu)造和空間構(gòu)造等信息:

      Prompt:古代日本鬼機(jī)甲、中國(guó)朋克、太空歌劇、科幻小說、古代未來主義、神秘、明亮、不對(duì)稱密集構(gòu)圖、32k 超高清、電影光、氣氛光、電影、柔和的調(diào)色板、超現(xiàn)實(shí)、自由度、自然體積光。

      而在「畫面效果美感」層面,豆包・文生圖模型非常善于從光影明暗、氛圍色彩和人物美感方面進(jìn)行畫面質(zhì)感提升:

      Prompt:OC 渲染,3D 設(shè)計(jì),長(zhǎng)發(fā)小女孩,人臉朝著鏡頭,中心構(gòu)圖,帽子上長(zhǎng)滿鮮花,輪廓清晰,面部細(xì)節(jié)放大,帽子細(xì)節(jié)放大,畫質(zhì)高清,超清畫質(zhì),深景深,背景是花海

      此外,作為國(guó)產(chǎn) AI 精品之作,面對(duì)中國(guó)人物、物品、朝代、美食、藝術(shù)風(fēng)格等元素,豆包・文生圖模型也展現(xiàn)出了更加深刻的理解力。

      Prompt:超寫實(shí)畫風(fēng),唐代,長(zhǎng)安,元宵節(jié)夜市,唐代侍女,燈火輝煌,細(xì)節(jié)完美,特寫,熱鬧非凡,超高清,4K

      Prompt:國(guó)風(fēng)水墨繪畫,點(diǎn)彩、肌理磨砂、陳家泠、大面留白的構(gòu)圖,高清16k故宮遠(yuǎn)景,雪景、流暢建筑結(jié)構(gòu),層次,白色主色,淡雅

      基于雙語大模型文本編碼器,豆包・文生圖模型對(duì)英文 Pormpt 的理解同樣精準(zhǔn):

      Prompt:butterfly candle, in the style of y2k aesthetic, pop-culture-infused, jewelry by painters and sculptors, text and emoji installations, money themed, playful animation, humble charm

      Prompt:World of Warcraft, outdoor scene, green grassland with a river flowing through it, rocky cliffside with a cave entrance, a small wooden bridge over the waterway, lush trees and wildflowers on both sides of the stream, white clouds in a blue sky, fantasy landscape concept art style, game illustration design, concept design for world building, concept art in the style of game illustration design,3D

      不久之后,豆包・文生圖模型還將升級(jí)到2.0版本。豆包視覺團(tuán)隊(duì)表示,新版本將比當(dāng)前模型的生成效果有40% 的提升,對(duì)比當(dāng)前版本,圖文一致性和美感會(huì)有大幅提升。

      與文生圖略有不同,在圖像美感和結(jié)構(gòu)等因素之外,圖生圖更算是一種應(yīng)用模型,質(zhì)量評(píng)估更加關(guān)注「一致性」和「相似度」兩個(gè)維度。豆包・圖生圖模型的能力涵蓋「AI 寫真」、「圖像風(fēng)格化」、「擴(kuò)圖 / 局部重繪」三個(gè)主要方向,共提供了50余種風(fēng)格玩法。

      「AI 寫真」算是以圖生圖方向中使用頻率非常高的一種玩法,豆包・圖生圖模型的一大亮點(diǎn)是高度還原人物特征,能夠精準(zhǔn)捕捉輪廓、表情、姿態(tài)等多維特征,輕松生成定制化寫真:

      豆包・圖生圖模型還能具備優(yōu)秀的圖片擴(kuò)展、局部重繪和涂抹能力,在邏輯合理的前提下,還能充滿想象力。

      比如在下方的任務(wù)中,用戶想要實(shí)現(xiàn)自然的局部消除,豆包・圖生圖模型生成結(jié)果也做到了平滑過渡:

      對(duì)于只想局部進(jìn)行重繪的需求,豆包・圖生圖模型能夠精準(zhǔn)修改圖像局部?jī)?nèi)容,無縫融合原有畫面。比如將粉色外套改為藍(lán)色牛仔外套:

      面對(duì)下方的人物照背景擴(kuò)圖任務(wù),豆包・圖生圖模型給出的結(jié)果,實(shí)現(xiàn)了良好的景觀結(jié)構(gòu)及光線保持:

      豆包大模型,如何躋身圖像生成賽道上游?

      感受完這一波 Demo,我們好奇:是從什么時(shí)候開始,豆包大模型在圖像生成方面有了這么深厚的實(shí)力?

      兩年前,Stable Diffusion 的橫空出世,宣告了 AIGC 時(shí)代的正式開啟。隨后,AI 社區(qū)形成了巨大的迭代效應(yīng),基于各個(gè)版本 Stable Diffusion 開源模型的 AI 圖像生成工具被迅速創(chuàng)造出來,不斷刷新生成質(zhì)量和速度的上限。

      不到半年后,DiT 架構(gòu)的提出,驗(yàn)證了 Scaling Law 在圖像生成領(lǐng)域同樣成立。越來越多的研究選擇用 Transformer 替代傳統(tǒng)的 U-Net,讓擴(kuò)散模型繼承了其他領(lǐng)域的最佳實(shí)踐和訓(xùn)練方法,增強(qiáng)了圖像生成模型的可擴(kuò)展性、魯棒性和效率,還提高了對(duì)文字提示的理解能力和圖像生成質(zhì)量,有效增加了定制化、生成內(nèi)容可控性方面的優(yōu)勢(shì)。

      早在豆包大模型誕生前的幾年,字節(jié)跳動(dòng)就開始關(guān)注圖像生成相關(guān)技術(shù),近兩年更是持續(xù)增加這方面的研發(fā)投入,保持著創(chuàng)新成果的高頻產(chǎn)出。這也是為什么豆包大模型一經(jīng)面世,就可以驚艷所有人。

      Scaling Law 被驗(yàn)證帶來的另外一個(gè)啟示是,算力基礎(chǔ)提升、訓(xùn)練數(shù)據(jù)增加、數(shù)據(jù)質(zhì)量改善成為了圖像生成模型能力提升的關(guān)鍵因素。在這些方面,字節(jié)跳動(dòng)自研的豆包大模型在圖像生成能力進(jìn)化上具備天然優(yōu)勢(shì)。

      但 Stable Diffusion 模型的訓(xùn)練和推理仍然是一個(gè)復(fù)雜且耗時(shí)的過程,比如,擴(kuò)散模型在推理過程中天然存在的多步數(shù)迭代去噪特性會(huì)導(dǎo)致較高的計(jì)算成本。如何在提升生成質(zhì)量的同時(shí)加快速度,成為了圖像生成領(lǐng)域的關(guān)鍵問題。

      豆包視覺團(tuán)隊(duì)提出了多項(xiàng)創(chuàng)新成果,從不同的維度嘗試解決這個(gè)難題,并將這些成果開放給了 AI 社區(qū)。

      一項(xiàng)代表性的成果是Hyber-SD,這是一種新穎的擴(kuò)散模型蒸餾框架,在壓縮去噪步數(shù)的同時(shí)可保持接近無損的性能,在 SDXL 和 SD1.5兩種架構(gòu)上都能在1到8步內(nèi)生成中實(shí)現(xiàn) SOTA 級(jí)別的圖像生成。(https://huggingface.co/ByteDance/Hyper-SD)

      另外一項(xiàng)研究SDXL- Lightning則通過一種名為「漸進(jìn)式對(duì)抗蒸餾」(Progressive Adversarial Distillation)的創(chuàng)新技術(shù),實(shí)現(xiàn)了生成質(zhì)量和生成速度的雙重提升:僅需短短2步或4步,模型就能生成極高質(zhì)量和分辨率的圖像,將計(jì)算和時(shí)間成本降低了十倍,而且能在實(shí)現(xiàn)更高分辨率和更佳細(xì)節(jié)的同時(shí)保持良好的多樣性和圖文匹配度。(https://huggingface.co/ByteDance/SDXL-Lightning)

      同時(shí),豆包視覺團(tuán)隊(duì)還提出了一個(gè)利用反饋學(xué)習(xí)全面增強(qiáng)擴(kuò)散模型的統(tǒng)一框架UniFL。通過整合感知、解耦和對(duì)抗性反饋學(xué)習(xí),這個(gè)框架不僅在生成質(zhì)量和推理加速方面表現(xiàn)優(yōu)秀,還在 LoRA、ControlNet、AnimateDiff 等各類下游任務(wù)中展現(xiàn)出了很好的泛化能力。(https://arxiv.org/pdf/2404.05595)

      眾所周知,Stable Diffusion 的核心功能是從文本生成圖像,而 ControlNet、Adapter 等技術(shù)的融合,能夠在保留部分圖像信息的同時(shí)添加一些額外控制條件,引導(dǎo)生成與給定參考圖像「相似」的結(jié)果。這些技術(shù)的融合演變出了我們今天見到的各項(xiàng)「圖生圖」功能,并進(jìn)一步消除了 AI 圖像生成技術(shù)的商用門檻。

      在這方面,豆包視覺團(tuán)隊(duì)同樣有深厚技術(shù)積累,僅今年就在國(guó)際計(jì)算機(jī)視覺頂會(huì) CVPR 中發(fā)表了十多篇論文,提出了數(shù)十項(xiàng)相關(guān)專利。

      針對(duì)圖像Inpaint/Outpaint問題,豆包視覺團(tuán)隊(duì)提出了ByteEdit。關(guān)鍵創(chuàng)新包括三點(diǎn):首先,增大訓(xùn)練數(shù)據(jù)量級(jí),兼容自然圖像輸入、mask 輸入、無 prompt 輸入,讓模型「看到」更多泛化場(chǎng)景;其次,引入一致性獎(jiǎng)勵(lì)模型,重點(diǎn)提升生成結(jié)果一致性,讓希望填充的區(qū)域和非填充區(qū)域更加的和諧;然后,引入漸進(jìn)式的分階段對(duì)抗訓(xùn)練策略,在不損失模型性能條件下實(shí)現(xiàn)速度的提升。(https://byte-edit.github.io)

      針對(duì)ID 保持,豆包視覺團(tuán)隊(duì)提出了PuLID,通過引入一個(gè)新的訓(xùn)練分支,在訓(xùn)練中加入了對(duì)比對(duì)齊損失和更精確的 ID 損失,讓 ID 適配器學(xué)習(xí)如何在注入的 ID 信息的同時(shí),減少對(duì)原模型行為的破壞,從而在保證較高 ID 相似度的同時(shí),兼顧編輯能力、風(fēng)格化能力以及畫面質(zhì)量等方面的效果。(https://www.hub.com/ToTheBeginning/PuLID)

      針對(duì)IP 保持,豆包視覺團(tuán)隊(duì)提出了一種「參考圖 IP - 文本」解耦控制的通用場(chǎng)景 IP 定制化生成方法RealCustom,對(duì)于任意開放域物體或人物 IP 均可實(shí)現(xiàn)無需微調(diào)的實(shí)時(shí)定制化生成。(https://corleone-huang.github.io/realcustom/)

      「更強(qiáng)模型、更低價(jià)格、更易落地」

      短短兩年內(nèi),AI 在圖像生成上的持續(xù)進(jìn)步,打破了長(zhǎng)期存在的專業(yè)門檻,讓任何人都可以創(chuàng)造出高質(zhì)量的視覺作品,帶來了一場(chǎng)前所未有的革命。豆包大模型的圖像生成能力,已經(jīng)為字節(jié)跳動(dòng)旗下多個(gè)應(yīng)用提供技術(shù)支持,包括抖音、剪映、醒圖、即夢(mèng)、豆包、星繪。對(duì)于大眾來說,AIGC 已經(jīng)實(shí)實(shí)在在地改變了生活。

      但從企業(yè)用戶的角度來說,這些最前沿的技術(shù)仍然存在一些應(yīng)用壁壘,涉及數(shù)據(jù)、人才、算力等多方面因素。對(duì)于各行各業(yè)的用戶來說,即使有了強(qiáng)大的開源模型可供選擇,也需要解決計(jì)算資源、專業(yè)知識(shí)、模型微調(diào)等方面的挑戰(zhàn)。

      成本的全方位降低,才是推動(dòng)大模型真正實(shí)現(xiàn)價(jià)值創(chuàng)造的關(guān)鍵因素。

      自發(fā)布以來,豆包大模型正在通過火山引擎源源不斷地向千行百業(yè)輸出技術(shù)能力,推動(dòng)大模型技術(shù)實(shí)現(xiàn)更廣泛深入的行業(yè)落地。

      目前,包括豆包・文生圖模型和豆包・圖生圖模型在內(nèi),豆包大模型家族的成員數(shù)量已經(jīng)達(dá)到了10個(gè)。這些針對(duì)應(yīng)用場(chǎng)景細(xì)分的模型都會(huì)上線火山方舟,開放給火山引擎的眾多企業(yè)客戶合作共創(chuàng)。

      飛速增長(zhǎng)的使用量,也在幫助豆包大模型持續(xù)打磨自身能力。自2024年5月15日豆包大模型發(fā)布至今,短短兩個(gè)月內(nèi),平均每家企業(yè)客戶的日均 tokens 使用量已經(jīng)增長(zhǎng)了22倍。

      豆包大模型家族「集體照」。

      同時(shí),火山引擎提供了更豐富的核心插件、更強(qiáng)大的系統(tǒng)性能以及更優(yōu)質(zhì)的平臺(tái)體驗(yàn),企業(yè)可根據(jù)自身業(yè)務(wù)場(chǎng)景需求靈活選擇、快速落地。比如,依靠豆包・圖生圖模型,客戶利用幾張圖片即可訓(xùn)練專屬的數(shù)字分身。

      在很多情況下,價(jià)格仍然是客戶的首要考慮因素;鹕揭嬲锹氏葘⒆顝(qiáng)模型版本降價(jià)的行業(yè)先行者,以更強(qiáng)模型、更低價(jià)格滿足企業(yè)復(fù)雜業(yè)務(wù)場(chǎng)景需求,真正推動(dòng)大模型落地。

      憑借充沛 GPU 算力資源池,并通過潮汐、混部等方式,實(shí)現(xiàn)資源的高利用率和極致降低成本,即使是在大模型價(jià)格戰(zhàn)越來越激烈的未來,火山引擎所提供的大模型服務(wù)仍然保持著絕對(duì)吸引力。

      中國(guó)公司正在開啟大模型競(jìng)爭(zhēng)的下一章

      轟轟烈烈的百模大戰(zhàn)之后,海內(nèi)外的大模型快速涌現(xiàn)。盡管有 OpenAI 等一系列強(qiáng)大的競(jìng)爭(zhēng)對(duì)手,但豆包大模型還是殺出了自己的一條路。

      過去一段時(shí)間,人們喜歡談?wù)搰?guó)產(chǎn)大模型技術(shù)的追趕。從「追趕」到「媲美」,很多中國(guó)團(tuán)隊(duì)只用了一年、半年時(shí)間,這其中也包括豆包大模型團(tuán)隊(duì)。

      短時(shí)間內(nèi)躋身圖像生成這條賽道的上游,與豆包大模型團(tuán)隊(duì)在研發(fā)和人才方面的投入密不可分。近幾年,越來越多頂尖大模型人才的加入,純粹極致的技術(shù)研究氛圍,大規(guī)模的研發(fā)資源投入,都是成就豆包這一國(guó)產(chǎn)大模型代表作的重要因素。

      特別是在應(yīng)用場(chǎng)景優(yōu)勢(shì)的加持下,當(dāng)大模型被「用起來」的這天,人們看到了中國(guó)大模型走進(jìn)千行百業(yè)時(shí)的充足「后勁」。

      可以期待的是,大模型這條賽道的競(jìng)爭(zhēng)正在開啟新篇章,而在新的章節(jié)里,國(guó)產(chǎn)大模型將有機(jī)會(huì)書寫更加濃墨重彩的一筆。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。