“客服來電”有詐?抖音客服上線“驗(yàn)證助手”助用戶識別詐騙OpenAI新模型GPT-5研發(fā)未達(dá)預(yù)期:成本高昂 效果不佳曝天馬打入果鏈:為蘋果HomePod供應(yīng)LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運(yùn)營商e&,展示全球首個固網(wǎng)游戲端到端網(wǎng)絡(luò)切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒放棄曲面屏開發(fā)!最新專利曝光暗示有望回歸三大運(yùn)營商11月成績單:用戶數(shù)據(jù)增幅放緩打造下一個英偉達(dá),孫正義的2026芯片計(jì)劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢AI時代云安全新范式,暢捷通智能守護(hù)小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強(qiáng)金融大模型 Baichuan4-Finance年末家電消費(fèi)觀察:品質(zhì)生活類產(chǎn)品熱賣,將持續(xù)迎來剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進(jìn)展新一代語言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型谷歌向投資者保證人工智能本月將迎來“驚人”表現(xiàn)多模態(tài)大模型引爆應(yīng)用場景 階躍星辰完成數(shù)億美元融資星動紀(jì)元發(fā)布端到端原生機(jī)器人大模型ERA-42 實(shí)現(xiàn)機(jī)器人復(fù)雜場景操作免費(fèi)模式強(qiáng)攻下,快手、抖音用“短劇VIP”反擊?
  • 首頁 > 云計(jì)算頻道 > 大模型

    日均tokens使用量超5000億,AI生圖玩法猛猛上新:豆包大模型為什么越來越「香」了?

    2024年07月29日 16:05:47   來源:機(jī)器之心公眾號

      2024年的 AI 圖像生成技術(shù),又提升到了一個新高度。

      技術(shù)的飛速迭代,讓這一領(lǐng)域的商業(yè)化落地進(jìn)入加速階段。前有 Midjourney v6史詩級更新,后有開源巨頭 Stable Diffusion3獨(dú)領(lǐng)風(fēng)騷,而 DALL・E3背靠 ChatGPT 這棵「大樹」,也收獲了眾多用戶的關(guān)注。

      當(dāng)然了,在這條賽道上,來自國內(nèi)的選手毫不遜色。

      近日,國產(chǎn)大模型「頂流」—— 字節(jié)跳動豆包大模型,迎來一場集中放送:

      在2024火山引擎 AI 創(chuàng)新巡展成都站活動上,豆包大模型團(tuán)隊(duì)公布了豆包大模型的最新進(jìn)展,以及文生圖模型、語音模型等垂直模型的新升級。

      與此同時,豆包大模型家族的最新成員 ——「豆包・圖生圖模型」正式面世,一口氣上新了50多項(xiàng)玩法。

      作為國產(chǎn)大模型中的實(shí)力之作,豆包大模型在今年5月通過火山引擎正式對外提供服務(wù)。盡管入場時間不是最早,但今天的豆包大模型已經(jīng)是國內(nèi)使用量最大、應(yīng)用場景最豐富的大模型之一。

      這場活動中,火山引擎還透露了一個數(shù)字:截至2024年7月,豆包大模型的日均 tokens 使用量已經(jīng)超過5000億。

      與此同時,豆包大模型的技術(shù)實(shí)力在短時間內(nèi)也經(jīng)歷了多次迭代。在多個公開評測集以及專業(yè)的第三方評測中,豆包通用模型 pro 均表現(xiàn)出眾,是得分最高的國產(chǎn)大模型。

      至于豆包大模型的「功力」究竟練到了哪一層?我們不妨體驗(yàn)一把再下結(jié)論。

      國產(chǎn) AI 猛猛上新

      豆包大模型為什么能俘獲用戶的心?

      我們就從剛剛更新的圖像生成方面來考驗(yàn)一下豆包大模型。對 AIGC 應(yīng)用接觸比較多的用戶可能都有一個感受:AI 圖像生成類產(chǎn)品越來越卷,彼此之間也越來越難拉開差距。

      這種直觀感受的變化,幾乎能完全對應(yīng)上底層技術(shù)的演進(jìn)節(jié)點(diǎn)。與一些早期 GAN 模型的生成水準(zhǔn)相比,如今的圖像生成質(zhì)量已經(jīng)讓大部分人覺得「真假難辨」。在這個過程中,學(xué)界和業(yè)界對圖像生成質(zhì)量的評估維度也發(fā)生了巨大變化:像 FID Score 這樣的指標(biāo)已經(jīng)不足以全面反映模型能力,人類評估成為了評估圖像生成質(zhì)量的黃金標(biāo)準(zhǔn)。盡管經(jīng)濟(jì)和時間成本更高,但這種方式可以提供更加細(xì)微且可解釋的感知反饋。

      以「文生圖」方向?yàn)槔,現(xiàn)階段的目標(biāo)可以總結(jié)為對綜合維度的全面提升,具體可拆分為圖像美感、圖文一致性、內(nèi)容創(chuàng)造、復(fù)雜度適應(yīng)性四個維度。在這幾方面,豆包・文生圖都達(dá)到了業(yè)界較高水準(zhǔn)。

      在用戶感受最強(qiáng)烈的「圖文匹配」維度上,豆包・文生圖模型不斷進(jìn)化,比如很好地理解多數(shù)量主體、主客體關(guān)系、人物構(gòu)造和空間構(gòu)造等信息:

      Prompt:古代日本鬼機(jī)甲、中國朋克、太空歌劇、科幻小說、古代未來主義、神秘、明亮、不對稱密集構(gòu)圖、32k 超高清、電影光、氣氛光、電影、柔和的調(diào)色板、超現(xiàn)實(shí)、自由度、自然體積光。

      而在「畫面效果美感」層面,豆包・文生圖模型非常善于從光影明暗、氛圍色彩和人物美感方面進(jìn)行畫面質(zhì)感提升:

      Prompt:OC 渲染,3D 設(shè)計(jì),長發(fā)小女孩,人臉朝著鏡頭,中心構(gòu)圖,帽子上長滿鮮花,輪廓清晰,面部細(xì)節(jié)放大,帽子細(xì)節(jié)放大,畫質(zhì)高清,超清畫質(zhì),深景深,背景是花海

      此外,作為國產(chǎn) AI 精品之作,面對中國人物、物品、朝代、美食、藝術(shù)風(fēng)格等元素,豆包・文生圖模型也展現(xiàn)出了更加深刻的理解力。

      Prompt:超寫實(shí)畫風(fēng),唐代,長安,元宵節(jié)夜市,唐代侍女,燈火輝煌,細(xì)節(jié)完美,特寫,熱鬧非凡,超高清,4K

      Prompt:國風(fēng)水墨繪畫,點(diǎn)彩、肌理磨砂、陳家泠、大面留白的構(gòu)圖,高清16k故宮遠(yuǎn)景,雪景、流暢建筑結(jié)構(gòu),層次,白色主色,淡雅

      基于雙語大模型文本編碼器,豆包・文生圖模型對英文 Pormpt 的理解同樣精準(zhǔn):

      Prompt:butterfly candle, in the style of y2k aesthetic, pop-culture-infused, jewelry by painters and sculptors, text and emoji installations, money themed, playful animation, humble charm

      Prompt:World of Warcraft, outdoor scene, green grassland with a river flowing through it, rocky cliffside with a cave entrance, a small wooden bridge over the waterway, lush trees and wildflowers on both sides of the stream, white clouds in a blue sky, fantasy landscape concept art style, game illustration design, concept design for world building, concept art in the style of game illustration design,3D

      不久之后,豆包・文生圖模型還將升級到2.0版本。豆包視覺團(tuán)隊(duì)表示,新版本將比當(dāng)前模型的生成效果有40% 的提升,對比當(dāng)前版本,圖文一致性和美感會有大幅提升。

      與文生圖略有不同,在圖像美感和結(jié)構(gòu)等因素之外,圖生圖更算是一種應(yīng)用模型,質(zhì)量評估更加關(guān)注「一致性」和「相似度」兩個維度。豆包・圖生圖模型的能力涵蓋「AI 寫真」、「圖像風(fēng)格化」、「擴(kuò)圖 / 局部重繪」三個主要方向,共提供了50余種風(fēng)格玩法。

      「AI 寫真」算是以圖生圖方向中使用頻率非常高的一種玩法,豆包・圖生圖模型的一大亮點(diǎn)是高度還原人物特征,能夠精準(zhǔn)捕捉輪廓、表情、姿態(tài)等多維特征,輕松生成定制化寫真:

      豆包・圖生圖模型還能具備優(yōu)秀的圖片擴(kuò)展、局部重繪和涂抹能力,在邏輯合理的前提下,還能充滿想象力。

      比如在下方的任務(wù)中,用戶想要實(shí)現(xiàn)自然的局部消除,豆包・圖生圖模型生成結(jié)果也做到了平滑過渡:

      對于只想局部進(jìn)行重繪的需求,豆包・圖生圖模型能夠精準(zhǔn)修改圖像局部內(nèi)容,無縫融合原有畫面。比如將粉色外套改為藍(lán)色牛仔外套:

      面對下方的人物照背景擴(kuò)圖任務(wù),豆包・圖生圖模型給出的結(jié)果,實(shí)現(xiàn)了良好的景觀結(jié)構(gòu)及光線保持:

      豆包大模型,如何躋身圖像生成賽道上游?

      感受完這一波 Demo,我們好奇:是從什么時候開始,豆包大模型在圖像生成方面有了這么深厚的實(shí)力?

      兩年前,Stable Diffusion 的橫空出世,宣告了 AIGC 時代的正式開啟。隨后,AI 社區(qū)形成了巨大的迭代效應(yīng),基于各個版本 Stable Diffusion 開源模型的 AI 圖像生成工具被迅速創(chuàng)造出來,不斷刷新生成質(zhì)量和速度的上限。

      不到半年后,DiT 架構(gòu)的提出,驗(yàn)證了 Scaling Law 在圖像生成領(lǐng)域同樣成立。越來越多的研究選擇用 Transformer 替代傳統(tǒng)的 U-Net,讓擴(kuò)散模型繼承了其他領(lǐng)域的最佳實(shí)踐和訓(xùn)練方法,增強(qiáng)了圖像生成模型的可擴(kuò)展性、魯棒性和效率,還提高了對文字提示的理解能力和圖像生成質(zhì)量,有效增加了定制化、生成內(nèi)容可控性方面的優(yōu)勢。

      早在豆包大模型誕生前的幾年,字節(jié)跳動就開始關(guān)注圖像生成相關(guān)技術(shù),近兩年更是持續(xù)增加這方面的研發(fā)投入,保持著創(chuàng)新成果的高頻產(chǎn)出。這也是為什么豆包大模型一經(jīng)面世,就可以驚艷所有人。

      Scaling Law 被驗(yàn)證帶來的另外一個啟示是,算力基礎(chǔ)提升、訓(xùn)練數(shù)據(jù)增加、數(shù)據(jù)質(zhì)量改善成為了圖像生成模型能力提升的關(guān)鍵因素。在這些方面,字節(jié)跳動自研的豆包大模型在圖像生成能力進(jìn)化上具備天然優(yōu)勢。

      但 Stable Diffusion 模型的訓(xùn)練和推理仍然是一個復(fù)雜且耗時的過程,比如,擴(kuò)散模型在推理過程中天然存在的多步數(shù)迭代去噪特性會導(dǎo)致較高的計(jì)算成本。如何在提升生成質(zhì)量的同時加快速度,成為了圖像生成領(lǐng)域的關(guān)鍵問題。

      豆包視覺團(tuán)隊(duì)提出了多項(xiàng)創(chuàng)新成果,從不同的維度嘗試解決這個難題,并將這些成果開放給了 AI 社區(qū)。

      一項(xiàng)代表性的成果是Hyber-SD,這是一種新穎的擴(kuò)散模型蒸餾框架,在壓縮去噪步數(shù)的同時可保持接近無損的性能,在 SDXL 和 SD1.5兩種架構(gòu)上都能在1到8步內(nèi)生成中實(shí)現(xiàn) SOTA 級別的圖像生成。(https://huggingface.co/ByteDance/Hyper-SD)

      另外一項(xiàng)研究SDXL- Lightning則通過一種名為「漸進(jìn)式對抗蒸餾」(Progressive Adversarial Distillation)的創(chuàng)新技術(shù),實(shí)現(xiàn)了生成質(zhì)量和生成速度的雙重提升:僅需短短2步或4步,模型就能生成極高質(zhì)量和分辨率的圖像,將計(jì)算和時間成本降低了十倍,而且能在實(shí)現(xiàn)更高分辨率和更佳細(xì)節(jié)的同時保持良好的多樣性和圖文匹配度。(https://huggingface.co/ByteDance/SDXL-Lightning)

      同時,豆包視覺團(tuán)隊(duì)還提出了一個利用反饋學(xué)習(xí)全面增強(qiáng)擴(kuò)散模型的統(tǒng)一框架UniFL。通過整合感知、解耦和對抗性反饋學(xué)習(xí),這個框架不僅在生成質(zhì)量和推理加速方面表現(xiàn)優(yōu)秀,還在 LoRA、ControlNet、AnimateDiff 等各類下游任務(wù)中展現(xiàn)出了很好的泛化能力。(https://arxiv.org/pdf/2404.05595)

      眾所周知,Stable Diffusion 的核心功能是從文本生成圖像,而 ControlNet、Adapter 等技術(shù)的融合,能夠在保留部分圖像信息的同時添加一些額外控制條件,引導(dǎo)生成與給定參考圖像「相似」的結(jié)果。這些技術(shù)的融合演變出了我們今天見到的各項(xiàng)「圖生圖」功能,并進(jìn)一步消除了 AI 圖像生成技術(shù)的商用門檻。

      在這方面,豆包視覺團(tuán)隊(duì)同樣有深厚技術(shù)積累,僅今年就在國際計(jì)算機(jī)視覺頂會 CVPR 中發(fā)表了十多篇論文,提出了數(shù)十項(xiàng)相關(guān)專利。

      針對圖像Inpaint/Outpaint問題,豆包視覺團(tuán)隊(duì)提出了ByteEdit。關(guān)鍵創(chuàng)新包括三點(diǎn):首先,增大訓(xùn)練數(shù)據(jù)量級,兼容自然圖像輸入、mask 輸入、無 prompt 輸入,讓模型「看到」更多泛化場景;其次,引入一致性獎勵模型,重點(diǎn)提升生成結(jié)果一致性,讓希望填充的區(qū)域和非填充區(qū)域更加的和諧;然后,引入漸進(jìn)式的分階段對抗訓(xùn)練策略,在不損失模型性能條件下實(shí)現(xiàn)速度的提升。(https://byte-edit.github.io)

      針對ID 保持,豆包視覺團(tuán)隊(duì)提出了PuLID,通過引入一個新的訓(xùn)練分支,在訓(xùn)練中加入了對比對齊損失和更精確的 ID 損失,讓 ID 適配器學(xué)習(xí)如何在注入的 ID 信息的同時,減少對原模型行為的破壞,從而在保證較高 ID 相似度的同時,兼顧編輯能力、風(fēng)格化能力以及畫面質(zhì)量等方面的效果。(https://www.hub.com/ToTheBeginning/PuLID)

      針對IP 保持,豆包視覺團(tuán)隊(duì)提出了一種「參考圖 IP - 文本」解耦控制的通用場景 IP 定制化生成方法RealCustom,對于任意開放域物體或人物 IP 均可實(shí)現(xiàn)無需微調(diào)的實(shí)時定制化生成。(https://corleone-huang.github.io/realcustom/)

      「更強(qiáng)模型、更低價格、更易落地」

      短短兩年內(nèi),AI 在圖像生成上的持續(xù)進(jìn)步,打破了長期存在的專業(yè)門檻,讓任何人都可以創(chuàng)造出高質(zhì)量的視覺作品,帶來了一場前所未有的革命。豆包大模型的圖像生成能力,已經(jīng)為字節(jié)跳動旗下多個應(yīng)用提供技術(shù)支持,包括抖音、剪映、醒圖、即夢、豆包、星繪。對于大眾來說,AIGC 已經(jīng)實(shí)實(shí)在在地改變了生活。

      但從企業(yè)用戶的角度來說,這些最前沿的技術(shù)仍然存在一些應(yīng)用壁壘,涉及數(shù)據(jù)、人才、算力等多方面因素。對于各行各業(yè)的用戶來說,即使有了強(qiáng)大的開源模型可供選擇,也需要解決計(jì)算資源、專業(yè)知識、模型微調(diào)等方面的挑戰(zhàn)。

      成本的全方位降低,才是推動大模型真正實(shí)現(xiàn)價值創(chuàng)造的關(guān)鍵因素。

      自發(fā)布以來,豆包大模型正在通過火山引擎源源不斷地向千行百業(yè)輸出技術(shù)能力,推動大模型技術(shù)實(shí)現(xiàn)更廣泛深入的行業(yè)落地。

      目前,包括豆包・文生圖模型和豆包・圖生圖模型在內(nèi),豆包大模型家族的成員數(shù)量已經(jīng)達(dá)到了10個。這些針對應(yīng)用場景細(xì)分的模型都會上線火山方舟,開放給火山引擎的眾多企業(yè)客戶合作共創(chuàng)。

      飛速增長的使用量,也在幫助豆包大模型持續(xù)打磨自身能力。自2024年5月15日豆包大模型發(fā)布至今,短短兩個月內(nèi),平均每家企業(yè)客戶的日均 tokens 使用量已經(jīng)增長了22倍。

      豆包大模型家族「集體照」。

      同時,火山引擎提供了更豐富的核心插件、更強(qiáng)大的系統(tǒng)性能以及更優(yōu)質(zhì)的平臺體驗(yàn),企業(yè)可根據(jù)自身業(yè)務(wù)場景需求靈活選擇、快速落地。比如,依靠豆包・圖生圖模型,客戶利用幾張圖片即可訓(xùn)練專屬的數(shù)字分身。

      在很多情況下,價格仍然是客戶的首要考慮因素;鹕揭嬲锹氏葘⒆顝(qiáng)模型版本降價的行業(yè)先行者,以更強(qiáng)模型、更低價格滿足企業(yè)復(fù)雜業(yè)務(wù)場景需求,真正推動大模型落地。

      憑借充沛 GPU 算力資源池,并通過潮汐、混部等方式,實(shí)現(xiàn)資源的高利用率和極致降低成本,即使是在大模型價格戰(zhàn)越來越激烈的未來,火山引擎所提供的大模型服務(wù)仍然保持著絕對吸引力。

      中國公司正在開啟大模型競爭的下一章

      轟轟烈烈的百模大戰(zhàn)之后,海內(nèi)外的大模型快速涌現(xiàn)。盡管有 OpenAI 等一系列強(qiáng)大的競爭對手,但豆包大模型還是殺出了自己的一條路。

      過去一段時間,人們喜歡談?wù)搰a(chǎn)大模型技術(shù)的追趕。從「追趕」到「媲美」,很多中國團(tuán)隊(duì)只用了一年、半年時間,這其中也包括豆包大模型團(tuán)隊(duì)。

      短時間內(nèi)躋身圖像生成這條賽道的上游,與豆包大模型團(tuán)隊(duì)在研發(fā)和人才方面的投入密不可分。近幾年,越來越多頂尖大模型人才的加入,純粹極致的技術(shù)研究氛圍,大規(guī)模的研發(fā)資源投入,都是成就豆包這一國產(chǎn)大模型代表作的重要因素。

      特別是在應(yīng)用場景優(yōu)勢的加持下,當(dāng)大模型被「用起來」的這天,人們看到了中國大模型走進(jìn)千行百業(yè)時的充足「后勁」。

      可以期待的是,大模型這條賽道的競爭正在開啟新篇章,而在新的章節(jié)里,國產(chǎn)大模型將有機(jī)會書寫更加濃墨重彩的一筆。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。