百川智能發(fā)布全鏈路領(lǐng)域增強(qiáng)金融大模型 Baichuan4-Finance年末家電消費(fèi)觀察:品質(zhì)生活類產(chǎn)品熱賣,將持續(xù)迎來剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進(jìn)展新一代語言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型谷歌向投資者保證人工智能本月將迎來“驚人”表現(xiàn)多模態(tài)大模型引爆應(yīng)用場景 階躍星辰完成數(shù)億美元融資星動紀(jì)元發(fā)布端到端原生機(jī)器人大模型ERA-42 實(shí)現(xiàn)機(jī)器人復(fù)雜場景操作免費(fèi)模式強(qiáng)攻下,快手、抖音用“短劇VIP”反擊?低碳存儲助力算力產(chǎn)業(yè) 富士膠片首次亮相IDC大會行業(yè)唯一!海爾熱聲熱泵技術(shù)獲全國顛覆性技術(shù)創(chuàng)新大賽最高獎OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號能穿十堵墻一加 Ace 5 Pro首發(fā)電競Wi-Fi芯片G1 帶來「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗電視市場又出黑馬!TCL同檔Mini LED音畫王P12K,萬象分區(qū)打造超強(qiáng)控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強(qiáng)者恒強(qiáng)?——《中國企業(yè)科創(chuàng)力研究報告(2024)》美團(tuán)年度報告竟然用上了AI和短?這下是真出圈了消息稱上汽大眾正開發(fā)三款新車,技術(shù)分別來自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開啟全量推送!升級自動泊車/接駕等多項功能華為官方翻新手機(jī)最高降價4000元
  • 谷歌版Sora升級4K高清!一句話控制鏡頭運(yùn)動,跑分叫板可靈海螺

    2024年12月17日 09:43:06   來源:量子位公眾號

      OpenAI直播劃水的一天,谷歌版Sora迎來了它的2.0——

      Veo2,根據(jù)文本或圖像生成更為高質(zhì)量的視頻。

      從官方介紹中看,此次主要有三個方面的升級。

      比如分辨率能達(dá)到4K。

      能夠理解有關(guān)鏡頭控制的Prompt。

      更注重現(xiàn)實(shí)物理世界與人類表情的理解和展示。

      在官方賬號底下,大家都對這些效果表示了驚嘆:

      我真的想谷歌輸?shù)舯荣,但是谷歌沒有輸。

      另外,圖像生成模型Imagen3也有進(jìn)一步的改進(jìn)。

      谷歌版Sora2.0:重新定義質(zhì)量和控制

      質(zhì)量和控制,是此次視頻模型升級的關(guān)鍵詞。

      除了顯而易見的清晰度的提升——最高可達(dá)4K分辨率,它能夠忠實(shí)地遵循簡單和復(fù)雜的指令Prompt,并令人信服地模擬現(xiàn)實(shí)世界的物理以及各種視覺風(fēng)格。

      具體體現(xiàn)在它的真實(shí)感和保真度上,比如細(xì)節(jié)、偽影減少等方面都有顯著改進(jìn)。

      還有高級的運(yùn)動功能,基于對物理學(xué)的理解,能夠更高精度的表示運(yùn)動。

      還能準(zhǔn)確地遵循各種鏡頭控制類的Prompt,比如拍攝風(fēng)格、角度、動作以及所有這些的組合。

      那么接下來直觀地感受一下效果。

      Prompt:特寫鏡頭聚焦于一位女 DJ 的臉部,她美麗、濃密的黑色卷發(fā)勾勒出她的五官,她完全沉浸在音樂中。她閉上雙眼,沉浸在節(jié)奏中,嘴角掛著一絲微笑。當(dāng)她隨著節(jié)拍點(diǎn)頭和搖擺時,相機(jī)捕捉到了她頭部的細(xì)微動作,她的身體本能地隨著耳機(jī)中傳出的音樂而做出反應(yīng),傳到人群中。淺景深使背景變得模糊。她被鮮艷的霓虹色包圍著。特寫鏡頭強(qiáng)調(diào)了她迷人的氣質(zhì)以及音樂傳遞和超越的力量。

      還有是這種集體的蜂群也能刻畫出來。

      Prompt:鏡頭輕輕飄過一排排粉刷過的木制蜂箱,嗡嗡作響的蜜蜂在畫面中進(jìn)進(jìn)出出。鏡頭落在站在畫面中央的優(yōu)雅農(nóng)民身上,他潔白的養(yǎng)蜂服在金色的午后陽光下閃閃發(fā)光。他舉起一罐蜂蜜,稍微傾斜以捕捉光線。在他身后,高大的向日葵在微風(fēng)中有節(jié)奏地?fù)u曳,花瓣在溫暖的陽光下閃閃發(fā)光。鏡頭向上傾斜,露出一座復(fù)古的農(nóng)舍,百葉窗是薄荷綠色的,搖曳的樹木在墻上投下斑駁的陰影。用35毫米鏡頭在柯達(dá) Portra400膠片上拍攝,金色的光線在農(nóng)民的手套、果醬罐和蜂箱的風(fēng)化木材上形成了豐富的紋理。

      還可以切換鏡頭,從近景到遠(yuǎn)景,而在鏡頭之下,不管是蜂蜜還是咖啡的泡沫細(xì)節(jié)都有精確地刻畫。

      Prompt:太陽在一盤擺放整齊的早餐場景后緩緩升起。濃稠的金色楓糖漿以慢動作倒在松軟的煎餅上,每一塊煎餅都散發(fā)出柔軟溫暖的蒸汽云。特寫鏡頭中,脆培根發(fā)出嘶嘶聲,金色油脂的細(xì)小余燼在空中飛舞?Х纫皂樆男D(zhuǎn)動作倒入水晶般透明的杯子中,杯子里充滿了深棕色的咖啡油層。場景結(jié)束時,相機(jī)俯沖到新鮮切好的橙子上,以令人驚嘆的微距細(xì)節(jié)展示出它明亮多汁的果肉。

      那么在根據(jù)人類對其性能的評估中,Veo2的表現(xiàn)優(yōu)于其他領(lǐng)先的視頻生成模型

      在Meta基準(zhǔn)數(shù)據(jù)集 MovieGenBench上,人類參與者觀看了1003個提示和響應(yīng)的視頻。

      結(jié)果顯示,跟市面上的主流視頻生成模型相比,Veo2.0在整體偏好、Prompt指令準(zhǔn)確遵循方面都表現(xiàn)最佳。

      值得一提的是,這里除了Sora,國產(chǎn)模型可靈、MiniMax都上桌了。

      所有的比較都在720P分辨率下進(jìn)行,Veo 采樣時長為8秒,VideoGen 采樣時長為10秒,其他型號采樣時長為5秒。我們向評分者展示完整視頻時長。

      最后,他們表示,創(chuàng)建逼真、動態(tài)或復(fù)雜的視頻,并在復(fù)雜場景或復(fù)雜運(yùn)動的場景中保持完全一致性仍然是一項挑戰(zhàn)。他們將繼續(xù)開發(fā)和改進(jìn)這些領(lǐng)域的性能。

      圖像模型Imagen3也增強(qiáng)了

      除此之外,還增強(qiáng)了他們的圖像生成模型Imagen3。

      可以生成更多樣化的藝術(shù)風(fēng)格,如現(xiàn)實(shí)主義、夢幻、肖像畫等等。

      生成的圖像會更忠實(shí)于Prompt,哪怕這個Prompt有多么地離譜。(Doge)

      而從各種生成的圖像來看,視覺效果也比之前更明亮,構(gòu)圖也更加平衡。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。