直播電商交易額達(dá)3325億元 同比大增超50% 成主戰(zhàn)場iPhone SE 4預(yù)計(jì)明年3月發(fā)布 相機(jī)模塊12月份開始量產(chǎn)Nordic宣布裁員8%,取消收購UWB專業(yè)芯片公司Novelda芯片設(shè)備大廠TEL凈利潤將暴漲45%,中國市場占比達(dá)45%朱江明回應(yīng)零跑汽車被稱為半價(jià)理想:好的競品我們都會學(xué)習(xí)、借鑒全能旗艦相機(jī)索尼A1M2官宣:11月19日發(fā)布老將依舊能打,EOS R7秋季拍照體驗(yàn)華為乾崑智駕加持,方程豹豹8正式上市,開啟智能越野新時(shí)代騰訊“網(wǎng)絡(luò)廣告”板塊更名“營銷服務(wù)”,Q3收入同比增17%上海外服發(fā)布多款人力資源解決方案近萬人參賽,百度英偉達(dá)合辦的全球最大規(guī)模智能體賽事落幕騰訊發(fā)布Q3財(cái)報(bào) 毛利、經(jīng)營利潤同比增16%、19%2024車企年關(guān)時(shí)刻:裁員、轉(zhuǎn)型和迷茫消息稱叮咚買菜啟動出海:首站選定沙特,主要銷售預(yù)制菜LG與Tenstorrent合作開發(fā)全新“情感智能”芯片谷歌擴(kuò)大AI洪水預(yù)警系統(tǒng)覆蓋范圍,惠及全球7億人零一萬物與華為啟動合作,將基于昇騰硬件底座開發(fā)原生大模型應(yīng)用第十三屆中國創(chuàng)新創(chuàng)業(yè)大賽顛覆性技術(shù)創(chuàng)新大賽(未來材料領(lǐng)域賽)在大連高新區(qū)開賽中國移動2.6GHz廣電專用核心網(wǎng)二期工程設(shè)備集采:華為、中興兩家分食面對勒索攻擊,企業(yè)應(yīng)該具備什么樣的“反制”思維?
  • 首頁 > 云計(jì)算頻道 > 大模型

    智譜新清影:模型全面升級、4K、任意比例、自帶音效

    2024年11月11日 13:45:14   來源:Citnews中文科技資訊

      11月8日,智譜推出新清影:10s時(shí)長、4k、60幀超高清畫質(zhì)、任意尺寸,自帶音效,以及更好人體動作和物理世界模擬。

      3個(gè)月前,作為國內(nèi)首個(gè)面向公眾開放的視頻生成產(chǎn)品,清影上線清言App,只需一段指令或圖片,30秒就能生成AI視頻。為人類影視創(chuàng)作帶來了更多創(chuàng)新玩法,如廣告制作、短視頻、表情包梗圖等。

      清影發(fā)布后不久,GLM技術(shù)團(tuán)隊(duì)先后開源了CogVideoX 2B和5B版本兩個(gè)模型,可在消費(fèi)級顯卡上流暢運(yùn)行,性能領(lǐng)先的CogVideoX-5B模型自開源以來受到廣泛的關(guān)注,并衍生出如CogVideoX-factory等大量的二次開發(fā)項(xiàng)目。

      基于CogVideoX模型的最新技術(shù)進(jìn)展和智譜最新推出的音效模型CogSound,新清影在以下5個(gè)方面實(shí)現(xiàn)了提升。

      · 模型能力全面提升:在圖生視頻的質(zhì)量、美學(xué)表現(xiàn)、運(yùn)動合理性以及復(fù)雜提示詞語義理解方面能力明顯增強(qiáng)。

      · 4K超高清分辨率:支持生成 10s、4K、60幀超高清視頻,視覺體驗(yàn)拉到極致,動態(tài)畫面更加流暢。

      · 可變比例:支持任意比例的圖像生成視頻,超寬畫幅也能輕松Hold住,從而適應(yīng)不同的播放需求。

      · 多通道生成能力:同一指令/圖片可以一次性生成4個(gè)視頻。

      · 帶聲效的AI視頻:新清影可以生成與畫面匹配的音效了。音效功能將很快在本月上線公測。

      即日起,新清影在智譜清言App上線,為了支持廣大開發(fā)者,智譜同時(shí)將CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V進(jìn)行了開源。

      生成視頻將為影視工作者、短視頻創(chuàng)作者提升產(chǎn)量、產(chǎn)能,在其生產(chǎn)流程中發(fā)揮重要作用。不到一年時(shí)間,生成視頻技術(shù)在視頻時(shí)長、生成速度、分辨率、一致性等方面已經(jīng)顯示出長足進(jìn)步。新清影往前又邁進(jìn)了一步,未來,智譜也將攜手視覺中國等合作伙伴,基于更豐富的視覺內(nèi)容,產(chǎn)出更好的AI生成視頻工具。

      “默片 Sora”進(jìn)入“有聲電影時(shí)代”

      智譜認(rèn)為真正的智能一定是多模態(tài)的,聽覺、視覺、觸覺等共同參與了人腦認(rèn)知能力的形成,因此,智譜希望包括文字、圖像、語音和視覺等模態(tài)在內(nèi)的智譜多模態(tài)大模型矩陣,能夠進(jìn)一步提高大模型的應(yīng)用和工具能力。

      因此,GLM模型家族逐步從文字拓展至圖片、視頻、聲音,以及音效。今天,GLM家族加入了新成員——音效模型CogSound和音樂模型CogMusic。即將上線與大家見面的音效模型CogSound能根據(jù)視頻自動生成音效、節(jié)奏等音樂元素,它是基于GLM-4V的視頻理解能力,能夠準(zhǔn)確識別并理解視頻背后的語義和情感,在此基礎(chǔ)上生成與之相匹配的音頻內(nèi)容,甚至生成復(fù)雜音效,如爆炸、水流、樂器、動物叫聲、交通工具聲等。

      音效模型的出現(xiàn)能夠?qū)崿F(xiàn)視頻與聲音的同步創(chuàng)作。同時(shí)該模型在電影行業(yè)也具有廣泛的應(yīng)用前景,比如可以生成電影中的大規(guī)模戰(zhàn)斗場景和災(zāi)難場景的聲音,大大縮短了制作周期,降低了制作成本。

      「CogVideoX + CogSound」由清影生成畫面,音效模型配音

      兩周前,智譜剛剛發(fā)布最新的GLM-4-Voice情感語音模型。今天,隨著音效模型的加入,GLM大模型在聲音模態(tài)領(lǐng)域?qū)崿F(xiàn)了人聲、音效、音樂的多鏈路布局,基于圖像、視頻和聲音的多模態(tài)模型矩陣由此更加完整,意味著智譜在多模態(tài)和工具兩個(gè)維度上都朝著AGI的目標(biāo)邁出了一小步。

      音效模型將于本月上線清言App,與新清影一起生成有聲AI影片。智譜的理想狀態(tài)是,只需一個(gè)好的創(chuàng)意,剩下的事AI都能輔助搞定,輕松將一個(gè)idea、一張圖,變成一段自帶bgm的影片。相信這個(gè)組合能給創(chuàng)作者和用戶帶來AI生視頻的全新體驗(yàn)。

      當(dāng)前,AI生成視頻用于影視創(chuàng)作仍需要多種不同的創(chuàng)作工具串聯(lián)使用。但基于智譜多模態(tài)的最新成果,實(shí)現(xiàn)這種一站式AI原生多模態(tài)工作流,這樣的前景無疑是激動人心的。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    [No. S026]
    分享到微信

    即時(shí)

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。