首頁 > 云計(jì)算頻道 > 大模型

可靈網(wǎng)頁版來了！基礎(chǔ)模型重磅升級，新功能“炸場”WAIC

2024年07月08日 09:23:18 克雷西 來源：量子位公眾號

　　“這可能是本屆WAIC上歡呼聲最多的一場發(fā)布”

　　在剛剛閉幕的世界人工智能大會(WAIC)上，快手曬出了可靈發(fā)布一個月以來的成績單:

　　“超50萬人申請，已開放給超30萬用戶使用，生成超700萬條短視頻。”

　　作為全球首個用戶可用的真實(shí)影像級視頻生成大模型，可靈一經(jīng)問世便引發(fā)了強(qiáng)烈反響，連外國網(wǎng)友都紛紛投來了羨慕的目光……

　　甚至Stability AI的前CEOEmad Mostaque看了也表示，中國這次已經(jīng)遙遙領(lǐng)先。

　　但快手似乎并不滿足于此。

　　可靈Web端上線、更高清畫質(zhì)、首尾幀、鏡頭控制、文生視頻開放到10s;可圖開源……

　　隨著快手高級副總裁、主站業(yè)務(wù)與社區(qū)科學(xué)線負(fù)責(zé)人蓋坤宣布多個重磅消息，現(xiàn)場幾度沸騰。

　　可靈網(wǎng)頁端上線，文生圖模型重磅開源

　　之所以一上線就火到出圈，是因?yàn)榭伸`生成的視頻不僅質(zhì)量高，而且更符合物理規(guī)律，大幅度的運(yùn)動也能準(zhǔn)確刻畫。

　　比如這個在公路上高速奔跑的老虎，不僅畫面連貫，隨鏡頭角度的變化合理，老虎四肢的動作協(xié)調(diào)，而且還把奔跑過程中軀干部分的抖動也展現(xiàn)得淋漓盡致。

　　兩周之后的CVPR上，可靈又新上線了圖生視頻和視頻續(xù)寫兩項(xiàng)功能。

　　其中圖生視頻功能，擁有很強(qiáng)的逼近世界運(yùn)行規(guī)律的能力，比如網(wǎng)友利用可靈，讓《戴珍珠耳環(huán)的少女》中的人物動了起來，玩手機(jī)、喝咖啡、吃蘋果……動作真實(shí)又不失優(yōu)雅。

　　而且，該功能還表現(xiàn)出了很強(qiáng)的泛化能力。

　　比如一幅水墨畫，加上簡單的提示詞，可靈就能讓水墨畫中的動物惟妙惟肖地運(yùn)動開來。

　　但蓋坤介紹，水墨畫這樣的素材在可靈訓(xùn)練的過程中非常少見，甚至連團(tuán)隊(duì)自己都沒見過。

　　更有意義的是，可靈的圖生視頻不僅能用來娛樂，還有網(wǎng)友用它“復(fù)活”了長輩的老照片，留下了一段感人的故事……

　　而視頻續(xù)寫功能，則可以把前面生成的視頻不斷延長，每次5秒，最長可以擴(kuò)展到三分鐘。

　　這次的WAIC上，快手高級副總裁、主站業(yè)務(wù)與社區(qū)科學(xué)線負(fù)責(zé)人蓋坤又宣布，可靈再次迎來一系列重磅更新。這也是可靈從發(fā)布起一個月內(nèi)的第三次大動作。

　　首先是基礎(chǔ)模型的升級，可靈生成的視頻，畫質(zhì)得到了進(jìn)一步提升。

　　以這個名場面為例，可靈的作品在升級前后的對比是醬嬸兒的，可以看出所有的細(xì)節(jié)處理都比原來更加精細(xì)。

　　另外，新版本可以一次性直接生成10秒的視頻，不需要先生成5秒再延長了。

　　功能方面，這次可靈還新增了首尾幀控制(圖生視頻)和鏡頭控制(暫只支持文生視頻)。

　　只需上傳首尾兩張圖片，可靈就能自動“腦補(bǔ)”出中間的運(yùn)動變化過程。

　　△素材圖片由快手圖片生成大模型“可圖”生成

　　鏡頭控制功能則讓創(chuàng)作者可以直接指定運(yùn)鏡方式，不會寫鏡頭提示詞也不需要再“開盲盒”了。

　　對于可靈背后的技術(shù)方案，快手視覺生成與互動中心負(fù)責(zé)人萬鵬飛從模型設(shè)計(jì)、數(shù)據(jù)保障、計(jì)算效率、能力拓展等方面進(jìn)行了深入剖析。

　　萬鵬飛介紹，可靈最新發(fā)布的版本中，在運(yùn)動生成、物理規(guī)律、視頻畫質(zhì)、指令響應(yīng)等七個方向的能力亮點(diǎn)實(shí)現(xiàn)了進(jìn)一步升級。

　　未來，預(yù)計(jì)視頻生成模型將對游戲、動畫、泛視頻行業(yè)帶來新機(jī)遇，并有望作為世界模擬器，為具身智能提供互動仿真環(huán)境。

　　除了模型的升級和功能上的更新，快手還重磅發(fā)布了可靈Web版本(傳送門見文末)，可以在PC上更加方便地創(chuàng)作并管理作品了。

　　包括Web界面在內(nèi)，這些新功能也是堅(jiān)持了快手一以貫之的“不畫餅”原則，發(fā)布即上線，目前限時免費(fèi)體驗(yàn)。

　　另外，此次上線的Web界面同時整合了圖片生成功能，它的背后是快手自研的文生圖大模型——可圖。

　　而且可圖在這里與可靈深度聯(lián)動，生成圖片后可以一鍵轉(zhuǎn)到圖生視頻，圖生視頻當(dāng)中也可以直接選擇可圖繪制的圖片。

　　說回可圖本身，它和其他圖像生成模型相比，擁有更高質(zhì)量和語義跟隨能力，支持的場景也更加豐富。

　　在內(nèi)部進(jìn)行的盲測當(dāng)中，可圖取得了第一名的耀眼成績，超越了MidJourney、Stable Diffusion等一系列知名模型。

　　在北京智源研究院的第三方測試中，可圖也以75.23分的成績獲得了第二名，僅次于76.66分的DALL·E-3。

　　另外，可圖還擁有很強(qiáng)的“寫字”能力，支持在圖像中用真實(shí)的效果嵌入文本。

　　而且更懂中文，甚至能理解一些古詩詞，比如韓愈的《春雪》中，一句“白雪卻嫌春色晚，故穿庭樹作飛花”就被可圖還原得淋漓盡致。

　　仔細(xì)觀察圖中的細(xì)節(jié)，你會發(fā)現(xiàn)遠(yuǎn)處虛化的樹木已經(jīng)變成了綠色，還有樹上已經(jīng)綻放的花朵，都符合了詩句當(dāng)中的季節(jié)設(shè)定。

　　可圖的上線時間稍早于可靈，于今年的5月31日向公眾開放，而就在這次的WAIC大會上，蓋坤又隆重宣布，可圖大模型正式開源。

　　目前可圖的推理代碼和Checkpoints已經(jīng)在GitHub中公布，未來相關(guān)的LoRA、ControlNet和ComfyUI工作流也將陸續(xù)上線。

　　這部分的最后，我們再來展示個小彩蛋——

　　將于本月上線的快手首部AIGC短劇《山海奇鏡之劈波斬浪》，就有可靈的深度技術(shù)支持。

　　在快手的大模型家族當(dāng)中，可靈和可圖因?yàn)榭梢灾苯佑糜趧?chuàng)作，所以我們的感觸更加直接。

　　但其實(shí)，快手還擁有更為龐大的“大模型矩陣”。

　　快手大模型家族全員亮相

　　除了可靈和可圖這樣的視覺生成大模型，快手的大模型矩陣還包括語言大模型、推薦大模型等等。

　　比如為了讓你刷到的內(nèi)容更符合你的偏好的、“默默無聞”的推薦大模型。

　　蓋坤介紹，快手的推薦大模型基于SIM(Search Interest Model)模型打造，擁有10萬億參數(shù)量。

　　而且，對每一個用戶，快手推薦大模型處理的行為序列長度，都可以達(dá)到百萬。

　　現(xiàn)在，快手大模型團(tuán)隊(duì)正在積極研發(fā)基于Transformer的下一代推薦大模型技術(shù)。

　　還有語言模型“快意”，在內(nèi)部盲測中，中文能力已經(jīng)達(dá)到了GPT-4水平。

　　快手副總裁、大模型團(tuán)隊(duì)負(fù)責(zé)人張迪介紹，快意大模型從最早開始，已經(jīng)研發(fā)了四個版本。

　　從早期的13B版本開始，到現(xiàn)在已經(jīng)有了主力應(yīng)用的175B版本和多模態(tài)版本，經(jīng)過了多個版本的研發(fā)快意大模型已經(jīng)在快手內(nèi)部應(yīng)用在包括素材創(chuàng)作、AI互動和內(nèi)容生產(chǎn)等多個場景中。

　　在快手大模型家族中，快意是最基礎(chǔ)的能力，未來除了持續(xù)提升快意大模型的基礎(chǔ)能力之外，團(tuán)隊(duì)還將結(jié)合快手的應(yīng)用場景，做出差異化的功能。

　　快手家族的這些大模型覆蓋了生成、推薦和理解等多個層面，并已經(jīng)深度服務(wù)于快手的各大業(yè)務(wù)場景。

　　另外，基于系列大模型能力，快手還搭建了數(shù)字人全流程AIGC服務(wù)。

　　這其中包括了數(shù)字人腳本創(chuàng)意生成、數(shù)字人渲染生成、數(shù)字人實(shí)時互動、智能客服問答等整個流程。

　　而在C端，快手也在APP評論區(qū)中上線了基于大模型的智能體“AI小快”，它是快手官方的智能互動小助手，定位是快手用戶有用、有趣且有溫度的聊天搭子。

　　你可以問他視頻中各種各樣的內(nèi)容，基于多模態(tài)大模型的理解能力可以做出準(zhǔn)確的回答，而且AI小快也非常有趣，你可以在評論區(qū)畫圖、畫表情包，還能在評論區(qū)各種求安慰、求祝福，實(shí)現(xiàn)情緒價值。

　　目前，AI小快有超過1000萬的粉絲量，同時有超過1.5億次的累計(jì)互動，而且這還是在AI小快不會主動對你進(jìn)行評論，只能被動召喚的條件下達(dá)到的。

　　總之，借助大模型矩陣中的各種模型，快手用AI把從B端到C端，從服務(wù)到產(chǎn)品的整個生態(tài)都武裝到了牙齒。

　　那么，在這背后，快手又有怎樣的戰(zhàn)略布局呢?

　　堅(jiān)持自研，擁抱開源開放

　　在快手的戰(zhàn)略框架當(dāng)中，堅(jiān)持全棧自研、堅(jiān)持技術(shù)創(chuàng)新是至關(guān)重要的一環(huán)。

　　快手團(tuán)隊(duì)在大模型的基礎(chǔ)研究和前沿探索方面持續(xù)投入，從底層芯片算力、網(wǎng)絡(luò)架構(gòu)到頂層應(yīng)用，都能看到快手自研技術(shù)的身影。

　　張迪表示，快手認(rèn)為堅(jiān)定投入自主研發(fā)長期來說會帶來“技術(shù)雪球”效應(yīng)以及巨大的成本優(yōu)勢。

　　在上層，快手一個非常大的優(yōu)勢是快手本身有非常多的AI應(yīng)用場景，這會給大模型帶來非常多的落地機(jī)會，我非常有信心的說快手可能是國內(nèi)在大模型應(yīng)用上探索最深入的公司。

　　放眼于具體，快手的大模型技術(shù)體系涵蓋了文本(快意)、圖像(可圖)、視頻(可靈)等多種數(shù)據(jù)模態(tài)，并且強(qiáng)調(diào)多模態(tài)大模型之間的關(guān)聯(lián)互通，實(shí)現(xiàn)更加智能靈活的感知和生成能力。

　　在自研精神的驅(qū)動和不斷的研發(fā)投入這下，快手已在視頻生成、對話互動、數(shù)字人等方向取得了行業(yè)領(lǐng)先的突破。

　　當(dāng)然，有了完備的技術(shù)體系，還要與實(shí)際應(yīng)用場景深度融合，才能實(shí)現(xiàn)落地，快速產(chǎn)生商業(yè)價值。

　　這也是快手戰(zhàn)略體系中的另一個重要環(huán)節(jié)。

　　當(dāng)然，得益于龐大的內(nèi)容平臺和創(chuàng)作生態(tài)，快手的一個優(yōu)勢，正是更容易找準(zhǔn)大模型技術(shù)的最佳應(yīng)用落點(diǎn)。

　　具體說，快手重點(diǎn)聚焦在內(nèi)容推薦、創(chuàng)作助手、互動社區(qū)、電商直播、數(shù)字營銷等幾大場景，力求將大模型技術(shù)嵌入業(yè)務(wù)的各個關(guān)鍵環(huán)節(jié)。

　　比如在電商直播場景，快手希望通過虛擬主播、智能導(dǎo)購助手等大模型應(yīng)用，為商家提供了更加智能高效的直播帶貨解決方案;

　　又如在數(shù)字營銷當(dāng)中，快手將大模型技術(shù)與廣告平臺深度融合，強(qiáng)化多模態(tài)廣告素材的智能創(chuàng)意生成，提升廣告投放的性價比，為廣告主創(chuàng)造出了更大價值。

　　獨(dú)樂樂不如眾樂樂，所以在不斷強(qiáng)化自身之余，快手還積極致力于推動生態(tài)發(fā)展。

　　可圖的開源就是一個很好的例證。

　　另外，快手不僅與多家高校或科研機(jī)構(gòu)合作進(jìn)行技術(shù)研發(fā)，還設(shè)立專項(xiàng)了基金支持，學(xué)術(shù)界的研究創(chuàng)新。

　　比如與中國計(jì)算機(jī)學(xué)會(CCF)與快手?jǐn)y手，共同宣布成立“CCF-快手大模型探索者基金”。

　　該基金針對“大語言模型”、“視覺理解與生成”等五大核心領(lǐng)域，于本年度推出共計(jì)12個研究項(xiàng)目，每項(xiàng)課題最高可獲30萬元人民幣的支持。

　　縱觀整個WAIC大會，大模型、算力、數(shù)據(jù)、AI治理等都是今年的熱點(diǎn)議題。而談及大模型，開源與否又是一個不可避免被談及的問題。

　　但快手并沒有參與這場口水仗，而是用行動給出了選擇，用可圖的成績單證明了開源模型的實(shí)力。

　　這樣的做法，亦是快手大模型一貫務(wù)實(shí)作風(fēng)的體現(xiàn)，不搞花拳繡腿、不開空頭支票，始終堅(jiān)持產(chǎn)品發(fā)布即可用，堅(jiān)定地為用戶做最好的AI技術(shù)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅(jiān)持質(zhì)價比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

可靈網(wǎng)頁版來了！基礎(chǔ)模型重磅升級，新功能“炸場”WAIC

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

可靈網(wǎng)頁版來了！基礎(chǔ)模型重磅升級，新功能“炸場”WAIC

擴(kuò)展閱讀

可靈網(wǎng)頁版來了！基礎(chǔ)模型重磅升級，新功能“炸場”WAIC