來京東參與榮耀Magic7 RSR 保時捷設(shè)計(jì)預(yù)售 享365天只換不修國補(bǔ)期間電視迎來換機(jī)潮,最暢銷MiniLED品牌花落誰家?美團(tuán)旗下微信社群團(tuán)購業(yè)務(wù)“團(tuán)買買”宣布年底停運(yùn)消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機(jī)設(shè)備在海外,要再造一個京東物流?消息稱蘋果正為AirPods開發(fā)多項(xiàng)健康功能,包括心率監(jiān)測和溫度感應(yīng)一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗(yàn)東芝全部業(yè)務(wù)實(shí)現(xiàn)盈利,退市裁員重組后終于賺錢真我14 Pro+開始提上日程:1.5K等深四微曲屏+潛望長焦穩(wěn)了消息稱本田和日產(chǎn)計(jì)劃明年6月前敲定合并協(xié)議 2026年8月成立控股公司凱迪拉克最新版OTA開啟推送,新增百度語音大模型和QQ音樂等應(yīng)用中國聯(lián)通11月5G套餐用戶凈增127.8萬戶5G確定性工業(yè)基站首商用,工業(yè)互聯(lián)網(wǎng)走上新高度李飛飛團(tuán)隊(duì)前瞻性研究 多模態(tài)AI模型初顯空間智能AI終于邁過這道檻!Livekit 開源模型精準(zhǔn)識別“你是否說完”!DeepSeek開源大模型開發(fā)者之一羅福莉?qū)⒓用诵∶?/a>廣汽詳解旗下首款復(fù)合翼飛行汽車 GOVY AirJet:最高飛行速度可達(dá) 250km/h清華大學(xué)聯(lián)合騰訊出品!ColorFlow:自動給黑白漫畫上色,保持角色一致性Adobe推新AI音頻具Sketch2Sound ,只需哼唱和模仿聲音就能創(chuàng)建音效家庭能源智聯(lián)自由 海辰儲能發(fā)布首套免安裝家庭微網(wǎng)系統(tǒng)HeroES
  • 首頁 > 云計(jì)算頻道 > 大模型

    可靈網(wǎng)頁版來了!基礎(chǔ)模型重磅升級,新功能“炸場”WAIC

    2024年07月08日 09:23:18   來源:量子位公眾號

      “這可能是本屆WAIC上歡呼聲最多的一場發(fā)布”

      在剛剛閉幕的世界人工智能大會(WAIC)上,快手曬出了可靈發(fā)布一個月以來的成績單:

      “超50萬人申請,已開放給超30萬用戶使用,生成超700萬條短視頻。”

      作為全球首個用戶可用的真實(shí)影像級視頻生成大模型,可靈一經(jīng)問世便引發(fā)了強(qiáng)烈反響,連外國網(wǎng)友都紛紛投來了羨慕的目光……

      甚至Stability AI的前CEOEmad Mostaque看了也表示,中國這次已經(jīng)遙遙領(lǐng)先。

      但快手似乎并不滿足于此。

      可靈Web端上線、更高清畫質(zhì)、首尾幀、鏡頭控制、文生視頻開放到10s;可圖開源……

      隨著快手高級副總裁、主站業(yè)務(wù)與社區(qū)科學(xué)線負(fù)責(zé)人蓋坤宣布多個重磅消息,現(xiàn)場幾度沸騰。

      可靈網(wǎng)頁端上線,文生圖模型重磅開源

      之所以一上線就火到出圈,是因?yàn)榭伸`生成的視頻不僅質(zhì)量高,而且更符合物理規(guī)律,大幅度的運(yùn)動也能準(zhǔn)確刻畫

      比如這個在公路上高速奔跑的老虎,不僅畫面連貫,隨鏡頭角度的變化合理,老虎四肢的動作協(xié)調(diào),而且還把奔跑過程中軀干部分的抖動也展現(xiàn)得淋漓盡致。

      兩周之后的CVPR上,可靈又新上線了圖生視頻視頻續(xù)寫兩項(xiàng)功能。

      其中圖生視頻功能,擁有很強(qiáng)的逼近世界運(yùn)行規(guī)律的能力,比如網(wǎng)友利用可靈,讓《戴珍珠耳環(huán)的少女》中的人物動了起來,玩手機(jī)、喝咖啡、吃蘋果……動作真實(shí)又不失優(yōu)雅。

      而且,該功能還表現(xiàn)出了很強(qiáng)的泛化能力。

      比如一幅水墨畫,加上簡單的提示詞,可靈就能讓水墨畫中的動物惟妙惟肖地運(yùn)動開來。

      但蓋坤介紹,水墨畫這樣的素材在可靈訓(xùn)練的過程中非常少見,甚至連團(tuán)隊(duì)自己都沒見過。

      更有意義的是,可靈的圖生視頻不僅能用來娛樂,還有網(wǎng)友用它“復(fù)活”了長輩的老照片,留下了一段感人的故事……

      而視頻續(xù)寫功能,則可以把前面生成的視頻不斷延長,每次5秒,最長可以擴(kuò)展到三分鐘。

      這次的WAIC上,快手高級副總裁、主站業(yè)務(wù)與社區(qū)科學(xué)線負(fù)責(zé)人蓋坤又宣布,可靈再次迎來一系列重磅更新。這也是可靈從發(fā)布起一個月內(nèi)的第三次大動作。

      首先是基礎(chǔ)模型的升級,可靈生成的視頻,畫質(zhì)得到了進(jìn)一步提升。

      以這個名場面為例,可靈的作品在升級前后的對比是醬嬸兒的,可以看出所有的細(xì)節(jié)處理都比原來更加精細(xì)。

      另外,新版本可以一次性直接生成10秒的視頻,不需要先生成5秒再延長了。

      功能方面,這次可靈還新增了首尾幀控制(圖生視頻)和鏡頭控制(暫只支持文生視頻)。

      只需上傳首尾兩張圖片,可靈就能自動“腦補(bǔ)”出中間的運(yùn)動變化過程。

      素材圖片由快手圖片生成大模型“可圖”生成

      鏡頭控制功能則讓創(chuàng)作者可以直接指定運(yùn)鏡方式,不會寫鏡頭提示詞也不需要再“開盲盒”了。

      對于可靈背后的技術(shù)方案,快手視覺生成與互動中心負(fù)責(zé)人萬鵬飛從模型設(shè)計(jì)、數(shù)據(jù)保障、計(jì)算效率、能力拓展等方面進(jìn)行了深入剖析。

      萬鵬飛介紹,可靈最新發(fā)布的版本中,在運(yùn)動生成、物理規(guī)律、視頻畫質(zhì)、指令響應(yīng)等七個方向的能力亮點(diǎn)實(shí)現(xiàn)了進(jìn)一步升級。

      未來,預(yù)計(jì)視頻生成模型將對游戲、動畫、泛視頻行業(yè)帶來新機(jī)遇,并有望作為世界模擬器,為具身智能提供互動仿真環(huán)境。

      除了模型的升級和功能上的更新,快手還重磅發(fā)布了可靈Web版本(傳送門見文末),可以在PC上更加方便地創(chuàng)作并管理作品了。

      包括Web界面在內(nèi),這些新功能也是堅(jiān)持了快手一以貫之的“不畫餅”原則,發(fā)布即上線,目前限時免費(fèi)體驗(yàn)。

      另外,此次上線的Web界面同時整合了圖片生成功能,它的背后是快手自研的文生圖大模型——可圖。

      而且可圖在這里與可靈深度聯(lián)動,生成圖片后可以一鍵轉(zhuǎn)到圖生視頻,圖生視頻當(dāng)中也可以直接選擇可圖繪制的圖片。

      說回可圖本身,它和其他圖像生成模型相比,擁有更高質(zhì)量和語義跟隨能力,支持的場景也更加豐富。

      在內(nèi)部進(jìn)行的盲測當(dāng)中,可圖取得了第一名的耀眼成績,超越了MidJourney、Stable Diffusion等一系列知名模型。

      在北京智源研究院的第三方測試中,可圖也以75.23分的成績獲得了第二名,僅次于76.66分的DALL·E-3。

      另外,可圖還擁有很強(qiáng)的“寫字”能力,支持在圖像中用真實(shí)的效果嵌入文本。

      而且更懂中文,甚至能理解一些古詩詞,比如韓愈的《春雪》中,一句“白雪卻嫌春色晚,故穿庭樹作飛花”就被可圖還原得淋漓盡致。

      仔細(xì)觀察圖中的細(xì)節(jié),你會發(fā)現(xiàn)遠(yuǎn)處虛化的樹木已經(jīng)變成了綠色,還有樹上已經(jīng)綻放的花朵,都符合了詩句當(dāng)中的季節(jié)設(shè)定。

      可圖的上線時間稍早于可靈,于今年的5月31日向公眾開放,而就在這次的WAIC大會上,蓋坤又隆重宣布,可圖大模型正式開源。

      目前可圖的推理代碼和Checkpoints已經(jīng)在GitHub中公布,未來相關(guān)的LoRA、ControlNet和ComfyUI工作流也將陸續(xù)上線。

      這部分的最后,我們再來展示個小彩蛋——

      將于本月上線的快手首部AIGC短劇《山海奇鏡之劈波斬浪》,就有可靈的深度技術(shù)支持。

      在快手的大模型家族當(dāng)中,可靈和可圖因?yàn)榭梢灾苯佑糜趧?chuàng)作,所以我們的感觸更加直接。

      但其實(shí),快手還擁有更為龐大的“大模型矩陣”。

      快手大模型家族全員亮相

      除了可靈和可圖這樣的視覺生成大模型,快手的大模型矩陣還包括語言大模型、推薦大模型等等。

      比如為了讓你刷到的內(nèi)容更符合你的偏好的、“默默無聞”的推薦大模型。

      蓋坤介紹,快手的推薦大模型基于SIM(Search Interest Model)模型打造,擁有10萬億參數(shù)量

      而且,對每一個用戶,快手推薦大模型處理的行為序列長度,都可以達(dá)到百萬。

      現(xiàn)在,快手大模型團(tuán)隊(duì)正在積極研發(fā)基于Transformer的下一代推薦大模型技術(shù)。

      還有語言模型“快意”,在內(nèi)部盲測中,中文能力已經(jīng)達(dá)到了GPT-4水平。

      快手副總裁、大模型團(tuán)隊(duì)負(fù)責(zé)人張迪介紹,快意大模型從最早開始,已經(jīng)研發(fā)了四個版本。

      從早期的13B版本開始,到現(xiàn)在已經(jīng)有了主力應(yīng)用的175B版本和多模態(tài)版本,經(jīng)過了多個版本的研發(fā)快意大模型已經(jīng)在快手內(nèi)部應(yīng)用在包括素材創(chuàng)作、AI互動和內(nèi)容生產(chǎn)等多個場景中。

      在快手大模型家族中,快意是最基礎(chǔ)的能力,未來除了持續(xù)提升快意大模型的基礎(chǔ)能力之外,團(tuán)隊(duì)還將結(jié)合快手的應(yīng)用場景,做出差異化的功能。

      快手家族的這些大模型覆蓋了生成、推薦和理解等多個層面,并已經(jīng)深度服務(wù)于快手的各大業(yè)務(wù)場景。

      另外,基于系列大模型能力,快手還搭建了數(shù)字人全流程AIGC服務(wù)

      這其中包括了數(shù)字人腳本創(chuàng)意生成、數(shù)字人渲染生成、數(shù)字人實(shí)時互動、智能客服問答等整個流程。

      而在C端,快手也在APP評論區(qū)中上線了基于大模型的智能體“AI小快”,它是快手官方的智能互動小助手,定位是快手用戶有用、有趣且有溫度的聊天搭子。

      你可以問他視頻中各種各樣的內(nèi)容,基于多模態(tài)大模型的理解能力可以做出準(zhǔn)確的回答,而且AI小快也非常有趣,你可以在評論區(qū)畫圖、畫表情包,還能在評論區(qū)各種求安慰、求祝福,實(shí)現(xiàn)情緒價值。

      目前,AI小快有超過1000萬的粉絲量,同時有超過1.5億次的累計(jì)互動,而且這還是在AI小快不會主動對你進(jìn)行評論,只能被動召喚的條件下達(dá)到的。

      總之,借助大模型矩陣中的各種模型,快手用AI把從B端到C端,從服務(wù)到產(chǎn)品的整個生態(tài)都武裝到了牙齒。

      那么,在這背后,快手又有怎樣的戰(zhàn)略布局呢?

      堅(jiān)持自研,擁抱開源開放

      在快手的戰(zhàn)略框架當(dāng)中,堅(jiān)持全棧自研、堅(jiān)持技術(shù)創(chuàng)新是至關(guān)重要的一環(huán)。

      快手團(tuán)隊(duì)在大模型的基礎(chǔ)研究和前沿探索方面持續(xù)投入,從底層芯片算力、網(wǎng)絡(luò)架構(gòu)到頂層應(yīng)用,都能看到快手自研技術(shù)的身影。

      張迪表示,快手認(rèn)為堅(jiān)定投入自主研發(fā)長期來說會帶來“技術(shù)雪球”效應(yīng)以及巨大的成本優(yōu)勢。

      在上層,快手一個非常大的優(yōu)勢是快手本身有非常多的AI應(yīng)用場景,這會給大模型帶來非常多的落地機(jī)會,我非常有信心的說快手可能是國內(nèi)在大模型應(yīng)用上探索最深入的公司。

      放眼于具體,快手的大模型技術(shù)體系涵蓋了文本(快意)、圖像(可圖)、視頻(可靈)等多種數(shù)據(jù)模態(tài),并且強(qiáng)調(diào)多模態(tài)大模型之間的關(guān)聯(lián)互通,實(shí)現(xiàn)更加智能靈活的感知和生成能力。

      在自研精神的驅(qū)動和不斷的研發(fā)投入這下,快手已在視頻生成、對話互動、數(shù)字人等方向取得了行業(yè)領(lǐng)先的突破。

      當(dāng)然,有了完備的技術(shù)體系,還要與實(shí)際應(yīng)用場景深度融合,才能實(shí)現(xiàn)落地,快速產(chǎn)生商業(yè)價值。

      這也是快手戰(zhàn)略體系中的另一個重要環(huán)節(jié)。

      當(dāng)然,得益于龐大的內(nèi)容平臺和創(chuàng)作生態(tài),快手的一個優(yōu)勢,正是更容易找準(zhǔn)大模型技術(shù)的最佳應(yīng)用落點(diǎn)。

      具體說,快手重點(diǎn)聚焦在內(nèi)容推薦、創(chuàng)作助手、互動社區(qū)、電商直播、數(shù)字營銷等幾大場景,力求將大模型技術(shù)嵌入業(yè)務(wù)的各個關(guān)鍵環(huán)節(jié)。

      比如在電商直播場景,快手希望通過虛擬主播、智能導(dǎo)購助手等大模型應(yīng)用,為商家提供了更加智能高效的直播帶貨解決方案;

      又如在數(shù)字營銷當(dāng)中,快手將大模型技術(shù)與廣告平臺深度融合,強(qiáng)化多模態(tài)廣告素材的智能創(chuàng)意生成,提升廣告投放的性價比,為廣告主創(chuàng)造出了更大價值。

      獨(dú)樂樂不如眾樂樂,所以在不斷強(qiáng)化自身之余,快手還積極致力于推動生態(tài)發(fā)展。

      可圖的開源就是一個很好的例證。

      另外,快手不僅與多家高校或科研機(jī)構(gòu)合作進(jìn)行技術(shù)研發(fā),還設(shè)立專項(xiàng)了基金支持,學(xué)術(shù)界的研究創(chuàng)新。

      比如與中國計(jì)算機(jī)學(xué)會(CCF)與快手?jǐn)y手,共同宣布成立“CCF-快手大模型探索者基金”。

      該基金針對“大語言模型”、“視覺理解與生成”等五大核心領(lǐng)域,于本年度推出共計(jì)12個研究項(xiàng)目,每項(xiàng)課題最高可獲30萬元人民幣的支持。

      縱觀整個WAIC大會,大模型、算力、數(shù)據(jù)、AI治理等都是今年的熱點(diǎn)議題。而談及大模型,開源與否又是一個不可避免被談及的問題。

      但快手并沒有參與這場口水仗,而是用行動給出了選擇,用可圖的成績單證明了開源模型的實(shí)力。

      這樣的做法,亦是快手大模型一貫務(wù)實(shí)作風(fēng)的體現(xiàn),不搞花拳繡腿、不開空頭支票,始終堅(jiān)持產(chǎn)品發(fā)布即可用,堅(jiān)定地為用戶做最好的AI技術(shù)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。