上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機(jī)器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機(jī)器也能說人話了?阿里國際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶打造行業(yè)領(lǐng)先的目標(biāo)網(wǎng)絡(luò)AI 3D生成天花板再拉升!清華團(tuán)隊煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實況圖重裝微信:以免丟失微信聊天記錄iPhone16多款機(jī)型破發(fā):最高比官網(wǎng)便宜600元劉積仁不愛“湊熱鬧”,但東軟集團(tuán)喜歡“追風(fēng)口”快手電商新增近800個“0元開店”類目,推出多項新商入駐權(quán)益年內(nèi)狂攬五項第一,“字節(jié)系大模型”何以后發(fā)先至?
  • 首頁 > 云計算頻道 > 大模型

    可靈網(wǎng)頁版來了!基礎(chǔ)模型重磅升級,新功能“炸場”WAIC

    2024年07月08日 09:23:18   來源:量子位公眾號

      “這可能是本屆WAIC上歡呼聲最多的一場發(fā)布”

      在剛剛閉幕的世界人工智能大會(WAIC)上,快手曬出了可靈發(fā)布一個月以來的成績單:

      “超50萬人申請,已開放給超30萬用戶使用,生成超700萬條短視頻。”

      作為全球首個用戶可用的真實影像級視頻生成大模型,可靈一經(jīng)問世便引發(fā)了強(qiáng)烈反響,連外國網(wǎng)友都紛紛投來了羨慕的目光……

      甚至Stability AI的前CEOEmad Mostaque看了也表示,中國這次已經(jīng)遙遙領(lǐng)先。

      但快手似乎并不滿足于此。

      可靈Web端上線、更高清畫質(zhì)、首尾幀、鏡頭控制、文生視頻開放到10s;可圖開源……

      隨著快手高級副總裁、主站業(yè)務(wù)與社區(qū)科學(xué)線負(fù)責(zé)人蓋坤宣布多個重磅消息,現(xiàn)場幾度沸騰。

      可靈網(wǎng)頁端上線,文生圖模型重磅開源

      之所以一上線就火到出圈,是因為可靈生成的視頻不僅質(zhì)量高,而且更符合物理規(guī)律,大幅度的運動也能準(zhǔn)確刻畫

      比如這個在公路上高速奔跑的老虎,不僅畫面連貫,隨鏡頭角度的變化合理,老虎四肢的動作協(xié)調(diào),而且還把奔跑過程中軀干部分的抖動也展現(xiàn)得淋漓盡致。

      兩周之后的CVPR上,可靈又新上線了圖生視頻視頻續(xù)寫兩項功能。

      其中圖生視頻功能,擁有很強(qiáng)的逼近世界運行規(guī)律的能力,比如網(wǎng)友利用可靈,讓《戴珍珠耳環(huán)的少女》中的人物動了起來,玩手機(jī)、喝咖啡、吃蘋果……動作真實又不失優(yōu)雅。

      而且,該功能還表現(xiàn)出了很強(qiáng)的泛化能力

      比如一幅水墨畫,加上簡單的提示詞,可靈就能讓水墨畫中的動物惟妙惟肖地運動開來。

      但蓋坤介紹,水墨畫這樣的素材在可靈訓(xùn)練的過程中非常少見,甚至連團(tuán)隊自己都沒見過。

      更有意義的是,可靈的圖生視頻不僅能用來娛樂,還有網(wǎng)友用它“復(fù)活”了長輩的老照片,留下了一段感人的故事……

      而視頻續(xù)寫功能,則可以把前面生成的視頻不斷延長,每次5秒,最長可以擴(kuò)展到三分鐘。

      這次的WAIC上,快手高級副總裁、主站業(yè)務(wù)與社區(qū)科學(xué)線負(fù)責(zé)人蓋坤又宣布,可靈再次迎來一系列重磅更新。這也是可靈從發(fā)布起一個月內(nèi)的第三次大動作。

      首先是基礎(chǔ)模型的升級,可靈生成的視頻,畫質(zhì)得到了進(jìn)一步提升。

      以這個名場面為例,可靈的作品在升級前后的對比是醬嬸兒的,可以看出所有的細(xì)節(jié)處理都比原來更加精細(xì)。

      另外,新版本可以一次性直接生成10秒的視頻,不需要先生成5秒再延長了。

      功能方面,這次可靈還新增了首尾幀控制(圖生視頻)和鏡頭控制(暫只支持文生視頻)。

      只需上傳首尾兩張圖片,可靈就能自動“腦補”出中間的運動變化過程。

      素材圖片由快手圖片生成大模型“可圖”生成

      鏡頭控制功能則讓創(chuàng)作者可以直接指定運鏡方式,不會寫鏡頭提示詞也不需要再“開盲盒”了。

      對于可靈背后的技術(shù)方案,快手視覺生成與互動中心負(fù)責(zé)人萬鵬飛從模型設(shè)計、數(shù)據(jù)保障、計算效率、能力拓展等方面進(jìn)行了深入剖析。

      萬鵬飛介紹,可靈最新發(fā)布的版本中,在運動生成、物理規(guī)律、視頻畫質(zhì)、指令響應(yīng)等七個方向的能力亮點實現(xiàn)了進(jìn)一步升級。

      未來,預(yù)計視頻生成模型將對游戲、動畫、泛視頻行業(yè)帶來新機(jī)遇,并有望作為世界模擬器,為具身智能提供互動仿真環(huán)境。

      除了模型的升級和功能上的更新,快手還重磅發(fā)布了可靈Web版本(傳送門見文末),可以在PC上更加方便地創(chuàng)作并管理作品了。

      包括Web界面在內(nèi),這些新功能也是堅持了快手一以貫之的“不畫餅”原則,發(fā)布即上線,目前限時免費體驗。

      另外,此次上線的Web界面同時整合了圖片生成功能,它的背后是快手自研的文生圖大模型——可圖。

      而且可圖在這里與可靈深度聯(lián)動,生成圖片后可以一鍵轉(zhuǎn)到圖生視頻,圖生視頻當(dāng)中也可以直接選擇可圖繪制的圖片。

      說回可圖本身,它和其他圖像生成模型相比,擁有更高質(zhì)量和語義跟隨能力,支持的場景也更加豐富。

      在內(nèi)部進(jìn)行的盲測當(dāng)中,可圖取得了第一名的耀眼成績,超越了MidJourney、Stable Diffusion等一系列知名模型。

      在北京智源研究院的第三方測試中,可圖也以75.23分的成績獲得了第二名,僅次于76.66分的DALL·E-3。

      另外,可圖還擁有很強(qiáng)的“寫字”能力,支持在圖像中用真實的效果嵌入文本。

      而且更懂中文,甚至能理解一些古詩詞,比如韓愈的《春雪》中,一句“白雪卻嫌春色晚,故穿庭樹作飛花”就被可圖還原得淋漓盡致。

      仔細(xì)觀察圖中的細(xì)節(jié),你會發(fā)現(xiàn)遠(yuǎn)處虛化的樹木已經(jīng)變成了綠色,還有樹上已經(jīng)綻放的花朵,都符合了詩句當(dāng)中的季節(jié)設(shè)定。

      可圖的上線時間稍早于可靈,于今年的5月31日向公眾開放,而就在這次的WAIC大會上,蓋坤又隆重宣布,可圖大模型正式開源。

      目前可圖的推理代碼和Checkpoints已經(jīng)在GitHub中公布,未來相關(guān)的LoRA、ControlNet和ComfyUI工作流也將陸續(xù)上線。

      這部分的最后,我們再來展示個小彩蛋——

      將于本月上線的快手首部AIGC短劇《山海奇鏡之劈波斬浪》,就有可靈的深度技術(shù)支持。

      在快手的大模型家族當(dāng)中,可靈和可圖因為可以直接用于創(chuàng)作,所以我們的感觸更加直接。

      但其實,快手還擁有更為龐大的“大模型矩陣”。

      快手大模型家族全員亮相

      除了可靈和可圖這樣的視覺生成大模型,快手的大模型矩陣還包括語言大模型、推薦大模型等等。

      比如為了讓你刷到的內(nèi)容更符合你的偏好的、“默默無聞”的推薦大模型

      蓋坤介紹,快手的推薦大模型基于SIM(Search Interest Model)模型打造,擁有10萬億參數(shù)量。

      而且,對每一個用戶,快手推薦大模型處理的行為序列長度,都可以達(dá)到百萬。

      現(xiàn)在,快手大模型團(tuán)隊正在積極研發(fā)基于Transformer的下一代推薦大模型技術(shù)。

      還有語言模型“快意”,在內(nèi)部盲測中,中文能力已經(jīng)達(dá)到了GPT-4水平。

      快手副總裁、大模型團(tuán)隊負(fù)責(zé)人張迪介紹,快意大模型從最早開始,已經(jīng)研發(fā)了四個版本。

      從早期的13B版本開始,到現(xiàn)在已經(jīng)有了主力應(yīng)用的175B版本和多模態(tài)版本,經(jīng)過了多個版本的研發(fā)快意大模型已經(jīng)在快手內(nèi)部應(yīng)用在包括素材創(chuàng)作、AI互動和內(nèi)容生產(chǎn)等多個場景中。

      在快手大模型家族中,快意是最基礎(chǔ)的能力,未來除了持續(xù)提升快意大模型的基礎(chǔ)能力之外,團(tuán)隊還將結(jié)合快手的應(yīng)用場景,做出差異化的功能。

      快手家族的這些大模型覆蓋了生成、推薦和理解等多個層面,并已經(jīng)深度服務(wù)于快手的各大業(yè)務(wù)場景

      另外,基于系列大模型能力,快手還搭建了數(shù)字人全流程AIGC服務(wù)。

      這其中包括了數(shù)字人腳本創(chuàng)意生成、數(shù)字人渲染生成、數(shù)字人實時互動、智能客服問答等整個流程。

      而在C端,快手也在APP評論區(qū)中上線了基于大模型的智能體“AI小快”,它是快手官方的智能互動小助手,定位是快手用戶有用、有趣且有溫度的聊天搭子。

      你可以問他視頻中各種各樣的內(nèi)容,基于多模態(tài)大模型的理解能力可以做出準(zhǔn)確的回答,而且AI小快也非常有趣,你可以在評論區(qū)畫圖、畫表情包,還能在評論區(qū)各種求安慰、求祝福,實現(xiàn)情緒價值。

      目前,AI小快有超過1000萬的粉絲量,同時有超過1.5億次的累計互動,而且這還是在AI小快不會主動對你進(jìn)行評論,只能被動召喚的條件下達(dá)到的。

      總之,借助大模型矩陣中的各種模型,快手用AI把從B端到C端,從服務(wù)到產(chǎn)品的整個生態(tài)都武裝到了牙齒。

      那么,在這背后,快手又有怎樣的戰(zhàn)略布局呢?

      堅持自研,擁抱開源開放

      在快手的戰(zhàn)略框架當(dāng)中,堅持全棧自研、堅持技術(shù)創(chuàng)新是至關(guān)重要的一環(huán)。

      快手團(tuán)隊在大模型的基礎(chǔ)研究和前沿探索方面持續(xù)投入,從底層芯片算力、網(wǎng)絡(luò)架構(gòu)到頂層應(yīng)用,都能看到快手自研技術(shù)的身影。

      張迪表示,快手認(rèn)為堅定投入自主研發(fā)長期來說會帶來“技術(shù)雪球”效應(yīng)以及巨大的成本優(yōu)勢。

      在上層,快手一個非常大的優(yōu)勢是快手本身有非常多的AI應(yīng)用場景,這會給大模型帶來非常多的落地機(jī)會,我非常有信心的說快手可能是國內(nèi)在大模型應(yīng)用上探索最深入的公司。

      放眼于具體,快手的大模型技術(shù)體系涵蓋了文本(快意)、圖像(可圖)、視頻(可靈)等多種數(shù)據(jù)模態(tài),并且強(qiáng)調(diào)多模態(tài)大模型之間的關(guān)聯(lián)互通,實現(xiàn)更加智能靈活的感知和生成能力。

      在自研精神的驅(qū)動和不斷的研發(fā)投入這下,快手已在視頻生成、對話互動、數(shù)字人等方向取得了行業(yè)領(lǐng)先的突破。

      當(dāng)然,有了完備的技術(shù)體系,還要與實際應(yīng)用場景深度融合,才能實現(xiàn)落地,快速產(chǎn)生商業(yè)價值。

      這也是快手戰(zhàn)略體系中的另一個重要環(huán)節(jié)。

      當(dāng)然,得益于龐大的內(nèi)容平臺和創(chuàng)作生態(tài),快手的一個優(yōu)勢,正是更容易找準(zhǔn)大模型技術(shù)的最佳應(yīng)用落點。

      具體說,快手重點聚焦在內(nèi)容推薦、創(chuàng)作助手、互動社區(qū)、電商直播、數(shù)字營銷等幾大場景,力求將大模型技術(shù)嵌入業(yè)務(wù)的各個關(guān)鍵環(huán)節(jié)。

      比如在電商直播場景,快手希望通過虛擬主播、智能導(dǎo)購助手等大模型應(yīng)用,為商家提供了更加智能高效的直播帶貨解決方案;

      又如在數(shù)字營銷當(dāng)中,快手將大模型技術(shù)與廣告平臺深度融合,強(qiáng)化多模態(tài)廣告素材的智能創(chuàng)意生成,提升廣告投放的性價比,為廣告主創(chuàng)造出了更大價值。

      獨樂樂不如眾樂樂,所以在不斷強(qiáng)化自身之余,快手還積極致力于推動生態(tài)發(fā)展。

      可圖的開源就是一個很好的例證。

      另外,快手不僅與多家高;蚩蒲袡C(jī)構(gòu)合作進(jìn)行技術(shù)研發(fā),還設(shè)立專項了基金支持,學(xué)術(shù)界的研究創(chuàng)新。

      比如與中國計算機(jī)學(xué)會(CCF)與快手?jǐn)y手,共同宣布成立“CCF-快手大模型探索者基金”

      該基金針對“大語言模型”、“視覺理解與生成”等五大核心領(lǐng)域,于本年度推出共計12個研究項目,每項課題最高可獲30萬元人民幣的支持。

      縱觀整個WAIC大會,大模型、算力、數(shù)據(jù)、AI治理等都是今年的熱點議題。而談及大模型,開源與否又是一個不可避免被談及的問題。

      但快手并沒有參與這場口水仗,而是用行動給出了選擇,用可圖的成績單證明了開源模型的實力。

      這樣的做法,亦是快手大模型一貫務(wù)實作風(fēng)的體現(xiàn),不搞花拳繡腿、不開空頭支票,始終堅持產(chǎn)品發(fā)布即可用,堅定地為用戶做最好的AI技術(shù)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。