OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號(hào)能穿十堵墻一加 Ace 5 Pro首發(fā)電競(jìng)Wi-Fi芯片G1 帶來(lái)「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗(yàn)電視市場(chǎng)又出黑馬!TCL同檔Mini LED音畫(huà)王P12K,萬(wàn)象分區(qū)打造超強(qiáng)控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強(qiáng)者恒強(qiáng)?——《中國(guó)企業(yè)科創(chuàng)力研究報(bào)告(2024)》美團(tuán)年度報(bào)告竟然用上了AI和短?這下是真出圈了消息稱上汽大眾正開(kāi)發(fā)三款新車,技術(shù)分別來(lái)自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開(kāi)啟全量推送!升級(jí)自動(dòng)泊車/接駕等多項(xiàng)功能華為官方翻新手機(jī)最高降價(jià)4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲(chóng)外觀設(shè)計(jì):看過(guò)實(shí)車的人都喜歡這個(gè)設(shè)計(jì)林杰:未來(lái) A 級(jí)、A0 級(jí)、A00 級(jí)車型都將是領(lǐng)克純電的“主場(chǎng)”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬(wàn)象分區(qū)、絢彩XDR、量子點(diǎn)Pro 2025齊出手,TCL引領(lǐng)觀影體驗(yàn)新變革!QQ音樂(lè)年度聽(tīng)歌報(bào)告發(fā)布:誰(shuí)是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒(méi)有了任何阻礙「送禮物」難撬動(dòng)社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁(yè)技術(shù)報(bào)告出爐2024年結(jié)束,哪里是原創(chuàng)動(dòng)畫(huà)的應(yīng)許之地?深扒一個(gè)正被游戲行業(yè)「搶占」的流量帝國(guó)
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    多模態(tài)大模型,阿里通義千問(wèn)能和GPT-4V掰手腕了

    2024年01月26日 15:35:25   來(lái)源:機(jī)器之心公眾號(hào)

      2024 年,大模型領(lǐng)域要卷什么?

      如果沒(méi)有思路的話,不妨看看各家大廠都在押注什么方向。

      最近一段時(shí)間,先是 OpenAI 推出 GPT-4V,讓大模型擁有了前所未有的圖像語(yǔ)義理解能力。

      谷歌隨后跟上,發(fā)布的 Gemini 成為了業(yè)界第一個(gè)原生的多模態(tài)大模型,它可以泛化并無(wú)縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。

      很明顯,新的方向就是多模態(tài)。繼 GPT-4 在語(yǔ)言方向的里程碑式突破之后,業(yè)界普遍認(rèn)為「視覺(jué)」是下一個(gè)爆發(fā)的賽道。畢竟人類的五感之中有 80% 是視覺(jué)信息,未來(lái)的大模型也應(yīng)該充分利用更多種類的感官,以此探索實(shí)現(xiàn) AGI 的路徑。

      不只有 GPT-4V、Gemini,在這個(gè)充滿潛力的方向上,國(guó)內(nèi)的技術(shù)力量同樣值得關(guān)注:最近的一個(gè)重要發(fā)布就來(lái)自阿里,他們新升級(jí)的通義千問(wèn)視覺(jué)語(yǔ)言大模型 Qwen-VL-Max 在上周正式發(fā)布,在多個(gè)測(cè)評(píng)基準(zhǔn)上取得了好成績(jī),并實(shí)現(xiàn)了強(qiáng)大的圖像理解的能力。

      我們還記得 Gemini 發(fā)布之后,谷歌馬上被曝出給 Demo 加速。這讓人們對(duì)新技術(shù)產(chǎn)生了一些質(zhì)疑,并開(kāi)始好奇:在當(dāng)下的各路多模態(tài)大模型中,到底哪家比較強(qiáng)?

      Demo 不作數(shù),實(shí)際一測(cè)便知。有人拿著自己的名片給 GPT-4V 和 Qwen-VL-Plus 看,高下立見(jiàn)了:值得注意的是,去年底升級(jí)的 Plus 版還不是 Qwen-VL 的最強(qiáng)版本,最近發(fā)布的 Max 才是。

    圖源:https://x.com/altryne/status/1742597044781395982?s=20

    圖源:https://x.com/altryne/status/1742597044781395982?s=20

      在 Qwen-VL-Plus 發(fā)布后,國(guó)內(nèi)也有人拿 Gemini 演示視頻里的問(wèn)題對(duì)它進(jìn)行了測(cè)試,發(fā)現(xiàn)所有問(wèn)題 Qwen-VL-Plus 完全都能回答上來(lái)。

      一系列測(cè)評(píng)看下來(lái),我們確實(shí)可以說(shuō),Qwen-VL 的整體能力已經(jīng)達(dá)到了媲美 GPT-4V 和 Gemini 的水平,在多模態(tài)大模型領(lǐng)域?qū)崿F(xiàn)了業(yè)內(nèi)領(lǐng)先。

      Qwen-VL 如何追平 GPT-4V、Gemini?

      事實(shí)上,通義千問(wèn)的視覺(jué)理解大模型已經(jīng)經(jīng)歷了幾輪迭代。

      早在去年 8 月,阿里就放出了 Qwen-VL 模型的第一個(gè)版本,并很快對(duì)通義千問(wèn)進(jìn)行了升級(jí)。Qwen-VL 支持以圖像、文本作為輸入,并以文本、圖像、檢測(cè)框作為輸出,讓大模型真正具備了「看」世界的能力。

      經(jīng)歷了幾個(gè)月的改進(jìn),Qwen-VL 的整體能力又有了一個(gè)躍升,陸續(xù)推出 Plus 和 Max 兩大升級(jí)版本,限時(shí)免費(fèi)使用。用戶可以在通義千問(wèn)官網(wǎng)、通義千問(wèn) APP 直接體驗(yàn) Max 版本模型的能力,也可以通過(guò)阿里云靈積平臺(tái)(DashScope)調(diào)用模型 API。

      相比于開(kāi)源版本的 Qwen-VL,這兩個(gè)模型在多項(xiàng)圖文多模態(tài)標(biāo)準(zhǔn)測(cè)試中獲得了堪比 Gemini Ultra 和 GPT-4V 的水準(zhǔn),并大幅超越此前開(kāi)源模型的最佳水平。

      在多模態(tài)大模型性能整體榜單 OpenCompass 中,Qwen-VL-Plus 緊隨 Gemini Pro 和 GPT-4V,占據(jù)了前三名的位置。

    圖片來(lái)源:https://opencompass.org.cn/leaderboard-multimodal

      Qwen-VL Plus 和 Max 支持百萬(wàn)像素以上的高清圖,甚至各種極端長(zhǎng)寬比的圖片。

      它們不僅有高水平的基準(zhǔn)評(píng)測(cè)性能,在真實(shí)場(chǎng)景中展現(xiàn)出來(lái)的解決問(wèn)題的能力也有顯著提高,不僅可以輕松進(jìn)行對(duì)話,識(shí)別名人、地標(biāo),生成文本內(nèi)容,視覺(jué)推理能力也有明顯改善。

      開(kāi)發(fā)者一手實(shí)測(cè)

      Qwen-VL 發(fā)布以來(lái),從開(kāi)源社區(qū)到社交網(wǎng)絡(luò)上,我們已經(jīng)看到了一系列「花活」。

      接下來(lái),我們從普通用戶的角度,再來(lái)考驗(yàn)一下升級(jí)版的 Qwen-VL。

      給它一張《繁花》里面 90 年代初的上海灘照片:

      通義千問(wèn)識(shí)別出了這里是上海外灘,還能介紹一下黃浦江的景色,以及上海海關(guān)大樓等特定建筑物。

      劇中提到的炒飯內(nèi)含多少卡路里?

      看起來(lái)大模型可以理解并聯(lián)系一些知識(shí)。

      除了基礎(chǔ)的描述和識(shí)別能力外,Qwen-VL 模型還具備視覺(jué)定位能力和針對(duì)畫(huà)面指定區(qū)域進(jìn)行問(wèn)答的能力。比如,根據(jù)指示進(jìn)行目標(biāo)檢測(cè)。

      新升級(jí)的 Qwen-VL 模型最顯著的進(jìn)步之一是基于視覺(jué)完成復(fù)雜推理的能力,比如理解流程圖這種復(fù)雜的表示形式:

      與此同時(shí),升級(jí)后的 Qwen-VL 處理圖像中文本的能力也有了顯著提高,不管是識(shí)別中文還是英文文本。Qwen-VL-Plus/Max 可以有效地從表格和文檔中提取信息,并將這些信息重新格式化,以滿足自定義輸出要求。

      四個(gè)多月就有如此進(jìn)步,這就讓人們開(kāi)始感嘆,阿里通義千問(wèn)大模型更新夠快,能力夠強(qiáng)。

      阿里多模態(tài)大模型,正在爆炸式發(fā)展

      能夠達(dá)到如今的水準(zhǔn),Qwen-VL 的技術(shù)實(shí)力不是一朝一夕煉成的。

      在多模態(tài)大模型方向上,阿里很早就開(kāi)始布局。從 2021 年 M6 系列的預(yù)訓(xùn)練 - 微調(diào)模式,到 2022 年 OFA (One-For-All) 系列的統(tǒng)一模態(tài)表示和任務(wù)的模式,再到 OFASys 的系統(tǒng)化 AI 學(xué)習(xí)的嘗試,通義千問(wèn)團(tuán)隊(duì)的目標(biāo)是做出和人一樣能聽(tīng)、能看、能理解 & 溝通的通用 AI 模型(系統(tǒng))。

      2022 年,阿里開(kāi)源了 OFA。OFA 能通過(guò)自然語(yǔ)言來(lái)描述一個(gè)圖文多模態(tài)任務(wù),比如輸入「描述一下這張圖片」,模型就會(huì)嘗試去產(chǎn)生一個(gè)合適的圖像描述,打破了大家對(duì)通用多模態(tài)任務(wù)模型效果不如專用多模態(tài)模型的傳統(tǒng)觀念。這篇被 ICML 2022 接收的論文思路啟發(fā)了后續(xù)的許多研究,被谷歌、微軟、Meta 等眾多國(guó)際大廠所引用,是近年來(lái)多模態(tài)方向的高引論文之一。

      2023 年以來(lái),通義千問(wèn)團(tuán)隊(duì)延續(xù)了 OFA 的研究路線,利用通義千問(wèn)語(yǔ)言模型的能力,彌補(bǔ)了過(guò)去多模態(tài)模型在新任務(wù)泛化能力上的缺陷,相關(guān)成果就是 2023 年下半年我們看到的開(kāi)源圖文多模態(tài)模型 Qwen-VL 和音頻多模態(tài)模型 Qwen-Audio。

      與此同時(shí),阿里云通義實(shí)驗(yàn)室的一系列視覺(jué)生成類成果,也徹底火出了圈,社交網(wǎng)絡(luò)上時(shí)不時(shí)可以看到利用通義 AI 技術(shù)生成的動(dòng)圖。

      比如只需一張圖片即可生成跳舞視頻的 Animate Anyone,在國(guó)內(nèi)外都引發(fā)了大量關(guān)注:

      再比如實(shí)現(xiàn)真人百變換裝的 Outfit Anyone。這項(xiàng)技術(shù)不僅能夠精確地處理服裝的變形效果,并且能調(diào)整以適應(yīng)不同的姿勢(shì)和體形,實(shí)現(xiàn)更加逼真的試穿體驗(yàn)。無(wú)論是動(dòng)畫(huà)形象還是真人,都可以一鍵換裝,讓「QQ 秀」真正升級(jí)成了真人版。

      此外,通義實(shí)驗(yàn)室的文生視頻模型 I2VGen-XL 也是實(shí)實(shí)在在地火了一把,生成的視頻兼顧高清、高分辨率、平滑、美觀,毫不遜于 Gen2、Pika 效果。

      眾所周知,通用人工智能的求索之路相當(dāng)漫長(zhǎng),而大模型的技術(shù)突破,已經(jīng)為我們指出了一個(gè)光明的方向。過(guò)去一年多,人們見(jiàn)證了一場(chǎng)激烈的 AI 技術(shù)角逐,賽道上不乏來(lái)自中國(guó)的選手。

      以往,大模型領(lǐng)域的廠商大多以 OpenAI 為標(biāo)桿,需要承認(rèn)的是,OpenAI 的最新一代對(duì)話大模型 GPT-4 仍然在語(yǔ)言領(lǐng)域保持著領(lǐng)先優(yōu)勢(shì)。

      但在接下來(lái)的 2024 年,在下一個(gè)最具爆發(fā)潛力的技術(shù)方向 —— 多模態(tài)大模型上,中國(guó)的技術(shù)與產(chǎn)品或可與 OpenAI、谷歌這樣的選手掰一掰手腕。像 Qwen-VL 這樣的國(guó)產(chǎn)大模型,能否實(shí)現(xiàn)從追平到進(jìn)一步超越?會(huì)不會(huì)再誕生一批爆款應(yīng)用?這些都是接下來(lái)一年值得期待的事情。

      長(zhǎng)遠(yuǎn)來(lái)看,在多模態(tài)大模型進(jìn)一步實(shí)用化之后,我們以后可以更加理直氣壯,讓 AI 自動(dòng)識(shí)別圖像和音頻中的內(nèi)容,進(jìn)行總結(jié)、摘要和分析,新技術(shù)勢(shì)必會(huì)大幅度提升我們的工作效率;我們?cè)?AR、VR 世界中與環(huán)境的交互也會(huì)更加便捷,可穿戴設(shè)備的體驗(yàn)將會(huì)更具真實(shí)感,新應(yīng)用可以大幅改進(jìn)娛樂(lè)和日常體驗(yàn)。

      更加直觀的是,多模態(tài)大模型能夠根據(jù)每個(gè)人的喜好生成定制化內(nèi)容和產(chǎn)品,對(duì)于阿里來(lái)說(shuō),這件事很重要。

      或許,隨著多模態(tài)大模型技術(shù)的突破,我們將很快看到電商領(lǐng)域發(fā)生一場(chǎng)革命。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。