多模態(tài)大模型，阿里通義千問(wèn)能和GPT-4V掰手腕了

2024年01月26日 15:35:25 來(lái)源：機(jī)器之心公眾號(hào)

　　2024 年，大模型領(lǐng)域要卷什么?

　　如果沒(méi)有思路的話，不妨看看各家大廠都在押注什么方向。

　　最近一段時(shí)間，先是 OpenAI 推出 GPT-4V，讓大模型擁有了前所未有的圖像語(yǔ)義理解能力。

　　谷歌隨后跟上，發(fā)布的 Gemini 成為了業(yè)界第一個(gè)原生的多模態(tài)大模型，它可以泛化并無(wú)縫地理解、操作和組合不同類型的信息，包括文本、代碼、音頻、圖像和視頻。

　　很明顯，新的方向就是多模態(tài)。繼 GPT-4 在語(yǔ)言方向的里程碑式突破之后，業(yè)界普遍認(rèn)為「視覺(jué)」是下一個(gè)爆發(fā)的賽道。畢竟人類的五感之中有 80% 是視覺(jué)信息，未來(lái)的大模型也應(yīng)該充分利用更多種類的感官，以此探索實(shí)現(xiàn) AGI 的路徑。

　　不只有 GPT-4V、Gemini，在這個(gè)充滿潛力的方向上，國(guó)內(nèi)的技術(shù)力量同樣值得關(guān)注：最近的一個(gè)重要發(fā)布就來(lái)自阿里，他們新升級(jí)的通義千問(wèn)視覺(jué)語(yǔ)言大模型 Qwen-VL-Max 在上周正式發(fā)布，在多個(gè)測(cè)評(píng)基準(zhǔn)上取得了好成績(jī)，并實(shí)現(xiàn)了強(qiáng)大的圖像理解的能力。

　　我們還記得 Gemini 發(fā)布之后，谷歌馬上被曝出給 Demo 加速。這讓人們對(duì)新技術(shù)產(chǎn)生了一些質(zhì)疑，并開(kāi)始好奇：在當(dāng)下的各路多模態(tài)大模型中，到底哪家比較強(qiáng)?

　　Demo 不作數(shù)，實(shí)際一測(cè)便知。有人拿著自己的名片給 GPT-4V 和 Qwen-VL-Plus 看，高下立見(jiàn)了：值得注意的是，去年底升級(jí)的 Plus 版還不是 Qwen-VL 的最強(qiáng)版本，最近發(fā)布的 Max 才是。

圖源：https://x.com/altryne/status/1742597044781395982?s=20

　　在 Qwen-VL-Plus 發(fā)布后，國(guó)內(nèi)也有人拿 Gemini 演示視頻里的問(wèn)題對(duì)它進(jìn)行了測(cè)試，發(fā)現(xiàn)所有問(wèn)題 Qwen-VL-Plus 完全都能回答上來(lái)。

　　一系列測(cè)評(píng)看下來(lái)，我們確實(shí)可以說(shuō)，Qwen-VL 的整體能力已經(jīng)達(dá)到了媲美 GPT-4V 和 Gemini 的水平，在多模態(tài)大模型領(lǐng)域?qū)崿F(xiàn)了業(yè)內(nèi)領(lǐng)先。

　　Qwen-VL 如何追平 GPT-4V、Gemini?

　　事實(shí)上，通義千問(wèn)的視覺(jué)理解大模型已經(jīng)經(jīng)歷了幾輪迭代。

　　早在去年 8 月，阿里就放出了 Qwen-VL 模型的第一個(gè)版本，并很快對(duì)通義千問(wèn)進(jìn)行了升級(jí)。Qwen-VL 支持以圖像、文本作為輸入，并以文本、圖像、檢測(cè)框作為輸出，讓大模型真正具備了「看」世界的能力。

　　經(jīng)歷了幾個(gè)月的改進(jìn)，Qwen-VL 的整體能力又有了一個(gè)躍升，陸續(xù)推出 Plus 和 Max 兩大升級(jí)版本，限時(shí)免費(fèi)使用。用戶可以在通義千問(wèn)官網(wǎng)、通義千問(wèn) APP 直接體驗(yàn) Max 版本模型的能力，也可以通過(guò)阿里云靈積平臺(tái)(DashScope)調(diào)用模型 API。

　　相比于開(kāi)源版本的 Qwen-VL，這兩個(gè)模型在多項(xiàng)圖文多模態(tài)標(biāo)準(zhǔn)測(cè)試中獲得了堪比 Gemini Ultra 和 GPT-4V 的水準(zhǔn)，并大幅超越此前開(kāi)源模型的最佳水平。

　　在多模態(tài)大模型性能整體榜單 OpenCompass 中，Qwen-VL-Plus 緊隨 Gemini Pro 和 GPT-4V，占據(jù)了前三名的位置。

圖片來(lái)源：https://opencompass.org.cn/leaderboard-multimodal

　　Qwen-VL Plus 和 Max 支持百萬(wàn)像素以上的高清圖，甚至各種極端長(zhǎng)寬比的圖片。

　　它們不僅有高水平的基準(zhǔn)評(píng)測(cè)性能，在真實(shí)場(chǎng)景中展現(xiàn)出來(lái)的解決問(wèn)題的能力也有顯著提高，不僅可以輕松進(jìn)行對(duì)話，識(shí)別名人、地標(biāo)，生成文本內(nèi)容，視覺(jué)推理能力也有明顯改善。

　　開(kāi)發(fā)者一手實(shí)測(cè)

　　Qwen-VL 發(fā)布以來(lái)，從開(kāi)源社區(qū)到社交網(wǎng)絡(luò)上，我們已經(jīng)看到了一系列「花活」。

　　接下來(lái)，我們從普通用戶的角度，再來(lái)考驗(yàn)一下升級(jí)版的 Qwen-VL。

　　給它一張《繁花》里面 90 年代初的上海灘照片：

　　通義千問(wèn)識(shí)別出了這里是上海外灘，還能介紹一下黃浦江的景色，以及上海海關(guān)大樓等特定建筑物。

　　劇中提到的炒飯內(nèi)含多少卡路里?

　　看起來(lái)大模型可以理解并聯(lián)系一些知識(shí)。

　　除了基礎(chǔ)的描述和識(shí)別能力外，Qwen-VL 模型還具備視覺(jué)定位能力和針對(duì)畫(huà)面指定區(qū)域進(jìn)行問(wèn)答的能力。比如，根據(jù)指示進(jìn)行目標(biāo)檢測(cè)。

　　新升級(jí)的 Qwen-VL 模型最顯著的進(jìn)步之一是基于視覺(jué)完成復(fù)雜推理的能力，比如理解流程圖這種復(fù)雜的表示形式：

　　與此同時(shí)，升級(jí)后的 Qwen-VL 處理圖像中文本的能力也有了顯著提高，不管是識(shí)別中文還是英文文本。Qwen-VL-Plus/Max 可以有效地從表格和文檔中提取信息，并將這些信息重新格式化，以滿足自定義輸出要求。

　　四個(gè)多月就有如此進(jìn)步，這就讓人們開(kāi)始感嘆，阿里通義千問(wèn)大模型更新夠快，能力夠強(qiáng)。

　　阿里多模態(tài)大模型，正在爆炸式發(fā)展

　　能夠達(dá)到如今的水準(zhǔn)，Qwen-VL 的技術(shù)實(shí)力不是一朝一夕煉成的。

　　在多模態(tài)大模型方向上，阿里很早就開(kāi)始布局。從 2021 年 M6 系列的預(yù)訓(xùn)練 - 微調(diào)模式，到 2022 年 OFA (One-For-All) 系列的統(tǒng)一模態(tài)表示和任務(wù)的模式，再到 OFASys 的系統(tǒng)化 AI 學(xué)習(xí)的嘗試，通義千問(wèn)團(tuán)隊(duì)的目標(biāo)是做出和人一樣能聽(tīng)、能看、能理解 & 溝通的通用 AI 模型(系統(tǒng))。

　　2022 年，阿里開(kāi)源了 OFA。OFA 能通過(guò)自然語(yǔ)言來(lái)描述一個(gè)圖文多模態(tài)任務(wù)，比如輸入「描述一下這張圖片」，模型就會(huì)嘗試去產(chǎn)生一個(gè)合適的圖像描述，打破了大家對(duì)通用多模態(tài)任務(wù)模型效果不如專用多模態(tài)模型的傳統(tǒng)觀念。這篇被 ICML 2022 接收的論文思路啟發(fā)了后續(xù)的許多研究，被谷歌、微軟、Meta 等眾多國(guó)際大廠所引用，是近年來(lái)多模態(tài)方向的高引論文之一。

　　2023 年以來(lái)，通義千問(wèn)團(tuán)隊(duì)延續(xù)了 OFA 的研究路線，利用通義千問(wèn)語(yǔ)言模型的能力，彌補(bǔ)了過(guò)去多模態(tài)模型在新任務(wù)泛化能力上的缺陷，相關(guān)成果就是 2023 年下半年我們看到的開(kāi)源圖文多模態(tài)模型 Qwen-VL 和音頻多模態(tài)模型 Qwen-Audio。

　　與此同時(shí)，阿里云通義實(shí)驗(yàn)室的一系列視覺(jué)生成類成果，也徹底火出了圈，社交網(wǎng)絡(luò)上時(shí)不時(shí)可以看到利用通義 AI 技術(shù)生成的動(dòng)圖。

　　比如只需一張圖片即可生成跳舞視頻的 Animate Anyone，在國(guó)內(nèi)外都引發(fā)了大量關(guān)注：

　　再比如實(shí)現(xiàn)真人百變換裝的 Outfit Anyone。這項(xiàng)技術(shù)不僅能夠精確地處理服裝的變形效果，并且能調(diào)整以適應(yīng)不同的姿勢(shì)和體形，實(shí)現(xiàn)更加逼真的試穿體驗(yàn)。無(wú)論是動(dòng)畫(huà)形象還是真人，都可以一鍵換裝，讓「QQ 秀」真正升級(jí)成了真人版。

　　此外，通義實(shí)驗(yàn)室的文生視頻模型 I2VGen-XL 也是實(shí)實(shí)在在地火了一把，生成的視頻兼顧高清、高分辨率、平滑、美觀，毫不遜于 Gen2、Pika 效果。

　　眾所周知，通用人工智能的求索之路相當(dāng)漫長(zhǎng)，而大模型的技術(shù)突破，已經(jīng)為我們指出了一個(gè)光明的方向。過(guò)去一年多，人們見(jiàn)證了一場(chǎng)激烈的 AI 技術(shù)角逐，賽道上不乏來(lái)自中國(guó)的選手。

　　以往，大模型領(lǐng)域的廠商大多以 OpenAI 為標(biāo)桿，需要承認(rèn)的是，OpenAI 的最新一代對(duì)話大模型 GPT-4 仍然在語(yǔ)言領(lǐng)域保持著領(lǐng)先優(yōu)勢(shì)。

　　但在接下來(lái)的 2024 年，在下一個(gè)最具爆發(fā)潛力的技術(shù)方向 —— 多模態(tài)大模型上，中國(guó)的技術(shù)與產(chǎn)品或可與 OpenAI、谷歌這樣的選手掰一掰手腕。像 Qwen-VL 這樣的國(guó)產(chǎn)大模型，能否實(shí)現(xiàn)從追平到進(jìn)一步超越?會(huì)不會(huì)再誕生一批爆款應(yīng)用?這些都是接下來(lái)一年值得期待的事情。

　　長(zhǎng)遠(yuǎn)來(lái)看，在多模態(tài)大模型進(jìn)一步實(shí)用化之后，我們以后可以更加理直氣壯，讓 AI 自動(dòng)識(shí)別圖像和音頻中的內(nèi)容，進(jìn)行總結(jié)、摘要和分析，新技術(shù)勢(shì)必會(huì)大幅度提升我們的工作效率;我們?cè)?AR、VR 世界中與環(huán)境的交互也會(huì)更加便捷，可穿戴設(shè)備的體驗(yàn)將會(huì)更具真實(shí)感，新應(yīng)用可以大幅改進(jìn)娛樂(lè)和日常體驗(yàn)。

　　更加直觀的是，多模態(tài)大模型能夠根據(jù)每個(gè)人的喜好生成定制化內(nèi)容和產(chǎn)品，對(duì)于阿里來(lái)說(shuō)，這件事很重要。

　　或許，隨著多模態(tài)大模型技術(shù)的突破，我們將很快看到電商領(lǐng)域發(fā)生一場(chǎng)革命。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信