宏景智駕完成數(shù)億元C輪融資植物生長(zhǎng)好幫手:廣明源金線蓮組培燈照亮生長(zhǎng)每一步ROG純白系列DIY好物:簡(jiǎn)約不失高雅,買它準(zhǔn)沒錯(cuò)!穩(wěn)扎穩(wěn)打,中影光峰4K 14米 VLED LED電影屏通過DCI認(rèn)證并投入市場(chǎng)安吉爾空間大師亮相IFA 斬獲年度創(chuàng)新產(chǎn)品成果大獎(jiǎng)電動(dòng)自行車強(qiáng)制性“國(guó)標(biāo)”再修訂,綠源電動(dòng)車以創(chuàng)新技術(shù)引領(lǐng)產(chǎn)業(yè)高質(zhì)量發(fā)展輕松籌:十年深耕大健康領(lǐng)域,打造全方位健康保障生態(tài)面對(duì)承壓的小家電市場(chǎng),小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營(yíng)收比超5%,科沃斯、石頭科技升高技術(shù)壁壘激光顯示全面“向新”發(fā)展,未來激光電視主機(jī)僅有iPad大小2024年冷年空調(diào)市場(chǎng)總結(jié):規(guī)模下探,結(jié)構(gòu)降級(jí),空調(diào)行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學(xué)能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經(jīng)典配色!索尼發(fā)布30周年紀(jì)念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動(dòng)能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機(jī)型蓄勢(shì)待發(fā)云天勵(lì)飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充
  • 首頁 > 云計(jì)算頻道 > 大模型

    多模態(tài)大模型,阿里通義千問能和GPT-4V掰手腕了

    2024年01月26日 15:35:25   來源:機(jī)器之心公眾號(hào)

      2024 年,大模型領(lǐng)域要卷什么?

      如果沒有思路的話,不妨看看各家大廠都在押注什么方向。

      最近一段時(shí)間,先是 OpenAI 推出 GPT-4V,讓大模型擁有了前所未有的圖像語義理解能力。

      谷歌隨后跟上,發(fā)布的 Gemini 成為了業(yè)界第一個(gè)原生的多模態(tài)大模型,它可以泛化并無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。

      很明顯,新的方向就是多模態(tài)。繼 GPT-4 在語言方向的里程碑式突破之后,業(yè)界普遍認(rèn)為「視覺」是下一個(gè)爆發(fā)的賽道。畢竟人類的五感之中有 80% 是視覺信息,未來的大模型也應(yīng)該充分利用更多種類的感官,以此探索實(shí)現(xiàn) AGI 的路徑。

      不只有 GPT-4V、Gemini,在這個(gè)充滿潛力的方向上,國(guó)內(nèi)的技術(shù)力量同樣值得關(guān)注:最近的一個(gè)重要發(fā)布就來自阿里,他們新升級(jí)的通義千問視覺語言大模型 Qwen-VL-Max 在上周正式發(fā)布,在多個(gè)測(cè)評(píng)基準(zhǔn)上取得了好成績(jī),并實(shí)現(xiàn)了強(qiáng)大的圖像理解的能力。

      我們還記得 Gemini 發(fā)布之后,谷歌馬上被曝出給 Demo 加速。這讓人們對(duì)新技術(shù)產(chǎn)生了一些質(zhì)疑,并開始好奇:在當(dāng)下的各路多模態(tài)大模型中,到底哪家比較強(qiáng)?

      Demo 不作數(shù),實(shí)際一測(cè)便知。有人拿著自己的名片給 GPT-4V 和 Qwen-VL-Plus 看,高下立見了:值得注意的是,去年底升級(jí)的 Plus 版還不是 Qwen-VL 的最強(qiáng)版本,最近發(fā)布的 Max 才是。

    圖源:https://x.com/altryne/status/1742597044781395982?s=20

    圖源:https://x.com/altryne/status/1742597044781395982?s=20

      在 Qwen-VL-Plus 發(fā)布后,國(guó)內(nèi)也有人拿 Gemini 演示視頻里的問題對(duì)它進(jìn)行了測(cè)試,發(fā)現(xiàn)所有問題 Qwen-VL-Plus 完全都能回答上來。

      一系列測(cè)評(píng)看下來,我們確實(shí)可以說,Qwen-VL 的整體能力已經(jīng)達(dá)到了媲美 GPT-4V 和 Gemini 的水平,在多模態(tài)大模型領(lǐng)域?qū)崿F(xiàn)了業(yè)內(nèi)領(lǐng)先。

      Qwen-VL 如何追平 GPT-4V、Gemini?

      事實(shí)上,通義千問的視覺理解大模型已經(jīng)經(jīng)歷了幾輪迭代。

      早在去年 8 月,阿里就放出了 Qwen-VL 模型的第一個(gè)版本,并很快對(duì)通義千問進(jìn)行了升級(jí)。Qwen-VL 支持以圖像、文本作為輸入,并以文本、圖像、檢測(cè)框作為輸出,讓大模型真正具備了「看」世界的能力。

      經(jīng)歷了幾個(gè)月的改進(jìn),Qwen-VL 的整體能力又有了一個(gè)躍升,陸續(xù)推出 Plus 和 Max 兩大升級(jí)版本,限時(shí)免費(fèi)使用。用戶可以在通義千問官網(wǎng)、通義千問 APP 直接體驗(yàn) Max 版本模型的能力,也可以通過阿里云靈積平臺(tái)(DashScope)調(diào)用模型 API。

      相比于開源版本的 Qwen-VL,這兩個(gè)模型在多項(xiàng)圖文多模態(tài)標(biāo)準(zhǔn)測(cè)試中獲得了堪比 Gemini Ultra 和 GPT-4V 的水準(zhǔn),并大幅超越此前開源模型的最佳水平。

      在多模態(tài)大模型性能整體榜單 OpenCompass 中,Qwen-VL-Plus 緊隨 Gemini Pro 和 GPT-4V,占據(jù)了前三名的位置。

    圖片來源:https://opencompass.org.cn/leaderboard-multimodal

      Qwen-VL Plus 和 Max 支持百萬像素以上的高清圖,甚至各種極端長(zhǎng)寬比的圖片。

      它們不僅有高水平的基準(zhǔn)評(píng)測(cè)性能,在真實(shí)場(chǎng)景中展現(xiàn)出來的解決問題的能力也有顯著提高,不僅可以輕松進(jìn)行對(duì)話,識(shí)別名人、地標(biāo),生成文本內(nèi)容,視覺推理能力也有明顯改善。

      開發(fā)者一手實(shí)測(cè)

      Qwen-VL 發(fā)布以來,從開源社區(qū)到社交網(wǎng)絡(luò)上,我們已經(jīng)看到了一系列「花活」。

      接下來,我們從普通用戶的角度,再來考驗(yàn)一下升級(jí)版的 Qwen-VL。

      給它一張《繁花》里面 90 年代初的上海灘照片:

      通義千問識(shí)別出了這里是上海外灘,還能介紹一下黃浦江的景色,以及上海海關(guān)大樓等特定建筑物。

      劇中提到的炒飯內(nèi)含多少卡路里?

      看起來大模型可以理解并聯(lián)系一些知識(shí)。

      除了基礎(chǔ)的描述和識(shí)別能力外,Qwen-VL 模型還具備視覺定位能力和針對(duì)畫面指定區(qū)域進(jìn)行問答的能力。比如,根據(jù)指示進(jìn)行目標(biāo)檢測(cè)。

      新升級(jí)的 Qwen-VL 模型最顯著的進(jìn)步之一是基于視覺完成復(fù)雜推理的能力,比如理解流程圖這種復(fù)雜的表示形式:

      與此同時(shí),升級(jí)后的 Qwen-VL 處理圖像中文本的能力也有了顯著提高,不管是識(shí)別中文還是英文文本。Qwen-VL-Plus/Max 可以有效地從表格和文檔中提取信息,并將這些信息重新格式化,以滿足自定義輸出要求。

      四個(gè)多月就有如此進(jìn)步,這就讓人們開始感嘆,阿里通義千問大模型更新夠快,能力夠強(qiáng)。

      阿里多模態(tài)大模型,正在爆炸式發(fā)展

      能夠達(dá)到如今的水準(zhǔn),Qwen-VL 的技術(shù)實(shí)力不是一朝一夕煉成的。

      在多模態(tài)大模型方向上,阿里很早就開始布局。從 2021 年 M6 系列的預(yù)訓(xùn)練 - 微調(diào)模式,到 2022 年 OFA (One-For-All) 系列的統(tǒng)一模態(tài)表示和任務(wù)的模式,再到 OFASys 的系統(tǒng)化 AI 學(xué)習(xí)的嘗試,通義千問團(tuán)隊(duì)的目標(biāo)是做出和人一樣能聽、能看、能理解 & 溝通的通用 AI 模型(系統(tǒng))。

      2022 年,阿里開源了 OFA。OFA 能通過自然語言來描述一個(gè)圖文多模態(tài)任務(wù),比如輸入「描述一下這張圖片」,模型就會(huì)嘗試去產(chǎn)生一個(gè)合適的圖像描述,打破了大家對(duì)通用多模態(tài)任務(wù)模型效果不如專用多模態(tài)模型的傳統(tǒng)觀念。這篇被 ICML 2022 接收的論文思路啟發(fā)了后續(xù)的許多研究,被谷歌、微軟、Meta 等眾多國(guó)際大廠所引用,是近年來多模態(tài)方向的高引論文之一。

      2023 年以來,通義千問團(tuán)隊(duì)延續(xù)了 OFA 的研究路線,利用通義千問語言模型的能力,彌補(bǔ)了過去多模態(tài)模型在新任務(wù)泛化能力上的缺陷,相關(guān)成果就是 2023 年下半年我們看到的開源圖文多模態(tài)模型 Qwen-VL 和音頻多模態(tài)模型 Qwen-Audio。

      與此同時(shí),阿里云通義實(shí)驗(yàn)室的一系列視覺生成類成果,也徹底火出了圈,社交網(wǎng)絡(luò)上時(shí)不時(shí)可以看到利用通義 AI 技術(shù)生成的動(dòng)圖。

      比如只需一張圖片即可生成跳舞視頻的 Animate Anyone,在國(guó)內(nèi)外都引發(fā)了大量關(guān)注:

      再比如實(shí)現(xiàn)真人百變換裝的 Outfit Anyone。這項(xiàng)技術(shù)不僅能夠精確地處理服裝的變形效果,并且能調(diào)整以適應(yīng)不同的姿勢(shì)和體形,實(shí)現(xiàn)更加逼真的試穿體驗(yàn)。無論是動(dòng)畫形象還是真人,都可以一鍵換裝,讓「QQ 秀」真正升級(jí)成了真人版。

      此外,通義實(shí)驗(yàn)室的文生視頻模型 I2VGen-XL 也是實(shí)實(shí)在在地火了一把,生成的視頻兼顧高清、高分辨率、平滑、美觀,毫不遜于 Gen2、Pika 效果。

      眾所周知,通用人工智能的求索之路相當(dāng)漫長(zhǎng),而大模型的技術(shù)突破,已經(jīng)為我們指出了一個(gè)光明的方向。過去一年多,人們見證了一場(chǎng)激烈的 AI 技術(shù)角逐,賽道上不乏來自中國(guó)的選手。

      以往,大模型領(lǐng)域的廠商大多以 OpenAI 為標(biāo)桿,需要承認(rèn)的是,OpenAI 的最新一代對(duì)話大模型 GPT-4 仍然在語言領(lǐng)域保持著領(lǐng)先優(yōu)勢(shì)。

      但在接下來的 2024 年,在下一個(gè)最具爆發(fā)潛力的技術(shù)方向 —— 多模態(tài)大模型上,中國(guó)的技術(shù)與產(chǎn)品或可與 OpenAI、谷歌這樣的選手掰一掰手腕。像 Qwen-VL 這樣的國(guó)產(chǎn)大模型,能否實(shí)現(xiàn)從追平到進(jìn)一步超越?會(huì)不會(huì)再誕生一批爆款應(yīng)用?這些都是接下來一年值得期待的事情。

      長(zhǎng)遠(yuǎn)來看,在多模態(tài)大模型進(jìn)一步實(shí)用化之后,我們以后可以更加理直氣壯,讓 AI 自動(dòng)識(shí)別圖像和音頻中的內(nèi)容,進(jìn)行總結(jié)、摘要和分析,新技術(shù)勢(shì)必會(huì)大幅度提升我們的工作效率;我們?cè)?AR、VR 世界中與環(huán)境的交互也會(huì)更加便捷,可穿戴設(shè)備的體驗(yàn)將會(huì)更具真實(shí)感,新應(yīng)用可以大幅改進(jìn)娛樂和日常體驗(yàn)。

      更加直觀的是,多模態(tài)大模型能夠根據(jù)每個(gè)人的喜好生成定制化內(nèi)容和產(chǎn)品,對(duì)于阿里來說,這件事很重要。

      或許,隨著多模態(tài)大模型技術(shù)的突破,我們將很快看到電商領(lǐng)域發(fā)生一場(chǎng)革命。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。