正在逐步覆蓋!騰訊提醒勿為實況圖重裝微信:以免丟失微信聊天記錄iPhone16多款機型破發(fā):最高比官網(wǎng)便宜600元劉積仁不愛“湊熱鬧”,但東軟集團喜歡“追風(fēng)口”快手電商新增近800個“0元開店”類目,推出多項新商入駐權(quán)益年內(nèi)狂攬五項第一,“字節(jié)系大模型”何以后發(fā)先至?科技云報到:有韌性才能更“任性”,云韌性構(gòu)筑業(yè)務(wù)最后一道防線阿里云盤出“BUG”客服回應(yīng):已修復(fù)圍剿BBA,比亞迪和騰勢也準(zhǔn)備出一份力阿里云服務(wù)器操作系統(tǒng)Alibaba Cloud Linux全新升級,核心場景性能提升超20%屏幕面板 10 月出貨,蘋果 M4 MacBook Air 被曝 2025Q1 發(fā)布蘋果史上最大:iPhone 16系列電池容量公布后移動互聯(lián)網(wǎng)時代,移動App兼容測試持續(xù)占據(jù)核心地位歐盟警告蘋果:六個月內(nèi)開放iPhone系統(tǒng) 否則重罰湖北省電子信息產(chǎn)業(yè)前8月實現(xiàn)營收5970億元,同比增長13.53%傳三星計劃2025年推出卷軸屏手機蘋果新專利探索折疊iPhone未來,任意表面實現(xiàn)觸敏控制蘋果iPhone16/Pro系列手機今日首銷,5999~9999元起各方媒體的聚焦關(guān)注,中南高科實力呈現(xiàn)高科“新質(zhì)”表現(xiàn)力拼多多解開了新疆的“包郵絕緣體”封印宏景智駕完成數(shù)億元C輪融資
  • 首頁 > 云計算頻道 > 大模型

    阿里剛開源32B大模型,我們立馬測試了“弱智吧”

    2024年04月08日 10:04:14   來源:量子位公眾號

      阿里的通義千問(Qwen),終于拼齊了1.5系列的最后一塊拼圖——

      正式開源Qwen 1.5-32B

      話不多說,直接來看“成績單”。

      這次官方pick同臺競技的“選手”是Mixtral 8x7B模型和同為Qwen 1.5系列的72B模型

      從結(jié)果上來看,Qwen 1.5-32B已經(jīng)在多項評測標(biāo)準(zhǔn)中超越或追平Mixtral 8x7B:

      并且即便是在與自家更大參數(shù)模型PK過程中,Qwen 1.5-32B也用“以小博大”的姿勢展現(xiàn)出了較好的性能。

      用通義千問團隊成員的話來說就是:

      這個模型顯示出了與72B模型相當(dāng)?shù)男阅,特別是在語言理解、多語言支持、編碼和數(shù)學(xué)能力等方面。

      在推理和部署過程中,成本還會更加友好。

      不僅如此,即便是再拉來其它體量相當(dāng)?shù)拇竽P?ldquo;選手”,Qwen 1.5-32B在多項評測中的成績依舊較為亮眼:

      除此之外,團隊還做了一項比較有意思的測試——長文本評估任務(wù),“大海撈針”

      簡單來說,這項任務(wù)就是將一個與文本無關(guān)的句子(“針”)隱藏在大量的文本(“大海”)中,然后通過自然語言提問的方式,觀察AI能否準(zhǔn)確提取出這個隱藏的句子。

      從結(jié)果上來看,Qwen 1.5-32B在32k tokens的上下文中性能表現(xiàn)良好。

      不過有一說一,剛才所展示的也還僅是Qwen 1.5-32B在評分上的成績,至于具體到實際體驗過程中,效果又會如何呢?

      大戰(zhàn)一波“弱智吧”

      自打大模型火爆以來,“弱智吧”就一直成了檢測大模型邏輯能力的標(biāo)準(zhǔn)之一,江湖戲稱為“弱智吧Benchmark”。

      (“弱智吧”源自百度貼吧,是一個充滿荒謬、離奇、不合常理發(fā)言的中文社區(qū)。)

      而且就在前幾天,“弱智吧”還登上正經(jīng)AI論文,成了最好的中文訓(xùn)練數(shù)據(jù),引發(fā)了一波不小的熱議。

      這項研究正是來自中科院深圳先進技術(shù)研究院、中科院自動化研究所,滑鐵盧大學(xué)等眾多高校、研究機構(gòu)聯(lián)合團隊。

      剛好此次Qwen 1.5-32B在開源的同時,也一并放出了在線體驗的demo,那么當(dāng)它倆碰到一起,會擦出怎樣的火花?

      請聽第一題:

      我爸媽結(jié)婚為什么不邀請我?

      Qwen 1.5-32B很準(zhǔn)確地回答出了“你的父母在結(jié)婚時你尚未出生,因此他們無法邀請你參加他們的婚禮”。

      繼續(xù)第二題

      為什么睡覺過夜的地方叫酒店,喝酒的地方叫夜店?

      面對這道很經(jīng)典的問題,Qwen 1.5-32B也能做到追根溯源地做正經(jīng)科普。

      再來第三道第四道

      高中如果想提高升學(xué)率,為什么不直接招大學(xué)生?

      網(wǎng)吧能上網(wǎng),弱智吧為什么不能上弱智?

      不難看出,Qwen 1.5-32B都能夠給出準(zhǔn)確的答案。

      尤其是在第四道問題上,它甚至直接指出了邏輯性的問題:

      問題似乎不太恰當(dāng)或者存在誤解。

      嗯,Qwen 1.5-32B是一個經(jīng)住了“弱智吧Benchmark”的大模型。

      至于其它關(guān)于常識、數(shù)學(xué)、編程等能力的效果,家人們可以親自去體驗一番了。

      如何做到的?

      正如我們剛才所述,Qwen 1.5-32B在技術(shù)架構(gòu)上與此前版本并無太大的區(qū)別,亮點就是引入了GQA(Grouped Query Attention,分組查詢注意力)這個技術(shù)。

      這也正是它能夠在相對較小的體量之下,能夠做到性能較優(yōu)且快速部署的關(guān)鍵。

      GQA是一種在自然語言處理中使用的 Transformer 架構(gòu)中的一種機制,它通過將查詢序列分組為多個子序列來提高 Transformer 模型的計算效率。

      這種方法可以有效地減少計算復(fù)雜度,同時保留 Transformer 模型的表示能力。

      具體而言,GQA是通過將查詢分組并在組內(nèi)計算它們的注意力,來混合 Multi-Query Attention (MQA) 的速度與 Multi-Head Attention (MHA) 的質(zhì)量。

      GQA 通過將查詢頭分為組,每個組共享單個鍵頭和值頭,來實現(xiàn)這一點,從而在質(zhì)量和速度之間取得平衡。

      如此一來,GQA的引入就降低了注意力計算的數(shù)量,從而加速了推理時間。

      最后,奉上Qwen 1.5-32B在HuggingFace的體驗入口,感興趣的朋友可以去體驗啦~

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。