首頁 > 云計算頻道 > 大模型

阿里剛開源32B大模型，我們立馬測試了“弱智吧”

2024年04月08日 10:04:14 金磊來源：量子位公眾號

　　阿里的通義千問(Qwen)，終于拼齊了1.5系列的最后一塊拼圖——

　　正式開源Qwen 1.5-32B。

　　話不多說，直接來看“成績單”。

　　這次官方pick同臺競技的“選手”是Mixtral 8x7B模型和同為Qwen 1.5系列的72B模型。

　　從結果上來看，Qwen 1.5-32B已經在多項評測標準中超越或追平Mixtral 8x7B：

　　并且即便是在與自家更大參數模型PK過程中，Qwen 1.5-32B也用“以小博大”的姿勢展現出了較好的性能。

　　用通義千問團隊成員的話來說就是：

　　這個模型顯示出了與72B模型相當的性能，特別是在語言理解、多語言支持、編碼和數學能力等方面。

　　在推理和部署過程中，成本還會更加友好。

　　不僅如此，即便是再拉來其它體量相當的大模型“選手”，Qwen 1.5-32B在多項評測中的成績依舊較為亮眼：

　　除此之外，團隊還做了一項比較有意思的測試——長文本評估任務，“大海撈針”。

　　簡單來說，這項任務就是將一個與文本無關的句子(“針”)隱藏在大量的文本(“大海”)中，然后通過自然語言提問的方式，觀察AI能否準確提取出這個隱藏的句子。

　　從結果上來看，Qwen 1.5-32B在32k tokens的上下文中性能表現良好。

　　不過有一說一，剛才所展示的也還僅是Qwen 1.5-32B在評分上的成績，至于具體到實際體驗過程中，效果又會如何呢?

　　大戰(zhàn)一波“弱智吧”

　　自打大模型火爆以來，“弱智吧”就一直成了檢測大模型邏輯能力的標準之一，江湖戲稱為“弱智吧Benchmark”。

　　(“弱智吧”源自百度貼吧，是一個充滿荒謬、離奇、不合常理發(fā)言的中文社區(qū)。)

　　而且就在前幾天，“弱智吧”還登上正經AI論文，成了最好的中文訓練數據，引發(fā)了一波不小的熱議。

　　這項研究正是來自中科院深圳先進技術研究院、中科院自動化研究所，滑鐵盧大學等眾多高校、研究機構聯合團隊。

　　剛好此次Qwen 1.5-32B在開源的同時，也一并放出了在線體驗的demo，那么當它倆碰到一起，會擦出怎樣的火花?

　　請聽第一題：

　　我爸媽結婚為什么不邀請我?

　　Qwen 1.5-32B很準確地回答出了“你的父母在結婚時你尚未出生，因此他們無法邀請你參加他們的婚禮”。

　　繼續(xù)第二題：

　　為什么睡覺過夜的地方叫酒店，喝酒的地方叫夜店?

　　面對這道很經典的問題，Qwen 1.5-32B也能做到追根溯源地做正經科普。

　　再來第三道和第四道：

　　高中如果想提高升學率，為什么不直接招大學生?

　　網吧能上網，弱智吧為什么不能上弱智?

　　不難看出，Qwen 1.5-32B都能夠給出準確的答案。

　　尤其是在第四道問題上，它甚至直接指出了邏輯性的問題：

　　問題似乎不太恰當或者存在誤解。

　　嗯，Qwen 1.5-32B是一個經住了“弱智吧Benchmark”的大模型。

　　至于其它關于常識、數學、編程等能力的效果，家人們可以親自去體驗一番了。

　　如何做到的?

　　正如我們剛才所述，Qwen 1.5-32B在技術架構上與此前版本并無太大的區(qū)別，亮點就是引入了GQA(Grouped Query Attention，分組查詢注意力)這個技術。

　　這也正是它能夠在相對較小的體量之下，能夠做到性能較優(yōu)且快速部署的關鍵。

　　GQA是一種在自然語言處理中使用的 Transformer 架構中的一種機制，它通過將查詢序列分組為多個子序列來提高 Transformer 模型的計算效率。

　　這種方法可以有效地減少計算復雜度，同時保留 Transformer 模型的表示能力。

　　具體而言，GQA是通過將查詢分組并在組內計算它們的注意力，來混合 Multi-Query Attention (MQA) 的速度與 Multi-Head Attention (MHA) 的質量。

　　GQA 通過將查詢頭分為組，每個組共享單個鍵頭和值頭，來實現這一點，從而在質量和速度之間取得平衡。

　　如此一來，GQA的引入就降低了注意力計算的數量，從而加速了推理時間。

　　最后，奉上Qwen 1.5-32B在HuggingFace的體驗入口，感興趣的朋友可以去體驗啦~

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質價比不動

新聞

明火炊具市場：三季度健康屬性貫穿全類目

奧維云網(AVC)推總數據顯示，2024年1-9月明火炊具線上零售額94.2億元，同比增加3.1%，其中抖音渠道表現優(yōu)異，同比有14%的漲幅，傳統電商略有下滑，同比降低2.3%。

企業(yè)IT

重慶創(chuàng)新公積金應用，“區(qū)塊鏈+政務服務”顯成效

“以前都要去窗口辦，一套流程下來都要半個月了，現在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關材料，僅幾秒鐘，重慶市民曾某的賬戶就打進了21600元。

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，憑借其優(yōu)秀的性能配置和精準的色彩呈現能力，為您的創(chuàng)作工作帶來實質性的幫助，雙十一期間低至2799元，性價比很高，簡直是創(chuàng)作者們的首選。

研究

中國信通院羅松：深度解讀《工業(yè)互聯網標識解析體系

9月14日，2024全球工業(yè)互聯網大會——工業(yè)互聯網標識解析專題論壇在沈陽成功舉辦。

專題

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

阿里剛開源32B大模型，我們立馬測試了“弱智吧”

擴展閱讀

阿里剛開源32B大模型，我們立馬測試了“弱智吧”