鴻蒙智行泊車代駕VPD正式開啟全量推送!升級自動泊車/接駕等多項功能華為官方翻新手機最高降價4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內置自研W-Fi芯片李斌回應螢火蟲外觀設計:看過實車的人都喜歡這個設計林杰:未來 A 級、A0 級、A00 級車型都將是領克純電的“主場”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設與智慧出行萬象分區(qū)、絢彩XDR、量子點Pro 2025齊出手,TCL引領觀影體驗新變革!QQ音樂年度聽歌報告發(fā)布:誰是你最喜歡的歌手?OpenAI正式發(fā)布o3 - 通往AGI的路上,已經沒有了任何阻礙「送禮物」難撬動社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數學擊敗GPT-4o,合成數據占比40%,36頁技術報告出爐2024年結束,哪里是原創(chuàng)動畫的應許之地?深扒一個正被游戲行業(yè)「搶占」的流量帝國百思買重新進軍跨境電商領域視頻生成大模型賽道,只是看上去擁擠GGII:預計2024年中國工業(yè)機器人全年銷量約30萬臺,同比下滑5%左右冰雪大世界盛大開園,美的空調橫跨50℃打造“東北夏威夷”臺灣小土豆勇闖冰雪大世界,美的空調真暖快車成為最熱打卡點京東iPhone 16系列年底大放價!至高補貼1200元價格低過11.11新一季圓滿假期結伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞
  • 首頁 > 云計算頻道 > 大模型

    阿里剛開源32B大模型,我們立馬測試了“弱智吧”

    2024年04月08日 10:04:14   來源:量子位公眾號

      阿里的通義千問(Qwen),終于拼齊了1.5系列的最后一塊拼圖——

      正式開源Qwen 1.5-32B。

      話不多說,直接來看“成績單”。

      這次官方pick同臺競技的“選手”是Mixtral 8x7B模型和同為Qwen 1.5系列的72B模型。

      從結果上來看,Qwen 1.5-32B已經在多項評測標準中超越或追平Mixtral 8x7B:

      并且即便是在與自家更大參數模型PK過程中,Qwen 1.5-32B也用“以小博大”的姿勢展現出了較好的性能。

      用通義千問團隊成員的話來說就是:

      這個模型顯示出了與72B模型相當的性能,特別是在語言理解、多語言支持、編碼和數學能力等方面。

      在推理和部署過程中,成本還會更加友好。

      不僅如此,即便是再拉來其它體量相當的大模型“選手”,Qwen 1.5-32B在多項評測中的成績依舊較為亮眼:

      除此之外,團隊還做了一項比較有意思的測試——長文本評估任務,“大海撈針”。

      簡單來說,這項任務就是將一個與文本無關的句子(“針”)隱藏在大量的文本(“大海”)中,然后通過自然語言提問的方式,觀察AI能否準確提取出這個隱藏的句子。

      從結果上來看,Qwen 1.5-32B在32k tokens的上下文中性能表現良好。

      不過有一說一,剛才所展示的也還僅是Qwen 1.5-32B在評分上的成績,至于具體到實際體驗過程中,效果又會如何呢?

      大戰(zhàn)一波“弱智吧”

      自打大模型火爆以來,“弱智吧”就一直成了檢測大模型邏輯能力的標準之一,江湖戲稱為“弱智吧Benchmark”

      (“弱智吧”源自百度貼吧,是一個充滿荒謬、離奇、不合常理發(fā)言的中文社區(qū)。)

      而且就在前幾天,“弱智吧”還登上正經AI論文,成了最好的中文訓練數據,引發(fā)了一波不小的熱議。

      這項研究正是來自中科院深圳先進技術研究院、中科院自動化研究所,滑鐵盧大學等眾多高校、研究機構聯合團隊。

      剛好此次Qwen 1.5-32B在開源的同時,也一并放出了在線體驗的demo,那么當它倆碰到一起,會擦出怎樣的火花?

      請聽第一題:

      我爸媽結婚為什么不邀請我?

      Qwen 1.5-32B很準確地回答出了“你的父母在結婚時你尚未出生,因此他們無法邀請你參加他們的婚禮”。

      繼續(xù)第二題

      為什么睡覺過夜的地方叫酒店,喝酒的地方叫夜店?

      面對這道很經典的問題,Qwen 1.5-32B也能做到追根溯源地做正經科普。

      再來第三道第四道

      高中如果想提高升學率,為什么不直接招大學生?

      網吧能上網,弱智吧為什么不能上弱智?

      不難看出,Qwen 1.5-32B都能夠給出準確的答案。

      尤其是在第四道問題上,它甚至直接指出了邏輯性的問題:

      問題似乎不太恰當或者存在誤解。

      嗯,Qwen 1.5-32B是一個經住了“弱智吧Benchmark”的大模型。

      至于其它關于常識、數學、編程等能力的效果,家人們可以親自去體驗一番了。

      如何做到的?

      正如我們剛才所述,Qwen 1.5-32B在技術架構上與此前版本并無太大的區(qū)別,亮點就是引入了GQA(Grouped Query Attention,分組查詢注意力)這個技術。

      這也正是它能夠在相對較小的體量之下,能夠做到性能較優(yōu)且快速部署的關鍵。

      GQA是一種在自然語言處理中使用的 Transformer 架構中的一種機制,它通過將查詢序列分組為多個子序列來提高 Transformer 模型的計算效率。

      這種方法可以有效地減少計算復雜度,同時保留 Transformer 模型的表示能力。

      具體而言,GQA是通過將查詢分組并在組內計算它們的注意力,來混合 Multi-Query Attention (MQA) 的速度與 Multi-Head Attention (MHA) 的質量。

      GQA 通過將查詢頭分為組,每個組共享單個鍵頭和值頭,來實現這一點,從而在質量和速度之間取得平衡。

      如此一來,GQA的引入就降低了注意力計算的數量,從而加速了推理時間。

      最后,奉上Qwen 1.5-32B在HuggingFace的體驗入口,感興趣的朋友可以去體驗啦~

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(AVC)推總數據顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現優(yōu)異,同比有14%的漲幅,傳統電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯網標識解析體系

    9月14日,2024全球工業(yè)互聯網大會——工業(yè)互聯網標識解析專題論壇在沈陽成功舉辦。