正在逐步覆蓋!騰訊提醒勿為實(shí)況圖重裝微信:以免丟失微信聊天記錄iPhone16多款機(jī)型破發(fā):最高比官網(wǎng)便宜600元劉積仁不愛“湊熱鬧”,但東軟集團(tuán)喜歡“追風(fēng)口”快手電商新增近800個(gè)“0元開店”類目,推出多項(xiàng)新商入駐權(quán)益年內(nèi)狂攬五項(xiàng)第一,“字節(jié)系大模型”何以后發(fā)先至?科技云報(bào)到:有韌性才能更“任性”,云韌性構(gòu)筑業(yè)務(wù)最后一道防線阿里云盤出“BUG”客服回應(yīng):已修復(fù)圍剿BBA,比亞迪和騰勢也準(zhǔn)備出一份力阿里云服務(wù)器操作系統(tǒng)Alibaba Cloud Linux全新升級,核心場景性能提升超20%屏幕面板 10 月出貨,蘋果 M4 MacBook Air 被曝 2025Q1 發(fā)布蘋果史上最大:iPhone 16系列電池容量公布后移動(dòng)互聯(lián)網(wǎng)時(shí)代,移動(dòng)App兼容測試持續(xù)占據(jù)核心地位歐盟警告蘋果:六個(gè)月內(nèi)開放iPhone系統(tǒng) 否則重罰湖北省電子信息產(chǎn)業(yè)前8月實(shí)現(xiàn)營收5970億元,同比增長13.53%傳三星計(jì)劃2025年推出卷軸屏手機(jī)蘋果新專利探索折疊iPhone未來,任意表面實(shí)現(xiàn)觸敏控制蘋果iPhone16/Pro系列手機(jī)今日首銷,5999~9999元起各方媒體的聚焦關(guān)注,中南高科實(shí)力呈現(xiàn)高科“新質(zhì)”表現(xiàn)力拼多多解開了新疆的“包郵絕緣體”封印宏景智駕完成數(shù)億元C輪融資
  • 首頁 > 云計(jì)算頻道 > 大模型

    280萬大模型中文開發(fā)者拿到最后一塊拼圖

    2023年12月01日 15:44:46   來源:微信公眾號(hào) 硅星人Pro

      本文來自于微信公眾號(hào) 硅星人Pro(ID:Si-Planet),作者:油醋。

      2023年5月,微軟CEO納德拉拋出一個(gè)驚人數(shù)字,未來全球的開發(fā)者數(shù)量將會(huì)達(dá)到10億。

      那時(shí)候Meta的Llama已經(jīng)開源4個(gè)月,但一些國內(nèi)的開發(fā)者發(fā)現(xiàn),從小以英文語料喂養(yǎng)起來的Llama,對中文世界并不友好。

      這未來的“10億”開發(fā)者里會(huì)有多少中文開發(fā)者,這個(gè)問題難以預(yù)測,但至少已經(jīng)有755萬人了。

      755萬人,這是2021年在GitHub上注冊的中國程序員數(shù)量,現(xiàn)在的程序員一定會(huì)是未來大模型的第一批開發(fā)者。

      有很多人已經(jīng)是了。

      在浙江省電力設(shè)計(jì)院工作的陶佳,嘗試用一個(gè)開源的大模型來做基于私有知識(shí)庫的檢索問答類應(yīng)用。他所面對的場景很特殊,經(jīng)常需要從幾十萬甚至上百萬字的文檔中查找內(nèi)容。陶佳的專業(yè)是電力系統(tǒng)控制優(yōu)化,里面有一些結(jié)合了傳統(tǒng)數(shù)學(xué)方法和AI方法的領(lǐng)域,因此對AI有基本認(rèn)識(shí),也從去年底就一直在關(guān)注著這波大模型的浪潮。

      他試了幾款,試下來通義千問是最好的。“準(zhǔn)確,而且‘手感’很好,沒有那些稀奇古怪的bug”,他說。

      要做的事也很簡單。有一些基本的軟硬件基礎(chǔ)后,在家里買個(gè)服務(wù)器、扔三四塊顯卡上去,下載通義千問、讓它在服務(wù)器上運(yùn)行,再搞個(gè)FRP反向代理,從阿里云上買最便宜的30多塊錢一個(gè)多月的服務(wù)就行,這樣就能通過外網(wǎng)訪問家里的服務(wù)器,在單位里也能用通義千問做實(shí)驗(yàn)。

      當(dāng)一個(gè)開源生態(tài)開始成型,這樣的開發(fā)者也逐漸變多。

      開始閉環(huán)的開源生態(tài)

      陶佳對大模型最深處的期待來自一個(gè)終極問題:人類能否成為上帝?

      美國的未來學(xué)家?guī)炱濏f爾在2015年曾經(jīng)提出過這種可能性。庫茲韋爾的想象里,人類到2030年將能夠成為半機(jī)器人。通過在腦中植入納米機(jī)器人,人類將能夠直接接入互聯(lián)網(wǎng),智力將變得更高,并且將擁有幽默、音樂和愛等美好的天賦和能力。人類將成為像上帝一樣的完美存在。

      那一年OpenAI剛剛建立,但8年前庫茲韋爾的設(shè)想放到現(xiàn)在仍然有相似的地方,只不過現(xiàn)在看起來好像在一個(gè)機(jī)器人(Agent)中加入意識(shí)和人性,這條路好像更近點(diǎn)——也就是AGI。

      但哪怕技術(shù)是爆炸、是躍遷式的,現(xiàn)在離AGI還很遠(yuǎn)。如果說AGI會(huì)再造一個(gè)新的世界,那當(dāng)下人類對大模型的期待,仍然是在現(xiàn)實(shí)基礎(chǔ)上改造世界。而這首先需要建立在我們知道這個(gè)世界是什么樣子的,哪里需要被改造。世界真實(shí)的聲音需要被聽到,建立一條通道非常重要。

      大模型時(shí)代的開源,意義就在這里。來自不同現(xiàn)實(shí)場景,又具有代碼能力的人們需要一個(gè)廣場,來讓技術(shù)主動(dòng)和場景對齊,然后具有代表性的產(chǎn)品才能夠出現(xiàn)。

      這個(gè)廣場要供大家交流用,還要有充沛且價(jià)格合適的算力資源,同時(shí)也需要足夠豐富的可調(diào)用模型來做選擇。開發(fā)者要的是這樣一個(gè)閉環(huán)的開源生態(tài),通義千問的優(yōu)勢開始顯露出來。

      算力是關(guān)于大模型所有想象力的基礎(chǔ)。通義千問背后的阿里云擁有國內(nèi)最強(qiáng)的智能算力儲(chǔ)備作為基礎(chǔ)設(shè)施支持。其智算集群可達(dá)最大十萬卡GPU規(guī)模,這意味著在阿里云上可以承載多個(gè)萬億參數(shù)大模型同時(shí)在線訓(xùn)練,為大規(guī)模AI集群提供無擁塞通訊的自研RDMA網(wǎng)絡(luò)架構(gòu)和低成本高可靠的高性能存儲(chǔ)CPFS。

      而在4月,阿里云在推出通義千問的同時(shí),也宣布了史上最大幅度的一次降價(jià),對比上一代主售產(chǎn)品最高可下降40%的同時(shí),還開放了計(jì)算、存儲(chǔ)、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)等核心產(chǎn)品免費(fèi)試用的機(jī)會(huì)。這為大量新涌入的AI開發(fā)者提供了嘗試和試錯(cuò)的機(jī)會(huì)。

      在阿里云的算力支撐下,像陶佳一樣的開發(fā)者開始帶著“野心”涌入魔搭社區(qū)。

      去年11月的云棲大會(huì)上,阿里云與CCF開源發(fā)展委員會(huì)共同推出AI模型社區(qū)“魔搭”ModelScope,在社區(qū)上線同時(shí)貢獻(xiàn)了300多個(gè)AI模型,全面開源開放,其中超過1/3為中文模型。上線一年后,魔搭社區(qū)上的AI開發(fā)者數(shù)量已經(jīng)超過280萬人,AI模型超過2300+,下載超過1億+。

      隨著大模型的熱潮轉(zhuǎn)向Agent,魔搭社區(qū)在今年9月推出了AI Agent開發(fā)框架ModelScope-Agent,并且搭建了一個(gè)“打樣產(chǎn)品”ModeScopeGPT,它可以調(diào)用社區(qū)里眾多AI模型的API,然后自主完成人類布置的任務(wù)。這個(gè)ModeScopeGPT 的調(diào)用量已經(jīng)超過了40萬次。

      除了通義千問之外,Llama2、智譜AI、百川智能甚至最新推出大模型的零一萬物等近百款開源模型目前都已經(jīng)進(jìn)入社區(qū)。并且“目前中國有一半大模型企業(yè)跑在阿里云上”,阿里云CTO周靖人在2023年云棲大會(huì)上這樣說的時(shí)候,魔搭已經(jīng)是此刻國內(nèi)規(guī)模最大、用戶最活躍的AI模型開源地。

      正在擴(kuò)展的參數(shù)量

      12月1日,阿里云舉行通義千問發(fā)布會(huì),開源了通義千問720億參數(shù)模型Qwen-72B。在參數(shù)量上這是目前國內(nèi)主流視線中最大的開源大模型,而在能力上,Qwen-72B的性能已經(jīng)在測試中超越開源標(biāo)桿Llama2-70B。

      Qwen-72B的訓(xùn)練基礎(chǔ)是3T tokens的高品質(zhì)數(shù)據(jù),它采用了更多的參數(shù)和訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)了全面的性能提升。這個(gè)模型延續(xù)了通義千問預(yù)訓(xùn)練模型的卓越表現(xiàn),在10個(gè)權(quán)威測評中取得開源模型中的最佳成績,并在某些評測中超越了非公開的GPT-3.5和GPT-4。

      在英語任務(wù)方面,Qwen-72B在MMLU基準(zhǔn)測試中獲得開源模型中的最高分。在中文任務(wù)中,它在CEVAL、CMMLU、Gaokao等評測中領(lǐng)先,甚至超過了GPT-4。在數(shù)學(xué)推理領(lǐng)域,Qwen-72B在GSM8K、MATH評測中遠(yuǎn)超其他開源模型。同時(shí),在代碼理解任務(wù)上,通過HumanEval和MBPP評測,Qwen-72B展示了顯著的進(jìn)步,其代碼能力實(shí)現(xiàn)了質(zhì)的飛躍。

      從8月初開始,Qwen-7B和Qwen-7B-Chat兩款開源模型在魔搭社區(qū)上線開始,通義千問自身的模型開源開始提上日程。8月25日,以Qwen-7B為基座語言模型研發(fā),支持圖文輸入,具備多模態(tài)信息理解能力大規(guī)模視覺語言模型 Qwen-VL開源。

      Qwen-VL開源的一個(gè)月之后,阿里云在9月25日開源了通義千問百億級的參數(shù)模型Qwen-14B及其對話模型Qwen-14B-Chat。這款模型在性能上開始第一次看向Llama-70B,加上前幾款開源的模型,一個(gè)多月時(shí)間內(nèi)在開源社區(qū)的下載量突破100萬,在性能和可用性的平衡上,70億和140億參數(shù)的尺寸也是對開發(fā)者最友好的。

      但當(dāng)這個(gè)大模型開源生態(tài)開始走深,開發(fā)者對模型的性能上限有了更高的要求,也就需要更大參數(shù)的模型。Qwen-72B開始吸引到一些初創(chuàng)團(tuán)隊(duì)的目光。

      “我對72B的模型抱有非常大的期待,好奇72B在我們領(lǐng)域中的能力極限值。”

      顏鑫是華東理工大學(xué)X-D Lab(心動(dòng)實(shí)驗(yàn)室)的成員,X-D Lab實(shí)驗(yàn)室之前的研究方向包括社會(huì)計(jì)算與社會(huì)智能、群體智能與隱私保護(hù)、公共衛(wèi)生與輿情監(jiān)測、工業(yè)智能與智能系統(tǒng)等方面,大模型出現(xiàn)之后,開始聚焦AI情感計(jì)算領(lǐng)域。

      基于開源的通義千問基座模型,顏鑫和其他團(tuán)隊(duì)成員陸續(xù)開發(fā)了心理健康大模型 MindChat(漫談)、醫(yī)療健康大模型 Sunsimiao(孫思邈)、教育/考試大模型 GradChat(錦鯉)三款垂直領(lǐng)域大模型,現(xiàn)在已有超過20萬人次使用過這三款大模型,累計(jì)提供了超過100萬次的問答服務(wù)。

      考慮到計(jì)算資源的限制以及一些客戶對于私有化部署的需求,顏鑫表示目前團(tuán)隊(duì)在提供問答服務(wù)時(shí)7B或14B尺寸的大模型是更合適的選擇,但在更開放的學(xué)術(shù)探索上——比如如何利用聯(lián)邦學(xué)習(xí)算法處理數(shù)據(jù)——Qwen-72B有著前者不具備的性能優(yōu)勢。

      而開源模型參數(shù)量的向上探索,未來也有機(jī)會(huì)推動(dòng)ModelScope-Agent這樣關(guān)于如何接近AGI的暢想更接近現(xiàn)實(shí)。

      此前在阿里從事大數(shù)據(jù)業(yè)務(wù)近7年的秦續(xù)業(yè),現(xiàn)在身份是未來速度Xorbits聯(lián)合創(chuàng)始人&CEO。Xorbits打造了企業(yè)級的分布式推理框架Xinference。通過Xinference,開源模型可以降落在個(gè)人用戶和開發(fā)者的個(gè)人電腦上,企業(yè)用戶能夠在計(jì)算集群上輕松部署并管理模型,享受私有化部署帶來的安全、定制化以及低成本。

      秦續(xù)業(yè)表示,如果外接知識(shí)庫做問答應(yīng)用,通過大模型召回一些數(shù)據(jù),放到上下文中進(jìn)行總結(jié),最后給出有用的回答,那么小尺寸(10B以下)的模型是夠用的。如果需要具備一定的邏輯推理能力的模型,20-30B的中等尺寸模型是比較好的選擇。

      “但在Agent或者需要強(qiáng)大推理能力的場景中,70B+的大模型會(huì)更有優(yōu)勢。”

      AI Agent是秦續(xù)業(yè)遠(yuǎn)處的期待,但他同樣也是個(gè)現(xiàn)實(shí)主義者。眼下把模型用起來是更重要的事情,所以Xorbits已經(jīng)攻克的焦點(diǎn),是讓通義千問跑在一臺(tái)Mac電腦上。

      秦續(xù)業(yè)覺得這一點(diǎn)能擊中很多人。因?yàn)楹芏嚅_發(fā)者都是用Mac電腦,他們直接在本地拉起Qwen系列模型,可以極大提升開發(fā)效率。

      Qwen系列的全尺寸完善不止一個(gè)72B的大參數(shù)模型。與Qwen-72B同步,阿里云此次開源了通義千問18億參數(shù)模型Qwen-1.8B和通義千問音頻大模型Qwen-Audio,至此,通義千問開源光譜已經(jīng)了覆蓋從18億、70億到140億、720億參數(shù)的4款大語言模型,以及視覺理解(Qwen-VL)、音頻理解兩款多模態(tài)大模型。

      大模型的開源生態(tài),這是AI時(shí)代最終能夠洶涌而來的一味藥引。周靖人對通義千問的定位是“AI時(shí)代最開放的大模型”,現(xiàn)在打點(diǎn)好一切,靜待開發(fā)者入場了。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。