4月24日,蘋果開源了大語言模型OpenELM。這與微軟剛開源的Phi-3 Mini類似,是一款專門針對手機等移動設(shè)備的模型。
OpenELM有指令微調(diào)和預(yù)訓(xùn)練兩種模型,一共有2.7億、4.5億、11億和30億4種參數(shù),提供生成文本、代碼、翻譯、總結(jié)摘要等功能。
雖然最小的參數(shù)只有2.7億,但蘋果使用了1.8萬億tokens的數(shù)據(jù)進行了預(yù)訓(xùn)練,這也是其能以小參數(shù)表現(xiàn)出超強性能的主要原因之一。
值得一提的是,蘋果還把訓(xùn)練OpenELM模型的深度神經(jīng)網(wǎng)絡(luò)庫CoreNet也開源了,僅1天多的時間Github就超過1100顆星。蘋果的MobileOne、CVNets、MobileViT、FastVit等知名研究都是基于CoreNet完成的。
目前,大模型領(lǐng)域主要分為開源和閉源兩大陣營,國內(nèi)外知名閉源的代表企業(yè)有OpenAI、Anthropic、谷歌、Midjourney、Udio、百度、科大訊飛、出門問問、月之暗面等。
開源陣營有Meta、微軟、谷歌、百川智能、阿里巴巴、零一萬物等。蘋果作為手機閉源領(lǐng)域的領(lǐng)導(dǎo)者,本次卻罕見地加入開源大模型陣營,可能在效仿谷歌的方式先通過開源拉攏用戶,再用閉源產(chǎn)品去實現(xiàn)商業(yè)化營利。
不管咋說,蘋果選擇開源對于開發(fā)者、中小企業(yè)來說都是一個不錯的福利。因為,與以往只提供模型權(quán)重和推理代碼的做法不同,蘋果發(fā)布了完整的訓(xùn)練、評估框架等。
主要內(nèi)容包括數(shù)據(jù)準備、模型訓(xùn)練、微調(diào)以及評估流程,同時提供了多個預(yù)訓(xùn)練檢查點和訓(xùn)練日志,可以讓我們深度了解全球頂級科技公司的技術(shù)思想和開發(fā)流程。
OpenELM架構(gòu)簡單介紹
OpenELM采用了無編碼器的transformer架構(gòu),并在多個方面進行了技術(shù)創(chuàng)新。OpenELM的使用了一種“層級縮放”策略,使得模型能夠跨各個轉(zhuǎn)換器層更有效地分配參數(shù),能以最少的訓(xùn)練數(shù)據(jù)取得了更好的性能,同時極大提升準確率。
例如,11億參數(shù)的OpenELM,比12億參數(shù)的OLMo模型的準確率高出2.36%,而使用的預(yù)訓(xùn)練數(shù)據(jù)卻只有OLMo的一半。
此外,OpenELM不使用任何全連接層中的可學(xué)習(xí)偏置參數(shù),采用RMSNorm進行預(yù)歸一化,并使用旋轉(zhuǎn)位置嵌入編碼位置信息。
OpenELM還通過分組查詢注意力代替多頭注意力,用SwiGLU FFN替換了傳統(tǒng)的前饋網(wǎng)絡(luò),并使用了Flash注意力來計算縮放點積注意力,能以更少的資源來進行訓(xùn)練和推理。
訓(xùn)練流程與數(shù)據(jù)集
在訓(xùn)練流程中,蘋果采用了CoreNet作為訓(xùn)練框架,并使用了Adam優(yōu)化算法進行了35萬次迭代訓(xùn)練。
蘋果使用了批量大小為4096的小批量隨機梯度下降進行模型參數(shù)更新,并設(shè)置了適當?shù)膶W(xué)習(xí)率和權(quán)重衰減。
預(yù)訓(xùn)練數(shù)據(jù)集方面,OpenELM使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolmav1.6的子集在內(nèi)的公共數(shù)據(jù)集,一共約1.8萬億tokens數(shù)據(jù)。
此外,蘋果使用了動態(tài)分詞和數(shù)據(jù)過濾的方法,實現(xiàn)了實時過濾和分詞,從而簡化了實驗流程并提高了靈活性。還使用了與Meta的Llama相同的分詞器,以確保實驗的一致性。
這次蘋果真的是很有誠意的開源,一開到底所有內(nèi)容都貢獻出來了,家大業(yè)大就是敢玩。這也表明蘋果進軍大模型領(lǐng)域的決心,以后開源領(lǐng)域更熱鬧啦~
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。