只激活3.8B參數(shù)，性能比肩同款7B模型！訓(xùn)練微調(diào)都能用，來自微軟

2024年07月18日 14:29:55 來源：量子位公眾號

　　只需激活60%的參數(shù)，就能實(shí)現(xiàn)與全激活稠密模型相當(dāng)?shù)男阅堋?/p>

　　微軟亞洲研究院的一項(xiàng)新研究，實(shí)現(xiàn)了模型的完全稀疏激活，讓推理成本大幅下降。

　　而且適用范圍廣泛，無論是從頭訓(xùn)練、繼續(xù)訓(xùn)練還是微調(diào)，都能提供有效支持。

　　該方法名為Q-Sparse，在神經(jīng)元級別上實(shí)現(xiàn)了模型稀疏化，相比于其他方式粒度更細(xì)，在相同推理開銷下，無論性能還是稀疏率都更好。

　　名稱之中，Q指的是量化(Quantization)，意味著它除了普通模型之外，也兼容量化技術(shù)，適用于各種量化方式的模型。

　　作者進(jìn)一步表示，如果把Q-Sparse與模型量化技術(shù)結(jié)合，還可以實(shí)現(xiàn)更大程度的降本增效。

　　另外在研究Q-Sparse的同時，團(tuán)隊(duì)也對參數(shù)規(guī)模、稀疏率和模型性能三者之間的關(guān)系進(jìn)行了深入探尋，并發(fā)現(xiàn)了適用于模型推理優(yōu)化的“Scaling Law”。

　　有網(wǎng)友認(rèn)為，這項(xiàng)技術(shù)確實(shí)不錯，而且比ReLU要更好。

　　還有人開啟了許愿模式，表示如果(AMD的)ROCm能比英偉達(dá)更快支持這項(xiàng)技術(shù)就好了。

　　用Top-K函數(shù)實(shí)現(xiàn)稀疏化

　　Q-Sparse所做的最核心的操作，是對輸入的張量應(yīng)用Top-K稀疏化函數(shù)。

　　具體來說，Transformer架構(gòu)在注意力層和前饋層中都使用nn.Linear線性層(矩陣乘法)進(jìn)行投影，可以表示為Y=X·W^T。(其中X就是輸入張量，W代表其權(quán)重，Y為輸出張量)

　　Q-Sparse中，對于一個輸入激活張量X，首先會計(jì)算其絕對值|X|并進(jìn)行排序，找出其中絕對值最大的K個元素。

　　這里的K是預(yù)先設(shè)定的超參數(shù)，決定了稀疏化的程度。

　　之后Q-Sparse會創(chuàng)建一個與X形狀相同的二進(jìn)制掩碼張量M，對于一系列|X|中絕對值最大的K個元素對應(yīng)的位置，將M中的相應(yīng)位置設(shè)置為1，其余位置設(shè)置為0。

　　接著，將輸入張量X與掩碼張量M進(jìn)行Hadamard積(逐元素相乘)運(yùn)算，就得到了稀疏化的張量X_sparse。

　　在前向傳播過程中，稀疏化后的張量X_sparse將代替原始的輸入張量X參與后續(xù)的計(jì)算(如矩陣乘法)。

　　由于X_sparse中大部分元素已經(jīng)被設(shè)置為零，因此可以顯著減少計(jì)算量和內(nèi)存帶寬需求。

　　在反向傳播過程中，Q-Sparse使用了直通估計(jì)器(Straight-Through Estimator，STE)來計(jì)算Top-K函數(shù)的梯度。

　　傳統(tǒng)的訓(xùn)練方式中，通常需要計(jì)算損失函數(shù)對網(wǎng)絡(luò)參數(shù)的梯度，并使用梯度下降法更新參數(shù)以最小化損失。

　　但當(dāng)網(wǎng)絡(luò)中存在量化、Top-K等一些不可微的操作時，梯度的計(jì)算就會遇到問題，因?yàn)檫@些操作的輸出對輸入的梯度在大多數(shù)點(diǎn)上都是0，導(dǎo)致梯度無法有效傳播。

　　STE通過直接將梯度傳遞給稀疏化之前的張量，避免了梯度消失的問題。

　　一般的反向傳播中，損失函數(shù)L對x的梯度∂L/∂x=∂L/∂y⋅∂y/∂x，但由于不可微分無法直接計(jì)算。

　　STE的解決方案是只計(jì)算損失函數(shù)對稀疏化張量y的梯度，然后將其直接復(fù)制給原始張量x，也就是直接將∂L/∂y作為∂L/∂x的估計(jì)。

　　△有/無STE時的梯度比較

　　對于前饋層，Q-Sparse使用平方ReLU函數(shù)代替常規(guī)的ReLU激活函數(shù)，平方運(yùn)算可以進(jìn)一步提高激活的稀疏性(⊙表示Hadamard積)。

　　另外，為了適配量化模型，Q-Sparse在應(yīng)用Top-K稀疏化之前，會先對輸入張量進(jìn)行量化，以確保稀疏化操作與量化表示兼容，其函數(shù)表示如下:

　　其中，ε是一個小常數(shù)，用于避免出現(xiàn)分母為零的情況。

　　特別的，對于1-bit量化的權(quán)重，Q-Sparse使用以下量化函數(shù)，其中α是權(quán)重張量W的平均絕對值。

　　60%激活參數(shù)達(dá)到相同效果

　　對比實(shí)驗(yàn)表明，無論是稀疏率還是模型表現(xiàn)，Q-Sparse都顯著優(yōu)于此前的ReLU方法。

　　針對Q-Sparse的具體效果，作者對其在從頭訓(xùn)練、繼續(xù)訓(xùn)練和微調(diào)三項(xiàng)任務(wù)上的性能進(jìn)行了評估。

　　從頭訓(xùn)練實(shí)驗(yàn)使用的模型為Llama，結(jié)果在700M和7B模型上，使用70% top-K(即40%的整體稀疏率)的Q-Sparse可以達(dá)到與密集baseline相當(dāng)?shù)挠?xùn)練損失。

　　繼續(xù)訓(xùn)練的目的是將稠密模型稀疏化，這里的實(shí)驗(yàn)對象是Mistral-7B。

　　結(jié)果，在激活參數(shù)為2.9B和3.8B的情況下，模型在ARC、MMLU等數(shù)據(jù)集中的得分均未發(fā)生明顯下降。

　　在微調(diào)實(shí)驗(yàn)中，對于Qwen-7B和Mistral-7B兩種模型，Q-Sparse顯示出了與繼續(xù)訓(xùn)練相似的結(jié)果，用60%左右的激活參數(shù)實(shí)現(xiàn)了與密集模型十分接近的表現(xiàn)。

　　這些結(jié)果意味著，在相同的性能下，與密集模型相比，稀疏激活模型在推理過程中可以顯著減少激活參數(shù)，進(jìn)而降低消耗FLOPS的數(shù)量。

　　對于量化模型，團(tuán)隊(duì)在自研的BitNet b1.58模型上應(yīng)用了Q-Sparse，并在多個數(shù)據(jù)集上進(jìn)行了訓(xùn)練和評估。

　　可以看到，在700M和7B兩種規(guī)模下，使用Q-Sparse的量化模型的收斂速度和最終損失函數(shù)值與未使用Q-Sparse的量化模型(BitNet b1.58)相當(dāng)。

　　這說明Q-Sparse可以無縫集成到量化模型中，而不會顯著影響模型的訓(xùn)練和收斂。

　　據(jù)此作者認(rèn)為，將Q-Sparse與量化技術(shù)相結(jié)合，可以進(jìn)一步提高大語言模型在推理階段的效率。

　　發(fā)現(xiàn)推理優(yōu)化新“Scaling Law”

　　除了測評這些模型采取稀疏激活時的表現(xiàn)，作者也對模型性能、規(guī)模和稀疏率三者之間的關(guān)系進(jìn)行了探究，并有了一些新的發(fā)現(xiàn)。

　　稀疏激活模型的性能縮放定律: 作者發(fā)現(xiàn)，與密集模型類似，稀疏激活模型的性能也遵循一個冪律縮放關(guān)系。

　　具體來說，給定稀疏率S，模型在收斂時的損失函數(shù)值L(N，S)可以用以下公式近似:

　　其中，N是模型參數(shù)的數(shù)量;E是一個常數(shù)，表示模型在無限大時的損失;A(S)是一個與稀疏率S有關(guān)的縮放因子。

　　這個縮放定律表明，稀疏激活模型的性能隨著模型規(guī)模的增大而提高，但提高的速度會逐漸變慢。

　　同時作者發(fā)現(xiàn)，模型的性能也會受到稀疏率的影響。

　　在參數(shù)規(guī)模與性能之間關(guān)系的部分提到，A(S)是一個與稀疏率S有關(guān)的縮放因子，可以用以下公式近似:

　　其中B和C是常數(shù)，β是一個控制指數(shù)衰減速度的參數(shù)。

　　這個公式表明，當(dāng)稀疏率S增大(模型變得更稀疏)時，意味著更高的稀疏率會導(dǎo)致性能的下降，下降的速度是指數(shù)級的。

　　基于上述發(fā)現(xiàn)，作者得出了一個推理最優(yōu)的稀疏率S*，能在預(yù)算(推理時的浮點(diǎn)操作數(shù))一定時，實(shí)現(xiàn)模型損失函數(shù)值的最小化。

　　對于全精度(FP32)模型，最優(yōu)稀疏率約為45.58%;而低精度(如1.58-bit)模型的最優(yōu)稀疏率則更高，約為61.25%。

　　作者觀察到，隨著模型規(guī)模的增大，稀疏激活模型與密集模型之間的性能差距逐漸縮小。

　　這可以從縮放定律中得到解釋:當(dāng)模型規(guī)模N趨于無窮大時，稀疏激活模型的損失函數(shù)值趨于L(∞，S)=E，而密集模型的損失函數(shù)值趨于L(∞，0)=E。

　　這意味著，在極大規(guī)模下，稀疏激活模型有可能達(dá)到與密集模型相當(dāng)?shù)男阅埽瑸樵O(shè)計(jì)和訓(xùn)練大規(guī)模稀疏激活模型提供了一個有用的參考。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎，展示全球科技創(chuàng)新力量

近日，德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革，全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎”金獎，有力證明了其在全球市場的強(qiáng)大影響力。

OPPO續(xù)約歐洲冠軍聯(lián)賽未來三季再續(xù)輝煌

華為見非凡品牌盛典及鴻蒙智行新品發(fā)布會定檔 9月10日

新聞

敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎

近日，中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無人區(qū)，斬獲四項(xiàng)AWE 2024艾普蘭大獎。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進(jìn)了21600元。

3C消費(fèi)

“純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

2024年3月12日，由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

研究

2024全球開發(fā)者先鋒大會即將開幕

由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國高性能計(jì)算學(xué)術(shù)年會

返回主頁 ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网
久久精品视频国产女人扒开腿让人桶视频男女做爰猛烈叫床视频免费 99精品久久久中文字幕欧美日韩一区精品视频

只激活3.8B參數(shù)，性能比肩同款7B模型！訓(xùn)練微調(diào)都能用，來自微軟

擴(kuò)展閱讀

只激活3.8B參數(shù)，性能比肩同款7B模型！訓(xùn)練微調(diào)都能用，來自微軟