UltraFastBERT：推理過程僅用0.3%神經(jīng)元，性能與類似的BERT模型相當

2023年11月28日 11:51:13 來源：站長之家

　　近日，ETH Zurich的研究人員成功推出了一項創(chuàng)新性的技術——UltraFastBERT，該技術通過在推理過程中僅使用0.3%的神經(jīng)元，實現(xiàn)了與其他類似BERT模型相當?shù)男阅芩�。這一創(chuàng)新主要通過引入快速前饋網(wǎng)絡(FFFs)來解決在推理過程中減少神經(jīng)元數(shù)量的問題，相較于基準實現(xiàn)，取得了顯著的速度提升。

　　研究人員提供了代碼、基準設置以及模型權重，支持了這一方法的有效性。他們建議進一步探索通過混合稀疏張量和設備特定優(yōu)化，以及在大型語言模型中應用多個FFF樹的潛在性能提升。

　　UltraFastBERT在推理過程中展現(xiàn)了高效的語言建模，通過將傳統(tǒng)模型的前饋網(wǎng)絡替換為簡化的FFFs，使用一致的激活函數(shù)和所有節(jié)點輸出權重，同時消除了偏差。多個FFF樹協(xié)同計算中間層輸出，允許多樣化的架構。所提供的高水平CPU和PyTorch實現(xiàn)顯著提升了速度，而研究還探討了通過多個FFF樹和替換大型語言模型前饋網(wǎng)絡為FFFs，實現(xiàn)潛在加速的可能性。為設備特定優(yōu)化，建議使用Intel MKL和NVIDIA cuBLAS。

　　UltraFastBERT不僅在推理中僅使用0.3%的神經(jīng)元的情況下實現(xiàn)了與BERT-base相當?shù)男阅埽以趦H使用單個GPU進行一天訓練的情況下，仍保持至少96.0%的GLUE預測性能。研究還展示了通過快速前饋層實現(xiàn)顯著的速度提升，達到48倍到78倍的CPU上的即時推理速度提升，以及GPU上的3.15倍速度提升，表明在替換大型模型方面存在潛在可能性。

　　總體而言，UltraFastBERT是對BERT的修改，實現(xiàn)了在推理過程中僅使用少量神經(jīng)元的高效語言建模。該模型通過FFFs實現(xiàn)了顯著的速度提升，提供的CPU和PyTorch實現(xiàn)分別實現(xiàn)了78倍和40倍的速度提升。研究建議通過實現(xiàn)有條件神經(jīng)執(zhí)行的基元，進一步加速語言建模。盡管僅使用0.3%的神經(jīng)元，UltraFastBERT的最佳模型與BERT-base的性能相當，展示了高效語言建模的潛力。UltraFastBERT展示了高效語言建模的潛在進展，為未來更快、資源友好的模型鋪平了道路。

　　未來研究的建議包括使用混合向量級稀疏張量和設備特定優(yōu)化實現(xiàn)高效的FFF推理，探索有條件神經(jīng)執(zhí)行加速語言建模的全部潛力，以及通過將前饋網(wǎng)絡替換為FFFs優(yōu)化大型語言模型的潛在性。未來的工作可能著重于在流行框架如PyTorch或TensorFlow中實現(xiàn)可重現(xiàn)的模型，并進行廣泛的基準測試，以評估UltraFastBERT及類似高效語言模型的性能和實際影響。

　　文章內(nèi)容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信