還能再漲23%!AI寵兒NVIDIA成大摩明年首選AMD FSR 4.0將與RX 9070 XT顯卡同步登場羅永浩細紅線最新進展,暫別AR,迎來AI Jarvis構(gòu)建堅實數(shù)據(jù)地基,南京打造可信數(shù)據(jù)空間引領(lǐng)數(shù)字城市建設(shè)下單前先比價不花冤枉錢 同款圖書京東價低于抖音6折日媒感慨中國電動汽車/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒戲消委會吹風(fēng)機品質(zhì)檢測結(jié)果揭曉 徠芬獨占鰲頭 共話新質(zhì)營銷力,2024梅花數(shù)據(jù)峰會圓滿落幕索尼影像專業(yè)服務(wù) PRO Support 升級,成為會員至少需注冊 2 臺 α 全畫幅相機、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機+7500mAh中端機寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開啟內(nèi)測雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設(shè)計預(yù)售 享365天只換不修國補期間電視迎來換機潮,最暢銷MiniLED品牌花落誰家?美團旗下微信社群團購業(yè)務(wù)“團買買”宣布年底停運消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機設(shè)備
  • 首頁 > 企業(yè)IT頻道 > 軟件即服務(wù)

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

    2023年02月20日 17:30:14   來源:量子位

      現(xiàn)在只用60行代碼,就能從0構(gòu)建GPT了!

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      想當初,前特斯拉前AI總監(jiān)的minGPT和nanoGPT也都還要300行代碼。

      這個60行代碼的GPT也有名字,博主將它命名為PicoGPT。

      不過和此前minGPT和nanoGPT的教程不同,今天要講的這個博主的教程,更側(cè)重于代碼實現(xiàn)部分,模型的權(quán)重則用已經(jīng)訓(xùn)練好的。

      對此,博主解釋稱這篇教程的重點在于提供一個簡單且易于破解的完整技術(shù)介紹。

      這對還不理解GPT背后概念的盆友,算是非常友好了。

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      還有網(wǎng)友稱贊,這篇博客介紹得非常清晰,第一部分尤為如此。

      這篇介紹GPT模型的文章太好了,它比我之前看到的介紹都要清晰,至少在第一部分討論文本生成和取樣是這樣的。

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      目前,此項目在GitHub上標星已破百,HackerNews上的點擊量也即將破千。

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      從GPT是什么講起

      在介紹之前,還是需要說明一下,這篇教程不是完全零門檻,需要讀者提前熟悉Python、NumPy以及一些基本的訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

      教程的重點聚焦在技術(shù)介紹上,統(tǒng)共有六大部分:

      什么是GPT?

      按照慣例,在正式構(gòu)建GPT之前得先對它做一些基本介紹,教程從輸入/輸出、生成文本以及訓(xùn)練三個部分分別來講GPT是如何工作的。

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      在這趴,博主附上代碼,甚至還用了一些比喻來讓讀者們更好地理解GPT。

      舉個栗子,在輸入這一部分,作者將句子比作一條繩子,tokenizer則會將其分割成一小段一小段(單詞),被稱作token。

      又比如說,在生成文本這part介紹自動回歸時,博主直接貼上代碼:

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      在每次迭代中,它會將預(yù)測的token追加回輸入,這個預(yù)測未來值并將其添加回輸入的過程就是GPT被描述為自動回歸的原因。

      60行代碼怎么運行?

      了解完GPT的基本概念之后,就直接快進到了如何在電腦上運行這個PicoGPT。

      博主先是甩出了他那只有60行的代碼:

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      然后從克隆存儲庫,安裝依賴項等步驟一步步教你如何在電腦上運行GPT。

      其中,還不乏一些貼心的小tips,比如說如果使用的是M1 Macbook,那在運行pip install之前,需要將requments.txt中的tensorflow更改為tensorflow-macos。

      此外,對于代碼的四個部分:gpt2,generate,main以及fire.Fire(main),博主也有做詳細解釋。

      等到代碼能夠運行之后,下一步博主就準備詳細介紹編碼器、超參數(shù)(hparams)以及參數(shù)(params)這三部分了。

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      直接在筆記本或者Python會話中運行下面這個代碼:

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      一些必要的模型和tokenizer文件就直接下載到model/124M,編碼器、hparams和params也能直接加載。

      更具體的內(nèi)容這里就不多說了,教程的鏈接已經(jīng)附在文末。

      一些基礎(chǔ)神經(jīng)網(wǎng)絡(luò)層的介紹

      這一趴涉及到的知識就更加基礎(chǔ)了,因為下一趴是實際GPT自身的架構(gòu),所以在此之前,需要了解一些非特定于GPT的更基本的神經(jīng)網(wǎng)絡(luò)層。

      博主介紹了GeLU、Softmax函數(shù)以及Layer Normalization和Linear。

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      GPT架構(gòu)

      終于!這部分要來講GPT自身的架構(gòu)了,博主從transformer的架構(gòu)引入。

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      △transformer架構(gòu)

      GPT的架構(gòu)只使用了transformer中的解碼器堆棧(即圖表的右邊部分),并且其中的的“交叉注意”層也沒有用到。

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      △GPT架構(gòu)

      隨后,博主將GPT的架構(gòu)總結(jié)成了三大部分:

      -文本 + 位置嵌入

      -變壓器解碼器堆棧

      -下一個token預(yù)測頭

      并且還將這三部分用代碼展示了出來,是醬紫的:

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      再后面,就是關(guān)于這三部分的更多細節(jié)……

      測試構(gòu)建的GPT

      這部分將全部的代碼組合在一起,就得到了gpt2.py,統(tǒng)共有120行代碼,刪除注釋和空格的話,就是60行。

      然后測試一下!

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      結(jié)果是這樣的:

    60行代碼就能構(gòu)建GPT!網(wǎng)友:比之前的教程都要清晰

      成功了!

      一些后續(xù)補充

      最后一部分,博主也總結(jié)了這短短60行代碼的不足:非常低效!

      不過他還是給出了兩個可以讓GPT變高效的方法:

      -同時地而不是順序地執(zhí)行注意力計算。

      -實現(xiàn) KV 緩存。

      此外,博主還推薦了一些訓(xùn)練模型、評估模型以及改進架構(gòu)的方法和教程。

      感興趣的話,直接戳文末鏈接~

      作者介紹

      Jay Mody,目前在加拿大一家NLP初創(chuàng)公司Cohere從事機器學(xué)習(xí)的工作,此前,他還分別在特斯拉和亞馬遜作為軟件工程師實習(xí)過一段時間。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。