" />
  • 首頁 > 企業(yè)IT頻道 > 人工智能

    LLM AutoEval:AI平臺自動評估Google Colab中的LLM

    2024年01月15日 15:52:52   來源:站長之家

      在自然語言處理領域,語言模型的評估對于開發(fā)人員推動語言理解和生成的邊界至關重要。LLM AutoEval是一款旨在簡化和加速語言模型(LLMs)評估過程的工具,專為尋求快速高效評估LLM性能的開發(fā)者定制。

    image.png

      LLM AutoEval具有以下關鍵特點:

      1. **自動化設置和執(zhí)行:** LLM AutoEval通過使用RunPod簡化設置和執(zhí)行過程,提供方便的Colab筆記本,實現(xiàn)無縫部署。

      2. **可定制的評估參數(shù):** 開發(fā)者可以通過選擇兩個基準套件 - nous或openllm,微調(diào)他們的評估。這提供了對LLM性能的靈活評估。

      3. **摘要生成和GitHub Gist上傳:** LLM AutoEval生成評估結果的摘要,快速展示模型的性能。該摘要隨后方便地上傳至GitHub Gist,以便輕松分享和參考。

      LLM AutoEval提供了用戶友好的界面,可定制的評估參數(shù),滿足開發(fā)者在評估語言模型性能時的多樣化需求。兩個基準套件,nous和openllm,提供了不同的任務列表進行評估。nous套件包括諸如AGIEval、GPT4ALL、TruthfulQA和Bigbench等任務,推薦用于全面評估。

      另一方面,openllm套件包含任務,如ARC、HellaSwag、MMLU、Winogrande、GSM8K和TruthfulQA,利用vllm實現(xiàn)增強速度。開發(fā)者可以從Hugging Face中選擇特定的模型ID,選擇首選GPU,指定GPU數(shù)量,設置容器磁盤大小,選擇在RunPod上使用社區(qū)或安全云,并切換對于像Phi這樣的模型的信任遠程代碼標志。此外,開發(fā)者還可以激活調(diào)試模式,盡管不建議在評估后保持Pod處于活動狀態(tài)。

      為了在LLM AutoEval中實現(xiàn)無縫的令牌集成,用戶必須使用Colab的Secrets選項卡,在那里創(chuàng)建兩個名為runpod和github的秘密,分別包含RunPod和GitHub所需的令牌。

      兩個基準套件,nous和openllm,滿足不同的評估需求:

      1. Nous套件:*開發(fā)者可以將其LLM結果與OpenHermes-2.5-Mistral-7B、Nous-Hermes-2-SOLAR-10.7B或Nous-Hermes-2-Yi-34B等模型進行比較。Teknium的LLM-Benchmark-Logs可作為評估比較的有價值參考。

      2. Open LLM套件:該套件允許開發(fā)者將其模型與列在Open LLM排行榜上的模型進行基準測試,促進社區(qū)內(nèi)更廣泛的比較。

      在LLM AutoEval中進行故障排除得到了對常見問題的明確指導。例如,“Error: File does not exist”情景提示用戶激活調(diào)試模式并重新運行評估,便于檢查日志以識別和糾正與缺少的JSON文件相關的問題。在“700Killed”錯誤的情況下,警告用戶硬件可能不足,特別是在嘗試在像RTX3070這樣的GPU上運行Open LLM基準套件時。最后,對于過時的CUDA驅(qū)動程序的不幸情況,建議用戶啟動新的pod以確保LLM AutoEval工具的兼容性和平穩(wěn)運行。

      LM AutoEval是一款為開發(fā)者在復雜的LLM評估領域中航行提供幫助的有前途的工具。作為一個為個人使用而設計的不斷發(fā)展的項目,鼓勵開發(fā)者謹慎使用,并為其發(fā)展做出貢獻,確保在自然語言處理社區(qū)中持續(xù)增長和實用性。

      文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。