" />
合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗(yàn)全面升級機(jī)器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機(jī)器也能說人話了?
  • 首頁 > 企業(yè)IT頻道 > 人工智能

    LLM AutoEval:AI平臺自動(dòng)評估Google Colab中的LLM

    2024年01月15日 15:52:52   來源:站長之家

      在自然語言處理領(lǐng)域,語言模型的評估對于開發(fā)人員推動(dòng)語言理解和生成的邊界至關(guān)重要。LLM AutoEval是一款旨在簡化和加速語言模型(LLMs)評估過程的工具,專為尋求快速高效評估LLM性能的開發(fā)者定制。

    image.png

      LLM AutoEval具有以下關(guān)鍵特點(diǎn):

      1. **自動(dòng)化設(shè)置和執(zhí)行:** LLM AutoEval通過使用RunPod簡化設(shè)置和執(zhí)行過程,提供方便的Colab筆記本,實(shí)現(xiàn)無縫部署。

      2. **可定制的評估參數(shù):** 開發(fā)者可以通過選擇兩個(gè)基準(zhǔn)套件 - nous或openllm,微調(diào)他們的評估。這提供了對LLM性能的靈活評估。

      3. **摘要生成和GitHub Gist上傳:** LLM AutoEval生成評估結(jié)果的摘要,快速展示模型的性能。該摘要隨后方便地上傳至GitHub Gist,以便輕松分享和參考。

      LLM AutoEval提供了用戶友好的界面,可定制的評估參數(shù),滿足開發(fā)者在評估語言模型性能時(shí)的多樣化需求。兩個(gè)基準(zhǔn)套件,nous和openllm,提供了不同的任務(wù)列表進(jìn)行評估。nous套件包括諸如AGIEval、GPT4ALL、TruthfulQA和Bigbench等任務(wù),推薦用于全面評估。

      另一方面,openllm套件包含任務(wù),如ARC、HellaSwag、MMLU、Winogrande、GSM8K和TruthfulQA,利用vllm實(shí)現(xiàn)增強(qiáng)速度。開發(fā)者可以從Hugging Face中選擇特定的模型ID,選擇首選GPU,指定GPU數(shù)量,設(shè)置容器磁盤大小,選擇在RunPod上使用社區(qū)或安全云,并切換對于像Phi這樣的模型的信任遠(yuǎn)程代碼標(biāo)志。此外,開發(fā)者還可以激活調(diào)試模式,盡管不建議在評估后保持Pod處于活動(dòng)狀態(tài)。

      為了在LLM AutoEval中實(shí)現(xiàn)無縫的令牌集成,用戶必須使用Colab的Secrets選項(xiàng)卡,在那里創(chuàng)建兩個(gè)名為runpod和github的秘密,分別包含RunPod和GitHub所需的令牌。

      兩個(gè)基準(zhǔn)套件,nous和openllm,滿足不同的評估需求:

      1. Nous套件:*開發(fā)者可以將其LLM結(jié)果與OpenHermes-2.5-Mistral-7B、Nous-Hermes-2-SOLAR-10.7B或Nous-Hermes-2-Yi-34B等模型進(jìn)行比較。Teknium的LLM-Benchmark-Logs可作為評估比較的有價(jià)值參考。

      2. Open LLM套件:該套件允許開發(fā)者將其模型與列在Open LLM排行榜上的模型進(jìn)行基準(zhǔn)測試,促進(jìn)社區(qū)內(nèi)更廣泛的比較。

      在LLM AutoEval中進(jìn)行故障排除得到了對常見問題的明確指導(dǎo)。例如,“Error: File does not exist”情景提示用戶激活調(diào)試模式并重新運(yùn)行評估,便于檢查日志以識別和糾正與缺少的JSON文件相關(guān)的問題。在“700Killed”錯(cuò)誤的情況下,警告用戶硬件可能不足,特別是在嘗試在像RTX3070這樣的GPU上運(yùn)行Open LLM基準(zhǔn)套件時(shí)。最后,對于過時(shí)的CUDA驅(qū)動(dòng)程序的不幸情況,建議用戶啟動(dòng)新的pod以確保LLM AutoEval工具的兼容性和平穩(wěn)運(yùn)行。

      LM AutoEval是一款為開發(fā)者在復(fù)雜的LLM評估領(lǐng)域中航行提供幫助的有前途的工具。作為一個(gè)為個(gè)人使用而設(shè)計(jì)的不斷發(fā)展的項(xiàng)目,鼓勵(lì)開發(fā)者謹(jǐn)慎使用,并為其發(fā)展做出貢獻(xiàn),確保在自然語言處理社區(qū)中持續(xù)增長和實(shí)用性。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。