DDN推出 Infinia 2.0對(duì)象存儲(chǔ) 加速AI數(shù)據(jù)處理速度全部免費(fèi)!百度文心智能體平臺(tái)已全面接入DeepSeek模型燈塔云系統(tǒng):開啟勞務(wù)派遣管理4.0時(shí)代超2671萬名消費(fèi)者申請(qǐng)手機(jī)等數(shù)碼產(chǎn)品購(gòu)新補(bǔ)貼 用國(guó)補(bǔ)買手機(jī)上京東皇家馬德里對(duì)陣赫羅納:不乏進(jìn)球與高水平競(jìng)技的足球現(xiàn)場(chǎng)OpenAI宣布面向多個(gè)國(guó)家推出AI代理 Operator扣子Coze宣布獨(dú)家支持 DeepSeek Function Calling 工具調(diào)用能力小紅書將接入DeepSeek AI 搜索產(chǎn)品“點(diǎn)點(diǎn)” 內(nèi)測(cè)深度思考功能騰訊元寶「混元+DeepSeek」雙模聚合 推出「圖像理解」技能蘋果死磕廉價(jià)牌Clone公司推出首款“類人機(jī)器人”Protoclone 擁有肌肉和骨骼結(jié)構(gòu)微軟為OpenAI即將推出的 GPT-4.5和 GPT-5模型積極準(zhǔn)備服務(wù)器容量國(guó)際星閃聯(lián)盟會(huì)議在京召開,為星閃2.0標(biāo)準(zhǔn)完成打下基礎(chǔ)Telstra攜手愛立信進(jìn)行亞太首個(gè)5G-A高性能可編程網(wǎng)絡(luò)部署阿里通義萬相宣布即將開源視頻生成模型WanX2.1DeepSeek賦能Vixtel飛思達(dá)CloudFox可觀測(cè)性平臺(tái),打破可觀測(cè)性工程的實(shí)施壁壘《和平精英》手游宣布正式接入DeepSeekREDMI K80至尊版曝光:電池超7000mAh 紅米史上最大鴻海研究院量子容錯(cuò)計(jì)算技術(shù)取得重大突破DeepSeek“入侵”音樂平臺(tái):搜歌是其次,創(chuàng)作才是正職
  • 首頁 > 云計(jì)算頻道 > 大模型

    OpenAI開源SWELancer,大模型沖擊100萬年薪

    2025年02月19日 11:18:00   來源:AIGC開放社區(qū)公眾號(hào)

      今天凌晨2點(diǎn),OpenAI開源了一個(gè)全新評(píng)估大模型代碼能力的測(cè)試基準(zhǔn)——SWE-Lancer。

      目前,測(cè)試模型代碼能力的基準(zhǔn)主要有SWE-Bench和SWE-BenchVerified,但這兩個(gè)有一個(gè)很大的局限性,主要針對(duì)孤立任務(wù),很難反映現(xiàn)實(shí)中軟件工程師的復(fù)雜情況。例如,開發(fā)人員需處理全技術(shù)棧的工作,要考慮代碼庫(kù)間的復(fù)雜交互和權(quán)衡。

      而SWE-Lancer的測(cè)試數(shù)據(jù)集包含1488個(gè)來自Upwork平臺(tái)上Expensify開源倉(cāng)庫(kù)的真實(shí)開發(fā)任務(wù),并且總價(jià)值高達(dá)100萬美元。也就是說,如果你的大模型能全部答對(duì)這些問題,就能像人類一樣獲得百萬年薪

      SWE-Lancer獨(dú)特測(cè)試方法

      SWE-Lancer的一個(gè)重要?jiǎng)?chuàng)新是其采用的端到端測(cè)試方法。與傳統(tǒng)的單元測(cè)試不同,端到端測(cè)試能夠模擬真實(shí)用戶的工作流程,驗(yàn)證應(yīng)用程序的完整行為。這種方法不僅能夠更全面地評(píng)估模型的解決方案,還能夠避免一些模型通過作弊來通過測(cè)試。

      例如,對(duì)于一個(gè)價(jià)值1000美元的開發(fā)任務(wù),模型需要修復(fù)一個(gè)導(dǎo)致用戶頭像在“分享代碼”頁面與個(gè)人資料頁面不一致的漏洞。

      傳統(tǒng)的單元測(cè)試可能只能驗(yàn)證頭像上傳和顯示的獨(dú)立功能,但端到端測(cè)試則會(huì)模擬用戶登錄、上傳頭像、切換賬戶以及查看不同頁面的完整流程。通過這種方式,測(cè)試不僅能夠驗(yàn)證頭像是否正確顯示,還能夠確保整個(gè)交互過程的連貫性和正確性。

      端到端測(cè)試的另一個(gè)重要特點(diǎn)是其對(duì)真實(shí)場(chǎng)景的還原能力。在軟件工程中,許多問題并非孤立出現(xiàn),而是與系統(tǒng)的其他部分相互作用。

      例如,一個(gè)看似簡(jiǎn)單的漏洞可能涉及到多個(gè)組件的協(xié)同工作,或者與數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)狀態(tài)等外部因素相關(guān)。

      端到端測(cè)試通過模擬真實(shí)用戶的行為,能夠捕捉到這些復(fù)雜的交互關(guān)系,從而更準(zhǔn)確地評(píng)估模型的解決方案是否真正解決了問題。

      在評(píng)估的過程中,引入了一個(gè)重要模塊用戶工具,允許模型在本地運(yùn)行應(yīng)用程序,并模擬用戶的行為來驗(yàn)證其解決方案。

      例如,在處理Expensify應(yīng)用中報(bào)銷流程的相關(guān)任務(wù)時(shí),模型借助用戶工具模擬用戶進(jìn)行費(fèi)用錄入操作。會(huì)按照真實(shí)用戶的操作習(xí)慣,在本地運(yùn)行的應(yīng)用程序中依次輸入各項(xiàng)費(fèi)用明細(xì),如金額、日期、費(fèi)用類型等信息,之后點(diǎn)擊提交按鈕,觀察應(yīng)用程序是否能正確記錄費(fèi)用數(shù)據(jù),以及后續(xù)的審批流程是否能順利啟動(dòng)。

      通過這樣的模擬操作,模型能夠判斷自己對(duì)報(bào)銷流程問題的解決方案是否有效,比如是否修復(fù)了費(fèi)用錄入后數(shù)據(jù)丟失的漏洞,或者是否優(yōu)化了審批流程中的卡頓現(xiàn)象等。

      SWE-Lancer數(shù)據(jù)集

      SWE-Lancer數(shù)據(jù)集一共包含1488個(gè)來自Upwork平臺(tái)上Expensify開源庫(kù)的真實(shí)軟件開發(fā)任務(wù),一共分為獨(dú)立貢獻(xiàn)者和軟件工程管理任務(wù)兩大類。

      獨(dú)立開發(fā)任務(wù)一共有764個(gè),價(jià)值414,775美元,主要模擬個(gè)體軟件工程師的職責(zé),例如,實(shí)現(xiàn)功能、修復(fù)漏洞等。在這類任務(wù)中,模型會(huì)得到問題文本描述涵蓋重現(xiàn)步驟、期望行為、問題修復(fù)前的代碼庫(kù)檢查點(diǎn)以及修復(fù)目標(biāo)。

      軟件管理任務(wù),有724個(gè),價(jià)值585,225美元。模型在此類任務(wù)中扮演軟件工程經(jīng)理的角色,需要從多個(gè)解決任務(wù)的提案中挑選最佳方案。例如,在一個(gè)關(guān)于在iOS上實(shí)現(xiàn)圖像粘貼功能的任務(wù)中,模型要從不同提案里選擇最適宜的方案。

      首批SWE-Lancer測(cè)試結(jié)果

      OpenAI使用了GPT-4o、o1和Claude3.5Sonnet在SWE-Lancer進(jìn)行了測(cè)試,結(jié)果顯示,大模型沖擊百萬年薪都失敗了。

      在獨(dú)立開發(fā)測(cè)試任務(wù)中,表現(xiàn)最好的模型Claude3.5Sonnet的通過率僅為26.2%,只能正確解決不到三分之一的開發(fā)任務(wù)。而在軟件工程管理任務(wù)中,Claude3.5Sonnet的表現(xiàn)稍好,通過率達(dá)到了44.9%。

      而GPT-4o在獨(dú)立開發(fā)測(cè)試中的通過率僅為8%,o1的通過率為20.3%;在軟件工程管理任務(wù)中,GPT-4o為37.0%,o1為46.3%。

      需要注意的是,模型在不同任務(wù)類型和難度級(jí)別上的表現(xiàn)存在顯著差異。在價(jià)值較低、相對(duì)簡(jiǎn)單的任務(wù)中,模型的通過率相對(duì)較高;而在價(jià)值較高、難度較大的任務(wù)中,通過率則明顯下降。

      例如,在SWE-Lancer Diamond數(shù)據(jù)集中,價(jià)值超過1000美元的任務(wù),模型的通過率普遍低于30%。這表明,盡管模型在處理一些基礎(chǔ)任務(wù)時(shí)能夠表現(xiàn)出一定的能力,但在面對(duì)復(fù)雜的、高價(jià)值的軟件工程任務(wù)時(shí),他們?nèi)员热祟愐詈芏唷?/p>

      看完這個(gè)基準(zhǔn)測(cè)試,網(wǎng)友表示,現(xiàn)在我們竟然需要測(cè)試大型語言模型是否能成為百萬富翁,這簡(jiǎn)直瘋狂。

      我很喜歡這個(gè)發(fā)展的方向。用全棧問題進(jìn)行測(cè)試,將其與市場(chǎng)價(jià)值和開發(fā)工作的日,F(xiàn)實(shí)聯(lián)系起來。一直覺得以前的基準(zhǔn)測(cè)試就不太準(zhǔn)確。

      百分之百確定o3在這方面會(huì)勝過Grok3。

      將它與現(xiàn)實(shí)世界的任務(wù)和經(jīng)濟(jì)價(jià)值聯(lián)系起來真是天才之舉,非常有趣。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。