今年3月,AI初創(chuàng)公司Cognition發(fā)布的首個(gè)AI程序員Devin引起巨大轟動(dòng),它可以像人一樣實(shí)現(xiàn)端到端的部署、調(diào)試、優(yōu)化代碼,幾乎與編程相關(guān)的任務(wù)都能自動(dòng)化完成。
今天,Cosine發(fā)布了同類產(chǎn)品Genie,但在權(quán)威測(cè)試平臺(tái)SWE-Bench上的評(píng)分達(dá)到驚人的30.08%,斷崖式領(lǐng)先Devin的13.8%和Swe-agent+GPT-4的12.47%,成為目前全球最強(qiáng)的AI程序員。
其實(shí)Genie并非盲目跟風(fēng)Devin,早在2022年12月13日,其聯(lián)合創(chuàng)始人AlistairPullen就在英國(guó)倫敦大學(xué)的一次路演中展示過Genie。他希望開一個(gè)能像人類一樣端到端自動(dòng)執(zhí)行編碼、優(yōu)化的AI機(jī)器人而無(wú)需任何人為干預(yù)。
Alistair在2022年展示Genie
經(jīng)過一年多的開發(fā)Genie終于進(jìn)入測(cè)試階段,并且獲得了250萬(wàn)美元種子輪融資。Alistair指出,Genie能大幅度領(lǐng)先Devin、GPT-4等知名產(chǎn)品,與其訓(xùn)練數(shù)據(jù)和方法有很大關(guān)系。
Genie的訓(xùn)練并非基于常規(guī)的大模型微調(diào),而是使用了一個(gè)特殊的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含了人類程序員的推理過程,包括信息的完整傳承、知識(shí)的逐步發(fā)現(xiàn),以及基于實(shí)際案例的決策制定步驟等,這使得Genie能夠像人類一樣在面對(duì)各種復(fù)雜甚至是從未見過的問題時(shí),展現(xiàn)出與人類工程師相似的處理能力。
簡(jiǎn)單來說,就是讓Genie完全模仿人類的開發(fā)風(fēng)格和解決BUG、優(yōu)化代碼的習(xí)慣,然后自動(dòng)去完成。
在訓(xùn)練的過程中,Genie還使用了一個(gè)獨(dú)特的“自我改進(jìn)機(jī)制”。最開始Genie 在大量高質(zhì)量的數(shù)據(jù)上進(jìn)行初始訓(xùn)練,使模型處于“完美”狀態(tài)。但這有一個(gè)很大弊端,就是Genie對(duì)自身錯(cuò)誤的判斷和改進(jìn)不足。
為了解決這個(gè)難題,在完成初始訓(xùn)練后,開發(fā)人員又通過Genie生成了一些合成數(shù)據(jù),并將這些數(shù)據(jù)注入到后續(xù)模型的訓(xùn)練中,以豐富錯(cuò)誤和復(fù)雜情況。
如果Genie提出的解決方案不正確,那么就會(huì)使用訓(xùn)練數(shù)據(jù)集中的最終正確狀態(tài)來指導(dǎo)Genie如何從錯(cuò)誤中過渡到正確的狀態(tài)。
簡(jiǎn)單來說,這個(gè)過程有點(diǎn)像媽媽教孩子走路,在Genie每一次跌倒或者走路姿勢(shì)不正確時(shí),幫助它糾正一下。隨著每一次循環(huán)迭代,Genie解決復(fù)雜編碼的能力越來越強(qiáng),即使在需要調(diào)整的情況下所需的指導(dǎo)也顯著減少。
這種自我改進(jìn)機(jī)制不僅提高了Genie在面對(duì)新問題時(shí)的適應(yīng)性和準(zhǔn)確性,還增強(qiáng)了它處理復(fù)雜、高度情境化編碼問題的能力,使其夠在從未見過的問題上展現(xiàn)出類似人類工程師的判斷力和創(chuàng)造力。
功能方面,Genie主要支持功能開發(fā)、BUG修復(fù)、代碼重構(gòu)、代碼小改動(dòng)和雜項(xiàng)、代碼測(cè)試以及編寫代碼文檔和更新。支持的編程語(yǔ)言包括JavaScript、 Python、Java、C#、C++、C、Rust、Scala、Kotlin、Swift、Golang、PHP和Ruby等幾十種主流語(yǔ)言。
知名開發(fā)者M(jìn)ckay表示,非常想測(cè)試一下這個(gè)產(chǎn)品。他已經(jīng)有了Devin的使用權(quán)限,所以,很容易就能評(píng)測(cè)出Genie到底是不是在吹牛。
能在SWE-Bench獲得如此高的評(píng)分,估計(jì)產(chǎn)品應(yīng)該差不到哪去。
已經(jīng)有老哥等不及了,希望馬上測(cè)試一下,但現(xiàn)在處于申請(qǐng)測(cè)試階段。
Alistair表示,現(xiàn)在可以接受申請(qǐng)注冊(cè),未來2—3周內(nèi)肯定會(huì)發(fā)放測(cè)試權(quán)限,并且在發(fā)布時(shí)還會(huì)增加一些小驚喜功能。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。
近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。