隨著ChatGPT的出現(xiàn),大語言模型在生成連貫文本和遵循指令方面獲得了巨大技術(shù)突破。然后在推理和解決復(fù)雜內(nèi)容方面,面臨內(nèi)容不準(zhǔn)確、安全等難題。
谷歌Deepmind和南加州大學(xué)的研究人員提出了“SELF-DISCOVER”。這是一種用于大語言模型的通用框架,能自行發(fā)現(xiàn)任務(wù)內(nèi)在的推理結(jié)構(gòu),以解決對典型提示方法的復(fù)雜推理問題。
為了測試性能,研究人員在多個復(fù)雜推理基準(zhǔn)測試上評估了SELF-DISCOVER,包括Big Bench Hard、Thinking for Doing和MATH。
與僅使用鏈?zhǔn)剿季S(CoT)的方法相比,SELF-DISCOVER在21個任務(wù)上取得了高達(dá)42%的性能提升。在社交智能體推理任務(wù)上,使GPT-4的準(zhǔn)確率達(dá)到了85%,比之前最好的方法提高了33%。
目前,傳統(tǒng)的提示方法在處理復(fù)雜推理問題時存在一定的局限性。例如,鏈?zhǔn)剿季S隱式假設(shè)了某種推理流程,無法充分利用不同模塊各自的長處。
此外,雖然鏈?zhǔn)剿季S很適合處理線性和逐步遞進(jìn)的問題,但對于需要非線性思維或考慮多個維度交叉因素的復(fù)雜問題,這種方法可能無法提供幫助。
而SELF-DISCOVER可以引導(dǎo)大語言模型根據(jù)一組給定的原子推理模塊,自行選擇、調(diào)整和組合這些模塊,形成一個用于解決特定任務(wù)的推理結(jié)構(gòu)。
這種結(jié)構(gòu)不僅結(jié)合了多個推理模塊的優(yōu)勢,而且對每個任務(wù)都是獨(dú)特定制的,從而極大提高模型的推理和解題能力。
任務(wù)層,自發(fā)現(xiàn)推理結(jié)構(gòu)
這是SELF-DISCOVER的第一階段,主要在任務(wù)層面上發(fā)現(xiàn)解決該任務(wù)的推理結(jié)構(gòu),由三個細(xì)分模塊來做引導(dǎo)。
SELECT模塊:從一組原子推理模塊中選擇出解決給定任務(wù)的關(guān)鍵模塊。這些原子推理模塊包含了各種高層次的問題解決啟發(fā)式,例如“逐步思考”和“分解為子任務(wù)”。SELECT模塊會根據(jù)幾個任務(wù)示例,判斷哪些模塊對解決該任務(wù)至關(guān)重要。
ADAPT模塊:會細(xì)化每個SELECT模塊選擇出的推理模塊,使其更適合給定任務(wù)。例如,從“分解為子任務(wù)”細(xì)化為“先計算每個算術(shù)運(yùn)算”。
IMPLEMENT模塊:將ADAPT模塊細(xì)化后的推理模塊實(shí)現(xiàn)為一個結(jié)構(gòu)化的行動計劃,將自然語言描述轉(zhuǎn)化為鍵-值對格式的JSON結(jié)構(gòu),明確定義每一步需要生成什么內(nèi)容。
使用發(fā)現(xiàn)的結(jié)構(gòu)解決任務(wù)
在第一階段生成了一個與任務(wù)密切相關(guān)的推理結(jié)構(gòu)之后,第二階段會使用這個結(jié)構(gòu)來解決該任務(wù)的所有實(shí)例。
并在每個實(shí)例后面追加該結(jié)構(gòu),提示語言模型按照結(jié)構(gòu)逐步填寫每個值,最后得出答案。
與其他方法相比,SELF-DISCOVER擁有三大優(yōu)勢:1)發(fā)現(xiàn)的推理結(jié)構(gòu)整合了多個推理模塊的優(yōu)點(diǎn);
2)它的效率很高,只需要在任務(wù)層面額外進(jìn)行3次推理;3)發(fā)現(xiàn)的結(jié)構(gòu)反映了該任務(wù)的內(nèi)在特性,比優(yōu)化后的提示更具解釋性。
研究還發(fā)現(xiàn),SELF-DISCOVER在需要世界知識的任務(wù)上效果最好。這是因?yàn)榫C合使用多個推理模塊可以使模型從不同視角理解問題,而僅使用鏈?zhǔn)剿季S可能會遺漏一些重要信息。
此外,與需要大量重復(fù)查詢的方法相比,SELF-DISCOVER也展現(xiàn)出了極高的效率。每次只需要一個查詢,而獲得相似性能的集成方法需要40倍的查詢量,也就是說可以節(jié)省很多算力資源。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。