研究發(fā)現(xiàn):大語言模型通過閱讀文檔學(xué)會使用工具

2023年08月07日 20:36:48 來源：站長之家

　　本文概要:

　　1. 研究發(fā)現(xiàn)，語言模型通過閱讀文檔成功學(xué)會使用工具，甚至能夠發(fā)明新的方法。

　　2. 使用文檔訓(xùn)練的模型在零樣本性能上與僅使用演示訓(xùn)練的模型相當(dāng)甚至更好。

　　3. 通過閱讀文檔，語言模型可以學(xué)習(xí)復(fù)雜的圖像處理和視頻跟蹤功能。

　　根據(jù)一篇新的研究論文，語言模型可以通過閱讀工具和API文檔來學(xué)習(xí)使用工具，并在某些情況下甚至發(fā)明新的方法。與傳統(tǒng)的通過演示訓(xùn)練的方法相比，僅使用文檔的模型在零樣本性能上表現(xiàn)相當(dāng)或更好。

　　該團(tuán)隊(duì)使用文檔和演示對六種不同任務(wù)的多個(gè)模型進(jìn)行了訓(xùn)練，并比較了它們的性能。僅使用文檔，零樣本性能等于或優(yōu)于僅從演示中學(xué)習(xí)的模型。然后，在擴(kuò)展到包含200個(gè)工具的數(shù)據(jù)集后，第一個(gè)模型的性能顯著優(yōu)于第二個(gè)模型。

　　在圖像處理領(lǐng)域，該模型能夠通過學(xué)習(xí)新的、最先進(jìn)的圖像處理模塊的文檔來執(zhí)行復(fù)雜的圖像處理和視頻跟蹤功能，而無需進(jìn)一步演示。該團(tuán)隊(duì)特別強(qiáng)調(diào)，該模型能夠重現(xiàn)最近發(fā)布的圖像處理技術(shù)，例如 Grounded-SAM 和 Track Anything 的視頻跟蹤，展示了該方法在自動知識發(fā)現(xiàn)方面的潛力。

　　論文指出:“總的來說，我們通過關(guān)注LLM的內(nèi)部規(guī)劃和文檔推理能力，而不是通過演示明確指導(dǎo)他們的行為，揭示了LLM使用工具的新視角。”

　　這項(xiàng)研究揭示了閱讀文檔對于語言模型學(xué)習(xí)工具使用的重要性，以及文檔對于擴(kuò)展和自動知識發(fā)現(xiàn)的潛力。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信