北大推出首個多輪多模態(tài)PPT任務(wù)完成基準(zhǔn)PPTC GPT-4完成正確率僅6%

2023年11月07日 20:21:47 來源：站長之家

　　北大和微軟亞洲研究院的研究人員提出了一項新的評估基準(zhǔn)PPTC，旨在評估大型語言模型在復(fù)雜多輪多模態(tài)PPT任務(wù)中的表現(xiàn)。

　　他們通過創(chuàng)建包含數(shù)百個多模態(tài)指令的數(shù)據(jù)集，挑戰(zhàn)大模型在多輪人機對話中生成PPT文檔的能力。結(jié)果顯示，GPT-4在創(chuàng)建新PPT文檔任務(wù)中表現(xiàn)良好，達(dá)到了75%的輪次層面正確率，但仍然面臨三個主要挑戰(zhàn)。

　　首先，錯誤累積導(dǎo)致大模型在單元層面的表現(xiàn)不佳。其次，大模型處理長PPT模板的能力有限，導(dǎo)致編輯任務(wù)的錯誤。最后，多模態(tài)指令增加了任務(wù)的復(fù)雜性，特別是涉及到空間位置操作的指令。

　　研究人員還嘗試了不同的算法和方法，如計劃算法和API選擇算法，以提高性能，但發(fā)現(xiàn)思維樹等方法并沒有明顯改進(jìn)性能。這項研究為理解大型語言模型在多模態(tài)環(huán)境中的表現(xiàn)提供了有益的見解，同時也提出了未來的挑戰(zhàn)和改進(jìn)方向。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信