一家名為 Patronus AI 的初創(chuàng)公司的研究人員發(fā)現(xiàn),大型語言模型在分析美國證券交易委員會(SEC)備案文件時經常無法正確回答問題。即使是表現(xiàn)最佳的人工智能模型配置 OpenAI 的GPT-4-Turbo,當給予幾乎整個備案文件的閱讀能力和相關問題時,僅有79% 的問題回答正確。Patronus AI 的創(chuàng)始人告訴 CNBC,這些所謂的大型語言模型有時會拒絕回答問題,或者會 “產生幻覺”,出現(xiàn)備案文件中不存在的數(shù)字和事實。
Patronus AI 的聯(lián)合創(chuàng)始人 Anand Kannappan 表示:“這種性能水平完全不能接受。要想實現(xiàn)自動化和投入生產使用,性能必須更高。” 這些發(fā)現(xiàn)凸顯了 AI 模型在大公司中應用的一些挑戰(zhàn),尤其是在金融等受監(jiān)管行業(yè)。這些公司希望將先進技術應用于客戶服務或研究,但 AI 模型面臨一些困難。
快速提取重要數(shù)字并對財務陳述進行分析被認為是聊天機器人最有前景的應用之一,自去年底發(fā)布 ChatGPT 以來一直備受關注。SEC 備案文件中充滿著重要的數(shù)據(jù),如果一個機器人能夠準確地概括這些文件或快速回答相關問題,它可以使用戶在競爭激烈的金融行業(yè)中占據(jù)優(yōu)勢。
在過去的一年里,彭博社開發(fā)了自己的金融數(shù)據(jù) AI 模型,商學院教授研究了 ChatGPT 是否可以解析財經頭條新聞,摩根大通正在開發(fā)一個基于 AI 的自動投資工具。根據(jù) CNBC 之前的報道,生成式 AI 預計每年可以為銀行業(yè)帶來數(shù)萬億美元的收益。
然而,GPT 進入該行業(yè)并不順利。微軟首次推出使用 OpenAI 的 GPT 的必應聊天時,其主要示例之一是使用聊天機器人快速概述盈利新聞稿。觀察人員很快就意識到微軟示例中的數(shù)字是錯誤的,一些數(shù)字完全是虛構的。
Patronus AI 的聯(lián)合創(chuàng)始人表示,將大型語言模型應用于實際產品的挑戰(zhàn)之一是,它們是非確定性的,不能保證每次給出相同的輸出。這意味著公司需要進行更嚴格的測試,以確保它們的模型運行正確,不會偏離主題,并提供可靠的結果。
該公司的創(chuàng)始人在 Facebook 的母公司 Meta 公司相識,他們在該公司從事與理解模型生成答案的問題以及使其更加 “負責任” 方面的 AI 問題。他們成立了 Patronus AI,該公司已從 Lightspeed Venture Partners 獲得種子資金,旨在通過軟件實現(xiàn)對大型語言模型的自動化測試,以便公司可以確保其 AI 機器人不會以離題或錯誤的答案令客戶或員工感到驚訝。
Patronus AI 致力于編寫一套由主要上市公司的 SEC 備案文件中提取的10,000多個問題和答案,該數(shù)據(jù)集被稱為 FinanceBench。數(shù)據(jù)集包括正確答案,以及在任何給定備案文件中準確查找答案的位置。并非所有答案都可以直接從文本中提取,有些問題需要輕微的數(shù)學或推理。
Patronus AI 測試了四個語言模型:OpenAI 的 GPT-4和 GPT-4-Turbo,Anthropic 的 Claude2和 Meta 的 Llama2,使用該公司生成的150個問題的子集進行測試。他們還測試了不同的配置和提示方式,例如將 OpenAI 模型在問題中給出與答案相關的確切源文本的 “Oracle” 模式。在其他測試中,模型被告知底層 SEC 文件存儲的位置,或者在提示中包含 “長上下文”,即幾乎完整的 SEC 備案文件與問題一起提供。
GPT-4-Turbo 在該公司的 “閉卷” 測試中失敗,該測試不允許其訪問任何 SEC 源文件。它在被問到的150個問題中,未能回答88% 的問題,只有14次給出了正確答案。當獲得對底層備案文件的訪問權限時,其性能有了顯著改善。在 “Oracle” 模式下,GPT-4-Turbo 在85% 的情況下正確回答問題,但仍然在15% 的情況下給出了錯誤答案。然而,這種測試方式并不現(xiàn)實,因為它需要人工輸入以找到備案文件中確切的相關位置,而這正是許多人希望語言模型能夠解決的問題。
Meta 開發(fā)的開源 AI 模型 Llama2在獲得各種底層文件的訪問權限時,產生了一些最糟糕的 “幻覺”,錯誤回答的比例高達70%,僅有19% 的回答正確。Anthropic 的 Claude2在提供 “長上下文” 的情況下表現(xiàn)良好,可以回答75% 的問題,21% 的回答錯誤,僅有3% 的問題未能回答。GPT-4-Turbo 在長上下文測試中表現(xiàn)也不錯,79% 的問題回答正確,17% 的回答錯誤。
在進行測試后,Patronus AI 的創(chuàng)始人對模型的表現(xiàn)感到驚訝,即使在指導答案所在位置的情況下,它們的表現(xiàn)仍然很差。“即使答案在上下文中,模型拒絕回答的頻率也非常高,而人類是可以回答的。”Qian 說道。然而,即使模型表現(xiàn)良好,仍然不夠好,Patronus AI 發(fā)現(xiàn)。“即使模型在20次中回答錯誤1次,這個錯誤率對于受監(jiān)管的行業(yè)來說仍然不可接受。”Qian 說道。
然而,Patronus AI 的創(chuàng)始人認為,像 GPT 這樣的語言模型在金融行業(yè)中有巨大的潛力,無論是分析師還是投資者,如果 AI 技術繼續(xù)改進。“我們確實認為結果可能非常有希望。”Kannappan 表示,“隨著時間的推移,模型將會變得更好。我們非常有希望在長期內,很多工作可以實現(xiàn)自動化。但是現(xiàn)在,你肯定需要至少一個人參與來支持和引導你的工作流程。”
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。