研究發(fā)現(xiàn)，GPT 和其他AI模型無法分析SEC備案文件

2023年12月20日 20:17:09 來源：站長之家

　　一家名為 Patronus AI 的初創(chuàng)公司的研究人員發(fā)現(xiàn)，大型語言模型在分析美國證券交易委員會(SEC)備案文件時經常無法正確回答問題。即使是表現(xiàn)最佳的人工智能模型配置 OpenAI 的GPT-4-Turbo，當給予幾乎整個備案文件的閱讀能力和相關問題時，僅有79% 的問題回答正確。Patronus AI 的創(chuàng)始人告訴 CNBC，這些所謂的大型語言模型有時會拒絕回答問題，或者會 “產生幻覺”，出現(xiàn)備案文件中不存在的數(shù)字和事實。

　　Patronus AI 的聯(lián)合創(chuàng)始人 Anand Kannappan 表示:“這種性能水平完全不能接受。要想實現(xiàn)自動化和投入生產使用，性能必須更高。” 這些發(fā)現(xiàn)凸顯了 AI 模型在大公司中應用的一些挑戰(zhàn)，尤其是在金融等受監(jiān)管行業(yè)。這些公司希望將先進技術應用于客戶服務或研究，但 AI 模型面臨一些困難。

　　快速提取重要數(shù)字并對財務陳述進行分析被認為是聊天機器人最有前景的應用之一，自去年底發(fā)布 ChatGPT 以來一直備受關注。SEC 備案文件中充滿著重要的數(shù)據(jù)，如果一個機器人能夠準確地概括這些文件或快速回答相關問題，它可以使用戶在競爭激烈的金融行業(yè)中占據(jù)優(yōu)勢。

　　在過去的一年里，彭博社開發(fā)了自己的金融數(shù)據(jù) AI 模型，商學院教授研究了 ChatGPT 是否可以解析財經頭條新聞，摩根大通正在開發(fā)一個基于 AI 的自動投資工具。根據(jù) CNBC 之前的報道，生成式 AI 預計每年可以為銀行業(yè)帶來數(shù)萬億美元的收益。

　　然而，GPT 進入該行業(yè)并不順利。微軟首次推出使用 OpenAI 的 GPT 的必應聊天時，其主要示例之一是使用聊天機器人快速概述盈利新聞稿。觀察人員很快就意識到微軟示例中的數(shù)字是錯誤的，一些數(shù)字完全是虛構的。

　　Patronus AI 的聯(lián)合創(chuàng)始人表示，將大型語言模型應用于實際產品的挑戰(zhàn)之一是，它們是非確定性的，不能保證每次給出相同的輸出。這意味著公司需要進行更嚴格的測試，以確保它們的模型運行正確，不會偏離主題，并提供可靠的結果。

　　該公司的創(chuàng)始人在 Facebook 的母公司 Meta 公司相識，他們在該公司從事與理解模型生成答案的問題以及使其更加 “負責任” 方面的 AI 問題。他們成立了 Patronus AI，該公司已從 Lightspeed Venture Partners 獲得種子資金，旨在通過軟件實現(xiàn)對大型語言模型的自動化測試，以便公司可以確保其 AI 機器人不會以離題或錯誤的答案令客戶或員工感到驚訝。

　　Patronus AI 致力于編寫一套由主要上市公司的 SEC 備案文件中提取的10，000多個問題和答案，該數(shù)據(jù)集被稱為 FinanceBench。數(shù)據(jù)集包括正確答案，以及在任何給定備案文件中準確查找答案的位置。并非所有答案都可以直接從文本中提取，有些問題需要輕微的數(shù)學或推理。

　　Patronus AI 測試了四個語言模型:OpenAI 的 GPT-4和 GPT-4-Turbo，Anthropic 的 Claude2和 Meta 的 Llama2，使用該公司生成的150個問題的子集進行測試。他們還測試了不同的配置和提示方式，例如將 OpenAI 模型在問題中給出與答案相關的確切源文本的 “Oracle” 模式。在其他測試中，模型被告知底層 SEC 文件存儲的位置，或者在提示中包含 “長上下文”，即幾乎完整的 SEC 備案文件與問題一起提供。

　　GPT-4-Turbo 在該公司的 “閉卷” 測試中失敗，該測試不允許其訪問任何 SEC 源文件。它在被問到的150個問題中，未能回答88% 的問題，只有14次給出了正確答案。當獲得對底層備案文件的訪問權限時，其性能有了顯著改善。在 “Oracle” 模式下，GPT-4-Turbo 在85% 的情況下正確回答問題，但仍然在15% 的情況下給出了錯誤答案。然而，這種測試方式并不現(xiàn)實，因為它需要人工輸入以找到備案文件中確切的相關位置，而這正是許多人希望語言模型能夠解決的問題。

　　Meta 開發(fā)的開源 AI 模型 Llama2在獲得各種底層文件的訪問權限時，產生了一些最糟糕的 “幻覺”，錯誤回答的比例高達70%，僅有19% 的回答正確。Anthropic 的 Claude2在提供 “長上下文” 的情況下表現(xiàn)良好，可以回答75% 的問題，21% 的回答錯誤，僅有3% 的問題未能回答。GPT-4-Turbo 在長上下文測試中表現(xiàn)也不錯，79% 的問題回答正確，17% 的回答錯誤。

　　在進行測試后，Patronus AI 的創(chuàng)始人對模型的表現(xiàn)感到驚訝，即使在指導答案所在位置的情況下，它們的表現(xiàn)仍然很差。“即使答案在上下文中，模型拒絕回答的頻率也非常高，而人類是可以回答的。”Qian 說道。然而，即使模型表現(xiàn)良好，仍然不夠好，Patronus AI 發(fā)現(xiàn)。“即使模型在20次中回答錯誤1次，這個錯誤率對于受監(jiān)管的行業(yè)來說仍然不可接受。”Qian 說道。

　　然而，Patronus AI 的創(chuàng)始人認為，像 GPT 這樣的語言模型在金融行業(yè)中有巨大的潛力，無論是分析師還是投資者，如果 AI 技術繼續(xù)改進。“我們確實認為結果可能非常有希望。”Kannappan 表示，“隨著時間的推移，模型將會變得更好。我們非常有希望在長期內，很多工作可以實現(xiàn)自動化。但是現(xiàn)在，你肯定需要至少一個人參與來支持和引導你的工作流程。”

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信