E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動6000億GTV后,抖音計劃偷襲美團大本營AGI Open Network(AON):賦能每個人創(chuàng)建、部署和貨幣化AI Agent貸款利率史上最低了嗎?東融教你看懂歷年啥水平“客服來電”有詐?抖音客服上線“驗證助手”助用戶識別詐騙OpenAI新模型GPT-5研發(fā)未達預期:成本高昂 效果不佳曝天馬打入果鏈:為蘋果HomePod供應LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運營商e&,展示全球首個固網(wǎng)游戲端到端網(wǎng)絡切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒放棄曲面屏開發(fā)!最新專利曝光暗示有望回歸三大運營商11月成績單:用戶數(shù)據(jù)增幅放緩打造下一個英偉達,孫正義的2026芯片計劃曝光瞭望2025全球6G技術發(fā)展趨勢AI時代云安全新范式,暢捷通智能守護小微企業(yè)安全上云百川智能發(fā)布全鏈路領域增強金融大模型 Baichuan4-Finance年末家電消費觀察:品質生活類產品熱賣,將持續(xù)迎來剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進展新一代語言模型ModernBERT發(fā)布,RAG等任務處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領先于 OpenAI 和谷歌模型
  • 首頁 > 云計算頻道 > 大模型

    研究發(fā)現(xiàn),GPT 和其他AI模型無法分析SEC備案文件

    2023年12月20日 20:17:09   來源:站長之家

      一家名為 Patronus AI 的初創(chuàng)公司的研究人員發(fā)現(xiàn),大型語言模型在分析美國證券交易委員會(SEC)備案文件時經常無法正確回答問題。即使是表現(xiàn)最佳的人工智能模型配置 OpenAI 的GPT-4-Turbo,當給予幾乎整個備案文件的閱讀能力和相關問題時,僅有79% 的問題回答正確。Patronus AI 的創(chuàng)始人告訴 CNBC,這些所謂的大型語言模型有時會拒絕回答問題,或者會 “產生幻覺”,出現(xiàn)備案文件中不存在的數(shù)字和事實。

      Patronus AI 的聯(lián)合創(chuàng)始人 Anand Kannappan 表示:“這種性能水平完全不能接受。要想實現(xiàn)自動化和投入生產使用,性能必須更高。” 這些發(fā)現(xiàn)凸顯了 AI 模型在大公司中應用的一些挑戰(zhàn),尤其是在金融等受監(jiān)管行業(yè)。這些公司希望將先進技術應用于客戶服務或研究,但 AI 模型面臨一些困難。

      快速提取重要數(shù)字并對財務陳述進行分析被認為是聊天機器人最有前景的應用之一,自去年底發(fā)布 ChatGPT 以來一直備受關注。SEC 備案文件中充滿著重要的數(shù)據(jù),如果一個機器人能夠準確地概括這些文件或快速回答相關問題,它可以使用戶在競爭激烈的金融行業(yè)中占據(jù)優(yōu)勢。

      在過去的一年里,彭博社開發(fā)了自己的金融數(shù)據(jù) AI 模型,商學院教授研究了 ChatGPT 是否可以解析財經頭條新聞,摩根大通正在開發(fā)一個基于 AI 的自動投資工具。根據(jù) CNBC 之前的報道,生成式 AI 預計每年可以為銀行業(yè)帶來數(shù)萬億美元的收益。

      然而,GPT 進入該行業(yè)并不順利。微軟首次推出使用 OpenAI 的 GPT 的必應聊天時,其主要示例之一是使用聊天機器人快速概述盈利新聞稿。觀察人員很快就意識到微軟示例中的數(shù)字是錯誤的,一些數(shù)字完全是虛構的。

      Patronus AI 的聯(lián)合創(chuàng)始人表示,將大型語言模型應用于實際產品的挑戰(zhàn)之一是,它們是非確定性的,不能保證每次給出相同的輸出。這意味著公司需要進行更嚴格的測試,以確保它們的模型運行正確,不會偏離主題,并提供可靠的結果。

      該公司的創(chuàng)始人在 Facebook 的母公司 Meta 公司相識,他們在該公司從事與理解模型生成答案的問題以及使其更加 “負責任” 方面的 AI 問題。他們成立了 Patronus AI,該公司已從 Lightspeed Venture Partners 獲得種子資金,旨在通過軟件實現(xiàn)對大型語言模型的自動化測試,以便公司可以確保其 AI 機器人不會以離題或錯誤的答案令客戶或員工感到驚訝。

      Patronus AI 致力于編寫一套由主要上市公司的 SEC 備案文件中提取的10,000多個問題和答案,該數(shù)據(jù)集被稱為 FinanceBench。數(shù)據(jù)集包括正確答案,以及在任何給定備案文件中準確查找答案的位置。并非所有答案都可以直接從文本中提取,有些問題需要輕微的數(shù)學或推理。

      Patronus AI 測試了四個語言模型:OpenAI 的 GPT-4和 GPT-4-Turbo,Anthropic 的 Claude2和 Meta 的 Llama2,使用該公司生成的150個問題的子集進行測試。他們還測試了不同的配置和提示方式,例如將 OpenAI 模型在問題中給出與答案相關的確切源文本的 “Oracle” 模式。在其他測試中,模型被告知底層 SEC 文件存儲的位置,或者在提示中包含 “長上下文”,即幾乎完整的 SEC 備案文件與問題一起提供。

      GPT-4-Turbo 在該公司的 “閉卷” 測試中失敗,該測試不允許其訪問任何 SEC 源文件。它在被問到的150個問題中,未能回答88% 的問題,只有14次給出了正確答案。當獲得對底層備案文件的訪問權限時,其性能有了顯著改善。在 “Oracle” 模式下,GPT-4-Turbo 在85% 的情況下正確回答問題,但仍然在15% 的情況下給出了錯誤答案。然而,這種測試方式并不現(xiàn)實,因為它需要人工輸入以找到備案文件中確切的相關位置,而這正是許多人希望語言模型能夠解決的問題。

      Meta 開發(fā)的開源 AI 模型 Llama2在獲得各種底層文件的訪問權限時,產生了一些最糟糕的 “幻覺”,錯誤回答的比例高達70%,僅有19% 的回答正確。Anthropic 的 Claude2在提供 “長上下文” 的情況下表現(xiàn)良好,可以回答75% 的問題,21% 的回答錯誤,僅有3% 的問題未能回答。GPT-4-Turbo 在長上下文測試中表現(xiàn)也不錯,79% 的問題回答正確,17% 的回答錯誤。

      在進行測試后,Patronus AI 的創(chuàng)始人對模型的表現(xiàn)感到驚訝,即使在指導答案所在位置的情況下,它們的表現(xiàn)仍然很差。“即使答案在上下文中,模型拒絕回答的頻率也非常高,而人類是可以回答的。”Qian 說道。然而,即使模型表現(xiàn)良好,仍然不夠好,Patronus AI 發(fā)現(xiàn)。“即使模型在20次中回答錯誤1次,這個錯誤率對于受監(jiān)管的行業(yè)來說仍然不可接受。”Qian 說道。

      然而,Patronus AI 的創(chuàng)始人認為,像 GPT 這樣的語言模型在金融行業(yè)中有巨大的潛力,無論是分析師還是投資者,如果 AI 技術繼續(xù)改進。“我們確實認為結果可能非常有希望。”Kannappan 表示,“隨著時間的推移,模型將會變得更好。我們非常有希望在長期內,很多工作可以實現(xiàn)自動化。但是現(xiàn)在,你肯定需要至少一個人參與來支持和引導你的工作流程。”

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。