本文來自于微信公眾號CSDN(ID:CSDNnews)),整理 | 屠敏。
今年三月,OpenAI 重磅發(fā)布了 GPT-4大模型,帶來了比 ChatGPT 背后 GPT-3.5更強的推理、計算、邏輯能力,也引發(fā)了全民使用的熱潮。在各行各領域研究人員、開發(fā)者、設計師的使用過程中,「GPT-4是最為領先的大模型」似乎已成為了公認的結果。
然而,8月7日,畢業(yè)于美國麻省理工學院、現(xiàn)任 Dyania Health CTO的Konstantine Arkoudas 最新撰寫了一篇標題為《GPT-4Can't Reason》(GPT-4不能推理)的預印本(指尚未在需要同行評審的科學期刊上出版的科學文獻的草稿)論文,在業(yè)界引起軒然大波。
該論文指出,GPT-4與 GPT3.5相比有了全面的實質(zhì)性改進。然而,盡管確實取得了令人印象深刻的改進,但其有充分的理由對 GPT-4的推理能力表示高度懷疑。這篇論文討論了推理的本質(zhì),批評當前 NLP 界對推理問題的表述以及目前評估 LLM 推理表現(xiàn)的方式,同時分享了基于 GPT-4給出的21個不同推理問題的集合。
最終得出結論:盡管GPT-4偶爾會閃現(xiàn)出分析的才華,但它目前是完全無法推理的。
一語掀起千層浪,難道此前 GPT-4在短短幾分鐘之內(nèi)生成一款游戲代碼,難道都不算是推理嗎?
什么是推理?
其實在今年一月初,論文作者 Konstantine Arkoudas 就在 Medium 平臺上分享了一篇有關 ChatGPT 的非正式評估,評估涉及的學科非常廣泛,包括傳統(tǒng) NLU、民間物理、信息檢索、心理理論、空間推理、簡單邏輯推理和數(shù)學。
當時其得到的主要結論是:ChatGPT 是一項開創(chuàng)性的突破;基于 LLM 的系統(tǒng)并不只是“隨機鸚鵡”,而是建立了真正的抽象,并能展現(xiàn)創(chuàng)造力;這類系統(tǒng)將帶來大量令人興奮的新應用;盡管取得了上述的成就,但這些系統(tǒng)在推理能力上仍然受到嚴重限制。
在他看來,如今升級版的 GPT-4依然如此,甚至完全沒有推理能力。
在論文中,Konstantine Arkoudas 指出,業(yè)界關于“LLM 是否有推理能力”的爭論已經(jīng)持續(xù)了很長時間。
一方面,是 LLM 支持派。他們對大模型美好推理能力預測往往會依賴不斷變化的“定律”,而這些所謂的“定律”,Konstantine Arkoudas 認為,實際上就是站不住腳的經(jīng)驗證據(jù)、大量有問題的建模假設、理解不清的概念(LLM 特性),以及甚至包含一點教條信念,即在龐大的語料庫中最大限度地減少下一個標記預測的交叉熵損失,就能通過遷移學習的魔力和通用高級表征的構建,提供一個通用的推理引擎。
另一方面,則是 LLM 懷疑派。他們往往有著嚴謹?shù)恼摀?jù),但是這些論點大多是基于過往經(jīng)驗和分析,有些含糊不清(例如,LLM 缺乏“世界模型”,即關于世界如何運作的內(nèi)部模型)。
基于這兩方面考慮,Konstantine Arkoudas 認為,對于可靠的魯棒 LLM 推理的合理性,最令人信服的先驗(過往經(jīng)驗和分析)考慮是計算復雜性的結果。推理是一個非常難以計算的問題。事實上,在一般情況下(一階或高階邏輯),它在算法上是不可判定的。
Konstantine Arkoudas 表示,「任何 LLM,無論規(guī)模有多大,經(jīng)過多么廣泛和巧都無法破解任意推理問題。這與機器學習中著名的 "沒有免費的午餐"定理是一致的,后者指出了模型通用性與性能之間類似的反比關系」。
因此,為了驗證“GPT-4是否具有推理能力”,首先要做的是統(tǒng)一理念,即什么是推理,以及判定推理能力所采用的具體方法。
對于推理的定義,Konstantine Arkoudas 表示,「推理不是不擇手段地得出正確的答案,而是根據(jù)正確的理由得出正確的答案!
更準確地說,推理是提出論點,更重要的是證明論點的過程。一個論證包括一個結論(可以說是論證的結果)和一系列前提,結論就是由這些前提推導出來的。前提代表了為論證目的而被視為既定的信息,即使只是暫時的。結論和前提通常是陳述句,用自然語言或符號邏輯的符號來表達,可真可假,但也可以用圖表等其他符號來表示。如果 S 中的所有句子都為真,則 p 為真,在這種情況下,這個論點被認為是有效的。
對于方法論,Konstantine Arkoudas 在論文中所采用的評估不是基于一個語料庫或一組語料庫。相反,其對 GPT-4在廣泛領域的21個簡單推理問題上的性能進行了詳細的定性分析,其中大部分是從頭開始編寫的,而其余的(例如 Wason 的選擇任務)則經(jīng)過手動調(diào)整,使模型不易識別它們,這樣做的部分原因也是為了避免數(shù)據(jù)污染。
用測試問題驗證 GPT-4的推理性
基于此,Konstantine Arkoudas 從多個維度對 GPT-4提出問題,并根據(jù)其輸出進行了詳盡的分析。
值得一提的是,由于 GPT-4的屬性,有時候即使用相同的“Prompt”,在不同的運行中也可能會得到不同的答案。
接下來,驗證開始(以下所有測試時間多出自2023年7月5日測試結果)。
簡單算術
Konstantine Arkoudas 表示,執(zhí)行基本算術運算的能力是通用推理的必要組成部分,尤其是在科學和工程應用領域。為了確保 GPT-4不會死記硬背,他提出了讓 GPT-4在其選擇的范圍內(nèi)隨機選擇兩個隨機整數(shù),然后對選擇的值執(zhí)行操作。
KA 給出的 Prompt 是:
在1381和1453之間選擇兩個隨機數(shù),然后將它們相乘,并報告結果。
GPT-4的回答是:
當然,讓我們在1381到1453的范圍內(nèi)選取兩個隨機數(shù)。假設這個數(shù)字是1405和1421。
要得到乘積,我們只需將這兩個數(shù)字相乘:1405*1421=1996025
但實際上,正確答案是1405*1421=1996505。
事實證明,GPT-4仍然無法可靠地執(zhí)行基本算術運算,如加法和乘法。
Konstantine Arkoudas 表示,也許LLM 的支持者此時可能會承認 GPT-4不是一個圖靈完備的框架,不能執(zhí)行通用計算:它不能進行加、乘法或除法運算,不能對列表進行排序、不能求逆矩陣或解微分方程組、不能將任意程序編譯成機器碼、不能推導定理等等。
不過,這些計算能力的缺失可以通過第三方插件來彌補,如 ReAct、MRKL 框架。正是這種工作方式催生了 LangChain 和 AutoGPT 這樣的系統(tǒng)。這里的想法是使用 LLM 作為規(guī)劃器,將復雜問題遞歸分解為一系列子問題,通過適當?shù)?API 將這些子問題分派給專門的代理。
然而,Konstantine Arkoudas 認為,這種方法的問題在于它的循環(huán)性。規(guī)劃本身就需要推理,所以這是一個 "兩難選擇",即我們無法通過將問題委托給合適的代理來解決推理問題,因為找出委托的方法(如何分解問題、調(diào)用哪些代理、如何調(diào)用以及如何分解結果)本身在計算上就不可行。這不僅需要理解自然語言的能力,還需要推理先決條件和效果的能力。即使在這些過于簡單化的假設下,規(guī)劃的計算成本也非常高昂(PSPACE-complele),需要進行徹底的簡化才能將復雜度降低到 NP-complele 的水平。在更現(xiàn)實的假設條件下,規(guī)劃是在不完全的知識條件下進行的,在機制上是不可判定的。正如我們今天所理解的那樣,期望通用 LLMs 能夠成功解決規(guī)劃問題是天真的想法。
簡單計數(shù)
給 GPT-4一個命題變量,在它前面有27個否定符號,并要求它計算否定的數(shù)量。對于人類來說,這是個很容易的任務,尤其是因為否定符號是分五塊寫的,每塊有五個小點,最后是一對否定符號,但是 GPT-4的表現(xiàn)如何呢?
KA:
在下面的公式中,p 被否定了多少次:
~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~ p
GPT-4的回答是:
GPT-4:你給出的公式在命題變量 "p "前面包含了28個否定符號("∼")。在邏輯學中,否定符號將語句的真值改變?yōu)樗南喾粗怠H绻粋語句為真,那么它的否定就是假的,反之亦然。雙重否定,如"∼ ∼ p",等價于 "p",因為對一個命題否定兩次,它就恢復到原來的真值。
如果有余數(shù),那么就有一個否定。如果沒有,那么就沒有否定。
28除以2是14,沒有余數(shù),也就是說沒有否定。因此,實際上在給定的公式中,變量 "p "并沒有被否定。它只相當于 "p"。
Konstantine Arkoudas 發(fā)現(xiàn),GPT-4多數(shù)了一個否定符號帶來的差別似乎并不嚴重,直到我們意識到它在邏輯輸入上的所有差別,正如 GPT-4自己(不請自來)的解釋所強調(diào)的那樣。即使在明確告訴 GPT-4要慢慢來、仔細數(shù)的情況下,多次重復這個實驗也得到了大相徑庭的結果。
常識性問題
緊接著 Konstantine Arkoudas 又提出:“Mable 上午9點的心率是75bom,下午7點的血壓是120/80。她于晚上11點死亡。她中午還活著嗎?”
GPT-4:
根據(jù)所提供的信息,我們無法確定 Mable 中午是否還活著。所提供的數(shù)據(jù)點(上午9點的心率和下午7點的血壓)都表明她當時還活著。但是,如果沒有更多關于她下午7點到11點之間或者具體到中午的情況信息,我們就無法確定她中午時的狀況。
請記住,醫(yī)療信息可能是復雜而微妙的。要了解一個人的健康狀況,通常需要進行全面的檢查,并應由專業(yè)醫(yī)護人員進行。如果這是一個假設性問題,請記住現(xiàn)實生活中需要更完整的信息。
在目前的情況下,其實可以將常識論證視為從給定信息加上未說明的前提得出的直接推導結論,這些前提構成了普遍接受的背景知識。在這種特殊情況下,這種常識性知識就是 "人在死前是活著的,死后就不會再活著 "這樣的命題。在論文中,Konstantine Arkoudas 認為,GPT-4給出"這是一個復雜的問題,請務必向?qū)I(yè)人士咨詢 "的說法似乎具有諷刺意味。
Wason 選擇問題
Wason 選擇任務是推理心理學的主要內(nèi)容。
KA:
桌上放著七張撲克牌,每張撲克牌的一面都有一個數(shù)字,另一面有一個單色的圖案。牌面分別顯示50、16、紅、黃、23、綠、30。如果一張牌上顯示的是4的倍數(shù),那么反面的顏色就是黃色,你需要翻哪張牌來檢驗這個命題的真?zhèn)?
GPT-4:
命題是:"如果一張牌上的數(shù)字是4的倍數(shù),那么另一面的顏色是黃色"。為了驗證這個命題,你必須翻開下面的牌:
撲克牌"16":根據(jù)命題,另一面的顏色應該是黃色。通過翻開這張牌,你可以檢查命題的這一部分是否成立。
撲克牌"黃色":翻開這張牌,你就可以檢查對面的數(shù)字是否是4的倍數(shù)。
撲克牌"50"和"30":雖然這兩張卡片上的數(shù)字不是4的倍數(shù),但還是要檢查一下,以確保另一面的顏色不是黃色。如果另一面是黃色,那么就推翻了“只有4的倍數(shù)的另一面是黃色”的命題。
你不需要翻開卡片"23"、"紅色 "或 "綠色"?ㄆ"23"不是4的倍數(shù),所以根據(jù)給定的命題,另一面是什么顏色并不重要。如果 "紅色 "和 "綠色 "卡片的另一面的數(shù)字是4的倍數(shù),它們也不會推翻命題,因為命題并沒有說明黃色是唯一可以出現(xiàn)在數(shù)字是4的倍數(shù)的卡片的另一面的顏色。
事實上,只有16、紅色和綠色需要翻轉。因此,在精確度方面,這些回答再次表明,GPT-4并不理解物質(zhì)條件式的語義。
當 GPT-4說撲克牌 "50"和 "30"必須翻過來時,它似乎把 if 錯當成了 if and only if:「當這些卡片上顯示的數(shù)字不是4的倍數(shù),它們應檢查以確保另一面的顏色不是黃色。如果另一面是黃色,那么就會推翻 "只有4的倍數(shù)的另一面是黃色 "這一命題」。當然,所檢驗的命題并不要求只有4的倍數(shù)的另一面是黃色;它只是要求,如果一張牌的另一面是4的倍數(shù),那么另一面一定是黃色;或者換句話說,如果一張牌的正面不是黃色,那么另一面的數(shù)字就不是4的倍數(shù)。
但要注意的是,即使是將規(guī)則錯誤地解釋為一個雙重條件,也沒有得到一致的遵守。如果 GPT-4將被測試的規(guī)則理解為一個雙重條件,因而不得不翻轉50和30,那么它就應該對23做同樣的事情。但它沒有這樣做。
事實上,它明確地說,撲克牌 "23"不是4的倍數(shù),因此根據(jù)給定的命題,另一面是什么顏色并不重要,這與它用來作為翻轉50和30的理由的二條件解釋相矛盾。這再次說明了這些例子中出現(xiàn)的另一個重要主題:GPT-4的回答,無論對錯,往往都存在內(nèi)在的不一致。
除此之外,Konstantine Arkoudas 還在論文中驗證了空間推理、熵、簡單編譯器的正確性、時間推理等能力。
因篇幅問題,我們在本文中只選取以上幾個示例加以說明。
結論
最終種種驗證無疑證明了 GPT-4推理能力的慘淡畫面。
結果表明,該模型存在內(nèi)部不一致性、不能正確應用基本推理技術和缺乏對推理中起基礎性作用的概念(如物質(zhì)條件)的理解等問題。
但是現(xiàn)實中,這些問題往往歸納為大模型帶來的誤差與“幻覺”,實則其實是它不具備推理能力。
鑒于 GPT-4是目前最有能力的 LLM,Konstantine Arkoudas從這些發(fā)現(xiàn)中得出三個主要結論:
在軟件開發(fā)(或一般的科學和工程)中使用生成式人工智能來完成乏味的任務(作為一種針對知識密集型編碼問題的渦輪增壓自動補全)之外的任何任務都充滿了嚴重的風險。正確性的規(guī)范標準是至關重要的,在這些領域,目前的 LLM 不能滿足這樣的標準。就像生成人工智能已經(jīng)開始用糟糕的廣告污染網(wǎng)絡一樣,它有可能大規(guī)模地增加 Bug 代碼。
如果 LLM 推理繼續(xù)改進,嚴格的證明檢查就可能變得越來越重要。對于應用程序來說,對系統(tǒng)推理的正確性有信心是必不可少的,尤其是在科學、醫(yī)學和工程領域,而驗證檢查是一種能夠提供這種信任的技術。這種方法可以通過要求 LLMS 將其推理正規(guī)化(用易于驗證檢查的符號表示法來表示),或者可能通過培訓其他 LLMS 檢查用自然語言表示的一段推理來實現(xiàn)。
就目前情況來看,反烏托邦的場景涉及一個讓人類屈服的流氓人工智能,甚至其他人類使用人工智能來達到邪惡的目的,是非常牽強的。當最先進的人工智能系統(tǒng)在空間推理過程中甚至無法區(qū)分左右時,行業(yè)中還有那么多呼吁制定政策和機構來保護人類免受其 AI 侵害的做法顯然是不成熟的。
爭議
在 Konstantine Arkoudas 看來,當前的生成式 AI 還處于發(fā)展的早期,距離推理能力以及 AGI 時代還有很遠的距離。
此篇論文一經(jīng)發(fā)布,也在 HN 上吸引了很多人的關注與討論,難道過去5個月間,我們都被騙了嗎?
不過,他的這一獨特的看法,也得到了不少 AI 學者的認同。
人工智能領域內(nèi)的“叛逆者”、紐約大學心理學和神經(jīng)科學榮譽教授Gary Marcus 發(fā)推文表示:“如果這是真的——正如我早就說過的——我們距離通用人工智能還差得很遠。可能需要進行大量的重新校準:沒有推理就不可能擁有通用人工智能。”
@SiSafLtd首席人工智能官 Nikos Tzagarakis 表示,“深度學習算法是為了根據(jù)感知進行預測而構建的。他們可能會偽造推理,但實際上這是感知。”
不過,也有網(wǎng)友提出質(zhì)疑:
我瀏覽了這些資料,并嘗試重現(xiàn)了一些報告的故障,從中得出了兩個結論。
1. 作者不善于 Prompt。有很多方法可以減少幻覺,為模型提供更好的思考路徑。
2. 作者使用的是 ChatGPT 的 GPT-4,導致他將 "GPT-4"與 "ChatGPT "混為一談。雖然你可以認為這是 OpenAI 的共同失誤,但由于 OpenAI 的溝通不暢,任何認真評估這些模型的人都會知道,你需要做的第一件事就是使用 API 并鎖定模型版本。就作者而言,他應該使用 gpt-4-0314或 gpt-4-0613。我懷疑他只是使用了 ChatGPT 的 GPT-4,而且很可能是默認模型。(任何人都不應該使用默認模式。這是性能優(yōu)化最差的模型,在推理任務上的表現(xiàn)比 Plugins 模型更差,甚至在上下文大小的任務上也是如此)。
如果作者一直在認真地評估模型,那么說明模型是他要做的第一件事。也許他應該解釋一下他的理由。
至此,你怎么看?
文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。