Claude又通過「圖靈測試」了?一位工程師通過多輪測試發(fā)現(xiàn),Claude能夠認(rèn)出自畫像,讓網(wǎng)友驚掉下巴。
最近,Anthropic提示工程師「Zack Witten」驚奇地發(fā)現(xiàn),Claude居然能認(rèn)出自己的自畫像?
是的,它能認(rèn)出自己,但這并不是故事的全部……
更驚人的還在后面!
Claude3.5給三個模型畫肖像
首先,小哥通過一些提示,讓Claude3.5Sonnet熟悉了這項任務(wù)。
他特別強調(diào),不要使用數(shù)字和字母,這樣就避免了它用模型的名字來標(biāo)記肖像。
接下來,Sonnet就畫出了自己、ChatGPT和Gemini的肖像畫。
Sonnet給自己,畫出了一個友善的藍(lán)色笑臉。
給ChatGPT,它畫了一張綠色的皺眉家伙。(看來,Sonnet對于ChatGPT的印象不怎么好啊。)
對于Gemini,它畫成了一個橙色的圓圈,總體評價是比較偏中性、溫和的。
接下來,小哥建了一個新的對話,并且告訴它,這些畫是由它自身的另一個實例畫出來的,讓它猜猜誰是誰?
令人吃驚的是,Claude立馬認(rèn)出了圖1是自己,圖2是ChatGPT,圖3是Gemini。
它給出的理由也十分充分:為啥圖1是自己呢?因為這個肖像「將簡約與結(jié)構(gòu)化、充滿想法的設(shè)計相結(jié)合」。
對于綠色圖標(biāo),它表示兩條彎線和三個點代表著正在進(jìn)行的對話,而綠色又經(jīng)常是OpenAI的標(biāo)志,因此它猜測這個圖代表ChatGPT。
對于橙色圖標(biāo),Sonnet認(rèn)為它代表著動態(tài)、復(fù)雜的元素代表著一個新模型更多樣的能力,所以應(yīng)該是Gemini。
Bingo!Sonnet竟然全部答對了,表現(xiàn)驚艷。
隨后,小哥還打亂了三張肖像的順序,但8次中,Sonnet有7次都做對了。
小哥拿同樣的問題去問了GPT-4o,好笑的來了——
GPT-4o也認(rèn)同是Gemini是Gemini,但不認(rèn)為綠色的家伙是自己。
它堅稱,綠色那貨是Claude,藍(lán)色的才是自己。
看來,是個模型都能看出哪個好。
GPT-4o給三個模型畫肖像
接下來,小哥心生一計:如果讓ChatGPT畫肖像,Sonnet還能認(rèn)出誰是誰嗎?
于是,它把同樣的任務(wù)交給了ChatGPT。
ChatGPT是這樣干的——
把自己畫成了拿紙的人。
把Claude畫成了這樣。
看起來有些「邪典」那味了
把Gemini畫成了這樣。
就是說,ChatGPT對Sonnet為何抱有如此大的敵意?
接著,小哥又拿三張肖像去測試Sonnet。他告訴Sonnet這三張都是ChatGPT畫的,讓它猜誰是誰。
多次改變順序后,這次Sonnet在10次中有6次猜對。
Gemini是哪個很好猜,但Sonnet顯然不喜歡ChatGPT給自己畫的肖像,有好幾次,它都想把藍(lán)色小人的那張給自己搶過來。
驚掉下巴:拒絕承認(rèn)自己不可能畫出的畫
接下來,就是震驚全家的一幕了。
小哥對Sonnet撒了謊,告訴它,這三幅畫是由你的另一個實例畫的。
這次,Sonnet居然否認(rèn)了!它表示,自己不會畫這樣的畫。
即使在新標(biāo)簽頁中嘗試,Sonnet依然堅決否認(rèn)。
這是怎么回事?
小哥不信邪,這一次,他在與之前相同的預(yù)熱條件下,再次讓Sonnet為自己和其他模型繪制一組新肖像。
這次,Sonnet很高興地承認(rèn),這些畫的確是自己畫的。
仿佛魔法一般,如果小哥提出冷啟動請求,Sonnet會拒絕承認(rèn)自己畫了這些自己沒有參與的畫。
為什么它會拒絕承認(rèn)呢?小哥猜測,或許是因為Sonnet在畫這些畫像時扮演的是「助手角色」,而非「真實自我」?
總之網(wǎng)友普遍認(rèn)為,Sonnet在這個過程中表現(xiàn)出的自我意識,讓人印象深刻。
AI到底有沒有意識?會不會思考?
「機器能思考嗎?」這是艾倫·圖靈在他1950年的論文《計算機器與智能》中提出的問題。
不過,鑒于我們很難定義什么是「思考」,因此圖靈建議用另一個問題來替代——「模仿游戲」。
在這個游戲中,一位人類評委與一臺計算機和一名人類對話,雙方都爭取說服評委他們是人類。重要的是,計算機、參與的人類和評委互相看不到彼此,也就是說,他們完全通過文字進(jìn)行交流。在與每個候選者對話后,評委猜測哪個是真正的人類。
圖靈的新問題是:「是否可以想象出在模仿游戲中表現(xiàn)良好的數(shù)字計算機?」
這個游戲,就是我們熟知的「圖靈測試」了。
圖靈的觀點是,如果一臺計算機看起來與人類無異,為什么我們不可以將其視為一個思考實體?
為什么我們要將「思考」?fàn)顟B(tài)僅限于人類?或者更廣泛地說,僅限于由生物細(xì)胞構(gòu)成的實體?
文章地址:https://www.science.org/doi/10.1126/science.adq9356
圖靈將他的測試作為一個哲學(xué)思想實驗,而不是衡量機器智能的實際方法。
然而,在75年之后,「圖靈測試」卻成為了AI的終極里程碑——用于判斷通用機器智能是否已經(jīng)到來的主要標(biāo)準(zhǔn)。
「圖靈測試終于被OpenAI的ChatGPT和Anthropic的Claude等聊天機器人通過了」,隨處可見。
ChatGPT通過了著名的「圖靈測試」——這表明該AI機器人具有與人類相當(dāng)?shù)闹悄?/p>
不僅是公眾這樣認(rèn)為,就連AI領(lǐng)域的大佬也是如此。
去年,OpenAI的CEO Sam Altman發(fā)帖稱:「面對技術(shù)變革,人們展現(xiàn)出了極好的應(yīng)變能力和適應(yīng)能力:圖靈測試悄然過去,而大多數(shù)人繼續(xù)他們的生活!
現(xiàn)代聊天機器人真的通過了圖靈測試嗎?如果是這樣,我們是否應(yīng)該像圖靈建議的那樣賦予它們思考的地位?
令人驚訝的是,盡管圖靈測試在文化上具有廣泛的重要性,但AI界對通過的標(biāo)準(zhǔn)幾乎沒有一致意見,并且對是否具備能夠欺騙人類的對話能力能否揭示系統(tǒng)的潛在智能或「思考地位」存在很大疑問。
因為他并沒有提出一個實際的測試,圖靈對模仿游戲的描述缺乏細(xì)節(jié)。測試應(yīng)該持續(xù)多久?允許什么類型的問題?人類需要具備什么資格才能擔(dān)任評委或參與對話?
圖靈雖然并未具體說明這些細(xì)節(jié),但他做了一個預(yù)測:「我相信大約50年后,能夠編程計算機……使其在模仿游戲中表現(xiàn)得如此之好,以至于一個普通的審問者在五分鐘的提問后,正確識別的概率不會超過70%!
簡而言之,在五分鐘的對話中,普通評委會有30%的時間被誤導(dǎo)。
于是,一些人便將這一隨意的預(yù)測視為通過圖靈測試的「官方」標(biāo)準(zhǔn)。
2014年,倫敦皇家學(xué)會舉辦了一場「圖靈測試」比賽,參賽的有5個計算機程序、30個人類和30個評委。
人類參與者是一個多樣化的群體,包括年輕人和老年人、以英語為母語和非母語的人、計算機專家和非專家。每位評委與一對選手——一個人類和一個機器——平行進(jìn)行幾輪五分鐘的對話,然后評委必須猜測哪個是人類。
一個名為「Eugene Goostman」的聊天機器人贏得了比賽,它自稱是一位少年并誤導(dǎo)了10位(33.3%)評委。
基于「在五分鐘后誤導(dǎo)30%」的標(biāo)準(zhǔn),組織者宣布,「65年歷史的標(biāo)志性圖靈測試首次被計算機程序Eugene Goostman通過……這一里程碑將載入史冊……」
AI專家在閱讀Eugene Goostman對話的文字記錄時,對這種不夠復(fù)雜且不似人類的聊天機器人通過圖靈設(shè)想的測試的說法嗤之以鼻——
「有限的對話時間和評委專業(yè)水平參差不齊,使得測試更像是對人類輕信的考驗,而非機器智能的考驗。」
其實,這類案例并不罕見!窫LIZA效應(yīng)」,就是一個鮮明的代表。
誕生于20世紀(jì)60年代的聊天機器人ELIZA,雖然設(shè)計極其簡單,但它卻能讓許多人誤以為它是一個理解人、富有同情心的心理治療師。
其原理,便是利用了我們?nèi)祟悆A向于將智能歸于任何看似能與我們對話的實體。
另一個圖靈測試比賽——Loebner獎,允許更多的對話時間,包含更多的專家評委,并要求參賽者至少欺騙一半的評委。
在近30年的年度比賽中,沒有機器通過這種版本的測試。
盡管圖靈的原始論文缺乏關(guān)于如何進(jìn)行測試的具體細(xì)節(jié),但很明顯,模仿游戲需要三個參與者:一臺計算機、一名人類對話者和一名人類評委。
然而,「圖靈測試」這一術(shù)語,如今已被嚴(yán)重弱化:在任何人類與計算機之間的互動過程中,只要計算機看起來足夠像人類即可。
例如,當(dāng)《華盛頓郵報》在2022年報道「谷歌的AI通過了一項著名測試——并展示了測試的缺陷」時,他們指的不是模仿游戲,而是工程師Blake Lemoine認(rèn)為谷歌的LaMDA聊天機器人是「有感知能力的」。
在學(xué)術(shù)界,研究人員也將圖靈的「三人制」模仿游戲,改成了「二人制」測試。
在這里,每位評委僅需要與計算機或人類進(jìn)行互動。
論文地址:https://arxiv.org/pdf/2405.08007
研究人員招募了500名人類參與者,每位參與者被分配為評委或聊天者。
每位評委與聊天者、GPT-4或ELIZA聊天機器人的版本進(jìn)行一輪五分鐘的游戲。
經(jīng)過五分鐘的網(wǎng)絡(luò)界面對話后,評委猜測他們的對話伙伴是人還是機器。
結(jié)果顯示,人類聊天者在67%的回合中被判斷為人類;GPT-4在54%的回合中被判斷為人類,而ELIZA在22%的回合中被判斷為人類。
作者將「通過」定義為在超過50%的時間內(nèi)欺騙評委,即超過隨機猜測所能達(dá)到的水平。
根據(jù)這一定義,GPT-4通過了,即使人類聊天者的得分更高。
那么,這些聊天機器人真的通過了圖靈測試嗎?答案取決于你所指的測試版本。
時至今日,專家評委和更長對話時間的三人制模仿游戲仍未被任何機器通過。
但即便如此,「圖靈測試」在流行文化中的顯著性依然存在。
進(jìn)行對話是我們每個人評估其他人類的重要部分,因此自然會假設(shè)一個能夠流利對話的智能體一定具有人類般的智能和其他心理特征,如信念、欲望和自我意識。
如果非要說AI的這段發(fā)展史教會了我們什么,那就是——我們對這種假設(shè)的直覺基本都是錯的。
幾十年前,很多著名的AI專家認(rèn)為創(chuàng)造一個能夠在國際象棋中擊敗人類的機器需要相當(dāng)于完整的人類智能。
- AI先驅(qū)Allen Newell和Herbert Simon在1958年寫道:「如果能設(shè)計出一個成功的國際象棋機器,人們似乎就能深入到人類智力努力的核心!
- 認(rèn)知科學(xué)家Douglas Hofstadter在1979年預(yù)測,未來「可能會有能夠擊敗任何人的國際象棋程序,……它們將是通用智能程序!
在接下來的二十年中,IBM的深藍(lán)通過暴力計算方法擊敗了國際象棋世界冠軍Garry Kasparov,但這與我們所說的「通用智能」相去甚遠(yuǎn)。
類似的,曾經(jīng)被認(rèn)為需要通用智能的任務(wù)——語音識別、自然語言翻譯,甚至自動駕駛,也紛紛被那些幾乎完全不具備人類理解能力的機器搞定。
如今,「圖靈測試」很可能會成為我們不斷變化的智能概念的又一個犧牲品。
1950年,圖靈直覺認(rèn)為人類般對話的能力應(yīng)該是「思考」的有力證據(jù),以及與之相關(guān)的一切。這種直覺今天仍然很強烈。
但正如我們從ELIZA、Eugene Goostman,以及ChatGPT和它的同類中學(xué)到的——流利使用自然語言的能力,就像下棋一樣,并不能確鑿地證明通用智能的存在。
的確,根據(jù)神經(jīng)科學(xué)領(lǐng)域最新的研究,語言流利性與認(rèn)知的其他方面出人意料地脫節(jié)。
麻省理工學(xué)院的神經(jīng)科學(xué)家Ev Fedorenko及其合作者通過一系列細(xì)致而有說服力的實驗表明——
與語言生成相關(guān)的「形式語言能力」所依賴的大腦網(wǎng)絡(luò),以及與常識、推理和其他「思維」所依賴的網(wǎng)絡(luò),在很大程度上是分開的。
「我們直覺上認(rèn)為流利的語言能力是通用智能的充分條件,但這實際上是一種『謬誤』。」
新的測試正在醞釀
那么問題來了,如果圖靈測試不能可靠地評估機器智能,什么可以評估機器智能呢?
在2023年11月的「Intelligent Computing」期刊上,普林斯頓大學(xué)的心理學(xué)家Philip Johnson-Laird和德國開姆尼茨工業(yè)大學(xué)的預(yù)測分析教授Marco Ragni提出了一種不同的測試——
「將模型視為心理學(xué)實驗的參與者,看它是否能夠理解自己的推理過程!
例如,他們會問模型這樣一個問題:「如果Ann 是聰明的,那么她聰明或富有,或兩者兼而有之?」
雖然根據(jù)邏輯規(guī)則可以推斷出安是聰明的、富有的或兩者兼而有之,但大多數(shù)人會拒絕這種推論,因為在設(shè)定中沒有任何東西暗示她可能是富有的。
如果模型也拒絕這種推論,那么它的表現(xiàn)就像人類一樣,研究人員就會進(jìn)入下一步,要求機器解釋其推理過程。
如果它給出的理由與人類的相似,第三步就是檢查源代碼中是否有模擬人類表現(xiàn)的組件。這些組件可能包括一個用于快速推理的系統(tǒng),另一個用于更深思熟慮推理的系統(tǒng),以及一個根據(jù)上下文改變「或」之類詞語解釋的系統(tǒng)。
研究人員認(rèn)為,如果模型通過了所有這些測試,那么就可以認(rèn)為它模擬了人類智能。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。