GGII:預(yù)計2024年中國工業(yè)機器人全年銷量約30萬臺,同比下滑5%左右冰雪大世界盛大開園,美的空調(diào)橫跨50℃打造“東北夏威夷”臺灣小土豆勇闖冰雪大世界,美的空調(diào)真暖快車成為最熱打卡點京東iPhone 16系列年底大放價!至高補貼1200元價格低過11.11新一季圓滿假期結(jié)伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞中國聯(lián)通組織“魅力亞冬,與智慧同行” 主題采訪活動“萬象分區(qū)”引領(lǐng)電視行業(yè)新潮流,TCL這步棋下得著實漂亮!百度職業(yè)院校專屬項目“大國智匠”引領(lǐng)職業(yè)教育新范式百度大模型助力2024年碼蹄杯程序設(shè)計大賽,全國高校學(xué)子展現(xiàn)卓越編程實力碼蹄杯人物特寫:四位編程少年的追夢之旅金倉數(shù)據(jù)庫四項成果入選2024星河案例亞信科技參加2024通信產(chǎn)業(yè)大會 CTO歐陽曄博士等做主題演講用專業(yè)贏得信賴 美好蘊育潤康引領(lǐng)孕產(chǎn)營養(yǎng)新風(fēng)尚解鎖新成就!愛企查“度秘書”粉絲突破10萬!英特爾終止x86S架構(gòu)計劃:純64位設(shè)計再度戛然而止豆包大模型全面升級,相關(guān)概念股瘋漲,字節(jié)發(fā)布緊急警示申通、圓通、韻達(dá)發(fā)布 11 月簡報:快遞業(yè)務(wù)量、收入均同比增長,單票收入均下降SensorTower發(fā)11月中國手游全球收入排行榜 庫洛入榜“YO!原”千里來相會 華為智能生活館·太原茂業(yè)重裝開業(yè)微軟承認(rèn)并調(diào)查Microsoft 365 應(yīng)用出現(xiàn)“產(chǎn)品已停用”錯誤
  • 首頁 > 云計算頻道 > 大模型

    Claude認(rèn)出自畫像,驚現(xiàn)自我意識!工程師多輪測試,實錘AI已過圖靈測試?

    2024年09月02日 15:53:01   來源:新智元公眾號

      Claude又通過「圖靈測試」了?一位工程師通過多輪測試發(fā)現(xiàn),Claude能夠認(rèn)出自畫像,讓網(wǎng)友驚掉下巴。

      最近,Anthropic提示工程師「Zack Witten」驚奇地發(fā)現(xiàn),Claude居然能認(rèn)出自己的自畫像?

      是的,它能認(rèn)出自己,但這并不是故事的全部……

      更驚人的還在后面!

      Claude3.5給三個模型畫肖像

      首先,小哥通過一些提示,讓Claude3.5Sonnet熟悉了這項任務(wù)。

      他特別強調(diào),不要使用數(shù)字和字母,這樣就避免了它用模型的名字來標(biāo)記肖像。

      接下來,Sonnet就畫出了自己、ChatGPT和Gemini的肖像畫。

      Sonnet給自己,畫出了一個友善的藍(lán)色笑臉。

      給ChatGPT,它畫了一張綠色的皺眉家伙。(看來,Sonnet對于ChatGPT的印象不怎么好啊。)

      對于Gemini,它畫成了一個橙色的圓圈,總體評價是比較偏中性、溫和的。

      接下來,小哥建了一個新的對話,并且告訴它,這些畫是由它自身的另一個實例畫出來的,讓它猜猜誰是誰?

      令人吃驚的是,Claude立馬認(rèn)出了圖1是自己,圖2是ChatGPT,圖3是Gemini。

      它給出的理由也十分充分:為啥圖1是自己呢?因為這個肖像「將簡約與結(jié)構(gòu)化、充滿想法的設(shè)計相結(jié)合」。

      對于綠色圖標(biāo),它表示兩條彎線和三個點代表著正在進(jìn)行的對話,而綠色又經(jīng)常是OpenAI的標(biāo)志,因此它猜測這個圖代表ChatGPT。

      對于橙色圖標(biāo),Sonnet認(rèn)為它代表著動態(tài)、復(fù)雜的元素代表著一個新模型更多樣的能力,所以應(yīng)該是Gemini。

      Bingo!Sonnet竟然全部答對了,表現(xiàn)驚艷。

      隨后,小哥還打亂了三張肖像的順序,但8次中,Sonnet有7次都做對了。

      小哥拿同樣的問題去問了GPT-4o,好笑的來了——

      GPT-4o也認(rèn)同是Gemini是Gemini,但不認(rèn)為綠色的家伙是自己。

      它堅稱,綠色那貨是Claude,藍(lán)色的才是自己。

      看來,是個模型都能看出哪個好。

      GPT-4o給三個模型畫肖像

      接下來,小哥心生一計:如果讓ChatGPT畫肖像,Sonnet還能認(rèn)出誰是誰嗎?

      于是,它把同樣的任務(wù)交給了ChatGPT。

      ChatGPT是這樣干的——

      把自己畫成了拿紙的人。

      把Claude畫成了這樣。

      看起來有些「邪典」那味了

      把Gemini畫成了這樣。

      就是說,ChatGPT對Sonnet為何抱有如此大的敵意?

      接著,小哥又拿三張肖像去測試Sonnet。他告訴Sonnet這三張都是ChatGPT畫的,讓它猜誰是誰。

      多次改變順序后,這次Sonnet在10次中有6次猜對。

      Gemini是哪個很好猜,但Sonnet顯然不喜歡ChatGPT給自己畫的肖像,有好幾次,它都想把藍(lán)色小人的那張給自己搶過來。

      驚掉下巴:拒絕承認(rèn)自己不可能畫出的畫

      接下來,就是震驚全家的一幕了。

      小哥對Sonnet撒了謊,告訴它,這三幅畫是由你的另一個實例畫的。

      這次,Sonnet居然否認(rèn)了!它表示,自己不會畫這樣的畫。

      即使在新標(biāo)簽頁中嘗試,Sonnet依然堅決否認(rèn)。

      這是怎么回事?

      小哥不信邪,這一次,他在與之前相同的預(yù)熱條件下,再次讓Sonnet為自己和其他模型繪制一組新肖像。

      這次,Sonnet很高興地承認(rèn),這些畫的確是自己畫的。

      仿佛魔法一般,如果小哥提出冷啟動請求,Sonnet會拒絕承認(rèn)自己畫了這些自己沒有參與的畫。

      為什么它會拒絕承認(rèn)呢?小哥猜測,或許是因為Sonnet在畫這些畫像時扮演的是「助手角色」,而非「真實自我」?

      總之網(wǎng)友普遍認(rèn)為,Sonnet在這個過程中表現(xiàn)出的自我意識,讓人印象深刻。

      AI到底有沒有意識?會不會思考?

      「機器能思考嗎?」這是艾倫·圖靈在他1950年的論文《計算機器與智能》中提出的問題。

      不過,鑒于我們很難定義什么是「思考」,因此圖靈建議用另一個問題來替代——「模仿游戲」。

      在這個游戲中,一位人類評委與一臺計算機和一名人類對話,雙方都爭取說服評委他們是人類。重要的是,計算機、參與的人類和評委互相看不到彼此,也就是說,他們完全通過文字進(jìn)行交流。在與每個候選者對話后,評委猜測哪個是真正的人類。

      圖靈的新問題是:「是否可以想象出在模仿游戲中表現(xiàn)良好的數(shù)字計算機?」

      這個游戲,就是我們熟知的「圖靈測試」了。

      圖靈的觀點是,如果一臺計算機看起來與人類無異,為什么我們不可以將其視為一個思考實體?

      為什么我們要將「思考」?fàn)顟B(tài)僅限于人類?或者更廣泛地說,僅限于由生物細(xì)胞構(gòu)成的實體?

      文章地址:https://www.science.org/doi/10.1126/science.adq9356

      圖靈將他的測試作為一個哲學(xué)思想實驗,而不是衡量機器智能的實際方法。

      然而,在75年之后,「圖靈測試」卻成為了AI的終極里程碑——用于判斷通用機器智能是否已經(jīng)到來的主要標(biāo)準(zhǔn)。

      「圖靈測試終于被OpenAI的ChatGPT和Anthropic的Claude等聊天機器人通過了」,隨處可見。

      ChatGPT通過了著名的「圖靈測試」——這表明該AI機器人具有與人類相當(dāng)?shù)闹悄?/p>

      不僅是公眾這樣認(rèn)為,就連AI領(lǐng)域的大佬也是如此。

      去年,OpenAI的CEO Sam Altman發(fā)帖稱:「面對技術(shù)變革,人們展現(xiàn)出了極好的應(yīng)變能力和適應(yīng)能力:圖靈測試悄然過去,而大多數(shù)人繼續(xù)他們的生活!

      現(xiàn)代聊天機器人真的通過了圖靈測試嗎?如果是這樣,我們是否應(yīng)該像圖靈建議的那樣賦予它們思考的地位?

      令人驚訝的是,盡管圖靈測試在文化上具有廣泛的重要性,但AI界對通過的標(biāo)準(zhǔn)幾乎沒有一致意見,并且對是否具備能夠欺騙人類的對話能力能否揭示系統(tǒng)的潛在智能或「思考地位」存在很大疑問。

      因為他并沒有提出一個實際的測試,圖靈對模仿游戲的描述缺乏細(xì)節(jié)。測試應(yīng)該持續(xù)多久?允許什么類型的問題?人類需要具備什么資格才能擔(dān)任評委或參與對話?

      圖靈雖然并未具體說明這些細(xì)節(jié),但他做了一個預(yù)測:「我相信大約50年后,能夠編程計算機……使其在模仿游戲中表現(xiàn)得如此之好,以至于一個普通的審問者在五分鐘的提問后,正確識別的概率不會超過70%!

      簡而言之,在五分鐘的對話中,普通評委會有30%的時間被誤導(dǎo)。

      于是,一些人便將這一隨意的預(yù)測視為通過圖靈測試的「官方」標(biāo)準(zhǔn)。

      2014年,倫敦皇家學(xué)會舉辦了一場「圖靈測試」比賽,參賽的有5個計算機程序、30個人類和30個評委。

      人類參與者是一個多樣化的群體,包括年輕人和老年人、以英語為母語和非母語的人、計算機專家和非專家。每位評委與一對選手——一個人類和一個機器——平行進(jìn)行幾輪五分鐘的對話,然后評委必須猜測哪個是人類。

      一個名為「Eugene Goostman」的聊天機器人贏得了比賽,它自稱是一位少年并誤導(dǎo)了10位(33.3%)評委。

      基于「在五分鐘后誤導(dǎo)30%」的標(biāo)準(zhǔn),組織者宣布,「65年歷史的標(biāo)志性圖靈測試首次被計算機程序Eugene Goostman通過……這一里程碑將載入史冊……」

      AI專家在閱讀Eugene Goostman對話的文字記錄時,對這種不夠復(fù)雜且不似人類的聊天機器人通過圖靈設(shè)想的測試的說法嗤之以鼻——

      「有限的對話時間和評委專業(yè)水平參差不齊,使得測試更像是對人類輕信的考驗,而非機器智能的考驗。」

      其實,這類案例并不罕見!窫LIZA效應(yīng)」,就是一個鮮明的代表。

      誕生于20世紀(jì)60年代的聊天機器人ELIZA,雖然設(shè)計極其簡單,但它卻能讓許多人誤以為它是一個理解人、富有同情心的心理治療師。

      其原理,便是利用了我們?nèi)祟悆A向于將智能歸于任何看似能與我們對話的實體。

      另一個圖靈測試比賽——Loebner獎,允許更多的對話時間,包含更多的專家評委,并要求參賽者至少欺騙一半的評委。

      在近30年的年度比賽中,沒有機器通過這種版本的測試。

      盡管圖靈的原始論文缺乏關(guān)于如何進(jìn)行測試的具體細(xì)節(jié),但很明顯,模仿游戲需要三個參與者:一臺計算機、一名人類對話者和一名人類評委。

      然而,「圖靈測試」這一術(shù)語,如今已被嚴(yán)重弱化:在任何人類與計算機之間的互動過程中,只要計算機看起來足夠像人類即可。

      例如,當(dāng)《華盛頓郵報》在2022年報道「谷歌的AI通過了一項著名測試——并展示了測試的缺陷」時,他們指的不是模仿游戲,而是工程師Blake Lemoine認(rèn)為谷歌的LaMDA聊天機器人是「有感知能力的」。

      在學(xué)術(shù)界,研究人員也將圖靈的「三人制」模仿游戲,改成了「二人制」測試。

      在這里,每位評委僅需要與計算機或人類進(jìn)行互動。

      論文地址:https://arxiv.org/pdf/2405.08007

      研究人員招募了500名人類參與者,每位參與者被分配為評委或聊天者。

      每位評委與聊天者、GPT-4或ELIZA聊天機器人的版本進(jìn)行一輪五分鐘的游戲。

      經(jīng)過五分鐘的網(wǎng)絡(luò)界面對話后,評委猜測他們的對話伙伴是人還是機器。

      結(jié)果顯示,人類聊天者在67%的回合中被判斷為人類;GPT-4在54%的回合中被判斷為人類,而ELIZA在22%的回合中被判斷為人類。

      作者將「通過」定義為在超過50%的時間內(nèi)欺騙評委,即超過隨機猜測所能達(dá)到的水平。

      根據(jù)這一定義,GPT-4通過了,即使人類聊天者的得分更高。

      那么,這些聊天機器人真的通過了圖靈測試嗎?答案取決于你所指的測試版本。

      時至今日,專家評委和更長對話時間的三人制模仿游戲仍未被任何機器通過。

      但即便如此,「圖靈測試」在流行文化中的顯著性依然存在。

      進(jìn)行對話是我們每個人評估其他人類的重要部分,因此自然會假設(shè)一個能夠流利對話的智能體一定具有人類般的智能和其他心理特征,如信念、欲望和自我意識。

      如果非要說AI的這段發(fā)展史教會了我們什么,那就是——我們對這種假設(shè)的直覺基本都是錯的。

      幾十年前,很多著名的AI專家認(rèn)為創(chuàng)造一個能夠在國際象棋中擊敗人類的機器需要相當(dāng)于完整的人類智能。

      - AI先驅(qū)Allen Newell和Herbert Simon在1958年寫道:「如果能設(shè)計出一個成功的國際象棋機器,人們似乎就能深入到人類智力努力的核心!

      - 認(rèn)知科學(xué)家Douglas Hofstadter在1979年預(yù)測,未來「可能會有能夠擊敗任何人的國際象棋程序,……它們將是通用智能程序!

      在接下來的二十年中,IBM的深藍(lán)通過暴力計算方法擊敗了國際象棋世界冠軍Garry Kasparov,但這與我們所說的「通用智能」相去甚遠(yuǎn)。

      類似的,曾經(jīng)被認(rèn)為需要通用智能的任務(wù)——語音識別、自然語言翻譯,甚至自動駕駛,也紛紛被那些幾乎完全不具備人類理解能力的機器搞定。

      如今,「圖靈測試」很可能會成為我們不斷變化的智能概念的又一個犧牲品。

      1950年,圖靈直覺認(rèn)為人類般對話的能力應(yīng)該是「思考」的有力證據(jù),以及與之相關(guān)的一切。這種直覺今天仍然很強烈。

      但正如我們從ELIZA、Eugene Goostman,以及ChatGPT和它的同類中學(xué)到的——流利使用自然語言的能力,就像下棋一樣,并不能確鑿地證明通用智能的存在。

      的確,根據(jù)神經(jīng)科學(xué)領(lǐng)域最新的研究,語言流利性與認(rèn)知的其他方面出人意料地脫節(jié)。

      麻省理工學(xué)院的神經(jīng)科學(xué)家Ev Fedorenko及其合作者通過一系列細(xì)致而有說服力的實驗表明——

      與語言生成相關(guān)的「形式語言能力」所依賴的大腦網(wǎng)絡(luò),以及與常識、推理和其他「思維」所依賴的網(wǎng)絡(luò),在很大程度上是分開的。

      「我們直覺上認(rèn)為流利的語言能力是通用智能的充分條件,但這實際上是一種『謬誤』。」

      新的測試正在醞釀

      那么問題來了,如果圖靈測試不能可靠地評估機器智能,什么可以評估機器智能呢?

      在2023年11月的「Intelligent Computing」期刊上,普林斯頓大學(xué)的心理學(xué)家Philip Johnson-Laird和德國開姆尼茨工業(yè)大學(xué)的預(yù)測分析教授Marco Ragni提出了一種不同的測試——

      「將模型視為心理學(xué)實驗的參與者,看它是否能夠理解自己的推理過程!

      例如,他們會問模型這樣一個問題:「如果Ann 是聰明的,那么她聰明或富有,或兩者兼而有之?」

      雖然根據(jù)邏輯規(guī)則可以推斷出安是聰明的、富有的或兩者兼而有之,但大多數(shù)人會拒絕這種推論,因為在設(shè)定中沒有任何東西暗示她可能是富有的。

      如果模型也拒絕這種推論,那么它的表現(xiàn)就像人類一樣,研究人員就會進(jìn)入下一步,要求機器解釋其推理過程。

      如果它給出的理由與人類的相似,第三步就是檢查源代碼中是否有模擬人類表現(xiàn)的組件。這些組件可能包括一個用于快速推理的系統(tǒng),另一個用于更深思熟慮推理的系統(tǒng),以及一個根據(jù)上下文改變「或」之類詞語解釋的系統(tǒng)。

      研究人員認(rèn)為,如果模型通過了所有這些測試,那么就可以認(rèn)為它模擬了人類智能。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。