AI智能體,已經(jīng)無(wú)限逼近真實(shí)人類?1000個(gè)人被采訪,每人兩小時(shí),真實(shí)人類的智能體就這么水靈靈地被投放進(jìn)去了,結(jié)果更是令人吃驚:在模擬人類行為上,智能體已經(jīng)85%逼近真實(shí)人類。AI,終究是預(yù)判了你的預(yù)判。
真實(shí)人類被「投放」進(jìn)AI世界,這是什么魔幻操作?
更可怕的是,根據(jù)真實(shí)人類生產(chǎn)的智能體,居然能以85%的準(zhǔn)確度,還原出他們的行為。
也就是說(shuō),人類在真實(shí)世界是怎么回答問(wèn)題的,智能體在虛擬世界中也一樣。人類幾乎擁有了跟自己完全相似的虛擬復(fù)制體!
去年,斯坦福爆火25個(gè)智能體小鎮(zhèn),讓西部世界走進(jìn)現(xiàn)實(shí)。
時(shí)隔一年多,原班人馬團(tuán)隊(duì)讓1000多個(gè)AI智能體放入虛擬小鎮(zhèn),去模擬真實(shí)人類的一切態(tài)度和行為。
不同以往,這次他們采用了一種新奇的研究方式——訪談,去創(chuàng)建生成式智能體。
通過(guò)招募1052名參與者,涵蓋了不同性別、年齡、地區(qū)等,每人接受GPT-4o采訪了2個(gè)小時(shí)。
然后將得到的訪談內(nèi)容作為文字提示,輸入語(yǔ)言模型中,復(fù)刻出每個(gè)個(gè)體對(duì)應(yīng)的AI智能體。
所有智能體在綜合社會(huì)調(diào)查中的回答,與原參與者兩周后自我復(fù)現(xiàn)答案準(zhǔn)確率接近85%,并在人格預(yù)測(cè)、實(shí)驗(yàn)復(fù)制中表現(xiàn)與人類相當(dāng)。
毫無(wú)疑問(wèn),我們距離能夠模仿人類的AI智能體已經(jīng)非常接近了
有網(wǎng)友稱,這就是克隆人的智慧。
還有人驚嘆道,機(jī)器能夠提前預(yù)判你的預(yù)判,這一天竟然真的來(lái)了!
AI在模擬人類行為方面達(dá)到85%的準(zhǔn)確率,無(wú)疑是一個(gè)巨大的成就。這一突破,直接為AI處理高度復(fù)雜交互(如個(gè)性化醫(yī)療建議)鋪平了道路。
拒絕刻板印象,讓AI反映真實(shí)人類
為什么要做一個(gè)這樣的研究呢?
團(tuán)隊(duì)成員之一Joon Sung Park介紹到,這是為了「讓故事更完整」。
去年的西部世界小鎮(zhèn),團(tuán)隊(duì)是希望借生成式智能體來(lái)指出這樣一個(gè)未來(lái)——
在無(wú)法直接參與或觀察的情況下(比如衛(wèi)生政策,產(chǎn)品發(fā)布,外部沖擊等),人類可以用AI來(lái)模擬生活,來(lái)更好地了解自己。
然而,研究者卻深深感覺(jué),這個(gè)故事是不完整的,并不還原真實(shí)的人類世界。
為了讓這些模擬變得可信,他們覺(jué)得自己應(yīng)該避免將這些「AI人」變量簡(jiǎn)化為人口統(tǒng)計(jì)學(xué)的刻板印象,對(duì)其準(zhǔn)確性的評(píng)估,也應(yīng)該不僅僅是通過(guò)平均處理效應(yīng)的成功或失敗來(lái)衡量。
該怎么辦呢?團(tuán)隊(duì)在個(gè)體模型中找到了答案。
他們創(chuàng)建了反映真實(shí)個(gè)體的生成式智能體,并通過(guò)衡量它們?cè)诙啻蟪潭壬夏軌蛑噩F(xiàn)個(gè)體對(duì)綜合社會(huì)調(diào)查、大五人格測(cè)試、經(jīng)濟(jì)博弈以及隨機(jī)對(duì)照試驗(yàn)的反應(yīng),來(lái)驗(yàn)證這些模型的有效性。
令人驚喜的是,智能體的表現(xiàn)極為出色。
它們?cè)诰C合社會(huì)調(diào)查中,對(duì)被試反應(yīng)的復(fù)現(xiàn)準(zhǔn)確率達(dá)到了85%,與被試兩周后復(fù)現(xiàn)自己答案的準(zhǔn)確性相當(dāng),而且在預(yù)測(cè)人格特質(zhì)和實(shí)驗(yàn)結(jié)果上同樣出色。
與僅基于人口統(tǒng)計(jì)描述的智能體相比,這種基于訪談的智能體在種族和意識(shí)形態(tài)群體之間減少了準(zhǔn)確性偏差。
研究者認(rèn)為,這是因?yàn)楹笳吒芊从痴鎸?shí)個(gè)體的各種獨(dú)特因素。
總之,這項(xiàng)研究為模擬個(gè)體開(kāi)辟了新的可能性。而模擬的基礎(chǔ),就是對(duì)構(gòu)成我們社會(huì)的個(gè)體進(jìn)行準(zhǔn)確建模。
這項(xiàng)工作也標(biāo)志著:生成式AI可以代表真實(shí)人類的時(shí)代,從此正式開(kāi)啟!
現(xiàn)在,作者已經(jīng)將開(kāi)源存儲(chǔ)庫(kù)和用于這項(xiàng)工作的Python包上傳到Github,包括他本人的智能體
創(chuàng)建1000+類人生成式智能體
若想創(chuàng)建一個(gè)能夠反映影響個(gè)人態(tài)度、信仰、行為等多樣因素的智能體,前提是需要對(duì)真實(shí)個(gè)人擁有深度理解。
為此,研究團(tuán)隊(duì)決采用了基本的社會(huì)科學(xué)方法——「深度訪談」方法,將預(yù)設(shè)問(wèn)題和基于受訪者回答的適應(yīng)性相結(jié)合。
通過(guò)分層抽樣招募的1000+參與者,是具有典型代表的樣本。不同個(gè)體覆蓋了不同年齡、宗教、性別、教育水平、政治意識(shí)形態(tài)。
這么多人的采訪,當(dāng)然要交給AI。
為此,研究人員開(kāi)發(fā)了一個(gè)AI面試官,對(duì)每個(gè)參與者完成了2小時(shí)語(yǔ)音訪談,并生成的錄音平均長(zhǎng)度為6,491個(gè)單詞。
這里采訪的方案,借鑒了「American Voices Project」對(duì)社會(huì)科學(xué)家采訪的一部分,從參與者的生活故事、到他們對(duì)當(dāng)前社會(huì)問(wèn)題的看法,涵蓋非常之廣。
比如,從童年、教育、到家庭和人際關(guān)系,給我講講你任何經(jīng)歷過(guò)的生活故事;你如何看待種族主義和社會(huì)治安?
根據(jù)采訪結(jié)構(gòu)和時(shí)間限制,AI面試官根據(jù)每人的回答動(dòng)態(tài)生成后續(xù)問(wèn)題。
研究平臺(tái)和交互界面
為了創(chuàng)建「生成式智能體」,作者開(kāi)發(fā)了一種新穎的智能體架構(gòu),將參與者完整訪談?dòng)涗浐痛竽P拖嘟Y(jié)合。
其中,整份記錄都會(huì)被「注入」到模型提示中,指示模型根據(jù)訪談數(shù)據(jù)模仿該參與者的行為。
在需要多步驟決策的實(shí)驗(yàn)中,智能體會(huì)通過(guò)簡(jiǎn)短的文本描述,被賦予先前刺激及其對(duì)應(yīng)反應(yīng)的記憶。
生成式智能體能夠?qū)θ魏挝谋敬碳ぷ鞒龇磻?yīng),包括強(qiáng)制選擇提示、調(diào)查問(wèn)卷、多階段互動(dòng)場(chǎng)景。
為了評(píng)估這些智能體模擬人類的前景,研究團(tuán)隊(duì)評(píng)估了四個(gè)部分:
綜合社會(huì)調(diào)查(General Social Survey)
大五人格測(cè)試問(wèn)卷(Big Five Inventory)
五個(gè)著名的行為經(jīng)濟(jì)學(xué)博弈(包括獨(dú)裁者博弈、信任博弈、公共品博和囚徒困境)
五個(gè)包含控制和實(shí)驗(yàn)條件的社會(huì)科學(xué)實(shí)驗(yàn)
他們使用前三個(gè)部分,來(lái)評(píng)估生成式智能體在預(yù)測(cè)個(gè)體態(tài)度、特質(zhì)和行為方面的準(zhǔn)確性,而復(fù)制研究評(píng)估其預(yù)測(cè)群體層面,處理效果和效應(yīng)量的能力。
由于個(gè)體在調(diào)查和行為研究中的回答,往往隨時(shí)間表現(xiàn)出不一致性,作者還將將參與者自身的態(tài)度和行為一致性作為歸一化因子:模擬某個(gè)個(gè)體態(tài)度或行為的準(zhǔn)確性取決于這些態(tài)度和行為在時(shí)間上的一致性。
為了解決這種自我一致性水平的差異,他們要求每位參與者在兩周內(nèi)完成兩次測(cè)試。
其中主要因變量是歸一化準(zhǔn)確率(Normalized Accuracy),其計(jì)算方法為:智能體預(yù)測(cè)個(gè)體回答的準(zhǔn)確性/個(gè)體自身回答的復(fù)現(xiàn)準(zhǔn)確性。
歸一化準(zhǔn)確率用1.0表示,生成式智能體預(yù)測(cè)個(gè)體回答的準(zhǔn)確性與個(gè)體兩周后復(fù)現(xiàn)自己回答的準(zhǔn)確性相同。
對(duì)于連續(xù)型結(jié)果,作者計(jì)算的是歸一化相關(guān)性。
預(yù)測(cè)個(gè)體態(tài)度和行為
綜合社會(huì)調(diào)查
評(píng)估的第一部分便是GSS,以評(píng)估受訪者對(duì)廣泛主題的人口背景、行為、態(tài)度和信仰,包括公共政策、種族關(guān)系、性別和宗教。
對(duì)于GSS,生成式智能體以0.85的平均歸一化準(zhǔn)確率預(yù)測(cè)了參與者的反應(yīng)。
顯然,這些基于訪談構(gòu)建的智能體,性能優(yōu)于基于人口統(tǒng)計(jì)和人物角色的智能體,歸一化分?jǐn)?shù)高出14-15%。
基于人口統(tǒng)計(jì)的生成式智能體實(shí)現(xiàn)了0.71歸一化準(zhǔn)確率,而基于角色的智能體達(dá)到了0.70。
大五人格測(cè)試
評(píng)估第二個(gè)部分,使用BFI-44預(yù)測(cè)參與者的大五人格特質(zhì),該測(cè)試評(píng)估五個(gè)人格維度:開(kāi)放性、盡責(zé)性、外向性、親和性和神經(jīng)質(zhì)。
每個(gè)維度由8-10個(gè)李克特量表(Likert scale)問(wèn)題的綜合得分計(jì)算得出。
對(duì)于大五人格測(cè)試,生成式智能體達(dá)到了0.80的歸一化相關(guān)性。
與GSS的結(jié)果類似,基于訪談的生成式智能體的表現(xiàn)優(yōu)于基于人口統(tǒng)計(jì)(歸一化相關(guān)性=0.55)和基于角色(歸一化相關(guān)性=0.75)的智能體。
基于訪談的智能體在預(yù)測(cè)大五人格特質(zhì)時(shí),還產(chǎn)生了更低的平均絕對(duì)誤差(MAE),事后成對(duì)Tukey測(cè)試確認(rèn)基于訪談的智能體顯著優(yōu)于其他兩組。
經(jīng)濟(jì)博弈
評(píng)估第三個(gè)部分包含五個(gè)著名的經(jīng)濟(jì)博弈,旨在引出參與者在有真實(shí)利害關(guān)系的決策情境中的行為。
這些博弈包括:獨(dú)裁者博弈、第一玩家和第二玩家的信任博弈、公共品博弈、囚徒困境。
為確保參與者的真實(shí)投入,研究提供了金錢獎(jiǎng)勵(lì)。
研究人員將每個(gè)博弈的輸出值歸一化到0-1的范圍內(nèi),并比較生成式智能體的預(yù)測(cè)值與參與者的實(shí)際值。
由于這些是連續(xù)性測(cè)量,他們計(jì)算了相關(guān)系數(shù)和歸一化相關(guān)性。
平均而言,生成式智能體達(dá)到了0.66的歸一化相關(guān)性。
然而,在經(jīng)濟(jì)博弈中,各智能體之間的平均絕對(duì)誤差(MAE)沒(méi)有顯著差異。
基礎(chǔ)對(duì)比研究
在探索性分析中,作者通過(guò)將基于訪談的生成式知恩個(gè)體與一個(gè)基線復(fù)合智能體進(jìn)行比較,測(cè)試了訪談的有效性和效率。
這個(gè)基線復(fù)合代理是基于參與者的GSS、大五人格和經(jīng)濟(jì)博弈響應(yīng)數(shù)據(jù)構(gòu)建的。
這里,隨機(jī)抽樣了100名參與者,并排除了同類問(wèn)題的問(wèn)答對(duì),建立復(fù)合智能體作為參照。
結(jié)果顯示,復(fù)合智能體在GSS歸一化準(zhǔn)確率為0.76,在大五人格歸一化相關(guān)性和經(jīng)濟(jì)博弈歸一化相關(guān)性分別為0.64和0.31。
在消融實(shí)驗(yàn)中,即使刪除80%訪談內(nèi)容,基于訪談構(gòu)建的智能體,仍舊優(yōu)于復(fù)合智能體。其中,GSS歸一化準(zhǔn)確率為0.79。
另外,在通過(guò)GPT-4將訪談?dòng)涗涋D(zhuǎn)換為要點(diǎn)總結(jié)(僅保留事實(shí)內(nèi)容,移除原始語(yǔ)言特征),結(jié)果同樣如此。
實(shí)驗(yàn)復(fù)現(xiàn)結(jié)果,AI與人類高度一致
實(shí)驗(yàn)評(píng)估的第四部分,就是讓生成式智能體參與5個(gè)社會(huì)科學(xué)實(shí)驗(yàn),檢測(cè)它們是否預(yù)測(cè)社會(huì)科學(xué)家常用實(shí)驗(yàn)環(huán)境中的處理效應(yīng)。
這些實(shí)驗(yàn)來(lái)自一項(xiàng)大規(guī)模復(fù)現(xiàn)工作中收錄的已發(fā)表研究,包括研究感知意圖如何影響責(zé)任歸屬,以及公平性如何影響情緒反應(yīng)。
最新研究中,人類參與者和生成式智能體都完成了全部五項(xiàng)研究,并使用與原始研究相同的統(tǒng)計(jì)方法計(jì)算了p值和處理效應(yīng)量。
如下表所示,人類成功復(fù)現(xiàn)了5項(xiàng)研究中的4項(xiàng),其中1項(xiàng)失敗。而生成式智能體也復(fù)現(xiàn)了相同的四項(xiàng)研究,同樣未能復(fù)現(xiàn)第五項(xiàng)。
生成式智能體估算的效應(yīng)量與參與者的效應(yīng)量高度相關(guān),相比之下參與者內(nèi)部一致性相關(guān)系數(shù)為0.99,得出歸一化相關(guān)系數(shù)為0.99。
在生成式智能體人口統(tǒng)計(jì)學(xué)平等差異(DPD)實(shí)驗(yàn)中,與人口統(tǒng)計(jì)信息或角色描述構(gòu)建的智能體相比,基于訪談的生成式智能體在所有任務(wù)中都顯示出較低的DPD。
這表明基于訪談的生成式智能體能更有效地減輕偏見(jiàn)。
如何創(chuàng)建一個(gè)合格的AI訪談員
為了確保智能體所需的豐富訓(xùn)練數(shù)據(jù)具有高質(zhì)量和一致性,研究者開(kāi)發(fā)了下面這個(gè)AI訪談智能體。
之所以選擇訪談而非問(wèn)卷調(diào)查,就是希望訪談能提供更全面、細(xì)致的信息,從而讓智能體在廣泛的話題和領(lǐng)域中,實(shí)現(xiàn)更高保真度的態(tài)度和行為模擬。
另外,選用AI訪談智能體而非人類訪談員,也能確保所有被試之間互動(dòng)風(fēng)格和質(zhì)量的一致。
AI訪談員架構(gòu)
一個(gè)合格的AI訪談員,需要知道何時(shí)提出問(wèn)題,以及如何提出有意義的根據(jù)問(wèn)題。
在遵守訪談提綱的同時(shí),它還要隨機(jī)應(yīng)變,靈活調(diào)整,幫助被試打開(kāi)話匣子,分享他們可能沒(méi)想起來(lái)的內(nèi)容。
為了賦予AI訪談員這種能力,研究者特意設(shè)計(jì)了一種訪談架構(gòu),讓研究者能控制訪談的整體內(nèi)容和結(jié)構(gòu),同時(shí)允許智能體有一定的自由度,來(lái)探索采訪腳本中硬編碼的后續(xù)問(wèn)題。
智能體會(huì)將被試的話語(yǔ)和訪談腳本作為輸入,以后續(xù)問(wèn)題的形式生成 下一步行動(dòng),或決定使用語(yǔ)言模型繼續(xù)下一個(gè)問(wèn)題模塊。反思模塊有助于架構(gòu)從正在進(jìn)行的訪談中簡(jiǎn)潔地總結(jié)和推斷見(jiàn)解,使智能體更有效地生成后續(xù)問(wèn)題
用語(yǔ)言模型進(jìn)行下一個(gè)問(wèn)題模塊
訪談架構(gòu)將訪談協(xié)議和受訪者最近的回答作為輸入,輸出一個(gè)動(dòng)作:1)繼續(xù)提問(wèn)提綱中的下一個(gè)問(wèn)題;或2)根據(jù)對(duì)話內(nèi)容提出一個(gè)跟進(jìn)問(wèn)題。
訪談提綱是一系列有序的問(wèn)題清單,每個(gè)問(wèn)題都標(biāo)注了預(yù)設(shè)時(shí)間。在一個(gè)新問(wèn)題塊開(kāi)始時(shí),AI訪談員會(huì)逐字提問(wèn)腳本中的問(wèn)題。
當(dāng)被試回答后,AI訪談員會(huì)利用語(yǔ)言模型,在問(wèn)題塊的時(shí)間限制內(nèi)動(dòng)態(tài)決定最佳下一步。
比如,當(dāng)詢問(wèn)被試關(guān)于童年經(jīng)歷時(shí),如果回答中提到「我出生在新罕布什爾……我很喜歡那里的自然環(huán)境」,但未具體提及喜歡的地點(diǎn),訪談員可能會(huì)生成并提問(wèn)一個(gè)跟進(jìn)問(wèn)題:「在新罕布什爾,有沒(méi)有特別喜歡的步道或戶外地點(diǎn),或者在童年時(shí)留下深刻印象的地方?」
反之,當(dāng)詢問(wèn)職業(yè)時(shí),如果回答是「我是牙醫(yī)」,訪談員會(huì)判斷問(wèn)題已經(jīng)完全得到回答,然后進(jìn)入下一個(gè)問(wèn)題。
跟進(jìn)問(wèn)題的推理和生成,都是通過(guò)提示語(yǔ)言模型完成的。然而,為了訪談員生成有效的行動(dòng),語(yǔ)言模型需要記住并推理先前的對(duì)話內(nèi)容,才能根據(jù)分享信息提出有意義的跟進(jìn)問(wèn)題。
這里就出現(xiàn)了一個(gè)問(wèn)題:盡管現(xiàn)代語(yǔ)言模型的推理能力不斷提高,但如果提示內(nèi)容過(guò)長(zhǎng),它們?nèi)匀浑y以全面考慮所有信息。
如果毫無(wú)選擇地包含訪談至今的所有內(nèi)容,可能會(huì)逐漸降低訪談員生成根據(jù)問(wèn)題的表現(xiàn)。
為了解決這個(gè)問(wèn)題,研究者讓訪談架構(gòu)包含一個(gè)反思模塊,該模塊能夠動(dòng)態(tài)地綜合到目前為止的對(duì)話內(nèi)容,并輸出一份總結(jié)性筆記,描述訪談員可以對(duì)參與者作出的推斷。
例如,對(duì)于前面提到的參與者,該模塊可能生成如下反思內(nèi)容:
然后,在提示語(yǔ)言模型生成訪談員的行動(dòng)時(shí),研究者也沒(méi)有使用完整的訪談?dòng)涗洠怯昧嗽L談員積累的簡(jiǎn)潔但描述性強(qiáng)的反思筆記,以及最近5,000字符的訪談?dòng)涗洝?/p>
讓AI訪談員「開(kāi)口說(shuō)話」
為了讓被試感覺(jué)自己在和真正的人類交談,并且和面試官建立融洽的關(guān)系,團(tuán)隊(duì)使用了低延遲語(yǔ)音。
被試發(fā)言后,AI面試官通常會(huì)在4秒內(nèi)做出回應(yīng)。
也就是說(shuō),短短4秒內(nèi),AI就完成推理、生成、返回語(yǔ)音響應(yīng)的全過(guò)程!因此,人類被試也會(huì)感覺(jué)無(wú)比絲滑。
參與者的語(yǔ)音響應(yīng),是使用OpenAI的Whisper模型轉(zhuǎn)錄的,這個(gè)模型能將語(yǔ)音音頻轉(zhuǎn)換為文本。
為了讓被試對(duì)自己的回答進(jìn)行反思,研究者會(huì)對(duì)GPT-4o使用以下提示:
而為了讓GPT-4o動(dòng)態(tài)生成新問(wèn)題,研究者會(huì)對(duì)它使用以下提示:
果然,這樣調(diào)試出來(lái)的AI訪談員非常具有同理心,能連續(xù)和人類被試進(jìn)行順暢的對(duì)話。
聽(tīng)到被試的童年經(jīng)歷后,ta會(huì)說(shuō)「聽(tīng)說(shuō)你的童年并不美好,我感到很遺憾,能告訴我你在高中的更多經(jīng)歷嗎?」
聽(tīng)完被試的高中經(jīng)歷后,ta會(huì)貼心地進(jìn)行總結(jié),然后繼續(xù)提問(wèn):「謝謝你與我分享這些。聽(tīng)起來(lái)高中對(duì)你來(lái)說(shuō)是一個(gè)特別有挑戰(zhàn)性、但成長(zhǎng)很多的時(shí)期。高中畢業(yè)后,你選擇了怎樣的道路?是去上了大學(xué)還是直接進(jìn)入職場(chǎng)了呢?」
讓智能體模仿人類行為
那么,智能體為什么對(duì)他們的「人類原型」模仿得這么像呢?
生成式AI之所以能模擬人類行為,是因?yàn)檎Z(yǔ)言模型能提供支持,然后通過(guò)一組記憶來(lái)定義其行為。
這些記憶以文本形式存儲(chǔ)在數(shù)據(jù)庫(kù)(或「記憶流」)中,在需要時(shí)被檢索出來(lái),通過(guò)語(yǔ)言模型生成智能體的行為。
同時(shí),系統(tǒng)配備一個(gè)反思模塊,將這些記憶綜合為反思內(nèi)容,從智能體記憶中的部分或全部文本中選擇內(nèi)容,以提示語(yǔ)言模型推導(dǎo)出有用的見(jiàn)解,從而增強(qiáng)智能體行為的可信度。
傳統(tǒng)的智能體,通常依賴于手動(dòng)設(shè)定的特定場(chǎng)景下的行為,而生成性智能體,則利用語(yǔ)言模型生成類似人類的響應(yīng),后者能反映其記憶中描述的人格特質(zhì),并適用于各種情境,因而這種角色扮演會(huì)格外逼真。
專家反思,彌補(bǔ)單一思維鏈缺陷
同時(shí),研究者引進(jìn)了一種「專家反思」,來(lái)從訪談?dòng)涗浿忻鞔_推導(dǎo)出關(guān)于參與者的高層次、更抽象的見(jiàn)解
這是因?yàn),僅僅將參與者的訪談?dòng)涗浿苯犹崾菊Z(yǔ)言模型,以單一的思維鏈預(yù)測(cè)其反應(yīng),可能導(dǎo)致模型忽略受訪者未明確表達(dá)的潛在信息。
在該模塊中,研究者提示模型對(duì)參與者的數(shù)據(jù)生成反思,但并非僅要求模型從訪談中推導(dǎo)見(jiàn)解,而是要求它采用領(lǐng)域?qū)<业纳矸荨?/p>
具體來(lái)說(shuō),他們要求模型生成四組反思,每次以社會(huì)科學(xué)四個(gè)分支領(lǐng)域的不同專家身份進(jìn)行:心理學(xué)家、行為經(jīng)濟(jì)學(xué)家、政治學(xué)家和人口統(tǒng)計(jì)學(xué)家。
每個(gè)智能體的記憶包括采訪記錄和專家對(duì)該記錄的反思的輸出。這些思考是使用語(yǔ)言模型生成的簡(jiǎn)短綜合,用于推斷可能未明確說(shuō)明的參與者的見(jiàn)解。專家社會(huì)科學(xué)家(例如心理學(xué)家、行為經(jīng)濟(jì)學(xué)家)的角色,則會(huì)引導(dǎo)這些反思
例如,對(duì)于某一訪談?dòng)涗,不同專家身份生成了不同的?jiàn)解:
心理學(xué)家會(huì)認(rèn)為,被試者很重視自己的獨(dú)立性,喜歡出差,對(duì)母親的過(guò)度管束感到不滿,對(duì)個(gè)人自由表現(xiàn)出了強(qiáng)烈渴望。
在行為經(jīng)濟(jì)學(xué)家看來(lái),他能夠?qū)⒇?cái)務(wù)目標(biāo)與休閑需求很好地結(jié)合起來(lái),追求平衡的生活。
政治科學(xué)家看來(lái),他自認(rèn)是共和黨人,并大力支持該黨派的理念,但同時(shí)也兼具兩黨的立場(chǎng)。
人口統(tǒng)計(jì)學(xué)家的答案則是,他是一名庫(kù)存專家,月薪3000到5000美元,家庭月收入7000美元,工作具有一定的穩(wěn)定性和靈活性。
對(duì)于每位被試,研究者都會(huì)把ta的訪談?dòng)涗浱崾窘oGPT-4,并要求它為每位專家生成最多20條觀察或反思,從而生成了四組反思。
這些提示根據(jù)每位專家的角色進(jìn)行了定制。比如針對(duì)人口統(tǒng)計(jì)學(xué)專家的提示示例如下:
想象一下,你是一位人口統(tǒng)計(jì)學(xué)專家(擁有博士學(xué)位),在觀察這次采訪時(shí)做了筆記。寫(xiě)下對(duì)受訪者的人口統(tǒng)計(jì)特征和社會(huì)地位的觀察/反思。(你的觀察應(yīng)該多于5個(gè)且少于20個(gè),考慮上述訪談內(nèi)容的深度,選擇有意義的數(shù)字。)
這些反思生成后,就會(huì)被保存在智能體的記憶中。
需要預(yù)測(cè)被試的回答時(shí),研究者會(huì)讓語(yǔ)言模型對(duì)問(wèn)題進(jìn)行分類,判斷哪個(gè)專家最適合回答該問(wèn)題,然后檢索出該專家生成的所有反思。
研究者會(huì)將反思附加到參與者的訪談?dòng)涗浿校⒂闷渥鳛樘崾据斎隚PT-4,以生成預(yù)測(cè)回答。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
11月11日,據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(tái)(DR.100EC.CN)數(shù)據(jù)顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費(fèi)前列,女士夾克銷量同比增長(zhǎng)72%,女士棉衣、女士羊毛衫銷量同比增長(zhǎng)50%以上。男士外套銷量同比增長(zhǎng)30%以上。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。