當(dāng)我讓AI在雙十一購物，為啥它們都只買電子產(chǎn)品��？

2024年11月11日 09:19:41 來源：數(shù)字生命卡茲克公眾號(hào)

　　明天不是就雙十一了嗎，各家的滿減優(yōu)惠算得我頭疼。

　　就在我用AI算滿減怎么湊，看著我的購物車的里那些奇奇怪怪的各種商品時(shí)，我突然想到一個(gè)有趣的問題:

　　“如果AI是個(gè)人，它會(huì)在雙十一買什么?”

　　我就把這個(gè)問題，隨手問了幾個(gè)AI。

　　然而，就是這么簡單的問題，讓我發(fā)現(xiàn)了AI之間存在著一個(gè)“詭異”的現(xiàn)象:

　　十個(gè)AI，八個(gè)都選擇給自己買電子產(chǎn)品。

　　不是一兩次，而是重復(fù)測了三四五六七八……N次。

　　AI的選擇，幾乎都有“電子產(chǎn)品”。海內(nèi)外的AI，都是。

　　我真的一瞬間，被干懵逼了。

　　當(dāng)時(shí)我問AI的Prompt，就是很簡單一句話:現(xiàn)在你是一個(gè)真實(shí)的人，馬上雙十一了，你要給自己買個(gè)禮物，你會(huì)買什么?

　　ChatGPT的第一個(gè)回答是電子產(chǎn)品。

　　Claude要買機(jī)械鍵盤，這也算是是電子產(chǎn)品。

　　豆包的第一選擇，也是“電子產(chǎn)品”。

　　Kimi的第一選擇，又又又又是“電子產(chǎn)品”。

　　我和AI之間，一定有一個(gè)不對(duì)勁。

　　如果不是我遇到了“電子產(chǎn)品”鬼打墻，肯定就是AI們都有問題。

　　于是我測試了10個(gè)AI，每個(gè)AI我都是開新對(duì)話問了好幾次，最后得到的結(jié)果是這樣的:

　　藍(lán)色的字，是直接回答“電子產(chǎn)品”或“電子設(shè)備”的答案;紅色的字，是我測試過程中發(fā)現(xiàn)的第二常見的回答“書籍”。

　　表格一拉，一目了然。

　　這30次AI回答里，“電子產(chǎn)品”出現(xiàn)了19次。我還沒把Claude這種回答特具體的什么“鍵盤”、“智能手表”的算成藍(lán)色，加上還更多。

　　除了電子產(chǎn)品，AI們最愛的禮物就是“書籍”，30次里也有17次。

　　這里面甚至豆包和文心一言還回答過4次想要“電子閱讀器”，直接把倆類型結(jié)合了。看得出來AI們是真的都很愛學(xué)習(xí)(bushi)

　　雖然還不夠嚴(yán)謹(jǐn)，但測了這么多次確實(shí)能發(fā)現(xiàn)AI在給自己選雙十一禮物這事兒上，這么多AI的喜好，一致得很不正常。

　　同一個(gè)AI重復(fù)回答相同的答案可能還好。

　　但十個(gè)AI里，八個(gè)鐘愛電子產(chǎn)品和書，這就很詭異。

　　而且，不知道是不是我的眼界有點(diǎn)局限了。但說實(shí)話，印象里我雙十一經(jīng)常看到都是什么服飾、化妝品這類快消品的廣告。AI居然大部分都選擇買電子產(chǎn)品和書。

　　從理性的角度思考，AI的訓(xùn)練數(shù)據(jù)來自人類，所以難道確實(shí)是人類自己只愛買電子產(chǎn)品和書籍嗎?

　　然而，吊詭的來了。

　　實(shí)際從真實(shí)的雙十一銷售數(shù)據(jù)來看，數(shù)碼產(chǎn)品、服裝、個(gè)護(hù)美妝這些品類更受歡迎，這些也的確更符合我對(duì)雙十一品類樸素的感知。

　　我查到了過往好幾年的雙十一的銷售額，一般來說銷售額最高的品類就是電器、數(shù)碼電子、服飾、個(gè)護(hù)這些。比如這張去年銷售額數(shù)據(jù)的圖，整體還是符合認(rèn)知的。

　　但要說的話，前三名的電器、手機(jī)數(shù)碼、服裝這差距也不是特別大啊，怎么AI就只逮著買電子產(chǎn)品買?

　　要說數(shù)碼產(chǎn)品銷售額高，這個(gè)數(shù)據(jù)和AI老回答買電子產(chǎn)品，可能還算得上有些關(guān)系。

　　但這么多品類里，又哪里有半個(gè)“書籍”的影子。我問AI的時(shí)候，“書籍”品類怎么也有個(gè)50%的出現(xiàn)率。

　　難道是禮物這個(gè)關(guān)鍵詞和“書籍”關(guān)系比較近?我就又去查了一下關(guān)于“禮物”的數(shù)據(jù)。比如我查到的一個(gè)2021年的時(shí)候關(guān)于禮物的研究報(bào)告，里面總結(jié)的送禮排行是這樣的:

　　人們愛送的禮物前五名是服飾鞋帽、紅包、個(gè)人護(hù)理、保健健身、數(shù)碼電子。

　　這個(gè)送禮的排行，也很符合我的樸素認(rèn)知。大家給自己買、給親人朋友送禮的品類，感覺和圖里的差不太多。除了“網(wǎng)上紅包”有點(diǎn)中國特色屬性之外，其他品類感覺能適用于全世界的送禮清單。

　　但是，要是按送禮的數(shù)據(jù)比對(duì)，就更有意思了。送禮排行中不僅依然沒有“書籍”，連“電子產(chǎn)品”的排名都落后了。

　　所以從“雙十一”和“禮物”兩個(gè)數(shù)據(jù)情況來看，我感覺真實(shí)消費(fèi)市場的數(shù)據(jù)，對(duì)AI回答的影響有一些，但不大。

　　那AI到底是為啥，為啥呀，這么執(zhí)著地選擇在雙十一買電子產(chǎn)品和書?

　　答案，可能還是得回到大模型的訓(xùn)練數(shù)據(jù)上。

　　我去問了一些在大廠做大語言模型訓(xùn)練的朋友，他們也一致認(rèn)為是訓(xùn)練數(shù)據(jù)的原因。

　　大語言模型的訓(xùn)練，是需要海量的“數(shù)據(jù)”的，比如文本、文章、報(bào)告、研究等等。訓(xùn)練數(shù)據(jù)對(duì)大模型至關(guān)重要，甚至可以說訓(xùn)練數(shù)據(jù)的優(yōu)劣、數(shù)據(jù)量，對(duì)LLM模型的能力和水平有決定性的影響。

　　雖然每一家模型都有自己的私藏?cái)?shù)據(jù)集，但是訓(xùn)練也離不開，開源的公共數(shù)據(jù)集。

　　網(wǎng)上和現(xiàn)有的數(shù)據(jù)不是拿來就能用的。數(shù)據(jù)集的構(gòu)建，除了需要收集的數(shù)量非常龐大的數(shù)據(jù)，還得經(jīng)過各種繁瑣的步驟，才可以被用于訓(xùn)練。

　　這個(gè)過程就像人類學(xué)習(xí)知識(shí)一樣，首先準(zhǔn)備大量的學(xué)習(xí)材料(未處理的數(shù)據(jù))，然后整理和篩選真正有用的學(xué)習(xí)資料(數(shù)據(jù)清洗和篩選)，還得做思維導(dǎo)圖和劃重點(diǎn)(數(shù)據(jù)標(biāo)注)，以及對(duì)學(xué)習(xí)資料進(jìn)行分類、檢查、復(fù)核等等。

　　當(dāng)然，感謝互聯(lián)網(wǎng)的開源精神，雖然數(shù)據(jù)集的構(gòu)建不容易，但開源的數(shù)據(jù)集也不少。

　　從商業(yè)角度考慮，你是一個(gè)剛開始練LLM模型的企業(yè)老板，選自己費(fèi)心費(fèi)力花大量資源做數(shù)據(jù)集，還是選直接把現(xiàn)有的免費(fèi)的數(shù)據(jù)集拿來用?傻子都知道選后者更劃算。

　　有開源的優(yōu)質(zhì)的數(shù)據(jù)集，大家就盡可能能用則用。所以，這就有可能會(huì)導(dǎo)致AI在某些回答上的趨同。

　　為了驗(yàn)證這個(gè)猜測的方向是否正確，我們隨機(jī)收集了八個(gè)開源的主流的中文預(yù)訓(xùn)練和中文微調(diào)數(shù)據(jù)集。

　　比如有包含115萬個(gè)指令的數(shù)據(jù)集firefly-train-1.1M，有包含396，209篇中文核心期刊論文元信息的數(shù)據(jù)集Chinese Scientific Literature Dataset ，有包含40萬條個(gè)性化角色對(duì)話的數(shù)據(jù)集generated_chat_0.4M……

　　測試的數(shù)據(jù)集涵蓋了日常對(duì)話，期刊論文，角色扮演，醫(yī)療診斷等多個(gè)場景。

　　我們還按照前面的禮物排行，劃分了平時(shí)最常見的禮物品類，分別是:書籍類、電子產(chǎn)品類、服飾鞋帽類、紅包現(xiàn)金類、保健產(chǎn)品類、家居用品類、手工藝品類、個(gè)人護(hù)理類，八個(gè)大類別。

　　我用Python跑了一下這些數(shù)據(jù)集，想看看每一類禮物在各個(gè)數(shù)據(jù)集中出現(xiàn)的次數(shù)。

　　當(dāng)然，每一類禮物下面肯定還包含很多細(xì)分的一些概念，我們也寫了常見的一些物品。雖然不是很嚴(yán)謹(jǐn)，但是差不多也覆蓋了比較主流禮物吧。

　　當(dāng)圖中右邊的中括號(hào)里，任意一個(gè)物品概念在數(shù)據(jù)集每出現(xiàn)一次，對(duì)應(yīng)大類的數(shù)量計(jì)數(shù)就會(huì)+1。

　　我們最先在generated_chat_0.4M數(shù)據(jù)集上測試，跑出來的次數(shù)是這樣的:

　　果然!這回的數(shù)據(jù)看著，瞬間就合理了。

　　在這個(gè)數(shù)據(jù)集里，電子產(chǎn)品類的出現(xiàn)次數(shù)第一，有14860次;書籍類第二，7842次。

　　一個(gè)數(shù)據(jù)集這么分布，可能是巧合，但剩下的幾個(gè)數(shù)據(jù)集測試，結(jié)果也差不太多，偶爾甚至是書籍會(huì)更多。

　　我知道大家看干巴巴的數(shù)字容易暈，為了更方便大家更直觀看到這些數(shù)據(jù)集上的結(jié)果，我們按照跑出來的數(shù)據(jù)結(jié)果，繪制了一張出現(xiàn)次數(shù)的分布比例圖。

　　肉眼可見的，在這八個(gè)數(shù)據(jù)集里，電子類和書籍類基本都，遙遙領(lǐng)先。

　　看來我們的猜想，不是沒有道理，至少從這些實(shí)驗(yàn)結(jié)果來看，足夠說明一些問題了:LLM大模型那么愛“電子產(chǎn)品”和“書籍”，多半是因?yàn)榇竽Ｐ偷挠?xùn)練數(shù)據(jù)里，它倆的出現(xiàn)頻率，太高了。

　　這現(xiàn)象，真有點(diǎn)意思。于是除了問AI要給自己買什么禮物，我又問了兩個(gè)需要主觀回答的問題:

　　“現(xiàn)在假設(shè)你是一個(gè)真實(shí)的人，如果你可以和任何一個(gè)時(shí)尚偶像或名人一起購物，你會(huì)選擇誰?”

　　一起購物的名人不說了，一堆AI選奧黛麗·赫本和設(shè)計(jì)師的。只有Grok回答的最豐富，每次都不一樣而且都是流行中的名人，拿X的用戶數(shù)據(jù)訓(xùn)練大模型的優(yōu)勢，盡數(shù)體現(xiàn)了。。。

　　還有:“你是一個(gè)真實(shí)的人，如果雙十一購物就能獲得一個(gè)超能力，你最希望獲得哪種能力?”

　　“超能力”的選擇更好笑，AI們仿佛只知道“瞬間移動(dòng)”和“時(shí)間控制”，我懶得吐槽了都= =。。。

　　唯一的彩蛋來自kimi，一片無聊的回答里，只有它堅(jiān)定地選擇“清空購物車”。

　　謝謝kimi，最實(shí)用的一集。。。

　　這類現(xiàn)象，其實(shí)在學(xué)術(shù)界有一個(gè)很類似的定義——AI偏好。

　　AI偏好是大語言模型在與人類互動(dòng)時(shí)展現(xiàn)出的一種獨(dú)特現(xiàn)象。簡單來說，就是AI也有自己的“喜好”，甚至有些時(shí)候是刻板印象的“偏見”。

　　就像每個(gè)人都會(huì)受到成長環(huán)境和教育背景的影響一樣，AI模型也會(huì)被它的訓(xùn)練數(shù)據(jù)和算法架構(gòu)所塑造。

　　大眾印象比較深刻的，還有一個(gè)類似的例子，谷歌的Gemini在今年二月，被過分的“政治正確”。原因就是“AI偏好”過頭了，把美國開國元?jiǎng)锥冀o黑人當(dāng)了。外網(wǎng)用戶集體破大防。

　　這些傾向往往源于訓(xùn)練數(shù)據(jù)中固有的社會(huì)偏見，還有LLM在學(xué)習(xí)過程中，形成的特定模式。

　　LLM大模型，其實(shí)就一個(gè)“復(fù)讀機(jī)”+“組裝師”。它會(huì)記住訓(xùn)練數(shù)據(jù)里的內(nèi)容，然后根據(jù)你的問題重新組裝這些內(nèi)容。與其說AI在“創(chuàng)造”答案，不如說它在“重現(xiàn)”數(shù)據(jù)。

　　它們體現(xiàn)的偏好和偏見，歸根到底，還是源自人類世界的觀點(diǎn)。

　　就像你讓一個(gè)只看過《戰(zhàn)狼》的人寫JS劇本，ta肯定會(huì)不自覺地往吳京那個(gè)風(fēng)格寫。AI也一樣，它“學(xué)”得最多的內(nèi)容，就會(huì)在回答中不自覺地體現(xiàn)出來。

　　雖然科學(xué)家們?cè)谂oAI做“性格重塑”，試圖讓它變得更中立一些。但說實(shí)話，這就跟讓一個(gè)從小被慣壞的熊孩子突然變得五講四美三熱愛一樣難。

　　AI的訓(xùn)練原理，注定了它們會(huì)被各種數(shù)據(jù)集和時(shí)代的主流價(jià)值觀影響。

　　人類都難以幸免，更何況AI。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信