知乎AI革命：智能搜索與實時問答的融合

2024年03月29日 15:29:00 來源：硅星人Pro公眾號

　　在生成式人工智能(Generative AI)的信息技術(shù)躍遷背景下，如何看待知乎當(dāng)下和未來，有三個基本的視角:

　　它是大語言模型預(yù)訓(xùn)練中文語料最重要來源之一，例如最近現(xiàn)象級的大模型聊天應(yīng)用Kimi Chat，就以知乎為重要的訓(xùn)練資料來源(甚至是80%以上的來源)。

　　每一個在知乎上提問的用戶，其實都是在發(fā)prompt(提示詞);而每一個知乎的答主，基本都相當(dāng)于基于個人知識和經(jīng)驗(語料)、價值觀和思考邏輯(算法和思維鏈)的人肉語言模型�；诖耍诖笳Z言模型的“數(shù)字人答主”會在知乎陸續(xù)出現(xiàn)。

　　鑒于“提問——回答”是知乎作為內(nèi)容社區(qū)運轉(zhuǎn)的基本邏輯，也是一系列大語言模型工具運轉(zhuǎn)的基本邏輯，還是搜索引擎20年持續(xù)進(jìn)化的主線——Google、百度，還有新型的AI問答聚合工具Perplexity，近期所做的一切，實質(zhì)都是搜索引擎的AI化。因此，知乎的搜索屬性——基于AI的搜索，將得到強化。

　　基于這三個視角，在AI的眾聲喧嘩之側(cè)的知乎，有以下可能擁抱生成式人工智能浪潮的方式:

　　做更好的中文預(yù)訓(xùn)練語料提供商，成為高質(zhì)量中文語料的永動機，提供更高質(zhì)量的、由人而不是機器創(chuàng)造的中文內(nèi)容，讓這些內(nèi)容有更多被采集、使用和預(yù)訓(xùn)練的可能。參與國家級中文語料庫建設(shè)，成為重要的語料建設(shè)者。

　　整個社區(qū)的激進(jìn)AI化。AI進(jìn)行提問，更負(fù)責(zé)回答。知乎社區(qū)將出現(xiàn)大量的AI數(shù)字人作為獨立的IP——歷史的、科技的、醫(yī)學(xué)的、文學(xué)的垂直領(lǐng)域數(shù)字人，讓他們回答用戶的提問，給出用戶想要的答案。

　　以搜索為突破，以知乎自己的大模型能力(知海圖AI)為依托，讓大模型參與部分問題答案的生成和總結(jié)，提示用戶追問，引導(dǎo)用戶在知乎社區(qū)內(nèi)進(jìn)行“多輪對話”，從而吸引更多的答主，讓大模型成為激發(fā)用戶活躍度的催化劑。

　　以上三個路徑，第一個保守，第二個激進(jìn)，第三個是前兩者的結(jié)合。知乎選擇哪條路徑，取決于知乎是什么，它在大語言模型生態(tài)產(chǎn)業(yè)鏈當(dāng)中的角色是什么，以及它擅長什么。

　　3月20日的“發(fā)現(xiàn)大會”上，知乎推出了三個與AI相關(guān)功能——

　　一個是搜索，幫助用戶找到社區(qū)的“共識”。

　　它其實相當(dāng)于知乎站內(nèi)的Perpelexity——用戶提出問題，知海圖AI模型基于社區(qū)內(nèi)的內(nèi)容，生成用戶需要的答案。并不是所有的內(nèi)容都能在知乎上找到答主生成的答案，很多時候，一個有深度的、需要專業(yè)知識支撐的問題，需要很久才能有專業(yè)領(lǐng)域的答主提供高質(zhì)量的答案。但這樣的問題，散落在社區(qū)各個角落的答主們針對其它問題的各條高質(zhì)量答案，是可以作為參考依據(jù)的。這個時候，如果AI能通過搜索和生成，將這些答案里的有價值信息提煉出來，進(jìn)行有效的推理，就能為一個“新鮮出爐”的專業(yè)問題提供一個立等可取的答案，提問的用戶就可以能為快，然后再等其它的專業(yè)答主陸續(xù)趕到，下場答題。

　　在灰度測試這個功能的時候，知乎消費電子領(lǐng)域的專業(yè)答主Navis Li提出過一個專業(yè)問題:俄羅斯或前蘇聯(lián)好像有一個著名的鏡頭可以實現(xiàn)旋轉(zhuǎn)的焦外虛化效果，鏡頭具體是什么?講真，面對這種極度偏門專業(yè)的冷知識，等人來答需要花很長的時間，也可能等不到。但基于AI搜索，知乎其它專業(yè)答主和社區(qū)創(chuàng)作者在其它問題下面的答案經(jīng)過提煉、分析和推理，給出了一個準(zhǔn)確的答案。

　　第二個是實時問答，用于完成公共編輯。

　　它相當(dāng)于AI生成的站內(nèi)維基百科。一個高質(zhì)量的提問下面可能有成百甚至上千的答案，其中的高贊答案可能也不下幾十個。是不是每個人都有時間和耐心讀完所有的答案，再形成一個自己需要的知識輸出?這恐怕不太現(xiàn)實。它需要一個基于創(chuàng)作者的答案的“最佳答案”，也就是最佳答案的提煉、萃取的維基百科功能。早年的知乎是有這個功能的，大家通過公共編輯，對所有的回答進(jìn)行總結(jié)，“眾創(chuàng)”出一個最佳回答。這個初衷是理想的，現(xiàn)實卻有些骨感。它反倒成了知乎頗受爭議的功能。因為人的主觀、偏見和傾向是難以避免的，是容易制造更大沖突、對立和爭議的，以至于知乎不得不下線了這個功能。

　　真正適合做“維基百科”工作的，是AI。AI的偏見不能說沒有，但可以通過強化訓(xùn)練得到約束和控制。AI的提煉和推理能力是呈指數(shù)級提升的。因此，基于創(chuàng)作者回答的“最佳回答”，現(xiàn)在有了更好的生成者——大語言模型。這個實時問答其實是基于AI的公共編輯，讓用戶得到一個簡單、直接和有效答案的路徑更直接、更快速。

　　第三個是不斷提問和追問的功能，甚至可以不需要提示詞。

　　知乎長期是一個比較單向度的產(chǎn)品:一問多答。盡管有算法推薦的關(guān)聯(lián)提問，但它不是同一個用戶實時提出的問題，未必折射了一個提問者內(nèi)心最大的好奇心和疑惑�，F(xiàn)在看完了一個問題的回答，可以基于這個回答和提煉出來的“最佳答案”進(jìn)行追問——追問甚至不需要主動輸入提示詞，而是AI自動生成。它其實在鼓勵用戶在知乎社區(qū)里進(jìn)行“多輪對話”——就像一個人在ChatGPT和Kimi Chat上做的那些事一樣。針對用戶的追問，AI可以給出它的答案，答主們也應(yīng)該會陸續(xù)趕到現(xiàn)場。

　　這樣，知乎作為一個“問答社區(qū)”的形態(tài)，就有可能從“一問多答” 向“多問多答” 演進(jìn)。在一個基于問答的內(nèi)容社區(qū)里，提問是最大的供給側(cè)。過去的提問主要依靠的是人們的好奇心和求知欲，現(xiàn)在可以有AI加持和賦予的靈感。這么做的好處當(dāng)然也很直觀——產(chǎn)生更多的問題，以及相應(yīng)的更多的答案。

　　一個搜索，一個實時問答，一個追問，它們背后都基于知乎的AI，知乎把這個三合一的AI功能叫“發(fā)現(xiàn) · AI搜索”，在首頁的左側(cè)給了一個“四芒星”的logo。

　　看上去，它有搜索，但不是一個專門的搜索框。它有大模型對話，但不以對話界面的方式呈現(xiàn)。它可以追問，但AI不是唯一的答主。它看上去還是那個知乎，還需要大量有好奇的提問者，還需要高質(zhì)量的專業(yè)答主。然后，AI站在他們的身側(cè)。

　　在前面的知乎擁抱AI的三條路徑里，知乎選擇的是第三條。這條路徑的最終指向，是知乎作為一個知識問答社區(qū)最關(guān)鍵的命脈——用戶的活躍、持續(xù)不斷的高質(zhì)量問題，以及高質(zhì)量的可信賴的答案。

　　知乎相信“發(fā)現(xiàn)·AI搜索”會成為知乎社區(qū)的活水，但它高度警惕整個社區(qū)的激進(jìn)AI化——大量的AI生成問題，大量的AI回答問題。社區(qū)里充滿了機器人和數(shù)字人的提問者和答主，大量甚至大多數(shù)問題和答案都是AI生成的。

　　在硅星人與知乎創(chuàng)始人、CEO周源最近的一次對話中，周源對“NPC答主”的態(tài)度高度審慎:“平臺不應(yīng)該主動做這個事兒，平臺為什么要讓自己的體系里面產(chǎn)生這么多NPC呢?”

　　他認(rèn)為知乎的“AI搜索”是一個“不依賴原來的信息流，換了一種基于大模型的能力和交互的方式，而對后續(xù)產(chǎn)生數(shù)據(jù)反饋非常直接”的功能。這個“數(shù)據(jù)的直接反饋”，是指向活生生的“人”的，而不是AI的。作為提問者，能夠更快、更直接得到他們想到的答案;作為答主，能夠讓自己的回答被更頻繁地搜索、調(diào)取、索引和再度生成為新的內(nèi)容。作為普通的瀏覽型用戶，能夠換一個界面和交互，用“搜索”和“發(fā)現(xiàn)”到更多過去需要下拉很多次信息流才能找到的問題和答案，這對于一個社區(qū)的活躍度是非常重要的事。它們將產(chǎn)生更多的內(nèi)容，也是大語言模型訓(xùn)練所用的語料。

　　“AI本身是一個語言模型，不會遇到問題。只有人才會在社會中遇到問題。你失戀了，下崗了，人才會有這種痛苦和欲望。人產(chǎn)生的問題和相應(yīng)的內(nèi)容才是可信的。AI 可以輔助你，但是如果把這層光明層去掉，AI只是自循環(huán)的，我覺得就沒有太大價值了”，周源對硅星人說。

　　基于這個認(rèn)知，他反對讓“AI搜索”生成的答案和問題，以機器人的IP形式出現(xiàn)，而堅持只讓它們出現(xiàn)在“四芒星”的角標(biāo)里面，以私聊的方式出現(xiàn)，只屬于用戶個人，而不呈現(xiàn)在由提問者和答主這些真正的“創(chuàng)作者”出現(xiàn)的信息流里。

　　面對AI，知乎真正要回答的問題是:人類如何與AI共享智慧，又保持對人類原創(chuàng)性的尊重和鼓勵。這不是一個新問題，但需要一個新的解法。目前，它給出答案是:透過AI，讓人們發(fā)現(xiàn)人類創(chuàng)造的更大的世界，人類創(chuàng)作的更多的內(nèi)容，而不是用AI發(fā)現(xiàn)更多AI生成的內(nèi)容。

　　它指向了一個更為關(guān)鍵的問題:當(dāng)世界上越來越多的內(nèi)容是由AI生成的，人類的經(jīng)驗和人類創(chuàng)造的內(nèi)容，會不會變成一種日益邊緣化的稀缺資源?AI生成內(nèi)容的前提和基礎(chǔ)是人類經(jīng)驗生成的語料——即人類通過歷史、社會、經(jīng)濟、科技實踐創(chuàng)造的內(nèi)容——無論它們是文章、數(shù)據(jù)、圖像、聲音、視頻還是代碼。但如果人類創(chuàng)造的內(nèi)容在AI生成的幾何級增長“擠壓 ”下變成一種稀缺資源，未來AI生成內(nèi)容的經(jīng)驗從何而來，語料又從何而來?

　　這對每一個人都很重要，對事實上已成為全世界中文語料的重要資源庫——知乎來說，更是一個必答題。

　　“人工智能發(fā)展離不開芯片、模型、數(shù)據(jù)三個重要因素。芯片確實卡脖子，但芯片是一個工程學(xué)的問題，只要有了一定的規(guī)模，就能夠迭代起來，我們工程師還是很厲害的。模型有開源優(yōu)勢，進(jìn)化速度也不會慢。只有數(shù)據(jù)是不可再生資源，而且還沒辦法馬上擁有。無論投10億美金還是投100億美金，都不可能在短時間里建立一個UGC社區(qū)，語料是一種不可再生資源”，周源認(rèn)為。

　　“你把語料當(dāng)成靜態(tài)的，即便他是這樣的，那也得把它看成是一片土地。你不能在一塊土地上把玉米割了，然后去另外一個地方銷售，不管這片土地明天有沒有蟲災(zāi)，” 周源認(rèn)為，全球的語料都存在著一種貧瘠化甚至枯竭化的可能，就像石油一樣。

　　因此，讓數(shù)據(jù)的供給和消費的飛輪能夠轉(zhuǎn)起來，讓更多的數(shù)據(jù)變成大模型訓(xùn)練的語料，被AI“消費”的同時，更多的語料能夠被反哺、AI能激發(fā)人類再創(chuàng)造更好的內(nèi)容，變成更有價值的語料，就變成了知乎在生成式人工智能浪潮下尋求答案的最有價值求解——尤其在它已經(jīng)是全球中文互聯(lián)網(wǎng)語料中繞不過去的存在的情況下。

　　成為可再生的持續(xù)供給的全球最大中文語料庫有什么價值?來自美國的答案是:Google已經(jīng)向美國最重要的內(nèi)容社區(qū)Reddit累計支付了6000多萬美元，用于購買高質(zhì)量的語料。

　　來自中國的答案是什么?在數(shù)據(jù)交易市場已經(jīng)在政府和市場的雙輪驅(qū)動下已經(jīng)日臻成熟的情況下，中文語料將成為重要的可被交易的數(shù)據(jù)資源。誰是最重要的中文語料庫，將成為繼芯片和算力之后，另一種稀缺但重要的“水”。誰都知道，AI的發(fā)展，往往是“賣水”的人最先賺到錢。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信