在生成式人工智能(Generative AI)的信息技術(shù)躍遷背景下,如何看待知乎當(dāng)下和未來,有三個基本的視角:
它是大語言模型預(yù)訓(xùn)練中文語料最重要來源之一,例如最近現(xiàn)象級的大模型聊天應(yīng)用Kimi Chat,就以知乎為重要的訓(xùn)練資料來源(甚至是80%以上的來源)。
每一個在知乎上提問的用戶,其實都是在發(fā)prompt(提示詞);而每一個知乎的答主,基本都相當(dāng)于基于個人知識和經(jīng)驗(語料)、價值觀和思考邏輯(算法和思維鏈)的人肉語言模型;诖耍诖笳Z言模型的“數(shù)字人答主”會在知乎陸續(xù)出現(xiàn)。
鑒于“提問——回答”是知乎作為內(nèi)容社區(qū)運轉(zhuǎn)的基本邏輯,也是一系列大語言模型工具運轉(zhuǎn)的基本邏輯,還是搜索引擎20年持續(xù)進(jìn)化的主線——Google、百度,還有新型的AI問答聚合工具Perplexity,近期所做的一切,實質(zhì)都是搜索引擎的AI化。因此,知乎的搜索屬性——基于AI的搜索,將得到強化。
基于這三個視角,在AI的眾聲喧嘩之側(cè)的知乎,有以下可能擁抱生成式人工智能浪潮的方式:
做更好的中文預(yù)訓(xùn)練語料提供商,成為高質(zhì)量中文語料的永動機,提供更高質(zhì)量的、由人而不是機器創(chuàng)造的中文內(nèi)容,讓這些內(nèi)容有更多被采集、使用和預(yù)訓(xùn)練的可能。參與國家級中文語料庫建設(shè),成為重要的語料建設(shè)者。
整個社區(qū)的激進(jìn)AI化。AI進(jìn)行提問,更負(fù)責(zé)回答。知乎社區(qū)將出現(xiàn)大量的AI數(shù)字人作為獨立的IP——歷史的、科技的、醫(yī)學(xué)的、文學(xué)的垂直領(lǐng)域數(shù)字人,讓他們回答用戶的提問,給出用戶想要的答案。
以搜索為突破,以知乎自己的大模型能力(知海圖AI)為依托,讓大模型參與部分問題答案的生成和總結(jié),提示用戶追問,引導(dǎo)用戶在知乎社區(qū)內(nèi)進(jìn)行“多輪對話”,從而吸引更多的答主,讓大模型成為激發(fā)用戶活躍度的催化劑。
以上三個路徑,第一個保守,第二個激進(jìn),第三個是前兩者的結(jié)合。知乎選擇哪條路徑,取決于知乎是什么,它在大語言模型生態(tài)產(chǎn)業(yè)鏈當(dāng)中的角色是什么,以及它擅長什么。
3月20日的“發(fā)現(xiàn)大會”上,知乎推出了三個與AI相關(guān)功能——
一個是搜索,幫助用戶找到社區(qū)的“共識”。
它其實相當(dāng)于知乎站內(nèi)的Perpelexity——用戶提出問題,知海圖AI模型基于社區(qū)內(nèi)的內(nèi)容,生成用戶需要的答案。并不是所有的內(nèi)容都能在知乎上找到答主生成的答案,很多時候,一個有深度的、需要專業(yè)知識支撐的問題,需要很久才能有專業(yè)領(lǐng)域的答主提供高質(zhì)量的答案。但這樣的問題,散落在社區(qū)各個角落的答主們針對其它問題的各條高質(zhì)量答案,是可以作為參考依據(jù)的。這個時候,如果AI能通過搜索和生成,將這些答案里的有價值信息提煉出來,進(jìn)行有效的推理,就能為一個“新鮮出爐”的專業(yè)問題提供一個立等可取的答案,提問的用戶就可以能為快,然后再等其它的專業(yè)答主陸續(xù)趕到,下場答題。
在灰度測試這個功能的時候,知乎消費電子領(lǐng)域的專業(yè)答主Navis Li提出過一個專業(yè)問題:俄羅斯或前蘇聯(lián)好像有一個著名的鏡頭可以實現(xiàn)旋轉(zhuǎn)的焦外虛化效果,鏡頭具體是什么?講真,面對這種極度偏門專業(yè)的冷知識,等人來答需要花很長的時間,也可能等不到。但基于AI搜索,知乎其它專業(yè)答主和社區(qū)創(chuàng)作者在其它問題下面的答案經(jīng)過提煉、分析和推理,給出了一個準(zhǔn)確的答案。
第二個是實時問答,用于完成公共編輯。
它相當(dāng)于AI生成的站內(nèi)維基百科。一個高質(zhì)量的提問下面可能有成百甚至上千的答案,其中的高贊答案可能也不下幾十個。是不是每個人都有時間和耐心讀完所有的答案,再形成一個自己需要的知識輸出?這恐怕不太現(xiàn)實。它需要一個基于創(chuàng)作者的答案的“最佳答案”,也就是最佳答案的提煉、萃取的維基百科功能。早年的知乎是有這個功能的,大家通過公共編輯,對所有的回答進(jìn)行總結(jié),“眾創(chuàng)”出一個最佳回答。這個初衷是理想的,現(xiàn)實卻有些骨感。它反倒成了知乎頗受爭議的功能。因為人的主觀、偏見和傾向是難以避免的,是容易制造更大沖突、對立和爭議的,以至于知乎不得不下線了這個功能。
真正適合做“維基百科”工作的,是AI。AI的偏見不能說沒有,但可以通過強化訓(xùn)練得到約束和控制。AI的提煉和推理能力是呈指數(shù)級提升的。因此,基于創(chuàng)作者回答的“最佳回答”,現(xiàn)在有了更好的生成者——大語言模型。這個實時問答其實是基于AI的公共編輯,讓用戶得到一個簡單、直接和有效答案的路徑更直接、更快速。
第三個是不斷提問和追問的功能,甚至可以不需要提示詞。
知乎長期是一個比較單向度的產(chǎn)品:一問多答。盡管有算法推薦的關(guān)聯(lián)提問,但它不是同一個用戶實時提出的問題,未必折射了一個提問者內(nèi)心最大的好奇心和疑惑,F(xiàn)在看完了一個問題的回答,可以基于這個回答和提煉出來的“最佳答案”進(jìn)行追問——追問甚至不需要主動輸入提示詞,而是AI自動生成。它其實在鼓勵用戶在知乎社區(qū)里進(jìn)行“多輪對話”——就像一個人在ChatGPT和Kimi Chat上做的那些事一樣。針對用戶的追問,AI可以給出它的答案,答主們也應(yīng)該會陸續(xù)趕到現(xiàn)場。
這樣,知乎作為一個“問答社區(qū)”的形態(tài),就有可能從“一問多答” 向“多問多答” 演進(jìn)。在一個基于問答的內(nèi)容社區(qū)里,提問是最大的供給側(cè)。過去的提問主要依靠的是人們的好奇心和求知欲,現(xiàn)在可以有AI加持和賦予的靈感。這么做的好處當(dāng)然也很直觀——產(chǎn)生更多的問題,以及相應(yīng)的更多的答案。
一個搜索,一個實時問答,一個追問,它們背后都基于知乎的AI,知乎把這個三合一的AI功能叫“發(fā)現(xiàn) · AI搜索”,在首頁的左側(cè)給了一個“四芒星”的logo。
看上去,它有搜索,但不是一個專門的搜索框。它有大模型對話,但不以對話界面的方式呈現(xiàn)。它可以追問,但AI不是唯一的答主。它看上去還是那個知乎,還需要大量有好奇的提問者,還需要高質(zhì)量的專業(yè)答主。然后,AI站在他們的身側(cè)。
在前面的知乎擁抱AI的三條路徑里,知乎選擇的是第三條。這條路徑的最終指向,是知乎作為一個知識問答社區(qū)最關(guān)鍵的命脈——用戶的活躍、持續(xù)不斷的高質(zhì)量問題,以及高質(zhì)量的可信賴的答案。
知乎相信“發(fā)現(xiàn)·AI搜索”會成為知乎社區(qū)的活水,但它高度警惕整個社區(qū)的激進(jìn)AI化——大量的AI生成問題,大量的AI回答問題。社區(qū)里充滿了機器人和數(shù)字人的提問者和答主,大量甚至大多數(shù)問題和答案都是AI生成的。
在硅星人與知乎創(chuàng)始人、CEO周源最近的一次對話中,周源對“NPC答主”的態(tài)度高度審慎:“平臺不應(yīng)該主動做這個事兒,平臺為什么要讓自己的體系里面產(chǎn)生這么多NPC呢?”
他認(rèn)為知乎的“AI搜索”是一個“不依賴原來的信息流,換了一種基于大模型的能力和交互的方式,而對后續(xù)產(chǎn)生數(shù)據(jù)反饋非常直接”的功能。這個“數(shù)據(jù)的直接反饋”,是指向活生生的“人”的,而不是AI的。作為提問者,能夠更快、更直接得到他們想到的答案;作為答主,能夠讓自己的回答被更頻繁地搜索、調(diào)取、索引和再度生成為新的內(nèi)容。作為普通的瀏覽型用戶,能夠換一個界面和交互,用“搜索”和“發(fā)現(xiàn)”到更多過去需要下拉很多次信息流才能找到的問題和答案,這對于一個社區(qū)的活躍度是非常重要的事。它們將產(chǎn)生更多的內(nèi)容,也是大語言模型訓(xùn)練所用的語料。
“AI本身是一個語言模型,不會遇到問題。只有人才會在社會中遇到問題。你失戀了,下崗了,人才會有這種痛苦和欲望。人產(chǎn)生的問題和相應(yīng)的內(nèi)容才是可信的。AI 可以輔助你,但是如果把這層光明層去掉,AI只是自循環(huán)的,我覺得就沒有太大價值了”,周源對硅星人說。
基于這個認(rèn)知,他反對讓“AI搜索”生成的答案和問題,以機器人的IP形式出現(xiàn),而堅持只讓它們出現(xiàn)在“四芒星”的角標(biāo)里面,以私聊的方式出現(xiàn),只屬于用戶個人,而不呈現(xiàn)在由提問者和答主這些真正的“創(chuàng)作者”出現(xiàn)的信息流里。
面對AI,知乎真正要回答的問題是:人類如何與AI共享智慧,又保持對人類原創(chuàng)性的尊重和鼓勵。這不是一個新問題,但需要一個新的解法。目前,它給出答案是:透過AI,讓人們發(fā)現(xiàn)人類創(chuàng)造的更大的世界,人類創(chuàng)作的更多的內(nèi)容,而不是用AI發(fā)現(xiàn)更多AI生成的內(nèi)容。
它指向了一個更為關(guān)鍵的問題:當(dāng)世界上越來越多的內(nèi)容是由AI生成的,人類的經(jīng)驗和人類創(chuàng)造的內(nèi)容,會不會變成一種日益邊緣化的稀缺資源?AI生成內(nèi)容的前提和基礎(chǔ)是人類經(jīng)驗生成的語料——即人類通過歷史、社會、經(jīng)濟、科技實踐創(chuàng)造的內(nèi)容——無論它們是文章、數(shù)據(jù)、圖像、聲音、視頻還是代碼。但如果人類創(chuàng)造的內(nèi)容在AI生成的幾何級增長“擠壓 ”下變成一種稀缺資源,未來AI生成內(nèi)容的經(jīng)驗從何而來,語料又從何而來?
這對每一個人都很重要,對事實上已成為全世界中文語料的重要資源庫——知乎來說,更是一個必答題。
“人工智能發(fā)展離不開芯片、模型、數(shù)據(jù)三個重要因素。芯片確實卡脖子,但芯片是一個工程學(xué)的問題,只要有了一定的規(guī)模,就能夠迭代起來,我們工程師還是很厲害的。模型有開源優(yōu)勢,進(jìn)化速度也不會慢。只有數(shù)據(jù)是不可再生資源,而且還沒辦法馬上擁有。無論投10億美金還是投100億美金,都不可能在短時間里建立一個UGC社區(qū),語料是一種不可再生資源”,周源認(rèn)為。
“你把語料當(dāng)成靜態(tài)的,即便他是這樣的,那也得把它看成是一片土地。你不能在一塊土地上把玉米割了,然后去另外一個地方銷售,不管這片土地明天有沒有蟲災(zāi),” 周源認(rèn)為,全球的語料都存在著一種貧瘠化甚至枯竭化的可能,就像石油一樣。
因此,讓數(shù)據(jù)的供給和消費的飛輪能夠轉(zhuǎn)起來,讓更多的數(shù)據(jù)變成大模型訓(xùn)練的語料,被AI“消費”的同時,更多的語料能夠被反哺、AI能激發(fā)人類再創(chuàng)造更好的內(nèi)容,變成更有價值的語料,就變成了知乎在生成式人工智能浪潮下尋求答案的最有價值求解——尤其在它已經(jīng)是全球中文互聯(lián)網(wǎng)語料中繞不過去的存在的情況下。
成為可再生的持續(xù)供給的全球最大中文語料庫有什么價值?來自美國的答案是:Google已經(jīng)向美國最重要的內(nèi)容社區(qū)Reddit累計支付了6000多萬美元,用于購買高質(zhì)量的語料。
來自中國的答案是什么?在數(shù)據(jù)交易市場已經(jīng)在政府和市場的雙輪驅(qū)動下已經(jīng)日臻成熟的情況下,中文語料將成為重要的可被交易的數(shù)據(jù)資源。誰是最重要的中文語料庫,將成為繼芯片和算力之后,另一種稀缺但重要的“水”。誰都知道,AI的發(fā)展,往往是“賣水”的人最先賺到錢。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。