冰雪大世界盛大開(kāi)園,美的空調(diào)橫跨50℃打造“東北夏威夷”臺(tái)灣小土豆勇闖冰雪大世界,美的空調(diào)真暖快車成為最熱打卡點(diǎn)京東iPhone 16系列年底大放價(jià)!至高補(bǔ)貼1200元價(jià)格低過(guò)11.11新一季圓滿假期結(jié)伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞中國(guó)聯(lián)通組織“魅力亞冬,與智慧同行” 主題采訪活動(dòng)“萬(wàn)象分區(qū)”引領(lǐng)電視行業(yè)新潮流,TCL這步棋下得著實(shí)漂亮!百度職業(yè)院校專屬項(xiàng)目“大國(guó)智匠”引領(lǐng)職業(yè)教育新范式百度大模型助力2024年碼蹄杯程序設(shè)計(jì)大賽,全國(guó)高校學(xué)子展現(xiàn)卓越編程實(shí)力碼蹄杯人物特寫(xiě):四位編程少年的追夢(mèng)之旅金倉(cāng)數(shù)據(jù)庫(kù)四項(xiàng)成果入選2024星河案例亞信科技參加2024通信產(chǎn)業(yè)大會(huì) CTO歐陽(yáng)曄博士等做主題演講用專業(yè)贏得信賴 美好蘊(yùn)育潤(rùn)康引領(lǐng)孕產(chǎn)營(yíng)養(yǎng)新風(fēng)尚解鎖新成就!愛(ài)企查“度秘書(shū)”粉絲突破10萬(wàn)!英特爾終止x86S架構(gòu)計(jì)劃:純64位設(shè)計(jì)再度戛然而止豆包大模型全面升級(jí),相關(guān)概念股瘋漲,字節(jié)發(fā)布緊急警示申通、圓通、韻達(dá)發(fā)布 11 月簡(jiǎn)報(bào):快遞業(yè)務(wù)量、收入均同比增長(zhǎng),單票收入均下降SensorTower發(fā)11月中國(guó)手游全球收入排行榜 庫(kù)洛入榜“YO!原”千里來(lái)相會(huì) 華為智能生活館·太原茂業(yè)重裝開(kāi)業(yè)微軟承認(rèn)并調(diào)查Microsoft 365 應(yīng)用出現(xiàn)“產(chǎn)品已停用”錯(cuò)誤SK 海力士被曝贏得博通HBM訂單,預(yù)計(jì)明年 1b DRAM 月產(chǎn)能將擴(kuò)大到 16~17 萬(wàn)片
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    大模型沒(méi)有「知識(shí)圍城」

    2024年08月27日 14:06:38   來(lái)源:腦極體

      最近,兩大知識(shí)平臺(tái)開(kāi)始“反擊”大模型。

      一是知網(wǎng)。就是引發(fā)學(xué)術(shù)界震動(dòng)、開(kāi)啟“天臨元年”的那個(gè)知網(wǎng),要求秘塔AI搜索終止對(duì)他們內(nèi)容的搜索和鏈接。

      二是知乎。網(wǎng)友發(fā)現(xiàn)在微軟必應(yīng)搜索、谷歌搜索的結(jié)果中,知乎內(nèi)容的標(biāo)題和正文都可能是亂碼,極大可能是為了避免內(nèi)容被用來(lái)訓(xùn)練AI模型。

      這兩大平臺(tái)區(qū)別于其他互聯(lián)網(wǎng)社區(qū)的一大特點(diǎn),就是知識(shí)內(nèi)容豐富、質(zhì)量較高。

      對(duì)于大模型來(lái)說(shuō),“知識(shí)密度”是一個(gè)非常關(guān)鍵的指標(biāo),就像集成電路領(lǐng)域的“先進(jìn)制程”一樣,如果說(shuō)高制程芯片能夠在同樣面積上集成更多的晶體管,那么“知識(shí)密度高”的大模型,能夠在同樣的參數(shù)空間內(nèi)學(xué)習(xí)并存儲(chǔ)更多的知識(shí),從而更好地完成特定領(lǐng)域的任務(wù)。

      半導(dǎo)體領(lǐng)域的“先進(jìn)制程”封鎖,一直是拿捏中國(guó)芯片的有效手段。

      那么,頭部知識(shí)平臺(tái)對(duì)大模型采取“關(guān)門政策”,會(huì)影響到大模型及AI產(chǎn)品的先進(jìn)性嗎?

      我們的觀點(diǎn)如標(biāo)題所示,大模型是不會(huì)被“知識(shí)圍城”而封鎖的。

      比起結(jié)論,更值得進(jìn)一步探討的是,既然大模型訓(xùn)練對(duì)平臺(tái)內(nèi)容并沒(méi)有高度依賴,模廠和平臺(tái)的矛盾是從何而起呢?

      1、知識(shí),AI產(chǎn)業(yè)化的核心

      很多讀者都聽(tīng)說(shuō)過(guò)AI三要素,是數(shù)據(jù)、算力、算法。知識(shí)處于什么地位呢?憑什么大模型知識(shí)密度,具有半導(dǎo)體“先進(jìn)制程”一樣的重要性呢?

      清華大學(xué)張鈸院士說(shuō)過(guò),當(dāng)前大模型存在難以逾越的天花板,“推動(dòng)AI的創(chuàng)新應(yīng)用與產(chǎn)業(yè)化,四個(gè)要素肯定都要發(fā)揮知識(shí)、數(shù)據(jù)、算法、算力,但是我們最主張的,就必須重視知識(shí)的作用,所以我們把知識(shí)放在*位”。

      可能有人又會(huì)問(wèn),院士說(shuō)得就一定對(duì)嗎?當(dāng)然不一定。我們還可以來(lái)看看一線的從業(yè)者,又是怎么想的。

      我聽(tīng)過(guò)某AI創(chuàng)業(yè)公司,在交付產(chǎn)品時(shí),發(fā)現(xiàn)即便是基于GPT4-Turbo這樣性能*的基座模型,AI也對(duì)很多問(wèn)題答不上來(lái)。因?yàn)橛行﹫?chǎng)景會(huì)用到一些隱性知識(shí),這些知識(shí)是下一步推理所必需的,但模型經(jīng)常get不到。

      比如生成一道菜譜,其中提到了“加辣椒”,但辣椒有點(diǎn)辣(隱性知識(shí)),就需要詢問(wèn)用戶“喜不喜歡吃辣”,人類廚師早就了解這個(gè)基礎(chǔ)知識(shí),但讓AI主動(dòng)意識(shí)到并詢問(wèn)就很難。

      這是因?yàn)槿鄙?ldquo;通識(shí)知識(shí)”。

      某金融券商想用大模型來(lái)替代人類理財(cái)師,發(fā)現(xiàn)大模型給出的理財(cái)觀點(diǎn)和建議很泛泛,是一些常識(shí)性內(nèi)容,而用戶在決策時(shí),需要的是人類專家那樣犀利的洞見(jiàn)。

      一位金融從業(yè)者說(shuō),有些場(chǎng)景,大模型fine tuning還不如傳統(tǒng)的小模型,怎么把業(yè)務(wù)知識(shí)注入大模型中,做了各種嘗試也沒(méi)有特別好的方法,只能把飄在上面的問(wèn)題數(shù)據(jù),收集來(lái)達(dá)標(biāo)給LLM,希望它下次不要再犯錯(cuò)。

      而另一個(gè)創(chuàng)業(yè)公司發(fā)現(xiàn),如果從小處著手,將LLM與行業(yè)知識(shí)融合,可以獲得97%以上的準(zhǔn)確率,基本能達(dá)到行業(yè)客戶的驗(yàn)收標(biāo)準(zhǔn)。實(shí)際上,很多AI創(chuàng)業(yè)公司的大模型ToB項(xiàng)目,都是幫助企業(yè)構(gòu)建定制化知識(shí)庫(kù)(KB系統(tǒng))。

      領(lǐng)域知識(shí),則是關(guān)乎大模型處理復(fù)雜專項(xiàng)任務(wù)、收獲商業(yè)成功的第二道壁壘。

      所以,很多模廠都希望模型通過(guò)持續(xù)學(xué)習(xí),來(lái)不斷吸收新知識(shí),這又帶來(lái)了新的問(wèn)題——修改核心參數(shù),這可能影響到模型的原有性能,有可能直接崩掉,不work了,這是業(yè)務(wù)的大敵。

      咋辦呢?還是得靠知識(shí)。

      一方面,原本知識(shí)密度就高的大模型,相當(dāng)于人類具備很強(qiáng)的通識(shí)基礎(chǔ),提前了解了很多背景知識(shí),所以泛化能力很強(qiáng),可以在面對(duì)新領(lǐng)域、陌生任務(wù)時(shí),快速學(xué)習(xí)、舉一反三。所以,知識(shí)密度可以讓大模型具備跨領(lǐng)域、自學(xué)習(xí)的能力,通過(guò)“知識(shí)回路”就能學(xué)會(huì)新知識(shí)了。這就減少了人工干預(yù),從而降低了故障率。

      另外,高效、精準(zhǔn)的知識(shí)編輯,可以對(duì)大模型中的知識(shí)進(jìn)行新增、擦除等操作,就可以用很小的代價(jià),實(shí)現(xiàn)模型的迭代升級(jí)。讓模廠在保持模型先進(jìn)性的同時(shí),也不影響到現(xiàn)有業(yè)務(wù)的持續(xù)性。對(duì)于業(yè)務(wù)不能中斷的金融、政務(wù)、電力、工廠等行業(yè)客戶,簡(jiǎn)直不要太有吸引力。

      此外,一些實(shí)際業(yè)務(wù)中,不希望大模型在生成時(shí)說(shuō)出來(lái)的話,比如一些隱私信息,或者有害有毒內(nèi)容、政治偏見(jiàn)等,都需要知識(shí)編輯技術(shù)來(lái)進(jìn)行“祛毒”,精準(zhǔn)地識(shí)別毒性區(qū)域并擦除有毒內(nèi)容,真正做到給大模型“洗腦”。

      由此可見(jiàn),知識(shí)是AI商業(yè)化全流程都必須關(guān)注的。業(yè)界一度有著“得知識(shí)者得天下”的風(fēng)向。有模廠提出了大模型知識(shí)的“摩爾定律”,認(rèn)為大模型的知識(shí)密度,應(yīng)該每隔8個(gè)月就翻一倍,同等知識(shí)量的模型參數(shù)量減半。

      那反過(guò)來(lái)想一想,失知識(shí)者豈不是要失天下了?

      2、平臺(tái)圍城,圍不住草原

      知識(shí)平臺(tái),是人類知識(shí)匯聚的重要渠道,OpenAI、谷歌等海外AI公司都與優(yōu)質(zhì)媒體內(nèi)容平臺(tái)有商業(yè)化合作,用授權(quán)內(nèi)容來(lái)訓(xùn)練自家模型。

      既然如此,為什么我們會(huì)說(shuō),大模型其實(shí)并不擔(dān)心平臺(tái)的“知識(shí)封鎖”呢?

      因?yàn)槿祟愔R(shí)平臺(tái),不再是模型不得不進(jìn)的“圍城”。

      如果說(shuō)原始數(shù)據(jù)是“草”,而知識(shí)是牛奶,那么傳統(tǒng)知識(shí)獲取,是讓機(jī)器“喝的是奶,產(chǎn)的也是奶”。就像20世紀(jì)的專家系統(tǒng),根據(jù)一個(gè)或者多個(gè)專家提供的知識(shí)和經(jīng)驗(yàn),通過(guò)模擬專家的思維過(guò)程,讓機(jī)器能夠解決問(wèn)題。

      這種情況下,實(shí)現(xiàn)機(jī)器智能就必須依賴由人類領(lǐng)域?qū)<,以及專家知識(shí)庫(kù)。要“進(jìn)城”獲取知識(shí),必須給平臺(tái)“城主”交過(guò)路費(fèi)。

      但大模型不一樣的地方,一是“不是必須喝奶,吃草也行”,可以直接從原始數(shù)據(jù)中挖掘知識(shí)、抽取知識(shí)。DeepMind聯(lián)合創(chuàng)始人哈薩比斯曾經(jīng)設(shè)想過(guò),未來(lái)的大模型可以直接從與客觀世界的感知交互過(guò)程中,利用深度學(xué)習(xí)算法來(lái)總結(jié)知識(shí),并直接用于決策。

      二是“不依賴人產(chǎn)奶,自己也行”,通過(guò)數(shù)據(jù)驅(qū)動(dòng)的大規(guī)模自動(dòng)化的知識(shí)獲取,反哺模型。

      ChatGPT、GPT4都具備較強(qiáng)的知識(shí)圖譜建構(gòu)能力,按照要求抽取知識(shí),正確率可以達(dá)到88%,這種“生產(chǎn)效率”可比人類寫(xiě)論文、在問(wèn)答平臺(tái)“謝邀,剛下飛機(jī),答一下”,要快得多。

      更進(jìn)一步,業(yè)界還在研究能夠大規(guī)模編碼和處理各種知識(shí)表示結(jié)構(gòu)的大型知識(shí)模型(Large Knowledge Model)。從LLM到LKM,對(duì)現(xiàn)有人類知識(shí)的依賴越來(lái)越低了。

      所以,是否收錄基于人類知識(shí)的平臺(tái)內(nèi)容,其實(shí)對(duì)大模型訓(xùn)練來(lái)說(shuō),影響已經(jīng)很小了。

      “吃的是草,吐的是奶”的模型,可以在大數(shù)據(jù)的曠野上生存,并不一定要進(jìn)知識(shí)平臺(tái)這座“圍城”,“關(guān)門”也就關(guān)門吧。

      所以我們看到的后續(xù)就是,秘塔AI搜索在收到知網(wǎng)的函件之后,表示“學(xué)術(shù)”版塊僅收錄了論文的文獻(xiàn)摘要和題錄,并未收錄文章內(nèi)容本身。而且還主動(dòng)“斷鏈”,不再收錄知網(wǎng)文獻(xiàn)的題錄及摘要數(shù)據(jù),轉(zhuǎn)而收錄其他中英文權(quán)威知識(shí)庫(kù)的文獻(xiàn)題錄及摘要數(shù)據(jù)。類似的,被知乎以亂碼干擾的谷歌搜索、微軟必應(yīng)搜索,模型能力依然*。

      3、知識(shí)封鎖,到底鎖住了誰(shuí)?

      那么,知識(shí)平臺(tái)的反應(yīng),難道是過(guò)度反應(yīng)、虛空索敵嗎?平臺(tái)究竟想“鎖”住什么,恐怕才是值得關(guān)注的真問(wèn)題。

      首先,沒(méi)必要利用人類知識(shí)來(lái)訓(xùn)練模型,并不是說(shuō)大模型廠商就一定不會(huì)侵權(quán)。

      目前,全球模廠都面臨高質(zhì)量語(yǔ)料匱乏的隱憂,數(shù)據(jù)焦渴之下,在未授權(quán)的情況下,用到有知識(shí)產(chǎn)權(quán)的數(shù)據(jù)是可能發(fā)生的。

      在某次采訪中,OpenAI的CTO就對(duì)“視頻訓(xùn)練數(shù)據(jù)是否來(lái)自YouTube等公開(kāi)網(wǎng)站”等問(wèn)題避而不談。此前,《紐約時(shí)報(bào)》曾因商談“內(nèi)容付費(fèi)”沒(méi)有成效,將OpenAI和微軟告上法庭,指控他們未經(jīng)授權(quán)就使用該機(jī)構(gòu)的數(shù)百萬(wàn)篇文章來(lái)訓(xùn)練AI模型。

      而前不久,微軟就與學(xué)術(shù)出版商Taylor & Francis簽署了一項(xiàng)價(jià)值1000萬(wàn)美元的協(xié)議,允許微軟訪問(wèn)其數(shù)據(jù)來(lái)改進(jìn)AI系統(tǒng)。

      由此可見(jiàn),雖然AI領(lǐng)域的知識(shí)產(chǎn)權(quán)問(wèn)題仍然有很多盲區(qū),但與知識(shí)平臺(tái)達(dá)成版權(quán)合作,應(yīng)該被模廠及其客戶,納入AI合規(guī)和持續(xù)性經(jīng)營(yíng)的考量中。

      此外,即使侵權(quán)問(wèn)題并不存在,但價(jià)值沖擊也會(huì)發(fā)生。

      具體來(lái)說(shuō),AI搜索等新一代AI產(chǎn)品,對(duì)知識(shí)平臺(tái)的沖擊有兩方面:

      一是流量?jī)r(jià)值沖擊。盡管秘塔AI搜索聲明中提到,向用戶提供的是知網(wǎng)的學(xué)術(shù)文獻(xiàn)題錄及摘要數(shù)據(jù),用戶要進(jìn)一步瀏覽正文,要通過(guò)來(lái)源鏈接跳轉(zhuǎn)至網(wǎng)站獲取。但搜索引擎將觸角伸到網(wǎng)站,用戶就會(huì)減少訪問(wèn)與站內(nèi)搜索,從而影響平臺(tái)的流量和潛在收益,類似于微信此前阻止百度搜索到公眾號(hào)內(nèi)容一樣。

      二是知識(shí)價(jià)值沖擊。基于大模型的AI搜索具備總結(jié)、生成等能力,而由于模型可能存在“過(guò)擬合”問(wèn)題,也就是AI自己“腦補(bǔ)”,最終可能輸出給用戶的內(nèi)容與原文高度一致,沒(méi)直接侵權(quán)但勝似侵權(quán)。

      此前就有很多小說(shuō)作者發(fā)現(xiàn),模型生成的故事大綱與走向與自己寫(xiě)的高度類似,懷疑云文檔被用來(lái)訓(xùn)練AI模型,但極有可能是AI跟人類作者“撞腦”了。

      大模型經(jīng)濟(jì)的核心價(jià)值,是知識(shí)的創(chuàng)造與分發(fā)。

      一位朋友說(shuō),“以前有問(wèn)題,我會(huì)上網(wǎng)問(wèn)知乎,但有些問(wèn)題我不想讓公眾知道,以后我就問(wèn)基礎(chǔ)大模型+領(lǐng)域知識(shí)+AI Agent打造的專業(yè)bot,一次到位”。Perplexity CEO曾明確說(shuō)過(guò),“我們想成為世界上最以知識(shí)為中心的公司”,秘塔AI搜索經(jīng)常被比作中國(guó)的Perplexity。

      可以看到,即使沒(méi)有侵權(quán)糾紛,AI企業(yè)及產(chǎn)品,也與知識(shí)平臺(tái),在商業(yè)層面形成了直接的替代和競(jìng)爭(zhēng)關(guān)系。

      失知識(shí)者失天下,從這個(gè)角度來(lái)說(shuō),的確成立。

      大模型在數(shù)據(jù)曠野上狂飆突進(jìn),知識(shí)平臺(tái)能否靠“關(guān)門上鎖”來(lái)守住核心價(jià)值呢?或許大家心中已經(jīng)有答案。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。