宏景智駕完成數(shù)億元C輪融資植物生長好幫手:廣明源金線蓮組培燈照亮生長每一步ROG純白系列DIY好物:簡(jiǎn)約不失高雅,買它準(zhǔn)沒錯(cuò)!穩(wěn)扎穩(wěn)打,中影光峰4K 14米 VLED LED電影屏通過DCI認(rèn)證并投入市場(chǎng)安吉爾空間大師亮相IFA 斬獲年度創(chuàng)新產(chǎn)品成果大獎(jiǎng)電動(dòng)自行車強(qiáng)制性“國標(biāo)”再修訂,綠源電動(dòng)車以創(chuàng)新技術(shù)引領(lǐng)產(chǎn)業(yè)高質(zhì)量發(fā)展輕松籌:十年深耕大健康領(lǐng)域,打造全方位健康保障生態(tài)面對(duì)承壓的小家電市場(chǎng),小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營收比超5%,科沃斯、石頭科技升高技術(shù)壁壘激光顯示全面“向新”發(fā)展,未來激光電視主機(jī)僅有iPad大小2024年冷年空調(diào)市場(chǎng)總結(jié):規(guī)模下探,結(jié)構(gòu)降級(jí),空調(diào)行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學(xué)能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經(jīng)典配色!索尼發(fā)布30周年紀(jì)念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動(dòng)能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機(jī)型蓄勢(shì)待發(fā)云天勵(lì)飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充
  • 首頁 > 云計(jì)算頻道 > 大模型

    科技云報(bào)道:AI大模型終于走到了數(shù)據(jù)爭(zhēng)奪戰(zhàn)

    2023年09月04日 15:17:36   來源:科技云報(bào)道

      當(dāng)前,大模型正處在產(chǎn)業(yè)落地前期,高質(zhì)量的數(shù)據(jù),是大模型實(shí)現(xiàn)產(chǎn)業(yè)化的關(guān)鍵要素。

      最近,一項(xiàng)來自Epoch AI Research團(tuán)隊(duì)的研究拋出了一個(gè)殘酷的事實(shí):模型還要繼續(xù)做大,數(shù)據(jù)卻不夠用了。

      研究人員預(yù)測(cè)了2022年至2100年間可用的圖像和語言數(shù)據(jù)總量,并據(jù)此估計(jì)了未來大模型訓(xùn)練數(shù)據(jù)集規(guī)模的增長趨勢(shì)。

      結(jié)果表明:高質(zhì)量的語言數(shù)據(jù)存量將在2026年耗盡,低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在2030年至2050年、2030年至2060年枯竭。

      這意味著,如果數(shù)據(jù)效率沒有顯著提高或有新的數(shù)據(jù)源可用,那么到2040年,模型的規(guī)模增長將放緩。

      對(duì)數(shù)據(jù)端的建設(shè)該重視起來了。

      高質(zhì)量數(shù)據(jù)成“搶手貨”

      隨著全球新一輪AI熱潮來臨,大量訓(xùn)練數(shù)據(jù)已成為AI算法模型發(fā)展和演進(jìn)的“燃料”。

      從GPT的實(shí)驗(yàn)發(fā)現(xiàn),隨著模型參數(shù)量的增加,模型性能均得到不同程度的提高。

      但值得注意的是,通過來自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)生成的InstructGPT模型,比100倍參數(shù)規(guī)模無監(jiān)督的GPT-3模型效果更好,也說明了有監(jiān)督的標(biāo)注數(shù)據(jù)是大模型應(yīng)用成功的關(guān)鍵之一。

      如果以上預(yù)測(cè)是正確的,那么毫無疑問數(shù)據(jù)將成為做模型繼續(xù)做大的主要制約因素,AI的進(jìn)展也會(huì)隨著數(shù)據(jù)量的耗盡而放緩。

      阿里巴巴達(dá)摩院基礎(chǔ)視覺團(tuán)隊(duì)負(fù)責(zé)人趙德麗博士曾在采訪中表示,數(shù)據(jù)側(cè)的建設(shè)將會(huì)成為每一個(gè)做大模型工作的機(jī)構(gòu)必須要考慮的問題,大模型有多少能力,往往取決于有什么樣的數(shù)據(jù)。

      據(jù)趙德麗博士介紹,與文生圖大模型相比,做文生視頻大模型要難得多,原因就在于視頻數(shù)據(jù)的數(shù)量遠(yuǎn)比不上文本和圖像,更不要談數(shù)據(jù)的質(zhì)量了。相應(yīng)地,目前已有的文生視頻模型的效果都不盡如人意。

      結(jié)合上述研究結(jié)果,如果當(dāng)下的趨勢(shì)繼續(xù)下去,人類現(xiàn)有的數(shù)據(jù)庫存一定會(huì)耗盡,而且高質(zhì)量的數(shù)據(jù)會(huì)更少。

      正因如此,一場(chǎng)數(shù)據(jù)爭(zhēng)奪戰(zhàn)正在拉開序幕。

      目前,Adobe利用其數(shù)以億計(jì)的庫存照片數(shù)據(jù)庫構(gòu)建了自己的人工智能工具套件,名為Firefly。自3月份發(fā)布以來,F(xiàn)irefly已被用于創(chuàng)建超過10億張圖像,而Adobe股價(jià)已因此上漲了36%。

      一些初創(chuàng)公司也正在蜂擁至這個(gè)新領(lǐng)域。今年4月,專注于人工智能的數(shù)據(jù)庫公司W(wǎng)eaviate融資5000萬美元,估值達(dá)到2億美元。

      僅僅一周后,其競(jìng)爭(zhēng)對(duì)手PineCone就以7.5億美元的估值籌集了1億美元資金。

      本月早些時(shí)候,另一家數(shù)據(jù)庫初創(chuàng)公司Neon也獲得了4600萬美元的融資。

      在國內(nèi),百度智能云近期也升級(jí)了大模型數(shù)據(jù)服務(wù)能力,建設(shè)了國內(nèi)首個(gè)專業(yè)大模型數(shù)據(jù)標(biāo)注基地。百度智能云方面表示,目前已經(jīng)在全國與各地政府合作,共建了10多個(gè)數(shù)據(jù)標(biāo)注基地。

      顯然,對(duì)數(shù)據(jù)的爭(zhēng)奪才剛剛開始。

      數(shù)據(jù)標(biāo)注再次迎來爆發(fā)

      AI大模型帶來了大量需求,與之相伴的是中國數(shù)據(jù)標(biāo)注行業(yè)的迅速發(fā)展。

      招商證券認(rèn)為,一方面,進(jìn)入大數(shù)據(jù)時(shí)代后,人們各種行為的電子化、網(wǎng)絡(luò)化帶來海量數(shù)據(jù),但產(chǎn)生的數(shù)據(jù)只有1%能被收集和保存,并且收集的數(shù)據(jù)中90%是非結(jié)構(gòu)化的數(shù)據(jù);另一方面,人工智能的興起帶來模型訓(xùn)練所用結(jié)構(gòu)化數(shù)據(jù)的巨大需求,數(shù)據(jù)標(biāo)注的重要性逐漸突顯。

      有業(yè)內(nèi)人士認(rèn)為,預(yù)計(jì)今年10月國內(nèi)會(huì)迎來一波大的類chatGPT大模型的數(shù)據(jù)需求,而且這是一個(gè)海量的需求,以目前國內(nèi)幾家頭部數(shù)據(jù)標(biāo)注公司來看,目前產(chǎn)能還不足以滿足需求。

      艾瑞咨詢數(shù)據(jù)顯示,包括數(shù)據(jù)采集、數(shù)據(jù)處理(標(biāo)注)、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘等模塊在內(nèi)的AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng),將在未來數(shù)年內(nèi)持續(xù)增長。

      到2025年,國內(nèi)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)的整體規(guī)模預(yù)計(jì)將達(dá)到101.1億元,整體市場(chǎng)增速將達(dá)到31.8%(2024-2025年)。

      據(jù)iResearch數(shù)據(jù),2019年我國數(shù)據(jù)標(biāo)注市場(chǎng)規(guī)模為30.9億元,預(yù)計(jì)2025年市場(chǎng)規(guī)模突破100億元,年復(fù)合增長率達(dá)到14.6%。

      隨著數(shù)據(jù)量的不斷增長和數(shù)據(jù)結(jié)構(gòu)的不斷變化,數(shù)據(jù)標(biāo)注行業(yè)涉及的領(lǐng)域也越來越廣泛,特別是在自動(dòng)駕駛、AIGC等領(lǐng)域內(nèi),數(shù)據(jù)標(biāo)注需求量極大。

      作為AI大語言模型高質(zhì)量回答的基礎(chǔ),數(shù)據(jù)標(biāo)注的生產(chǎn)過程主要包括四個(gè)環(huán)節(jié):設(shè)計(jì)(訓(xùn)練數(shù)據(jù)集結(jié)構(gòu)設(shè)計(jì))、采集(獲取原料數(shù)據(jù))、加工(數(shù)據(jù)標(biāo)注)及質(zhì)檢(各環(huán)節(jié)數(shù)據(jù)質(zhì)量、加工質(zhì)量檢測(cè))。

      其中,數(shù)據(jù)標(biāo)注需要識(shí)別圖像、文本、視頻等原始數(shù)據(jù),并添加一個(gè)或多個(gè)標(biāo)簽為機(jī)器學(xué)習(xí)模型指定上下文,幫助其做出準(zhǔn)確的預(yù)測(cè)。

      當(dāng)前,大部分?jǐn)?shù)據(jù)標(biāo)注任務(wù)仍然需要人工完成,而且各種數(shù)據(jù)類型和應(yīng)用領(lǐng)域都需要相應(yīng)領(lǐng)域的專業(yè)標(biāo)注員來完成標(biāo)注任務(wù)。

      隨著技術(shù)的發(fā)展,數(shù)據(jù)標(biāo)準(zhǔn)行業(yè)正在成為半人工智能、半人工化的行業(yè)。

      面對(duì)大語言模型動(dòng)輒上百億參數(shù)的數(shù)據(jù)質(zhì)量控制,需要通過標(biāo)注平臺(tái)將一個(gè)個(gè)復(fù)雜RLHF需求拆成很多個(gè)簡(jiǎn)單的工作流,讓機(jī)器去做預(yù)處理,人去做深層的基于理解的反饋,以減少人在簡(jiǎn)單問題上的精力消耗,專注在專業(yè)問題上的標(biāo)注。

      業(yè)內(nèi)一般采用主動(dòng)質(zhì)檢加被動(dòng)質(zhì)檢的方式,前者靠人為去做質(zhì)檢,后者是靠算法去做一些預(yù)識(shí)別。

      但目前數(shù)據(jù)標(biāo)注工具的準(zhǔn)確率部分僅百分之幾,部分準(zhǔn)確率則可以達(dá)到80%、90%。機(jī)器標(biāo)注的識(shí)別率越高,人工需求就會(huì)越少,成本、利潤、速度、質(zhì)量都能更加可控。

      隨著技術(shù)不斷發(fā)展,未來數(shù)據(jù)標(biāo)注行業(yè)可能會(huì)實(shí)現(xiàn)更高的自動(dòng)化程度,不過應(yīng)用領(lǐng)域不同,仍然需要一定數(shù)量的標(biāo)注人員來進(jìn)行標(biāo)注任務(wù)。

      傳統(tǒng)數(shù)據(jù)標(biāo)注亟待升級(jí)

      值得注意的是,在如今火爆的大模型訓(xùn)練浪潮中,傳統(tǒng)的數(shù)據(jù)標(biāo)注需求,很可能是下降的。

      讓ChatGPT更具有“人味”的關(guān)鍵——強(qiáng)人工反饋RLHF,帶來的是另一種更高要求的數(shù)據(jù)標(biāo)注需求。

      相關(guān)分析顯示,在RLHF環(huán)節(jié),模型首先在大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,再與專業(yè)的人工智能訓(xùn)練師進(jìn)行交互,專業(yè)的標(biāo)注人員會(huì)對(duì)ChatGPT生成的回答進(jìn)行標(biāo)注、評(píng)估和反饋,給出一個(gè)針對(duì)回答的分?jǐn)?shù)或者標(biāo)簽。

      這些標(biāo)注數(shù)據(jù)可以作為強(qiáng)化學(xué)習(xí)過程中的“獎(jiǎng)勵(lì)函數(shù)”來指導(dǎo)ChatGPT的參數(shù)調(diào)整,最終幫助模型進(jìn)行強(qiáng)化學(xué)習(xí)和不斷優(yōu)化。

      也就是說,讓ChatGPT“更具人味兒”的精妙之處很可能就在于——它可以利用人工標(biāo)注的反饋結(jié)果不斷優(yōu)化自身模型,實(shí)現(xiàn)更合乎人類思維邏輯的表達(dá)。

      但傳統(tǒng)數(shù)據(jù)標(biāo)注模式很難滿足RLHF的需求。

      在過去,數(shù)據(jù)標(biāo)注公司的主流商業(yè)模式以銷售工具系統(tǒng)和標(biāo)注服務(wù)為主。一方面,缺少自有數(shù)據(jù)很少有出售精準(zhǔn)數(shù)據(jù)集的服務(wù)。另一方面,人才升級(jí)作為一個(gè)系統(tǒng)工程,對(duì)數(shù)據(jù)標(biāo)注公司的考驗(yàn)更高。

      在完成這一步后,RLHF訓(xùn)練還涉及到不少事實(shí)判斷和價(jià)值判斷。其中,價(jià)值判斷涉及到公認(rèn)的"公序良俗",理論上是更容易拉齊AI認(rèn)知的部分,事實(shí)判斷則涉及各行業(yè)Know-How。

      這往往需要行業(yè)專業(yè)人士出手,不是傳統(tǒng)數(shù)據(jù)標(biāo)注員,簡(jiǎn)單針對(duì)詞性、圖片細(xì)節(jié)進(jìn)行標(biāo)注就能實(shí)現(xiàn)的。

      也就是說,要跟上新一代AI浪潮,數(shù)據(jù)標(biāo)注公司不僅需要在數(shù)據(jù)層面進(jìn)行升級(jí),人才的更新?lián)Q代同樣重要。

      目前的確已有標(biāo)注公司開始在內(nèi)部撰寫《人員提升教程》,他們將在接下來重點(diǎn)培訓(xùn)標(biāo)注人員對(duì)“升級(jí)后”的標(biāo)注需求理解,以及回答方式的合規(guī)性等。

      但是,在專業(yè)壁壘非常高的醫(yī)療等領(lǐng)域,數(shù)據(jù)標(biāo)注仍面臨著人才困境。

      某數(shù)據(jù)標(biāo)注公司運(yùn)營負(fù)責(zé)人曾表示,“特別是醫(yī)療,有些是普通人經(jīng)過培訓(xùn)可以標(biāo)的,有的必須要醫(yī)療從業(yè)者,這背后的人才招聘難度可想而知。”

      但即便困難重重,也不意味著數(shù)據(jù)標(biāo)注公司會(huì)立馬進(jìn)行一波洗牌——至少,在大模型訓(xùn)練的幾個(gè)階段內(nèi),初始階段的半監(jiān)督學(xué)習(xí)同樣對(duì)傳統(tǒng)數(shù)據(jù)標(biāo)注存在需求。

      面對(duì)大模型和RLHF的機(jī)遇,重現(xiàn)大規(guī)模投入似乎在所難免。

      有業(yè)內(nèi)人士認(rèn)為,如果數(shù)據(jù)標(biāo)注公司期望在垂直領(lǐng)域做更高層級(jí)的數(shù)據(jù)服務(wù),可能要成立一個(gè)全新的產(chǎn)品線。甚至,具備AI研發(fā)背景的創(chuàng)始人會(huì)是更合適的數(shù)據(jù)標(biāo)注創(chuàng)業(yè)者。

      面對(duì)新一代AI浪潮,沒有人可以躺著掙錢——這是每一次技術(shù)迭代沖擊背后,暗中標(biāo)注好的“價(jià)格”。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。