文|元宇宙日爆,作者|凱蒂,編輯|文刀
“現(xiàn)在是訴訟時間。”4月20日,推特被微軟踢出其數(shù)字營銷平臺后,新掌門人馬斯克立馬發(fā)推回擊稱,微軟用推特的數(shù)據(jù)做“非法訓練”。這一懟,直接揭開了AI大模型開發(fā)商與數(shù)據(jù)源的利益之爭。
此前,在線社區(qū)論壇Reddit與程序員社區(qū)Stack Overflow先后宣布,將向使用平臺API訓練數(shù)據(jù)的公司收費;環(huán)球音樂集團直接表示,將阻止AI從其版權(quán)歌曲中抓取歌手的聲音。
在此之前,AI大模型開發(fā)商都在低成本地使用互聯(lián)網(wǎng)公開的內(nèi)容數(shù)據(jù)訓練自家的大模型,如今,各種科技巨頭們加持的大模型紛紛開始商業(yè)化,互聯(lián)網(wǎng)內(nèi)容平臺們突然反應(yīng)過來,不能讓這些巨頭們薅羊毛“白嫖”數(shù)據(jù)了。
當推特將API收費門檻擺在微軟面前時,AI大模型訓練要給付的成本就不止芯片算力和研發(fā)算法的人才了,現(xiàn)在還要加上“為數(shù)據(jù)付費”。
馬斯克直懟微軟“非法訓練”
“他們非法使用推特的數(shù)據(jù)進行訓練,F(xiàn)在是訴訟時間。” 4月20日,“宇宙頂流”馬斯克直接在推特上明示要告微軟。他以推特CEO的身份親自下場,以此直懟微軟把推特踢出Microsoft Digital Marketing Center(微軟數(shù)字營銷中心)的做法。
這個“中心”是干嘛的呢?它其實是微軟利用大數(shù)據(jù)和AI技術(shù)開發(fā)的一個廣告和營銷的管理平臺,聚合了包括推特、臉書、Ins等海外所有主流的社交平臺,方便企業(yè)主們在一個平臺上完成廣告和營銷活動的推送,還能管理各種賬號、分析推流數(shù)據(jù)。你刷微博、微信朋友圈時突然冒出的廣告,就有類似微軟這種工具的貢獻。
微軟這個數(shù)字營銷中心能實現(xiàn)這些功能,很重要的一環(huán)是接入了這些社交平臺的API,這是企業(yè)主推送廣告、分析數(shù)據(jù)的基礎(chǔ)。
結(jié)果,馬斯克收購推特后,直接把推特API的企業(yè)套餐初始訂閱費用定為4.2萬美元/月,折合人民幣28.9萬元,以這個價格能獲得2500萬條推文,一條差不多1塊多錢了。如果每月支付12.5萬美元,能獲得 1 億條推文,后續(xù)還會按照使用量加錢。
推特API的新收費標準直接勸退了不少小公司,連財大氣粗的微軟數(shù)字營銷中心都直言“要價太高”,于是,直接把推特踢出了管理庫。這意味著,借助微軟這個平臺執(zhí)行廣告和營銷計劃的廣告主們,沒法在推特上搞投放了。
原本這是企業(yè)主、分發(fā)平臺、渠道商之間的廣告業(yè)內(nèi)事,馬斯克跳出來了,直指微軟用推特的數(shù)據(jù)搞非法訓練。
馬斯克稱微軟用推特數(shù)據(jù)“非法訓練”
誰都知道,爆火的ChatGPT背后有微軟的資本加持。而馬斯克和GPT大模型的開發(fā)方OpenAI不僅淵源頗深,還積怨許久。
2015年,馬斯克與Sam Altman等6人共同創(chuàng)立OpenAI人工智能實驗室,致力于建設(shè)開源的、研發(fā)人工智能的非營利機構(gòu),來抗衡當時在人工智能領(lǐng)域大有一家獨大之勢的谷歌。為此,馬斯克捐了1億美元,承諾未來繼續(xù)捐9億。結(jié)果不到2年,馬斯克就退出了OpenAI董事會,這里既有燒錢開發(fā)大模型短期沒燒出成果的問題,也有馬斯克和Altman對OpenAI的管理權(quán)之爭。
馬斯克退出1年后,即2019年3月,OpenAI成立子公司OpenLP,將其定位為“有限營利機構(gòu)”,重組后的OpenAI很快拿到了來自微軟的10億美元投資。誰也沒想到又一個3年過去后, OpenAI站上了全球科技舞臺的最前沿。
ChatGPT爆火后,當初為OpenAI掏過錢、站過臺的馬斯克頻頻表達怨念。
2月17日,馬斯克發(fā)推指稱OpenAI從開源、非營利變成了微軟控制的“閉源、追求利益最大化”的公司;后來還多次在公開場合強調(diào)人工智能對人類社會的潛在危害,甚至認為“風險比飛機、汽車、毒品更大”;3月29日,那封科技大佬聯(lián)署簽名“暫停AI巨型實驗”的公開信上,他也第一時間簽名表態(tài)。
馬斯克為人工智能的健康發(fā)展操碎了心,看上去,這位將巨型載人飛船送入太空的現(xiàn)實版“鋼鐵俠”似乎不打算跟風人工智能了。
然而,4月17日,馬斯克在媒體采訪中披露,將推出一款生成式AI大模型TruthGPT。很快就有媒體爆料,馬斯克買了1萬個英偉達A100芯片。這是AI大模型訓練的重要硬件。
撕微軟非法訓練數(shù)據(jù),懟OpenAI變成逐利公司,無論馬斯克如何批評這兩家公司,這下也難掩他對人工智能的興趣了。左手攔下推特數(shù)據(jù)低成本外流,右手高價囤芯片,在AI大模型賽道上,馬斯克開始跑馬圈地。
多平臺API擬收費,AI訓練成本被推高
不過,最近要向AI大模型開發(fā)商們收取API費用的平臺不止推特。
4月18日,海外最大的社區(qū)論壇Reddit宣布,將向使用其API做數(shù)據(jù)訓練的公司收取數(shù)據(jù)使用費。Reddit暫未公布具體收費標準,業(yè)內(nèi)推測,Reddit很可能會按數(shù)據(jù)數(shù)量分等級收費,這也是業(yè)內(nèi)的常規(guī)做法。此外,程序員問答網(wǎng)站Stack Overflow也計劃向AI巨頭收取訓練數(shù)據(jù)費用。
要知道,研發(fā)AI大模型,算法、算力和算據(jù)這“三算”缺一不可。以O(shè)penAI訓練GPT-3.5為例,這個模型容納了多達45TB的文本語料,這些語料既包括書籍期刊等出版物的內(nèi)容,也包括社交平臺、問答網(wǎng)站、論壇小組等在線數(shù)據(jù)中的用戶生成內(nèi)容。而從OpenAI的公開信息看,該公司并沒有提及獲取線上數(shù)據(jù)是否支付過費用。用“爬蟲”爬、和第三方合作、以及購買都有可能是OpenAI 獲得數(shù)據(jù)的方式。
此前,各個生成式大模型似乎都在沒啥限制地使用互聯(lián)網(wǎng)上的公開內(nèi)容,影響大模型性能的要素就集中在算法和算力差異上。從推特、Reddit等平臺明確為API收費后,大模型開發(fā)商自在地使用數(shù)據(jù)的好日子到頭了。
2019年之前,OpenAI是非營利機構(gòu),如今,ChatGPT都有Plus收費版了,更別提該公司還開通了API的付費渠道。當前,OpenAI的估值接近300億美元,研究機構(gòu)PitchBook預測,該公司今年的收入將達到2億美元,明年會翻五番。
社交平臺們明確API收費,劍指大模型開發(fā)商,雙方也正式變成了“商業(yè)對商業(yè)”的關(guān)系,收費與付費實屬正常。這也意味著,AI大模型成為科技巨頭們狂卷的賽道后,像Reddit這樣的海量內(nèi)容平臺將增加商業(yè)來源,數(shù)據(jù)將成為重要要素。
以成立于2008年的Reddit為例,它是全球互聯(lián)網(wǎng)中最有活力的社區(qū)之一,目前日活達到3.3億,大量的用戶創(chuàng)建了超過14萬個活躍社區(qū),帖子總量超3.6億。尤其在很多小眾領(lǐng)域,Reddit論壇貢獻了很多有價值的討論內(nèi)容。換句話說,Reddit提供了英語互聯(lián)網(wǎng)中最重要的語料庫。
OpenAI的CEO Sam Altman也表示,公司在積極與內(nèi)容公司進行合作,并愿意“為高質(zhì)量數(shù)據(jù)支付高價”。
盡管Altman宣稱“目前沒在訓練GPT-5”,但OpenAI應(yīng)該不會停下數(shù)據(jù)訓練的腳步,因為GPT-4仍有很多需要打磨的地方,比如通識知識的準確性、對人類語言的理解進化等等,這些仍然需要語料數(shù)據(jù)的持續(xù)投入。
放眼全球,研究AI大模型的公司還不止OpenAI一家,海外有谷歌,國內(nèi)有百度、華為、阿里?梢灶A見,切入大模型賽道的公司,都將面對數(shù)據(jù)所有者的收費關(guān)卡,訓練成本將水漲船高。另一個值得深思的問題是,Twitter也好,Reddit也罷,他們手握數(shù)據(jù)向大模型開發(fā)公司收取價格不菲的費用,那么,為這些平臺貢獻了海量內(nèi)容和數(shù)據(jù)的用戶又得到了什么?
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
京東11.11采銷直播探廠為消費者揭開答案。近日,京東3C數(shù)碼采銷走進武漢攀升工廠、合肥聯(lián)想工廠和科大訊飛展廳,通過直播帶貨廠商爆款產(chǎn)品,并為消費者帶來超值低價與福利。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。