合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運(yùn)行時安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗(yàn)全面升級機(jī)器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機(jī)器也能說人話了?
  • 給AI當(dāng)「奶媽」,是天涯們的生路嗎?

    2024年04月15日 16:41:09   來源:字母榜

      老牌中文社區(qū)天涯已經(jīng)住進(jìn)“ICU”整整一年,破產(chǎn)看來已經(jīng)注定,但最近一家美國同行搭上AI 快車的消息,又給天涯帶來了一絲希望。

      去年4月,因拖繳數(shù)據(jù)機(jī)房費(fèi)用,天涯社區(qū)遭“斷網(wǎng)”。

      癥結(jié)在缺錢。天涯社區(qū)稱,危機(jī)來自于近幾年資金流動性困難加劇,電信IDC欠費(fèi),導(dǎo)致天涯社區(qū)暫停訪問。

      再聽到天涯的消息,是在今年2月底,全國企業(yè)破產(chǎn)重整案件信息網(wǎng)上公開一條“天涯社區(qū)網(wǎng)絡(luò)科技股份有限公司被申請破產(chǎn)審查”的信息。

      盡管天涯方面否認(rèn)即將破產(chǎn)的傳聞,但天涯重見天日的可能性,到底是更加渺茫了。

      在美國,一家式微的老牌內(nèi)容平臺,卻依靠AI的浪潮找到了副業(yè),吃下了熱錢——第三方圖片托管平臺Photobucket,一度擁有7000萬用戶,占據(jù)美國在線照片市場的近一半份額。如今,Photobucket輝煌不再,只有約200萬人還在使用它。

      正所謂“瘦死的駱駝比馬大”,已經(jīng)被大部分人遺忘的Photobucket有之前多年的積累,依然坐擁上百億照片和視頻。而這,正是患上“數(shù)據(jù)饑渴癥”的AI公司最需要的。

      在AI熱潮下,不斷有公司找上門來。以正在進(jìn)行的談判來粗略估計(jì),Photobucket手里掌握的內(nèi)容可能價值數(shù)十億美元。

      有錢但缺數(shù)據(jù)的AI公司,遇上沒錢但積累了海量內(nèi)容的老牌社區(qū),不交易一下才奇怪。

      有意思的是,報道中有一句話在后續(xù)編輯中被刪除:“公司預(yù)計(jì),其*季度營業(yè)陸潤將增長10倍,達(dá)到近49億美元。”

      49億美元是什么概念?

      Photobucket作為一家圖片托管網(wǎng)站,剛開始是免費(fèi)的。在千禧年前后,互聯(lián)網(wǎng)用戶激增,人們或?yàn)榱擞涗浬睿驗(yàn)榱朔窒,樂于將照片上傳到一個專門的網(wǎng)站。而且,在Photobucket上傳了圖片后,人們還可以在其他網(wǎng)站如MySpace直接嵌入,省得反復(fù)上傳。一些賣家也會在eBay或亞馬遜使用Photobucket托管的圖片。

      用這種方式,*時期的Photobucket一度占據(jù)了美國互聯(lián)網(wǎng)流量的2%。

      由免費(fèi)轉(zhuǎn)向付費(fèi),似乎是Photobucket的必經(jīng)之路。不過,Photobucket有點(diǎn)太心急了。2017年時,Photobucket突然將第三方顯示變?yōu)槊磕?99美元的付費(fèi)訂閱服務(wù)。此舉并沒有提前的充分預(yù)警,很多用戶發(fā)現(xiàn)自己在其他網(wǎng)站嵌入的Photobucket圖片都無法展示,變成了“付費(fèi)以解鎖”的提示。

      要知道,Photobucket當(dāng)時已經(jīng)有1億注冊用戶,有約6000萬第三方網(wǎng)站的圖片在此次“升級”下無法正常顯示。在爭議之下,Photobucket次年將年訂閱模式改為可月付的模式,并沿用至今。

      Photobucket也就此走上下坡路。后續(xù)幾年,Photpbucket又經(jīng)歷了服務(wù)中心斷電導(dǎo)致服務(wù)中斷、隱私泄露等“意外”,漸漸從備受歡迎的圖片網(wǎng)站變成了互聯(lián)網(wǎng)邊角料產(chǎn)品。公司規(guī)模也從鼎盛時期的120名員工縮水到了40人。

      目前Photobucket網(wǎng)站提供的付費(fèi)計(jì)劃中,最貴的每月收取8美元。以最新報道透露的200萬用戶在使用Photobucket計(jì)算,哪怕他們?nèi)吭赂?美元,每年也僅能貢獻(xiàn)1.9億美元。而且這對Photobucket來說只是收入,沒有剔除存儲、維護(hù)、運(yùn)營等的各項(xiàng)成本。

      雖然Photobucket在過去二十年損失了不少用戶,但除非用戶注銷,它一直保留著用戶的圖片。即便是在不再支持免費(fèi)賬戶的情況下,Photobucket也明確通知用戶:你的照片還在,只需要現(xiàn)在開始付費(fèi),就能重新看到它們。

      不斷有已經(jīng)棄用Photobucket的用戶在社交媒體上吐槽,稱自己頻繁收到Photobucket“求復(fù)合”的郵件,已經(jīng)不堪其擾。

      既然圖片都在,海量的內(nèi)容還存儲在服務(wù)器上,為什么不用它們賺上一筆?將平臺內(nèi)容授權(quán)給AI公司,獲得49億美元,對Photobucket來說可以算是一筆巨款了。

      為什么AI公司會找上“明日黃花”Photobucket?

      答案很簡單,太缺數(shù)據(jù)了。以O(shè)penAI的GPT系列模型為例,GPT-3使用了3000億的token,GPT-4使用了12萬億的token。而已經(jīng)在路上的GPT-5所需的token量在60萬億到100萬億。

      “規(guī)模即一切”成為AI的戰(zhàn)斗口號;羝战鹚勾髮W(xué)盧綸物理學(xué)家賈里德·卡普蘭(Jared Kaplan)在2020年發(fā)表了一篇關(guān)于AI的開創(chuàng)性論文,其表明訓(xùn)練數(shù)據(jù)越多,大型語言模型的表現(xiàn)越好,就像學(xué)生通過閱讀更多書籍來學(xué)習(xí)更多知識一樣。

      互聯(lián)網(wǎng)上公開可用的數(shù)據(jù)在大模型面前并不是取之不盡的。據(jù)人工智能研究機(jī)構(gòu)Epoch估計(jì),2026年所有高質(zhì)量可用數(shù)據(jù)就有可能被耗盡,互聯(lián)網(wǎng)生產(chǎn)數(shù)據(jù)的速度有可能比不上不斷膨脹的大模型的消耗速度。

      “數(shù)據(jù)饑渴”的AI公司獲取數(shù)據(jù)的路徑,總結(jié)起來就是:免費(fèi)的,直接用;自家的,直接用且不給別人用;可以付費(fèi)的,付費(fèi);付費(fèi)也買不到的,必要時想想辦法弄到手。

      近日,《紐約時報》報道OpenAI曾在訓(xùn)練GPT-4時利用了谷歌旗下YouTube的內(nèi)容。直接取用肯定不行,谷歌不讓啊。于是OpenAI計(jì)上心頭,創(chuàng)建了一個名為Whisper的語音識別工具,將超過100萬小時的YouTube視頻轉(zhuǎn)錄,然后再喂給模型。

      此前,尚未開放給大眾的文本到視頻工具Sora也引起了外界懷疑。在一次采訪中,OpenAI的首席技術(shù)官米拉·穆拉蒂(Mira Murati)沒有正面回應(yīng)“是否使用YouTube、Instagram、Facebook等平臺的內(nèi)容訓(xùn)練Sora”這一問題,她聽到該問題時復(fù)雜的表情甚至成為了互聯(lián)網(wǎng)梗圖。

      YouTube首席執(zhí)行官尼爾·莫漢(Neal Mohan)在4月5日對此表態(tài),稱目前沒有證據(jù)表明OpenAI用了YouTube視頻訓(xùn)練Sora,但如果OpenAI果真這么做了,那“明顯違反”了YouTube平臺的使用條款。

      要是以為YouTube是在努力保護(hù)用戶(或說創(chuàng)作者),可能有點(diǎn)天真。莫漢在采訪中也提到,谷歌確實(shí)用了YouTube上的一些內(nèi)容訓(xùn)練了旗下大模型Gemini。

      另一邊,巨頭Meta的馬克·扎克伯格(Mark Zuckerberg)也將平臺數(shù)據(jù)視為自己的競爭優(yōu)勢。扎克伯格曾直言:“我們戰(zhàn)術(shù)的下一個關(guān)鍵部分是從獨(dú)特的數(shù)據(jù)中學(xué)習(xí)。”“在Facebook和Instagram上,有數(shù)千億張公開分享的圖片和數(shù)百億段公開視頻。”

      在去年怒噴微軟,威脅要起訴其使用X的數(shù)據(jù)訓(xùn)練AI的埃隆·馬斯克(Elon Musk),也悄悄更新了X的隱私政策,表示會使用社交媒體數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)和AI模型。在網(wǎng)友的追問下,馬斯克干脆承認(rèn):“只會用公開信息(訓(xùn)練),不會用私信和任何私人數(shù)據(jù)。”

      有海量UGC(用戶生成內(nèi)容)且自己也做AI的公司,數(shù)據(jù)是不賣的,只給自己用。其他AI公司要么就鋌而走險偷偷用,要么就要去找那些有內(nèi)容但愿意出售的公司。

      ShutterStock和Reddit都是活躍在數(shù)據(jù)交易場上的“大賣家”。

      圖片網(wǎng)站ShutterStock幾乎和所有叫得上名字的AI大公司都合作了個遍,包括但不限于OpenAI、Meta、谷歌、亞馬遜,達(dá)成使用其圖片訓(xùn)練AI的協(xié)議。每筆交易的最初價格從2000萬美元到5000萬美元不等,而且后續(xù)還擴(kuò)大了交易規(guī)模。

      隨著AI浪潮翻涌,“美國貼吧”Reddit意識到自己的數(shù)據(jù)對AI公司至關(guān)重要,且非常寶貴。去年開始,Reddit開始與一系列AIGC領(lǐng)軍企業(yè)展開談判,商議數(shù)據(jù)付費(fèi)使用的問題。說白了就是,不付費(fèi)要授權(quán),休想用這一頭部美國貼吧的內(nèi)容喂AI了。談判陸續(xù)有了進(jìn)展,如今年2月,Reddit就與谷歌達(dá)成協(xié)議,授權(quán)數(shù)據(jù)給其訓(xùn)練AI,合同價值約每年6000萬美元。

      在這樣的態(tài)勢下,Photobucket這樣的老牌社區(qū)被盯上只是時間問題。

      Photobucket的首席執(zhí)行官泰德·倫納德(Ted Leonard)表示,他正在和多家科技公司談判,涉及130億個內(nèi)容(照片和視頻)的授權(quán)。每張照片的授權(quán)價格在5美分到1美元,視頻則為1美元以上。

      一位買家告訴倫納德,他們想要超過10億個視頻,比Photobucket擁有的還多。以現(xiàn)在的談判來看,Photobucket坐擁數(shù)十億美元的內(nèi)容。

      機(jī)智的Photoshop在去年10月更新了其用戶條款,授予平臺“不受限制的權(quán)利”,可以出售任何上傳的內(nèi)容,用于培訓(xùn)AI系統(tǒng)。

      倫納德甚至表示,有望用數(shù)據(jù)授權(quán)替代公司的廣告銷售業(yè)務(wù)。

      繁忙的數(shù)據(jù)交易市場,也許給式微甚至已經(jīng)死亡的UGC平臺提供了一個“副業(yè)”。

      天涯究竟積累了多少內(nèi)容不可知,幾個數(shù)據(jù)可以從側(cè)面一窺其規(guī)模。*時期,天涯的日訪問量曾達(dá)到2000萬。

      在中文社區(qū)的黃金時代,流行著“全民話題,天涯制造”的說法。眾多初代網(wǎng)紅誕生于這里,如芙蓉姐姐、*小月月、犀利哥等。眾多暢銷書孵化于此處,如《鬼吹燈》《明朝那些事兒》《東北往事:黑道風(fēng)云二十年》《法醫(yī)秦明》等等。

      中文論壇對AI訓(xùn)練的用處也正在被關(guān)注。

      一項(xiàng)研究顯示,百度貼吧的“弱智吧”顯現(xiàn)出不俗的數(shù)據(jù)訓(xùn)練效果。

      這項(xiàng)研究由中科院深圳先進(jìn)技術(shù)研究院、中科院自動化研究所、滑鐵盧大學(xué)等眾多高校、研究機(jī)構(gòu)聯(lián)合完成,提出了一個高質(zhì)量的中文指導(dǎo)優(yōu)化數(shù)據(jù)集。研究中用中文指導(dǎo)優(yōu)化數(shù)據(jù)集訓(xùn)練了不同類型和大小的模型,探討了各種數(shù)據(jù)源對模型性能的影響。在測試中,百度貼吧“弱智吧”的得分頗高。

      “弱智吧”聚集了300個成員,并不是真的和智力障礙相關(guān),而是“假裝弱智”,發(fā)表一些燒腦言論。如“如果高中的入學(xué)率不高,為什么不直接錄用大學(xué)生”,或“為什么我爸媽結(jié)婚的時候沒有邀請我”。研究人員猜測,可能是“弱智吧”的問題增強(qiáng)了AI的邏輯推理能力。

      這是全民創(chuàng)作和AI之間碰撞出的火花,社區(qū)內(nèi)容有時能貢獻(xiàn)意想不到的驚喜。

      不過,橫在社區(qū)內(nèi)容和AI之間的,還有用戶。

      就像Photobucket忙不迭地更新用戶條款,中文互聯(lián)網(wǎng)的“內(nèi)容確權(quán)”也一直是個問題。

      一方面,中文互聯(lián)網(wǎng)平臺早已形成了將授權(quán)條款埋入用戶條款里的習(xí)慣。目前所能查到的天涯2017年的《隱私和版權(quán)》協(xié)議中寫明:“用戶發(fā)表并將其上傳到本網(wǎng)站的任何內(nèi)容,本社區(qū)在全世界范圍內(nèi)不限形式和載體地享有*的、不可撤銷的、免費(fèi)的、非*的使用權(quán)和轉(zhuǎn)授權(quán)的權(quán)利,包括但不限于修改、復(fù)制、發(fā)行、展覽、改編、匯編、出版、翻譯、信息網(wǎng)絡(luò)傳播、廣播、表演和在創(chuàng)作及著作權(quán)法等法規(guī)確定的其他權(quán)利。”

      天涯“斷電”后,網(wǎng)絡(luò)上售賣“天涯神帖合集”的生意走俏。天涯曾在重啟公告中稱,關(guān)注到天涯神貼在各大平臺大受歡迎,“計(jì)劃從現(xiàn)在開始發(fā)展一批高級會員,在回復(fù)訪問后的天涯社區(qū)平臺上開辟天涯神貼付費(fèi)專區(qū)”。

      在重啟公告的最后,天涯表示,“無論是預(yù)購一個‘99元天涯神貼服務(wù)’,還是預(yù)購一個‘299元一對一數(shù)據(jù)下載服務(wù)’,都是對天涯重啟非常重要的助力”。文末,天涯附上了購買二維碼。

      另一方面,平臺是否就此有權(quán)將用戶內(nèi)容授權(quán)給其他公司以訓(xùn)練AI,還有待商榷。

      用戶對此頗為警惕。

      在去年,小紅書曾更新用戶條款,在“用戶內(nèi)容及信息授權(quán)”中寫著“您授予xxx公司免費(fèi)的、不可撤銷的、非排他的、無地域限制的許可使用”,并表示“上述許可包括使用、復(fù)制和展示用戶內(nèi)容中受保護(hù)的個人形象、肖像、姓名、商標(biāo)、品牌、標(biāo)識及其他營銷推廣素材、物料的權(quán)利和許可”,加之彼時恰有插畫師質(zhì)疑AI工具涉嫌抄襲,而引發(fā)了插畫師對平臺用自己上傳的作品訓(xùn)練AI的擔(dān)憂,不少插畫師公開抵制,并宣布在該平臺停更。

      如今PhotoBucket首席執(zhí)行官接受采訪,并坦誠平臺與AI公司進(jìn)行授權(quán)協(xié)議,但并不是每個AI公司都對其內(nèi)容放心。

      Defened.ai的首席執(zhí)行官布加拉(Daniela Braga)表示,她避免從Photobucket這樣的平臺公司獲取內(nèi)容,而更喜歡從創(chuàng)作這些照片的原作者那里獲取授權(quán):“我認(rèn)為這非常危險。”“如果有一些AI生成的東西類似于某個從未點(diǎn)頭許可的人的照片,那就有麻煩了。”

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎

    近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。