合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺(tái),同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗(yàn)全面升級(jí)機(jī)器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對(duì)話系統(tǒng)Moshi問世:機(jī)器也能說人話了?
  • 首頁 > 云計(jì)算頻道 > 大模型

    百模征戰(zhàn),如何解決數(shù)據(jù)卡脖子問題?

    2023年08月01日 11:01:44   來源:微信公眾號(hào):數(shù)據(jù)猿

      繼ChatGPT以來,大模型在國內(nèi)掀起了一股熱潮,大有百模征戰(zhàn)之意。而其中數(shù)據(jù)、算法、算力作為大模型訓(xùn)練的三駕馬車,預(yù)訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量、多樣性成為大模型能力表現(xiàn)的關(guān)鍵性因素,數(shù)據(jù)對(duì)于人工智能領(lǐng)域的重要性值得我們重新審視。

      然而,在追求技術(shù)創(chuàng)新的同時(shí),確保數(shù)據(jù)的合法性、隱私保護(hù)和倫理問題的考量也應(yīng)當(dāng)?shù)玫阶銐虻闹匾暋哪壳癆I大模型的發(fā)展來看,數(shù)據(jù)集的爭議在近年來變得越發(fā)常見。由于大規(guī)模訓(xùn)練數(shù)據(jù)集對(duì)于訓(xùn)練強(qiáng)大的AI模型至關(guān)重要,數(shù)據(jù)集的來源和使用問題引發(fā)了一系列的法律和倫理爭議。隨著AI技術(shù)的快速發(fā)展和廣泛應(yīng)用,確保數(shù)據(jù)的合法和透明使用變得尤為重要。

      那么,數(shù)據(jù)作為大模型訓(xùn)練的基礎(chǔ),應(yīng)該如何保障數(shù)據(jù)安全呢?針對(duì)大模型訓(xùn)練,“量”為主還是“質(zhì)”為主呢?針對(duì)目前大模型訓(xùn)練過程中的數(shù)據(jù)問題,又有什么解決辦法?

      01 數(shù)據(jù)成為大模型研發(fā)卡脖子問題

      數(shù)據(jù)集質(zhì)量是大模型研發(fā)中的關(guān)鍵,只有通過高質(zhì)量、多樣性的數(shù)據(jù)集,才能讓大模型展現(xiàn)出真正的智能和創(chuàng)造力。然而,在大模型研發(fā)過程中,使用的數(shù)據(jù)卻成為了其成長之路上的重要阻礙。在國外,因大模型研發(fā)而造成的數(shù)據(jù)糾紛早已出現(xiàn)。

      一群匿名人士在一項(xiàng)集體訴訟中聲稱,ChatGPT的開發(fā)商OpenAI公司正在竊取大量個(gè)人信息,以訓(xùn)練其人工智能模型不顧一切地追逐利潤。這些匿名人士指責(zé)OpenAI從互聯(lián)網(wǎng)上秘密抓取3000億字,竊聽了“書籍、文章、網(wǎng)站和帖子,包括未經(jīng)同意獲得的個(gè)人信息”,違反了隱私法。

      除此之外,國內(nèi)也出現(xiàn)了大模型相關(guān)的數(shù)據(jù)糾紛,其中筆神作文對(duì)學(xué)而思大模型的指控更是再次讓大家關(guān)注到了數(shù)據(jù)對(duì)大模型的重要性。筆神作文表示,學(xué)而思通過“爬蟲”技術(shù)非法訪問、緩存筆神作文APP服務(wù)器數(shù)據(jù)多達(dá)258萬次,嚴(yán)重侵犯了筆神作文APP的數(shù)據(jù)權(quán)益。這一行為不僅違反了雙方的合同條款,也違反了《數(shù)據(jù)安全法》相關(guān)規(guī)定,嚴(yán)重侵犯了筆神作文APP的數(shù)據(jù)權(quán)益。

      對(duì)此,學(xué)而思官方微博發(fā)文回應(yīng)稱:“首先,MathGPT是專注于數(shù)學(xué)領(lǐng)域的自研大模型,沒有任何作文相關(guān)數(shù)據(jù);其次,‘作文AI助手’目前處于開發(fā)狀態(tài),尚未發(fā)布,該服務(wù)并未使用筆神作文的任何數(shù)據(jù)。”

      此外,推特、“美版貼吧”Reddit也在今年上半年相繼宣布對(duì)API接口收費(fèi),且價(jià)格不菲。此前,這些平臺(tái)的內(nèi)容可以被谷歌、OpenAI等公司免費(fèi)爬取,用作大語言模型的訓(xùn)練庫。推特CEO馬斯克曾表示,“他們(微軟)非法利用推特的數(shù)據(jù)來訓(xùn)練,是時(shí)候起訴他們了。”

      隨后,三星也關(guān)注到了這一現(xiàn)象,并推出了一項(xiàng)新政策,要求員工不得在工作場所使用OpenAI的ChatGPT和谷歌Bard等生成式人工智能。據(jù)三星稱,4月時(shí)一名工程師將內(nèi)部源代碼上傳到ChatGPT后,意外泄漏了內(nèi)部源代碼。這讓三星擔(dān)憂其數(shù)據(jù)將通過人工智能平臺(tái)最終落入其他用戶手中。因此,三星員工被禁止在公司設(shè)備上使用人工智能工具,包括電腦、平板電腦、手機(jī)等。但員工仍可以在個(gè)人設(shè)備上使用人工智能工具,不過僅限于與工作無關(guān)的事情。

      數(shù)據(jù)是否已成為大模型訓(xùn)練的卡脖子呢?為此,數(shù)據(jù)猿就相關(guān)問題與業(yè)界專家進(jìn)行了溝通。

      天云數(shù)據(jù)CEO雷濤表示:這個(gè)問題我們要反思到根本:做大模型還是喂大模型?目前,大模型能夠提煉的語料是開放的、共享的和免費(fèi)的。根據(jù)鳳凰網(wǎng)周刊,ChatGPT 中文資料為0.09905%,比重還不足千分之一。如果說蒸汽機(jī)是對(duì)動(dòng)力的封裝和移動(dòng),電是對(duì)能源的封裝和移動(dòng),那么人工智能將是對(duì)知識(shí)的封裝和移動(dòng)。大模型的知識(shí)會(huì)成為以后的基礎(chǔ)設(shè)施,到那個(gè)時(shí)候其“布道”的到底是“圣經(jīng)”還是“諸子百家”,內(nèi)核差異巨大。所以填充大模型語料才是根本的卡脖子問題!1984》里有一句話:“誰控制了過去,誰就控制了未來;誰控制了現(xiàn)在,誰就控制了過去。”這句話應(yīng)用在大模型數(shù)據(jù)上完全切合。

      華院計(jì)算技術(shù)總監(jiān)楊小東博士認(rèn)為,目前大模型卡脖子問題主要集中于兩方面:

      首先,對(duì)于具體行業(yè)內(nèi)公司及解決方案供應(yīng)商來講,高質(zhì)量的行業(yè)數(shù)據(jù)確實(shí)是一個(gè)主要的卡脖子的點(diǎn)。這里二八法則同樣適用,也就是說大模型最終效果如何,80%是由數(shù)據(jù)決定的。通過高質(zhì)量數(shù)據(jù)對(duì)模型進(jìn)行低成本微調(diào)(PEFT),或者結(jié)合Langchain,可以做出各方面體驗(yàn)還不錯(cuò)的行業(yè)大模型。但如果數(shù)據(jù)方面比較薄弱,那就只能基于基底模型本身的能力,做些通用的,不痛不養(yǎng)的場景。

      其次,從大模型的技術(shù)方面來看,為持續(xù)提升提升模型性能以及加快工程化落地,預(yù)訓(xùn)練模型本身的網(wǎng)絡(luò)結(jié)構(gòu)創(chuàng)新、Transformer以及Attention的優(yōu)化、通信庫nccl的優(yōu)化等技術(shù)也是至關(guān)重要的,需要在底層基礎(chǔ)能力研究上進(jìn)行投入,擺脫基礎(chǔ)研究方面跟隨者的地位。

      豐富、多樣的數(shù)據(jù)可以幫助模型更好地理解語言結(jié)構(gòu)、語義關(guān)系和上下文信息。然而,構(gòu)建高質(zhì)量的數(shù)據(jù)集并非易事。

      02 數(shù)據(jù)是大模型訓(xùn)練的基石

      在人工智能領(lǐng)域的百模大戰(zhàn)中,大型語言模型的訓(xùn)練成為了一個(gè)關(guān)鍵的競爭領(lǐng)域。數(shù)據(jù)、算法和算力作為大模型訓(xùn)練的三駕馬車,在這場競爭中發(fā)揮著至關(guān)重要的作用。其中,數(shù)據(jù)集作為大模型訓(xùn)練的基石,對(duì)于模型性能和創(chuàng)新能力具有關(guān)鍵影響,尤其是數(shù)據(jù)質(zhì)量問題更是不可忽視。

      目前,大模型的數(shù)據(jù)一般來自于多個(gè)來源,包括以下幾種:

      其一,公開數(shù)據(jù)集。許多領(lǐng)域都有公開的數(shù)據(jù)集,例如ImageNet、MNIST等圖像數(shù)據(jù)集,Wikipedia等文本數(shù)據(jù)集。這些數(shù)據(jù)集由研究機(jī)構(gòu)、學(xué)者或者公司開放,并且是在特定領(lǐng)域內(nèi)廣泛使用和共享的。公開數(shù)據(jù)集是大部分通用大模型的數(shù)據(jù)集的主要來源。

      其二,合作數(shù)據(jù)分享許多公司、機(jī)構(gòu)和學(xué)者擁有獨(dú)特的數(shù)據(jù)資源,并愿意與其它人合作共享這些數(shù)據(jù)資源,以支持不同領(lǐng)域的研究和應(yīng)用。例如,很多醫(yī)療機(jī)構(gòu)會(huì)收集大量的醫(yī)療影像數(shù)據(jù),這些數(shù)據(jù)可以用于訓(xùn)練圖像分析或者肺癌檢測等任務(wù)。這也正是筆神作文所遇到的事情,雙方雖為合作對(duì)象,但在數(shù)據(jù)引用上出現(xiàn)了分歧。

      其三,大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)。當(dāng)我們使用大型互聯(lián)網(wǎng)公司的產(chǎn)品和服務(wù)時(shí),公司通常會(huì)收集并存儲(chǔ)我們的數(shù)據(jù),包括搜索歷史、瀏覽器記錄、GPS位置、社交網(wǎng)絡(luò)等。這些數(shù)據(jù)可以用來訓(xùn)練大型的語言模型,自然語言處理模型等。國內(nèi)大模型的數(shù)據(jù)來源和自身優(yōu)勢業(yè)務(wù)有較強(qiáng)相關(guān)性,百度作為國內(nèi)搜索引擎的龍頭企業(yè),其大模型產(chǎn)品文心一言的數(shù)據(jù)集來源便主要是網(wǎng)絡(luò)文本、書籍、新聞、社交媒體內(nèi)容、科技論文、語音轉(zhuǎn)錄等,這也是其模型訓(xùn)練的優(yōu)勢之一。

      其四,數(shù)據(jù)眾包。眾包是一種通過向大量的用戶或者工人收集數(shù)據(jù)來解決問題的方法。通過這種方法,可以快速搜集大規(guī)模的數(shù)據(jù)集,例如圖像標(biāo)注、音頻翻譯等任務(wù)。這些數(shù)據(jù)集可以用于訓(xùn)練視覺和語音模型等。

      OpenAI此前披露,為了AI像人類那樣流暢交談,研發(fā)人員給GPT-3.5提供多達(dá)45TB的文本語料,相當(dāng)于472萬套中國“四大名著”。這些語料的來源包括維基百科、網(wǎng)絡(luò)文章、書籍期刊等,甚至還將代碼開源平臺(tái)Github納入其中。

      近期,國內(nèi)AI準(zhǔn)獨(dú)角獸企業(yè)實(shí)在智能的自研垂直領(lǐng)域大語言模型——TARS(塔斯)歷經(jīng)半年研發(fā)后,正式開啟內(nèi)測!對(duì)于其目前訓(xùn)練大模型使用的數(shù)據(jù)集,實(shí)在智能創(chuàng)始人、CEO 孫林君表示,目前的數(shù)據(jù)來源是多方面的,主要包含公開的數(shù)據(jù)集、經(jīng)典的書籍、文檔、知識(shí)內(nèi)容、百科、開源的數(shù)據(jù)集,以及自身業(yè)務(wù)沉淀的數(shù)據(jù),如果是垂直大模型合作企業(yè)會(huì)提供相關(guān)的數(shù)據(jù)集。占的比例來說并不固定,但是肯定是公開的數(shù)據(jù)的量最多,訓(xùn)練數(shù)據(jù)的接入還主要是通過建立數(shù)據(jù)庫的方式。

      近期發(fā)布多款A(yù)IGC產(chǎn)品的HCR慧辰股份CTO、首席數(shù)據(jù)科學(xué)家馬亮博士表示:我們做的是行業(yè)的專業(yè)數(shù)據(jù)分析服務(wù),所以我們訓(xùn)練聚焦于構(gòu)造行業(yè)性AIGC分析模型,對(duì)具體行業(yè)的業(yè)務(wù)智能生成的能力有較高水平要求。因此訓(xùn)練數(shù)據(jù)中來源外部的數(shù)據(jù)很少,主要是來自公司長期各行業(yè)服務(wù)的領(lǐng)域數(shù)據(jù)積累,大都是基于專家生成的業(yè)務(wù)數(shù)據(jù)資源(包括大量的行業(yè)公開數(shù)據(jù)、專業(yè)問卷模板、項(xiàng)目建議書模板、業(yè)務(wù)分析報(bào)告模板等)。目前尚未接入合作企業(yè)的相關(guān)數(shù)據(jù)。

      LF AI&DATA基金會(huì)董事主席堵俊平曾公開表示:“AI大模型就像一個(gè)貪吃的‘怪獸’,始終需要研究人員投喂更多的、質(zhì)量更好的數(shù)據(jù)。”他說,當(dāng)前數(shù)據(jù)幾乎都是從“在網(wǎng)絡(luò)上主動(dòng)收集”“從第三方購買”“利用公開數(shù)據(jù)集”這三個(gè)渠道得來。在堵俊平看來,從*個(gè)渠道得到的數(shù)據(jù)局限性較強(qiáng),由于版權(quán)問題,很多公司只能從其私域獲得數(shù)據(jù);從第二個(gè)渠道獲取的數(shù)據(jù)面臨數(shù)據(jù)定價(jià)、數(shù)據(jù)質(zhì)量等問題;而從第三個(gè)渠道獲取的數(shù)據(jù)往往只能作為研究使用,在商用或者其他方面有很多限制。

      而行業(yè)數(shù)據(jù)更是非常核心的私域數(shù)據(jù),私域數(shù)據(jù)量越大,質(zhì)量越高,就越有價(jià)值。

      就拿本次事件中學(xué)而思所訓(xùn)練的垂直行業(yè)大模型來看,一個(gè)教育公司擁有大量教育資料數(shù)據(jù),那么它就能開發(fā)出教育垂直大模型類的產(chǎn)品。同理,建筑行業(yè)的項(xiàng)目數(shù)據(jù)、金融行業(yè)的用戶畫像數(shù)據(jù)、海運(yùn)行業(yè)的船位數(shù)據(jù)等,都是賦能垂直大模型的關(guān)鍵。

      但是這些私域數(shù)據(jù)都攥在企業(yè)自己手中或者合作伙伴的手中,而且為了數(shù)據(jù)安全和合規(guī),絕大部分機(jī)構(gòu)是要本地化部署才會(huì)嘗試大模型訓(xùn)練,很難想象企業(yè)會(huì)把自己的核心數(shù)據(jù)拿給別人去訓(xùn)練。

      03 從“量”到“質(zhì)”的升級(jí)

      如果說前期大家專注的大模型訓(xùn)練的以“量”為主,到目前,隨著訓(xùn)練的進(jìn)一步提升,在大模型的數(shù)據(jù)訓(xùn)練上,“質(zhì)”將成為之后的必選之路。

      因此,如何合理地給數(shù)據(jù)打上分級(jí)標(biāo)簽、做好標(biāo)注也非常重要。數(shù)據(jù)分級(jí)分類能夠幫助產(chǎn)品提效,而高精度的標(biāo)注數(shù)據(jù)能夠進(jìn)一步提升大模型的專業(yè)表現(xiàn)。但現(xiàn)階段垂直行業(yè)想要獲取高精度標(biāo)注數(shù)據(jù)的成本較高,而在公開數(shù)據(jù)庫中,行業(yè)專業(yè)數(shù)據(jù)也較少,因此對(duì)垂直大模型的建構(gòu)提出了很高的要求。

      針對(duì)目前大模型數(shù)據(jù)集質(zhì)量,商湯科技大裝置研究總監(jiān)何聰輝則表示,大型語言模型對(duì)預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量有很高的要求,這主要體現(xiàn)在流暢性、干凈性、知識(shí)密集性、安全性。訓(xùn)練數(shù)據(jù)需要包含大量的正確語法和語義,以使模型能夠理解并生成符合語言規(guī)則的文本。流暢性直接影響到模型生成的文本是否通順、易讀。干凈性是指預(yù)訓(xùn)練數(shù)據(jù)應(yīng)該是干凈、準(zhǔn)確的,不包含錯(cuò)誤、噪聲或不一致的信息。模型在訓(xùn)練過程中會(huì)學(xué)習(xí)到數(shù)據(jù)中的模式和特征,如果數(shù)據(jù)質(zhì)量不高,可能會(huì)導(dǎo)致模型生成的文本出現(xiàn)錯(cuò)誤、不準(zhǔn)確的情況。安全性也是非常重要的一點(diǎn)。語言模型應(yīng)該遵守一定的道德和法律規(guī)范,不生成有害、冒犯性或不當(dāng)?shù)膬?nèi)容。預(yù)訓(xùn)練數(shù)據(jù)需要經(jīng)過篩選和審核,排除不適宜的內(nèi)容,以保證模型生成的文本符合社會(huì)價(jià)值觀和倫理標(biāo)準(zhǔn)。

      實(shí)在智能創(chuàng)始人、CEO孫林君則表示,大模型訓(xùn)練對(duì)數(shù)據(jù)質(zhì)量的要求還是比較高的,模型訓(xùn)練和模型微調(diào)以及回報(bào)模型的訓(xùn)練上都要求比較高質(zhì)量的數(shù)據(jù)集,多輪交互的數(shù)據(jù),生成結(jié)果排序的數(shù)據(jù)質(zhì)量都會(huì)對(duì)模型效果有很大影響。對(duì)于質(zhì)量低的公開數(shù)據(jù)集要么清洗,要么棄用。同時(shí)數(shù)據(jù)的分布和密度也是決定模型好壞的重要因素,是數(shù)據(jù)質(zhì)量的一部分。

      GPT對(duì)數(shù)據(jù)質(zhì)量要求高,而行業(yè)AIGC對(duì)代表行業(yè)理解的數(shù)據(jù)質(zhì)量要求更高,這主要體現(xiàn)在兩點(diǎn):高度貼合行業(yè),蘊(yùn)含業(yè)務(wù)的專業(yè)深度認(rèn)知。我們現(xiàn)在訓(xùn)練的數(shù)據(jù),即使是專業(yè)領(lǐng)域積累的數(shù)據(jù),訓(xùn)練前也發(fā)現(xiàn)有很多問題,不僅包括常規(guī)清洗的問題,更多是行業(yè)深度的業(yè)務(wù)認(rèn)知方面的問題構(gòu)造與表達(dá),還有許多要調(diào)整的。同一批原始語料,經(jīng)過不同的清洗和優(yōu)化方式,在訓(xùn)練后,模型的業(yè)務(wù)分析效果就是有差異的。HCR慧辰股份CTO馬亮博士如是說。

      大型語言模型是具有數(shù)十億到數(shù)萬億參數(shù)的深度神經(jīng)網(wǎng)絡(luò),被“預(yù)訓(xùn)練”于數(shù)TB的巨大自然語言語料庫上,包括結(jié)構(gòu)化數(shù)據(jù)、在線圖書和其他內(nèi)容。ChatGPT比較大的突破是在GPT-3出現(xiàn)時(shí),大概1750億參數(shù)量,數(shù)據(jù)量為45個(gè)TB。

      出門問問副總裁李維認(rèn)為:數(shù)據(jù)是大模型的燃料,數(shù)據(jù)的質(zhì)量很大程度上決定了模型的質(zhì)量。我們的數(shù)據(jù)加強(qiáng)工作主要分兩大塊,預(yù)訓(xùn)練和后續(xù)的對(duì)齊訓(xùn)練(SFT,RLHF),前者求量,后者重質(zhì)。預(yù)訓(xùn)練的數(shù)據(jù),原則上是在保持多樣化和干凈的前提下多多益善。后期訓(xùn)練的對(duì)齊數(shù)據(jù),尤其是SFT數(shù)據(jù),不求量大,只求質(zhì)量高,要反映對(duì)齊工作的多樣性以及成比例。文獻(xiàn)顯示,有些高品質(zhì)多樣性的小數(shù)據(jù),也可以在對(duì)齊工作中表現(xiàn)良好。當(dāng)然,在實(shí)際工程實(shí)現(xiàn)中,不宜一味追求SFT對(duì)齊的小數(shù)據(jù)(例如 1000條 - 1萬條),過分臃腫的SFT數(shù)據(jù)(例如千萬或以上)并不一定出好模型。這方面的常規(guī)數(shù)據(jù)加強(qiáng)和對(duì)齊訓(xùn)練工作,要從流程化做到快速迭代,大模型的質(zhì)量提升才能見效。

      04 共建共享能否解決大模型訓(xùn)練的數(shù)據(jù)集問題?

      大模型的開發(fā)離不開海量數(shù)據(jù)助力。當(dāng)前,數(shù)據(jù)來源的知識(shí)產(chǎn)權(quán)已經(jīng)成為大模型發(fā)展的阿喀琉斯之踵。綜合上述的學(xué)而思和ChatGPT事件來看,主要是涉及AI大模型的“數(shù)據(jù)盜取”行為,有哪些因素可以判斷數(shù)據(jù)被盜取呢?

      AI數(shù)據(jù)抓取案件與近年來司法判決的典型數(shù)據(jù)抓取案件在本質(zhì)上沒有差別。對(duì)于這些案件,需要評(píng)判數(shù)據(jù)抓取行為是否對(duì)數(shù)據(jù)持有者的商業(yè)利益和市場競爭優(yōu)勢造成了損害,是否未經(jīng)許可使用他人勞動(dòng)成果,是否違反了商業(yè)道德,并且需要考慮抓取數(shù)據(jù)的合理性和合法性。

      利用抓取技術(shù)破壞他人市場競爭優(yōu)勢,具有并存在為自己謀取競爭優(yōu)勢的主觀故意,違反誠實(shí)信用原則,擾亂競爭秩序的數(shù)據(jù)抓取行為,可能構(gòu)成不正當(dāng)競爭行為。同時(shí)也直接違反了《數(shù)據(jù)安全法》相關(guān)規(guī)定。

      尤其是針對(duì)合作方的數(shù)據(jù),如果在合作協(xié)議中存在違約責(zé)任條款,應(yīng)根據(jù)該條款處理。如果合作協(xié)議未涉及該情況,則被視為侵權(quán)行為,相應(yīng)的侵權(quán)責(zé)任將予以承擔(dān),包括但不限于賠禮道歉、停止侵權(quán)行為、賠償損失等。

      數(shù)據(jù)和隱私的平衡是大模型應(yīng)用面臨的一個(gè)重要問題。如何在保證數(shù)據(jù)安全的前提下,保護(hù)用戶的隱私,是大模型應(yīng)用需要解決的一個(gè)重要問題。目前,隱私計(jì)算技術(shù)和產(chǎn)業(yè)已經(jīng)成為了平衡數(shù)據(jù)流通與隱私安全的關(guān)鍵技術(shù)路徑。

      面對(duì)這些挑戰(zhàn),應(yīng)該如何解決數(shù)據(jù)集卡脖子問題?

      一、國家及社會(huì)層面。

      首先是可以通過立法來保證數(shù)據(jù)安全。目前日本、英國、歐盟等已對(duì)將數(shù)據(jù)挖掘作為合理使用的情形進(jìn)行了立法確認(rèn):日本以“計(jì)算機(jī)信息分析”的名義規(guī)定了文本數(shù)據(jù)挖掘的著作權(quán)例外,英國同樣引入文本和數(shù)據(jù)挖掘的版權(quán)許可或例外情況。

      6月14日,歐洲議會(huì)投票通過關(guān)于《人工智能法案》的談判授權(quán)草案,意味著該法案將進(jìn)入歐盟啟動(dòng)監(jiān)管前的最后階段。該法案要求OpenAI、谷歌和微軟等基礎(chǔ)模型的供應(yīng)商需要公開,他們在訓(xùn)練模型過程中,是否使用了受版權(quán)保護(hù)的數(shù)據(jù)。

      此前,國家網(wǎng)信辦于今年4月公布的《生成式人工智能服務(wù)管理辦法(征求意見稿)》也明確,用于生成式人工智能產(chǎn)品的預(yù)訓(xùn)練、優(yōu)化訓(xùn)練數(shù)據(jù),應(yīng)符合網(wǎng)安法等法律法規(guī)的要求,不含有侵犯知識(shí)產(chǎn)權(quán)的內(nèi)容,包含個(gè)人信息的應(yīng)符合“告知-同意”原則等要求,還應(yīng)保證數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性、多樣性。

      對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)數(shù)字經(jīng)濟(jì)與法律創(chuàng)新研究中心執(zhí)行主任張欣表示,《生成式人工智能服務(wù)管理辦法(征求意見稿)》已對(duì)AI訓(xùn)練數(shù)據(jù)集的合規(guī)要求搭建了清晰的框架,在運(yùn)用著作權(quán)和知識(shí)產(chǎn)權(quán)方式之外,還可以探索使用多種法律手段去實(shí)現(xiàn)。

      張欣分析,監(jiān)管的落地,還存在事后難追溯等問題,尤其在算法復(fù)雜度日益攀升、出現(xiàn)“算法黑箱”等情況下,如果從事后去還原和追溯數(shù)據(jù)集是否合規(guī),十分依賴大模型開發(fā)商提供數(shù)據(jù)處理記錄和日志,很難從外部進(jìn)行確認(rèn)。此外,從技術(shù)上來說大模型很難精確刪除某個(gè)用戶的個(gè)人信息,這就限制了個(gè)人信息保護(hù)中“刪除權(quán)”的行使。

      其次,通過數(shù)據(jù)集的共建、共享,來讓大模型企業(yè)擁有更加豐富的數(shù)據(jù)集。

      研究機(jī)構(gòu)和開發(fā)者們開始意識(shí)到合作與共享的重要性。建立數(shù)據(jù)集共享平臺(tái)和合作網(wǎng)絡(luò),可以促進(jìn)數(shù)據(jù)資源的共享和互補(bǔ),從而減輕單個(gè)團(tuán)隊(duì)的數(shù)據(jù)采集和標(biāo)注負(fù)擔(dān)。

      通過共享數(shù)據(jù)集,可以獲得來自不同來源和領(lǐng)域的數(shù)據(jù),增加數(shù)據(jù)的多樣性。這有助于訓(xùn)練更具廣泛應(yīng)用能力的大模型,適應(yīng)不同場景和任務(wù)的需求。各方共享數(shù)據(jù)集,可以充分利用各自的數(shù)據(jù)資源,避免重復(fù)勞動(dòng)和浪費(fèi),提高數(shù)據(jù)利用效率。共建共享模式可以將各方的專長和資源進(jìn)行有效整合,實(shí)現(xiàn)合作共贏。在共建共享模式下,數(shù)據(jù)采集和使用的風(fēng)險(xiǎn)可以得到分擔(dān)。各方可以共同制定數(shù)據(jù)使用準(zhǔn)則和合作協(xié)議,明確數(shù)據(jù)的權(quán)益和責(zé)任,減少法律和倫理風(fēng)險(xiǎn)。

      楊小東博士表示,共享共建數(shù)據(jù)機(jī)制能夠?qū)Υ竽P偷难芯颗c落地提供持續(xù)助力。當(dāng)然首先需要平衡好各方的利益,通過行政以及技術(shù)等多方面的手段,保障數(shù)據(jù)的質(zhì)與量,從而實(shí)現(xiàn)真正的價(jià)值,形成良性的發(fā)展生態(tài)。

      然而,共建共享模式也面臨一些挑戰(zhàn)和限制:首先,在共建共享模式下,數(shù)據(jù)的隱私和保護(hù)是一個(gè)重要的問題。合作方需要確保數(shù)據(jù)的安全性,制定隱私保護(hù)措施,并遵守相關(guān)的法律法規(guī),保護(hù)數(shù)據(jù)所有者的權(quán)益;多方參與的共建共享模式需要良好的合作協(xié)調(diào)機(jī)制。合作方需要就數(shù)據(jù)采集、標(biāo)注、使用等方面進(jìn)行有效的溝通和協(xié)作,確保數(shù)據(jù)集的一致性和質(zhì)量。最后,在共建共享模式中,涉及到數(shù)據(jù)的權(quán)益和利益分配問題。各方需要協(xié)商和達(dá)成共識(shí),制定公平合理的利益分享機(jī)制,以確保各方的權(quán)益得到尊重和保護(hù)。

      二、對(duì)于大模型研發(fā)企業(yè)。

      對(duì)于大模型研發(fā)企業(yè)來說,解決數(shù)據(jù)糾紛問題是至關(guān)重要的。首先應(yīng)該確保在數(shù)據(jù)采集、使用和存儲(chǔ)過程中遵守相關(guān)的法律法規(guī),包括數(shù)據(jù)保護(hù)和隱私權(quán)規(guī)定。制定明確的政策和流程,確保數(shù)據(jù)的合規(guī)性和合法性。

      其次,與數(shù)據(jù)提供方、合作伙伴或客戶之間建立清晰的合同和協(xié)議,明確數(shù)據(jù)的權(quán)益、使用范圍和限制條件。確保雙方對(duì)數(shù)據(jù)的使用和共享有明確的約定,并明確各方的責(zé)任和義務(wù)。

      當(dāng)然,在數(shù)據(jù)采集和使用過程中,進(jìn)行數(shù)據(jù)審查和驗(yàn)證,確保數(shù)據(jù)的來源和合法性。驗(yàn)證數(shù)據(jù)的準(zhǔn)確性、完整性和權(quán)威性,并與數(shù)據(jù)提供方進(jìn)行溝通和確認(rèn)。

      而且,應(yīng)當(dāng)采取適當(dāng)?shù)臄?shù)據(jù)安全措施,包括數(shù)據(jù)加密、訪問控制、數(shù)據(jù)備份和災(zāi)難恢復(fù)計(jì)劃等,以防止數(shù)據(jù)被盜取、篡改或泄露。確保數(shù)據(jù)的機(jī)密性和完整性得到保護(hù)。

      同時(shí),建議大模型研發(fā)企業(yè)尋求專業(yè)的法律支持,特別是在處理數(shù)據(jù)糾紛或爭議時(shí)。法律專業(yè)人士能夠提供有針對(duì)性的法律建議和指導(dǎo),確保企業(yè)在法律框架內(nèi)解決數(shù)據(jù)糾紛問題。

      遵循誠信和商業(yè)道德,在數(shù)據(jù)采集和使用過程中,秉持誠信和商業(yè)道德原則。遵循公平競爭和互惠原則,尊重?cái)?shù)據(jù)所有者的權(quán)益,避免未經(jīng)授權(quán)或惡意使用他人的數(shù)據(jù)。

      大模型研發(fā)企業(yè)應(yīng)該重視數(shù)據(jù)糾紛問題,并采取相應(yīng)的措施來解決和防范這些問題。合規(guī)和合法性、合同和協(xié)議、數(shù)據(jù)審查和驗(yàn)證、數(shù)據(jù)安全措施、法律支持、培訓(xùn)和教育以及誠信和商業(yè)道德都是關(guān)鍵的方面,需要在企業(yè)的數(shù)據(jù)管理和運(yùn)營中得到有效的應(yīng)用和實(shí)施。

      三、對(duì)于合作方或用戶。

      數(shù)據(jù)安全已經(jīng)是老生常談的一件事了。對(duì)于大模型合作方,或者使用的用戶來說,又應(yīng)該如何保護(hù)自身的數(shù)據(jù)安全不受侵犯呢?

      首先是仔細(xì)閱讀和審查合同,在與大模型研發(fā)企業(yè)進(jìn)行合作之前,仔細(xì)閱讀并審查合同條款,特別是關(guān)于數(shù)據(jù)使用和保護(hù)的部分。確保合同中包含明確的數(shù)據(jù)安全條款,涵蓋數(shù)據(jù)的保密性、安全性和合規(guī)性。

      其次,應(yīng)該限制數(shù)據(jù)提供范圍,在合作過程中,明確規(guī)定數(shù)據(jù)提供的范圍和目的,只提供必要的數(shù)據(jù),并限制敏感信息的披露。確保只有合理需要的數(shù)據(jù)被使用,減少數(shù)據(jù)泄露和濫用的風(fēng)險(xiǎn)。在共享數(shù)據(jù)時(shí),采取措施保護(hù)數(shù)據(jù)的隱私和匿名性?梢允褂脭(shù)據(jù)脫敏技術(shù)、數(shù)據(jù)加密和數(shù)據(jù)匿名化方法,以減少數(shù)據(jù)被識(shí)別和關(guān)聯(lián)的可能性。制定內(nèi)部風(fēng)險(xiǎn)管理機(jī)制,包括監(jiān)測和應(yīng)對(duì)數(shù)據(jù)泄露、未經(jīng)授權(quán)訪問等安全事件的計(jì)劃和流程。建立及時(shí)響應(yīng)和處置數(shù)據(jù)安全問題的能力。

      當(dāng)然,也需要實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)使用情況,對(duì)于共享的數(shù)據(jù),建議保持對(duì)數(shù)據(jù)的監(jiān)控和跟蹤。確保數(shù)據(jù)的使用符合合同和約定,并監(jiān)測是否存在異;顒(dòng)或未經(jīng)授權(quán)的數(shù)據(jù)訪問。要求合作方或大模型研發(fā)企業(yè)采取適當(dāng)?shù)臄?shù)據(jù)安全措施,如數(shù)據(jù)加密、訪問控制、漏洞修復(fù)等,以確保數(shù)據(jù)的安全性和保密性。

      最重要的是選擇可信賴的合作伙伴,在選擇合作伙伴時(shí),仔細(xì)評(píng)估其數(shù)據(jù)安全和隱私保護(hù)能力。選擇具備良好信譽(yù)和可信度的企業(yè),了解其數(shù)據(jù)安全措施和合規(guī)性。

      總之,無論是作為大模型研發(fā)企業(yè)還是合作方或用戶,保護(hù)數(shù)據(jù)安全至關(guān)重要。數(shù)據(jù)集作為大模型研發(fā)中的關(guān)鍵環(huán)節(jié),需要綜合技術(shù)、合作伙伴和道德準(zhǔn)則的支持。解決數(shù)據(jù)集卡脖子問題,才能推動(dòng)大模型的進(jìn)一步發(fā)展,為人工智能領(lǐng)域帶來更多的創(chuàng)新和應(yīng)用。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。