百模征戰(zhàn)，如何解決數(shù)據(jù)卡脖子問題？

2023年08月01日 11:01:44 余小魚 來源：微信公眾號：數(shù)據(jù)猿

　　繼ChatGPT以來，大模型在國內(nèi)掀起了一股熱潮，大有百模征戰(zhàn)之意。而其中數(shù)據(jù)、算法、算力作為大模型訓(xùn)練的三駕馬車，預(yù)訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量、多樣性成為大模型能力表現(xiàn)的關(guān)鍵性因素，數(shù)據(jù)對于人工智能領(lǐng)域的重要性值得我們重新審視。

　　然而，在追求技術(shù)創(chuàng)新的同時(shí)，確保數(shù)據(jù)的合法性、隱私保護(hù)和倫理問題的考量也應(yīng)當(dāng)?shù)玫阶銐虻闹匾�。從目前AI大模型的發(fā)展來看，數(shù)據(jù)集的爭議在近年來變得越發(fā)常見。由于大規(guī)模訓(xùn)練數(shù)據(jù)集對于訓(xùn)練強(qiáng)大的AI模型至關(guān)重要，數(shù)據(jù)集的來源和使用問題引發(fā)了一系列的法律和倫理爭議。隨著AI技術(shù)的快速發(fā)展和廣泛應(yīng)用，確保數(shù)據(jù)的合法和透明使用變得尤為重要。

　　那么，數(shù)據(jù)作為大模型訓(xùn)練的基礎(chǔ)，應(yīng)該如何保障數(shù)據(jù)安全呢?針對大模型訓(xùn)練，“量”為主還是“質(zhì)”為主呢?針對目前大模型訓(xùn)練過程中的數(shù)據(jù)問題，又有什么解決辦法?

　　01 數(shù)據(jù)成為大模型研發(fā)卡脖子問題

　　數(shù)據(jù)集質(zhì)量是大模型研發(fā)中的關(guān)鍵，只有通過高質(zhì)量、多樣性的數(shù)據(jù)集，才能讓大模型展現(xiàn)出真正的智能和創(chuàng)造力。然而，在大模型研發(fā)過程中，使用的數(shù)據(jù)卻成為了其成長之路上的重要阻礙。在國外，因大模型研發(fā)而造成的數(shù)據(jù)糾紛早已出現(xiàn)。

　　一群匿名人士在一項(xiàng)集體訴訟中聲稱，ChatGPT的開發(fā)商OpenAI公司正在竊取大量個(gè)人信息，以訓(xùn)練其人工智能模型不顧一切地追逐利潤。這些匿名人士指責(zé)OpenAI從互聯(lián)網(wǎng)上秘密抓取3000億字，竊聽了“書籍、文章、網(wǎng)站和帖子，包括未經(jīng)同意獲得的個(gè)人信息”，違反了隱私法。

　　除此之外，國內(nèi)也出現(xiàn)了大模型相關(guān)的數(shù)據(jù)糾紛，其中筆神作文對學(xué)而思大模型的指控更是再次讓大家關(guān)注到了數(shù)據(jù)對大模型的重要性。筆神作文表示，學(xué)而思通過“爬蟲”技術(shù)非法訪問、緩存筆神作文APP服務(wù)器數(shù)據(jù)多達(dá)258萬次，嚴(yán)重侵犯了筆神作文APP的數(shù)據(jù)權(quán)益。這一行為不僅違反了雙方的合同條款，也違反了《數(shù)據(jù)安全法》相關(guān)規(guī)定，嚴(yán)重侵犯了筆神作文APP的數(shù)據(jù)權(quán)益。

　　對此，學(xué)而思官方微博發(fā)文回應(yīng)稱:“首先，MathGPT是專注于數(shù)學(xué)領(lǐng)域的自研大模型，沒有任何作文相關(guān)數(shù)據(jù);其次，‘作文AI助手’目前處于開發(fā)狀態(tài)，尚未發(fā)布，該服務(wù)并未使用筆神作文的任何數(shù)據(jù)。”

　　此外，推特、“美版貼吧”Reddit也在今年上半年相繼宣布對API接口收費(fèi)，且價(jià)格不菲。此前，這些平臺的內(nèi)容可以被谷歌、OpenAI等公司免費(fèi)爬取，用作大語言模型的訓(xùn)練庫。推特CEO馬斯克曾表示，“他們(微軟)非法利用推特的數(shù)據(jù)來訓(xùn)練，是時(shí)候起訴他們了。”

　　隨后，三星也關(guān)注到了這一現(xiàn)象，并推出了一項(xiàng)新政策，要求員工不得在工作場所使用OpenAI的ChatGPT和谷歌Bard等生成式人工智能。據(jù)三星稱，4月時(shí)一名工程師將內(nèi)部源代碼上傳到ChatGPT后，意外泄漏了內(nèi)部源代碼。這讓三星擔(dān)憂其數(shù)據(jù)將通過人工智能平臺最終落入其他用戶手中。因此，三星員工被禁止在公司設(shè)備上使用人工智能工具，包括電腦、平板電腦、手機(jī)等。但員工仍可以在個(gè)人設(shè)備上使用人工智能工具，不過僅限于與工作無關(guān)的事情。

　　數(shù)據(jù)是否已成為大模型訓(xùn)練的卡脖子呢?為此，數(shù)據(jù)猿就相關(guān)問題與業(yè)界專家進(jìn)行了溝通。

　　天云數(shù)據(jù)CEO雷濤表示：這個(gè)問題我們要反思到根本：做大模型還是喂大模型?目前，大模型能夠提煉的語料是開放的、共享的和免費(fèi)的。根據(jù)鳳凰網(wǎng)周刊，ChatGPT 中文資料為0.09905%，比重還不足千分之一。如果說蒸汽機(jī)是對動(dòng)力的封裝和移動(dòng)，電是對能源的封裝和移動(dòng)，那么人工智能將是對知識的封裝和移動(dòng)。大模型的知識會成為以后的基礎(chǔ)設(shè)施，到那個(gè)時(shí)候其“布道”的到底是“圣經(jīng)”還是“諸子百家”，內(nèi)核差異巨大。所以填充大模型語料才是根本的卡脖子問題�！�1984》里有一句話：“誰控制了過去，誰就控制了未來;誰控制了現(xiàn)在，誰就控制了過去。”這句話應(yīng)用在大模型數(shù)據(jù)上完全切合。

　　華院計(jì)算技術(shù)總監(jiān)楊小東博士認(rèn)為，目前大模型卡脖子問題主要集中于兩方面：

　　首先，對于具體行業(yè)內(nèi)公司及解決方案供應(yīng)商來講，高質(zhì)量的行業(yè)數(shù)據(jù)確實(shí)是一個(gè)主要的卡脖子的點(diǎn)。這里二八法則同樣適用，也就是說大模型最終效果如何，80%是由數(shù)據(jù)決定的。通過高質(zhì)量數(shù)據(jù)對模型進(jìn)行低成本微調(diào)(PEFT)，或者結(jié)合Langchain，可以做出各方面體驗(yàn)還不錯(cuò)的行業(yè)大模型。但如果數(shù)據(jù)方面比較薄弱，那就只能基于基底模型本身的能力，做些通用的，不痛不養(yǎng)的場景。

　　其次，從大模型的技術(shù)方面來看，為持續(xù)提升提升模型性能以及加快工程化落地，預(yù)訓(xùn)練模型本身的網(wǎng)絡(luò)結(jié)構(gòu)創(chuàng)新、Transformer以及Attention的優(yōu)化、通信庫nccl的優(yōu)化等技術(shù)也是至關(guān)重要的，需要在底層基礎(chǔ)能力研究上進(jìn)行投入，擺脫基礎(chǔ)研究方面跟隨者的地位。

　　豐富、多樣的數(shù)據(jù)可以幫助模型更好地理解語言結(jié)構(gòu)、語義關(guān)系和上下文信息。然而，構(gòu)建高質(zhì)量的數(shù)據(jù)集并非易事。

　　02 數(shù)據(jù)是大模型訓(xùn)練的基石

　　在人工智能領(lǐng)域的百模大戰(zhàn)中，大型語言模型的訓(xùn)練成為了一個(gè)關(guān)鍵的競爭領(lǐng)域。數(shù)據(jù)、算法和算力作為大模型訓(xùn)練的三駕馬車，在這場競爭中發(fā)揮著至關(guān)重要的作用。其中，數(shù)據(jù)集作為大模型訓(xùn)練的基石，對于模型性能和創(chuàng)新能力具有關(guān)鍵影響，尤其是數(shù)據(jù)質(zhì)量問題更是不可忽視。

　　目前，大模型的數(shù)據(jù)一般來自于多個(gè)來源，包括以下幾種：

　　其一，公開數(shù)據(jù)集。許多領(lǐng)域都有公開的數(shù)據(jù)集，例如ImageNet、MNIST等圖像數(shù)據(jù)集，Wikipedia等文本數(shù)據(jù)集。這些數(shù)據(jù)集由研究機(jī)構(gòu)、學(xué)者或者公司開放，并且是在特定領(lǐng)域內(nèi)廣泛使用和共享的。公開數(shù)據(jù)集是大部分通用大模型的數(shù)據(jù)集的主要來源。

　　其二，合作數(shù)據(jù)分享。許多公司、機(jī)構(gòu)和學(xué)者擁有獨(dú)特的數(shù)據(jù)資源，并愿意與其它人合作共享這些數(shù)據(jù)資源，以支持不同領(lǐng)域的研究和應(yīng)用。例如，很多醫(yī)療機(jī)構(gòu)會收集大量的醫(yī)療影像數(shù)據(jù)，這些數(shù)據(jù)可以用于訓(xùn)練圖像分析或者肺癌檢測等任務(wù)。這也正是筆神作文所遇到的事情，雙方雖為合作對象，但在數(shù)據(jù)引用上出現(xiàn)了分歧。

　　其三，大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)。當(dāng)我們使用大型互聯(lián)網(wǎng)公司的產(chǎn)品和服務(wù)時(shí)，公司通常會收集并存儲我們的數(shù)據(jù)，包括搜索歷史、瀏覽器記錄、GPS位置、社交網(wǎng)絡(luò)等。這些數(shù)據(jù)可以用來訓(xùn)練大型的語言模型，自然語言處理模型等。國內(nèi)大模型的數(shù)據(jù)來源和自身優(yōu)勢業(yè)務(wù)有較強(qiáng)相關(guān)性，百度作為國內(nèi)搜索引擎的龍頭企業(yè)，其大模型產(chǎn)品文心一言的數(shù)據(jù)集來源便主要是網(wǎng)絡(luò)文本、書籍、新聞、社交媒體內(nèi)容、科技論文、語音轉(zhuǎn)錄等，這也是其模型訓(xùn)練的優(yōu)勢之一。

　　其四，數(shù)據(jù)眾包。眾包是一種通過向大量的用戶或者工人收集數(shù)據(jù)來解決問題的方法。通過這種方法，可以快速搜集大規(guī)模的數(shù)據(jù)集，例如圖像標(biāo)注、音頻翻譯等任務(wù)。這些數(shù)據(jù)集可以用于訓(xùn)練視覺和語音模型等。

　　OpenAI此前披露，為了AI像人類那樣流暢交談，研發(fā)人員給GPT-3.5提供多達(dá)45TB的文本語料，相當(dāng)于472萬套中國“四大名著”。這些語料的來源包括維基百科、網(wǎng)絡(luò)文章、書籍期刊等，甚至還將代碼開源平臺Github納入其中。

　　近期，國內(nèi)AI準(zhǔn)獨(dú)角獸企業(yè)實(shí)在智能的自研垂直領(lǐng)域大語言模型——TARS(塔斯)歷經(jīng)半年研發(fā)后，正式開啟內(nèi)測!對于其目前訓(xùn)練大模型使用的數(shù)據(jù)集，實(shí)在智能創(chuàng)始人、CEO 孫林君表示，目前的數(shù)據(jù)來源是多方面的，主要包含公開的數(shù)據(jù)集、經(jīng)典的書籍、文檔、知識內(nèi)容、百科、開源的數(shù)據(jù)集，以及自身業(yè)務(wù)沉淀的數(shù)據(jù)，如果是垂直大模型合作企業(yè)會提供相關(guān)的數(shù)據(jù)集。占的比例來說并不固定，但是肯定是公開的數(shù)據(jù)的量最多，訓(xùn)練數(shù)據(jù)的接入還主要是通過建立數(shù)據(jù)庫的方式。

　　近期發(fā)布多款A(yù)IGC產(chǎn)品的HCR慧辰股份CTO、首席數(shù)據(jù)科學(xué)家馬亮博士表示：我們做的是行業(yè)的專業(yè)數(shù)據(jù)分析服務(wù)，所以我們訓(xùn)練聚焦于構(gòu)造行業(yè)性AIGC分析模型，對具體行業(yè)的業(yè)務(wù)智能生成的能力有較高水平要求。因此訓(xùn)練數(shù)據(jù)中來源外部的數(shù)據(jù)很少，主要是來自公司長期各行業(yè)服務(wù)的領(lǐng)域數(shù)據(jù)積累，大都是基于專家生成的業(yè)務(wù)數(shù)據(jù)資源(包括大量的行業(yè)公開數(shù)據(jù)、專業(yè)問卷模板、項(xiàng)目建議書模板、業(yè)務(wù)分析報(bào)告模板等)。目前尚未接入合作企業(yè)的相關(guān)數(shù)據(jù)。

　　LF AI&DATA基金會董事主席堵俊平曾公開表示：“AI大模型就像一個(gè)貪吃的‘怪獸’，始終需要研究人員投喂更多的、質(zhì)量更好的數(shù)據(jù)。”他說，當(dāng)前數(shù)據(jù)幾乎都是從“在網(wǎng)絡(luò)上主動(dòng)收集”“從第三方購買”“利用公開數(shù)據(jù)集”這三個(gè)渠道得來。在堵俊平看來，從*個(gè)渠道得到的數(shù)據(jù)局限性較強(qiáng)，由于版權(quán)問題，很多公司只能從其私域獲得數(shù)據(jù);從第二個(gè)渠道獲取的數(shù)據(jù)面臨數(shù)據(jù)定價(jià)、數(shù)據(jù)質(zhì)量等問題;而從第三個(gè)渠道獲取的數(shù)據(jù)往往只能作為研究使用，在商用或者其他方面有很多限制。

　　而行業(yè)數(shù)據(jù)更是非常核心的私域數(shù)據(jù)，私域數(shù)據(jù)量越大，質(zhì)量越高，就越有價(jià)值。

　　就拿本次事件中學(xué)而思所訓(xùn)練的垂直行業(yè)大模型來看，一個(gè)教育公司擁有大量教育資料數(shù)據(jù)，那么它就能開發(fā)出教育垂直大模型類的產(chǎn)品。同理，建筑行業(yè)的項(xiàng)目數(shù)據(jù)、金融行業(yè)的用戶畫像數(shù)據(jù)、海運(yùn)行業(yè)的船位數(shù)據(jù)等，都是賦能垂直大模型的關(guān)鍵。

　　但是這些私域數(shù)據(jù)都攥在企業(yè)自己手中或者合作伙伴的手中，而且為了數(shù)據(jù)安全和合規(guī)，絕大部分機(jī)構(gòu)是要本地化部署才會嘗試大模型訓(xùn)練，很難想象企業(yè)會把自己的核心數(shù)據(jù)拿給別人去訓(xùn)練。

　　03 從“量”到“質(zhì)”的升級

　　如果說前期大家專注的大模型訓(xùn)練的以“量”為主，到目前，隨著訓(xùn)練的進(jìn)一步提升，在大模型的數(shù)據(jù)訓(xùn)練上，“質(zhì)”將成為之后的必選之路。

　　因此，如何合理地給數(shù)據(jù)打上分級標(biāo)簽、做好標(biāo)注也非常重要。數(shù)據(jù)分級分類能夠幫助產(chǎn)品提效，而高精度的標(biāo)注數(shù)據(jù)能夠進(jìn)一步提升大模型的專業(yè)表現(xiàn)。但現(xiàn)階段垂直行業(yè)想要獲取高精度標(biāo)注數(shù)據(jù)的成本較高，而在公開數(shù)據(jù)庫中，行業(yè)專業(yè)數(shù)據(jù)也較少，因此對垂直大模型的建構(gòu)提出了很高的要求。

　　針對目前大模型數(shù)據(jù)集質(zhì)量，商湯科技大裝置研究總監(jiān)何聰輝則表示，大型語言模型對預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量有很高的要求，這主要體現(xiàn)在流暢性、干凈性、知識密集性、安全性。訓(xùn)練數(shù)據(jù)需要包含大量的正確語法和語義，以使模型能夠理解并生成符合語言規(guī)則的文本。流暢性直接影響到模型生成的文本是否通順、易讀。干凈性是指預(yù)訓(xùn)練數(shù)據(jù)應(yīng)該是干凈、準(zhǔn)確的，不包含錯(cuò)誤、噪聲或不一致的信息。模型在訓(xùn)練過程中會學(xué)習(xí)到數(shù)據(jù)中的模式和特征，如果數(shù)據(jù)質(zhì)量不高，可能會導(dǎo)致模型生成的文本出現(xiàn)錯(cuò)誤、不準(zhǔn)確的情況。安全性也是非常重要的一點(diǎn)。語言模型應(yīng)該遵守一定的道德和法律規(guī)范，不生成有害、冒犯性或不當(dāng)?shù)膬?nèi)容。預(yù)訓(xùn)練數(shù)據(jù)需要經(jīng)過篩選和審核，排除不適宜的內(nèi)容，以保證模型生成的文本符合社會價(jià)值觀和倫理標(biāo)準(zhǔn)。

　　實(shí)在智能創(chuàng)始人、CEO孫林君則表示，大模型訓(xùn)練對數(shù)據(jù)質(zhì)量的要求還是比較高的，模型訓(xùn)練和模型微調(diào)以及回報(bào)模型的訓(xùn)練上都要求比較高質(zhì)量的數(shù)據(jù)集，多輪交互的數(shù)據(jù)，生成結(jié)果排序的數(shù)據(jù)質(zhì)量都會對模型效果有很大影響。對于質(zhì)量低的公開數(shù)據(jù)集要么清洗，要么棄用。同時(shí)數(shù)據(jù)的分布和密度也是決定模型好壞的重要因素，是數(shù)據(jù)質(zhì)量的一部分。

　　GPT對數(shù)據(jù)質(zhì)量要求高，而行業(yè)AIGC對代表行業(yè)理解的數(shù)據(jù)質(zhì)量要求更高，這主要體現(xiàn)在兩點(diǎn)：高度貼合行業(yè)，蘊(yùn)含業(yè)務(wù)的專業(yè)深度認(rèn)知。我們現(xiàn)在訓(xùn)練的數(shù)據(jù)，即使是專業(yè)領(lǐng)域積累的數(shù)據(jù)，訓(xùn)練前也發(fā)現(xiàn)有很多問題，不僅包括常規(guī)清洗的問題，更多是行業(yè)深度的業(yè)務(wù)認(rèn)知方面的問題構(gòu)造與表達(dá)，還有許多要調(diào)整的。同一批原始語料，經(jīng)過不同的清洗和優(yōu)化方式，在訓(xùn)練后，模型的業(yè)務(wù)分析效果就是有差異的。HCR慧辰股份CTO馬亮博士如是說。

　　大型語言模型是具有數(shù)十億到數(shù)萬億參數(shù)的深度神經(jīng)網(wǎng)絡(luò)，被“預(yù)訓(xùn)練”于數(shù)TB的巨大自然語言語料庫上，包括結(jié)構(gòu)化數(shù)據(jù)、在線圖書和其他內(nèi)容。ChatGPT比較大的突破是在GPT-3出現(xiàn)時(shí)，大概1750億參數(shù)量，數(shù)據(jù)量為45個(gè)TB。

　　出門問問副總裁李維認(rèn)為：數(shù)據(jù)是大模型的燃料，數(shù)據(jù)的質(zhì)量很大程度上決定了模型的質(zhì)量。我們的數(shù)據(jù)加強(qiáng)工作主要分兩大塊，預(yù)訓(xùn)練和后續(xù)的對齊訓(xùn)練(SFT,RLHF)，前者求量，后者重質(zhì)。預(yù)訓(xùn)練的數(shù)據(jù)，原則上是在保持多樣化和干凈的前提下多多益善。后期訓(xùn)練的對齊數(shù)據(jù)，尤其是SFT數(shù)據(jù)，不求量大，只求質(zhì)量高，要反映對齊工作的多樣性以及成比例。文獻(xiàn)顯示，有些高品質(zhì)多樣性的小數(shù)據(jù)，也可以在對齊工作中表現(xiàn)良好。當(dāng)然，在實(shí)際工程實(shí)現(xiàn)中，不宜一味追求SFT對齊的小數(shù)據(jù)(例如 1000條 - 1萬條)，過分臃腫的SFT數(shù)據(jù)(例如千萬或以上)并不一定出好模型。這方面的常規(guī)數(shù)據(jù)加強(qiáng)和對齊訓(xùn)練工作，要從流程化做到快速迭代，大模型的質(zhì)量提升才能見效。

　　04 共建共享能否解決大模型訓(xùn)練的數(shù)據(jù)集問題？

　　大模型的開發(fā)離不開海量數(shù)據(jù)助力。當(dāng)前，數(shù)據(jù)來源的知識產(chǎn)權(quán)已經(jīng)成為大模型發(fā)展的阿喀琉斯之踵。綜合上述的學(xué)而思和ChatGPT事件來看，主要是涉及AI大模型的“數(shù)據(jù)盜取”行為，有哪些因素可以判斷數(shù)據(jù)被盜取呢?

　　AI數(shù)據(jù)抓取案件與近年來司法判決的典型數(shù)據(jù)抓取案件在本質(zhì)上沒有差別。對于這些案件，需要評判數(shù)據(jù)抓取行為是否對數(shù)據(jù)持有者的商業(yè)利益和市場競爭優(yōu)勢造成了損害，是否未經(jīng)許可使用他人勞動(dòng)成果，是否違反了商業(yè)道德，并且需要考慮抓取數(shù)據(jù)的合理性和合法性。

　　利用抓取技術(shù)破壞他人市場競爭優(yōu)勢，具有并存在為自己謀取競爭優(yōu)勢的主觀故意，違反誠實(shí)信用原則，擾亂競爭秩序的數(shù)據(jù)抓取行為，可能構(gòu)成不正當(dāng)競爭行為。同時(shí)也直接違反了《數(shù)據(jù)安全法》相關(guān)規(guī)定。

　　尤其是針對合作方的數(shù)據(jù)，如果在合作協(xié)議中存在違約責(zé)任條款，應(yīng)根據(jù)該條款處理。如果合作協(xié)議未涉及該情況，則被視為侵權(quán)行為，相應(yīng)的侵權(quán)責(zé)任將予以承擔(dān)，包括但不限于賠禮道歉、停止侵權(quán)行為、賠償損失等。

　　數(shù)據(jù)和隱私的平衡是大模型應(yīng)用面臨的一個(gè)重要問題。如何在保證數(shù)據(jù)安全的前提下，保護(hù)用戶的隱私，是大模型應(yīng)用需要解決的一個(gè)重要問題。目前，隱私計(jì)算技術(shù)和產(chǎn)業(yè)已經(jīng)成為了平衡數(shù)據(jù)流通與隱私安全的關(guān)鍵技術(shù)路徑。

　　面對這些挑戰(zhàn)，應(yīng)該如何解決數(shù)據(jù)集卡脖子問題?

　　一、國家及社會層面。

　　首先是可以通過立法來保證數(shù)據(jù)安全。目前日本、英國、歐盟等已對將數(shù)據(jù)挖掘作為合理使用的情形進(jìn)行了立法確認(rèn)：日本以“計(jì)算機(jī)信息分析”的名義規(guī)定了文本數(shù)據(jù)挖掘的著作權(quán)例外，英國同樣引入文本和數(shù)據(jù)挖掘的版權(quán)許可或例外情況。

　　6月14日，歐洲議會投票通過關(guān)于《人工智能法案》的談判授權(quán)草案，意味著該法案將進(jìn)入歐盟啟動(dòng)監(jiān)管前的最后階段。該法案要求OpenAI、谷歌和微軟等基礎(chǔ)模型的供應(yīng)商需要公開，他們在訓(xùn)練模型過程中，是否使用了受版權(quán)保護(hù)的數(shù)據(jù)。

　　此前，國家網(wǎng)信辦于今年4月公布的《生成式人工智能服務(wù)管理辦法(征求意見稿)》也明確，用于生成式人工智能產(chǎn)品的預(yù)訓(xùn)練、優(yōu)化訓(xùn)練數(shù)據(jù)，應(yīng)符合網(wǎng)安法等法律法規(guī)的要求，不含有侵犯知識產(chǎn)權(quán)的內(nèi)容，包含個(gè)人信息的應(yīng)符合“告知-同意”原則等要求，還應(yīng)保證數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性、多樣性。

　　對外經(jīng)濟(jì)貿(mào)易大學(xué)數(shù)字經(jīng)濟(jì)與法律創(chuàng)新研究中心執(zhí)行主任張欣表示，《生成式人工智能服務(wù)管理辦法(征求意見稿)》已對AI訓(xùn)練數(shù)據(jù)集的合規(guī)要求搭建了清晰的框架，在運(yùn)用著作權(quán)和知識產(chǎn)權(quán)方式之外，還可以探索使用多種法律手段去實(shí)現(xiàn)。

　　張欣分析，監(jiān)管的落地，還存在事后難追溯等問題，尤其在算法復(fù)雜度日益攀升、出現(xiàn)“算法黑箱”等情況下，如果從事后去還原和追溯數(shù)據(jù)集是否合規(guī)，十分依賴大模型開發(fā)商提供數(shù)據(jù)處理記錄和日志，很難從外部進(jìn)行確認(rèn)。此外，從技術(shù)上來說大模型很難精確刪除某個(gè)用戶的個(gè)人信息，這就限制了個(gè)人信息保護(hù)中“刪除權(quán)”的行使。

　　其次，通過數(shù)據(jù)集的共建、共享，來讓大模型企業(yè)擁有更加豐富的數(shù)據(jù)集。

　　研究機(jī)構(gòu)和開發(fā)者們開始意識到合作與共享的重要性。建立數(shù)據(jù)集共享平臺和合作網(wǎng)絡(luò)，可以促進(jìn)數(shù)據(jù)資源的共享和互補(bǔ)，從而減輕單個(gè)團(tuán)隊(duì)的數(shù)據(jù)采集和標(biāo)注負(fù)擔(dān)。

　　通過共享數(shù)據(jù)集，可以獲得來自不同來源和領(lǐng)域的數(shù)據(jù)，增加數(shù)據(jù)的多樣性。這有助于訓(xùn)練更具廣泛應(yīng)用能力的大模型，適應(yīng)不同場景和任務(wù)的需求。各方共享數(shù)據(jù)集，可以充分利用各自的數(shù)據(jù)資源，避免重復(fù)勞動(dòng)和浪費(fèi)，提高數(shù)據(jù)利用效率。共建共享模式可以將各方的專長和資源進(jìn)行有效整合，實(shí)現(xiàn)合作共贏。在共建共享模式下，數(shù)據(jù)采集和使用的風(fēng)險(xiǎn)可以得到分擔(dān)。各方可以共同制定數(shù)據(jù)使用準(zhǔn)則和合作協(xié)議，明確數(shù)據(jù)的權(quán)益和責(zé)任，減少法律和倫理風(fēng)險(xiǎn)。

　　楊小東博士表示，共享共建數(shù)據(jù)機(jī)制能夠?qū)Υ竽Ｐ偷难芯颗c落地提供持續(xù)助力。當(dāng)然首先需要平衡好各方的利益，通過行政以及技術(shù)等多方面的手段，保障數(shù)據(jù)的質(zhì)與量，從而實(shí)現(xiàn)真正的價(jià)值，形成良性的發(fā)展生態(tài)。

　　然而，共建共享模式也面臨一些挑戰(zhàn)和限制：首先，在共建共享模式下，數(shù)據(jù)的隱私和保護(hù)是一個(gè)重要的問題。合作方需要確保數(shù)據(jù)的安全性，制定隱私保護(hù)措施，并遵守相關(guān)的法律法規(guī)，保護(hù)數(shù)據(jù)所有者的權(quán)益;多方參與的共建共享模式需要良好的合作協(xié)調(diào)機(jī)制。合作方需要就數(shù)據(jù)采集、標(biāo)注、使用等方面進(jìn)行有效的溝通和協(xié)作，確保數(shù)據(jù)集的一致性和質(zhì)量。最后，在共建共享模式中，涉及到數(shù)據(jù)的權(quán)益和利益分配問題。各方需要協(xié)商和達(dá)成共識，制定公平合理的利益分享機(jī)制，以確保各方的權(quán)益得到尊重和保護(hù)。

　　二、對于大模型研發(fā)企業(yè)。

　　對于大模型研發(fā)企業(yè)來說，解決數(shù)據(jù)糾紛問題是至關(guān)重要的。首先應(yīng)該確保在數(shù)據(jù)采集、使用和存儲過程中遵守相關(guān)的法律法規(guī)，包括數(shù)據(jù)保護(hù)和隱私權(quán)規(guī)定。制定明確的政策和流程，確保數(shù)據(jù)的合規(guī)性和合法性。

　　其次，與數(shù)據(jù)提供方、合作伙伴或客戶之間建立清晰的合同和協(xié)議，明確數(shù)據(jù)的權(quán)益、使用范圍和限制條件。確保雙方對數(shù)據(jù)的使用和共享有明確的約定，并明確各方的責(zé)任和義務(wù)。

　　當(dāng)然，在數(shù)據(jù)采集和使用過程中，進(jìn)行數(shù)據(jù)審查和驗(yàn)證，確保數(shù)據(jù)的來源和合法性。驗(yàn)證數(shù)據(jù)的準(zhǔn)確性、完整性和權(quán)威性，并與數(shù)據(jù)提供方進(jìn)行溝通和確認(rèn)。

　　而且，應(yīng)當(dāng)采取適當(dāng)?shù)臄?shù)據(jù)安全措施，包括數(shù)據(jù)加密、訪問控制、數(shù)據(jù)備份和災(zāi)難恢復(fù)計(jì)劃等，以防止數(shù)據(jù)被盜取、篡改或泄露。確保數(shù)據(jù)的機(jī)密性和完整性得到保護(hù)。

　　同時(shí)，建議大模型研發(fā)企業(yè)尋求專業(yè)的法律支持，特別是在處理數(shù)據(jù)糾紛或爭議時(shí)。法律專業(yè)人士能夠提供有針對性的法律建議和指導(dǎo)，確保企業(yè)在法律框架內(nèi)解決數(shù)據(jù)糾紛問題。

　　遵循誠信和商業(yè)道德，在數(shù)據(jù)采集和使用過程中，秉持誠信和商業(yè)道德原則。遵循公平競爭和互惠原則，尊重?cái)?shù)據(jù)所有者的權(quán)益，避免未經(jīng)授權(quán)或惡意使用他人的數(shù)據(jù)。

　　大模型研發(fā)企業(yè)應(yīng)該重視數(shù)據(jù)糾紛問題，并采取相應(yīng)的措施來解決和防范這些問題。合規(guī)和合法性、合同和協(xié)議、數(shù)據(jù)審查和驗(yàn)證、數(shù)據(jù)安全措施、法律支持、培訓(xùn)和教育以及誠信和商業(yè)道德都是關(guān)鍵的方面，需要在企業(yè)的數(shù)據(jù)管理和運(yùn)營中得到有效的應(yīng)用和實(shí)施。

　　三、對于合作方或用戶。

　　數(shù)據(jù)安全已經(jīng)是老生常談的一件事了。對于大模型合作方，或者使用的用戶來說，又應(yīng)該如何保護(hù)自身的數(shù)據(jù)安全不受侵犯呢?

　　首先是仔細(xì)閱讀和審查合同，在與大模型研發(fā)企業(yè)進(jìn)行合作之前，仔細(xì)閱讀并審查合同條款，特別是關(guān)于數(shù)據(jù)使用和保護(hù)的部分。確保合同中包含明確的數(shù)據(jù)安全條款，涵蓋數(shù)據(jù)的保密性、安全性和合規(guī)性。

　　其次，應(yīng)該限制數(shù)據(jù)提供范圍，在合作過程中，明確規(guī)定數(shù)據(jù)提供的范圍和目的，只提供必要的數(shù)據(jù)，并限制敏感信息的披露。確保只有合理需要的數(shù)據(jù)被使用，減少數(shù)據(jù)泄露和濫用的風(fēng)險(xiǎn)。在共享數(shù)據(jù)時(shí)，采取措施保護(hù)數(shù)據(jù)的隱私和匿名性�？梢允褂脭�(shù)據(jù)脫敏技術(shù)、數(shù)據(jù)加密和數(shù)據(jù)匿名化方法，以減少數(shù)據(jù)被識別和關(guān)聯(lián)的可能性。制定內(nèi)部風(fēng)險(xiǎn)管理機(jī)制，包括監(jiān)測和應(yīng)對數(shù)據(jù)泄露、未經(jīng)授權(quán)訪問等安全事件的計(jì)劃和流程。建立及時(shí)響應(yīng)和處置數(shù)據(jù)安全問題的能力。

　　當(dāng)然，也需要實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)使用情況，對于共享的數(shù)據(jù)，建議保持對數(shù)據(jù)的監(jiān)控和跟蹤。確保數(shù)據(jù)的使用符合合同和約定，并監(jiān)測是否存在異�；顒�(dòng)或未經(jīng)授權(quán)的數(shù)據(jù)訪問。要求合作方或大模型研發(fā)企業(yè)采取適當(dāng)?shù)臄?shù)據(jù)安全措施，如數(shù)據(jù)加密、訪問控制、漏洞修復(fù)等，以確保數(shù)據(jù)的安全性和保密性。

　　最重要的是選擇可信賴的合作伙伴，在選擇合作伙伴時(shí)，仔細(xì)評估其數(shù)據(jù)安全和隱私保護(hù)能力。選擇具備良好信譽(yù)和可信度的企業(yè)，了解其數(shù)據(jù)安全措施和合規(guī)性。

　　總之，無論是作為大模型研發(fā)企業(yè)還是合作方或用戶，保護(hù)數(shù)據(jù)安全至關(guān)重要。數(shù)據(jù)集作為大模型研發(fā)中的關(guān)鍵環(huán)節(jié)，需要綜合技術(shù)、合作伙伴和道德準(zhǔn)則的支持。解決數(shù)據(jù)集卡脖子問題，才能推動(dòng)大模型的進(jìn)一步發(fā)展，為人工智能領(lǐng)域帶來更多的創(chuàng)新和應(yīng)用。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信