如今,數(shù)據(jù)正在大規(guī)模地產(chǎn)生,為機(jī)器學(xué)習(xí)提供了絕佳的機(jī)會(huì)。然而,對(duì)于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)實(shí)踐者來(lái)說(shuō),這些數(shù)據(jù)的很大一部分仍然是超界的。嚴(yán)格的隱私管理、高昂的成本、長(zhǎng)時(shí)間的處理都阻礙了數(shù)據(jù)的分析。
因此,Gartner預(yù)估85%的AI項(xiàng)目都將失敗,這就是合成數(shù)據(jù)的好處所在。
合成數(shù)據(jù)是在詳細(xì)的算法和仿真的幫助下系統(tǒng)生成的人工數(shù)據(jù)。它是完全匿名的數(shù)據(jù),是真實(shí)數(shù)據(jù)的絕佳替代品,因?yàn)樗试S組織創(chuàng)建按需培訓(xùn)數(shù)據(jù),無(wú)論他們想要多大的規(guī)模。
什么是合成數(shù)據(jù)?
人工智能算法人工創(chuàng)建合成數(shù)據(jù),但它是在真實(shí)數(shù)據(jù)集上訓(xùn)練的,具有與原始數(shù)據(jù)相同的屬性。由于合成數(shù)據(jù)與實(shí)際數(shù)據(jù)沒(méi)有一對(duì)一的關(guān)聯(lián),因此重新識(shí)別的機(jī)會(huì)更少。
因此,數(shù)據(jù)科學(xué)家可以自信地復(fù)制和使用數(shù)據(jù)進(jìn)行測(cè)試和建模,而不會(huì)有暴露個(gè)人身份信息的風(fēng)險(xiǎn),也不會(huì)與監(jiān)管機(jī)構(gòu)發(fā)生沖突。
如何生成合成數(shù)據(jù)?
有幾種方法可以生成合成數(shù)據(jù)。更簡(jiǎn)單的選擇包括蒙特卡洛模擬和從分布集中繪制數(shù)字,但如果數(shù)據(jù)集很復(fù)雜,通常首選生成模型。
生成模型是基于神經(jīng)網(wǎng)絡(luò)的,它可以自動(dòng)從現(xiàn)實(shí)數(shù)據(jù)中找到的模式中學(xué)習(xí),并產(chǎn)生與現(xiàn)實(shí)數(shù)據(jù)精確匹配的信息。生成對(duì)抗網(wǎng)絡(luò)(GANs)和變分自編碼器(VAEs)是兩種常見(jiàn)的生成模型架構(gòu)。
在GAN模型中,兩個(gè)神經(jīng)網(wǎng)絡(luò)模型(稱為生成器和鑒別器)在一個(gè)零和游戲中競(jìng)爭(zhēng),其中一個(gè)網(wǎng)絡(luò)的收益就是另一個(gè)網(wǎng)絡(luò)的損失。另一方面,變分自編碼器是工作在編碼器-解碼器概念上的無(wú)監(jiān)督模型。
什么工具有助于合成數(shù)據(jù)的生成?
下面是可以用來(lái)創(chuàng)建合成數(shù)據(jù)的工具示例:
Datagen是一個(gè)合成數(shù)據(jù)集解決方案,提供逼真的數(shù)據(jù)集,可用于物聯(lián)網(wǎng)(IoT)、機(jī)器人和增強(qiáng)現(xiàn)實(shí)(AR)。
Scikit-learn構(gòu)建于Matplotlib、NumPy和SciPy之上,是一個(gè)開源的Python庫(kù),提供了生成合成數(shù)據(jù)集的工具。
Pydgben是一個(gè)Python庫(kù),它可以創(chuàng)建常見(jiàn)的條目,如姓名、工作、信用卡號(hào)碼、電子郵件地址等。
并行域是一個(gè)合成數(shù)據(jù)平臺(tái),產(chǎn)生高質(zhì)量的傳感器數(shù)據(jù),以改善ML模型和計(jì)算機(jī)視覺(jué)工作流程。
使用合成數(shù)據(jù)的好處
在構(gòu)建機(jī)器學(xué)習(xí)模型時(shí),合成數(shù)據(jù)比其他類型的數(shù)據(jù)更具可擴(kuò)展性、更容易使用、更具有成本效益。
可伸縮性。ML模型消耗大量數(shù)據(jù)。為了訓(xùn)練和測(cè)試的目的,根本不可能獲得如此大量的有關(guān)數(shù)據(jù)。借助合成數(shù)據(jù)工具,數(shù)據(jù)科學(xué)家可以創(chuàng)建任意數(shù)量的數(shù)據(jù)副本,以構(gòu)建高質(zhì)量的AI/ML模型。
易用性。在處理真實(shí)數(shù)據(jù)時(shí),保護(hù)個(gè)人信息、消除不準(zhǔn)確信息和有效地處理不同格式的數(shù)據(jù)至關(guān)重要。合成數(shù)據(jù)處理起來(lái)要容易得多,因?yàn)樗谏w了私人信息、消除了錯(cuò)誤,并標(biāo)準(zhǔn)化了格式,以更直觀地進(jìn)行標(biāo)記。
具有成本效益。獲取真實(shí)的培訓(xùn)數(shù)據(jù)可能會(huì)讓企業(yè)花費(fèi)大量資金。此外,手動(dòng)標(biāo)記它們是耗時(shí)的。有了合成數(shù)據(jù)生成工具,這一過(guò)程被簡(jiǎn)化,并證明是一個(gè)更經(jīng)濟(jì)和更快的過(guò)程。
使用合成數(shù)據(jù)的挑戰(zhàn)
合成數(shù)據(jù)提供了一些好處,但它也有一定的局限性。例如,一個(gè)顯著的缺點(diǎn)是,有效地使用合成數(shù)據(jù)需要高技能的分析師,他們知道如何使用復(fù)雜的數(shù)據(jù)生成器工具。這通常是困難的,因?yàn)樵诰蜆I(yè)市場(chǎng)上缺乏合格的人工智能工人。
此外,合成數(shù)據(jù)只與原始數(shù)據(jù)一樣好,而真實(shí)數(shù)據(jù)往往充滿偏見(jiàn)。因此,當(dāng)神經(jīng)網(wǎng)絡(luò)在有偏差的歷史數(shù)據(jù)上訓(xùn)練時(shí),它們反映了相同的偏差。這通常會(huì)導(dǎo)致機(jī)器學(xué)習(xí)模型的輸出不準(zhǔn)確。
合成數(shù)據(jù)的用例
合成數(shù)據(jù)最突出的兩個(gè)應(yīng)用案例是自動(dòng)駕駛汽車和醫(yī)療保健。
自動(dòng)駕駛。到目前為止,自動(dòng)駕駛汽車是合成數(shù)據(jù)的最佳用例。汽車制造商必須考慮數(shù)以百萬(wàn)計(jì)的場(chǎng)景,并收集相應(yīng)的數(shù)據(jù),以制造安全的汽車。這在現(xiàn)實(shí)中是不可能實(shí)現(xiàn)的,但通過(guò)合成數(shù)據(jù),組織可以生成任何可以想象的駕駛場(chǎng)景的數(shù)百萬(wàn)甚至數(shù)十億種排列,從而達(dá)成安全駕駛解決方案。
醫(yī)療保健。醫(yī)療保健是一個(gè)高度監(jiān)管的行業(yè),有嚴(yán)格的法律管理患者數(shù)據(jù)的使用。由于合成數(shù)據(jù)是完全匿名的,不存在重新識(shí)別的風(fēng)險(xiǎn),醫(yī)療機(jī)構(gòu)可以輕松地使用它進(jìn)行科學(xué)研究、臨床試驗(yàn)和訓(xùn)練醫(yī)療行業(yè)的ML模型。
合成數(shù)據(jù)的未來(lái)
合成數(shù)據(jù)生成是創(chuàng)建具有成本效益和高度可伸縮數(shù)據(jù)的革命性方法。隨著人們對(duì)合成數(shù)據(jù)及其各種好處的認(rèn)識(shí)越來(lái)越多,越來(lái)越多的企業(yè)將挖掘其潛力以獲得好處。
此外,隨著隱私法的收緊,企業(yè)將別無(wú)選擇,只能求助于合成數(shù)據(jù)。因此,它將繼續(xù)受到歡迎,直到它完全成為主流。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。