A系列最大電池!OPPO A5入網(wǎng):6330mAh超越A5 ProOPPO Find X8 Ultra渲染圖首曝:外觀與Pro版幾乎一致微軟重申Win10將結(jié)束支持!督促趕緊升級(jí)Win11:不升用不了Microsoft 365六年磨一劍!iPhone 17 Air真機(jī)泄露:橫向三攝設(shè)計(jì)大變革小米超級(jí)小愛(ài)升級(jí)計(jì)劃公布:小米13/K60等也能用上 1月27日前推送摩托羅拉新款折疊屏手機(jī)或提前發(fā)布 型號(hào)XT2551獲印度BIS認(rèn)證攬獲多項(xiàng)CES 2025科技大獎(jiǎng),蟬聯(lián)全球消費(fèi)電子品牌TOP10國(guó)產(chǎn)動(dòng)畫電影《哪吒之魔童鬧!沸既姹旧嫌常褐С諭MAX、CINITY等多制式擎朗智能攜手科大訊飛,共啟具身智能服務(wù)機(jī)器人新征程“借機(jī)玩梗”?多家互聯(lián)網(wǎng)公司在小紅書發(fā)英文貼攬客OPPO Find X8 Ultra渲染圖曝光:外觀設(shè)計(jì)基本保持不變1月16日發(fā)布!真我14 Pro系列官宣:全球首款溫感變色手機(jī)三星Galaxy S25 Slim細(xì)節(jié)曝光:厚度僅6.5mm 對(duì)標(biāo)iPhone 17 Air斥資134億!TCL買下LG顯示廣州廠訊飛星火X1成為全國(guó)產(chǎn)算力平臺(tái)上唯一的深度推理大模型董明珠稱格力自研芯片設(shè)計(jì)制造封裝全鏈條完成微軟再次強(qiáng)調(diào)Win10將于10月14日終止支持,敦促用戶免費(fèi)升級(jí)至Win11Arm曾考慮將授權(quán)價(jià)格提高300% 并曾探討設(shè)計(jì)自有芯片OpenAI推出新功能“Tasks” ChatGPT可變身成AI私人助理三星Galaxy S25系列手機(jī)AI創(chuàng)作新境界:語(yǔ)音/文字加持“草圖轉(zhuǎn)圖像”
  • 首頁(yè) > 企業(yè)IT頻道 > 大數(shù)據(jù)

    一文讀懂什么是合成數(shù)據(jù)?

    2022年08月24日 15:50:44   來(lái)源:IT168

      如今,數(shù)據(jù)正在大規(guī)模地產(chǎn)生,為機(jī)器學(xué)習(xí)提供了絕佳的機(jī)會(huì)。然而,對(duì)于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)實(shí)踐者來(lái)說(shuō),這些數(shù)據(jù)的很大一部分仍然是超界的。嚴(yán)格的隱私管理、高昂的成本、長(zhǎng)時(shí)間的處理都阻礙了數(shù)據(jù)的分析。

      因此,Gartner預(yù)估85%的AI項(xiàng)目都將失敗,這就是合成數(shù)據(jù)的好處所在。

      合成數(shù)據(jù)是在詳細(xì)的算法和仿真的幫助下系統(tǒng)生成的人工數(shù)據(jù)。它是完全匿名的數(shù)據(jù),是真實(shí)數(shù)據(jù)的絕佳替代品,因?yàn)樗试S組織創(chuàng)建按需培訓(xùn)數(shù)據(jù),無(wú)論他們想要多大的規(guī)模。

      什么是合成數(shù)據(jù)?

      人工智能算法人工創(chuàng)建合成數(shù)據(jù),但它是在真實(shí)數(shù)據(jù)集上訓(xùn)練的,具有與原始數(shù)據(jù)相同的屬性。由于合成數(shù)據(jù)與實(shí)際數(shù)據(jù)沒(méi)有一對(duì)一的關(guān)聯(lián),因此重新識(shí)別的機(jī)會(huì)更少。

      因此,數(shù)據(jù)科學(xué)家可以自信地復(fù)制和使用數(shù)據(jù)進(jìn)行測(cè)試和建模,而不會(huì)有暴露個(gè)人身份信息的風(fēng)險(xiǎn),也不會(huì)與監(jiān)管機(jī)構(gòu)發(fā)生沖突。

      如何生成合成數(shù)據(jù)?

      有幾種方法可以生成合成數(shù)據(jù)。更簡(jiǎn)單的選擇包括蒙特卡洛模擬和從分布集中繪制數(shù)字,但如果數(shù)據(jù)集很復(fù)雜,通常首選生成模型。

      生成模型是基于神經(jīng)網(wǎng)絡(luò)的,它可以自動(dòng)從現(xiàn)實(shí)數(shù)據(jù)中找到的模式中學(xué)習(xí),并產(chǎn)生與現(xiàn)實(shí)數(shù)據(jù)精確匹配的信息。生成對(duì)抗網(wǎng)絡(luò)(GANs)和變分自編碼器(VAEs)是兩種常見(jiàn)的生成模型架構(gòu)。

      在GAN模型中,兩個(gè)神經(jīng)網(wǎng)絡(luò)模型(稱為生成器和鑒別器)在一個(gè)零和游戲中競(jìng)爭(zhēng),其中一個(gè)網(wǎng)絡(luò)的收益就是另一個(gè)網(wǎng)絡(luò)的損失。另一方面,變分自編碼器是工作在編碼器-解碼器概念上的無(wú)監(jiān)督模型。

      什么工具有助于合成數(shù)據(jù)的生成?

      下面是可以用來(lái)創(chuàng)建合成數(shù)據(jù)的工具示例:

      Datagen是一個(gè)合成數(shù)據(jù)集解決方案,提供逼真的數(shù)據(jù)集,可用于物聯(lián)網(wǎng)(IoT)、機(jī)器人和增強(qiáng)現(xiàn)實(shí)(AR)。

      Scikit-learn構(gòu)建于Matplotlib、NumPy和SciPy之上,是一個(gè)開源的Python庫(kù),提供了生成合成數(shù)據(jù)集的工具。

      Pydgben是一個(gè)Python庫(kù),它可以創(chuàng)建常見(jiàn)的條目,如姓名、工作、信用卡號(hào)碼、電子郵件地址等。

      并行域是一個(gè)合成數(shù)據(jù)平臺(tái),產(chǎn)生高質(zhì)量的傳感器數(shù)據(jù),以改善ML模型和計(jì)算機(jī)視覺(jué)工作流程。

      使用合成數(shù)據(jù)的好處

      在構(gòu)建機(jī)器學(xué)習(xí)模型時(shí),合成數(shù)據(jù)比其他類型的數(shù)據(jù)更具可擴(kuò)展性、更容易使用、更具有成本效益。

      可伸縮性。ML模型消耗大量數(shù)據(jù)。為了訓(xùn)練和測(cè)試的目的,根本不可能獲得如此大量的有關(guān)數(shù)據(jù)。借助合成數(shù)據(jù)工具,數(shù)據(jù)科學(xué)家可以創(chuàng)建任意數(shù)量的數(shù)據(jù)副本,以構(gòu)建高質(zhì)量的AI/ML模型。

      易用性。在處理真實(shí)數(shù)據(jù)時(shí),保護(hù)個(gè)人信息、消除不準(zhǔn)確信息和有效地處理不同格式的數(shù)據(jù)至關(guān)重要。合成數(shù)據(jù)處理起來(lái)要容易得多,因?yàn)樗谏w了私人信息、消除了錯(cuò)誤,并標(biāo)準(zhǔn)化了格式,以更直觀地進(jìn)行標(biāo)記。

      具有成本效益。獲取真實(shí)的培訓(xùn)數(shù)據(jù)可能會(huì)讓企業(yè)花費(fèi)大量資金。此外,手動(dòng)標(biāo)記它們是耗時(shí)的。有了合成數(shù)據(jù)生成工具,這一過(guò)程被簡(jiǎn)化,并證明是一個(gè)更經(jīng)濟(jì)和更快的過(guò)程。

      使用合成數(shù)據(jù)的挑戰(zhàn)

      合成數(shù)據(jù)提供了一些好處,但它也有一定的局限性。例如,一個(gè)顯著的缺點(diǎn)是,有效地使用合成數(shù)據(jù)需要高技能的分析師,他們知道如何使用復(fù)雜的數(shù)據(jù)生成器工具。這通常是困難的,因?yàn)樵诰蜆I(yè)市場(chǎng)上缺乏合格的人工智能工人。

      此外,合成數(shù)據(jù)只與原始數(shù)據(jù)一樣好,而真實(shí)數(shù)據(jù)往往充滿偏見(jiàn)。因此,當(dāng)神經(jīng)網(wǎng)絡(luò)在有偏差的歷史數(shù)據(jù)上訓(xùn)練時(shí),它們反映了相同的偏差。這通常會(huì)導(dǎo)致機(jī)器學(xué)習(xí)模型的輸出不準(zhǔn)確。

      合成數(shù)據(jù)的用例

      合成數(shù)據(jù)最突出的兩個(gè)應(yīng)用案例是自動(dòng)駕駛汽車和醫(yī)療保健。

      自動(dòng)駕駛。到目前為止,自動(dòng)駕駛汽車是合成數(shù)據(jù)的最佳用例。汽車制造商必須考慮數(shù)以百萬(wàn)計(jì)的場(chǎng)景,并收集相應(yīng)的數(shù)據(jù),以制造安全的汽車。這在現(xiàn)實(shí)中是不可能實(shí)現(xiàn)的,但通過(guò)合成數(shù)據(jù),組織可以生成任何可以想象的駕駛場(chǎng)景的數(shù)百萬(wàn)甚至數(shù)十億種排列,從而達(dá)成安全駕駛解決方案。

      醫(yī)療保健。醫(yī)療保健是一個(gè)高度監(jiān)管的行業(yè),有嚴(yán)格的法律管理患者數(shù)據(jù)的使用。由于合成數(shù)據(jù)是完全匿名的,不存在重新識(shí)別的風(fēng)險(xiǎn),醫(yī)療機(jī)構(gòu)可以輕松地使用它進(jìn)行科學(xué)研究、臨床試驗(yàn)和訓(xùn)練醫(yī)療行業(yè)的ML模型。

      合成數(shù)據(jù)的未來(lái)

      合成數(shù)據(jù)生成是創(chuàng)建具有成本效益和高度可伸縮數(shù)據(jù)的革命性方法。隨著人們對(duì)合成數(shù)據(jù)及其各種好處的認(rèn)識(shí)越來(lái)越多,越來(lái)越多的企業(yè)將挖掘其潛力以獲得好處。

      此外,隨著隱私法的收緊,企業(yè)將別無(wú)選擇,只能求助于合成數(shù)據(jù)。因此,它將繼續(xù)受到歡迎,直到它完全成為主流。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。