最近,麻省理工學院的研究人員在保護機器學習模型中的敏感數(shù)據(jù)方面取得了重大突破。研究團隊開發(fā)了一種機器學習模型,可以根據(jù)肺部掃描圖片準確預(yù)測患者是否患有肺癌,但是與全球醫(yī)院分享該模型可能會面臨惡意代理人進行數(shù)據(jù)提取的風險。為了解決這個問題,研究人員引入了一種新的隱私度量標準,稱為 “Probably Approximately Correct(PAC)Privacy”,以及一個確定保護敏感數(shù)據(jù)所需的最小噪音量的框架。
傳統(tǒng)的隱私方法,如差異隱私,主要通過添加大量噪音來防止對手區(qū)分特定數(shù)據(jù)的使用,這會降低模型的準確性。PAC 隱私從不同的角度評估對手在添加噪音后重構(gòu)敏感數(shù)據(jù)的困難程度。例如,如果敏感數(shù)據(jù)是人臉,差分隱私將防止對手確定數(shù)據(jù)集中是否存在特定個體的臉部。相反,PAC 隱私探討的是對手是否能夠提取出可以識別為特定個體臉部的近似輪廓。
為了實現(xiàn) PAC 隱私,研究人員開發(fā)了一種算法,確定向模型中添加的最佳噪音量,以確保即使在對手具有無限計算能力的情況下也能保持隱私。該算法依賴于對手從原始數(shù)據(jù)的不確定性或熵的角度。通過對數(shù)據(jù)進行子抽樣并多次運行機器學習訓(xùn)練算法,該算法比較不同輸出之間的方差,以確定所需的噪音量。方差越小,表示所需的噪音越少。
PAC 隱私算法的一個關(guān)鍵優(yōu)勢是不需要了解模型的內(nèi)部工作原理或訓(xùn)練過程。用戶可以指定對手在重構(gòu)敏感數(shù)據(jù)方面的置信水平,并且算法提供實現(xiàn)該目標所需的最佳噪音量。然而,值得注意的是,該算法不會估計由于向模型添加噪聲而導(dǎo)致的準確性損失。此外,由于在各種子采樣數(shù)據(jù)集上重復(fù)訓(xùn)練機器學習模型,實施 PAC Privacy 的計算成本可能會很高。
為了增強 PAC 隱私,研究人員建議修改機器學習訓(xùn)練過程以提高穩(wěn)定性,從而減少子樣本輸出之間的方差。這種方法將減少算法的計算負擔并最大限度地減少所需的噪聲量。此外,更穩(wěn)定的模型通常表現(xiàn)出更低的泛化誤差,從而對新數(shù)據(jù)進行更準確的預(yù)測。
雖然研究人員承認需要進一步探索穩(wěn)定性、隱私和泛化誤差之間的關(guān)系,但他們的工作在保護機器學習模型中的敏感數(shù)據(jù)方面邁出了一大步。通過利用 PAC 隱私,工程師們可以開發(fā)出在保護訓(xùn)練數(shù)據(jù)的同時保持準確性的模型,適用于實際應(yīng)用。借助減少所需噪音量的潛力,這種技術(shù)為醫(yī)療領(lǐng)域和其他領(lǐng)域中的安全數(shù)據(jù)共享開辟了新的可能性。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
11月11日,據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(DR.100EC.CN)數(shù)據(jù)顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費前列,女士夾克銷量同比增長72%,女士棉衣、女士羊毛衫銷量同比增長50%以上。男士外套銷量同比增長30%以上。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。