由 Arm 驅動的 NVIDIA Project DIGITS 為數(shù)百萬開發(fā)者帶來高性能 AI 算力京東“洗烘套裝節(jié)”真便宜 海爾云溪洗烘套裝176L到手價5839元官方展示 OPPO Find N5 折疊屏手機單邊厚度:跟兩枚一元硬幣相當央視揭秘黃牛搶票細節(jié):一面“手機墻”幫一人搶票安全公司曝光 FunkSec 勒索木馬,據(jù)稱由 AI 大模型生成得力加入京東我給老家送年貨活動 為安徽學子送去5000套文具谷歌搜索霸主地位受挑戰(zhàn),自 2015 年來份額首次跌破 90%開發(fā)者成功在Xbox 360上運行Llama語言模型,挑戰(zhàn)老舊硬件極限安全公司警告:FunkSec 勒索木馬或由AI自動生成,85家企業(yè)受害AI語音廠商思必馳完成5億元融資三星首款三折疊Q2量產(chǎn):G型方案蘋果將推三款全新Apple Watch:衛(wèi)星連接、血壓監(jiān)測齊上陣阿里媽媽推出淘寶星辰視頻生成大模型、圖生視頻應用微軟畫圖應用新增 AI 擦除功能免費用,輕松刪除任意元素!新AI模型 LlamaV-o1,測試推理能力超越Claude3.5SonnetAdobe推出AI驅動Bulk Create,可一鍵批量編輯1萬張圖像連續(xù)三年獲獎!妙手ERP喜獲Shopee 2024年度最佳ERP合伙伙伴獎項!清華、復旦與斯坦福聯(lián)合開源 “Eko” 框架,讓Agent自動化操作電腦Mistral推出新一代編程模型Codestral25.01,編程速度提高兩倍英偉達開源圖像生成模型Sana ,1秒生圖、支持中英文和emoji
  • 首頁 > 產(chǎn)經(jīng)新聞頻道 > 業(yè)界新聞

    未來十年 AI迎來“小數(shù)據(jù)”時代?

    2022年02月22日 14:30:32   來源:科技云報道

      “不要相信那種(基于海量數(shù)據(jù)的AI優(yōu)勢)炒作。”作為全球AI和機器學習領域最權威的學者之一,吳恩達教授近期談到自己對下一步AI趨勢的看法。

      從事AI研究的人都非常清楚,數(shù)據(jù)在AI發(fā)展中扮演著至關重要的角色。

      傳統(tǒng)觀點認為,大量數(shù)據(jù)支撐起了尖端AI的發(fā)展,大數(shù)據(jù)也一直被奉為打造成功機器學習項目的關鍵之匙。作為深度學習的引擎,大數(shù)據(jù)與大模型已經(jīng)成功運行了15年。

    1.jpg

      如今,預訓練大模型已成為各家打造AI基礎設施的利器,業(yè)界出現(xiàn)了各種由大數(shù)據(jù)構建出的大模型,例如:

      Switch Transformer

      谷歌于2021 年1月11日提出,聲稱參數(shù)量從GPT-3的1750億提高到1.6萬億。Switch Transformer基于稀疏激活的專家模型(Mixture of Experts),論文中提到在計算資源相同的情況下,訓練速度可以達到T5 (Text-To-Text Transfer Transformer)模型的4-7倍。

      MT-NLG

      2021年年底,英偉達與微軟聯(lián)合發(fā)布了MT-NLG,該模型含參數(shù)5300億個,宣稱是目前最大的且最強的語言生成預訓練模型。

      悟道0

      2021年6月,北京智源研究院發(fā)布悟道2.0,參數(shù)規(guī)模達到1.75萬億,是GPT-3的10倍,超過了谷歌Switch Transformer的1.6萬億參數(shù)記錄。

      “封神榜”

      2021年11月,在深圳IDEA大會上,粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院(簡稱“IDEA”)理事長沈向洋正式宣布,開啟“封神榜”大模型開源計劃,涵蓋五個系列的億級自然語言預訓練大模型,其中包括了最大的開源中文BERT大模型“二郎神”系列。

      但值得注意的是,在某些場景下,大數(shù)據(jù)并不適用,“小數(shù)據(jù)”才是更好的解決方案。

      未來AI從大數(shù)據(jù)轉向小數(shù)據(jù)

      盡管業(yè)界在大數(shù)據(jù)和大模型取得了飛躍性的成果,但是這種規(guī)�;椒ǎ⒉贿m用于數(shù)據(jù)集不夠龐大的新興行業(yè)或傳統(tǒng)行業(yè)。

      在傳統(tǒng)行業(yè),基于公開數(shù)據(jù)的預訓練的大模型幾乎派不上用場。

      “龐大的搜索數(shù)據(jù)、經(jīng)濟數(shù)據(jù)對于檢測零部件缺陷毫無用處,對于醫(yī)療記錄也沒有太大的幫助。”吳恩達教授表示。

      更困難的是,與可獲取海量用戶數(shù)據(jù)的互聯(lián)網(wǎng)公司不同,傳統(tǒng)企業(yè)沒有辦法收集海量的特定數(shù)據(jù)來支撐AI訓練。

      例如,在汽車制造業(yè)中,由于精益6-sigma管理技術的廣泛應用,大多數(shù)零件制造商和一級供應商都盡量保證每百萬批次的產(chǎn)品中最多出現(xiàn)4個不合格產(chǎn)品。于是,制造商們就缺少了不合格產(chǎn)品的樣本數(shù)據(jù),從而很難訓練出性能良好的用于產(chǎn)品質檢的視覺檢測模型。

      最近一次的MAPI調查顯示:58%的研究對象認為,部署AI解決方案最主要的困難是數(shù)據(jù)源的缺乏。

      正如吳恩達教授所言:“過去十年,AI最大的轉變是深度學習,而接下來的十年,我認為會轉向以數(shù)據(jù)為中心。隨著神經(jīng)網(wǎng)絡架構的成熟,對于許多實際應用來說,瓶頸將會存在于“如何獲取、開發(fā)所需要的數(shù)據(jù)”。

      隨著各國數(shù)據(jù)和隱私安全法規(guī)紛紛落位,對AI技術監(jiān)管收緊,AI的大數(shù)據(jù)紅利期已經(jīng)一去不復返

      根據(jù)Gartner的報告,到2025年,70%的組織將被迫將重點從大數(shù)據(jù)轉移到小數(shù)據(jù)和泛數(shù)據(jù),為分析提供更多上下文——并減少AI對數(shù)據(jù)的需求。

      但這并不意味著AI的發(fā)展會受阻。相反,在小數(shù)據(jù)時代,AI同樣大有可為。

      吳恩達教授認為,基于融合式學習、增強式學習、知識轉移等方法,小數(shù)據(jù)也可以發(fā)揮大的作用,未來AI的趨勢之一是將從大數(shù)據(jù)向小數(shù)據(jù)過渡。

      小數(shù)據(jù)如何驅動AI?

      需要注意的是,小數(shù)據(jù)的“小”并不僅僅代表數(shù)據(jù)量小,也要求質量高的數(shù)據(jù),這一點尤為重要。小數(shù)據(jù)是指使用符合需求的數(shù)據(jù)類型構建模型,從而生成商業(yè)洞察和實現(xiàn)自動化決策。

      我們經(jīng)常會看到有人對AI期望過高,僅僅收集幾張圖片數(shù)據(jù),就期望獲得一個高質量的模型。在實際部署時,是要找出最適合用于模型構建的那部分數(shù)據(jù),用于輸出正確內容。

      對此,吳恩達教授舉例道:一個經(jīng)過訓練的機器學習系統(tǒng)在大部分數(shù)據(jù)集上的表現(xiàn)還不錯,卻只在數(shù)據(jù)的一個子集上產(chǎn)生了偏差。這時候,如果要為了提高該子集的性能,而改變整個神經(jīng)網(wǎng)絡架構,這是相當困難的。但是,如果能僅對數(shù)據(jù)的一個子集進行設計,那么就可以更有針對性的解決這個問題。

      例如,當背景中有汽車噪音時,有一個語音識別系統(tǒng)的表現(xiàn)會很差。了解了這一點,就可以在汽車噪音的背景下收集更多的數(shù)據(jù),而不是所有的工作都要收集更多的數(shù)據(jù),那樣處理起來會非常昂貴且費時。

      再比如,智能手機上有許多不同類型的缺陷,可能會是劃痕、凹痕、坑痕、材料變色或者其它類型的瑕疵。如果訓練過的模型在檢測缺陷時總體表現(xiàn)很好,但在坑痕上表現(xiàn)得很差,那么合成數(shù)據(jù)的生成就可以更有針對性地解決這個問題,只為坑痕類別生成更多的數(shù)據(jù)。

      事實上,小數(shù)據(jù)并不是一個全新的課題,在機器學習領域,小數(shù)據(jù)的處理方法已經(jīng)越來越多。

      少樣本學習

      通過少樣本學習技術,為機器學習模型提供少量訓練數(shù)據(jù),適合在模型處于完全監(jiān)督學習狀態(tài)而訓練數(shù)據(jù)不足時使用。

      少樣本學習技術經(jīng)常應用于計算機視覺領域。在計算機視覺中,模型可能不需要很多示例來識別某一對象。例如,具有用于解鎖智能手機的面部識別算法,無需數(shù)千張本人的照片便可開啟手機。

      知識圖譜

      知識圖譜屬于二級數(shù)據(jù)集,因為知識圖譜是通過篩選原始的大數(shù)據(jù)而形成的。知識圖譜由一組具有定義含義并描述特定域的數(shù)據(jù)點或標簽組成。

      例如,一個知識圖譜可能由一系列著名女演員名字的數(shù)據(jù)點組成,共事過的女演員之間以線(或稱之為邊)連接起來。知識圖譜是一種非常有用的工具,以一種高度可解釋和可重復使用的方式組織知識。

      遷移學習

      當一個機器學習模型作為另一模型的訓練起點,以幫助此模型完成相關任務時,就需要用到遷移學習技術。

      從本質上講,是將一個模型的知識遷移到另一個模型。以原始模型為起點,再使用額外數(shù)據(jù)來進一步訓練模型,從而培養(yǎng)模型處理新任務的能力。如果新任務不需要原始模型的某些構成部分,也可以將其刪除。

      在自然語言處理和計算機視覺等需要大量計算能力和數(shù)據(jù)的領域,遷移學習技術尤為有效。應用遷移學習技術可以減少任務的工作量和所需時間。

      自監(jiān)督學習

      自監(jiān)督學習的原理是,讓模型從現(xiàn)有的數(shù)據(jù)中收集監(jiān)督信號。模型利用現(xiàn)有數(shù)據(jù)來預測未觀測到的或隱藏的數(shù)據(jù)。

      例如,在自然語言處理中,數(shù)據(jù)科學家可能會在模型中輸入一個缺少單詞的句子,然后讓這個模型預測所缺少的單詞。從未隱藏的單詞中獲得足夠的背景線索后,模型便學會識別句中隱藏的單詞。

      合成數(shù)據(jù)

      當給定數(shù)據(jù)集存在缺失,而現(xiàn)有數(shù)據(jù)無法填補時,就可以利用合成數(shù)據(jù)。

      比較普遍的示例是面部識別模型。面部識別模型需要包含人類全部膚色的面部圖像數(shù)據(jù),但問題是,深色人臉的照片比淺色人臉的照片數(shù)據(jù)要少。數(shù)據(jù)科學家可以人工創(chuàng)建深色人臉數(shù)據(jù),以實現(xiàn)其代表的平等性,而不是創(chuàng)建一個難以識別深色人臉的模型。

      但機器學習專家必須在現(xiàn)實世界中更徹底地測試這些模型,并在計算機生成的數(shù)據(jù)集不足時,添加額外的訓練數(shù)據(jù)。

      小數(shù)據(jù)的大潛力

      如今,小數(shù)據(jù)的潛力正在被業(yè)界所重

      2021年9月,美國網(wǎng)絡安全和新興技術局(簡稱CSET)發(fā)布的《小數(shù)據(jù)人工智能的巨大潛力》報告指出,長期被忽略的小數(shù)據(jù)(Small Data)人工智能潛力不可估量!

      一是,縮短大小實體間AI能力差距。

      由于不同機構收集、存儲和處理數(shù)據(jù)的能力差異較大,AI的“富人”(如大型科技公司)和“窮人”之間正在拉開差距。使用小數(shù)據(jù)構建AI系統(tǒng),能夠大幅降低中小型企業(yè)進入AI的壁壘,減少傳統(tǒng)企業(yè)項目的研發(fā)時間和成本,將成為數(shù)以萬計的商業(yè)項目的重要突破口

      二是,促進數(shù)據(jù)匱乏領域的發(fā)展。

      對于許多亟待解決的問題如:為沒有電子健康記錄的人構建預測疾病風險的算法,或者預測活火山突然噴發(fā)的可能性,可用數(shù)據(jù)很少或者根本不存在。

      小數(shù)據(jù)方法以提供原則性的方式來處理數(shù)據(jù)缺失或匱乏。它可以利用標記數(shù)據(jù)和未標記數(shù)據(jù),從相關問題遷移知識。小數(shù)據(jù)也可以用少量數(shù)據(jù)點創(chuàng)建更多數(shù)據(jù)點,憑借關聯(lián)領域的先驗知識,或通過構建模擬或編碼結構假設去開始新領域的冒險。

      三是,避免臟數(shù)據(jù)問題。

      小數(shù)據(jù)方法能讓對“臟數(shù)據(jù)”煩不勝煩的大型機構受益。不可計數(shù)的“臟數(shù)據(jù)”需要耗費大量人力物力進行數(shù)據(jù)清理、標記和整理才能夠“凈化”,而小數(shù)據(jù)方法中數(shù)據(jù)標記法可以通過自動生成標簽更輕松地處理大量未標記的數(shù)據(jù)。遷移學習、貝葉斯方法或人工數(shù)據(jù)方法可以通過減少需要清理的數(shù)據(jù)量,分別依據(jù)相關數(shù)據(jù)集、結構化模型和合成數(shù)據(jù)來顯著降低臟數(shù)據(jù)問題的規(guī)模。

      四是,減少個人數(shù)據(jù)的收集。

      全球各國都陸續(xù)出臺了針對個人數(shù)據(jù)保護的政策法規(guī),用小數(shù)據(jù)方法能夠很大程度上減少收集個人數(shù)據(jù)的行為,通過人工合成數(shù)據(jù)或使用模擬訓練算法,讓使用機器學習變得更簡單,從而讓人們對大規(guī)模收集、使用或披露消費者數(shù)據(jù)不再擔憂。

      結語

      AI依賴巨量數(shù)據(jù)、數(shù)據(jù)是必不可少的戰(zhàn)略資源,但也絕不能低估小數(shù)據(jù)的潛力,尤其是在AI走向應用落地的下一個十年中,是時候從大數(shù)據(jù)轉向小數(shù)據(jù)、優(yōu)質數(shù)據(jù)了。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。