下單前先比價不花冤枉錢 同款圖書京東價低于抖音6折日媒感慨中國電動汽車/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒戲消委會吹風機品質(zhì)檢測結(jié)果揭曉 徠芬獨占鰲頭 共話新質(zhì)營銷力,2024梅花數(shù)據(jù)峰會圓滿落幕索尼影像專業(yè)服務(wù) PRO Support 升級,成為會員至少需注冊 2 臺 α 全畫幅相機、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機+7500mAh中端機寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開啟內(nèi)測雷神預告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設(shè)計預售 享365天只換不修國補期間電視迎來換機潮,最暢銷MiniLED品牌花落誰家?美團旗下微信社群團購業(yè)務(wù)“團買買”宣布年底停運消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機設(shè)備在海外,要再造一個京東物流?消息稱蘋果正為AirPods開發(fā)多項健康功能,包括心率監(jiān)測和溫度感應(yīng)一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗東芝全部業(yè)務(wù)實現(xiàn)盈利,退市裁員重組后終于賺錢
  • 首頁 > 云計算頻道 > 大模型

    英偉達發(fā)布新型 Perfusion AI 圖像生成器:只需 100KB 模型大小 就可創(chuàng)造性地描繪物體

    2023年08月03日 12:17:17   來源:站長之家

      在人工智能藝術(shù)創(chuàng)作工具的快速發(fā)展中,英偉達的研究人員推出了一種創(chuàng)新的文本到圖像個性化方法,名為 Perfusion。但與競爭對手相比,它并不是一個價值百萬美元的超級大型模型。Perfusion 的大小只有 100KB,訓練時間只需 4 分鐘,能夠在表達個性化概念時保持其特性,同時具有顯著的創(chuàng)造性和靈活性。

      Perfusion 是由英偉達與以色列的特拉維夫大學合作撰寫的研究論文中介紹的。盡管其大小較小,但在特定版本的效率方面,它能夠勝過像 Stability AI的 Stable Diffusion v1.5. 新發(fā)布的 Stable Diffusion XL (SDXL)和 MidJourney 等領(lǐng)先的 AI 藝術(shù)生成器。

      Perfusion 中的主要新想法被稱為「Key-Locking」。它通過在圖像生成過程中將用戶想要添加的新概念(如具體的貓或椅子)與更一般的類別相連接。例如,將這只貓與更廣泛的「貓科動物」的概念聯(lián)系起來。

      這有助于避免過擬合,即模型過于狹窄地針對訓練樣例進行調(diào)整。過擬合使得 AI 難以生成新的創(chuàng)造性版本。

      通過將新貓與貓科動物的一般概念聯(lián)系起來,模型可以以許多不同的姿勢、外觀和環(huán)境來描繪貓。但它仍然保留了基本的「貓性」,使它看起來像預期的貓的模樣,而不是任何隨機的貓科動物。

      因此,簡單來說,Key-Locking 能夠讓 AI 靈活地表達個性化的概念,同時保持其核心身份。就像給藝術(shù)家以下指導:「畫一下我的貓湯姆,它正在睡覺、玩耍毛線和嗅花。」

      為什么英偉達認為「少即是多」

      Perfusion 還可以將多個個性化的概念合并到單個圖像中,實現(xiàn)自然互動,而不像現(xiàn)有工具那樣獨立學習概念。用戶可以通過文本提示引導圖像創(chuàng)作過程,合并像具體的貓和椅子這樣的概念。

      Perfusion 提供了一個顯著的功能,允許用戶在推理期間通過調(diào)整一個只有 100KB 大小的模型控制視覺保真度(圖像)和文本對齊度(提示)之間的平衡。這種能力使用戶能夠輕松探索 Pareto 前沿(文本相似度與圖像相似度之間的權(quán)衡),并選擇符合其特定需求的最優(yōu)平衡,而無需重新訓練。值得注意的是,對模型進行訓練需要一些技巧。

      過多地關(guān)注模型的復制會導致模型一遍又一遍地產(chǎn)生相同的輸出,并且使其過于嚴格地遵循提示而沒有自由通常會產(chǎn)生不好的結(jié)果。靈活調(diào)整生成器與提示的接近程度是是重要的定制組件。

      其他 AI 圖像生成器也有讓用戶微調(diào)輸出的方法,但它們體積龐大。以 Stable Diffusion 中常用的微調(diào)方法 LoRA 為例,它可以增加幾十兆字節(jié)甚至超過 1GB 的應(yīng)用程序大小。另一種方法是文本反轉(zhuǎn)嵌入,它體積較小,但準確度較低。目前最準確的技術(shù)之一 Dreambooth 訓練的模型體積達 2GB 以上。

      相比之下,英偉達表示,與前面提到的領(lǐng)先人工智能技術(shù)相比,Perfusion 可產(chǎn)生卓越的視覺質(zhì)量和提示對齊效果。與微調(diào)整個模型的方法相比,超高效的大小使得在微調(diào)生成圖像的方式時只更新所需的部分成為可能。

      這項研究與英偉達日益專注于人工智能的發(fā)展方向保持一致。隨著英偉達的 GPU 繼續(xù)主導 AI 模型的訓練,該公司的股價今年已經(jīng)上漲了 230%。在 Anthropic、谷歌、微軟和百度等公司投入數(shù)十億美元進行生成 AI 的過程中,英偉達的創(chuàng)新 Perfusion 模型可能會給它帶來優(yōu)勢。

      目前,英偉達只是發(fā)表了研究論文,并承諾很快發(fā)布代碼。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。