在人工智能藝術(shù)創(chuàng)作工具的快速發(fā)展中,英偉達的研究人員推出了一種創(chuàng)新的文本到圖像個性化方法,名為 Perfusion。但與競爭對手相比,它并不是一個價值百萬美元的超級大型模型。Perfusion 的大小只有 100KB,訓練時間只需 4 分鐘,能夠在表達個性化概念時保持其特性,同時具有顯著的創(chuàng)造性和靈活性。
Perfusion 是由英偉達與以色列的特拉維夫大學合作撰寫的研究論文中介紹的。盡管其大小較小,但在特定版本的效率方面,它能夠勝過像 Stability AI的 Stable Diffusion v1.5. 新發(fā)布的 Stable Diffusion XL (SDXL)和 MidJourney 等領(lǐng)先的 AI 藝術(shù)生成器。
Perfusion 中的主要新想法被稱為「Key-Locking」。它通過在圖像生成過程中將用戶想要添加的新概念(如具體的貓或椅子)與更一般的類別相連接。例如,將這只貓與更廣泛的「貓科動物」的概念聯(lián)系起來。
這有助于避免過擬合,即模型過于狹窄地針對訓練樣例進行調(diào)整。過擬合使得 AI 難以生成新的創(chuàng)造性版本。
通過將新貓與貓科動物的一般概念聯(lián)系起來,模型可以以許多不同的姿勢、外觀和環(huán)境來描繪貓。但它仍然保留了基本的「貓性」,使它看起來像預期的貓的模樣,而不是任何隨機的貓科動物。
因此,簡單來說,Key-Locking 能夠讓 AI 靈活地表達個性化的概念,同時保持其核心身份。就像給藝術(shù)家以下指導:「畫一下我的貓湯姆,它正在睡覺、玩耍毛線和嗅花。」
為什么英偉達認為「少即是多」
Perfusion 還可以將多個個性化的概念合并到單個圖像中,實現(xiàn)自然互動,而不像現(xiàn)有工具那樣獨立學習概念。用戶可以通過文本提示引導圖像創(chuàng)作過程,合并像具體的貓和椅子這樣的概念。
Perfusion 提供了一個顯著的功能,允許用戶在推理期間通過調(diào)整一個只有 100KB 大小的模型控制視覺保真度(圖像)和文本對齊度(提示)之間的平衡。這種能力使用戶能夠輕松探索 Pareto 前沿(文本相似度與圖像相似度之間的權(quán)衡),并選擇符合其特定需求的最優(yōu)平衡,而無需重新訓練。值得注意的是,對模型進行訓練需要一些技巧。
過多地關(guān)注模型的復制會導致模型一遍又一遍地產(chǎn)生相同的輸出,并且使其過于嚴格地遵循提示而沒有自由通常會產(chǎn)生不好的結(jié)果。靈活調(diào)整生成器與提示的接近程度是是重要的定制組件。
其他 AI 圖像生成器也有讓用戶微調(diào)輸出的方法,但它們體積龐大。以 Stable Diffusion 中常用的微調(diào)方法 LoRA 為例,它可以增加幾十兆字節(jié)甚至超過 1GB 的應(yīng)用程序大小。另一種方法是文本反轉(zhuǎn)嵌入,它體積較小,但準確度較低。目前最準確的技術(shù)之一 Dreambooth 訓練的模型體積達 2GB 以上。
相比之下,英偉達表示,與前面提到的領(lǐng)先人工智能技術(shù)相比,Perfusion 可產(chǎn)生卓越的視覺質(zhì)量和提示對齊效果。與微調(diào)整個模型的方法相比,超高效的大小使得在微調(diào)生成圖像的方式時只更新所需的部分成為可能。
這項研究與英偉達日益專注于人工智能的發(fā)展方向保持一致。隨著英偉達的 GPU 繼續(xù)主導 AI 模型的訓練,該公司的股價今年已經(jīng)上漲了 230%。在 Anthropic、谷歌、微軟和百度等公司投入數(shù)十億美元進行生成 AI 的過程中,英偉達的創(chuàng)新 Perfusion 模型可能會給它帶來優(yōu)勢。
目前,英偉達只是發(fā)表了研究論文,并承諾很快發(fā)布代碼。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。