Stable Diffusion 3突然釋出!與Sora同架構,一切都更逼真了

 2024-02-23 00:49:54.0

Stable Diffusion 3,它終於來了!



足足醞釀一年之多,相比上一代一共進化了三大能力

來,直接上效果!

首先,是開掛的文字渲染能力

且看這黑板上的粉筆字:

Go Big or Go Home (不成功便成仁),這個倒是殺氣騰騰啊~



路牌、公交燈牌的霓虹效果:



還有刺繡上「勾」得快要看到針腳的「晚安」:



作品一擺出,網友就大呼:太精確了



以至於有人表示:趕緊把中文也安排上啊



其次,多主題提示能力直接拉滿。

什麼意思?你儘管一次性往提示詞中塞入n多「元素」,Stable Diffusion 3:漏一個算我輸。

吶,仔細瞅下圖,這裏面就有「宇航員」、「穿著芭蕾舞裙的小豬」、「粉色雨傘」、「戴著禮帽的知更鳥」,角落裏還有「Stable Diffusion」幾個大字(可不是什麼水印)。



有了這個能力,一幅作品你想多豐富就有多豐富。

最後,當屬影象質量,再次進化了一個度。

光看前面這些圖,就被衝擊到有沒有?!

而各種超清特寫,那是再信手拈來不過的了。



心動嗎?目前官方已開放排隊名單,大夥可以前往官網申請。

咳咳,也不得不說,最近這AI圈可真是相當熱鬧啊。

有網友直呼,我的電腦已經Hold不住了……



Stable Diffusion 3來了!

全新的Stable Diffusion效果有多好,再給大夥奉送一些。

當然,所有出圖均來自官方,比如StabilityAI媒體負責人:





不得不說,文字效果實在最為吸人眼球,各種形式都能呈現得相當清楚和「應景」。



而看到上面這幅圖,不得不想到「Midjourney尷尬亮相學術界:為生物學論文亂配圖」一事——有了SD3之後,我們是不是可以製作非常專業的學術配圖了?

除了這些,SD3的「酒精水墨畫」也相當別出心裁:



動漫風格:

again,你可以在上面加清晰的文字了。



由於目前需要排隊申請,大夥還不好實際測試摸底。

不過有機智的網友已經用相同的提示詞餵給了Midjourney(v 6.0)。

比如開頭的那張「紅蘋果與黑板字」(prompt:cinematic photo of a red apple on a table in a classroom, on the blackboard are the words 「go big or go home」 written in chalk)

最終Midjourney給出的結果如下:





從這組對比來看,可以說是高下立判——SD3無論是文字拼寫還是質量、色彩協調性等方面都更勝一籌。

技術方面,目前,模型可選擇的引數範圍在800M到8B。

詳細的技術報告還未公佈,官方目前只透露主要結合了擴散型transformer架構以及flow matching

前者實際上同Sora一樣,附上的技術論文正是22年William Peebles同謝賽寧合寫的DiT。



DiT首次將Transformer與擴散模型結合到了一起,相關論文被ICCV 2023錄用為Oral論文。

在該研究中,研究者訓練了潛在擴散模型,用對潛在 patch進行操作的 Transformer 替換常用的 U-Net 主幹網絡。他們通過以Gflops衡量的前向傳遞複雜度來分析擴散 Transformer (DiT) 的可擴充套件性。

而後者flow matching同樣也是來自22年,由Meta AI以及魏茨曼科學研究所的科學家完成。



他們提出了基於連續歸一化流(CNFs)的生成模型新正規化,以及flow matching的概念,這是一種基於迴歸固定條件概率路徑的向量場的免模擬CNFs的方法。結果發現使用帶有擴散路徑的flow matching,可以訓練出來的模型更穩健和穩定。

不過最近看了這麼多視訊生成進展,也有網友表示:



你覺得呢?

One More Thing

除此之外,也就在前一天,他們的視訊產品Stable Video正式開放公測。

基於SVD1.1(Stable Video Diffusion 1.1),人人可用。

主要支援文生視訊和圖生視訊兩個功能。



參考連結:
[1]stability.ai/news/stabl
[2]arxiv.org/abs/2212.0974
[3]arxiv.org/abs/2210.0274
[4]twitter.com/pabloaument

—完—

@量子位 · 追蹤AI技術和產品新動態

深有感觸的朋友,歡迎贊同、關注、分享三連վ'ᴗ' ի ❤

文章來源:量子位