Stable Diffusion 3,它終於來了!
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/3bb8ba7b044eeb31f21857331c8d7b7a.jpg)
足足醞釀一年之多,相比上一代一共進化了三大能力。
來,直接上效果!
首先,是開掛的文字渲染能力。
且看這黑板上的粉筆字:
Go Big or Go Home (不成功便成仁),這個倒是殺氣騰騰啊~
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/42fe91534d7cdbf3d8569d901ce5ad39.jpg)
路牌、公交燈牌的霓虹效果:
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/554a33ddc5de0850e8d7dff54d6fea33.jpg)
還有刺繡上「勾」得快要看到針腳的「晚安」:
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/b24e69eb66f4586f25487a93b0808d71.jpg)
作品一擺出,網友就大呼:太精確了。
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/10496ad18f4bfebb0c598ca38a27c9fc.jpg)
以至於有人表示:趕緊把中文也安排上啊。
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/f58c27a43e2e734d29a12ebdfd07c352.jpg)
其次,多主題提示能力直接拉滿。
什麼意思?你儘管一次性往提示詞中塞入n多「元素」,Stable Diffusion 3:漏一個算我輸。
吶,仔細瞅下圖,這裏面就有「宇航員」、「穿著芭蕾舞裙的小豬」、「粉色雨傘」、「戴著禮帽的知更鳥」,角落裏還有「Stable Diffusion」幾個大字(可不是什麼水印)。
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/9d2b28eb3f83d952718b86e17c7928cd.jpg)
有了這個能力,一幅作品你想多豐富就有多豐富。
最後,當屬影象質量,再次進化了一個度。
光看前面這些圖,就被衝擊到有沒有?!
而各種超清特寫,那是再信手拈來不過的了。
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/2556afe8bcfd282940964a20503e4f3a.jpg)
心動嗎?目前官方已開放排隊名單,大夥可以前往官網申請。
咳咳,也不得不說,最近這AI圈可真是相當熱鬧啊。
有網友直呼,我的電腦已經Hold不住了……
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/6214425c5c10cd8b38db42ed17924eed.jpg)
Stable Diffusion 3來了!
全新的Stable Diffusion效果有多好,再給大夥奉送一些。
當然,所有出圖均來自官方,比如StabilityAI媒體負責人:
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/99c32ef8a2162af25158162323b05c59.jpg)
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/8ad5dcb9a2ce94412e53e41c56ee300f.jpg)
不得不說,文字效果實在最為吸人眼球,各種形式都能呈現得相當清楚和「應景」。
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/7c72816e344e20b50591e1b6b53198c1.jpg)
而看到上面這幅圖,不得不想到「Midjourney尷尬亮相學術界:為生物學論文亂配圖」一事——有了SD3之後,我們是不是可以製作非常專業的學術配圖了?
除了這些,SD3的「酒精水墨畫」也相當別出心裁:
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/61307db03c6809ce70454b081f4407ed.jpg)
動漫風格:
again,你可以在上面加清晰的文字了。
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/01f8b8e5d857523f41bd2e478dfc38be.jpg)
由於目前需要排隊申請,大夥還不好實際測試摸底。
不過有機智的網友已經用相同的提示詞餵給了Midjourney(v 6.0)。
比如開頭的那張「紅蘋果與黑板字」(prompt:cinematic photo of a red apple on a table in a classroom, on the blackboard are the words 「go big or go home」 written in chalk)
最終Midjourney給出的結果如下:
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/4d918ea8c7d99541e1f53d24a125e26d.jpg)
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/e022f71bb5cd659ce7de19c544bd5e44.jpg)
從這組對比來看,可以說是高下立判——SD3無論是文字拼寫還是質量、色彩協調性等方面都更勝一籌。
技術方面,目前,模型可選擇的引數範圍在800M到8B。
詳細的技術報告還未公佈,官方目前只透露主要結合了擴散型transformer架構以及flow matching。
前者實際上同Sora一樣,附上的技術論文正是22年William Peebles同謝賽寧合寫的DiT。
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/9ead65eceb83d88175da5b3dae66a23a.jpg)
DiT首次將Transformer與擴散模型結合到了一起,相關論文被ICCV 2023錄用為Oral論文。
在該研究中,研究者訓練了潛在擴散模型,用對潛在 patch進行操作的 Transformer 替換常用的 U-Net 主幹網絡。他們通過以Gflops衡量的前向傳遞複雜度來分析擴散 Transformer (DiT) 的可擴充套件性。
而後者flow matching同樣也是來自22年,由Meta AI以及魏茨曼科學研究所的科學家完成。
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/bd7a378dcc17ab1e6e845674c3a2f8b5.jpg)
他們提出了基於連續歸一化流(CNFs)的生成模型新正規化,以及flow matching的概念,這是一種基於迴歸固定條件概率路徑的向量場的免模擬CNFs的方法。結果發現使用帶有擴散路徑的flow matching,可以訓練出來的模型更穩健和穩定。
不過最近看了這麼多視訊生成進展,也有網友表示:
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/41a74efa919dfcc777ae60f98ff2b9ce.jpg)
你覺得呢?
One More Thing
除此之外,也就在前一天,他們的視訊產品Stable Video正式開放公測。
基於SVD1.1(Stable Video Diffusion 1.1),人人可用。
主要支援文生視訊和圖生視訊兩個功能。
![](https://i3.res.bangqu.com/farm/liang/news/2024/02/23/ae15daf8f5c0f77afb2f277bd89c2473.jpg)
參考連結:
[1]https://stability.ai/news/stable-diffusion-3
[2]https://arxiv.org/abs/2212.09748
[3]https://arxiv.org/abs/2210.02747
[4]https://twitter.com/pabloaumente/status/1760678508173660543
—完—
@量子位 · 追蹤AI技術和產品新動態
深有感觸的朋友,歡迎贊同、關注、分享三連վ'ᴗ' ի ❤