超大杯Stable Diffusion免費來襲! 「最強文生圖開放模型」,提示詞也更簡單

來源:量子位

Stable Diffusion最強版本,來了!

剛剛,SDXL 1.0正式發布,可免費在線試玩。

效果上,無論是以假亂真的寫實大片:

超現實的熊貓喝啤酒:

還是賽博朋克漫畫,都非常nice~

Stability AI表示,SDXL 1.0能生成更加鮮明準確的色彩,在對比度、光線和陰影方面做了增強,可生成100萬像素的圖像(1024×1024)。

而且還支持在網頁上直接對生成圖像進行後期編輯。

(有一股和Midjourney、Firefly打擂台的味兒了)

網友們已經按捺不住上手試玩了~

和基礎Stable Diffusion相比,SDXL 1.0生成結果更加準確和逼真。

而且官方表示,提示詞也能比之前更簡單了。

這是因為SDXL 1.0的基礎模型參數量達到了35億,理解能力更強。

對比基礎版Stable Diffusion,參數量只有10億左右。

由此,SDXL 1.0也成為當前最大規模的開放圖像模型之一。官方甚至直接說這就是世界上最好的開放圖像模型。

話不多說,我們來上手體驗了~

把馬斯克印在青花瓷上

SDXL 1.0在操作上很便捷,直接輸入即可,還能從下面勾選風格、尺寸參數等。

一次生成默認是出4張圖,如果不滿意還可以點下方“加號”讓它繼續畫。

官方介紹說,現在讓SDXL 1.0生成大作,無需再加入“傑作”這種提示詞了。

讓它生成一幅日漫風格的圖像,畫風非常貼合,而且在光影的處理上也更加自然了。

1990 年代動漫低分辨率屏幕抓取夫婦晚上在街上走開

或者是一幅風景照?也能以假亂真了。

甚至是讓馬斯克站在中式庭院裡,抬頭斜望著天空……

埃隆·馬斯克在中國古代宮殿

或者是把蘋果收購了?

在「WWDC」上,他舉著全新款iPhone向人們展示,身邊還圍滿了記者和粉絲(doge)。

埃隆·馬斯克 (Elon Musk) 在 WWDC 上發布新款 iPhone

除了這些老馬的洋蔥新聞之外,繪畫風格的作品效果也不錯。

左邊的是齊白石水墨風格,而右邊是一幅漫畫。

左:埃隆·馬斯克發表演講,水墨畫,齊白石風格 右:埃隆·馬斯克漫畫

除了繪畫,也可以把老馬放進我們的元青花。

元代青花瓷造型埃隆·馬斯克

上面展示的這些「老馬的故事」,用的都比較簡單。

但從效果並沒有因為提示詞簡單而拉胯,這也與官方的說法相印證。

不過我們還是想看看,如果用更加複雜精緻的,會是什麼樣子?

我們找到了Midjourney創作的一張老馬在蘇聯擔任汽修工人的珍貴照片,重新餵給MJ,讓它生成個。

MJ生成了下面這樣的,我們就用它來測試SDXL:

Elon Musk(這裡MJ生成的是一個男人)站在工作室裡,工業機械美學風格,德國製造聯盟,統一的舞台圖像,蘇聯,淺靛藍和深青銅色,新美國彩色攝影,詳細的面部特徵

風格完全符合我們的預期,細節也還不錯。

再來一個複雜的圖作為收尾,同樣是MJ根據此前的作品生成後餵給SDXL。

伊隆·馬斯克用筷子吃東西,彼得·庫爾森風格,交叉處理/處理,針孔攝影,香草修剪,詹姆斯·蒂索,跨先鋒,點測光

左邊是SDXL的作品,右邊是MJ的原版,大家可以對比一下。

提示詞同樣支持中文,不過似乎會在給出結果中傾向於國風,準確性可能也會受到影響。

比如輸入“一隻老虎在海邊”後,意外給出了一個國風妹子。

效果大家都已經看到了,那麼SDXL生成圖片的速度如何呢?

對於免費用戶來說,時間主要花費在排隊上了,不過也不會等待太久。

在5.5秒的時間內,排隊人數從160減少到了99。

除了生成圖像外,SDXL還提供了很多後期編輯功能。

具體來說,包括去除背景、細節處理、畫幅擴增等等。

這些功能是SDXL所在的Clipdrop平台上已有的,而SDXL可以一鍵將生成的圖片傳入對應模塊。

這裡我們選擇背景消除功能展示一下,可以看出邊緣的細節幾乎沒有什麼破綻。

目前,SDXL的免費使用額度還是比較高的,登錄後每個賬戶每天可生成400張(需要排隊)。

月付的價格是9美元每月,年付則相當於7美元(約50元人民幣)每月,包含了1500張每天的SDXL額度,且無需排隊。

不過不同區域的價格似乎也有所區別,比如阿根廷的年付價格平攤到每月是742比索(約合19.4元人民幣或2.7美元)。

此外,由於付費版本實際上是Clipdrop平台的Pro訂閱,所以也包含了該平台的其他功能。

除了Pro賬戶,還有API版本可供開發者使用(可以訪問Stability AI、Amazon等平台)。

開放圖像模型中的“最大杯”

在最新博客中,Stability AI介紹了SDXL 1.0的更多技術細節。

首先,模型在規模和架構上都有了新突破。

它創新性地使用了一個基礎模型(base model)+一個細化模型(refiner model)。

二者的參數規模分別為35億66億

這也使得SDXL 1.0成為目前規模最大的開放圖像模型之一

Stability AI創始人莫斯塔克(Emad Mostaque)表示,更大規模的參數量能讓模型理解更多概念,教會它更深層次的東西。

同時在SDXL 0.9版本還進行了RLHF強化。

這也是為什麼現在SDXL 1.0支持短提示詞,而且能分清紅場(the Red Square)和一個紅色的廣場(a Red Square)。

在具體合成過程中,第一步,基礎模型產生有噪聲的latent,然後由細化模型進行去噪。

其中基礎模型也可以作為獨立模塊使用。

這兩種模型結合能生成質量更好的圖像,且不需要消耗更多計算資源。

官方介紹SDXL 1.0可以運行在8GB VRAM的消費級GPU上,或者是雲端。

除此之外,SDXL 1.0在微調也有了提升,可以生成自定義LoRAs或者checkpoints。

Stability AI團隊現在也正在構建新一代可用於特定任務的結構、風格和組合控件,其中T2I/ControlNet專門用於SDXL。

不過目前這些功能還處於beta測試階段,後續可以關注官方更新。

總結來說,文生圖都是一個逐漸迭代的過程,SDXL 1.0的目標就是讓這個過程更加簡單。

莫斯塔克表示,現在只需要5-10張圖片,就能快速微調模型。

從用戶反饋中也能看到,相較於Stable Diffusion,SDXL 1.0更能讓大家滿意。

實際上,從今年4月以來,Stability AI就發布了SDXL最早的測試版。

6月份開始進行內測,前段時間發布了0.9版本,當時就預告了會在7月發布一個開放版本,即最新的1.0版本。目前相關代碼權重已經發佈在GitHub上。

而且Stability AI機器學習負責人表示,相較於SDXL 0.9,1.0版本降低了對算力的需求。

感興趣的童鞋快去試玩吧~

試玩入口:

GitHub:

參考鏈接: [1] [2] [3]

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)