Midjourney 迎來最強對手，種子輪融資大佬雲集，測試版讓馬斯克一「鍵」穿越

2023-08-24 08:54:10

**來源：**機器之能

一直以來，Midjourney 穩坐AIGC 文生圖的王座，少有威脅，直到這家公司的出現。

8 月23 日，生成式人工智能創業公司Ideogram AI 正式官宣：「我們正在開發最先進的人工智能工具，使創意表達變得更容易、更有趣、更高效。」官網寫道。

團隊核心成員也是谷歌大腦Imagen 團隊主要成員， Ideogram AI 也被認為試圖將Imagen 發揚光大：

Mohammad Norouzi（CEO ）、Jonathan Ho (聯合創始人）、 William Chan 和Chitwan Saharia 都是谷歌文本至圖像AI 模型Imagen 的核心作者，相關論文曾入圍NeurIPS 2022 Outstanding paper 。

Imagen 使用Transformer 語言模型將輸入的文本轉換成一個嵌入式向量的序列。然後，連續的三個擴散模型（ diffusion model ）會將這些嵌入式的向量轉換成1024x1024 像素的圖片。

由於概念上簡單且易於訓練，還能產生驚人的強大效果，Imagen 不僅重塑了大家對擴散模型的認知，也開闢出一條DALL-E 2 以外的文生圖新範式。

後來，Meta 宣布其文本視頻AI 模型Make-A-Video 之後，谷歌又發布了視頻模型Imagen Video（看看，名字都差不多），基於級聯視頻擴散模型來生成高清視頻。

Imagen Video 繼承了此前Imagen 文本生成圖像系統的準確描繪文字的功能，以此為基礎，僅靠簡單描述產生各種創意動畫。

官網顯示的當前團隊成員。

「我們的創始團隊他們曾在谷歌大腦、UC 伯克利分校、卡內基梅隆大學和多倫多大學領導過變革性人工智能項目。」官網顯示。

Mohammad Norouzi 創業之前在谷歌大腦工作了7 年，在谷歌的最後級別是高級研究科學家，工作重點是生成模型。 Ideogram AI 在人工智能方面的基礎工作積累當中，他的涉獵範圍最廣，包括Imagen、Imagen Video 、用於語音合成的WaveGrad 、神經機器翻譯、用於學習視覺表示的對比學習等。合作的團隊成員也最多。

聯合創始人Jonathan Ho ，UC 伯克利博士畢業，在擴散模型方面做了非常重要的工作，以至於他的離開被業內人士視為谷歌的重大損失。

2022 年4 月，谷歌提出了視頻擴散模型（Video Diffusion Models），首次報告了擴散模型根據文本生成視頻的結果（效果不俗）。 Mohammad Norouzi 、Jonathan Ho 正是文章的主要作者。

Jonathan Ho 也是擴散模型奠基作品之一、提出去噪擴散模型Denoising Diffusion Probabilistic Models 一作。（有趣的是，合著者之一Pieter Abbeel 也是這家公司的投資人）。

Chitwan Saharia 在谷歌工作時，主要負責領導image-to-image 擴散模型的工作。除了擴散模型方面的工作，Willian chan 在谷歌工作時從事過神經語音識別研究，與Mohammad Norouzi 合作研究用於語音合成的 WaveGrad 。

或許是因為谷歌囿於安全、倫理方面的顧慮，需要再做進一步的規範，來選擇是否開源Imagen 和Imagen Video ，這些中堅力量決定離開創業。

「我們正在突破人工智能的極限，重點關注創造力以及信任和安全的高標準。」官宣最後寫道。

官網截圖

當天，公司還宣布已籌集由a16z 和Index Ventures 領投的總計1650 萬美元的種子融資。幾位如雷貫耳的行業中堅力量也參與了本輪投資。

例如，Node.js 之父Ryan Dahl 、Uber 首席科學家Raquel Urtasun、Jeff Dean、Andrej Karpathy、 Pieter Abbeel 、GitHub 創始人Tom Preston-Werner 。

同時，公司也宣布迎來v0.1 的公開測試版。我們也簡單體驗了一下。目前僅提供文字生成圖片的服務，操作很簡單，僅需輸入你的需求，然後選擇生成圖像的風格和比例即可。

系統理解能力還是不錯的，特別是對圖片中需要生成的文字的理解。缺點是響應速度比較慢，還不能理解中文指令，構圖的空間理解也有待提升。

操作頁面

「Ponyo diving in the milk with dorphin 」，AI 似乎無法理解命令裡的「milk」，而是按照自己的理解（sea）給出了畫面。

我們換了一個輸入：「 Elon Musk take hands with Lisa （blackpink ）in a Tesla car,( cinematic )」

基本正確。只是兩個人的臉蛋都有點問題，這是Lisa？

讓馬斯克穿越，嘗試一下漢服風格，結果還真有點大俠的感覺。

「穿著中國傳統服裝的長發埃隆·馬斯克，照片」

「 Blackpink Jennie but very fat, photo。」不錯，原來長胖了後大概是這個樣子。

再看看一些推特網友的使用結果。即使在生成的圖片裡還需要生成一些文字，系統也可以做到。

例如，“一個可愛的小黃人舉著一個牌子，上面寫著‘結束了，中途’，拼寫準確，3D 渲染，排版”

推友表示，雖然系統並不總是能夠正確拼寫，但成功率還是不錯的。

「一隻可愛的毛茸茸的皮卡丘站在一個毛茸茸的大月亮上，拿著一個霓虹燈標誌說『對月亮』，3D 渲染」

最近上映的電影中，《芭比》和《奧本海默》都比較引發關注，推友要求生成有關「巴本海默（barbenheimer）」的電影畫報設計，風格上參考芭比和核武器。效果如下。

雖然這些電影信息很可能出現在訓練截止日期之後，但係統還是很好地處理了這個合成詞。另外，老問題，人物的臉還不夠好。

「‘超現實’一詞以達利風格的超現實繪畫、排版拼寫和渲染”

「火山中融化的雪人」

「GPU 芯片電路排版中呈現的『NVIDIA』字樣，賽博朋克、科幻」

「達利畫中的美麗女孩，標題『斯坦福』，排版」

一隻時髦的布娃娃貓，戴著古馳太陽鏡，舉著一個寫著『週日快樂』的牌子，黑色背景，海報

場景中有4 個物體。一個紅色的金字塔位於一個藍色的立方體上面。一個黃色球體位於這個藍色立方體的下方。一個大理石六邊形位於金字塔的左邊，藍色立方體的頂部。

看來，系統目前對構圖和空間的理解還不到位。

其他首頁上的作品展示。

食用鏈接：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

2人點讚了這條動態

讚賞
2
1
分享

留言

0/400

GateUser-bcf7bb63

· 2023-12-19 01:44

这个怎么注册，看了没有代币，是需要注册得积分吗

回復0

話題
ETH突破3600
17405 熱度
特朗普施壓鮑威爾
11035 熱度
Gate 2025 Q2報告出爐
41988 熱度
4比特幣巨鯨動向
15459 熱度
5山寨季何時到來？
38684 熱度
6Gate衍生品交易量新高
17452 熱度
7加密法案投票周
6193 熱度
8MicroStrategy增持比特幣
2628 熱度
9BTC再創新高
93996 熱度
10我的Gate時刻
27479 熱度