Midjourney mở ra đối thủ mạnh nhất, các đại gia tài trợ vòng hạt giống tụ tập, và phiên bản beta cho phép Musk vượt qua chỉ bằng một “chìa khóa”

**Nguồn:**Sức mạnh của máy

Trong một thời gian dài, Midjourney đã ngồi vững trên ngai vàng trong sơ đồ AIGC Vincent, với rất ít mối đe dọa cho đến khi công ty này xuất hiện.

Vào ngày 23 tháng 8, Ideogram AI, một công ty khởi nghiệp về trí tuệ nhân tạo sáng tạo, đã chính thức công bố: "Chúng tôi đang phát triển các công cụ trí tuệ nhân tạo tiên tiến nhất để giúp việc thể hiện sáng tạo trở nên dễ dàng hơn, thú vị hơn và hiệu quả hơn". Trang web chính thức viết.

Các thành viên cốt lõi của nhóm cũng là thành viên chính của nhóm Google Brain Imagen và Ideogram AI cũng được coi là đang cố gắng phát triển Imagen:

Mohammad Norouzi (CEO), Jonathan Ho (đồng sáng lập), William Chan và Chitwan Saharia là các tác giả chính của mô hình AI chuyển văn bản thành hình ảnh Imagen của Google và các bài viết liên quan đã lọt vào danh sách rút gọn cho bài báo xuất sắc của NeurIPS 2022.

Imagen sử dụng mô hình ngôn ngữ Transformer để chuyển đổi văn bản đầu vào thành một chuỗi các vectơ được nhúng. Sau đó, một loạt ba mô hình khuếch tán (mô hình khuếch tán) sẽ chuyển đổi các vectơ nhúng này thành hình ảnh 1024x1024 pixel.

Bởi vì nó đơn giản và dễ đào tạo về mặt khái niệm, đồng thời có thể tạo ra những hiệu ứng mạnh mẽ đáng ngạc nhiên, Imagen không chỉ định hình lại hiểu biết của mọi người về các mô hình khuếch tán mà còn mở ra một mô hình mới về đồ thị Vincent ngoài DALL-E 2.

Sau đó, sau khi Meta công bố mô hình AI video văn bản Make-A-Video, Google đã phát hành mô hình video Imagen Video (nhìn kìa, tên giống nhau), dựa trên mô hình phân tán video xếp tầng để tạo ra video độ phân giải cao.

Imagen Video kế thừa chức năng mô tả chính xác văn bản từ hệ thống hình ảnh tạo văn bản Imagen trước đó, dựa vào đó có thể tạo ra nhiều hình ảnh động sáng tạo khác nhau chỉ bằng mô tả đơn giản.

Các thành viên hiện tại của nhóm được hiển thị trên trang web chính thức.

"Nhóm sáng lập của chúng tôi đã lãnh đạo các dự án trí tuệ nhân tạo mang tính biến đổi tại Google Brain, UC Berkeley, Đại học Carnegie Mellon và Đại học Toronto." Trang web chính thức cho biết.

Mohammad Norouzi đã làm việc tại Google Brain 7 năm trước khi bắt đầu công việc kinh doanh riêng. Cấp độ cuối cùng tại Google là nhà khoa học nghiên cứu cấp cao, tập trung vào các mô hình sáng tạo. Ideogram AI có phạm vi nghiên cứu nền tảng rộng nhất về trí tuệ nhân tạo, bao gồm Imagen, Imagen Video, WaveGrad để tổng hợp giọng nói, Dịch máy thần kinh, học cách biểu diễn trực quanNghiên cứu tương phản, v.v. Các thành viên trong nhóm hợp tác cũng là nhiều nhất.

Người đồng sáng lập Jonathan Ho, tốt nghiệp Tiến sĩ tại UC Berkeley, đã thực hiện rất nhiều nghiên cứu về mô hình phổ biến đến nỗi sự ra đi của ông được những người trong ngành coi là một mất mát lớn đối với Google.

Vào tháng 4 năm 2022, Google đã đề xuất Mô hình khuếch tán video (Video Diffusion Models) và lần đầu tiên báo cáo kết quả của mô hình khuếch tán tạo video từ văn bản (có kết quả tốt). Mohammad Norouzi và Jonathan Ho là tác giả chính của bài báo.

Jonathan Ho cũng là một trong những người sáng lập ra mô hình khuếch tán và đề xuất mô hình khuếch tán khử nhiễu Mô hình xác suất khuếch tán khử nhiễu. (Điều thú vị là một trong những đồng tác giả Pieter Abbeel cũng là nhà đầu tư vào công ty này).

Chitwan Saharia dẫn đầu công việc nghiên cứu các mô hình khuếch tán hình ảnh sang hình ảnh tại Google. Ngoài công việc về mô hình khuếch tán, Willian chan còn làm việc về Nhận dạng giọng nói thần kinh khi còn ở Google, làm việc với Mohammad Norouzi về WaveGrad để tổng hợp giọng nói.

Có lẽ vì lo ngại về an toàn và đạo đức, Google cần phải đưa ra thêm các quy định để lựa chọn có nên mở nguồn Imagen và Imagen Video hay không.

“Chúng tôi đang vượt qua các giới hạn của trí tuệ nhân tạo, tập trung vào sự sáng tạo và các tiêu chuẩn cao về sự tin cậy và an toàn.” Thông báo chính thức kết luận.

Ảnh chụp màn hình trang web chính thức

Cùng ngày, công ty cũng thông báo rằng họ đã huy động được tổng cộng 16,5 triệu USD từ nguồn tài trợ ban đầu do a16z và Index Ventures dẫn đầu. Một số trụ cột trong ngành nổi tiếng cũng tham gia vào vòng đầu tư này.

Ví dụ: Ryan Dahl, cha đẻ của Node.js, Raquel Urtasun, Nhà khoa học trưởng tại Uber, Jeff Dean, Andrej Karpathy, Pieter Abbeel, Tom Preston-Werner, người sáng lập GitHub.

Đồng thời, công ty cũng thông báo về việc tung ra phiên bản beta công khai của v0.1. Chúng tôi cũng chỉ đơn giản là trải nghiệm nó. Hiện tại, chúng tôi chỉ cung cấp dịch vụ tạo hình ảnh từ văn bản, thao tác rất đơn giản, chỉ cần nhập yêu cầu của bạn, sau đó chọn kiểu dáng và tỷ lệ của hình ảnh được tạo ra.

Khả năng hiểu hệ thống vẫn tốt, đặc biệt là khả năng hiểu văn bản cần tạo trong ảnh. Nhược điểm là tốc độ phản hồi tương đối chậm, không hiểu được hướng dẫn của tiếng Trung và cần phải cải thiện khả năng hiểu không gian về bố cục.

trang hoạt động

"Ponyo lặn trong sữa cùng cá heo", AI dường như không hiểu được từ "sữa" trong lệnh mà đưa ra bức ảnh theo cách hiểu của mình (biển).

Chúng tôi đã thay đổi đầu vào: "Elon Musk nắm tay Lisa (blackpink) trên chiếc xe Tesla, (điện ảnh)"

Về cơ bản là đúng. Chỉ là khuôn mặt của cả hai đều có vấn đề, đây là Lisa?

Hãy để Musk du hành qua và thử phong cách Hanfu, và kết quả thực sự là một anh hùng.

「Elon Musk với mái tóc dài trong trang phục truyền thống Trung Quốc, ảnh」

"Blackpink Jennie nhưng béo lắm, ảnh ạ." Đúng rồi, sau khi tăng cân thì trông như thế này đây.

Chúng ta hãy xem kết quả của một số người dùng Twitter. Ngay cả khi một số văn bản cần được tạo trong ảnh đã tạo, hệ thống vẫn có thể thực hiện được.

例如, 「Một chú minion đáng yêu cầm một tấm biển có dòng chữ 『Kết thúc rồi, MidJourney』, đánh vần chính xác, kết xuất 3D, kiểu chữ」

Bạn bè trên Twitter cho biết mặc dù hệ thống không phải lúc nào cũng có thể viết đúng chính tả nhưng tỷ lệ thành công vẫn ở mức tốt.

「Một chú pikachu lông xù dễ thương đứng trên một mặt trăng bông lớn, cầm một tấm biển đèn neon có dòng chữ 『tới mặt trăng』 , kết xuất 3d」

Trong số những bộ phim được phát hành gần đây, cả "Barbie" và "Oppenheimer" đều thu hút được nhiều sự chú ý hơn. Người dùng Twitter đã yêu cầu tạo một thiết kế poster phim về "Barbenheimer (Barbenheimer)", đề cập đến phong cách Barbie và vũ khí hạt nhân. Hiệu quả như sau.

Mặc dù thông tin phim có khả năng xuất hiện sau thời hạn đào tạo nhưng hệ thống vẫn xử lý tốt từ ghép này. Ngoài ra, vấn đề cũ là khuôn mặt của các nhân vật chưa đủ đẹp.

「Từ 『siêu thực』được đánh vần và thể hiện trong một bức tranh, kiểu chữ siêu thực theo phong cách Dali」

「Người tuyết tan chảy trong núi lửa」

「Từ 『NVIDIA 』được hiển thị theo kiểu chữ mạch chip GPU, cyperpunk, khoa học viễn tưởng」

「Cô gái xinh đẹp trong bức tranh của Dali, với chú thích『Stanford』, kiểu chữ 」

Một con mèo ragdoll sành điệu đeo kính râm Gucci cầm tấm biển ghi Chủ nhật vui vẻ, nền đen, áp phích

Hiện trường có 4 đối tượng. Một kim tự tháp màu đỏ nằm trên một khối lập phương màu xanh. Một quả cầu màu vàng nằm bên dưới khối màu xanh. Một hình lục giác bằng đá cẩm thạch nằm ở bên trái của kim tự tháp, với khối màu xanh lam ở trên.

Có vẻ như sự hiểu biết hiện tại của hệ thống về bố cục và không gian vẫn chưa được áp dụng.

Trưng bày tác phẩm trên các trang chủ khác.

Liên kết ăn được:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 1
  • Chia sẻ
Bình luận
0/400
GateUser-bcf7bb63vip
· 2023-12-19 01:44
Làm thế nào để đăng ký này, tôi thấy rằng không có mã thông báo, bạn có cần đăng ký để nhận điểm không?
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)