DALL·E 3 sẽ được ra mắt để thử nghiệm! Bài toán phi hành gia cưỡi ngựa được giải quyết, 50 vật thể được mô tả trong một bức tranh và Microsoft đang tham gia sâu vào nghiên cứu hơn bao giờ hết
Thử nghiệm giới hạn DALL·E 3 đã được Microsoft Bing mở trước tiên. Hãy xem bạn có phải là một trong những hoàng đế châu Âu không?
△ từ WindowsMới nhất
Việc bạn chưa đạt được chứng chỉ cũng không thành vấn đề. Cùng với các bản xem trước nghiên cứu của bên thứ ba và các thử nghiệm nội bộ của nhân viên OpenAI, nhiều trường hợp thử nghiệm khác nhau lần lượt xuất hiện, đảm bảo sẽ rất thú vị.
Điều phóng đại nhất là "50 đối tượng khác nhau xuất hiện trong bức tranh được chỉ định" và hàng trăm đối tượng trong số đó đã được vẽ.
Ngoài cách sắp xếp gạch đơn giản, những đồ vật này có thể được kết hợp một cách sáng tạo hơn.
Đối với khái niệm phản thực tế về phi hành gia cưỡi ngựa, nhiều mô hình khác nhau của OpenAI và Google trước đây chỉ có thể vẽ các phi hành gia cưỡi ngựa**.
Bài báo thường được coi là một trường hợp thất bại và bị Marcus, người bi quan về AI vào thời điểm đó, chế nhạo.
Giờ đây, DALL·E 3 có thể dễ dàng xử lý vấn đề này với sự hỗ trợ của ChatGPT.
Sự tiến bộ vượt bậc của DALL·E 3 lần này không chỉ là kết quả nỗ lực của chính OpenAI mà còn là kết quả của sự hợp tác chung giữa ** và Microsoft**.
Mặc dù không được nêu rõ ràng nhưng có ít nhất ba kỹ sư và nhà nghiên cứu của Microsoft tham gia vào phần nghiên cứu trong danh sách đóng góp và hầu hết các thành viên trong phần tối ưu hóa suy luận đều đến từ nhóm Microsoft DeepSpeed.
Nhìn lại GPT-4, nó chủ yếu vẫn được OpenAI phát triển nội bộ và sau đó được cấp quyền truy cập mở vào Microsoft và các tổ chức nghiên cứu khác để thử nghiệm.
Sự thay đổi trong mô hình hợp tác** này cũng thể hiện sự ngày càng sâu sắc hơn trong mối quan hệ giữa hai công ty**.
Một bức tranh chỉ rõ 50 đồ vật
Được xác nhận bởi Giám đốc điều hành Microsoft Bing Mikhail Parakhin, một số ít phần trăm người dùng may mắn đã đủ điều kiện tham gia thử nghiệm.
Vì số lượng địa điểm thực sự có hạn nên cư dân mạng nóng lòng đưa ra ý tưởng của mình trên mạng và nhờ những người có tài khoản giúp thử nghiệm.
Cư dân mạng đề xuất vẽ 50 đối tượng khác nhau chỉ muốn kiểm tra xem DALL·E 3 có thể nhét được bao nhiêu đối tượng vào một bức tranh, tương tự như "cửa sổ ngữ cảnh" của mô hình ngôn ngữ lớn.
Nathan Shipley, một nhà thiết kế bên thứ ba, người đã nhận được phiên bản xem trước của nghiên cứu, đã chấp nhận thử thách.
Đầu tiên, anh yêu cầu ChatGPT liệt kê ngẫu nhiên 50 đồ vật hàng ngày, sau đó trực tiếp yêu cầu vẽ những đồ vật này vào một bức tranh. Từ nhắc hoàn chỉnh là ChatGPT tự hoàn thành và sau đó DALL·E 3 vẽ nó.
Tiếp theo, Nathan hỏi: "Bạn có thể tạo ra hình ảnh một vận động viên lướt sóng xếp những đồ vật này thành một đống trong khi lướt mạnh không?"
ChatGPT đã thêm một số chi tiết trong lời nhắc:
Một nam vận động viên lướt sóng người Polynesia trung niên với làn da rám nắng cầm trên tay 50 món đồ khi lướt sóng chăm chỉ, bao gồm một tách trà, một chiếc xe đạp, một chiếc ô... cùng vẻ mặt quyết tâm và có chút hoảng sợ khi những con sóng ập vào xung quanh. , cố gắng giữ thăng bằng những đồ vật này và chiếc ván lướt sóng của mình.
Kết quả là tôi có được một hình ảnh về cơ bản đáp ứng yêu cầu trong một lần thử, ngoại trừ biểu cảm của nhân vật trông giống hoảng loạn tột độ hơn là hoảng loạn nhẹ.
Sau đó, Nathan yêu cầu góc nhìn thấp hơn, lần này ChatGPT đã thay đổi mô tả nhân vật trong lời nhắc thành "một phụ nữ lớn tuổi người Tây Ban Nha".
Người xem cho rằng điều đó rất bất ngờ nhưng cũng chỉ ra lý do tại sao kích thước của chiếc bút chì lại không tương xứng với các đồ vật khác.
Một số người suy đoán rằng người mẫu chỉ biết một vật thể trông như thế nào chứ không biết kích thước tương đối của nó, đặc biệt vì những bức ảnh công khai về chiếc bút thường sử dụng ảnh chụp cận cảnh.
Ngoài ra, Nathan còn hỏi ChatGPT những thông số nào của màn hình mà người dùng có thể kiểm soát.
ChatGPT đã trả lời như sau:
mô tả:
Bạn có thể cung cấp mô tả chi tiết về hình ảnh mong muốn. Bạn càng cụ thể và chi tiết thì hình ảnh thu được sẽ càng gần với mong muốn của bạn.
Phong cách và phương tiện:
Bạn có thể chỉ định kiểu hoặc phương tiện của hình ảnh, chẳng hạn như "Tranh", "Ảnh", "Minh họa", "Hoạt hình", "Màu nước", "Kết xuất 3D", v.v.
Nghị quyết:
Theo mặc định, hình ảnh được tạo ở độ phân giải 1729x1024. Nhưng nếu mô tả của bạn đề xuất ảnh chân dung có chiều dài đầy đủ hoặc thứ gì đó phù hợp hơn với tỷ lệ khung hình cao thì hình ảnh sẽ được tạo ở độ phân giải 1024x1792. Bạn cũng có thể yêu cầu độ phân giải hình vuông (1024x1024) nếu cần.
Số lượng hình ảnh
: Nếu bạn không chỉ định một hình ảnh, tôi thường tạo bốn hình ảnh khác nhau dựa trên mô tả của bạn. Tuy nhiên, bạn có thể yêu cầu một số cụ thể (tối đa bốn).
Ôn lại
: Nếu bạn không hài lòng với kết quả ban đầu, bạn có thể cung cấp phản hồi và yêu cầu sửa đổi. Mặc dù tôi không thể trực tiếp sửa đổi các hình ảnh hiện có nhưng tôi có thể sử dụng phản hồi của bạn để tạo ra những hình ảnh mới phù hợp hơn với tầm nhìn của bạn.
Hạt giống ngẫu nhiên
: Nếu bạn muốn sửa đổi hình ảnh trước đó, tôi có thể sử dụng hạt giống trong siêu dữ liệu của hình ảnh đó để tạo phiên bản mới. Điều này đảm bảo tính nhất quán nhất định giữa hình ảnh gốc và hình ảnh đã sửa đổi.
Xin lưu ý,
Một số hạn chế được áp dụng. Ví dụ: không thể tạo trực tiếp hình ảnh của các nhân vật của công chúng và phong cách của các nghệ sĩ trong vòng 100 năm qua.
Trọng tâm là ở mặt sau:
**Tuy nhiên, tôi có thể đưa ra các lựa chọn thay thế hoặc sử dụng tính từ để nắm bắt bản chất của một phong cách cụ thể mà không cần trích dẫn trực tiếp. **
Đã giải câu đố về phi hành gia cưỡi ngựa
Trong số các nhân viên nội bộ của OpenAI, Will DePue là người tích cực nhất trong việc tiết lộ kết quả của bản dùng thử DALL·E 3.
Trong cuộc thử nghiệm phi hành gia cưỡi ngựa, ông nói rằng nó không thành công 100%.
Bạn có thể làm đúng sau hai hoặc ba lần thử vì GPT-4 làm việc với bạn để tinh chỉnh các từ gợi ý cho đến khi bạn làm đúng.
Với một chút nỗ lực, bạn có thể có được hầu hết mọi thứ bạn muốn.
Một số cư dân mạng đã cố gắng sử dụng MidJourney để đạt được kết quả tương tự, nhưng chỉ có thể nói rằng điều đó không phải là hoàn toàn không thể mà còn đòi hỏi rất nhiều nỗ lực.
Hầu như không thể, đòi hỏi nhiều kỹ thuật gợi ý và khó tái tạo.
Nếu bạn là người dùng MidJourney có kinh nghiệm, bạn cũng có thể thử xem nó có hoạt động không.
Trong thử thách “8 con hươu cao cổ uống nước” được cư dân mạng đưa ra, DALL·E 3 một lần nữa bộc lộ điểm yếu là khó đếm chính xác.
△ Đếm xem có bao nhiêu con hươu cao cổ trong hình
Những nỗ lực sai lầm hơn cũng dẫn đến một con hươu cao cổ hai đầu.
Bắt AI đếm chính xác không giải quyết được vấn đề lần này, nhưng ít nhất nó cũng giải quyết được vấn đề hiểu các mối quan hệ không gian.
Trong thử thách "Bốn con ngựa vằn chạy trên đồng cỏ, một con sư tử đuổi theo phía sau và một con đại bàng phía trên, không có con vật nào khác trong ảnh" do cư dân mạng đề xuất, mối quan hệ không gian về cơ bản là đúng, nhưng có thêm một phần ngựa vằn.
Để so sánh, cả DALL·E 2 và Stable Diffusion đều có hiểu biết kém hơn về các mối quan hệ không gian.
Adam Goldberg, người chịu trách nhiệm về phiên bản doanh nghiệp của ChatGPT tại OpenAI, cũng đăng nhiều kết quả chất lượng cao nhưng không chia sẻ lời nhắc.
Jerry Tworek, người chịu trách nhiệm viết mã AI và công cụ gọi điện, đã tạo ra nhiều bức tranh khái niệm trừu tượng, chẳng hạn như "Phân chia các tế bào cơ học".
và "Cây chương trình máy tính trên khắp thiên hà".
Microsoft OpenAI hợp tác
DALL·E 3 lần này đã có một cải tiến rất lớn. Ngoài việc tích hợp ChatGPT, phần tạo hình ảnh được thực hiện chính xác như thế nào?
Thật không may, với xu hướng OpenAI ngày càng tiến gần hơn, rất có thể nó sẽ không xuất bản các bài báo như hai thế hệ trước, chúng ta chỉ có thể đưa ra một vài phỏng đoán từ danh sách đóng góp.
Có năm tác giả trong bài báo DALL·E 2.
Đối với DALL·E 3, bất kể nhóm sản phẩm, bảo mật, truyền thông công cộng và pháp lý, 18 người đã tham gia chỉ riêng phần nghiên cứu.
Trong số đó có Yang Song, một cựu sinh viên Thanh Hoa, người đã đề xuất Mô hình nhất quán.
Mô hình nhất quán nhanh hơn mô hình khuếch tán phổ biến nhất và có thể tạo ra 64 256*256 hình ảnh trong 3,5 giây.
Tuy nhiên, đóng góp nghiên cứu của Song Yang lần này rất nhỏ, không rõ DALL·E 3 có sử dụng mô hình nhất quán hay không, nhiều khả năng là ông đã mượn phương pháp của mình trong mô hình khuếch tán cải tiến.
Ngoài ra, ngoài tác giả của DALL·E 2 và Ouyang Long của nhóm ChatGPT, còn có ít nhất ba nhà nghiên cứu đến từ Microsoft.
Tiến sĩ Jianfeng Wang tốt nghiệp Đại học Khoa học và Công nghệ Trung Quốc và là trưởng nhóm nghiên cứu tại Microsoft.
Tiến sĩ Lijuan Wang tốt nghiệp Đại học Thanh Hoa và làm giám đốc nghiên cứu tại Microsoft.
Cả hai đã tham gia nghiên cứu NUWA-Ininity, một thế hệ hình ảnh canvas vô tận.
Lindsey Li (Lindsey Li) là cựu sinh viên của Học viện Công nghệ Bắc Kinh. Cô đã nhận được hai bằng thạc sĩ tại Đại học Purdue và UC San Diego. Cô là nhà nghiên cứu cấp cao tại Microsoft và đã xuất bản nhiều bài báo hội nghị hàng đầu trong lĩnh vực đa phương thức.
Ngoài nghiên cứu, việc tối ưu hóa suy luận của DALL·E 3 còn có sự tham gia sâu sắc của nhóm Microsoft DeepSpeed.
Deepspeed là một thư viện tối ưu hóa deep learning mã nguồn mở giúp giảm mức tiêu thụ điện năng tính toán và mức sử dụng bộ nhớ, đồng thời đào tạo và suy luận các mô hình phân tán quy mô lớn thông qua khả năng song song tốt hơn trên phần cứng hiện có.
Nhiều người trong số họ bày tỏ sự vui mừng khi được tham gia vào công việc này và rất hào hứng với việc phát hành DALL·E 3.
Cuối cùng, trong số những đóng góp đặc biệt, có Giám đốc điều hành Bing Mikhail Parakhin của Microsoft và Phó chủ tịch Azure Cloud Misha Bilenko nằm trong số đó.
Microsoft cũng đã xác nhận trong các hoạt động phát hành trước đó rằng Bing sẽ trực tiếp tích hợp DALL·E 3.
Theo quy định hiện hành, DALL·E 2 trên Bing là miễn phí. 99 mã thông báo tăng tốc sẽ được phát hành. Nếu không có mã thông báo, việc xếp hàng sẽ mất nhiều thời gian hơn.
Mặc dù DALL·E 3 sẽ có giá 20 USD mỗi tháng trên ChatGPT Plus vào tháng 10.
Nhưng vì GPT-4 được cung cấp miễn phí trên Bing nên bạn cũng có thể mong đợi làn sóng DALL·E 3 chơi miễn phí trong tương lai~
Liên kết tham khảo:
[1]
[2]
[3]
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
DALL·E 3 sẽ được ra mắt để thử nghiệm! Bài toán phi hành gia cưỡi ngựa được giải quyết, 50 vật thể được mô tả trong một bức tranh và Microsoft đang tham gia sâu vào nghiên cứu hơn bao giờ hết
Nguồn: Qubit
Việc bạn chưa đạt được chứng chỉ cũng không thành vấn đề. Cùng với các bản xem trước nghiên cứu của bên thứ ba và các thử nghiệm nội bộ của nhân viên OpenAI, nhiều trường hợp thử nghiệm khác nhau lần lượt xuất hiện, đảm bảo sẽ rất thú vị.
Điều phóng đại nhất là "50 đối tượng khác nhau xuất hiện trong bức tranh được chỉ định" và hàng trăm đối tượng trong số đó đã được vẽ.
Bài báo thường được coi là một trường hợp thất bại và bị Marcus, người bi quan về AI vào thời điểm đó, chế nhạo.
Mặc dù không được nêu rõ ràng nhưng có ít nhất ba kỹ sư và nhà nghiên cứu của Microsoft tham gia vào phần nghiên cứu trong danh sách đóng góp và hầu hết các thành viên trong phần tối ưu hóa suy luận đều đến từ nhóm Microsoft DeepSpeed.
Sự thay đổi trong mô hình hợp tác** này cũng thể hiện sự ngày càng sâu sắc hơn trong mối quan hệ giữa hai công ty**.
Một bức tranh chỉ rõ 50 đồ vật
Được xác nhận bởi Giám đốc điều hành Microsoft Bing Mikhail Parakhin, một số ít phần trăm người dùng may mắn đã đủ điều kiện tham gia thử nghiệm.
Cư dân mạng đề xuất vẽ 50 đối tượng khác nhau chỉ muốn kiểm tra xem DALL·E 3 có thể nhét được bao nhiêu đối tượng vào một bức tranh, tương tự như "cửa sổ ngữ cảnh" của mô hình ngôn ngữ lớn.
Đầu tiên, anh yêu cầu ChatGPT liệt kê ngẫu nhiên 50 đồ vật hàng ngày, sau đó trực tiếp yêu cầu vẽ những đồ vật này vào một bức tranh. Từ nhắc hoàn chỉnh là ChatGPT tự hoàn thành và sau đó DALL·E 3 vẽ nó.
ChatGPT đã thêm một số chi tiết trong lời nhắc:
Một nam vận động viên lướt sóng người Polynesia trung niên với làn da rám nắng cầm trên tay 50 món đồ khi lướt sóng chăm chỉ, bao gồm một tách trà, một chiếc xe đạp, một chiếc ô... cùng vẻ mặt quyết tâm và có chút hoảng sợ khi những con sóng ập vào xung quanh. , cố gắng giữ thăng bằng những đồ vật này và chiếc ván lướt sóng của mình.
Kết quả là tôi có được một hình ảnh về cơ bản đáp ứng yêu cầu trong một lần thử, ngoại trừ biểu cảm của nhân vật trông giống hoảng loạn tột độ hơn là hoảng loạn nhẹ.
ChatGPT đã trả lời như sau:
Bạn có thể cung cấp mô tả chi tiết về hình ảnh mong muốn. Bạn càng cụ thể và chi tiết thì hình ảnh thu được sẽ càng gần với mong muốn của bạn.
Bạn có thể chỉ định kiểu hoặc phương tiện của hình ảnh, chẳng hạn như "Tranh", "Ảnh", "Minh họa", "Hoạt hình", "Màu nước", "Kết xuất 3D", v.v.
Theo mặc định, hình ảnh được tạo ở độ phân giải 1729x1024. Nhưng nếu mô tả của bạn đề xuất ảnh chân dung có chiều dài đầy đủ hoặc thứ gì đó phù hợp hơn với tỷ lệ khung hình cao thì hình ảnh sẽ được tạo ở độ phân giải 1024x1792. Bạn cũng có thể yêu cầu độ phân giải hình vuông (1024x1024) nếu cần.
: Nếu bạn không chỉ định một hình ảnh, tôi thường tạo bốn hình ảnh khác nhau dựa trên mô tả của bạn. Tuy nhiên, bạn có thể yêu cầu một số cụ thể (tối đa bốn).
: Nếu bạn không hài lòng với kết quả ban đầu, bạn có thể cung cấp phản hồi và yêu cầu sửa đổi. Mặc dù tôi không thể trực tiếp sửa đổi các hình ảnh hiện có nhưng tôi có thể sử dụng phản hồi của bạn để tạo ra những hình ảnh mới phù hợp hơn với tầm nhìn của bạn.
: Nếu bạn muốn sửa đổi hình ảnh trước đó, tôi có thể sử dụng hạt giống trong siêu dữ liệu của hình ảnh đó để tạo phiên bản mới. Điều này đảm bảo tính nhất quán nhất định giữa hình ảnh gốc và hình ảnh đã sửa đổi.
Một số hạn chế được áp dụng. Ví dụ: không thể tạo trực tiếp hình ảnh của các nhân vật của công chúng và phong cách của các nghệ sĩ trong vòng 100 năm qua.
Trọng tâm là ở mặt sau:
**Tuy nhiên, tôi có thể đưa ra các lựa chọn thay thế hoặc sử dụng tính từ để nắm bắt bản chất của một phong cách cụ thể mà không cần trích dẫn trực tiếp. **
Đã giải câu đố về phi hành gia cưỡi ngựa
Trong số các nhân viên nội bộ của OpenAI, Will DePue là người tích cực nhất trong việc tiết lộ kết quả của bản dùng thử DALL·E 3.
Trong cuộc thử nghiệm phi hành gia cưỡi ngựa, ông nói rằng nó không thành công 100%.
Với một chút nỗ lực, bạn có thể có được hầu hết mọi thứ bạn muốn.
Hầu như không thể, đòi hỏi nhiều kỹ thuật gợi ý và khó tái tạo.
Nếu bạn là người dùng MidJourney có kinh nghiệm, bạn cũng có thể thử xem nó có hoạt động không.
Những nỗ lực sai lầm hơn cũng dẫn đến một con hươu cao cổ hai đầu.
Microsoft OpenAI hợp tác
DALL·E 3 lần này đã có một cải tiến rất lớn. Ngoài việc tích hợp ChatGPT, phần tạo hình ảnh được thực hiện chính xác như thế nào?
Thật không may, với xu hướng OpenAI ngày càng tiến gần hơn, rất có thể nó sẽ không xuất bản các bài báo như hai thế hệ trước, chúng ta chỉ có thể đưa ra một vài phỏng đoán từ danh sách đóng góp.
Có năm tác giả trong bài báo DALL·E 2.
Mô hình nhất quán nhanh hơn mô hình khuếch tán phổ biến nhất và có thể tạo ra 64 256*256 hình ảnh trong 3,5 giây.
Tuy nhiên, đóng góp nghiên cứu của Song Yang lần này rất nhỏ, không rõ DALL·E 3 có sử dụng mô hình nhất quán hay không, nhiều khả năng là ông đã mượn phương pháp của mình trong mô hình khuếch tán cải tiến.
Ngoài ra, ngoài tác giả của DALL·E 2 và Ouyang Long của nhóm ChatGPT, còn có ít nhất ba nhà nghiên cứu đến từ Microsoft.
Tiến sĩ Jianfeng Wang tốt nghiệp Đại học Khoa học và Công nghệ Trung Quốc và là trưởng nhóm nghiên cứu tại Microsoft.
Tiến sĩ Lijuan Wang tốt nghiệp Đại học Thanh Hoa và làm giám đốc nghiên cứu tại Microsoft.
Cả hai đã tham gia nghiên cứu NUWA-Ininity, một thế hệ hình ảnh canvas vô tận.
Deepspeed là một thư viện tối ưu hóa deep learning mã nguồn mở giúp giảm mức tiêu thụ điện năng tính toán và mức sử dụng bộ nhớ, đồng thời đào tạo và suy luận các mô hình phân tán quy mô lớn thông qua khả năng song song tốt hơn trên phần cứng hiện có.
Nhưng vì GPT-4 được cung cấp miễn phí trên Bing nên bạn cũng có thể mong đợi làn sóng DALL·E 3 chơi miễn phí trong tương lai~
Liên kết tham khảo:
[1]
[2]
[3]