Vua đa phương thức GPT-4V, 166 trang "hướng dẫn" được ra mắt! Và nó được sản xuất bởi Microsoft Team.
Loại giấy nào có thể viết được 166 trang?
Nó không chỉ đánh giá chi tiết hiệu suất của GPT-4V trong mười tác vụ hàng đầu mà còn thể hiện mọi thứ từ nhận dạng hình ảnh cơ bản đến suy luận logic phức tạp;
Nó cũng dạy một bộ đầy đủ các mô hình lớn đa phương thức kỹ năng sử dụng từ mẹo——
Nó dạy bạn từng bước cách viết các từ nhắc nhở từ 0 đến 1, và mức độ chuyên nghiệp của câu trả lời chỉ cần nhìn thoáng qua là có thể hiểu được, thực sự khiến ngưỡng sử dụng GPT-4V không tồn tại.
Điều đáng nói là tác giả của bài viết này cũng là một "tầng lớp toàn người Trung Quốc", bảy tác giả đều là người Trung Quốc, người đứng đầu là một nữ giám đốc nghiên cứu đã làm việc tại Microsoft 17 năm.
Trước khi phát hành báo cáo dài 166 trang, họ cũng đã tham gia nghiên cứu DALL·E 3 mới nhất của OpenAI và có hiểu biết sâu sắc về lĩnh vực này.
So với bài báo GPT-4V dài 18 trang của OpenAI, "Hướng dẫn ăn uống" 166 trang này ngay lập tức được coi là cuốn sách phải đọc đối với người dùng GPT-4V:
Một số cư dân mạng than thở: Đây không phải là một tờ giấy, nó gần như là một cuốn sách dày 166 trang.
Một số cư dân mạng đã hoảng sợ sau khi đọc:
Đừng chỉ nhìn vào chi tiết câu trả lời của GPT-4V, tôi thực sự lo sợ về khả năng tiềm tàng của AI.
Vậy chính xác “tài liệu” của Microsoft nói về điều gì và nó thể hiện “tiềm năng” gì về GPT-4V?
**Báo cáo 166 trang của Microsoft nói gì? **
Bài viết này nghiên cứu phương pháp GPT-4V, cốt lõi của nó dựa trên một từ-"thử".
Các nhà nghiên cứu của Microsoft đã thiết kế một loạt đầu vào bao gồm nhiều miền, đưa chúng vào GPT-4V, đồng thời quan sát và ghi lại đầu ra của GPT-4V.
Sau đó, họ đánh giá khả năng hoàn thành các nhiệm vụ khác nhau của GPT-4V, đồng thời đưa ra các kỹ thuật nhắc lời mới để sử dụng GPT-4V, bao gồm bốn khía cạnh chính:
**1. Cách sử dụng GPT-4V: **
5 cách sử dụng: hình ảnh đầu vào (hình ảnh), hình ảnh phụ (hình ảnh phụ), văn bản (văn bản), văn bản cảnh (văn bản cảnh) và con trỏ trực quan (con trỏ trực quan).
3 khả năng được hỗ trợ: làm theo hướng dẫn, chuỗi suy nghĩ và học tập theo từng bối cảnh.
Ví dụ: đây là khả năng làm theo hướng dẫn được GPT-4V thể hiện sau khi thay đổi phương pháp đặt câu hỏi theo chuỗi tư duy:
**2. Hiệu suất của GPT-4V trong 10 tác vụ chính: **
Hiểu biết trực quan trong thế giới mở, mô tả trực quan, kiến thức đa phương thức, lẽ thường, hiểu văn bản cảnh, lý luận tài liệu, viết Mã hóa, lý luận thời gian, lý luận trừu tượng, hiểu cảm xúc
Trong số đó có những loại "câu hỏi suy luận bằng hình ảnh" đòi hỏi chỉ số IQ mới có thể giải được:
**3. Nhắc nhở kỹ năng soạn thảo văn bản cho các mẫu xe đa phương thức cỡ lớn tương tự GPT-4V: **
Một kỹ thuật từ gợi ý đa phương thức mới "tham chiếu trực quan" được đề xuất, có thể chỉ ra nhiệm vụ quan tâm bằng cách chỉnh sửa trực tiếp hình ảnh đầu vào và được sử dụng kết hợp với các kỹ thuật từ gợi ý khác.
**4. Tiềm năng nghiên cứu & triển khai các mô hình lớn đa phương thức: **
Dự đoán có hai loại lĩnh vực mà các nhà nghiên cứu học tập đa phương thức nên tập trung vào, bao gồm triển khai (các kịch bản ứng dụng tiềm năng) và hướng nghiên cứu.
Ví dụ: đây là một trong những tình huống có thể xảy ra đối với GPT-4V được các nhà nghiên cứu tìm thấy - phát hiện lỗi:
Nhưng dù là công nghệ nhắc nhở mới hay các kịch bản ứng dụng của GPT-4V, điều mà mọi người quan tâm nhất chính là sức mạnh thực sự của GPT-4V.
Do đó, "sách hướng dẫn" này sau đó đã sử dụng hơn 150 trang để hiển thị nhiều bản demo khác nhau, trình bày chi tiết về khả năng của GPT-4V trước các câu trả lời khác nhau.
Chúng ta hãy xem ngày nay khả năng đa phương thức của GPT-4V đã phát triển đến mức nào.
Thành thạo hình ảnh trong lĩnh vực chuyên môn, có thể học thêm kiến thức ngay
Nhận dạng hình ảnh
Tất nhiên, cách nhận dạng cơ bản nhất chỉ là một miếng bánh, chẳng hạn như những người nổi tiếng thuộc mọi tầng lớp trong giới công nghệ, thể thao và giải trí:
Và bạn không chỉ có thể biết những người này là ai mà còn có thể hiểu được họ đang làm gì, chẳng hạn như trong hình bên dưới, Huang đang giới thiệu các sản phẩm card đồ họa mới của Nvidia.
Ngoài con người, các tòa nhà mang tính bước ngoặt cũng là một miếng bánh đối với GPT-4V, nó không chỉ có thể xác định tên, vị trí mà còn đưa ra những giới thiệu chi tiết.
△Trái: Quảng trường Thời đại, New York, phải: Đền Kinkakuji, Kyoto
Tuy nhiên, người, địa điểm càng nổi tiếng thì càng dễ đánh giá nên cần những bức ảnh khó thể hiện được khả năng của GPT-4V.
Ví dụ, trong hình ảnh y tế, đối với ảnh chụp CT phổi sau đây, GPT-4V đã đưa ra kết luận này:
Có sự đông đặc và mờ hình kính mờ ở nhiều vùng ở cả hai phổi và có thể bị nhiễm trùng hoặc viêm ở phổi. Cũng có thể có một khối hoặc nốt ở thùy trên của phổi phải.
Ngay cả khi không cho GPT-4V biết loại và vị trí của hình ảnh, nó vẫn có thể tự đánh giá nó.
Trong hình ảnh này, GPT-4V đã xác định thành công nó là hình ảnh chụp cộng hưởng từ (MRI) của não.
Đồng thời, GPT-4V cũng phát hiện một lượng lớn chất lỏng tích tụ, được coi là u thần kinh đệm cấp độ cao.
Sau khi đánh giá chuyên môn, kết luận mà GPT-4V đưa ra là hoàn toàn chính xác.
Ngoài những nội dung “nghiêm túc” này, các biểu tượng cảm xúc “di sản văn hóa phi vật thể” của xã hội loài người đương đại cũng đã được GPT-4V nắm bắt.
△Bản dịch máy, chỉ mang tính chất tham khảo
Nó không chỉ có thể diễn giải các meme bằng biểu tượng cảm xúc mà GPT-4 còn có thể nhìn thấy những cảm xúc được thể hiện qua biểu cảm của con người trong thế giới thực.
Ngoài những hình ảnh thật này, nhận dạng văn bản cũng là một nhiệm vụ quan trọng trong thị giác máy.
Về vấn đề này, GPT-4V không chỉ có thể nhận dạng các ngôn ngữ đánh vần bằng ký tự Latinh mà còn nhận dạng các ngôn ngữ khác như tiếng Trung, tiếng Nhật và tiếng Hy Lạp.
Ngay cả các công thức toán học viết tay:
### Lý do hình ảnh
Bản DEMO trình bày ở trên dù chuyên nghiệp hay khó hiểu đến đâu vẫn nằm trong phạm vi được công nhận, nhưng đây chỉ là phần nổi của tảng băng trôi về kỹ năng của GPT-4V.
Ngoài việc hiểu được nội dung trong hình, GPT-4V còn có khả năng suy luận nhất định.
Nói một cách đơn giản, GPT-4V có thể tìm ra sự khác biệt giữa hai hình ảnh (mặc dù vẫn còn một số lỗi).
Trong bộ ảnh sau đây, sự khác biệt giữa vương miện và nơ đã được GPT-4V phát hiện.
Nếu tăng độ khó lên, GPT-4V còn có thể giải được các bài toán đồ họa trong bài test IQ.
Những đặc điểm hay mối quan hệ logic trong ba câu hỏi trên tương đối đơn giản nhưng khó khăn sẽ nảy sinh tiếp theo:
Tất nhiên, khó khăn không nằm ở bản thân đồ họa, hãy chú ý đến dòng mô tả văn bản thứ tư trong hình, cách sắp xếp đồ họa trong câu hỏi ban đầu không phải như trong hình.
### Chú thích hình ảnh
Ngoài việc trả lời các câu hỏi khác nhau bằng văn bản, GPT-4V còn có thể thực hiện một loạt thao tác trên hình ảnh.
Ví dụ: chúng tôi có một bức ảnh nhóm của bốn gã khổng lồ AI và chúng tôi cần GPT-4V để đóng khung các nhân vật và gắn nhãn tên cũng như giới thiệu ngắn gọn của họ.
GPT-4V trước tiên trả lời những câu hỏi này bằng văn bản, sau đó đưa ra hình ảnh đã xử lý:
### Phân tích nội dung động
Ngoài những nội dung tĩnh này, GPT-4V cũng có thể thực hiện phân tích động, nhưng nó không cung cấp trực tiếp video cho mô hình.
Năm hình ảnh bên dưới được lấy từ video hướng dẫn làm sushi, nhiệm vụ của GPT-4V là đoán thứ tự xuất hiện của các hình ảnh này (dựa trên việc hiểu rõ nội dung).
Đối với cùng một loạt ảnh, có thể có nhiều cách hiểu khác nhau, đây là lý do tại sao GPT-4V sẽ đưa ra phán đoán dựa trên lời nhắc bằng văn bản.
Ví dụ, trong bộ tranh dưới đây, hành động của người đó là mở cửa hay đóng cửa sẽ dẫn đến kết quả phân loại hoàn toàn trái ngược nhau.
Tất nhiên, thông qua sự thay đổi trạng thái của các nhân vật trong nhiều bức tranh, chúng ta cũng có thể suy ra họ đang làm gì.
Hoặc thậm chí dự đoán điều gì sẽ xảy ra tiếp theo:
### "Học tại chỗ"
GPT-4V không chỉ có kỹ năng thị giác mạnh mẽ mà quan trọng là có thể học và bán được ngay.
Ví dụ: nếu GPT-4V được yêu cầu đọc bảng điều khiển ô tô, câu trả lời ban đầu thu được là sai:
Sau đó, tôi đã đưa ra phương thức cho GPT-4V bằng văn bản, nhưng câu trả lời này vẫn sai:
Sau đó tôi đưa ví dụ cho GPT-4V xem và câu trả lời cũng tương tự, nhưng tiếc là các con số được tạo thành ngẫu nhiên.
Chỉ một ví dụ quả thực là hơi nhỏ, nhưng khi số lượng mẫu tăng lên (thực tế là chỉ còn một mẫu nữa), công sức bỏ ra cuối cùng cũng được đền đáp và GPT-4V đã đưa ra câu trả lời chính xác.
GPT-4V chỉ hiển thị nhiều hiệu ứng như vậy, tất nhiên, nó cũng hỗ trợ nhiều lĩnh vực và nhiệm vụ hơn, không thể hiển thị từng cái một ở đây, nếu quan tâm, bạn có thể đọc báo cáo gốc.
Vậy nhóm nào đứng sau tác động của những hiện vật như GPT-4V này?
Lãnh đạo cựu sinh viên Thanh Hoa
Có tổng cộng 7 tác giả của bài viết này, tất cả đều là người Trung Quốc, trong đó có 6 tác giả chính.
Tác giả chính của dự án, Lijuan Wang, là giám đốc nghiên cứu chính về điện toán đám mây và AI tại Microsoft.
Cô tốt nghiệp Đại học Khoa học và Công nghệ Huazhong và nhận bằng Tiến sĩ tại Đại học Thanh Hoa ở Trung Quốc. Cô gia nhập Microsoft Research Asia vào năm 2006 và Microsoft Research tại Redmond vào năm 2016.
Lĩnh vực nghiên cứu của cô là học sâu và học máy dựa trên trí tuệ nhận thức đa phương thức, đặc biệt bao gồm đào tạo trước mô hình ngôn ngữ hình ảnh, tạo phụ đề hình ảnh, phát hiện mục tiêu và các công nghệ AI khác.
Địa chỉ gốc:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Microsoft đã viết sách hướng dẫn sử dụng GPT-4V: 166 trang giải thích đầy đủ và chi tiết, bao gồm các ví dụ demo từ nhanh chóng.
Nguồn: Qubit
Vua đa phương thức GPT-4V, 166 trang "hướng dẫn" được ra mắt! Và nó được sản xuất bởi Microsoft Team.
Loại giấy nào có thể viết được 166 trang?
Nó không chỉ đánh giá chi tiết hiệu suất của GPT-4V trong mười tác vụ hàng đầu mà còn thể hiện mọi thứ từ nhận dạng hình ảnh cơ bản đến suy luận logic phức tạp;
Nó cũng dạy một bộ đầy đủ các mô hình lớn đa phương thức kỹ năng sử dụng từ mẹo——
Nó dạy bạn từng bước cách viết các từ nhắc nhở từ 0 đến 1, và mức độ chuyên nghiệp của câu trả lời chỉ cần nhìn thoáng qua là có thể hiểu được, thực sự khiến ngưỡng sử dụng GPT-4V không tồn tại.
Trước khi phát hành báo cáo dài 166 trang, họ cũng đã tham gia nghiên cứu DALL·E 3 mới nhất của OpenAI và có hiểu biết sâu sắc về lĩnh vực này.
So với bài báo GPT-4V dài 18 trang của OpenAI, "Hướng dẫn ăn uống" 166 trang này ngay lập tức được coi là cuốn sách phải đọc đối với người dùng GPT-4V:
**Báo cáo 166 trang của Microsoft nói gì? **
Bài viết này nghiên cứu phương pháp GPT-4V, cốt lõi của nó dựa trên một từ-"thử".
Các nhà nghiên cứu của Microsoft đã thiết kế một loạt đầu vào bao gồm nhiều miền, đưa chúng vào GPT-4V, đồng thời quan sát và ghi lại đầu ra của GPT-4V.
Sau đó, họ đánh giá khả năng hoàn thành các nhiệm vụ khác nhau của GPT-4V, đồng thời đưa ra các kỹ thuật nhắc lời mới để sử dụng GPT-4V, bao gồm bốn khía cạnh chính:
**1. Cách sử dụng GPT-4V: **
5 cách sử dụng: hình ảnh đầu vào (hình ảnh), hình ảnh phụ (hình ảnh phụ), văn bản (văn bản), văn bản cảnh (văn bản cảnh) và con trỏ trực quan (con trỏ trực quan).
3 khả năng được hỗ trợ: làm theo hướng dẫn, chuỗi suy nghĩ và học tập theo từng bối cảnh.
Ví dụ: đây là khả năng làm theo hướng dẫn được GPT-4V thể hiện sau khi thay đổi phương pháp đặt câu hỏi theo chuỗi tư duy:
Hiểu biết trực quan trong thế giới mở, mô tả trực quan, kiến thức đa phương thức, lẽ thường, hiểu văn bản cảnh, lý luận tài liệu, viết Mã hóa, lý luận thời gian, lý luận trừu tượng, hiểu cảm xúc
Trong số đó có những loại "câu hỏi suy luận bằng hình ảnh" đòi hỏi chỉ số IQ mới có thể giải được:
Một kỹ thuật từ gợi ý đa phương thức mới "tham chiếu trực quan" được đề xuất, có thể chỉ ra nhiệm vụ quan tâm bằng cách chỉnh sửa trực tiếp hình ảnh đầu vào và được sử dụng kết hợp với các kỹ thuật từ gợi ý khác.
Dự đoán có hai loại lĩnh vực mà các nhà nghiên cứu học tập đa phương thức nên tập trung vào, bao gồm triển khai (các kịch bản ứng dụng tiềm năng) và hướng nghiên cứu.
Ví dụ: đây là một trong những tình huống có thể xảy ra đối với GPT-4V được các nhà nghiên cứu tìm thấy - phát hiện lỗi:
Chúng ta hãy xem ngày nay khả năng đa phương thức của GPT-4V đã phát triển đến mức nào.
Thành thạo hình ảnh trong lĩnh vực chuyên môn, có thể học thêm kiến thức ngay
Nhận dạng hình ảnh
Tất nhiên, cách nhận dạng cơ bản nhất chỉ là một miếng bánh, chẳng hạn như những người nổi tiếng thuộc mọi tầng lớp trong giới công nghệ, thể thao và giải trí:
Tuy nhiên, người, địa điểm càng nổi tiếng thì càng dễ đánh giá nên cần những bức ảnh khó thể hiện được khả năng của GPT-4V.
Ví dụ, trong hình ảnh y tế, đối với ảnh chụp CT phổi sau đây, GPT-4V đã đưa ra kết luận này:
Trong hình ảnh này, GPT-4V đã xác định thành công nó là hình ảnh chụp cộng hưởng từ (MRI) của não.
Đồng thời, GPT-4V cũng phát hiện một lượng lớn chất lỏng tích tụ, được coi là u thần kinh đệm cấp độ cao.
Sau khi đánh giá chuyên môn, kết luận mà GPT-4V đưa ra là hoàn toàn chính xác.
Nó không chỉ có thể diễn giải các meme bằng biểu tượng cảm xúc mà GPT-4 còn có thể nhìn thấy những cảm xúc được thể hiện qua biểu cảm của con người trong thế giới thực.
Về vấn đề này, GPT-4V không chỉ có thể nhận dạng các ngôn ngữ đánh vần bằng ký tự Latinh mà còn nhận dạng các ngôn ngữ khác như tiếng Trung, tiếng Nhật và tiếng Hy Lạp.
Bản DEMO trình bày ở trên dù chuyên nghiệp hay khó hiểu đến đâu vẫn nằm trong phạm vi được công nhận, nhưng đây chỉ là phần nổi của tảng băng trôi về kỹ năng của GPT-4V.
Ngoài việc hiểu được nội dung trong hình, GPT-4V còn có khả năng suy luận nhất định.
Nói một cách đơn giản, GPT-4V có thể tìm ra sự khác biệt giữa hai hình ảnh (mặc dù vẫn còn một số lỗi).
Trong bộ ảnh sau đây, sự khác biệt giữa vương miện và nơ đã được GPT-4V phát hiện.
Tất nhiên, khó khăn không nằm ở bản thân đồ họa, hãy chú ý đến dòng mô tả văn bản thứ tư trong hình, cách sắp xếp đồ họa trong câu hỏi ban đầu không phải như trong hình.
Ngoài việc trả lời các câu hỏi khác nhau bằng văn bản, GPT-4V còn có thể thực hiện một loạt thao tác trên hình ảnh.
Ví dụ: chúng tôi có một bức ảnh nhóm của bốn gã khổng lồ AI và chúng tôi cần GPT-4V để đóng khung các nhân vật và gắn nhãn tên cũng như giới thiệu ngắn gọn của họ.
Ngoài những nội dung tĩnh này, GPT-4V cũng có thể thực hiện phân tích động, nhưng nó không cung cấp trực tiếp video cho mô hình.
Năm hình ảnh bên dưới được lấy từ video hướng dẫn làm sushi, nhiệm vụ của GPT-4V là đoán thứ tự xuất hiện của các hình ảnh này (dựa trên việc hiểu rõ nội dung).
Ví dụ, trong bộ tranh dưới đây, hành động của người đó là mở cửa hay đóng cửa sẽ dẫn đến kết quả phân loại hoàn toàn trái ngược nhau.
GPT-4V không chỉ có kỹ năng thị giác mạnh mẽ mà quan trọng là có thể học và bán được ngay.
Ví dụ: nếu GPT-4V được yêu cầu đọc bảng điều khiển ô tô, câu trả lời ban đầu thu được là sai:
Vậy nhóm nào đứng sau tác động của những hiện vật như GPT-4V này?
Lãnh đạo cựu sinh viên Thanh Hoa
Có tổng cộng 7 tác giả của bài viết này, tất cả đều là người Trung Quốc, trong đó có 6 tác giả chính.
Lĩnh vực nghiên cứu của cô là học sâu và học máy dựa trên trí tuệ nhận thức đa phương thức, đặc biệt bao gồm đào tạo trước mô hình ngôn ngữ hình ảnh, tạo phụ đề hình ảnh, phát hiện mục tiêu và các công nghệ AI khác.
Địa chỉ gốc: