Nguồn hình ảnh: được tạo bởi công cụ AI không giới hạn
Các mô hình ngôn ngữ có khả năng tạo ra văn bản mạch lạc và theo ngữ cảnh, cách mạng hóa cách chúng ta giao tiếp với máy tính. Các mô hình ngôn ngữ lớn (LLM) đã đi đầu trong tiến bộ này, tìm hiểu các mô hình và sắc thái của ngôn ngữ con người bằng cách đào tạo một lượng lớn dữ liệu văn bản. Là người tiên phong trong cuộc cách mạng LLM, ChatGPT cực kỳ phổ biến đối với mọi người ở các lĩnh vực khác nhau.
Sức mạnh siêu phàm của LLM giúp xử lý nhiều nhiệm vụ khác nhau dễ dàng hơn. Chúng tôi sử dụng chúng để tóm tắt văn bản, soạn email, tự động hóa các tác vụ lập trình, diễn giải tài liệu, v.v. Tất cả những công việc này, vốn tốn nhiều thời gian cách đây một năm, giờ đây có thể được thực hiện trong vài phút.
Tuy nhiên, với nhu cầu hiểu biết đa phương thức ngày càng tăng, các mô hình cần xử lý và tạo nội dung theo các phương thức khác nhau như văn bản, hình ảnh và thậm chí cả video, do đó nhu cầu về các mô hình ngôn ngữ lớn đa phương thức (MLLM) đã xuất hiện. MLLM kết hợp sức mạnh của mô hình ngôn ngữ với sự hiểu biết trực quan, cho phép máy móc hiểu và tạo ra nội dung theo cách toàn diện hơn và nhận biết ngữ cảnh hơn.
Sau khi cơn sốt ChatGPT lắng xuống một chút, MLLM đã chiếm lĩnh lĩnh vực trí tuệ nhân tạo như một cơn bão, cho phép máy móc hiểu và tạo nội dung ở các chế độ khác nhau như văn bản và hình ảnh. Những mô hình này hoạt động tốt trong các nhiệm vụ như nhận dạng hình ảnh, nguyên tắc cơ bản về tầm nhìn và hiểu hướng dẫn. Tuy nhiên, làm thế nào để đào tạo hiệu quả những mô hình này vẫn còn là một thách thức. Thử thách lớn nhất là khi MLLM gặp phải những khung cảnh hoàn toàn xa lạ, nơi cả hình ảnh lẫn nhãn hiệu đều không rõ.
Hơn nữa, MLLM có xu hướng "bị lạc" khi xử lý các ngữ cảnh dài hơn. Các mô hình này chủ yếu dựa vào vị trí đầu và giữa, đó là lý do tại sao độ chính xác không thay đổi (tạm dừng hoặc giảm sút trong quá trình học tập hoặc hình thành kỹ năng) khi số lượng mẫu tăng lên. Do đó, MLLM gặp khó khăn với đầu vào dài hơn.
Bây giờ, hãy làm quen với học theo ngữ cảnh liên kết (LCL) để giải quyết các thách thức khác nhau trong MLLM.
Đối thoại trình diễn học tập theo ngữ cảnh liên kết được đề xuất; Nguồn:
Trong MLLM, có hai chiến lược đào tạo chính. Điều chỉnh nhắc nhở đa phương thức (M-PT) và Điều chỉnh lệnh đa phương thức (M-IT). M-PT chỉ tinh chỉnh một phần nhỏ các tham số của mô hình, phần còn lại không thay đổi. Cách tiếp cận này giúp đạt được kết quả tương tự với việc tinh chỉnh toàn diện đồng thời giảm thiểu tài nguyên tính toán. Mặt khác, M-IT nâng cao khả năng không bắn của MLLM bằng cách tinh chỉnh MLLM trên tập dữ liệu chứa các mô tả hướng dẫn. Chiến lược này cải thiện khả năng hiểu và đối phó với các nhiệm vụ mới của mô hình mà không cần đào tạo trước. Những phương pháp này đều có hiệu quả nhưng đều đi kèm với sự hy sinh.
Sự khác biệt giữa học tập theo ngữ cảnh và học tập theo ngữ cảnh liên kết. Nguồn: https://arxiv.org/abs/2308.07891
LCL khám phá các chiến lược đào tạo khác nhau: chiến lược kết hợp, chiến lược hai chiều, chiến lược ngẫu nhiên hai chiều và chiến lược có trọng số hai chiều. Đặc điểm nổi bật của chiến lược lai là có thể cải thiện đáng kể độ chính xác của mẫu 0 và đạt được kết quả ấn tượng khi số lượng mẫu đạt tới 6. Tuy nhiên, khi số lượng mẫu là 16, hiệu suất của nó sẽ giảm nhẹ. Ngược lại, độ chính xác của chiến lược hai chiều tăng dần từ 2 mẫu lên 16 mẫu, cho thấy nó gần với chế độ huấn luyện hơn.
Khác với học tập theo ngữ cảnh truyền thống, LCL tiến một bước xa hơn bằng cách cung cấp cho mô hình khả năng thiết lập ánh xạ giữa nguồn và mục tiêu, từ đó cải thiện hiệu suất tổng thể của nó. Bằng cách cung cấp các minh chứng về các liên kết nhân quả, LCL cho phép MLLM nhận ra không chỉ các điểm tương tự mà còn cả các liên kết nhân quả tiềm năng giữa các điểm dữ liệu, cho phép họ xác định các hình ảnh không nhìn thấy được một cách hiệu quả hơn và hiểu các khái niệm mới.
Ngoài ra, LCL còn giới thiệu bộ dữ liệu ISEKAI, một bộ dữ liệu mới và toàn diện dành riêng cho việc đánh giá khả năng của MLLM. Bộ dữ liệu ISEKAI bao gồm các hình ảnh được tạo hoàn chỉnh và các khái niệm được chế tạo. Nó thách thức MLLM tiếp thu các khái niệm mới từ các cuộc trò chuyện đang diễn ra và lưu giữ kiến thức này để trả lời chính xác các câu hỏi.
Tóm lại, LCL cung cấp những hiểu biết sâu sắc có giá trị về các chiến lược đào tạo được sử dụng cho các mô hình ngôn ngữ đa phương thức. Chiến lược kết hợp và chiến lược hai chiều cung cấp các cách khác nhau để cải thiện hiệu suất của các mô hình ngôn ngữ đa phương thức, mỗi phương thức đều có những ưu điểm và hạn chế riêng. Phân tích theo ngữ cảnh cho thấy những thách thức mà các mô hình ngôn ngữ đa phương thức gặp phải khi xử lý dữ liệu đầu vào dài hơn và nêu bật tầm quan trọng của việc nghiên cứu sâu hơn trong lĩnh vực này.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Tìm hiểu về LCL trong một bài viết: Khả năng học hỏi của các mô hình lớn đa phương thức có thể được nâng cao thông qua “lý luận nhân quả”
撰文: Ekrem Chetinkaya
Nguồn: MarkTechPost
Các mô hình ngôn ngữ có khả năng tạo ra văn bản mạch lạc và theo ngữ cảnh, cách mạng hóa cách chúng ta giao tiếp với máy tính. Các mô hình ngôn ngữ lớn (LLM) đã đi đầu trong tiến bộ này, tìm hiểu các mô hình và sắc thái của ngôn ngữ con người bằng cách đào tạo một lượng lớn dữ liệu văn bản. Là người tiên phong trong cuộc cách mạng LLM, ChatGPT cực kỳ phổ biến đối với mọi người ở các lĩnh vực khác nhau.
Sức mạnh siêu phàm của LLM giúp xử lý nhiều nhiệm vụ khác nhau dễ dàng hơn. Chúng tôi sử dụng chúng để tóm tắt văn bản, soạn email, tự động hóa các tác vụ lập trình, diễn giải tài liệu, v.v. Tất cả những công việc này, vốn tốn nhiều thời gian cách đây một năm, giờ đây có thể được thực hiện trong vài phút.
Tuy nhiên, với nhu cầu hiểu biết đa phương thức ngày càng tăng, các mô hình cần xử lý và tạo nội dung theo các phương thức khác nhau như văn bản, hình ảnh và thậm chí cả video, do đó nhu cầu về các mô hình ngôn ngữ lớn đa phương thức (MLLM) đã xuất hiện. MLLM kết hợp sức mạnh của mô hình ngôn ngữ với sự hiểu biết trực quan, cho phép máy móc hiểu và tạo ra nội dung theo cách toàn diện hơn và nhận biết ngữ cảnh hơn.
Sau khi cơn sốt ChatGPT lắng xuống một chút, MLLM đã chiếm lĩnh lĩnh vực trí tuệ nhân tạo như một cơn bão, cho phép máy móc hiểu và tạo nội dung ở các chế độ khác nhau như văn bản và hình ảnh. Những mô hình này hoạt động tốt trong các nhiệm vụ như nhận dạng hình ảnh, nguyên tắc cơ bản về tầm nhìn và hiểu hướng dẫn. Tuy nhiên, làm thế nào để đào tạo hiệu quả những mô hình này vẫn còn là một thách thức. Thử thách lớn nhất là khi MLLM gặp phải những khung cảnh hoàn toàn xa lạ, nơi cả hình ảnh lẫn nhãn hiệu đều không rõ.
Hơn nữa, MLLM có xu hướng "bị lạc" khi xử lý các ngữ cảnh dài hơn. Các mô hình này chủ yếu dựa vào vị trí đầu và giữa, đó là lý do tại sao độ chính xác không thay đổi (tạm dừng hoặc giảm sút trong quá trình học tập hoặc hình thành kỹ năng) khi số lượng mẫu tăng lên. Do đó, MLLM gặp khó khăn với đầu vào dài hơn.
Bây giờ, hãy làm quen với học theo ngữ cảnh liên kết (LCL) để giải quyết các thách thức khác nhau trong MLLM.
Trong MLLM, có hai chiến lược đào tạo chính. Điều chỉnh nhắc nhở đa phương thức (M-PT) và Điều chỉnh lệnh đa phương thức (M-IT). M-PT chỉ tinh chỉnh một phần nhỏ các tham số của mô hình, phần còn lại không thay đổi. Cách tiếp cận này giúp đạt được kết quả tương tự với việc tinh chỉnh toàn diện đồng thời giảm thiểu tài nguyên tính toán. Mặt khác, M-IT nâng cao khả năng không bắn của MLLM bằng cách tinh chỉnh MLLM trên tập dữ liệu chứa các mô tả hướng dẫn. Chiến lược này cải thiện khả năng hiểu và đối phó với các nhiệm vụ mới của mô hình mà không cần đào tạo trước. Những phương pháp này đều có hiệu quả nhưng đều đi kèm với sự hy sinh.
LCL khám phá các chiến lược đào tạo khác nhau: chiến lược kết hợp, chiến lược hai chiều, chiến lược ngẫu nhiên hai chiều và chiến lược có trọng số hai chiều. Đặc điểm nổi bật của chiến lược lai là có thể cải thiện đáng kể độ chính xác của mẫu 0 và đạt được kết quả ấn tượng khi số lượng mẫu đạt tới 6. Tuy nhiên, khi số lượng mẫu là 16, hiệu suất của nó sẽ giảm nhẹ. Ngược lại, độ chính xác của chiến lược hai chiều tăng dần từ 2 mẫu lên 16 mẫu, cho thấy nó gần với chế độ huấn luyện hơn.
Khác với học tập theo ngữ cảnh truyền thống, LCL tiến một bước xa hơn bằng cách cung cấp cho mô hình khả năng thiết lập ánh xạ giữa nguồn và mục tiêu, từ đó cải thiện hiệu suất tổng thể của nó. Bằng cách cung cấp các minh chứng về các liên kết nhân quả, LCL cho phép MLLM nhận ra không chỉ các điểm tương tự mà còn cả các liên kết nhân quả tiềm năng giữa các điểm dữ liệu, cho phép họ xác định các hình ảnh không nhìn thấy được một cách hiệu quả hơn và hiểu các khái niệm mới.
Ngoài ra, LCL còn giới thiệu bộ dữ liệu ISEKAI, một bộ dữ liệu mới và toàn diện dành riêng cho việc đánh giá khả năng của MLLM. Bộ dữ liệu ISEKAI bao gồm các hình ảnh được tạo hoàn chỉnh và các khái niệm được chế tạo. Nó thách thức MLLM tiếp thu các khái niệm mới từ các cuộc trò chuyện đang diễn ra và lưu giữ kiến thức này để trả lời chính xác các câu hỏi.
Tóm lại, LCL cung cấp những hiểu biết sâu sắc có giá trị về các chiến lược đào tạo được sử dụng cho các mô hình ngôn ngữ đa phương thức. Chiến lược kết hợp và chiến lược hai chiều cung cấp các cách khác nhau để cải thiện hiệu suất của các mô hình ngôn ngữ đa phương thức, mỗi phương thức đều có những ưu điểm và hạn chế riêng. Phân tích theo ngữ cảnh cho thấy những thách thức mà các mô hình ngôn ngữ đa phương thức gặp phải khi xử lý dữ liệu đầu vào dài hơn và nêu bật tầm quan trọng của việc nghiên cứu sâu hơn trong lĩnh vực này.