Hai dòng mã để giải quyết những hạn chế của đối thoại mô hình ngôn ngữ lớn! Nhóm của Trung Quốc Hồng Kông, Jia Jiaya và MIT đã phát hành công nghệ mở rộng văn bản siêu dài
Lạc giữa chừng, người mẫu lười biếng, bối cảnh càng dài, người mẫu càng ngu ngốc... Nếu bạn đã trải nghiệm các sản phẩm mô hình ngôn ngữ lớn, người dùng sẽ cảm thấy giới hạn về độ dài đầu vào văn bản ở một mức độ nào đó, chẳng hạn như khi bạn muốn thảo luận về một số nội dung dài hơn một chút với mô hình lớn, bạn cần chia nhỏ đầu vào và các điểm chính của đầu vào trước đó sẽ sớm bị mô hình lớn lãng quên.
Đây là một khiếm khuyết đối thoại mô hình ngôn ngữ lớn điển hình! Giống như những đứa trẻ sinh ra với sự thiếu tập trung, rất khó để tập trung vào việc hoàn thành một cuốn sách mới. Chìa khóa của khiếm khuyết là mô hình thiếu khả năng xử lý văn bản dài. Điều đó bây giờ đã bị phá vỡ.
Gần đây, các công nghệ mới và mô hình mới do nhóm của Jia Jiaya và MIT phát hành lặng lẽ xuất hiện trong danh sách nóng của các trang web mã nguồn mở lớn: danh sách nóng ôm mặt trước, paperwithcode hot đầu tiên, Github tất cả các dự án python hot thứ năm, sao GitHub vượt quá 1.000 trong một tuần và các bài đăng kỹ thuật liên quan trên Twitter đã được xem gần 180.000...
GitHub Stars đã đạt 1.3K
Các bài đăng công nghệ liên quan trên Twitter nhận được gần 180.000 lượt xem
Công nghệ này, được gọi là LongLoRA, thực tế nhưng đơn giản đáng ngạc nhiên: chỉ với hai dòng mã và máy A100 8 thẻ, độ dài văn bản của mô hình 7B có thể được mở rộng lên 100k mã thông báo và độ dài văn bản của mô hình 70B có thể được mở rộng lên 32k mã thông báo; Đồng thời, nhóm nghiên cứu cũng cho ra mắt LongAlpaca, mô hình đối thoại văn bản dài đầu tiên với thông số 70B.
** Mô hình ngôn ngữ lớn văn bản dài 70B đầu tiên trên thế giới được phát hành **
Đề xuất của LongLoRA đã lần đầu tiên giải quyết các khiếm khuyết đối thoại của mô hình ngôn ngữ lớn toàn cầu, và kể từ đó, hàng chục trang giấy, hàng trăm trang báo cáo và những cuốn sách khổng lồ không còn trở thành điểm mù của các mô hình lớn.
Về vấn đề này, một số chuyên gia hào hứng nói rằng LongLoRA là ngọn đèn hy vọng trong mê cung của các mô hình ngôn ngữ lớn! Nó thể hiện sự suy nghĩ lại và chú ý của ngành đối với các mô hình ngôn ngữ lớn văn bản dài, mở rộng hiệu quả cửa sổ ngữ cảnh của các mô hình ngôn ngữ lớn, cho phép mô hình xem xét và xử lý các chuỗi văn bản dài và là một phát minh sáng tạo của các mô hình ngôn ngữ lớn.
Ngoài những đổi mới công nghệ, một trong những khó khăn của các mô hình ngôn ngữ lớn trong việc xử lý các vấn đề văn bản dài là thiếu dữ liệu đối thoại văn bản dài có sẵn công khai.
Để đạt được điều này, nhóm nghiên cứu đã đặc biệt thu thập các cặp Hỏi &Đáp văn bản dài 9K, bao gồm nhiều câu hỏi và trả lời khác nhau về các cuốn sách, bài báo nổi tiếng, báo cáo chuyên sâu và thậm chí cả báo cáo tài chính.
Trả lời các câu hỏi dài là chưa đủ, nhóm đã chọn một kho câu hỏi và câu trả lời ngắn 3K kết hợp với kho câu hỏi và câu trả lời dài 9K để đào tạo, để mô hình văn bản lớn dài có khả năng đối thoại văn bản ngắn cùng một lúc. Tập dữ liệu hoàn chỉnh này, được gọi là LongAlpaca-12k, hiện là mã nguồn mở.
Dựa trên bộ dữ liệu LongAlpaca-12k, nhóm nghiên cứu đã đào tạo và đánh giá các kích thước thông số khác nhau 7B, 13B, 70B và các mô hình nguồn mở bao gồm LongAlpaca-7B, LongAlpaca-13B và LongAlpaca-70B.
**Đọc tiểu thuyết, thay đổi giấy tờ và chỉ ra nền kinh tế là vị vua toàn diện **
Không cần quảng cáo thêm, hãy mù quáng chọn một vài bản demo để xem hiệu ứng LongAlpaca của một mô hình lớn áp dụng công nghệ LongLoRA chồng lên kho câu hỏi và câu trả lời 12K.
让系统新读一篇论文,并根据ICLR的审查指南,对其提出修改意见,从而提升该论文的接收率。LongAlpaca的意见是:通过更精确地阐明新颖性,提供更严格和更有对比性的实验结果(包括具体的数据集和指标) , ứng dụng rộng rãi hơn và định hướng trong tương lai, tập trung vào những đóng góp và tác động chính, và cơ hội của bài báo được chấp nhận sẽ được cải thiện.
Bây giờ, hãy để hệ thống đọc hai bài báo mới khác nhau và để LongAlpaca tóm tắt sự khác biệt về phong cách giữa các hội nghị ICLR và CVPR. LongAlpaca kết luận rằng các bài báo CVPR có xu hướng có cấu trúc và thử nghiệm hơn, tập trung vào tính thực tiễn và kỹ thuật. Mặt khác, phong cách tiểu luận của ICLR linh hoạt hơn, tập trung vào các phân tích lý thuyết chính và các dẫn xuất toán học hơn là các định dạng chuẩn.
Có thể thấy rằng mô hình LongAlpaca được đào tạo có thể dễ dàng chấp nhận các bài báo học thuật dạng dài mới và nó khá chính xác trong việc trả lời các câu hỏi liên quan đến học thuật.
Tiếp theo, chúng ta hãy xem xét việc giải thích mô hình LongAlpaca trong lĩnh vực kinh tế với ngưỡng đọc và hiểu cao.
Dựa trên bộ sưu tập tổng quan của IMF về triển vọng kinh tế toàn cầu từ năm 2012 đến năm 2023, báo cáo tóm tắt tình hình kinh tế qua từng năm và dự báo xu hướng kinh tế trong tương lai. LongAlpaca cho biết, tình hình kinh tế toàn cầu năm 2023 không chắc chắn và tăng trưởng dự kiến sẽ chậm lại so với năm 2022; Trong những năm tới, tăng trưởng kinh tế toàn cầu sẽ ở mức vừa phải và thấp hơn dự kiến, trong khi những thách thức lớn như căng thẳng địa chính trị và biến động thị trường tài chính vẫn còn và cần được giải quyết cẩn thận thông qua hợp tác đa phương và cải cách cơ cấu.
LongAlpaca cũng có thể đọc tiểu thuyết mới và phân tích nội dung sau khi đọc chúng. Các mô hình so sánh được chọn dưới đây là LongAlpaca và Llama2 với các thông số 13B và xem xét hiệu suất tương ứng của chúng.
Trong cuốn sách nổi tiếng "Tây Du Ký", tại sao Tôn Ngộ Không lại rất mạnh mẽ khi gây rắc rối trong Thiên Cung, nhưng ông đã nhiều lần thất vọng trên con đường lấy kinh điển? LongAlpaca đưa ra 5 lý do, có thể tóm tắt đại khái là "Sự non nớt của Monkey King, đối thủ mạnh, sức mạnh hạn chế, sự lừa dối của kẻ thù, thiếu bạn đồng hành ban đầu và các yếu tố khác dẫn đến thất bại của anh ta trong cuộc hành trình". Nhưng theo thời gian, anh ta đã có được trí tuệ, kinh nghiệm và đồng chí, cho phép anh ta đánh bại những kẻ thù đáng gờm nhất của mình. "
Câu trả lời của Llama2 đơn giản hơn. "Mặc dù hắn làm ầm ĩ về Thiên Cung, nhưng không nhất định chính xác khi nói rằng hắn đại diện cho một thế lực bất bại. Trên thực tế, cuối cùng anh ta đã bị đánh bại bởi Đường Tam Trang mạnh mẽ trong Tây Du Ký. Llama2 đã không đưa ra câu trả lời đúng và cũng đặt ra nhu cầu về thông tin nội dung nhiều hơn.
Lần này, hãy để hệ thống đọc lại "Vấn đề ba cơ thể", và sau đó hỏi tại sao Diệp Văn Kiệt lại liên lạc với người ngoài hành tinh trong phần đầu tiên, và tại sao anh ta lại hối hận ở giai đoạn sau? Long Alpaca tin rằng sự tiếp xúc ban đầu của Ye Wenjie với người ngoài hành tinh được thúc đẩy bởi chủ nghĩa lý tưởng và trả thù, nhưng theo thời gian, quan điểm của cô về nhân loại đã thay đổi, nhận ra mối nguy hiểm mà cô có thể mang lại cho toàn nhân loại, và sự hối hận của cô tăng lên từng ngày. Câu trả lời rất rõ ràng.
Câu trả lời của Llama2 là, "Thông qua việc tương tác với người ngoài hành tinh, cô ấy hy vọng sẽ hiểu sâu hơn về bản chất của vũ trụ và vị trí của cô ấy trong đó." Ye Wenjie dần nhận ra rằng người ngoài hành tinh và công nghệ của họ không thể giải quyết vấn đề của cô. Câu trả lời là chung chung, và sau đó anh bắt đầu bình luận về toàn bộ cuốn tiểu thuyết, trả lời không câu hỏi.
Từ câu trả lời được đưa ra bởi các mô hình, có thể thấy rằng một số mô hình như Llama2 [2] Bạn có thể đã xem cuốn tiểu thuyết trong quá trình đào tạo trước, nhưng nếu bạn hỏi một câu hỏi văn bản ngắn chỉ dựa trên chủ đề của cuốn tiểu thuyết, câu trả lời không phải là lý tưởng.
Câu trả lời của hai mô hình là tương phản, và cao và thấp là cao. LongAlpaca là một tay giỏi trong việc thay đổi các bài báo học thuật, bình luận về xu hướng kinh tế toàn cầu và đọc tiểu thuyết, đánh bại Llama2.
Hai dòng mã và ba kết luận chính
Llama2 được cho là một trong những mô hình mã nguồn mở mạnh mẽ nhất trong cộng đồng AI, dẫn đầu ngành và LongAlpaca thực sự có thể giành chiến thắng. Công nghệ LongLoRA đằng sau nó đã thành công thu hút sự chú ý của cư dân mạng, nó đã làm được điều đó như thế nào?
Nó chỉ ra rằng trong quá trình xử lý văn bản dài trong các mô hình ngôn ngữ lớn, chi phí tính toán chính tập trung vào cơ chế tự chú ý và chi phí của nó tăng bình phương với độ dài của văn bản.
Để đối phó với vấn đề này, nhóm nghiên cứu đã đề xuất công nghệ LongLoRA và mô phỏng cơ chế tự chú ý toàn cầu bằng cách nhóm và bù đắp.
Nói một cách đơn giản, đó là chia các mã thông báo tương ứng với văn bản dài thành các nhóm khác nhau, thực hiện các phép tính tự chú ý trong mỗi nhóm và cách nhóm được bù đắp từ các đầu chú ý khác nhau. Phương pháp này không chỉ có thể tiết kiệm đáng kể lượng tính toán mà còn duy trì việc truyền trường tiếp nhận toàn cầu.
Và phương pháp thực hiện này cũng rất ngắn gọn, chỉ có thể hoàn thành hai dòng mã!
[5]LongLoRA cũng khám phá các cách để đào tạo ở cấp bậc thấp. Phương pháp đào tạo cấp thấp ban đầu, chẳng hạn như LoRA , không đạt được kết quả tốt về di chuyển độ dài văn bản. Trên cơ sở đào tạo cấp thấp, LongLoRA giới thiệu các lớp nhúng (Lớp nhúng và lớp Chuẩn hóa) để tinh chỉnh, để đạt được hiệu quả tinh chỉnh đầy đủ.
Khi thực hiện mở rộng văn bản và đào tạo độ dài khác nhau, các hiệu ứng cụ thể của LongLoRA, LoRA và các kỹ thuật tinh chỉnh tất cả các tham số có thể được đề cập theo ba chiều:
Về sự bối rối-bối rối, hiệu suất của phương pháp LoRA ban đầu đang xấu đi, trong khi LongLoRA và tinh chỉnh tất cả các tham số có thể duy trì kết quả tốt dưới các độ dài văn bản khác nhau.
Về mức tiêu thụ bộ nhớ, LongLoRA và LoRA ban đầu có mức tiết kiệm đáng kể so với tinh chỉnh đầy đủ thông số. Ví dụ: đối với đào tạo mô hình có độ dài 8k, LongLoRA giảm mức tiêu thụ bộ nhớ từ 46.3GB xuống 25.6GB so với tinh chỉnh đầy đủ thông số.
Về thời gian đào tạo, đối với đào tạo mô hình chiều dài 64k, so với LoRA thông thường, LongLoRA giảm thời gian đào tạo từ khoảng 90 ~ 100 giờ xuống còn 52.4 giờ, trong khi tinh chỉnh thông số đầy đủ vượt quá 1000 giờ.
Phương pháp đào tạo tối giản, tài nguyên tính toán tối thiểu và tiêu thụ thời gian, và độ chính xác tuyệt vời làm cho LongLoRA có thể trên quy mô lớn. Hiện tại, các công nghệ và mô hình có liên quan đều là nguồn mở và người dùng quan tâm có thể triển khai trải nghiệm của riêng họ.
Điều đáng nói là đây là một kiệt tác khác của đội ngũ Jajaya theo mô hình lớn đa phương thức LISA "có thể phân chia mọi thứ" ra mắt vào ngày 9/8. Chỉ cách nhau hai tháng, phải nói rằng tốc độ và khả năng của nghiên cứu này cũng đáng kinh ngạc như LongLoRA.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Hai dòng mã để giải quyết những hạn chế của đối thoại mô hình ngôn ngữ lớn! Nhóm của Trung Quốc Hồng Kông, Jia Jiaya và MIT đã phát hành công nghệ mở rộng văn bản siêu dài
Lạc giữa chừng, người mẫu lười biếng, bối cảnh càng dài, người mẫu càng ngu ngốc... Nếu bạn đã trải nghiệm các sản phẩm mô hình ngôn ngữ lớn, người dùng sẽ cảm thấy giới hạn về độ dài đầu vào văn bản ở một mức độ nào đó, chẳng hạn như khi bạn muốn thảo luận về một số nội dung dài hơn một chút với mô hình lớn, bạn cần chia nhỏ đầu vào và các điểm chính của đầu vào trước đó sẽ sớm bị mô hình lớn lãng quên.
Đây là một khiếm khuyết đối thoại mô hình ngôn ngữ lớn điển hình! Giống như những đứa trẻ sinh ra với sự thiếu tập trung, rất khó để tập trung vào việc hoàn thành một cuốn sách mới. Chìa khóa của khiếm khuyết là mô hình thiếu khả năng xử lý văn bản dài. Điều đó bây giờ đã bị phá vỡ.
Gần đây, các công nghệ mới và mô hình mới do nhóm của Jia Jiaya và MIT phát hành lặng lẽ xuất hiện trong danh sách nóng của các trang web mã nguồn mở lớn: danh sách nóng ôm mặt trước, paperwithcode hot đầu tiên, Github tất cả các dự án python hot thứ năm, sao GitHub vượt quá 1.000 trong một tuần và các bài đăng kỹ thuật liên quan trên Twitter đã được xem gần 180.000...
Công nghệ này, được gọi là LongLoRA, thực tế nhưng đơn giản đáng ngạc nhiên: chỉ với hai dòng mã và máy A100 8 thẻ, độ dài văn bản của mô hình 7B có thể được mở rộng lên 100k mã thông báo và độ dài văn bản của mô hình 70B có thể được mở rộng lên 32k mã thông báo; Đồng thời, nhóm nghiên cứu cũng cho ra mắt LongAlpaca, mô hình đối thoại văn bản dài đầu tiên với thông số 70B.
** Mô hình ngôn ngữ lớn văn bản dài 70B đầu tiên trên thế giới được phát hành **
Đề xuất của LongLoRA đã lần đầu tiên giải quyết các khiếm khuyết đối thoại của mô hình ngôn ngữ lớn toàn cầu, và kể từ đó, hàng chục trang giấy, hàng trăm trang báo cáo và những cuốn sách khổng lồ không còn trở thành điểm mù của các mô hình lớn.
Về vấn đề này, một số chuyên gia hào hứng nói rằng LongLoRA là ngọn đèn hy vọng trong mê cung của các mô hình ngôn ngữ lớn! Nó thể hiện sự suy nghĩ lại và chú ý của ngành đối với các mô hình ngôn ngữ lớn văn bản dài, mở rộng hiệu quả cửa sổ ngữ cảnh của các mô hình ngôn ngữ lớn, cho phép mô hình xem xét và xử lý các chuỗi văn bản dài và là một phát minh sáng tạo của các mô hình ngôn ngữ lớn.
Để đạt được điều này, nhóm nghiên cứu đã đặc biệt thu thập các cặp Hỏi &Đáp văn bản dài 9K, bao gồm nhiều câu hỏi và trả lời khác nhau về các cuốn sách, bài báo nổi tiếng, báo cáo chuyên sâu và thậm chí cả báo cáo tài chính.
Trả lời các câu hỏi dài là chưa đủ, nhóm đã chọn một kho câu hỏi và câu trả lời ngắn 3K kết hợp với kho câu hỏi và câu trả lời dài 9K để đào tạo, để mô hình văn bản lớn dài có khả năng đối thoại văn bản ngắn cùng một lúc. Tập dữ liệu hoàn chỉnh này, được gọi là LongAlpaca-12k, hiện là mã nguồn mở.
Dựa trên bộ dữ liệu LongAlpaca-12k, nhóm nghiên cứu đã đào tạo và đánh giá các kích thước thông số khác nhau 7B, 13B, 70B và các mô hình nguồn mở bao gồm LongAlpaca-7B, LongAlpaca-13B và LongAlpaca-70B.
**Đọc tiểu thuyết, thay đổi giấy tờ và chỉ ra nền kinh tế là vị vua toàn diện **
Không cần quảng cáo thêm, hãy mù quáng chọn một vài bản demo để xem hiệu ứng LongAlpaca của một mô hình lớn áp dụng công nghệ LongLoRA chồng lên kho câu hỏi và câu trả lời 12K.
Có thể thấy rằng mô hình LongAlpaca được đào tạo có thể dễ dàng chấp nhận các bài báo học thuật dạng dài mới và nó khá chính xác trong việc trả lời các câu hỏi liên quan đến học thuật.
Tiếp theo, chúng ta hãy xem xét việc giải thích mô hình LongAlpaca trong lĩnh vực kinh tế với ngưỡng đọc và hiểu cao.
LongAlpaca cũng có thể đọc tiểu thuyết mới và phân tích nội dung sau khi đọc chúng. Các mô hình so sánh được chọn dưới đây là LongAlpaca và Llama2 với các thông số 13B và xem xét hiệu suất tương ứng của chúng.
Câu trả lời của Llama2 đơn giản hơn. "Mặc dù hắn làm ầm ĩ về Thiên Cung, nhưng không nhất định chính xác khi nói rằng hắn đại diện cho một thế lực bất bại. Trên thực tế, cuối cùng anh ta đã bị đánh bại bởi Đường Tam Trang mạnh mẽ trong Tây Du Ký. Llama2 đã không đưa ra câu trả lời đúng và cũng đặt ra nhu cầu về thông tin nội dung nhiều hơn.
Câu trả lời của Llama2 là, "Thông qua việc tương tác với người ngoài hành tinh, cô ấy hy vọng sẽ hiểu sâu hơn về bản chất của vũ trụ và vị trí của cô ấy trong đó." Ye Wenjie dần nhận ra rằng người ngoài hành tinh và công nghệ của họ không thể giải quyết vấn đề của cô. Câu trả lời là chung chung, và sau đó anh bắt đầu bình luận về toàn bộ cuốn tiểu thuyết, trả lời không câu hỏi.
Từ câu trả lời được đưa ra bởi các mô hình, có thể thấy rằng một số mô hình như Llama2 [2] Bạn có thể đã xem cuốn tiểu thuyết trong quá trình đào tạo trước, nhưng nếu bạn hỏi một câu hỏi văn bản ngắn chỉ dựa trên chủ đề của cuốn tiểu thuyết, câu trả lời không phải là lý tưởng.
Câu trả lời của hai mô hình là tương phản, và cao và thấp là cao. LongAlpaca là một tay giỏi trong việc thay đổi các bài báo học thuật, bình luận về xu hướng kinh tế toàn cầu và đọc tiểu thuyết, đánh bại Llama2.
Hai dòng mã và ba kết luận chính
Llama2 được cho là một trong những mô hình mã nguồn mở mạnh mẽ nhất trong cộng đồng AI, dẫn đầu ngành và LongAlpaca thực sự có thể giành chiến thắng. Công nghệ LongLoRA đằng sau nó đã thành công thu hút sự chú ý của cư dân mạng, nó đã làm được điều đó như thế nào?
Nó chỉ ra rằng trong quá trình xử lý văn bản dài trong các mô hình ngôn ngữ lớn, chi phí tính toán chính tập trung vào cơ chế tự chú ý và chi phí của nó tăng bình phương với độ dài của văn bản.
Để đối phó với vấn đề này, nhóm nghiên cứu đã đề xuất công nghệ LongLoRA và mô phỏng cơ chế tự chú ý toàn cầu bằng cách nhóm và bù đắp.
Và phương pháp thực hiện này cũng rất ngắn gọn, chỉ có thể hoàn thành hai dòng mã!
Về sự bối rối-bối rối, hiệu suất của phương pháp LoRA ban đầu đang xấu đi, trong khi LongLoRA và tinh chỉnh tất cả các tham số có thể duy trì kết quả tốt dưới các độ dài văn bản khác nhau.
Về mức tiêu thụ bộ nhớ, LongLoRA và LoRA ban đầu có mức tiết kiệm đáng kể so với tinh chỉnh đầy đủ thông số. Ví dụ: đối với đào tạo mô hình có độ dài 8k, LongLoRA giảm mức tiêu thụ bộ nhớ từ 46.3GB xuống 25.6GB so với tinh chỉnh đầy đủ thông số.
Về thời gian đào tạo, đối với đào tạo mô hình chiều dài 64k, so với LoRA thông thường, LongLoRA giảm thời gian đào tạo từ khoảng 90 ~ 100 giờ xuống còn 52.4 giờ, trong khi tinh chỉnh thông số đầy đủ vượt quá 1000 giờ.
Phương pháp đào tạo tối giản, tài nguyên tính toán tối thiểu và tiêu thụ thời gian, và độ chính xác tuyệt vời làm cho LongLoRA có thể trên quy mô lớn. Hiện tại, các công nghệ và mô hình có liên quan đều là nguồn mở và người dùng quan tâm có thể triển khai trải nghiệm của riêng họ.
Điều đáng nói là đây là một kiệt tác khác của đội ngũ Jajaya theo mô hình lớn đa phương thức LISA "có thể phân chia mọi thứ" ra mắt vào ngày 9/8. Chỉ cách nhau hai tháng, phải nói rằng tốc độ và khả năng của nghiên cứu này cũng đáng kinh ngạc như LongLoRA.