Chúng tôi biết rằng khi sử dụng các mô hình ngôn ngữ lớn như GPT và LLaMA, đầu vào sẽ có giới hạn ký tự. Ví dụ: giới hạn ký tự đầu vào hiện tại cho ChatGPT là 4096 ký tự. Điều này giới hạn phạm vi của các công nghệ như học tập theo ngữ cảnh và chuỗi suy nghĩ, vì người dùng chỉ có thể cung cấp một số ví dụ hạn chế. Gần đây, nhóm nghiên cứu từ Nous Research, EleutherAI và Đại học Geneva đã đề xuất YaRN, một giải pháp mở rộng cửa sổ ngữ cảnh và đạt được kết quả tốt hơn tất cả các phương pháp khác trong thử nghiệm, đồng thời họ cũng cho ra mắt LLaMA 2 tinh chỉnh bằng YaRN 7B/ Mô hình 13B với cửa sổ ngữ cảnh 64k và 128k.
Nguồn hình ảnh: Được tạo bởi AI không giới hạn
Các mô hình ngôn ngữ lớn dựa trên máy biến áp (LLM) đã chứng tỏ khả năng mạnh mẽ trong việc thực hiện học tập theo ngữ cảnh (ICL) và gần như trở thành lựa chọn duy nhất cho nhiều tác vụ xử lý ngôn ngữ tự nhiên (NLP). Cơ chế tự chú ý của Transformer cho phép quá trình đào tạo diễn ra song song ở mức độ cao, cho phép xử lý các chuỗi dài theo cách phân tán. Độ dài của chuỗi được sử dụng để đào tạo LLM được gọi là cửa sổ ngữ cảnh của nó.
Cửa sổ ngữ cảnh của Transformer xác định trực tiếp lượng không gian có thể cung cấp ví dụ, do đó hạn chế khả năng ICL của nó.
Nếu cửa sổ ngữ cảnh của mô hình bị giới hạn thì sẽ có ít chỗ hơn để cung cấp cho mô hình các ví dụ mạnh mẽ để thực hiện ICL. Hơn nữa, các tác vụ khác như tóm tắt cũng bị cản trở nghiêm trọng khi cửa sổ ngữ cảnh của mô hình đặc biệt ngắn.
Do bản chất của ngôn ngữ, vị trí của mã thông báo rất quan trọng để lập mô hình hiệu quả và tính năng tự chú ý không mã hóa trực tiếp thông tin vị trí do tính song song của nó. Kiến trúc Transformer giới thiệu mã hóa vị trí để giải quyết vấn đề này.
Kiến trúc Transformer ban đầu sử dụng mã hóa vị trí hình sin tuyệt đối, sau này được cải tiến thành mã hóa vị trí tuyệt đối có thể học được. Kể từ đó, các sơ đồ mã hóa vị trí tương đối đã cải thiện hơn nữa hiệu suất của Máy biến áp. Hiện nay, các mã hóa vị trí tương đối phổ biến nhất là T5 Interactive Bias, RoPE, XPos và ALiBi.
Mã hóa vị trí có một hạn chế định kỳ: không có khả năng khái quát hóa cửa sổ ngữ cảnh nhìn thấy trong quá trình đào tạo. Mặc dù một số phương pháp như ALiBi có khả năng thực hiện một số khái quát hóa hạn chế, nhưng chưa có phương pháp nào được khái quát hóa thành các chuỗi dài hơn đáng kể so với độ dài được đào tạo trước của nó.
Một số nỗ lực nghiên cứu đã xuất hiện nhằm cố gắng khắc phục những hạn chế này. Ví dụ: một số nghiên cứu đề xuất sửa đổi một chút RoPE thông qua phép nội suy vị trí (PI) và tinh chỉnh một lượng nhỏ dữ liệu để mở rộng độ dài ngữ cảnh.
Hai tháng trước, Bowen Peng của Nous Research đã chia sẻ một giải pháp trên Reddit, đó là triển khai "nội suy nhận biết NTK" bằng cách kết hợp các tổn thất tần số cao. NTK ở đây đề cập đến Hạt nhân tiếp tuyến thần kinh.
Nó tuyên bố rằng RoPE mở rộng nhận biết NTK có thể mở rộng đáng kể cửa sổ ngữ cảnh của mô hình LLaMA (hơn 8k) mà không cần tinh chỉnh và có tác động tối thiểu đến sự bối rối.
Gần đây, một bài báo liên quan của anh và ba cộng tác viên khác đã được xuất bản!
* giấy:
Người mẫu:
Trong bài báo này, họ đã thực hiện hai cải tiến đối với phép nội suy nhận biết NTK, tập trung vào các khía cạnh khác nhau:
Phương pháp nội suy NTK động có thể được sử dụng cho các mô hình được đào tạo trước mà không cần tinh chỉnh.
Phương pháp nội suy NTK từng phần, mô hình có thể đạt hiệu suất tốt nhất khi được tinh chỉnh với một lượng nhỏ dữ liệu ngữ cảnh dài hơn.
Nhà nghiên cứu cho biết, trước khi bài báo này ra đời, các nhà nghiên cứu đã sử dụng phép nội suy nhận biết NTK và nội suy NTK động trong một số mô hình nguồn mở. Các ví dụ bao gồm Code Llama (sử dụng phép nội suy nhận biết NTK) và Qwen 7B (sử dụng phép nội suy NTK động).
Trong bài báo này, dựa trên các kết quả nghiên cứu trước đây về nội suy nhận biết NTK, nội suy NTK động và nội suy NTK một phần, các nhà nghiên cứu đã đề xuất YaRN (Phương pháp RoPE extensioN khác), một phương pháp có thể mở rộng hiệu quả việc sử dụng nhúng vị trí xoay (Vị trí quay). Phương pháp cửa sổ ngữ cảnh mô hình Embeddings / RoPE), có thể được sử dụng cho các mô hình dòng LLaMA, GPT-NeoX và PaLM. Nghiên cứu cho thấy YaRN có thể đạt được hiệu suất mở rộng cửa sổ ngữ cảnh tốt nhất hiện nay bằng cách chỉ sử dụng các mẫu đại diện khoảng 0,1% kích thước dữ liệu đào tạo trước của mô hình ban đầu để tinh chỉnh.
phương pháp
Nhúng vị trí quay (RoPE) lần đầu tiên được giới thiệu trong bài báo "RoFormer: Máy biến áp cải tiến có nhúng vị trí quay" và cũng là cơ sở của YaRN.
Nói một cách đơn giản, RoPE có thể được viết như sau:
Đối với LLM được huấn luyện trước với độ dài ngữ cảnh cố định, nếu phép nội suy vị trí (PI) được sử dụng để mở rộng độ dài ngữ cảnh, thì nó có thể được biểu thị như sau:
Có thể thấy PI sẽ mở rộng như nhau ở tất cả các kích thước RoPE. Các nhà nghiên cứu nhận thấy rằng các giới hạn nội suy lý thuyết được mô tả trong bài báo PI không đủ để dự đoán động lực phức tạp giữa việc nhúng bên trong RoPE và LLM. Phần sau đây sẽ mô tả các vấn đề chính của PI được các nhà nghiên cứu phát hiện và giải quyết, để người đọc có thể hiểu được bối cảnh, nguyên nhân và lý do giải quyết của các phương pháp mới khác nhau trong YaRN.
Mất thông tin tần số cao - nội suy nhận biết NTK
Nếu chúng ta chỉ nhìn RoPE từ góc độ mã hóa thông tin, theo lý thuyết hạt nhân tiếp tuyến thần kinh (NTK), nếu kích thước đầu vào thấp và phần nhúng tương ứng thiếu các thành phần tần số cao thì mạng lưới thần kinh sâu khó có thể tìm hiểu thông tin tần số cao.
Để giải quyết vấn đề mất thông tin tần số cao khi nhúng nội suy cho RoPE, Bowen Peng đã đề xuất nội suy nhận biết NTK trong bài đăng Reddit ở trên. Cách tiếp cận này không mở rộng từng chiều của RoPE như nhau mà phân tán áp lực nội suy trên nhiều chiều bằng cách mở rộng tần số cao ít hơn và tần số thấp nhiều hơn.
Trong các thử nghiệm, các nhà nghiên cứu nhận thấy rằng phương pháp này vượt trội hơn PI trong việc mở rộng quy mô bối cảnh của mô hình chưa được điều chỉnh. Tuy nhiên, phương pháp này có một nhược điểm lớn: vì nó không chỉ là sơ đồ nội suy nên một số chiều sẽ được ngoại suy thành một số giá trị “bên ngoài”, do đó việc tinh chỉnh bằng phép nội suy nhận biết NTK sẽ không hiệu quả bằng PI.
Hơn nữa, do tồn tại các giá trị “bên ngoài” nên hệ số mở rộng lý thuyết không thể mô tả chính xác mức độ mở rộng ngữ cảnh thực sự. Trong thực tế, đối với phần mở rộng độ dài ngữ cảnh nhất định, giá trị phần mở rộng s phải được đặt cao hơn một chút so với giá trị phần mở rộng dự kiến.
Mất khoảng cách cục bộ tương đối - nội suy NTK một phần
Đối với việc nhúng RoPE, có một quan sát thú vị: với kích thước bối cảnh L, có một số kích thước d trong đó bước sóng λ dài hơn độ dài bối cảnh tối đa nhìn thấy trong giai đoạn tiền huấn luyện (λ > L), minh họa cho việc nhúng của một số chiều Có thể phân bố không đồng đều trong miền quay.
Nội suy nhận biết PI và NTK xử lý tất cả các kích thước ẩn RoPE như nhau (như thể chúng có cùng tác động trên mạng). Nhưng qua các thí nghiệm, các nhà nghiên cứu đã phát hiện ra rằng Internet xử lý một số chiều khác với các chiều khác. Như đã đề cập trước đó, với độ dài ngữ cảnh L, bước sóng λ của một số chiều lớn hơn hoặc bằng L. Vì khi bước sóng của một chiều ẩn lớn hơn hoặc bằng L, tất cả các cặp vị trí sẽ mã hóa một khoảng cách cụ thể nên các nhà nghiên cứu đưa ra giả thuyết rằng thông tin vị trí tuyệt đối được giữ lại; khi bước sóng ngắn hơn, mạng chỉ có thể thu được thông tin tương đối. vị trí.thông tin.
Khi tất cả các kích thước RoPE được kéo dài bằng cách sử dụng tỷ lệ mở rộng s hoặc giá trị thay đổi cơ sở b', tất cả các mã thông báo sẽ trở nên gần nhau hơn vì tích vô hướng của hai vectơ được quay một lượng nhỏ hơn sẽ lớn hơn. Tiện ích mở rộng này có thể làm giảm nghiêm trọng khả năng của LLM trong việc hiểu các mối quan hệ cục bộ nhỏ giữa các phần nhúng bên trong của nó. Các nhà nghiên cứu suy đoán rằng việc nén này sẽ khiến mô hình bị nhầm lẫn về thứ tự vị trí của các mã thông báo gần đó, từ đó gây tổn hại đến khả năng của mô hình.
Để giải quyết vấn đề này, dựa trên những gì các nhà nghiên cứu quan sát được, họ đã chọn không nội suy các chiều tần số cao hơn chút nào.
Họ cũng đề xuất rằng đối với tất cả các chiều d, các chiều có r < α được nội suy tuyến tính theo mức độ mở rộng s (như PI, tránh phép ngoại suy); các chiều có r > β hoàn toàn không được nội suy (luôn ngoại suy).
Sử dụng kỹ thuật được mô tả trong phần này, một phương pháp gọi là nội suy NTK một phần đã ra đời. Phương pháp cải tiến này vượt trội hơn so với các phương pháp nội suy nhận biết PI và NTK trước đó và hoạt động trên cả mô hình chưa điều chỉnh và mô hình đã tinh chỉnh. Bởi vì phương pháp này tránh được việc ngoại suy các kích thước trong đó miền xoay được phân bố không đồng đều nên tránh được tất cả các vấn đề tinh chỉnh của các phương pháp trước đó.
** Chia tỷ lệ động - Nội suy NTK động **
Khi chia tỷ lệ kích thước bối cảnh mà không tinh chỉnh bằng phương pháp nội suy RoPE, chúng tôi hy vọng mô hình sẽ suy giảm chậm trên các kích thước bối cảnh dài hơn, thay vì giảm hoàn toàn trên toàn bộ kích thước bối cảnh khi mức độ chia tỷ lệ s vượt quá giá trị mong muốn.
Trong phương pháp NTK động, mức độ giãn nở s được tính toán linh hoạt.
Trong quá trình suy luận, khi vượt quá kích thước ngữ cảnh, mức độ mở rộng s sẽ được thay đổi linh hoạt, điều này cho phép tất cả các mô hình xuống cấp từ từ thay vì bị sập đột ngột khi đạt đến giới hạn ngữ cảnh huấn luyện L.
Đã thêm độ tương tự cosin tối thiểu trung bình cho khoảng cách xa - YaRN
Ngay cả khi vấn đề khoảng cách cục bộ được mô tả trước đó được giải quyết, khoảng cách lớn hơn vẫn phải được nội suy ở ngưỡng α để tránh ngoại suy. Theo trực quan, điều này dường như không phải là vấn đề vì khoảng cách toàn cầu không yêu cầu độ chính xác cao để phân biệt vị trí mã thông báo (tức là mạng chỉ cần biết đại khái xem mã thông báo ở đầu, giữa hay cuối chuỗi).
Tuy nhiên, các nhà nghiên cứu nhận thấy rằng do khoảng cách tối thiểu trung bình trở nên gần hơn khi số lượng mã thông báo tăng lên, nên nó sẽ làm cho phân phối softmax chú ý trở nên sắc nét hơn (tức là giảm entropy trung bình của softmax chú ý). Nói cách khác, khi tác động của suy giảm đường dài giảm đi nhờ phép nội suy, mạng sẽ "chú ý nhiều hơn" đến nhiều mã thông báo hơn. Sự thay đổi trong phân phối này có thể dẫn đến sự suy giảm chất lượng đầu ra LLM, đây là một vấn đề khác không liên quan đến vấn đề trước đó.
Do entropy trong phân phối softmax chú ý giảm khi nội suy phần nhúng RoPE vào kích thước ngữ cảnh dài hơn, nên chúng tôi mong muốn đảo ngược mức giảm entropy này (tức là tăng "nhiệt độ" của logit chú ý). Điều này có thể được thực hiện bằng cách nhân ma trận chú ý trung gian với nhiệt độ t > 1 trước khi áp dụng softmax, nhưng do việc nhúng RoPE được mã hóa dưới dạng ma trận xoay nên có thể chỉ cần kéo dài độ dài của việc nhúng RoPE theo hệ số không đổi √t . Kỹ thuật "mở rộng độ dài" này cho phép nghiên cứu mà không cần sửa đổi mã chú ý, điều này có thể đơn giản hóa đáng kể việc tích hợp với các quy trình suy luận và đào tạo hiện có, đồng thời độ phức tạp về thời gian chỉ là O(1).
Do sơ đồ nội suy RoPE này nội suy không đồng nhất các kích thước RoPE nên rất khó để tính toán giải pháp phân tích cho tỷ lệ nhiệt độ yêu cầu t đối với mức độ giãn nở s. May mắn thay, qua các thí nghiệm, các nhà nghiên cứu đã phát hiện ra rằng bằng cách giảm thiểu sự phức tạp, tất cả các mô hình LLaMA đều tuân theo một đường cong phù hợp gần như giống nhau:
Các nhà nghiên cứu đã phát hiện ra công thức này trên LLaMA 7B, 13B, 33B và 65B. Họ phát hiện ra rằng công thức này cũng hoạt động tốt với các mẫu LLaMA 2 (7B, 13B và 70B), với những khác biệt nhỏ. Điều này cho thấy rằng đặc tính tăng entropy này là phổ biến và khái quát hóa cho các mô hình và dữ liệu huấn luyện khác nhau.
Sửa đổi cuối cùng này dẫn đến phương pháp YaRN. Phương pháp mới vượt trội hơn tất cả các phương pháp trước đó trong cả trường hợp tinh chỉnh và không tinh chỉnh mà không yêu cầu bất kỳ sửa đổi nào đối với mã suy luận. Chỉ cần sửa đổi thuật toán được sử dụng để tạo các phần nhúng RoPE ngay từ đầu. YaRN đơn giản đến mức có thể dễ dàng triển khai trong tất cả các thư viện đào tạo và suy luận, bao gồm cả khả năng tương thích với Flash Chú ý 2.
cuộc thí nghiệm
Các thử nghiệm cho thấy YaRN có thể mở rộng thành công cửa sổ ngữ cảnh của LLM. Hơn nữa, họ đạt được kết quả này sau khi đào tạo chỉ 400 bước, xấp xỉ 0,1% khối lượng dữ liệu trước đào tạo ban đầu của mô hình, giảm đáng kể so với kết quả nghiên cứu trước đó. Điều này cho thấy phương pháp mới có hiệu quả tính toán cao và không tốn thêm chi phí suy luận.
Để đánh giá mô hình kết quả, các nhà nghiên cứu đã tính toán mức độ phức tạp của các tài liệu dài và cho điểm chúng dựa trên các tiêu chuẩn hiện có, đồng thời nhận thấy rằng phương pháp mới vượt trội hơn tất cả các phương pháp mở rộng cửa sổ ngữ cảnh khác.
Đầu tiên, các nhà nghiên cứu đánh giá hiệu suất của mô hình khi cửa sổ ngữ cảnh được tăng lên. Bảng 1 tóm tắt các kết quả thí nghiệm.
Bảng 2 cho thấy sự bối rối cuối cùng trên 50 tài liệu GovReport không được kiểm duyệt (dài ít nhất 16 nghìn mã thông báo).
Để kiểm tra mức độ suy giảm hiệu suất của mô hình khi sử dụng tiện ích mở rộng ngữ cảnh, chúng tôi đã đánh giá mô hình bằng bộ Bảng xếp hạng LLM Ôm Mặt Mở và so sánh nó với điểm số hiện có từ mô hình cơ sở LLaMA 2 cũng như các mô hình nhận biết PI và NTK có sẵn công khai. . Bảng 3 tóm tắt các kết quả thí nghiệm.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Nếu bạn muốn mô hình lớn tìm hiểu thêm các ví dụ trong _, phương pháp này cho phép bạn nhập nhiều ký tự hơn
Các mô hình ngôn ngữ lớn dựa trên máy biến áp (LLM) đã chứng tỏ khả năng mạnh mẽ trong việc thực hiện học tập theo ngữ cảnh (ICL) và gần như trở thành lựa chọn duy nhất cho nhiều tác vụ xử lý ngôn ngữ tự nhiên (NLP). Cơ chế tự chú ý của Transformer cho phép quá trình đào tạo diễn ra song song ở mức độ cao, cho phép xử lý các chuỗi dài theo cách phân tán. Độ dài của chuỗi được sử dụng để đào tạo LLM được gọi là cửa sổ ngữ cảnh của nó.
Cửa sổ ngữ cảnh của Transformer xác định trực tiếp lượng không gian có thể cung cấp ví dụ, do đó hạn chế khả năng ICL của nó.
Do bản chất của ngôn ngữ, vị trí của mã thông báo rất quan trọng để lập mô hình hiệu quả và tính năng tự chú ý không mã hóa trực tiếp thông tin vị trí do tính song song của nó. Kiến trúc Transformer giới thiệu mã hóa vị trí để giải quyết vấn đề này.
Kiến trúc Transformer ban đầu sử dụng mã hóa vị trí hình sin tuyệt đối, sau này được cải tiến thành mã hóa vị trí tuyệt đối có thể học được. Kể từ đó, các sơ đồ mã hóa vị trí tương đối đã cải thiện hơn nữa hiệu suất của Máy biến áp. Hiện nay, các mã hóa vị trí tương đối phổ biến nhất là T5 Interactive Bias, RoPE, XPos và ALiBi.
Mã hóa vị trí có một hạn chế định kỳ: không có khả năng khái quát hóa cửa sổ ngữ cảnh nhìn thấy trong quá trình đào tạo. Mặc dù một số phương pháp như ALiBi có khả năng thực hiện một số khái quát hóa hạn chế, nhưng chưa có phương pháp nào được khái quát hóa thành các chuỗi dài hơn đáng kể so với độ dài được đào tạo trước của nó.
Một số nỗ lực nghiên cứu đã xuất hiện nhằm cố gắng khắc phục những hạn chế này. Ví dụ: một số nghiên cứu đề xuất sửa đổi một chút RoPE thông qua phép nội suy vị trí (PI) và tinh chỉnh một lượng nhỏ dữ liệu để mở rộng độ dài ngữ cảnh.
Hai tháng trước, Bowen Peng của Nous Research đã chia sẻ một giải pháp trên Reddit, đó là triển khai "nội suy nhận biết NTK" bằng cách kết hợp các tổn thất tần số cao. NTK ở đây đề cập đến Hạt nhân tiếp tuyến thần kinh.
Gần đây, một bài báo liên quan của anh và ba cộng tác viên khác đã được xuất bản!
Trong bài báo này, họ đã thực hiện hai cải tiến đối với phép nội suy nhận biết NTK, tập trung vào các khía cạnh khác nhau:
Nhà nghiên cứu cho biết, trước khi bài báo này ra đời, các nhà nghiên cứu đã sử dụng phép nội suy nhận biết NTK và nội suy NTK động trong một số mô hình nguồn mở. Các ví dụ bao gồm Code Llama (sử dụng phép nội suy nhận biết NTK) và Qwen 7B (sử dụng phép nội suy NTK động).
Trong bài báo này, dựa trên các kết quả nghiên cứu trước đây về nội suy nhận biết NTK, nội suy NTK động và nội suy NTK một phần, các nhà nghiên cứu đã đề xuất YaRN (Phương pháp RoPE extensioN khác), một phương pháp có thể mở rộng hiệu quả việc sử dụng nhúng vị trí xoay (Vị trí quay). Phương pháp cửa sổ ngữ cảnh mô hình Embeddings / RoPE), có thể được sử dụng cho các mô hình dòng LLaMA, GPT-NeoX và PaLM. Nghiên cứu cho thấy YaRN có thể đạt được hiệu suất mở rộng cửa sổ ngữ cảnh tốt nhất hiện nay bằng cách chỉ sử dụng các mẫu đại diện khoảng 0,1% kích thước dữ liệu đào tạo trước của mô hình ban đầu để tinh chỉnh.
phương pháp
Nhúng vị trí quay (RoPE) lần đầu tiên được giới thiệu trong bài báo "RoFormer: Máy biến áp cải tiến có nhúng vị trí quay" và cũng là cơ sở của YaRN.
Nói một cách đơn giản, RoPE có thể được viết như sau:
Mất thông tin tần số cao - nội suy nhận biết NTK
Nếu chúng ta chỉ nhìn RoPE từ góc độ mã hóa thông tin, theo lý thuyết hạt nhân tiếp tuyến thần kinh (NTK), nếu kích thước đầu vào thấp và phần nhúng tương ứng thiếu các thành phần tần số cao thì mạng lưới thần kinh sâu khó có thể tìm hiểu thông tin tần số cao.
Để giải quyết vấn đề mất thông tin tần số cao khi nhúng nội suy cho RoPE, Bowen Peng đã đề xuất nội suy nhận biết NTK trong bài đăng Reddit ở trên. Cách tiếp cận này không mở rộng từng chiều của RoPE như nhau mà phân tán áp lực nội suy trên nhiều chiều bằng cách mở rộng tần số cao ít hơn và tần số thấp nhiều hơn.
Trong các thử nghiệm, các nhà nghiên cứu nhận thấy rằng phương pháp này vượt trội hơn PI trong việc mở rộng quy mô bối cảnh của mô hình chưa được điều chỉnh. Tuy nhiên, phương pháp này có một nhược điểm lớn: vì nó không chỉ là sơ đồ nội suy nên một số chiều sẽ được ngoại suy thành một số giá trị “bên ngoài”, do đó việc tinh chỉnh bằng phép nội suy nhận biết NTK sẽ không hiệu quả bằng PI.
Hơn nữa, do tồn tại các giá trị “bên ngoài” nên hệ số mở rộng lý thuyết không thể mô tả chính xác mức độ mở rộng ngữ cảnh thực sự. Trong thực tế, đối với phần mở rộng độ dài ngữ cảnh nhất định, giá trị phần mở rộng s phải được đặt cao hơn một chút so với giá trị phần mở rộng dự kiến.
Mất khoảng cách cục bộ tương đối - nội suy NTK một phần
Đối với việc nhúng RoPE, có một quan sát thú vị: với kích thước bối cảnh L, có một số kích thước d trong đó bước sóng λ dài hơn độ dài bối cảnh tối đa nhìn thấy trong giai đoạn tiền huấn luyện (λ > L), minh họa cho việc nhúng của một số chiều Có thể phân bố không đồng đều trong miền quay.
Nội suy nhận biết PI và NTK xử lý tất cả các kích thước ẩn RoPE như nhau (như thể chúng có cùng tác động trên mạng). Nhưng qua các thí nghiệm, các nhà nghiên cứu đã phát hiện ra rằng Internet xử lý một số chiều khác với các chiều khác. Như đã đề cập trước đó, với độ dài ngữ cảnh L, bước sóng λ của một số chiều lớn hơn hoặc bằng L. Vì khi bước sóng của một chiều ẩn lớn hơn hoặc bằng L, tất cả các cặp vị trí sẽ mã hóa một khoảng cách cụ thể nên các nhà nghiên cứu đưa ra giả thuyết rằng thông tin vị trí tuyệt đối được giữ lại; khi bước sóng ngắn hơn, mạng chỉ có thể thu được thông tin tương đối. vị trí.thông tin.
Khi tất cả các kích thước RoPE được kéo dài bằng cách sử dụng tỷ lệ mở rộng s hoặc giá trị thay đổi cơ sở b', tất cả các mã thông báo sẽ trở nên gần nhau hơn vì tích vô hướng của hai vectơ được quay một lượng nhỏ hơn sẽ lớn hơn. Tiện ích mở rộng này có thể làm giảm nghiêm trọng khả năng của LLM trong việc hiểu các mối quan hệ cục bộ nhỏ giữa các phần nhúng bên trong của nó. Các nhà nghiên cứu suy đoán rằng việc nén này sẽ khiến mô hình bị nhầm lẫn về thứ tự vị trí của các mã thông báo gần đó, từ đó gây tổn hại đến khả năng của mô hình.
Để giải quyết vấn đề này, dựa trên những gì các nhà nghiên cứu quan sát được, họ đã chọn không nội suy các chiều tần số cao hơn chút nào.
Họ cũng đề xuất rằng đối với tất cả các chiều d, các chiều có r < α được nội suy tuyến tính theo mức độ mở rộng s (như PI, tránh phép ngoại suy); các chiều có r > β hoàn toàn không được nội suy (luôn ngoại suy).
Sử dụng kỹ thuật được mô tả trong phần này, một phương pháp gọi là nội suy NTK một phần đã ra đời. Phương pháp cải tiến này vượt trội hơn so với các phương pháp nội suy nhận biết PI và NTK trước đó và hoạt động trên cả mô hình chưa điều chỉnh và mô hình đã tinh chỉnh. Bởi vì phương pháp này tránh được việc ngoại suy các kích thước trong đó miền xoay được phân bố không đồng đều nên tránh được tất cả các vấn đề tinh chỉnh của các phương pháp trước đó.
** Chia tỷ lệ động - Nội suy NTK động **
Khi chia tỷ lệ kích thước bối cảnh mà không tinh chỉnh bằng phương pháp nội suy RoPE, chúng tôi hy vọng mô hình sẽ suy giảm chậm trên các kích thước bối cảnh dài hơn, thay vì giảm hoàn toàn trên toàn bộ kích thước bối cảnh khi mức độ chia tỷ lệ s vượt quá giá trị mong muốn.
Trong phương pháp NTK động, mức độ giãn nở s được tính toán linh hoạt.
Trong quá trình suy luận, khi vượt quá kích thước ngữ cảnh, mức độ mở rộng s sẽ được thay đổi linh hoạt, điều này cho phép tất cả các mô hình xuống cấp từ từ thay vì bị sập đột ngột khi đạt đến giới hạn ngữ cảnh huấn luyện L.
Đã thêm độ tương tự cosin tối thiểu trung bình cho khoảng cách xa - YaRN
Ngay cả khi vấn đề khoảng cách cục bộ được mô tả trước đó được giải quyết, khoảng cách lớn hơn vẫn phải được nội suy ở ngưỡng α để tránh ngoại suy. Theo trực quan, điều này dường như không phải là vấn đề vì khoảng cách toàn cầu không yêu cầu độ chính xác cao để phân biệt vị trí mã thông báo (tức là mạng chỉ cần biết đại khái xem mã thông báo ở đầu, giữa hay cuối chuỗi).
Tuy nhiên, các nhà nghiên cứu nhận thấy rằng do khoảng cách tối thiểu trung bình trở nên gần hơn khi số lượng mã thông báo tăng lên, nên nó sẽ làm cho phân phối softmax chú ý trở nên sắc nét hơn (tức là giảm entropy trung bình của softmax chú ý). Nói cách khác, khi tác động của suy giảm đường dài giảm đi nhờ phép nội suy, mạng sẽ "chú ý nhiều hơn" đến nhiều mã thông báo hơn. Sự thay đổi trong phân phối này có thể dẫn đến sự suy giảm chất lượng đầu ra LLM, đây là một vấn đề khác không liên quan đến vấn đề trước đó.
Do entropy trong phân phối softmax chú ý giảm khi nội suy phần nhúng RoPE vào kích thước ngữ cảnh dài hơn, nên chúng tôi mong muốn đảo ngược mức giảm entropy này (tức là tăng "nhiệt độ" của logit chú ý). Điều này có thể được thực hiện bằng cách nhân ma trận chú ý trung gian với nhiệt độ t > 1 trước khi áp dụng softmax, nhưng do việc nhúng RoPE được mã hóa dưới dạng ma trận xoay nên có thể chỉ cần kéo dài độ dài của việc nhúng RoPE theo hệ số không đổi √t . Kỹ thuật "mở rộng độ dài" này cho phép nghiên cứu mà không cần sửa đổi mã chú ý, điều này có thể đơn giản hóa đáng kể việc tích hợp với các quy trình suy luận và đào tạo hiện có, đồng thời độ phức tạp về thời gian chỉ là O(1).
Do sơ đồ nội suy RoPE này nội suy không đồng nhất các kích thước RoPE nên rất khó để tính toán giải pháp phân tích cho tỷ lệ nhiệt độ yêu cầu t đối với mức độ giãn nở s. May mắn thay, qua các thí nghiệm, các nhà nghiên cứu đã phát hiện ra rằng bằng cách giảm thiểu sự phức tạp, tất cả các mô hình LLaMA đều tuân theo một đường cong phù hợp gần như giống nhau:
Sửa đổi cuối cùng này dẫn đến phương pháp YaRN. Phương pháp mới vượt trội hơn tất cả các phương pháp trước đó trong cả trường hợp tinh chỉnh và không tinh chỉnh mà không yêu cầu bất kỳ sửa đổi nào đối với mã suy luận. Chỉ cần sửa đổi thuật toán được sử dụng để tạo các phần nhúng RoPE ngay từ đầu. YaRN đơn giản đến mức có thể dễ dàng triển khai trong tất cả các thư viện đào tạo và suy luận, bao gồm cả khả năng tương thích với Flash Chú ý 2.
cuộc thí nghiệm
Các thử nghiệm cho thấy YaRN có thể mở rộng thành công cửa sổ ngữ cảnh của LLM. Hơn nữa, họ đạt được kết quả này sau khi đào tạo chỉ 400 bước, xấp xỉ 0,1% khối lượng dữ liệu trước đào tạo ban đầu của mô hình, giảm đáng kể so với kết quả nghiên cứu trước đó. Điều này cho thấy phương pháp mới có hiệu quả tính toán cao và không tốn thêm chi phí suy luận.
Để đánh giá mô hình kết quả, các nhà nghiên cứu đã tính toán mức độ phức tạp của các tài liệu dài và cho điểm chúng dựa trên các tiêu chuẩn hiện có, đồng thời nhận thấy rằng phương pháp mới vượt trội hơn tất cả các phương pháp mở rộng cửa sổ ngữ cảnh khác.
Đầu tiên, các nhà nghiên cứu đánh giá hiệu suất của mô hình khi cửa sổ ngữ cảnh được tăng lên. Bảng 1 tóm tắt các kết quả thí nghiệm.