Làm thế nào mô hình nhỏ có thể được so sánh với mô hình lớn, Viện Công nghệ Bắc Kinh đã phát hành mô hình lớn Mingde MindLLM, và mô hình nhỏ có tiềm năng lớn

Nguồn gốc: Heart of the Machine

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Các mô hình ngôn ngữ lớn (LLM) đã chứng minh hiệu suất tuyệt vời trong nhiều nhiệm vụ ngôn ngữ tự nhiên, nhưng vẫn còn nhiều vấn đề thực tế trong việc áp dụng các mô hình ngôn ngữ lớn trong lĩnh vực chuyên môn do chi phí đào tạo và suy luận các mô hình tham số lớn. Do đó, nhóm bắt đầu với các mô hình nhẹ để tối đa hóa lợi thế của dữ liệu và mô hình, dựa trên việc phục vụ tốt hơn các lĩnh vực cụ thể và giảm chi phí đào tạo và suy luận của các nhiệm vụ hạ nguồn.

Vào ngày 24 tháng 10, nhóm xử lý ngôn ngữ tự nhiên của Viện Công nghệ Bắc Kinh đã phát hành một loạt các mô hình ngôn ngữ lớn nhẹ song ngữ (Ming De LLM) - MindLLM, giới thiệu toàn diện những kinh nghiệm tích lũy được trong quá trình phát triển mô hình quy mô lớn, bao gồm từng bước chi tiết của quá trình xây dựng dữ liệu, kiến trúc mô hình, đánh giá và quy trình ứng dụng. MindLLM được đào tạo từ đầu và có các phiên bản 1.3B và 3B, luôn phù hợp hoặc vượt trội so với hiệu suất của các mô hình lớn nguồn mở khác trong một số điểm chuẩn công khai. MindLLM cũng tăng cường khả năng của mình bằng cách giới thiệu một khung điều chỉnh hướng dẫn sáng tạo được thiết kế riêng cho các mô hình nhỏ hơn. Ngoài ra, đối với các ứng dụng trong các ngành dọc cụ thể như luật và tài chính, MindLLM cũng có khả năng thích ứng miền tuyệt vời.

*Địa chỉ:

**Điểm nổi bật của MindLLM **

  1. Chúng tôi đã chia sẻ kinh nghiệm của mình trong việc xử lý dữ liệu, bao gồm duy trì văn bản web chất lượng cao và tỷ lệ phần trăm cao, lưu giữ dữ liệu dài hạn như sách và cuộc trò chuyện, lấy mẫu dữ liệu toán học và lấy mẫu dữ liệu mã. Chúng tôi khuyên bạn nên xáo trộn dữ liệu đồng đều cho việc học năng lực và chia nhỏ một số mẫu cho các tình huống học tập nhỏ.
  2. Kết quả đánh giá của chúng tôi vượt trội hơn một số mô hình lớn và mô hình MindLLM vượt trội hơn các mô hình lớn như MPT-7B và GPT-J-6B về đánh giá MMLU và AGI mà không cần tinh chỉnh và căn chỉnh hướng dẫn. Trong tiếng Trung, MindLLM cho thấy hiệu suất tương đương với các mô hình tham số lớn hơn trên C- và CMMLU. Cụ thể, MindLLM-3B vượt trội hơn các mô hình lớn hơn như MOSS-Base-16B và MPT-7B về khả năng toán học, và vượt trội hơn Baichuan2-7B và MOSS-Base-16B về song ngữ. Hơn nữa, MindLLM-1.3B tốt hơn về mặt toán học so với GPT-Neo-1.3B có cùng kích thước.
  3. Chúng tôi đã so sánh hai chiến lược đào tạo khác nhau trong học song ngữ và xem xét hiệu quả của việc dữ liệu có được phân phối đều trong giai đoạn trước đào tạo hay không. Chúng tôi kết luận rằng đối với các mô hình nhẹ (≤7B) với quy mô công suất hạn chế, việc đạt được các khả năng phức tạp như toán học, lý luận hoặc căn chỉnh song ngữ thông qua các chiến lược được đào tạo trước và sau đó chuyển giao là không tối ưu vì khó tích hợp kiến thức mới và hiện có. Ngược lại, một chiến lược hiệu quả hơn là bắt đầu lại từ đầu và tích hợp nhiều loại dữ liệu kết hợp với nhu cầu của các tác vụ xuôi dòng để đảm bảo rằng các khả năng cần thiết được tiếp thu một cách nhất quán và hiệu quả.
  4. Chúng tôi nhận thấy rằng việc sử dụng dữ liệu tùy chỉnh cho các khả năng cụ thể trong quá trình điều chỉnh hướng dẫn có thể nâng cao đáng kể các khả năng cụ thể của các mô hình nhẹ, chẳng hạn như lý luận toàn diện hoặc kiến thức chủ đề.
  5. Chúng tôi giới thiệu một cách tiếp cận để xây dựng một tập lệnh bằng cách sử dụng chiến lược lọc khối lượng dựa trên entropy và chứng minh hiệu quả của nó trong việc lọc dữ liệu điều chỉnh lệnh chất lượng cao cho các mô hình nhẹ. Chúng tôi chứng minh rằng trong bối cảnh các mô hình nhẹ, hiệu suất mô hình có thể được tối ưu hóa hiệu quả hơn bằng cách cải thiện chất lượng dữ liệu điều chỉnh lệnh, thay vì chỉ tăng lượng dữ liệu.
  6. Các mô hình của chúng tôi đã chứng minh hiệu suất tuyệt vời trong các lĩnh vực cụ thể, đặc biệt là trong các lĩnh vực như luật và tài chính. Chúng tôi thấy rằng sự khác biệt về kích thước của các tham số mô hình không tạo ra sự khác biệt đáng kể trong một miền cụ thể và các mô hình nhỏ hơn có thể hoạt động tốt hơn các mô hình lớn hơn. Mô hình của chúng tôi vượt trội hơn tất cả các mô hình có kích thước tham số từ 1,3B đến 3B trong một miền nhất định, trong khi vẫn cạnh tranh với các mô hình có kích thước tham số từ 6B đến 13B và khả năng phân loại của mô hình trong một miền cụ thể được tăng cường đáng kể theo phương pháp COT.

DỮ LIỆU LIÊN QUAN

Xử lý dữ liệu

Chúng tôi sử dụng dữ liệu đào tạo bằng cả tiếng Anh và tiếng Trung. Dữ liệu tiếng Anh được lấy từ tập dữ liệu Pile và được xử lý thêm. Dữ liệu của Trung Quốc bao gồm dữ liệu đào tạo từ các nguồn mở như Wudao và CBooks, cũng như dữ liệu chúng tôi thu thập dữ liệu từ Internet. Để đảm bảo chất lượng dữ liệu, chúng tôi sử dụng các phương pháp xử lý dữ liệu nghiêm ngặt, đặc biệt là đối với dữ liệu được thu thập dữ liệu từ web.

Cách tiếp cận xử lý dữ liệu của chúng tôi bao gồm:

  1. Làm sạch định dạng: Chúng tôi sử dụng trình phân tích cú pháp trang web để trích xuất và làm sạch nội dung văn bản khỏi trang web nguồn. Giai đoạn này bao gồm xóa các biểu tượng HTML, CSS, JS và biểu tượng cảm xúc vô dụng để đảm bảo dòng chảy của văn bản. Ngoài ra, chúng tôi đã xử lý vấn đề định dạng không nhất quán. Chúng tôi cũng đã bảo tồn các ký tự Trung Quốc truyền thống của Trung Quốc để các mô hình của chúng tôi có thể học văn học hoặc thơ ca cổ đại.
  2. Lọc dữ liệu chất lượng thấp: Chúng tôi đánh giá chất lượng dữ liệu dựa trên tỷ lệ văn bản so với nội dung trong một trang web. Cụ thể, chúng tôi loại trừ các trang có mật độ văn bản dưới 75% hoặc dưới 100 ký tự Trung Quốc. Ngưỡng này được xác định thông qua thử nghiệm ban đầu của một mẫu trang web.
  3. Chống trùng lặp dữ liệu: Do dữ liệu của Wudao cũng có nguồn gốc từ các trang web, một số trang web có thể xuất bản cùng một thông tin nhiều lần. Do đó, chúng tôi sử dụng thuật toán băm nhạy cảm cục bộ để loại bỏ nội dung trùng lặp trong khi vẫn duy trì sự đa dạng của dữ liệu đào tạo.
  4. Lọc thông tin nhạy cảm: Do các trang web thường chứa nội dung nhạy cảm, chúng tôi đã sử dụng phương pháp phỏng đoán và từ vựng nhạy cảm để phát hiện và lọc nội dung này nhằm xây dựng mô hình ngôn ngữ tích cực. Để bảo vệ quyền riêng tư, chúng tôi sử dụng các biểu thức chính quy để xác định thông tin cá nhân, chẳng hạn như số ID, số điện thoại và địa chỉ email và thay thế chúng bằng các thẻ đặc biệt.
  5. Lọc dữ liệu thông tin thấp: Dữ liệu thông tin thấp, chẳng hạn như quảng cáo, thường xuất hiện dưới dạng nội dung trùng lặp. Do đó, chúng tôi xác định loại nội dung này bằng cách phân tích tần suất của các cụm từ trong nội dung văn bản của trang web. Chúng tôi tin rằng việc lặp lại thường xuyên các cụm từ từ cùng một trang web có thể gây bất lợi cho việc học theo mô hình. Do đó, các bộ lọc của chúng tôi chủ yếu tập trung vào các cụm từ lặp đi lặp lại liên tục trong quảng cáo hoặc các trang web chưa được xác thực.

Cuối cùng, chúng tôi đã thu được dữ liệu sau:

Luật mở rộng quy mô

Để đảm bảo hiệu suất tối ưu khi đối mặt với chi phí đào tạo ngày càng tăng cho học sâu và các mô hình ngôn ngữ lớn, chúng tôi đã tiến hành một nghiên cứu về mối quan hệ giữa khối lượng dữ liệu và dung lượng mô hình, được gọi là Luật mở rộng quy mô. Trước khi chúng tôi bắt đầu đào tạo một mô hình ngôn ngữ lớn với hàng tỷ tham số, trước tiên chúng tôi đào tạo một mô hình nhỏ hơn để thiết lập một mô hình tỷ lệ để đào tạo một mô hình lớn hơn. Kích thước mô hình của chúng tôi dao động từ 10 triệu đến 500 triệu thông số và mỗi mô hình được đào tạo trên một tập dữ liệu chứa tối đa 10 tỷ mã thông báo. Các khóa đào tạo này sử dụng cài đặt siêu tham số nhất quán, cũng như cùng một tập dữ liệu như đã đề cập trước đó. Bằng cách phân tích tổn thất cuối cùng của các mô hình khác nhau, chúng tôi đã có thể thiết lập ánh xạ từ đào tạo FLOP (hoạt động dấu phẩy động) đến Mất mát. Như thể hiện trong hình dưới đây, lượng dữ liệu đào tạo bão hòa bởi các mô hình có kích thước khác nhau là khác nhau và khi kích thước của mô hình tăng lên, dữ liệu đào tạo cần thiết cũng tăng lên. Để đáp ứng các yêu cầu dữ liệu chính xác của mô hình đích, chúng tôi đã sử dụng công thức định luật công suất để phù hợp với luật mở rộng của mô hình và dự đoán lượng dữ liệu đào tạo và giá trị tổn thất của mô hình tham số 3B và so sánh chúng với kết quả thực tế (các ngôi sao trong hình).

** Dữ liệu bừa bãi &; Khóa học dữ liệu **

Tác động của dữ liệu lên mô hình chủ yếu bao gồm hai khía cạnh: (1) tỷ lệ trộn, liên quan đến cách dữ liệu từ các nguồn khác nhau được kết hợp để xây dựng một tập dữ liệu có kích thước cụ thể với ngân sách đào tạo hạn chế; và (2) các khóa học dữ liệu, liên quan đến việc sắp xếp dữ liệu từ các nguồn khác nhau để đào tạo các kỹ năng cụ thể cho mô hình.

Chúng tôi thu nhỏ từng nguồn dữ liệu để đào tạo một mô hình với 15 triệu tham số. Như thể hiện trong hình dưới đây, các loại dữ liệu khác nhau có tác động khác nhau đến hiệu quả học tập và kết quả cuối cùng của mô hình. Ví dụ, một vấn đề toán học có tổn thất dữ liệu cuối cùng thấp hơn và học nhanh hơn, cho thấy rằng nó có mô hình rõ rệt hơn và dễ học. Ngược lại, dữ liệu từ sách thông tin hoặc văn bản web đa dạng mất nhiều thời gian hơn để thích ứng. Một số lĩnh vực dữ liệu tương tự có thể gần hơn về tổn thất, chẳng hạn như dữ liệu liên quan đến công nghệ và bách khoa toàn thư.

Để khám phá thêm hiệu suất của mô hình khái quát hóa từ một dữ liệu đơn lẻ sang dữ liệu khác, chúng tôi sử dụng các mô hình này được đào tạo trên một dữ liệu duy nhất để kiểm tra trên dữ liệu khác và kết quả được hiển thị trong hình sau:

Các bộ dữ liệu khác nhau cho thấy mức độ khả năng khái quát hóa khác nhau, ví dụ, mô hình được đào tạo về văn bản web, bách khoa toàn thư và dữ liệu Hỏi & Đáp cho thấy khả năng khái quát hóa mạnh mẽ trên nhiều nguồn dữ liệu, cho thấy nội dung của chúng chứa thông tin đa dạng trong các lĩnh vực khác nhau. Ngược lại, các mô hình được đào tạo về dữ liệu giấy học thuật và dữ liệu mã vượt trội về khả năng toán học nhưng yếu về khái quát hóa, có thể là do tính đặc thù của miền và thông tin định dạng duy nhất.

Ngoài ra, chúng tôi đã thực hiện nhiều điều chỉnh tỷ lệ dữ liệu để cân bằng hiệu suất của mô hình trên các kỹ năng và loại dữ liệu khác nhau. Dựa trên các thử nghiệm của chúng tôi, chúng tôi đã hoàn thiện một số nguyên tắc cho tỷ lệ trộn dữ liệu:

  • Duy trì tỷ lệ văn bản web chất lượng cao và dữ liệu bách khoa toàn thư vì sự đa dạng của chúng.
  • Giảm tỷ lệ dữ liệu toán học để tránh quá tải.
  • Tăng cường toán học với mã và dữ liệu học thuật trong khi giảm thiểu định dạng thông qua lấy mẫu đa dạng và xử lý liên quan.
  • Giữ một số cuộc trò chuyện và dữ liệu sách để giúp bạn tìm hiểu các phụ thuộc tầm xa.

Ngoài tỷ lệ hỗn hợp, khóa học dữ liệu (thứ tự dữ liệu được đào tạo) cũng ảnh hưởng đến khả năng học hỏi của mô hình. Các thí nghiệm đã chỉ ra rằng dữ liệu từ các nguồn khác nhau sẽ khiến mô hình học các kỹ năng khác nhau và việc áp dụng một thứ tự học tập cụ thể có thể giúp mô hình học các kỹ năng mới do mối tương quan giữa các kỹ năng. Các thử nghiệm của chúng tôi tập trung vào tác động của dữ liệu hỗn hợp không đồng nhất và việc học chuyển ngôn ngữ đối với khả năng của mô hình. Các thí nghiệm của chúng tôi cho thấy dữ liệu hỗn hợp không đồng nhất dẫn đến việc đào tạo liên tục mô hình trên cùng một loại dữ liệu, gần với bối cảnh học tập trong ngữ cảnh hơn và do đó hoạt động tốt hơn trong học tập ít lần. Tuy nhiên, do sự không đồng đều của việc học, có thể có một hiện tượng đáng chú ý là quên trong giai đoạn sau. Ngoài ra, học chuyển giao ngôn ngữ giúp mô hình có được khả năng song ngữ và hiệu suất tổng thể có thể được cải thiện thông qua sự liên kết ngôn ngữ, nhưng chúng tôi tin rằng đào tạo với dữ liệu ngôn ngữ hỗn hợp có lợi hơn cho việc phân bổ và tiếp thu khả năng mô hình.

**Kiến trúc mô hình MindLLMs **

MindLLM-1.3B sử dụng kiến trúc mô hình tương tự như GPTNeo-1.3B, trong khi MindLLM-3B bổ sung một số cải tiến trên nó. Dựa trên sự ổn định đào tạo và khả năng của mô hình, chúng tôi sử dụng Mã hóa vị trí xoay (RoPE) DeepNorm, RMS Norm, FlashAttention-2, GeGLU và các toán tử tối ưu hóa khác.

Chúng tôi đã thêm một từ vựng tiếng Trung trên cơ sở GPTNeo-1.3B và sử dụng các chiến lược học tập chuyển giao để đào tạo khả năng song ngữ của MindLLM-1.3B. Đối với MindLLM-3B, chúng tôi sử dụng BPE từ SentencePiece để mã hóa dữ liệu và Tokenizer của chúng tôi có kích thước từ vựng cuối cùng là 125.700. Thông qua hai cách đào tạo song ngữ khác nhau, chúng tôi đã tổng kết một số phương pháp tiền đào tạo phổ biến và thực tế.

** Đào tạo trước **

Chi tiết trước khi đào tạo

Chúng tôi đã sử dụng hai chiến lược khác nhau để đào tạo mô hình song ngữ MindLLM de novo. Đối với MindLLM-3B, chúng tôi đã đào tạo trước 800.000 bước trực tiếp trên dữ liệu song ngữ hỗn hợp bằng tiếng Trung và tiếng Anh trong khi học tiếng Trung và trình độ tiếng Anh; Đối với MindLLM-1.3B, trước tiên chúng tôi đào tạo trước 101.100 bước trên bộ dữ liệu tiếng Anh và sau đó đào tạo 105.900 bước bằng cách sử dụng dữ liệu hỗn hợp tiếng Trung và tiếng Anh. Chi tiết trước khi đào tạo như sau:

### ** Đánh giá giai đoạn tiền đào tạo**

Một mô hình nhỏ hơn có thể đánh bại một mô hình lớn hơn

Để đánh giá khả năng tiếng Trung và tiếng Anh của người mẫu, chúng tôi đã sử dụng MMLU (5-shot) và AGI (4-shot) để đánh giá khả năng tiếng Anh của người mẫu, và C-(5-shot) và CMMLU (4-shot) để đánh giá khả năng tiếng Trung của người mẫu. AGI sử dụng phần trắc nghiệm của phần tiếng Anh. Kết quả đánh giá như sau:

Về hiệu suất tiếng Anh, MindLLM vượt trội hơn GPT-J-6B, MPT-7B, MOSS-Base-16B và các mô hình lớn hơn khác trung bình, và tiếp cận Falcon-7B, có kích thước mô hình lớn hơn và nhiều dữ liệu được đào tạo trước. Xét về khả năng của Trung Quốc, MindLLM hoạt động ngang bằng với LLM nguồn mở. Điều đáng chú ý là MindLLM vẫn đang được đào tạo để nâng cao.

Ngoài ra, chúng tôi thấy rằng MindLLM-1.3B, được đào tạo trên cả dữ liệu tiếng Trung và tiếng Anh, vượt trội hơn GPT-Neo-1.3B trên MMLU, cho thấy đây có thể là một lợi ích từ việc học song ngữ, vì có sự tương đồng giữa các ngôn ngữ khác nhau về khả năng. Các thí nghiệm và phân tích chi tiết có thể được tìm thấy trong Phần 4.4 của bài báo.

Các mô hình nhỏ hơn có tiềm năng lớn về khả năng cụ thể

Đối với các mô hình nhẹ, khi áp dụng cho các tác vụ xuôi dòng, chỉ cần sự hiện diện của các khả năng liên quan là đủ. Do đó, trong phần này, chúng tôi muốn khám phá hiệu suất và các yếu tố ảnh hưởng của MindLLM và các LLM nhẹ khác trong các khả năng cụ thể (≤7B).

Chúng tôi đánh giá hiệu suất của các mô hình khác nhau chủ yếu từ ba quan điểm: khả năng toán học, khả năng lý luận và khả năng liên kết song ngữ, bởi vì ba khả năng này rất phức tạp và tương đối quan trọng đối với việc áp dụng các mô hình song ngữ.

(1) Toán học**

Chúng tôi đã sử dụng bộ dữ liệu Số học (5 shot) để đánh giá khả năng số học của mô hình và GSM8K (4-shot) và MATH (4-shot) để đánh giá khả năng toán học chung của mô hình. Kết quả đánh giá như sau:

我们发现,MindLLM-3B在数学能力上的平均分数达到了16.01,超过了MOSS-Base-16B(15.71)和MPT-7B(13.42),GPT-J-6B(13.15)。此外MindLLM-1.3B的数学平均水平也超过了相同大小的GPT-Neo-1.3B。以上结果表明,轻量级模型在数学上有着巨大的潜力,较小的模型也可以在具体领域表现出超越或者与更大模型相当的水平。进一步,我们可以看到数学能力较为出色的(均分≥15) , ngoại trừ MindLLM-3B, tất cả các mô hình đều khoảng 7B. Điều này cho thấy rằng việc tiếp thu đầy đủ các khả năng phức tạp như khả năng toán học có thể bị giới hạn bởi kích thước của mô hình và suy đoán này có thể được phản ánh thêm trong việc đánh giá khả năng song ngữ và lý luận của mô hình.

(2) Lý luận

Chúng tôi đã sử dụng HellaSwag và WinoGrande để đánh giá khả năng suy luận ngôn ngữ của mô hình (5-shot), LogiQA để đánh giá khả năng suy luận logic của mô hình (5-shot), PubMedQA, PIQA và MathQA để đánh giá khả năng suy luận kiến thức của mô hình (5-shot) và BBH để đánh giá khả năng suy luận toàn diện của mô hình (3-shot). Kết quả đánh giá cụ thể như sau:

Đầu tiên, trong điều kiện năng lực mô hình hạn chế, khả năng tăng do song ngữ mang lại có thể cần phải được cân bằng với việc tiêu thụ năng lực mô hình bằng cách học ngôn ngữ. Học ngôn ngữ có thể chiếm một phần năng lực của mô hình, làm cho nó có thể có được các khả năng phức tạp như khả năng lý luận. Ví dụ, MindLLM-1.3B tốt hơn GPT-Neo-1.3B về các chỉ số đánh giá MMLU tiếng Anh, nhưng nó yếu hơn GPT-1.3B về khả năng suy luận trung bình (35.61 so với 38.95). Kỹ năng lập luận của Blooms không đặc biệt tốt, nhưng khả năng song ngữ trong đánh giá tiếp theo là tuyệt vời, điều này cũng khẳng định điểm trên ở một mức độ nhất định. Ví dụ: hiệu suất suy luận của Open-LLaMA-3B có thể so sánh với mô hình lớn hơn và dữ liệu được đào tạo trước của nó là 1TBB, vượt quá dữ liệu được đào tạo trước được sử dụng bởi các mô hình khác có cùng kích thước. Kết quả là, các mô hình nhỏ hơn vẫn có tiềm năng đạt được hiệu suất tương đương về sức mạnh suy luận như các mô hình lớn hơn. Ngoài ra, chúng tôi thấy rằng mức độ suy luận của MOSS dường như không hoạt động tốt hơn mức thu được từ việc học dữ liệu mã trước đó (MOSS tiếp tục đào tạo về CodeGen), nhưng công việc liên quan cho thấy mã thực sự có lợi cho việc cải thiện khả năng suy luận của mô hình, vì vậy làm thế nào và khi nào dữ liệu mã được thêm vào đào tạo để nâng cao khả năng suy luận của mô hình đáng để thảo luận thêm.

(3) Song ngữ

Chúng tôi đã sử dụng phần zh-en của Flores-101 (8-shot) để đánh giá sự liên kết của các mô hình song ngữ hoặc đa ngôn ngữ bằng tiếng Trung và tiếng Anh. Chúng tôi bao gồm Chinese-LLaMA-2-7B, một mô hình thích ứng miền Trung Quốc dựa trên LLaMA-2-7B. Kết quả như sau:

Chúng tôi thấy rằng mô hình hoạt động kém trong cả bản dịch tiếng Anh sang tiếng Trung phồn thể, chủ yếu là do dữ liệu được đào tạo trước chiếm một tỷ lệ nhỏ trong tiếng Trung phồn thể. Ngoài ra, chỉ có Blooms và MindLLM-3B xuất sắc trong việc liên kết ngôn ngữ hai chiều từ tiếng Trung sang tiếng Anh và tiếng Anh sang tiếng Trung, tiếp theo là LLaMA-2-7B và MOSS-Base-16B. LLaMA-7B và Open-LLaMA-7B chỉ có thể được căn chỉnh bằng tiếng Trung sang tiếng Anh. Kết hợp với dữ liệu tiền đào tạo của mô hình, có thể thấy rằng dữ liệu trước đào tạo của Blooms và MindLLM-3B có tỷ lệ cân bằng giữa tiếng Trung và tiếng Anh, trong khi tỷ lệ dữ liệu tiếng Trung trong LLaMA-2-7B thấp hơn nhiều so với tiếng Anh và tỷ lệ tiếng Trung trong dữ liệu trước đào tạo của LLaMA-7B và Open-LLaMA-7B thậm chí còn ít hơn.

Do đó, chúng tôi có hai kết luận, một là mô hình có thể học biểu diễn ngôn ngữ thông qua một lượng lớn đào tạo về một ngôn ngữ, đồng thời có thể được hiểu và căn chỉnh một chiều bằng cách trộn lẫn trong một số ít ngôn ngữ khác, chẳng hạn như hiệu suất của LLaMA-7B và Open-LLaMA-7B. Thứ hai là nếu cần liên kết song ngữ hoặc đa ngôn ngữ tốt hơn, cần có một tỷ lệ cân bằng dữ liệu song ngữ hoặc đa ngôn ngữ, chẳng hạn như Blooms và MindLLM-3B, khi bắt đầu đào tạo trước. Hơn nữa, chúng tôi thấy rằng MOSS-Base-16B và Chinese-LLaMA-2-7B có tỷ lệ dữ liệu tiếng Trung và tiếng Anh hợp lý, và đơn vẫn không hiển thị sự liên kết hai chiều và giả thuyết của chúng tôi là rất khó để thêm khả năng căn chỉnh song ngữ trong quá trình đào tạo di chuyển, bởi vì mô hình tại thời điểm này đã có rất nhiều kiến thức, điều này sẽ tạo ra mâu thuẫn trong trường hợp dung lượng nhỏ. Điều này cũng giải thích thực tế là MindLLM-1.3B, có dung lượng nhỏ hơn và một lượng nhỏ dữ liệu trong giai đoạn đầu đào tạo đơn ngữ, đã không có được khả năng căn chỉnh song ngữ. Mặt khác, Baichuan 2-7B rất tốt ở các khía cạnh khác, và có thể chiếm một công suất lớn và không thể học được sự liên kết hai chiều tốt.

(4) Tóm tắt

Bằng cách đánh giá kết quả của giai đoạn tiền đào tạo, chúng tôi có hai kết luận sau:

  • Các mô hình nhẹ có tiềm năng lớn để vượt qua hoặc đạt đến cấp độ của các mô hình lớn hơn trong một lĩnh vực hoặc khả năng cụ thể.
  • Đối với mô hình có dung lượng hạn chế (≤7B), chúng tôi có thể phân bổ hợp lý tỷ lệ dữ liệu trong dữ liệu trước đào tạo theo yêu cầu khả năng cụ thể của nhiệm vụ hạ nguồn, có lợi cho mô hình để học và có được khả năng mục tiêu từ đầu, và để tích hợp và thúc đẩy kiến thức và khả năng khác nhau.

Ngoài ra, bài báo cũng so sánh hiệu quả của việc duy trì phân phối dữ liệu thống nhất đối với hiệu suất trước khi đào tạo của mô hình và kết quả thí nghiệm cho thấy phương pháp xây dựng dữ liệu của việc học khóa học tương tự có thể thực hiện giống như phương pháp của mô hình được đào tạo ở giai đoạn đầu và phương pháp xây dựng dữ liệu hỗn hợp đều, nhưng cuối cùng có thể dẫn đến quên thảm khốc và giảm hiệu suất đột ngột, trong khi hiệu suất của mô hình sau nhất quán và ổn định hơn, và kiến thức về dữ liệu trước đào tạo thu được toàn diện hơn, điều này cũng hỗ trợ kết luận thứ hai ở trên. Ngoài ra, chúng tôi thấy rằng cách thức dữ liệu được xây dựng trong một khóa học tương tự có thể tạo ra nhiều phân phối dữ liệu hơn có lợi cho việc nâng cao khả năng học tập theo ngữ cảnh của mô hình. Chi tiết có thể được tìm thấy trong phần 4.5 của bài báo.

** Hướng dẫn tinh chỉnh**

Chúng tôi muốn khám phá cách tinh chỉnh hướng dẫn có thể thực hiện trên các mô hình nhẹ với các loại bộ dữ liệu khác nhau. Bảng sau đây là tập dữ liệu tinh chỉnh hướng dẫn mà chúng tôi sử dụng, bao gồm tập dữ liệu tiếng Trung được xây dựng lại của chúng tôi MingLi, tập dữ liệu công khai Tulu (tiếng Anh) và tập dữ liệu song ngữ Trung-Anh MOSS.

** Đối với MindLLM, chất lượng dữ liệu để tinh chỉnh hướng dẫn quan trọng hơn số lượng dữ liệu. **

Hiệu suất của các mô hình MindLLM-1.3B và MindLLM-3B trên C- sau khi tinh chỉnh các hướng dẫn theo dữ liệu khác nhau như sau. Theo kết quả thí nghiệm, hiệu suất của mô hình được đào tạo với bộ dữ liệu tinh chỉnh 50.000 lệnh được lựa chọn cẩn thận cao hơn so với tập dữ liệu tinh chỉnh lệnh có tính đa dạng cao và khối lượng dữ liệu lớn. Tương tự, mô hình cho thấy hiệu suất tương tự trên chỉ báo tiếng Anh MMLU (xem Bảng 14 để biết chi tiết). Do đó, đối với các mô hình nhẹ, điều rất quan trọng là xác định và lọc ra các bộ dữ liệu tinh chỉnh lệnh chất lượng cao.

** Tinh chỉnh chiến lược lọc dữ liệu dựa trên entropy dữ liệu **

Làm thế nào để bạn xác định dữ liệu tinh chỉnh hướng dẫn chất lượng cao? Một số học giả đã đề xuất rằng sự đa dạng của dữ liệu tinh chỉnh hướng dẫn có thể đại diện cho chất lượng dữ liệu của các bộ dữ liệu tinh chỉnh hướng dẫn. Tuy nhiên, theo các thí nghiệm của chúng tôi, entropy dữ liệu và độ dài dữ liệu của tinh chỉnh lệnh sẽ ảnh hưởng đến hiệu suất của các mô hình nhẹ hơn. Chúng tôi xác định tổn thất entropy chéo của mỗi phần dữ liệu trên mô hình được đào tạo trước là entropy dữ liệu của dữ liệu và nhóm dữ liệu theo entropy dữ liệu bằng thuật toán K-Means để thu được các cụm dữ liệu khác nhau. Kết quả của MindLLM sau khi tinh chỉnh các hướng dẫn của từng cụm dữ liệu và sau đó C- được hiển thị trong bảng sau (xem Bảng 19 để biết chi tiết về kết quả MMLU):

Theo kết quả trong bảng, hiệu suất của MindLLM-1.3B và MindLLM-3B trên các cụm dữ liệu khác nhau là khác nhau đáng kể. Hơn nữa, chúng tôi phân tích mối quan hệ giữa entropy dữ liệu và độ chính xác của mô hình trên C- và MMLU và khớp hàm, như thể hiện trong hình:

Dấu chấm của ngôi sao năm cánh màu đỏ trong hình ảnh là entropy của mô hình được đào tạo trước. Theo phân tích, khi entropy của dữ liệu cao hơn 1-1,5 so với entropy của mô hình được đào tạo trước, mô hình có hiệu suất tốt nhất sau khi tinh chỉnh các lệnh dữ liệu trong khoảng thời gian này. Do đó, chúng tôi xác định dữ liệu chất lượng cao bằng entropy dữ liệu và đề xuất phương pháp sàng lọc dữ liệu chất lượng cao.

** MindLLM có thể tinh chỉnh tập dữ liệu thông qua các hướng dẫn được chỉ định để có được các khả năng cụ thể **

Để khám phá liệu MindLLM có thể cải thiện hiệu quả các khả năng cụ thể của mình thông qua tinh chỉnh hướng dẫn hay không, chúng tôi sử dụng phần dữ liệu kiểm tra của bộ dữ liệu 10.000 khối lượng để tinh chỉnh mô hình, nhằm nâng cao khả năng kiến thức môn học của mô hình. Chúng tôi đã tiến hành đánh giá về C-, và kết quả như sau:

Có thể thấy rằng sau khi tinh chỉnh hướng dẫn, mô hình đã cải thiện đáng kể khả năng kiến thức môn học và hiệu suất của 1.3B MindLLM thậm chí còn vượt xa các mẫu lớn hơn như ChatGLM-6B và Trung Quốc-Alpaca-33B. Do đó, chúng tôi tin rằng MindLLM có thể cải thiện khả năng cụ thể của nó sau khi hướng dẫn tinh chỉnh và do đặc điểm nhẹ của nó, nó phù hợp hơn để triển khai trong các tác vụ dọc xuôi dòng.

Ứng dụng hiện trường

Để chứng minh hiệu quả của việc áp dụng các mô hình nhỏ trong các lĩnh vực cụ thể, chúng tôi sử dụng hai bộ dữ liệu công khai trong tài chính và luật để xác minh chúng. Từ kết quả, có thể thấy rằng kích thước tham số của mô hình có tác động nhất định đến hiệu suất miền, nhưng hiệu suất không rõ ràng. Hiệu suất của MindLLM vượt trội hơn các mô hình khác có kích thước tương đương trong ứng dụng hiện trường và có thể so sánh với các mô hình lớn hơn. Nó tiếp tục chứng minh rằng mô hình nhỏ có tiềm năng lớn trong lĩnh vực ứng dụng.

Lĩnh vực tài chính

Trong lĩnh vực này, nhiệm vụ phân loại nhận thức cảm xúc được thực hiện trên dữ liệu tài chính. Đầu tiên, chúng tôi thu thập dữ liệu từ ngày 13 tháng 5 năm 2011 đến ngày 31 tháng 8 năm 2023 từ Oriental Fortune và gắn thẻ dữ liệu dựa trên biến động giá cổ phiếu sau đây. Sau đó, dữ liệu được chia thành các bộ đào tạo và kiểm tra theo ngày. Xem xét sự mất cân bằng của các danh mục, chúng tôi đã lấy mẫu dữ liệu và cuối cùng sử dụng 320.000 mẩu dữ liệu làm bộ đào tạo và 20.000 mẩu dữ liệu làm bộ thử nghiệm.

Chúng tôi đã sử dụng hai phương pháp đào tạo khác nhau để so sánh hiệu suất của các mô hình khác nhau. Đầu tiên, chỉ có tinh chỉnh có giám sát đơn giản (SFT) được sử dụng để phân loại văn bản. Thứ hai, dữ liệu quy trình suy luận được chắt lọc từ ChatGPT và được thêm vào đào tạo dưới dạng dữ liệu phụ trợ, sử dụng phương pháp đào tạo COT (Chain-Of-Thought).

Kết quả thí nghiệm cho thấy hiệu quả của tất cả các mô hình cơ sở và mô hình MindLLM có thể được cải thiện ở các mức độ khác nhau bằng cách bổ sung thông tin phụ trợ. Có thể quan sát thêm rằng hiệu suất của MindLLM-1.3B và 3B được cải thiện lần lượt là 27.81% và 26.28% so với hiệu suất đào tạo SFT bằng đào tạo COT và MindLLM được cải thiện đáng kể hơn các mô hình khác ngoại trừ Baichuan-7B. Ngoài ra, MindLLM-1.3B và 3B đạt được hiệu suất tốt nhất ở cùng quy mô và vượt trội hơn ChatGLM2-6B và Open-LLaMA-7B.

LĨNH VỰC PHÁP LÝ

Chúng tôi đã thu thập một số dữ liệu pháp lý có sẵn công khai và kết hợp nó với một số dữ liệu chỉ thị chung cho Chỉ thị Tinh chỉnh (SFT) của MindLLM. Để khám phá độ dài mã thông báo của dữ liệu ảnh hưởng như thế nào đến hiệu suất của mô hình trên các miền cụ thể, chúng tôi sử dụng dữ liệu có độ dài dữ liệu khác nhau để đào tạo MindLLM một cách riêng biệt. Trước tiên, chúng tôi sàng lọc tất cả dữ liệu có độ dài dưới 450, sau đó sử dụng mã thông báo MindLLM-1.3B và MindLLM-3B để lọc dữ liệu từ 200-300 đến 300-450, tương ứng. Bảng sau liệt kê số liệu thống kê và các mô hình đào tạo tương ứng:

Để tránh sai sót do thiên vị và thiếu chuyên môn trong đánh giá của con người, chúng tôi sử dụng ChatGPT làm công cụ đánh giá theo những cách sau. Một bộ dữ liệu gồm nhiều vòng đàm phán tư vấn pháp lý do ChatGPT tạo ra, 100 trong số đó được trích xuất làm dữ liệu đánh giá của chúng tôi. Chúng tôi sử dụng ChatGPT để đánh giá phản hồi của mô hình đối với tư vấn pháp lý, để ChatGPT xếp hạng phản hồi của mô hình, sau đó tính điểm Elo dựa trên kết quả xếp hạng. Cuối cùng, một trong những mô hình tốt nhất đã được chọn để so sánh MindLLM-Law với các mô hình nguồn mở khác.

Đối với Bloom, các mô hình GPT-Neo và Open-LLaMA đã được tinh chỉnh bằng cách sử dụng cùng một bộ dữ liệu như MindLLM-Law và kết quả so sánh như sau:

Kết quả cho thấy, MindLLM-Law chưa vượt qua được mô hình với thông số 13B và ChatGLM2-6B, chủ yếu do thiếu dữ liệu trong giai đoạn tiền đào tạo của pháp luật để mang lại lợi ích lớn hơn. Tuy nhiên, MindLLM có lợi thế tổng thể rõ ràng so với Baichuan2-7B-Chat, Open-LLaMA-7B tinh chỉnh và các mô hình khác có cùng kích thước.

Tóm tắt

Bài viết này giới thiệu dòng mô hình MindLLM, hiện bao gồm hai mô hình ngôn ngữ lớn nhẹ. Chúng tôi đã thảo luận chi tiết về quy trình đào tạo của họ, bao gồm xử lý dữ liệu, đào tạo trước, tinh chỉnh và các ứng dụng miền, đồng thời chia sẻ kinh nghiệm quý báu và các ứng dụng kỹ thuật tích lũy trong các lĩnh vực này. Mặc dù kích thước tham số tương đối nhỏ, MindLLM đã hoạt động tốt trong nhiều bài kiểm tra hiệu suất, thậm chí vượt trội hơn một số mô hình lớn hơn ở một số khía cạnh. MindLLM thể hiện hiệu suất vượt trội so với các mô hình nhẹ khác về khả năng thích ứng miền. Đồng thời, họ có thể đạt được kết quả tương đương với tốc độ đào tạo nhanh hơn và ít tài nguyên đào tạo hơn so với các mô hình lớn hơn. Dựa trên những phân tích trên, chúng tôi tin rằng các mô hình nhỏ vẫn có tiềm năng lớn. Chúng tôi sẽ cải thiện hơn nữa chất lượng dữ liệu, tối ưu hóa quy trình đào tạo mô hình và mở rộng mô hình để cải thiện hiệu suất của MindLLM một cách đa chiều. Trong tương lai, chúng tôi có kế hoạch thử nghiệm nhiều tác vụ hạ nguồn hơn và các lĩnh vực cụ thể để đạt được các ứng dụng cụ thể chuyên sâu hơn của các mô hình lớn nhẹ.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)