Với 1 hướng dẫn + 5 đô la Mỹ + 20 phút, bạn có thể đào tạo một người mẫu chuyên nghiệp nhỏ, _2Model tìm hiểu thêm

2023-08-31 06:31:53

CMU và các nhà nghiên cứu từ Đại học Thanh Hoa đã cùng nhau phát hành khung 2Model, có thể nhanh chóng đào tạo một mô hình chuyên nghiệp nhỏ dựa trên ý kiến đóng góp của người dùng. Với khoản đầu tư chỉ 5 USD vào việc thu thập dữ liệu và thời gian đào tạo 20 phút, bạn có thể thu được một mô hình nhỏ vượt trội hơn 20% so với mức trung bình của ChatGPT trong khi giảm kích thước của các tham số mô hình xuống 700.

Nguồn hình ảnh: Được tạo bởi AI không giới hạn

Các mô hình ngôn ngữ quy mô lớn (LLM) cho phép người dùng xây dựng các hệ thống xử lý ngôn ngữ tự nhiên mạnh mẽ với sự trợ giúp của các gợi ý và học tập theo ngữ cảnh. Tuy nhiên, từ một quan điểm khác, LLM đã thụt lùi một số tác vụ xử lý ngôn ngữ tự nhiên nhất định: việc triển khai các mô hình này đòi hỏi nhiều tài nguyên máy tính và việc tương tác với các mô hình thông qua API có thể gây ra các vấn đề tiềm ẩn về quyền riêng tư.

Để giải quyết những vấn đề này, các nhà nghiên cứu từ Đại học Carnegie Mellon (CMU) và Đại học Thanh Hoa đã cùng nhau đưa ra khuôn khổ 2Model. Mục tiêu của khung này là kết hợp các phương pháp truy xuất và tạo dữ liệu dựa trên LLM để vượt qua các thách thức trên. Sử dụng khung 2Model, người dùng chỉ cần đưa ra lời nhắc giống như LLM để tự động thu thập dữ liệu và đào tạo hiệu quả các mô hình chuyên biệt nhỏ phù hợp với các nhiệm vụ cụ thể.

Các nhà nghiên cứu đã tiến hành thí nghiệm trên ba nhiệm vụ phụ xử lý ngôn ngữ tự nhiên. Lấy một số ít gợi ý mẫu làm đầu vào, chỉ tốn 5 USD để thu thập dữ liệu và 20 phút đào tạo, mô hình do khung 2Model tạo ra cho thấy hiệu suất cải thiện 20% so với mô hình LLM gpt-3.5-turbo mạnh hơn. Đồng thời, kích thước của mô hình đã giảm tới 700 lần. Các nhà nghiên cứu đã xác minh thêm tác động của những dữ liệu này đến hiệu suất của mô hình trong các tình huống thực tế, cho phép các nhà phát triển mô hình dự đoán độ tin cậy của mô hình trước khi triển khai. Khung này đã có sẵn dưới dạng nguồn mở:

* Địa chỉ kho GitHub của framework: *Liên kết video trình diễn khung:

Liên kết đến các bài viết liên quan đến khung:

lý lịch

Xây dựng một hệ thống từ đầu cho một tác vụ xử lý ngôn ngữ tự nhiên cụ thể thường khá phức tạp. Người xây dựng hệ thống cần xác định rõ ràng phạm vi nhiệm vụ, lấy tập dữ liệu cụ thể, chọn kiến trúc mô hình phù hợp, tiến hành đào tạo và đánh giá mô hình, sau đó triển khai nó để ứng dụng thực tế.

Mô hình ngôn ngữ quy mô lớn (LLM) như GPT-3 cung cấp giải pháp dễ dàng hơn cho quy trình này. Người dùng chỉ cần cung cấp lời nhắc nhiệm vụ (hướng dẫn) và một số ví dụ (ví dụ) và LLM có thể tạo đầu ra văn bản tương ứng. Tuy nhiên, việc tạo văn bản từ gợi ý có thể tốn nhiều công sức tính toán và việc sử dụng gợi ý không ổn định như mô hình được đào tạo đặc biệt. Ngoài ra, khả năng sử dụng LLM bị hạn chế bởi chi phí, tốc độ và quyền riêng tư.

Để khắc phục những vấn đề này, các nhà nghiên cứu đã phát triển khung 2Model. Khung này kết hợp việc tạo dữ liệu dựa trên LLM với các kỹ thuật truy xuất để giải quyết các hạn chế đã nói ở trên. Trước tiên, hệ thống sẽ trích xuất thông tin chính từ nó, sau đó tạo và truy xuất dữ liệu huấn luyện, cuối cùng tạo ra một mô hình chuyên biệt sẵn sàng để triển khai.

Khung 2Model tự động hóa các bước cốt lõi sau:

Truy xuất bộ dữ liệu và mô hình: Thu thập các bộ dữ liệu liên quan và các mô hình được đào tạo trước.
Tạo tập dữ liệu: Sử dụng LLM để tạo các tập dữ liệu được gắn nhãn giả.
Tinh chỉnh mô hình: Tinh chỉnh mô hình bằng cách trộn dữ liệu được truy xuất và dữ liệu được tạo.
Kiểm thử mô hình: Kiểm thử mô hình trên các tập dữ liệu thử nghiệm và tập dữ liệu thực do người dùng cung cấp.

Sau khi đánh giá thực nghiệm trên nhiều nhiệm vụ khác nhau, chi phí của 2Model giảm đáng kể và kích thước của mô hình cũng giảm đáng kể, nhưng hiệu suất của nó vượt quá gpt-3.5-turbo. Khung 2Model không chỉ đóng vai trò là công cụ để xây dựng hiệu quả các hệ thống xử lý ngôn ngữ tự nhiên mà còn đóng vai trò là nền tảng để khám phá các kỹ thuật đào tạo tổ hợp mô hình.

Khung

Tính năng cốt lõi của khung 2Model là mức độ tự động hóa cao. Quá trình của nó bao gồm nhiều liên kết như thu thập dữ liệu, đào tạo mô hình, đánh giá và triển khai, như trong hình trên. Trong số đó, hệ thống thu thập dữ liệu tự động đóng vai trò then chốt, giúp thu thập dữ liệu liên quan chặt chẽ đến nhu cầu của người dùng thông qua truy xuất dữ liệu và tạo dữ liệu dựa trên LLM. Sau đó, hệ thống sẽ truy xuất mô hình được đào tạo trước và tinh chỉnh nó trên tập dữ liệu thu được. Cuối cùng, mô hình đã đào tạo được đánh giá trên tập kiểm tra và giao diện người dùng web (UI) được tạo để tương tác với mô hình.

Các tính năng chính của khung 2Model bao gồm:

Trình điều khiển: Ý tưởng cốt lõi của 2Model là sử dụng nó làm trình điều khiển, người dùng có thể mô tả trực tiếp các tác vụ được yêu cầu mà không cần đi sâu vào chi tiết triển khai cụ thể của machine learning.
Thu thập dữ liệu tự động: Khung sử dụng các kỹ thuật tạo và truy xuất tập dữ liệu để thu được dữ liệu phù hợp nhất với nhiệm vụ của người dùng, từ đó thiết lập tập dữ liệu cần thiết cho việc đào tạo.
Các mô hình được đào tạo trước: Framework sử dụng các mô hình được đào tạo trước và tinh chỉnh chúng, từ đó tiết kiệm rất nhiều chi phí và thời gian đào tạo.
Đánh giá hiệu quả: 2Model hỗ trợ thử nghiệm và đánh giá mô hình trên bộ dữ liệu thực tế, cho phép dự đoán sơ bộ và đánh giá hiệu suất trước khi triển khai mô hình, từ đó nâng cao độ tin cậy của mô hình.

Những đặc điểm này làm cho khung 2Model trở thành một công cụ mạnh mẽ có thể hoàn thành hiệu quả quá trình xây dựng hệ thống xử lý ngôn ngữ tự nhiên và cung cấp các chức năng nâng cao như thu thập dữ liệu tự động, đánh giá mô hình và tạo giao diện tương tác người dùng.

Thử nghiệm và kết quả

Về mặt thiết kế thử nghiệm, các nhà nghiên cứu đã chọn ba nhiệm vụ khác nhau để đánh giá hiệu suất của hệ thống 2Model:

Machine Reading QA: Sử dụng SQuAD làm bộ dữ liệu đánh giá thực tế.
Chuyển đổi NL-to-Code của Nhật Bản (NL-to-Code của Nhật Bản): Sử dụng MCoNaLa làm tập dữ liệu đánh giá thực tế.
Chuẩn hóa biểu thức tạm thời: Sử dụng tập dữ liệu tạm thời làm tập dữ liệu đánh giá thực tế.

Ngoài ra, các nhà nghiên cứu cũng chọn GPT-3.5-turbo làm mẫu chuẩn để so sánh. Kết quả thực nghiệm dẫn đến các kết luận sau:

Trong tất cả các nhiệm vụ ngoại trừ nhiệm vụ tạo mã, mô hình do hệ thống 2Model tạo ra tốt hơn đáng kể so với mô hình cơ sở GPT-3.5-turbo, mặc dù kích thước tham số của mô hình được tạo nhỏ hơn nhiều so với GPT-3.5-turbo.
Bằng cách trộn tập dữ liệu đã truy xuất với tập dữ liệu được tạo để huấn luyện, có thể đạt được hiệu quả tương đương với việc huấn luyện trực tiếp với tập dữ liệu thực tế. Điều này xác minh rằng khung 2Model có thể giảm đáng kể chi phí chú thích thủ công.
Tập dữ liệu thử nghiệm do trình tạo dữ liệu tạo ra có thể phân biệt hiệu quả hiệu suất của các mô hình khác nhau trên tập dữ liệu thực tế. Điều này cho thấy dữ liệu được tạo ra có chất lượng cao và có đủ hiệu quả trong việc huấn luyện mô hình.
Trong nhiệm vụ chuyển đổi từ tiếng Nhật sang mã, hệ thống 2Model không hoạt động tốt như GPT-3.5-turbo.

Điều này có thể là do chất lượng của tập dữ liệu được tạo ra thấp, thiếu các mô hình được đào tạo trước phù hợp, v.v.

Kết hợp lại với nhau, hệ thống 2Model đã tạo thành công các mô hình nhỏ chất lượng cao cho nhiều tác vụ, giúp giảm đáng kể nhu cầu chú thích dữ liệu theo cách thủ công. Tuy nhiên, vẫn cần cải thiện thêm ở một số nhiệm vụ.

Tóm tắt

Khung 2Model do nhóm nghiên cứu đưa ra thực hiện chức năng tự động xây dựng các mô hình dành riêng cho nhiệm vụ chỉ thông qua lời nhắc bằng ngôn ngữ tự nhiên. Sự đổi mới này làm giảm đáng kể ngưỡng xây dựng các mô hình xử lý ngôn ngữ tự nhiên tùy chỉnh và mở rộng hơn nữa phạm vi ứng dụng của công nghệ NLP.

Kết quả thử nghiệm xác minh cho thấy mô hình do khung 2Model tạo ra nhỏ hơn đáng kể so với mô hình ngôn ngữ lớn và vượt trội hơn các mô hình như GPT-3.5-turbo trong nhiều tác vụ. Đồng thời, tập dữ liệu đánh giá do khung tạo ra cũng đã được chứng minh là có hiệu quả trong việc đánh giá hiệu suất của các mô hình khác nhau trên tập dữ liệu thực. Điều này mang lại giá trị đáng kể trong việc hướng dẫn triển khai mô hình cuối cùng.

Khung 2Model cung cấp cách tiếp cận chi phí thấp, dễ sử dụng cho các ngành và người dùng để có được các mô hình NLP đáp ứng các nhu cầu cụ thể. Điều này có ý nghĩa rất lớn trong việc thúc đẩy ứng dụng rộng rãi công nghệ NLP. Công việc trong tương lai sẽ tiếp tục được dành riêng để tối ưu hóa hơn nữa hiệu suất của khung.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
ETH Breaks $3600
55k Phổ biến
Gate Derivatives Volume Hits New High
21k Phổ biến
CPI Data Incoming
64k Phổ biến
4Join Gate VIP to Win MacBook
31k Phổ biến
5MicroStrategy Buys More Bitcoin
4k Phổ biến
6BTC Hits New High
116k Phổ biến
7My Gate Moments
29k Phổ biến
8VIP Exclusive Airdrop Carnival
28k Phổ biến
9Fed June Meeting Minutes
7k Phổ biến
10Trump Tariff Hikes
19k Phổ biến

Ghim

sơ đồ trang web