Khả năng duy nhất của mô hình 15B đã vượt qua GPT3.5 và SQLCoder mã nguồn mở đã được sử dụng

Gia đình Coder đã thêm một thành viên mới và nó đã có nguồn mở!

Bạn biết những công cụ mô hình lớn nào về chỉnh sửa mã?

Người dùng Twitter @lvwerra đã tạo hình ảnh bên dưới để sắp xếp hầu hết các thành viên của họ mã.

Chỉ hai tuần sau khi anh tung ra bức ảnh này, ba thành viên mới đã gia nhập gia đình, họ là DeciCoder, OctoCoder và thành viên mới nhất SQLCoder.

Trong số đó, thành viên mới nhất SQLCoder không chỉ có hiệu năng xuất sắc mà còn là mã nguồn mở!

Bộ mã hóa SQL

Là một mô hình ngôn ngữ quy mô lớn SOTA, SQLCoder chuyển đổi các câu hỏi ngôn ngữ tự nhiên thành các truy vấn SQL. Trong SQL, khung đánh giá nguồn mở dành cho nhà phát triển, SQLCoder vượt trội đáng kể so với tất cả các mô hình nguồn mở chính và vượt trội hơn GPT-3.5 của OpenAI.

SQLCoder là một LLM tham số 15B và cũng là một cách triển khai StarCoder được tinh chỉnh. SQLCoder được tinh chỉnh trên các truy vấn SQL thủ công có độ khó tăng dần. Khi tinh chỉnh cho một lược đồ cơ sở dữ liệu duy nhất, hiệu suất của nó có thể so sánh hoặc thậm chí tốt hơn GPT-4.

*địa chỉ dự án:

  • Địa chỉ demo:
  • Trọng lượng mẫu:

Trong ba tháng qua, SQLCoder đã được triển khai trong các doanh nghiệp y tế, tài chính và các doanh nghiệp khác. Các doanh nghiệp này thường có dữ liệu nhạy cảm mà họ không muốn tắt máy chủ của mình, vì vậy sử dụng mô hình tự lưu trữ là cách duy nhất họ có thể sử dụng LLM.

phương pháp

tạo tập dữ liệu

Các tác giả đã tạo bộ dữ liệu cặp hoàn thành được chỉnh sửa thủ công, tập trung vào các tác vụ chuyển văn bản sang SQL. Bộ dữ liệu được tạo từ 10 mẫu khác nhau, với các câu hỏi có độ khó khác nhau. Ngoài ra, họ đã tạo một bộ dữ liệu đánh giá gồm 175 câu hỏi từ 7 mẫu mới.

Họ đảm bảo rằng các lược đồ phức tạp với 4-20 bảng đã được chọn trong cả bộ dữ liệu đào tạo và đánh giá, vì các lược đồ chỉ có 1 hoặc 2 bảng có xu hướng cho phép các truy vấn đơn giản và dễ hiểu do các mối quan hệ hạn chế.

danh mục câu hỏi

Sau khi tạo tập dữ liệu, tác giả phân loại từng câu hỏi trong tập dữ liệu thành 4 loại: dễ, trung bình, khó và cực khó. Việc phân loại này được thực hiện bằng cách điều chỉnh các tiêu chí được sử dụng bởi tập dữ liệu Spider để đo độ khó của SQL. Cuối cùng, họ chia tập dữ liệu thành hai phần nhỏ riêng biệt, dễ và trung bình, khó và siêu khó.

tinh chỉnh

Các tác giả đã tinh chỉnh mô hình theo hai giai đoạn sau.

Đầu tiên, mô hình cơ sở StarCoder chỉ được tinh chỉnh cho các bài toán có độ khó dễ và vừa phải.

Thứ hai, mô hình thu được (được mã hóa là defog-easy) được tinh chỉnh trên các bài toán khó và siêu khó để thu được SQLcode.

Đánh giá

Các tác giả đã đánh giá mô hình trên tập dữ liệu tùy chỉnh mà họ tự tạo. Việc đánh giá tính đúng đắn của các truy vấn SQL là rất khó, họ cân nhắc sử dụng GPT-4 làm tiêu chuẩn đánh giá nhưng lại gặp nhiều vấn đề. Đồng thời, họ cũng nhận ra rằng hai truy vấn SQL khác nhau có thể đều đúng.

Đối với câu hỏi "10 người dùng cuối cùng từ Toronto là ai", cả hai dạng truy vấn sau đây đều đúng.

Vì điều này, các tác giả đã xây dựng một khung tùy chỉnh để đánh giá tính chính xác của truy vấn. Họ không chỉ lấy nguồn mở các trọng số mô hình mà còn lấy nguồn mở khung đánh giá và tập dữ liệu đánh giá.

Mục đích của việc phát hành tập dữ liệu là để làm phong phú thêm các điểm chuẩn có sẵn và giúp các nhà nghiên cứu và kỹ sư hiểu rõ hơn về hiệu suất của các mô hình tạo văn bản thành SQL, đặc biệt là phản ứng của mô hình đối với những thay đổi vô hại trong kết quả trả về như đổi tên cột, nối thêm cột và sắp xếp lại) sự cường tráng.

Thông tin chi tiết về đánh giá có thể được tìm thấy trong nội dung blog:

hiệu suất

Trong khung đánh giá, Defog SQLCoder vượt trội hơn tất cả các mô hình chính ngoại trừ GPT-4. Đặc biệt, nó vượt trội so với gpt-3.5-turbo và text-davinci-003, có kích thước gấp hơn 10 lần hai mẫu trên.

Những kết quả này dành cho cơ sở dữ liệu SQL chung và không phản ánh hiệu suất của SQLCoder trên một lược đồ cơ sở dữ liệu duy nhất. Khi tinh chỉnh một lược đồ cơ sở dữ liệu duy nhất, SQLCoder hoạt động bằng hoặc tốt hơn GPT-4 của OpenAI với độ trễ thấp hơn (trên A100 80GB).

*Chia từng câu hỏi được tạo thành 5 danh mục và hiển thị tỷ lệ phần trăm câu hỏi được trả lời đúng theo từng kiểu máy theo danh mục. *

Yêu cầu phần cứng SQLCoder

SQLCoder đã được thử nghiệm trên GPU A100 40GB có trọng lượng. Bạn cũng có thể tải các phiên bản lượng tử hóa 8 bit và 4 bit của mô hình trên GPU cấp độ người tiêu dùng có bộ nhớ 20 GB trở lên, chẳng hạn như RTX 4090, RTX 3090 và chip M2 Pro, M2 Max hoặc M2 Ultra của Apple với Bộ nhớ 20GB trở lên.

Công việc tiếp theo

Trong những tuần tới, tác giả sẽ thực hiện các cập nhật sau cho SQLCoder:

  • Huấn luyện mô hình với nhiều dữ liệu do con người thu thập hơn và nhiều câu hỏi hơn;
  • Tinh chỉnh thêm mô hình bằng cách sử dụng mô hình khen thưởng và RLHF;
  • Đào tạo trước mô hình (SQL + Python) chuyên phân tích dữ liệu từ đầu.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)