Kemampuan tunggal model 15B telah melampaui GPT3.5, dan SQLCoder open source telah digunakan

Keluarga Coder telah menambahkan anggota baru, dan telah menjadi sumber terbuka!

Alat model besar apa yang Anda ketahui tentang pengeditan kode?

Pengguna Twitter @lvwerra membuat gambar di bawah ini untuk memilah sebagian besar anggota keluarga kode.

Hanya dua minggu setelah dia merilis gambar ini, tiga anggota baru bergabung dengan keluarga tersebut, mereka adalah DeciCoder, OctoCoder dan anggota terbaru SQLCoder.

Di antara mereka, SQLCoder anggota terbaru tidak hanya memiliki kinerja yang sangat baik, tetapi juga open source!

SQLCoder

Sebagai model bahasa SOTA skala besar, SQLCoder mengubah pertanyaan bahasa alami menjadi kueri SQL. Dalam SQL, kerangka evaluasi sumber terbuka pengembang, SQLCoder secara signifikan mengungguli semua model sumber terbuka utama dan mengungguli GPT-3.5 OpenAI.

SQLCoder adalah LLM parameter 15B, dan juga implementasi StarCoder yang disempurnakan. SQLCoder disetel dengan baik pada kueri SQL buatan tangan yang semakin sulit. Saat disesuaikan untuk skema database tunggal, kinerjanya sebanding atau bahkan lebih baik daripada GPT-4.

*alamat proyek: *Alamat demo:

  • Berat Model:

Dalam tiga bulan terakhir, SQLCoder telah diterapkan di perusahaan medis, keuangan, dan lainnya. Bisnis-bisnis ini sering kali memiliki data sensitif yang tidak mereka inginkan dari server mereka sendiri, jadi menggunakan model yang dihosting sendiri adalah satu-satunya cara mereka dapat menggunakan LLM.

metode

buat kumpulan data

Penulis membuat kumpulan data pasangan penyelesaian yang diedit dengan tangan, dengan fokus pada tugas teks-ke-SQL. Dataset dibuat dari 10 pola berbeda dengan soal dengan tingkat kesulitan yang berbeda-beda. Selain itu, mereka membuat kumpulan data evaluasi dari 175 pertanyaan dari 7 pola baru.

Mereka memastikan bahwa skema kompleks dengan 4-20 tabel dipilih dalam kumpulan data pelatihan dan evaluasi, karena skema dengan hanya 1 atau 2 tabel cenderung memungkinkan kueri sederhana dan mudah karena hubungan yang terbatas.

kategori pertanyaan

Setelah dataset dibuat, penulis mengklasifikasikan setiap soal dalam dataset ke dalam empat kategori: mudah, sedang, sulit, dan sangat sulit. Kategorisasi ini dilakukan dengan mengadaptasi kriteria yang digunakan oleh dataset Spider untuk mengukur tingkat kesulitan SQL. Terakhir, mereka membagi kumpulan data menjadi dua subbagian berbeda, subbagian mudah dan sedang, serta subbagian keras dan superkeras.

mencari setelan

Penulis menyempurnakan model dalam dua tahap berikut.

Pertama, model dasar StarCoder disempurnakan hanya pada soal dengan tingkat kesulitan mudah dan sedang.

Kedua, model yang diperoleh (dikodekan sebagai defog-easy) disesuaikan pada masalah sulit dan super sulit untuk mendapatkan SQLcoder.

Evaluasi

Penulis mengevaluasi model pada kumpulan data khusus yang mereka buat sendiri. Menilai kebenaran kueri SQL sangat sulit, mereka mempertimbangkan untuk menggunakan GPT-4 sebagai standar evaluasi, namun menemui banyak masalah. Sepanjang jalan mereka juga menyadari bahwa dua query SQL yang berbeda mungkin keduanya benar.

Untuk pertanyaan "siapa 10 pengguna terakhir dari Toronto", kedua formulir kueri berikut ini benar.

Mengingat hal ini, penulis membangun kerangka kerja khusus untuk mengevaluasi kebenaran kueri. Mereka tidak hanya membuat bobot model menjadi sumber terbuka, tetapi juga kerangka evaluasi dan kumpulan data evaluasi menjadi sumber terbuka.

Tujuan dirilisnya kumpulan data ini adalah untuk memperkaya tolok ukur yang tersedia dan membantu peneliti dan insinyur lebih memahami kinerja model generatif text-to-SQL, terutama respons model terhadap perubahan yang tidak berbahaya pada hasil yang dikembalikan seperti penggantian nama kolom, penambahan kolom, dan penyusunan ulang) kekokohan.

Rincian lebih lanjut tentang evaluasi dapat ditemukan di konten blog:

pertunjukan

Dalam kerangka evaluasi, Defog SQLCoder mengungguli semua model utama kecuali GPT-4. Secara khusus, ini mengungguli gpt-3.5-turbo dan text-davinci-003, yang lebih dari 10 kali ukuran kedua model.

Hasil ini ditujukan untuk database SQL generik dan tidak mencerminkan performa SQLCoder pada skema database tunggal. Saat menyempurnakan skema database tunggal, SQLCoder memiliki performa yang sama atau lebih baik daripada GPT-4 OpenAI dengan latensi lebih rendah (pada A100 80GB).

*Membagi setiap pertanyaan yang dihasilkan menjadi 5 kategori dan menunjukkan persentase pertanyaan yang dijawab dengan benar oleh setiap model berdasarkan kategori. *

Persyaratan Perangkat Keras SQLCoder

SQLCoder telah diuji pada GPU A100 40GB dengan bobot. Anda juga dapat memuat model versi terkuantisasi 8-bit dan 4-bit pada GPU tingkat konsumen dengan memori 20 GB atau lebih, seperti RTX 4090, RTX 3090, dan chip M2 Pro, M2 Max, atau M2 Ultra Apple dengan Memori 20GB atau lebih.

Pekerjaan selanjutnya

Dalam beberapa minggu mendatang, penulis akan melakukan pembaruan berikut pada SQLCoder:

  • Latih model dengan lebih banyak data yang dikumpulkan manusia dan lebih banyak pertanyaan;
  • Penyempurnaan lebih lanjut model menggunakan pemodelan penghargaan dan RLHF;
  • Latih terlebih dahulu model (SQL + Python) yang berspesialisasi dalam analisis data dari awal.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)