Єдина здатність моделі 15B перевершила GPT3.5, і використовується SQLCoder з відкритим кодом

Сімейство Coder додало нового члена, і його код був відкритим!

Які інструменти великої моделі ви знаєте про редагування коду?

Користувач Twitter @lvwerra зробив зображення нижче, щоб відсортувати більшість членів сімейства кодів.

Лише через два тижні після того, як він оприлюднив це зображення, три нових члени приєдналися до сім’ї, це DeciCoder, OctoCoder і останній член SQLCoder.

Серед них найновіший член SQLCoder не тільки має чудову продуктивність, але також має відкритий код!

SQLCoder

Будучи широкомасштабною мовною моделлю SOTA, SQLCoder перетворює запитання природною мовою на запити SQL. У SQL, системі оцінки розробника з відкритим кодом, SQLCoder значно перевершує всі основні моделі з відкритим кодом і GPT-3.5 OpenAI.

SQLCoder — це LLM параметрів 15B, а також точно налаштована реалізація StarCoder. SQLCoder точно налаштований на створені вручну SQL-запити зростаючої складності. При точному налаштуванні для однієї схеми бази даних її продуктивність порівнянна з GPT-4 або навіть краща.

* адреса проекту:

  • Демо адреса:
  • Вага моделі:

За останні три місяці SQLCoder було розгорнуто на медичних, фінансових та інших підприємствах. Ці компанії часто мають конфіденційні дані, які вони не хочуть отримувати з власних серверів, тому використання моделі самостійного розміщення є єдиним способом використання LLM.

метод

створити набір даних

Автори створили відредагований вручну набір даних для пар завершення, зосередившись на завданнях тексту в SQL. Набір даних було створено з 10 різних шаблонів із запитаннями різної складності. Крім того, вони створили набір оціночних даних із 175 питань із 7 нових шаблонів.

Вони переконалися, що складні схеми з 4-20 таблицями були обрані як для навчальних, так і для оціночних наборів даних, оскільки схеми лише з 1 або 2 таблицями, як правило, допускали прості та зрозумілі запити через обмежені зв’язки.

категорія питань

Після створення набору даних автор класифікував кожне запитання в наборі даних на чотири категорії: легке, середнє, важке та надзвичайно складне. Ця категоризація здійснюється шляхом адаптації критеріїв, які використовуються набором даних Spider для вимірювання складності SQL. Нарешті, вони розділили набір даних на два окремі підрозділи: легкий і помірний, важкий і надважкий.

тонка настройка

Автори налаштували модель у наступні два етапи.

По-перше, базова модель StarCoder була налаштована лише на завдання легкої та середньої складності.

По-друге, отримана модель (закодована як defog-easy) налаштована на складні та надскладні проблеми для отримання SQLcoder.

Оцінити

Автори оцінили модель на спеціальному наборі даних, який вони самі створили. Оцінити правильність SQL-запитів дуже складно, вони розглядали використання GPT-4 як стандарт оцінки, але зіткнулися з багатьма проблемами. По дорозі вони також зрозуміли, що обидва два різних запити SQL можуть бути правильними.

Для запитання «хто останні 10 користувачів з Торонто» обидві наступні форми запиту правильні.

Враховуючи це, автори створили спеціальну структуру для оцінки правильності запиту. Вони не лише розмістили відкриті вихідні коди для вагових коефіцієнтів моделі, але також розмістили відкритий вихідний код для системи оцінювання та набору даних оцінювання.

Мета випуску набору даних полягає в тому, щоб розширити доступні контрольні тести та допомогти дослідникам та інженерам краще зрозуміти продуктивність генеративних моделей перетворення тексту в SQL, особливо реакцію моделі на нешкідливі зміни у повернутих результатах, наприклад перейменування стовпців, додавання стовпців і зміна порядку) міцність.

Детальніше про оцінювання можна дізнатися у матеріалі блогу:

продуктивність

У структурі оцінки Defog SQLCoder перевершує всі основні моделі, крім GPT-4. Зокрема, він перевершує gpt-3.5-turbo та text-davinci-003, які більш ніж у 10 разів перевищують розмір двох моделей.

Ці результати стосуються загальної бази даних SQL і не відображають продуктивність SQLCoder на одній схемі бази даних. Під час тонкого налаштування однієї схеми бази даних SQLCoder працює так само або краще, ніж GPT-4 OpenAI з меншою затримкою (на A100 80 ГБ).

* Розділяє кожне згенероване запитання на 5 категорій і показує відсоток запитань, на які кожна модель відповіла правильно за категоріями. *

Вимоги до обладнання SQLCoder

SQLCoder протестовано на графічному процесорі A100 40 ГБ із ваговими коефіцієнтами. Ви також можете завантажити 8-розрядні та 4-розрядні квантовані версії моделі на графічні процесори споживчого класу з 20 ГБ пам’яті або більше, такі як RTX 4090, RTX 3090 і чіпи Apple M2 Pro, M2 Max або M2 Ultra з 20 Гб або більше пам'яті.

Наступна робота

У найближчі тижні автор зробить наступні оновлення для SQLCoder:

  • Навчіть модель за допомогою більшої кількості даних, зібраних людьми, і ширшого діапазону питань;
  • Подальше тонке налаштування моделі за допомогою моделювання винагороди та RLHF;
  • Попереднє навчання моделі (SQL + Python), що спеціалізується на аналізі даних з нуля.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити