La capacidad única del modelo 15B ha superado a GPT3.5 y se ha empleado SQLCoder de código abierto.

2023-08-23 05:55:47

¡La familia Coder ha agregado un nuevo miembro y ha sido de código abierto!

¿Qué herramientas de modelos grandes conoces sobre edición de código?

El usuario de Twitter @lvwerra creó la siguiente imagen para clasificar a la mayoría de los miembros de la familia de códigos.

Solo dos semanas después de publicar esta imagen, tres nuevos miembros se unieron a la familia: DeciCoder, OctoCoder y el miembro más reciente, SQLCoder.

Entre ellos, el miembro más reciente, SQLCoder, no solo tiene un rendimiento excelente, sino que también es de código abierto.

Codificador SQL

Como modelo de lenguaje SOTA a gran escala, SQLCoder convierte preguntas en lenguaje natural en consultas SQL. En SQL, el marco de evaluación de código abierto del desarrollador, SQLCoder supera significativamente a todos los principales modelos de código abierto y supera a GPT-3.5 de OpenAI.

SQLCoder es un LLM de parámetros 15B y también una implementación ajustada de StarCoder. SQLCoder está optimizado para consultas SQL hechas a mano de dificultad creciente. Cuando se ajusta para un único esquema de base de datos, su rendimiento es comparable o incluso mejor que GPT-4.

* dirección del proyecto:

Dirección de demostración:
Peso del modelo:

En los últimos tres meses, SQLCoder se ha implementado en empresas médicas, financieras y de otro tipo. Estas empresas a menudo tienen datos confidenciales que no quieren fuera de sus propios servidores, por lo que utilizar un modelo autohospedado es la única forma en que pueden usar LLM.

método

crear conjunto de datos

Los autores crearon un conjunto de datos de par de finalización editado a mano, centrándose en tareas de texto a SQL. El conjunto de datos se creó a partir de 10 patrones diferentes, con preguntas de distinta dificultad. Además, crearon un conjunto de datos de evaluación de 175 preguntas de 7 nuevos patrones.

Se aseguraron de que se seleccionaran esquemas complejos con entre 4 y 20 tablas tanto en los conjuntos de datos de entrenamiento como en los de evaluación, ya que los esquemas con solo 1 o 2 tablas tendían a permitir consultas simples y directas debido a las relaciones limitadas.

categoría de pregunta

Una vez creado el conjunto de datos, el autor clasificó cada pregunta del conjunto de datos en cuatro categorías: fácil, media, difícil y extremadamente difícil. Esta categorización se realiza adaptando los criterios utilizados por el conjunto de datos Spider para medir la dificultad de SQL. Finalmente, dividieron el conjunto de datos en dos subsecciones distintas, fácil y moderada, y difícil y superdifícil.

sintonia FINA

Los autores afinaron el modelo en las siguientes dos etapas.

En primer lugar, el modelo base de StarCoder se ajustó sólo en problemas de dificultad fácil y moderada.

En segundo lugar, el modelo obtenido (codificado como defog-easy) se ajusta en problemas difíciles y superdifíciles para obtener SQLcoder.

Evaluar

Los autores evaluaron el modelo en un conjunto de datos personalizado que crearon ellos mismos. Evaluar la exactitud de las consultas SQL es muy difícil; consideraron usar GPT-4 como estándar de evaluación, pero encontraron muchos problemas. En el camino, también se dieron cuenta de que dos consultas SQL diferentes podrían ser correctas.

Para la pregunta "quiénes son los últimos 10 usuarios de Toronto", los dos formularios de consulta siguientes son correctos.

Dado esto, los autores crearon un marco personalizado para evaluar la corrección de las consultas. No solo abren las ponderaciones del modelo, sino que también abren el marco de evaluación y el conjunto de datos de evaluación.

El propósito de publicar el conjunto de datos es enriquecer los puntos de referencia disponibles y ayudar a los investigadores e ingenieros a comprender mejor el rendimiento de los modelos generativos de texto a SQL, especialmente la respuesta del modelo a cambios inocuos en los resultados devueltos, como el cambio de nombre de columna, la adición de columnas y el reordenamiento. robustez

Se pueden encontrar más detalles sobre la evaluación en el contenido del blog:

actuación

En el marco de evaluación, Defog SQLCoder supera a todos los modelos principales, excepto a GPT-4. En particular, supera a gpt-3.5-turbo y text-davinci-003, que son más de 10 veces más grandes que los dos modelos.

Estos resultados son para una base de datos SQL genérica y no reflejan el rendimiento de SQLCoder en un único esquema de base de datos. Al ajustar un esquema de base de datos única, SQLCoder funciona igual o mejor que GPT-4 de OpenAI con menor latencia (en A100 de 80 GB).

* Divide cada pregunta generada en 5 categorías y muestra el porcentaje de preguntas respondidas correctamente por cada modelo por categoría. *

Requisitos de hardware de SQLCoder

SQLCoder ha sido probado en una GPU A100 de 40 GB con pesos. También puede cargar versiones cuantificadas de 8 y 4 bits del modelo en GPU de consumo con 20 GB o más de memoria, como RTX 4090, RTX 3090 y los chips M2 Pro, M2 Max o M2 Ultra de Apple con 20 GB o más de memoria.

El próximo trabajo

En las próximas semanas, el autor realizará las siguientes actualizaciones en SQLCoder:

Entrene el modelo con más datos recopilados por humanos y una gama más amplia de preguntas;
Afinar aún más el modelo utilizando modelos de recompensa y RLHF;
Pre-entrenar un modelo (SQL + Python) especializado en análisis de datos desde cero.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
Altcoin Season Update
36k Popularidad
Trump Pressures Powell
4k Popularidad
ETH Breaks $3600
5k Popularidad
4Gate 2025 Q2 Report Released
39k Popularidad
5Gate Derivatives Volume Hits New High
17k Popularidad
6CPI Data Incoming
31k Popularidad
7Join Gate VIP to Win MacBook
31k Popularidad
8MicroStrategy Buys More Bitcoin
3k Popularidad
9BTC Hits New High
95k Popularidad
10My Gate Moments
27k Popularidad

Anclado