¡La familia Coder ha agregado un nuevo miembro y ha sido de código abierto!
¿Qué herramientas de modelos grandes conoces sobre edición de código?
El usuario de Twitter @lvwerra creó la siguiente imagen para clasificar a la mayoría de los miembros de la familia de códigos.
Solo dos semanas después de publicar esta imagen, tres nuevos miembros se unieron a la familia: DeciCoder, OctoCoder y el miembro más reciente, SQLCoder.
Entre ellos, el miembro más reciente, SQLCoder, no solo tiene un rendimiento excelente, sino que también es de código abierto.
Codificador SQL
Como modelo de lenguaje SOTA a gran escala, SQLCoder convierte preguntas en lenguaje natural en consultas SQL. En SQL, el marco de evaluación de código abierto del desarrollador, SQLCoder supera significativamente a todos los principales modelos de código abierto y supera a GPT-3.5 de OpenAI.
SQLCoder es un LLM de parámetros 15B y también una implementación ajustada de StarCoder. SQLCoder está optimizado para consultas SQL hechas a mano de dificultad creciente. Cuando se ajusta para un único esquema de base de datos, su rendimiento es comparable o incluso mejor que GPT-4.
* dirección del proyecto:
Dirección de demostración:
Peso del modelo:
En los últimos tres meses, SQLCoder se ha implementado en empresas médicas, financieras y de otro tipo. Estas empresas a menudo tienen datos confidenciales que no quieren fuera de sus propios servidores, por lo que utilizar un modelo autohospedado es la única forma en que pueden usar LLM.
método
crear conjunto de datos
Los autores crearon un conjunto de datos de par de finalización editado a mano, centrándose en tareas de texto a SQL. El conjunto de datos se creó a partir de 10 patrones diferentes, con preguntas de distinta dificultad. Además, crearon un conjunto de datos de evaluación de 175 preguntas de 7 nuevos patrones.
Se aseguraron de que se seleccionaran esquemas complejos con entre 4 y 20 tablas tanto en los conjuntos de datos de entrenamiento como en los de evaluación, ya que los esquemas con solo 1 o 2 tablas tendían a permitir consultas simples y directas debido a las relaciones limitadas.
categoría de pregunta
Una vez creado el conjunto de datos, el autor clasificó cada pregunta del conjunto de datos en cuatro categorías: fácil, media, difícil y extremadamente difícil. Esta categorización se realiza adaptando los criterios utilizados por el conjunto de datos Spider para medir la dificultad de SQL. Finalmente, dividieron el conjunto de datos en dos subsecciones distintas, fácil y moderada, y difícil y superdifícil.
sintonia FINA
Los autores afinaron el modelo en las siguientes dos etapas.
En primer lugar, el modelo base de StarCoder se ajustó sólo en problemas de dificultad fácil y moderada.
En segundo lugar, el modelo obtenido (codificado como defog-easy) se ajusta en problemas difíciles y superdifíciles para obtener SQLcoder.
Evaluar
Los autores evaluaron el modelo en un conjunto de datos personalizado que crearon ellos mismos. Evaluar la exactitud de las consultas SQL es muy difícil; consideraron usar GPT-4 como estándar de evaluación, pero encontraron muchos problemas. En el camino, también se dieron cuenta de que dos consultas SQL diferentes podrían ser correctas.
Para la pregunta "quiénes son los últimos 10 usuarios de Toronto", los dos formularios de consulta siguientes son correctos.
Dado esto, los autores crearon un marco personalizado para evaluar la corrección de las consultas. No solo abren las ponderaciones del modelo, sino que también abren el marco de evaluación y el conjunto de datos de evaluación.
El propósito de publicar el conjunto de datos es enriquecer los puntos de referencia disponibles y ayudar a los investigadores e ingenieros a comprender mejor el rendimiento de los modelos generativos de texto a SQL, especialmente la respuesta del modelo a cambios inocuos en los resultados devueltos, como el cambio de nombre de columna, la adición de columnas y el reordenamiento. robustez
Se pueden encontrar más detalles sobre la evaluación en el contenido del blog:
actuación
En el marco de evaluación, Defog SQLCoder supera a todos los modelos principales, excepto a GPT-4. En particular, supera a gpt-3.5-turbo y text-davinci-003, que son más de 10 veces más grandes que los dos modelos.
Estos resultados son para una base de datos SQL genérica y no reflejan el rendimiento de SQLCoder en un único esquema de base de datos. Al ajustar un esquema de base de datos única, SQLCoder funciona igual o mejor que GPT-4 de OpenAI con menor latencia (en A100 de 80 GB).
* Divide cada pregunta generada en 5 categorías y muestra el porcentaje de preguntas respondidas correctamente por cada modelo por categoría. *
Requisitos de hardware de SQLCoder
SQLCoder ha sido probado en una GPU A100 de 40 GB con pesos. También puede cargar versiones cuantificadas de 8 y 4 bits del modelo en GPU de consumo con 20 GB o más de memoria, como RTX 4090, RTX 3090 y los chips M2 Pro, M2 Max o M2 Ultra de Apple con 20 GB o más de memoria.
El próximo trabajo
En las próximas semanas, el autor realizará las siguientes actualizaciones en SQLCoder:
Entrene el modelo con más datos recopilados por humanos y una gama más amplia de preguntas;
Afinar aún más el modelo utilizando modelos de recompensa y RLHF;
Pre-entrenar un modelo (SQL + Python) especializado en análisis de datos desde cero.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
La capacidad única del modelo 15B ha superado a GPT3.5 y se ha empleado SQLCoder de código abierto.
¿Qué herramientas de modelos grandes conoces sobre edición de código?
El usuario de Twitter @lvwerra creó la siguiente imagen para clasificar a la mayoría de los miembros de la familia de códigos.
Codificador SQL
Como modelo de lenguaje SOTA a gran escala, SQLCoder convierte preguntas en lenguaje natural en consultas SQL. En SQL, el marco de evaluación de código abierto del desarrollador, SQLCoder supera significativamente a todos los principales modelos de código abierto y supera a GPT-3.5 de OpenAI.
SQLCoder es un LLM de parámetros 15B y también una implementación ajustada de StarCoder. SQLCoder está optimizado para consultas SQL hechas a mano de dificultad creciente. Cuando se ajusta para un único esquema de base de datos, su rendimiento es comparable o incluso mejor que GPT-4.
En los últimos tres meses, SQLCoder se ha implementado en empresas médicas, financieras y de otro tipo. Estas empresas a menudo tienen datos confidenciales que no quieren fuera de sus propios servidores, por lo que utilizar un modelo autohospedado es la única forma en que pueden usar LLM.
método
crear conjunto de datos
Los autores crearon un conjunto de datos de par de finalización editado a mano, centrándose en tareas de texto a SQL. El conjunto de datos se creó a partir de 10 patrones diferentes, con preguntas de distinta dificultad. Además, crearon un conjunto de datos de evaluación de 175 preguntas de 7 nuevos patrones.
Se aseguraron de que se seleccionaran esquemas complejos con entre 4 y 20 tablas tanto en los conjuntos de datos de entrenamiento como en los de evaluación, ya que los esquemas con solo 1 o 2 tablas tendían a permitir consultas simples y directas debido a las relaciones limitadas.
categoría de pregunta
Una vez creado el conjunto de datos, el autor clasificó cada pregunta del conjunto de datos en cuatro categorías: fácil, media, difícil y extremadamente difícil. Esta categorización se realiza adaptando los criterios utilizados por el conjunto de datos Spider para medir la dificultad de SQL. Finalmente, dividieron el conjunto de datos en dos subsecciones distintas, fácil y moderada, y difícil y superdifícil.
sintonia FINA
Los autores afinaron el modelo en las siguientes dos etapas.
En primer lugar, el modelo base de StarCoder se ajustó sólo en problemas de dificultad fácil y moderada.
En segundo lugar, el modelo obtenido (codificado como defog-easy) se ajusta en problemas difíciles y superdifíciles para obtener SQLcoder.
Evaluar
Los autores evaluaron el modelo en un conjunto de datos personalizado que crearon ellos mismos. Evaluar la exactitud de las consultas SQL es muy difícil; consideraron usar GPT-4 como estándar de evaluación, pero encontraron muchos problemas. En el camino, también se dieron cuenta de que dos consultas SQL diferentes podrían ser correctas.
Para la pregunta "quiénes son los últimos 10 usuarios de Toronto", los dos formularios de consulta siguientes son correctos.
El propósito de publicar el conjunto de datos es enriquecer los puntos de referencia disponibles y ayudar a los investigadores e ingenieros a comprender mejor el rendimiento de los modelos generativos de texto a SQL, especialmente la respuesta del modelo a cambios inocuos en los resultados devueltos, como el cambio de nombre de columna, la adición de columnas y el reordenamiento. robustez
actuación
En el marco de evaluación, Defog SQLCoder supera a todos los modelos principales, excepto a GPT-4. En particular, supera a gpt-3.5-turbo y text-davinci-003, que son más de 10 veces más grandes que los dos modelos.
Requisitos de hardware de SQLCoder
SQLCoder ha sido probado en una GPU A100 de 40 GB con pesos. También puede cargar versiones cuantificadas de 8 y 4 bits del modelo en GPU de consumo con 20 GB o más de memoria, como RTX 4090, RTX 3090 y los chips M2 Pro, M2 Max o M2 Ultra de Apple con 20 GB o más de memoria.
El próximo trabajo
En las próximas semanas, el autor realizará las siguientes actualizaciones en SQLCoder: