Con 1 instrucción + 5 dólares estadounidenses + 20 minutos, puedes entrenar un pequeño modelo profesional, _2Model aprende más

2023-08-31 06:31:53

CMU e investigadores de la Universidad de Tsinghua lanzaron conjuntamente el marco 2Model, que puede entrenar rápidamente un pequeño modelo profesional basado en la entrada del usuario. Al invertir solo $ 5 en recopilación de datos y 20 minutos de tiempo de entrenamiento, puede obtener un modelo pequeño que funciona un 20 % mejor que el promedio de ChatGPT, al tiempo que reduce el tamaño de los parámetros del modelo 700 veces.

Fuente de la imagen: Generada por IA ilimitada

Los modelos de lenguaje a gran escala (LLM) permiten a los usuarios crear potentes sistemas de procesamiento del lenguaje natural con la ayuda de sugerencias y aprendizaje contextual. Sin embargo, desde otra perspectiva, el desempeño de LLM en ciertas tareas de procesamiento del lenguaje natural sufre ciertas regresiones: la implementación de estos modelos requiere una gran cantidad de recursos informáticos e interactuar con los modelos a través de API puede causar posibles problemas de privacidad.

Para abordar estos problemas, investigadores de la Universidad Carnegie Mellon (CMU) y la Universidad de Tsinghua lanzaron conjuntamente el marco 2Model. El objetivo de este marco es combinar métodos de generación y recuperación de datos basados en LLM para superar los desafíos anteriores. Al utilizar el marco 2Model, los usuarios pueden recopilar datos automáticamente y entrenar de manera eficiente pequeños modelos especializados para tareas específicas simplemente brindando las mismas sugerencias que LLM.

Los investigadores realizaron experimentos en tres subtareas de procesamiento del lenguaje natural. Tomando una pequeña cantidad de sugerencias de muestra como entrada, solo cuesta $ 5 recopilar datos y 20 minutos de capacitación, el modelo generado por el marco 2Model muestra una mejora de rendimiento del 20% en comparación con el modelo LLM más potente gpt-3.5-turbo. Al mismo tiempo, el tamaño del modelo se ha reducido hasta 700 veces. Los investigadores verificaron además el impacto de estos datos en el rendimiento del modelo en escenarios reales, lo que permitió a los desarrolladores predecir la confiabilidad del modelo antes de su implementación. El marco ya está disponible como código abierto:

* Dirección del repositorio GitHub del marco: *Enlace del vídeo de demostración del marco:

Enlaces a artículos relacionados con el marco:

fondo

Construir un sistema desde cero para una tarea específica de PNL suele ser bastante complejo. El constructor del sistema debe definir claramente el alcance de la tarea, obtener un conjunto de datos específico, seleccionar una arquitectura de modelo adecuada, realizar capacitación y evaluación del modelo y luego implementarlo para su aplicación práctica.

Los modelos de lenguaje a gran escala (LLM), como GPT-3, proporcionan una solución más sencilla para este proceso. Los usuarios solo necesitan proporcionar instrucciones de tareas y algunos ejemplos, y LLM puede generar el texto correspondiente. Sin embargo, generar texto a partir de sugerencias puede requerir un gran esfuerzo computacional y su uso no es tan estable como un modelo especialmente entrenado. Además, la usabilidad de LLM está limitada por el costo, la velocidad y la privacidad.

Para superar estos problemas, los investigadores desarrollaron el marco 2Model. Este marco combina la generación de datos basada en LLM con técnicas de recuperación para abordar las limitaciones antes mencionadas. El sistema primero extrae información clave, luego genera y recupera datos de entrenamiento y finalmente produce un modelo especializado listo para su implementación.

El marco 2Model automatiza los siguientes pasos básicos:

Recuperación de conjuntos de datos y modelos: recopile conjuntos de datos relevantes y modelos previamente entrenados.
Generación de conjuntos de datos: utilice LLM para crear conjuntos de datos pseudoetiquetados.
Ajuste fino del modelo: ajuste el modelo mezclando datos recuperados y datos generados.
Prueba de modelo: pruebe el modelo en el conjunto de datos de prueba y el conjunto de datos reales proporcionado por el usuario.

Después de una evaluación empírica de múltiples tareas diferentes, el costo de 2Model se reduce significativamente y el tamaño del modelo también se reduce significativamente, pero su rendimiento supera el gpt-3.5-turbo. El marco 2Model no solo sirve como una herramienta para construir eficientemente sistemas de procesamiento del lenguaje natural, sino que también sirve como una plataforma para explorar técnicas de entrenamiento de conjuntos de modelos.

Estructura

La característica principal del marco 2Model es un alto grado de automatización. Su proceso cubre múltiples vínculos, como la recopilación de datos, la capacitación, la evaluación y la implementación de modelos, como se muestra en la figura anterior. Entre ellos, el sistema automatizado de recopilación de datos juega un papel clave, que obtiene datos estrechamente relacionados con las necesidades del usuario a través de la recuperación de conjuntos de datos y la generación de datos basada en LLM. A continuación, el sistema recupera el modelo previamente entrenado y lo ajusta en el conjunto de datos adquirido. Finalmente, el sistema evalúa el modelo entrenado en el conjunto de prueba y crea una interfaz de usuario web (UI) para interactuar con el modelo.

Las características clave del marco 2Model incluyen:

Controlador: la idea central de 2Model es usarlo como controlador. Los usuarios pueden describir directamente las tareas requeridas sin entrar en detalles de implementación específicos del aprendizaje automático.
Recopilación automática de datos: el marco utiliza técnicas de generación y recuperación de conjuntos de datos para obtener datos que coincidan altamente con las tareas del usuario, estableciendo así el conjunto de datos requerido para la capacitación.
Modelos previamente entrenados: el marco utiliza modelos previamente entrenados y los ajusta, lo que ahorra muchos costos y tiempo de capacitación.
Evaluación de efectos: 2Model admite pruebas y evaluaciones de modelos en conjuntos de datos reales, lo que permite realizar predicciones preliminares y evaluaciones de rendimiento antes de implementar el modelo, mejorando así la confiabilidad del modelo.

Estas características hacen del marco 2Model una herramienta poderosa que puede completar de manera eficiente el proceso de construcción de sistemas de procesamiento de lenguaje natural y proporcionar funciones avanzadas como la recopilación automática de datos, la evaluación de modelos y la creación de interfaces de interacción del usuario.

Experimento y resultados

En términos de diseño experimental, los investigadores eligieron tres tareas diferentes para evaluar el rendimiento del sistema 2Model:

Control de calidad de lectura automática: utilice SQuAD como conjunto de datos de evaluación real.
Conversión japonesa de NL a código (NL a código japonés): utilice MCoNaLa como conjunto de datos de evaluación real.
Normalización de expresión temporal: utilice el conjunto de datos temporales como el conjunto de datos de evaluación real.

Además, los investigadores también seleccionaron el GPT-3.5-turbo como modelo de referencia para comparar. Los resultados experimentales sacan las siguientes conclusiones:

En todas las tareas, excepto en la tarea de generación de código, los modelos generados por el sistema 2Model son significativamente mejores que el modelo básico GPT-3.5-turbo, aunque la escala de parámetros del modelo generado es mucho menor que la del GPT-3.5-turbo.
Al mezclar el conjunto de datos recuperado con el conjunto de datos generado para el entrenamiento, es posible lograr un efecto comparable al entrenamiento directo con el conjunto de datos real. Esto verifica que el marco 2Model puede reducir en gran medida el costo de la anotación manual.
El conjunto de datos de prueba generado por el generador de datos puede distinguir eficazmente el rendimiento de diferentes modelos en el conjunto de datos real. Esto indica que los datos generados son de alta calidad y tienen suficiente efecto en términos de entrenamiento del modelo.
En la tarea de conversión de japonés a código, el sistema 2Model funciona peor que GPT-3.5-turbo.

Esto puede deberse a la baja calidad del conjunto de datos generado, la falta de modelos previamente entrenados adecuados, etc.

En conjunto, el sistema 2Model genera con éxito pequeños modelos de alta calidad en múltiples tareas, lo que reduce en gran medida la necesidad de datos anotados manualmente. Sin embargo, todavía se necesitan más mejoras en algunas tareas.

Resumir

El marco 2Model lanzado por el equipo de investigación realiza la función de construir automáticamente modelos de tareas específicas solo a través de indicaciones en lenguaje natural. Esta innovación reduce significativamente el umbral para crear modelos personalizados de procesamiento del lenguaje natural y amplía aún más el alcance de aplicación de la tecnología PNL.

Los resultados del experimento de verificación muestran que el modelo generado por el marco 2Model es significativamente más pequeño que los modelos de lenguajes grandes y supera a modelos como GPT-3.5-turbo en múltiples tareas. Al mismo tiempo, también se ha demostrado que el conjunto de datos de evaluación generado por este marco es eficaz para evaluar el rendimiento de diferentes modelos en conjuntos de datos reales. Esto proporciona un valor significativo a la hora de guiar el despliegue final del modelo.

El marco 2Model proporciona un enfoque fácil de usar y de bajo costo para que las industrias y los usuarios obtengan modelos de PNL que satisfagan necesidades específicas. Esto es de gran importancia para promover la aplicación generalizada de la tecnología PNL. El trabajo futuro seguirá dedicándose a optimizar aún más el rendimiento del marco.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
ETH Breaks $3600
55k Popularidad
Gate Derivatives Volume Hits New High
21k Popularidad
CPI Data Incoming
64k Popularidad
4Join Gate VIP to Win MacBook
31k Popularidad
5MicroStrategy Buys More Bitcoin
4k Popularidad
6BTC Hits New High
116k Popularidad
7My Gate Moments
29k Popularidad
8VIP Exclusive Airdrop Carnival
28k Popularidad
9Fed June Meeting Minutes
7k Popularidad
10Trump Tariff Hikes
19k Popularidad

Anclado