El 2 de octubre, hora del Este, la famosa plataforma de código abierto Stability.ai anunció en su sitio web oficial el lanzamiento del modelo de lenguaje grande de código abierto StableLM-3B-4E1T. (Dirección de código abierto:
Se informa que Stable LM 3B es un modelo básico de lenguaje grande principalmente para dispositivos móviles como teléfonos móviles y computadoras portátiles, que reduce en gran medida los requisitos de recursos informáticos y al mismo tiempo garantiza el rendimiento.
Stable LM 3B admite funciones como generación de texto/código, resumen resumido, ajuste de datos, razonamiento de sentido común y resolución de problemas matemáticos. La longitud del contexto global es 4096. (denominado "LM estable 3B")
Con la popularidad de ChatGPT, se ha producido un vigoroso "gran auge del desarrollo de modelos" en todo el mundo. Sin embargo, la mayoría de los modelos requieren una gran cantidad de recursos informáticos para ser entrenados y ajustados previamente, y también tienen altos requisitos para el entorno operativo de las aplicaciones de IA generativa desarrolladas. Qualcomm incluso ha lanzado un chip de IA generativa específicamente para dispositivos móviles para resolver el problema de la potencia informática.
Stability.ai espera abrir Stable LM 3B para ayudar a los desarrolladores que no tienen grandes recursos informáticos a crear productos de IA generativa pequeños y compactos que puedan ejecutarse de forma segura y estable en dispositivos móviles.
Conjunto de datos de entrenamiento estable LM 3B
Aunque el modelo solo tiene 3 mil millones de parámetros, utiliza un enorme conjunto de datos de entrenamiento de 1 billón de tokens que incluyen texto, código, Wikipedia, ArXiv, libros, C4 y otros datos.
Este conjunto de datos se filtra y mezcla a partir de múltiples conjuntos de datos de código abierto a gran escala, incluidos Falcon RefinedWeb, RedPajama-Data, The Pile y StarCoder.
Esto permite que Stable LM 3B supere a los modelos del mismo tamaño con menos recursos y es incluso más potente que algunos modelos grandes con 7 mil millones o 10 mil millones de parámetros.
Proceso de formación estable de LM 3B
Stable LM 3B comienza con un entrenamiento de precisión bfloat16 de 972k y la longitud del contexto global es 4096, en lugar de una mejora en varias etapas de 2048 a 4096 como StableLM-Alpha v2.
Stability.ai utilizó AdamW para optimizar el rendimiento y utilizó un calentamiento lineal para los primeros 4800 pasos, seguido de un programa de caída del coseno para reducir la tasa de aprendizaje al 4% del pico.
La inestabilidad temprana se atribuye a estancias prolongadas en la región con alta tasa de aprendizaje. Dado que el modelo es relativamente pequeño, no se utiliza el abandono.
Durante el proceso de capacitación, Stability.ai evalúa los puntos de referencia del lenguaje natural y observa mejoras constantes del entrenamiento al final del programa de disminución de la tasa de aprendizaje. Por esta razón, los desarrolladores decidieron reducir linealmente la tasa de aprendizaje a 0, similar a lo que hicieron Zhai et al., con la esperanza de lograr un mejor rendimiento.
Además, la fase inicial de capacitación previa se basa en la API de atención flash y su soporte listo para usar para el enmascaramiento causal triangular. Esto obliga al modelo a tratar diferentes documentos en la secuencia empaquetada de manera similar.
Durante la fase de enfriamiento, Stability.ai restablece las identificaciones de posición y las máscaras de atención en los marcadores EOD para todas las secuencias empaquetadas después de observar empíricamente una calidad de muestra mejorada (es decir, una duplicación reducida) en experimentos simultáneos.
En términos de hardware, StableLM-3B está entrenado en el clúster informático de Stability AI. El clúster contiene 256 tarjetas gráficas NVIDIA A100 de 40 GB. La capacitación comenzó el 23 de agosto de 2023 y tardó aproximadamente 30 días en completarse.
En términos de pruebas de rendimiento, StableLM-3B se probó en el marco de evaluación del arnés de iluminación de muestra cero. Los resultados muestran que el rendimiento no es inferior al del modelo con 7 mil millones de parámetros, e incluso es más fuerte que el de algunos modelos con 10 mil millones de parámetros.
El material de este artículo proviene del sitio web oficial de Stability.ai. Si hay alguna infracción, contáctenos para eliminarla.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡Se puede ejecutar en teléfonos móviles y tiene 1 billón de datos de entrenamiento! EstableLM-3B-4E1T está aquí
**Fuente: **Comunidad Abierta AIGC
El 2 de octubre, hora del Este, la famosa plataforma de código abierto Stability.ai anunció en su sitio web oficial el lanzamiento del modelo de lenguaje grande de código abierto StableLM-3B-4E1T. (Dirección de código abierto:
Se informa que Stable LM 3B es un modelo básico de lenguaje grande principalmente para dispositivos móviles como teléfonos móviles y computadoras portátiles, que reduce en gran medida los requisitos de recursos informáticos y al mismo tiempo garantiza el rendimiento.
Stable LM 3B admite funciones como generación de texto/código, resumen resumido, ajuste de datos, razonamiento de sentido común y resolución de problemas matemáticos. La longitud del contexto global es 4096. (denominado "LM estable 3B")
Stability.ai espera abrir Stable LM 3B para ayudar a los desarrolladores que no tienen grandes recursos informáticos a crear productos de IA generativa pequeños y compactos que puedan ejecutarse de forma segura y estable en dispositivos móviles.
Conjunto de datos de entrenamiento estable LM 3B
Aunque el modelo solo tiene 3 mil millones de parámetros, utiliza un enorme conjunto de datos de entrenamiento de 1 billón de tokens que incluyen texto, código, Wikipedia, ArXiv, libros, C4 y otros datos.
Este conjunto de datos se filtra y mezcla a partir de múltiples conjuntos de datos de código abierto a gran escala, incluidos Falcon RefinedWeb, RedPajama-Data, The Pile y StarCoder.
Esto permite que Stable LM 3B supere a los modelos del mismo tamaño con menos recursos y es incluso más potente que algunos modelos grandes con 7 mil millones o 10 mil millones de parámetros.
Proceso de formación estable de LM 3B
Stable LM 3B comienza con un entrenamiento de precisión bfloat16 de 972k y la longitud del contexto global es 4096, en lugar de una mejora en varias etapas de 2048 a 4096 como StableLM-Alpha v2.
Stability.ai utilizó AdamW para optimizar el rendimiento y utilizó un calentamiento lineal para los primeros 4800 pasos, seguido de un programa de caída del coseno para reducir la tasa de aprendizaje al 4% del pico.
La inestabilidad temprana se atribuye a estancias prolongadas en la región con alta tasa de aprendizaje. Dado que el modelo es relativamente pequeño, no se utiliza el abandono.
Además, la fase inicial de capacitación previa se basa en la API de atención flash y su soporte listo para usar para el enmascaramiento causal triangular. Esto obliga al modelo a tratar diferentes documentos en la secuencia empaquetada de manera similar.
Durante la fase de enfriamiento, Stability.ai restablece las identificaciones de posición y las máscaras de atención en los marcadores EOD para todas las secuencias empaquetadas después de observar empíricamente una calidad de muestra mejorada (es decir, una duplicación reducida) en experimentos simultáneos.
En términos de pruebas de rendimiento, StableLM-3B se probó en el marco de evaluación del arnés de iluminación de muestra cero. Los resultados muestran que el rendimiento no es inferior al del modelo con 7 mil millones de parámetros, e incluso es más fuerte que el de algunos modelos con 10 mil millones de parámetros.