**Nota del editor: este artículo explora los diez desafíos principales en la investigación de modelos de lenguaje grande (LLM). El autor es Chip Huyen, quien se graduó de la Universidad de Stanford y ahora es el fundador de Claypot AI, una plataforma de aprendizaje automático en tiempo real. Anteriormente estuvo en NVIDIA, Snorkel AI, Netflix y Primer desarrollan herramientas de aprendizaje automático. **
Soy testigo de una situación sin precedentes: muchas de las mentes más importantes del mundo están ahora dedicadas al objetivo unificado de "mejorar los modelos lingüísticos (LLM)".
Después de hablar con muchos colegas de la industria y el mundo académico, intenté resumir diez áreas principales de investigación que están en auge:
1. Reducir y medir las alucinaciones (Nota del editor: alucinaciones, alucinaciones de IA, es decir, partes incorrectas o sin sentido de la producción de IA, aunque dicha producción es sintácticamente razonable)
2. Optimice la longitud y la construcción del contexto
3. Integra otros modos de datos
4. Aumente la velocidad y reduzca los costos de los LLM
5. Diseñar una nueva arquitectura de modelo
6. Desarrollar alternativas de GPU
7. Mejorar la disponibilidad de los agentes
8. Capacidad mejorada para aprender de las preferencias humanas
9. Mejorar la eficiencia de la interfaz de chat
10. Creación de LLM para idiomas distintos del inglés
Entre ellas, las dos primeras direcciones, es decir, la reducción de las "ilusiones" y el "aprendizaje contextual", pueden ser las más populares en este momento. Personalmente, lo que más me interesa son los elementos 3 (multimodalidad), 5 (nueva arquitectura) y 6 (alternativas de GPU).
01 Reducir y medir ilusiones
Se refiere al fenómeno que se produce cuando un modelo de IA inventa contenido falso.
La ilusión es una cualidad ineludible en muchas situaciones que requieren creatividad. Sin embargo, para la mayoría de los demás escenarios de aplicación, esto supone un inconveniente.
Recientemente participé en un grupo de discusión sobre LLM y hablé con personas de empresas como Dropbox, Langchain, Elastics y Anthropic, y creen que las empresas a gran escala adopción El mayor obstáculo para la producción comercial de LLM es el problema de la ilusión.
Mitigar el fenómeno de las alucinaciones y desarrollar métricas para medirlas es un tema de investigación en auge, y muchas startups se centran en resolver este problema.
Actualmente existen algunos métodos temporales para reducir las alucinaciones, como agregar más contexto, cadenas de pensamiento, coherencia propia a las indicaciones o exigir que el resultado del modelo sea conciso.
Los siguientes son discursos relacionados a los que puede consultar
·Encuesta sobre alucinaciones en la generación del lenguaje natural (Ji et al., 2022)·Cómo las alucinaciones de los modelos de lenguaje pueden crecer como una bola de nieve (Zhang et al., 2023)·Una evaluación multitarea, multilingüe y multimodal de ChatGPT sobre razonamiento, alucinaciones e interactividad (Bang et al., 2023)·El aprendizaje contrastivo reduce las alucinaciones en las conversaciones (Sun et al., 2022)·La autoconsistencia mejora la cadena de razonamiento del pensamiento en modelos lingüísticos (Wang et al., 2022)·SelfCheckGPT: caja negra de recursos cero Detección de alucinaciones para modelos generativos de lenguaje grande (Manakul et al., 2023)
02 Optimizar la longitud y la construcción del contexto
La gran mayoría de los problemas que enfrenta la IA requieren contexto.
Por ejemplo, si preguntamos a ChatGPT: "¿Qué restaurante vietnamita es el mejor?", el contexto requerido podría ser "dónde", porque el mejor restaurante de Vietnam puede ser diferente del mejor restaurante vietnamita de Estados Unidos.
Según el interesante artículo "SituadoQA" (Zhang & Choi, 2021), una proporción considerable de las preguntas de búsqueda de información tienen respuestas que dependen del contexto. Por ejemplo, alrededor del 16,5% de las preguntas del conjunto de datos NQ-Open son de este tipo. .
Personalmente creo que para escenarios de aplicaciones empresariales, esta proporción puede ser incluso mayor. Supongamos que una empresa construye un chatbot para los clientes. Si el robot debe poder responder cualquier pregunta del cliente sobre cualquier producto, el contexto requerido puede ser el historial del cliente o la información sobre el producto.
Debido a que el modelo "aprende" del contexto que se le proporciona, este proceso también se conoce como aprendizaje contextual.
Para la generación mejorada de recuperación (RAG, que también es el método principal en la dirección de aplicaciones de la industria LLM), la longitud del contexto es particularmente importante.
RAG se puede dividir simplemente en dos etapas:
Fase 1: fragmentación (también llamada indexación)
Recopile todos los documentos que utilizará LLM, divida estos documentos en fragmentos que puedan introducirse en LLM para generar incrustaciones y almacene estas incrustaciones en una base de datos vectorial.
Segunda etapa: consulta
Cuando un usuario envía una consulta, como "¿Mi póliza de seguro cubrirá este medicamento?"
Figura: Captura de pantalla del discurso de Jerry Liu en LlamaIndex (2023)
Cuanto mayor sea la longitud del contexto, más bloques podremos insertar en el contexto. Pero, ¿cuanta más información tenga acceso un modelo, mejores serán sus respuestas?
Este no es siempre el caso. Cuánto contexto puede utilizar un modelo y con qué eficiencia se utilizará el modelo son dos cuestiones diferentes. Tan importante como aumentar la longitud del contexto del modelo es un aprendizaje más eficiente del contexto, lo que también se denomina "ingeniería de sugerencias".
Un artículo reciente de amplia circulación muestra que los modelos funcionan mucho mejor para comprender la información desde el principio y el final del índice que desde el medio: Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).
03Integrar otros modos de datos
En mi opinión, la multimodalidad es muy poderosa pero a menudo se subestima.
En primer lugar, muchos escenarios de aplicaciones de la vida real requieren procesar grandes cantidades de datos multimodales, como atención médica, robótica, comercio electrónico, venta minorista, juegos, entretenimiento, etc. Las predicciones médicas requieren el uso de texto (como notas médicas, cuestionarios de pacientes) e imágenes (como tomografías computarizadas, rayos X, resonancias magnéticas); los datos del producto a menudo incluyen imágenes, videos, descripciones e incluso datos tabulares (como fecha de producción, peso, color).
En segundo lugar, la multimodalidad promete aportar enormes mejoras en el rendimiento del modelo. ¿No funcionaría mejor un modelo que pudiera comprender tanto texto como imágenes que un modelo que solo pudiera comprender texto? Los modelos basados en texto requieren grandes cantidades de datos de texto y ahora estamos realmente preocupados por quedarnos sin datos de Internet para entrenar modelos basados en texto. Una vez agotado el texto, debemos aprovechar otras modalidades de datos.
Una dirección de aplicación que me entusiasma especialmente recientemente es que la tecnología multimodal puede ayudar a las personas con discapacidad visual a navegar por Internet y navegar por el mundo real.
Los siguientes son varios desarrollos destacados de investigación multimodal:· [CLIP] Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural (OpenAI, 2021)·Flamingo: un modelo de lenguaje visual para el aprendizaje en pocas tomas (DeepMind, 2022)·BLIP-2: arranque previo al entrenamiento de lenguaje-imagen con codificadores de imágenes congeladas y modelos de lenguaje grandes (Salesforce, 2023)·KOSMOS-1: El lenguaje no es todo lo que necesita: alinear la percepción con los modelos de lenguaje (Microsoft, 2023)·PaLM-E: un modelo de lenguaje multimodal incorporado (Google, 2023)·LLaVA: Ajuste de instrucciones visuales (Liu et al., 2023)·NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)
04Mejorando la velocidad y reduciendo costos de los LLM
Cuando se lanzó GPT-3.5 por primera vez a finales de noviembre de 2022, muchas personas expresaron su preocupación por los retrasos y los costos de utilizar el modelo en producción.
Ahora, el análisis de retraso/costo provocado por el uso de GPT-3.5 ha dado un nuevo giro. En medio año, toda la comunidad de modelos encontró una nueva forma de crear un modelo que estaba casi cerca de GPT-3.5 en términos de rendimiento, pero con menos del 2% de la huella de memoria.
Uno de mis puntos a partir de esto es: si creas algo lo suficientemente bueno, alguien más encontrará una manera de hacerlo rápido y rentable.
Lo siguiente se basa en los datos informados en el artículo de Guanaco, que compara el rendimiento de Guanaco 7B con ChatGPT GPT-3.5 y GPT-4.
Es importante señalar que, en general, el rendimiento de estos modelos dista mucho de ser perfecto. Para LLM, todavía es muy difícil mejorar significativamente el rendimiento.
Recuerdo que hace cuatro años, cuando comencé a escribir las notas para la sección "Compresión de modelos" del libro "Diseño de sistemas de aprendizaje automático", había cuatro técnicas principales de optimización/compresión de modelos en la industria:
Cuantificación: con diferencia, el método de optimización de modelos más común. La cuantificación reduce el tamaño del modelo al usar menos bits para representar los parámetros del modelo. Por ejemplo, en lugar de usar 32 bits para representar números de punto flotante, solo se usan 16 bits o incluso 4 bits.
Destilación de conocimientos: es decir, entrenar un modelo pequeño (modelo de estudiante), que puede imitar un modelo o conjunto de modelos más grande (modelo de maestro).
Descomposición de rango bajo: su idea clave es utilizar tensores de baja dimensión para reemplazar tensores de alta dimensión para reducir la cantidad de parámetros. Por ejemplo, un tensor de 3x3 se puede descomponer en el producto de un tensor de 3x1 y un tensor de 1x3, de modo que en lugar de 9 parámetros, solo haya 6 parámetros.
Poda: se refiere a reducir el tamaño del modelo eliminando pesos o conexiones en el modelo que contribuyen menos al rendimiento general.
Estas cuatro técnicas siguen siendo populares hoy en día. Alpaca se entrena mediante la destilación de conocimientos, mientras que QLoRA utiliza una combinación de descomposición y cuantificación de bajo rango.
05Diseñar arquitectura de nuevo modelo
Desde AlexNet en 2012, hemos visto muchas arquitecturas ir y venir, incluidas LSTM, seq2seq, etc.
En comparación con estas arquitecturas, Transformer, que se lanzó en 2017, es extremadamente estable, aunque no está claro durante cuánto tiempo esta arquitectura será popular.
No es fácil desarrollar una nueva arquitectura que pueda superar a Transformer. En los últimos 6 años, Transformer se ha optimizado mucho. Con el hardware adecuado, la escala y el efecto de este modelo pueden lograr resultados sorprendentes (PD: Google diseñó Transformer por primera vez para ejecutarse rápidamente en TPU, y luego se optimizó en GPU).
En 2021, la investigación "Modelado eficiente de secuencias largas con espacios de estados estructurados" (Gu et al., 2021) realizada por el laboratorio de Chris Ré desencadenó muchas discusiones en la industria. No estoy seguro de qué pasó después. Pero Chris Ré Labs todavía está desarrollando activamente nuevas arquitecturas y recientemente lanzaron una arquitectura llamada Monarch Mixer en asociación con la startup Together.
Su idea principal es que para la arquitectura Transformer existente, la complejidad de la atención es proporcional al cuadrado de la longitud de la secuencia, y la complejidad de MLP es proporcional al cuadrado de la dimensión del modelo. Las arquitecturas con complejidad subcuadrática serán más eficientes.
Estoy seguro de que muchos otros laboratorios están explorando esta idea, aunque no conozco ningún estudio que la haya probado públicamente. Si conoces el progreso, ¡contáctame!
06Desarrollo de alternativas de GPU
Desde la llegada de AlexNet en 2012, la GPU ha sido el principal hardware para el aprendizaje profundo.
De hecho, una de las razones generalmente reconocidas de la popularidad de AlexNet es que fue el primer artículo que utilizó con éxito GPU para entrenar redes neuronales. Antes de las GPU, si querías entrenar un modelo del tamaño de AlexNet, necesitabas miles de CPU, al igual que el servidor que Google lanzó unos meses antes de AlexNet.
En comparación con miles de CPU, unas pocas GPU son más accesibles para estudiantes de doctorado e investigadores, lo que desencadena un auge en la investigación sobre aprendizaje profundo.
Durante la última década, muchas empresas, tanto grandes como nuevas, han intentado crear nuevo hardware para inteligencia artificial. Los intentos más notables incluyen TPU de Google, IPU de Graphcore y Cerebras. SambaNova también ha recaudado más de mil millones de dólares para desarrollar nuevos chips de IA, pero parece haber girado para convertirse en una plataforma de IA generativa.
Durante este período, la computación cuántica también despertó muchas expectativas, entre las que destacan:
·El procesador cuántico de IBM
·La computadora cuántica de Google. A principios de este año se informó en Nature sobre un hito importante en la reducción del error cuántico. Su máquina virtual cuántica es de acceso público a través de Google Colab.
·Laboratorios de investigación en universidades, como MIT Quantum Engineering Center, Max Planck Institute for Quantum Optics, Chicago Quantum Exchange Center, etc.
Otra dirección igualmente interesante son los chips fotónicos. Esta es la dirección que menos conozco. Si hay algún error, corríjame.
Los chips existentes utilizan electricidad para transmitir datos, lo que consume mucha energía y genera latencia. Los chips fotónicos utilizan fotones para transmitir datos, aprovechando la velocidad de la luz para una computación más rápida y eficiente. Varias nuevas empresas en este espacio han recaudado cientos de millones de dólares, incluidas Lightmatter ($270 millones), Ayar Labs ($220 millones), Lightelligence ($200 millones+) y Luminous Computing ($115 millones).
La siguiente es la línea de tiempo de progreso de los tres métodos principales de cálculo de matrices de fotones, extraída de La multiplicación de matrices fotónicas ilumina el acelerador fotónico y más allá (Zhou et al., Nature 2022). Los tres métodos diferentes son la conversión de luz plana (PLC), el interferómetro Mach-Zehnder (MZI) y la multiplexación por división de longitud de onda (WDM).
07Mejorando la disponibilidad de los agentes
Se puede considerar a los agentes como LLM que pueden realizar acciones, como navegar por Internet, enviar correos electrónicos, etc. En comparación con otras direcciones de investigación de este artículo, esta puede ser la dirección más joven.
Existe un gran interés por los agentes por su novedad y gran potencial. Auto-GPT es ahora la biblioteca número 25 más popular por número de estrellas en GitHub. GPT-Engineering es también otra biblioteca popular.
A pesar de esto, todavía existen dudas sobre si los LLM son lo suficientemente confiables, funcionan lo suficientemente bien y tienen ciertas capacidades operativas.
Ahora hay una dirección de aplicación interesante: el uso de agentes para la investigación social. Un experimento de Stanford demostró que un pequeño grupo de agentes generativos producía un comportamiento social emergente: comenzando con una sola idea especificada por el usuario, que un agente quería organizar una fiesta del Día de San Valentín, varios otros agentes la difundieron de forma autónoma durante los dos días siguientes. Invitar a fiestas, hacer nuevos amigos, invitarse unos a otros a fiestas… (Agentes Generativos: Simulacros Interactivos de Comportamiento Humano, Park et al., 2023).
Quizás la startup más notable en este espacio es Adept, fundada por dos coautores de Transformer (aunque ambos se han ido desde entonces) y un ex vicepresidente de OpenAI, y que ha recaudado casi 500 millones de dólares hasta la fecha. El año pasado, mostraron cómo su agente podía navegar por Internet y agregar nuevas cuentas en Salesforce. Espero ver su nueva demostración 🙂.
08 Mejorando la capacidad de aprender de las preferencias humanas
RLHF (Aprendizaje por refuerzo a partir de la preferencia humana) es genial, pero un poco tedioso.
No me sorprende que la gente encuentre mejores formas de formar LLM. Hay muchas preguntas abiertas sobre RLHF, tales como:
·¿Cómo representar matemáticamente las preferencias humanas?
Actualmente, las preferencias humanas se determinan mediante comparación: un anotador humano determina si la respuesta A es mejor que la respuesta B. Sin embargo, no tiene en cuenta en qué medida específica la respuesta A es mejor o peor que la respuesta B.
·¿Cuáles son las preferencias humanas?
Anthropic mide la calidad de las respuestas del modelo en tres dimensiones: útil, honesta e inofensiva. Documento de referencia: IA constitucional: inofensividad a partir de la retroalimentación de la IA (Bai et al., 2022).
DeepMind intenta generar respuestas que agraden a la mayoría de las personas. Artículo de referencia: Ajuste de modelos de lenguaje para encontrar acuerdos entre humanos con diversas preferencias (Bakker et al., 2022).
Además, ¿queremos una IA que pueda tomar una postura, o una IA genérica que evite hablar de cualquier tema potencialmente controvertido?
·¿Las preferencias de quién son preferencias “humanas”, teniendo en cuenta las diferencias de cultura, religión, tendencias políticas, etc.?
Existen muchos desafíos para obtener datos de capacitación que sean suficientemente representativos de todos los usuarios potenciales.
Por ejemplo, los datos de InstructGPT de OpenAI no tienen anotadores mayores de 65 años. Los grafiteros son principalmente filipinos y bangladesíes. Artículo de referencia: InstructGPT: Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana (Ouyang et al., 2022).
Aunque las intenciones originales de los esfuerzos liderados por la comunidad de IA en los últimos años son admirables, todavía existe sesgo en los datos. Por ejemplo, en el conjunto de datos de OpenAssistant, 201 de 222 encuestados (90,5%) se declararon hombres. Jeremy Howard publicó una serie de tweets sobre el tema en Twitter.
09Mejorar la eficiencia de la interfaz de chat
Desde la introducción de ChatGPT, ha habido un debate continuo sobre si el chat es adecuado para una amplia gama de tareas. Por ejemplo:
·El lenguaje natural es la interfaz de usuario perezosa (Austin Z. Henley, 2023)
·Por qué los chatbots no son el futuro (Amelia Wattenberger, 2023)
·¿Qué tipos de preguntas requieren una conversación para responder? Un estudio de caso de preguntas de AskReddit (Huang et al., 2023)
·Las interfaces de chat con IA podrían convertirse en la interfaz de usuario principal para leer la documentación (Tom Johnson, 2023)
·Interactuar con LLM con Minimal Chat (Eugene Yan, 2023)
Sin embargo, esta no es una discusión nueva. En muchos países, especialmente en Asia, el chat se ha utilizado como interfaz para súper aplicaciones durante aproximadamente una década. Dan Grover analizó este fenómeno en 2014.
Este tipo de debate volvió a ser candente en 2016, y muchas personas opinaron que los tipos de aplicaciones existentes están obsoletos y que los chatbots son el futuro. Por ejemplo, los siguientes estudios:
·Sobre el chat como interfaz (Alistair Croll, 2016)
·¿Es la tendencia Chatbot un gran malentendido? (Will Caballero, 2016)
·Los bots no reemplazarán las aplicaciones. Mejores aplicaciones reemplazarán a las aplicaciones (Dan Grover, 2016)
Personalmente, me gusta la interfaz de chat por las siguientes razones:
La interfaz de chat es una que todos (incluso las personas sin experiencia previa con computadoras o Internet) pueden aprender a usar rápidamente.
Cuando trabajaba como voluntario en un vecindario de bajos ingresos en Kenia a principios de la década de 2010, me sorprendió ver lo cómodos que se sentían todos allí con las operaciones bancarias a través de mensajes de texto en sus teléfonos. Incluso si nadie en esa comunidad tiene una computadora.
Generalmente es fácil acceder a la interfaz de chat. También podemos utilizar la voz en lugar del texto si tenemos las manos ocupadas con otras cosas.
La interfaz de chat también es una interfaz muy poderosa: responderá a cualquier solicitud realizada por el usuario, incluso si algunas de las respuestas no son muy buenas.
Sin embargo, creo que hay algunas áreas en las que se podría mejorar la interfaz del chat:
·Múltiples mensajes en una ronda
Actualmente, asumimos que solo hay un mensaje a la vez. Pero cuando mis amigos y yo enviamos mensajes de texto, a menudo se necesitan varios mensajes para completar un chat porque necesito insertar diferentes datos (por ejemplo, imágenes, ubicaciones, enlaces), olvidé algo de un mensaje anterior o simplemente no quiero encajar. todo en un gran párrafo.
·Entrada multimodal
En el campo de las aplicaciones multimodales, la mayor parte de los esfuerzos se dedican a construir mejores modelos y menos a construir mejores interfaces. Tomemos como ejemplo el chatbot NeVA de NVIDIA. No soy un experto en experiencia de usuario, pero creo que aquí se puede mejorar.
PD: Lo siento, equipo de NeVA, por nombrarte. Aún así, ¡tu trabajo es increíble!
Figura: interfaz NeVA de NVIDIA
·Integre la IA generativa en los flujos de trabajo
Linus Lee cubre muy bien esto en su charla "Interfaz de IA generativa más allá de los chats". Por ejemplo, si desea hacer una pregunta sobre una columna del gráfico en la que está trabajando, debería poder señalar esa columna y preguntar.
·Editar y eliminar mensajes
¿Cómo cambia la edición o eliminación de la entrada del usuario el flujo de la conversación con el chatbot?
10 Creación de LLM para idiomas distintos del inglés
Sabemos que los LLM actuales impartidos en inglés tienen malos resultados en muchos otros idiomas, ya sea en términos de rendimiento, latencia o velocidad.
Aquí hay estudios relevantes que puede consultar:
·ChatGPT más allá del inglés: hacia una combinación integral de grandes modelos lingüísticos en el aprendizaje multilingüe (Lai et al., 2023)
·Todos los idiomas NO son creados (tokenizados) iguales (Yennie junio de 2023)
Algunos lectores me han dicho que no creen que deba seguir esta dirección por dos razones.
Ésta es más una cuestión "logística" que una cuestión de investigación. Ya sabemos cómo hacerlo. Alguien sólo necesita poner dinero y esfuerzo.
Esto no es del todo correcto. La mayoría de los idiomas se consideran idiomas de bajos recursos, ya que tienen datos de mucha menos calidad que el inglés o el chino, por ejemplo, y pueden requerir diferentes técnicas para entrenar modelos de lenguaje grandes.
Aquí hay estudios relevantes que puede consultar:
·Lenguajes de bajos recursos: una revisión del trabajo pasado y los desafíos futuros (Magueresse et al., 2020)
·JW300: un corpus paralelo de amplia cobertura para idiomas de bajos recursos (Agić et al., 2019)
Los más pesimistas creen que en el futuro muchas lenguas desaparecerán e Internet serán dos mundos compuestos por dos idiomas: el inglés y el chino. Esta forma de pensar no es nueva. ¿Alguien recuerda el esperanto?
El impacto de las herramientas de inteligencia artificial, como la traducción automática y los chatbots, en el aprendizaje de idiomas aún no está claro. ¿Ayudarán a las personas a aprender nuevos idiomas más rápido o eliminarán por completo la necesidad de aprender nuevos idiomas?
en conclusión
De los 10 desafíos mencionados anteriormente, algunos son más difíciles que otros.
Por ejemplo, creo que el punto 10, Creación de LLM para idiomas distintos del inglés, apunta más directamente al tiempo y los recursos adecuados.
El punto 1, reducir las alucinaciones, será más difícil porque las alucinaciones son simplemente LLM que realizan su tarea probabilística.
El punto 4, hacer que los LLM sean más rápidos y más baratos, nunca llegará a un estado completamente resuelto. Se ha avanzado mucho en esta área y hay más por venir, pero nunca dejaremos de mejorar.
Los puntos 5 y 6, nueva arquitectura y nuevo hardware, son muy desafiantes e inevitables. Debido a la relación simbiótica entre arquitectura y hardware, las nuevas arquitecturas deben optimizarse para hardware común y el hardware debe admitir arquitecturas comunes. Podrán ser liquidados por la misma empresa.
Algunos de estos problemas pueden resolverse con algo más que conocimientos técnicos. Por ejemplo, el punto 8, Mejorar el aprendizaje a partir de las preferencias humanas, puede ser más una cuestión de estrategia que una cuestión técnica.
El punto 9, mejorar la eficiencia de la interfaz de chat, es más una cuestión de experiencia del usuario. Necesitamos más personas sin formación técnica trabajando juntas para resolver estos problemas.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Los principales talentos de los grandes modelos lingüísticos solo se preocupan por estos 10 desafíos
Fuente: Silicon Rabbit Racing
Autor: Lin Ju Editor: Man Manzhou
**Nota del editor: este artículo explora los diez desafíos principales en la investigación de modelos de lenguaje grande (LLM). El autor es Chip Huyen, quien se graduó de la Universidad de Stanford y ahora es el fundador de Claypot AI, una plataforma de aprendizaje automático en tiempo real. Anteriormente estuvo en NVIDIA, Snorkel AI, Netflix y Primer desarrollan herramientas de aprendizaje automático. **
Soy testigo de una situación sin precedentes: muchas de las mentes más importantes del mundo están ahora dedicadas al objetivo unificado de "mejorar los modelos lingüísticos (LLM)".
Después de hablar con muchos colegas de la industria y el mundo académico, intenté resumir diez áreas principales de investigación que están en auge:
1. Reducir y medir las alucinaciones (Nota del editor: alucinaciones, alucinaciones de IA, es decir, partes incorrectas o sin sentido de la producción de IA, aunque dicha producción es sintácticamente razonable)
2. Optimice la longitud y la construcción del contexto
3. Integra otros modos de datos
4. Aumente la velocidad y reduzca los costos de los LLM
5. Diseñar una nueva arquitectura de modelo
6. Desarrollar alternativas de GPU
7. Mejorar la disponibilidad de los agentes
8. Capacidad mejorada para aprender de las preferencias humanas
9. Mejorar la eficiencia de la interfaz de chat
10. Creación de LLM para idiomas distintos del inglés
Entre ellas, las dos primeras direcciones, es decir, la reducción de las "ilusiones" y el "aprendizaje contextual", pueden ser las más populares en este momento. Personalmente, lo que más me interesa son los elementos 3 (multimodalidad), 5 (nueva arquitectura) y 6 (alternativas de GPU).
01 Reducir y medir ilusiones
Se refiere al fenómeno que se produce cuando un modelo de IA inventa contenido falso.
La ilusión es una cualidad ineludible en muchas situaciones que requieren creatividad. Sin embargo, para la mayoría de los demás escenarios de aplicación, esto supone un inconveniente.
Recientemente participé en un grupo de discusión sobre LLM y hablé con personas de empresas como Dropbox, Langchain, Elastics y Anthropic, y creen que las empresas a gran escala adopción El mayor obstáculo para la producción comercial de LLM es el problema de la ilusión.
Mitigar el fenómeno de las alucinaciones y desarrollar métricas para medirlas es un tema de investigación en auge, y muchas startups se centran en resolver este problema.
Actualmente existen algunos métodos temporales para reducir las alucinaciones, como agregar más contexto, cadenas de pensamiento, coherencia propia a las indicaciones o exigir que el resultado del modelo sea conciso.
Los siguientes son discursos relacionados a los que puede consultar
·Encuesta sobre alucinaciones en la generación del lenguaje natural (Ji et al., 2022)·Cómo las alucinaciones de los modelos de lenguaje pueden crecer como una bola de nieve (Zhang et al., 2023)·Una evaluación multitarea, multilingüe y multimodal de ChatGPT sobre razonamiento, alucinaciones e interactividad (Bang et al., 2023)·El aprendizaje contrastivo reduce las alucinaciones en las conversaciones (Sun et al., 2022)·La autoconsistencia mejora la cadena de razonamiento del pensamiento en modelos lingüísticos (Wang et al., 2022)·SelfCheckGPT: caja negra de recursos cero Detección de alucinaciones para modelos generativos de lenguaje grande (Manakul et al., 2023)
02 Optimizar la longitud y la construcción del contexto
La gran mayoría de los problemas que enfrenta la IA requieren contexto.
Por ejemplo, si preguntamos a ChatGPT: "¿Qué restaurante vietnamita es el mejor?", el contexto requerido podría ser "dónde", porque el mejor restaurante de Vietnam puede ser diferente del mejor restaurante vietnamita de Estados Unidos.
Según el interesante artículo "SituadoQA" (Zhang & Choi, 2021), una proporción considerable de las preguntas de búsqueda de información tienen respuestas que dependen del contexto. Por ejemplo, alrededor del 16,5% de las preguntas del conjunto de datos NQ-Open son de este tipo. .
Personalmente creo que para escenarios de aplicaciones empresariales, esta proporción puede ser incluso mayor. Supongamos que una empresa construye un chatbot para los clientes. Si el robot debe poder responder cualquier pregunta del cliente sobre cualquier producto, el contexto requerido puede ser el historial del cliente o la información sobre el producto.
Debido a que el modelo "aprende" del contexto que se le proporciona, este proceso también se conoce como aprendizaje contextual.
RAG se puede dividir simplemente en dos etapas:
Fase 1: fragmentación (también llamada indexación)
Recopile todos los documentos que utilizará LLM, divida estos documentos en fragmentos que puedan introducirse en LLM para generar incrustaciones y almacene estas incrustaciones en una base de datos vectorial.
Segunda etapa: consulta
Cuando un usuario envía una consulta, como "¿Mi póliza de seguro cubrirá este medicamento?"
Cuanto mayor sea la longitud del contexto, más bloques podremos insertar en el contexto. Pero, ¿cuanta más información tenga acceso un modelo, mejores serán sus respuestas?
Este no es siempre el caso. Cuánto contexto puede utilizar un modelo y con qué eficiencia se utilizará el modelo son dos cuestiones diferentes. Tan importante como aumentar la longitud del contexto del modelo es un aprendizaje más eficiente del contexto, lo que también se denomina "ingeniería de sugerencias".
Un artículo reciente de amplia circulación muestra que los modelos funcionan mucho mejor para comprender la información desde el principio y el final del índice que desde el medio: Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).
03Integrar otros modos de datos
En mi opinión, la multimodalidad es muy poderosa pero a menudo se subestima.
En primer lugar, muchos escenarios de aplicaciones de la vida real requieren procesar grandes cantidades de datos multimodales, como atención médica, robótica, comercio electrónico, venta minorista, juegos, entretenimiento, etc. Las predicciones médicas requieren el uso de texto (como notas médicas, cuestionarios de pacientes) e imágenes (como tomografías computarizadas, rayos X, resonancias magnéticas); los datos del producto a menudo incluyen imágenes, videos, descripciones e incluso datos tabulares (como fecha de producción, peso, color).
En segundo lugar, la multimodalidad promete aportar enormes mejoras en el rendimiento del modelo. ¿No funcionaría mejor un modelo que pudiera comprender tanto texto como imágenes que un modelo que solo pudiera comprender texto? Los modelos basados en texto requieren grandes cantidades de datos de texto y ahora estamos realmente preocupados por quedarnos sin datos de Internet para entrenar modelos basados en texto. Una vez agotado el texto, debemos aprovechar otras modalidades de datos.
Los siguientes son varios desarrollos destacados de investigación multimodal:· [CLIP] Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural (OpenAI, 2021)·Flamingo: un modelo de lenguaje visual para el aprendizaje en pocas tomas (DeepMind, 2022)·BLIP-2: arranque previo al entrenamiento de lenguaje-imagen con codificadores de imágenes congeladas y modelos de lenguaje grandes (Salesforce, 2023)·KOSMOS-1: El lenguaje no es todo lo que necesita: alinear la percepción con los modelos de lenguaje (Microsoft, 2023)·PaLM-E: un modelo de lenguaje multimodal incorporado (Google, 2023)·LLaVA: Ajuste de instrucciones visuales (Liu et al., 2023)·NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)
04Mejorando la velocidad y reduciendo costos de los LLM
Cuando se lanzó GPT-3.5 por primera vez a finales de noviembre de 2022, muchas personas expresaron su preocupación por los retrasos y los costos de utilizar el modelo en producción.
Ahora, el análisis de retraso/costo provocado por el uso de GPT-3.5 ha dado un nuevo giro. En medio año, toda la comunidad de modelos encontró una nueva forma de crear un modelo que estaba casi cerca de GPT-3.5 en términos de rendimiento, pero con menos del 2% de la huella de memoria.
Uno de mis puntos a partir de esto es: si creas algo lo suficientemente bueno, alguien más encontrará una manera de hacerlo rápido y rentable.
Es importante señalar que, en general, el rendimiento de estos modelos dista mucho de ser perfecto. Para LLM, todavía es muy difícil mejorar significativamente el rendimiento.
Recuerdo que hace cuatro años, cuando comencé a escribir las notas para la sección "Compresión de modelos" del libro "Diseño de sistemas de aprendizaje automático", había cuatro técnicas principales de optimización/compresión de modelos en la industria:
Cuantificación: con diferencia, el método de optimización de modelos más común. La cuantificación reduce el tamaño del modelo al usar menos bits para representar los parámetros del modelo. Por ejemplo, en lugar de usar 32 bits para representar números de punto flotante, solo se usan 16 bits o incluso 4 bits.
Destilación de conocimientos: es decir, entrenar un modelo pequeño (modelo de estudiante), que puede imitar un modelo o conjunto de modelos más grande (modelo de maestro).
Descomposición de rango bajo: su idea clave es utilizar tensores de baja dimensión para reemplazar tensores de alta dimensión para reducir la cantidad de parámetros. Por ejemplo, un tensor de 3x3 se puede descomponer en el producto de un tensor de 3x1 y un tensor de 1x3, de modo que en lugar de 9 parámetros, solo haya 6 parámetros.
Poda: se refiere a reducir el tamaño del modelo eliminando pesos o conexiones en el modelo que contribuyen menos al rendimiento general.
Estas cuatro técnicas siguen siendo populares hoy en día. Alpaca se entrena mediante la destilación de conocimientos, mientras que QLoRA utiliza una combinación de descomposición y cuantificación de bajo rango.
05Diseñar arquitectura de nuevo modelo
Desde AlexNet en 2012, hemos visto muchas arquitecturas ir y venir, incluidas LSTM, seq2seq, etc.
En comparación con estas arquitecturas, Transformer, que se lanzó en 2017, es extremadamente estable, aunque no está claro durante cuánto tiempo esta arquitectura será popular.
No es fácil desarrollar una nueva arquitectura que pueda superar a Transformer. En los últimos 6 años, Transformer se ha optimizado mucho. Con el hardware adecuado, la escala y el efecto de este modelo pueden lograr resultados sorprendentes (PD: Google diseñó Transformer por primera vez para ejecutarse rápidamente en TPU, y luego se optimizó en GPU).
En 2021, la investigación "Modelado eficiente de secuencias largas con espacios de estados estructurados" (Gu et al., 2021) realizada por el laboratorio de Chris Ré desencadenó muchas discusiones en la industria. No estoy seguro de qué pasó después. Pero Chris Ré Labs todavía está desarrollando activamente nuevas arquitecturas y recientemente lanzaron una arquitectura llamada Monarch Mixer en asociación con la startup Together.
Su idea principal es que para la arquitectura Transformer existente, la complejidad de la atención es proporcional al cuadrado de la longitud de la secuencia, y la complejidad de MLP es proporcional al cuadrado de la dimensión del modelo. Las arquitecturas con complejidad subcuadrática serán más eficientes.
06Desarrollo de alternativas de GPU
Desde la llegada de AlexNet en 2012, la GPU ha sido el principal hardware para el aprendizaje profundo.
De hecho, una de las razones generalmente reconocidas de la popularidad de AlexNet es que fue el primer artículo que utilizó con éxito GPU para entrenar redes neuronales. Antes de las GPU, si querías entrenar un modelo del tamaño de AlexNet, necesitabas miles de CPU, al igual que el servidor que Google lanzó unos meses antes de AlexNet.
En comparación con miles de CPU, unas pocas GPU son más accesibles para estudiantes de doctorado e investigadores, lo que desencadena un auge en la investigación sobre aprendizaje profundo.
Durante la última década, muchas empresas, tanto grandes como nuevas, han intentado crear nuevo hardware para inteligencia artificial. Los intentos más notables incluyen TPU de Google, IPU de Graphcore y Cerebras. SambaNova también ha recaudado más de mil millones de dólares para desarrollar nuevos chips de IA, pero parece haber girado para convertirse en una plataforma de IA generativa.
Durante este período, la computación cuántica también despertó muchas expectativas, entre las que destacan:
·El procesador cuántico de IBM
·La computadora cuántica de Google. A principios de este año se informó en Nature sobre un hito importante en la reducción del error cuántico. Su máquina virtual cuántica es de acceso público a través de Google Colab.
·Laboratorios de investigación en universidades, como MIT Quantum Engineering Center, Max Planck Institute for Quantum Optics, Chicago Quantum Exchange Center, etc.
Otra dirección igualmente interesante son los chips fotónicos. Esta es la dirección que menos conozco. Si hay algún error, corríjame.
Los chips existentes utilizan electricidad para transmitir datos, lo que consume mucha energía y genera latencia. Los chips fotónicos utilizan fotones para transmitir datos, aprovechando la velocidad de la luz para una computación más rápida y eficiente. Varias nuevas empresas en este espacio han recaudado cientos de millones de dólares, incluidas Lightmatter ($270 millones), Ayar Labs ($220 millones), Lightelligence ($200 millones+) y Luminous Computing ($115 millones).
La siguiente es la línea de tiempo de progreso de los tres métodos principales de cálculo de matrices de fotones, extraída de La multiplicación de matrices fotónicas ilumina el acelerador fotónico y más allá (Zhou et al., Nature 2022). Los tres métodos diferentes son la conversión de luz plana (PLC), el interferómetro Mach-Zehnder (MZI) y la multiplexación por división de longitud de onda (WDM).
07Mejorando la disponibilidad de los agentes
Se puede considerar a los agentes como LLM que pueden realizar acciones, como navegar por Internet, enviar correos electrónicos, etc. En comparación con otras direcciones de investigación de este artículo, esta puede ser la dirección más joven.
Existe un gran interés por los agentes por su novedad y gran potencial. Auto-GPT es ahora la biblioteca número 25 más popular por número de estrellas en GitHub. GPT-Engineering es también otra biblioteca popular.
A pesar de esto, todavía existen dudas sobre si los LLM son lo suficientemente confiables, funcionan lo suficientemente bien y tienen ciertas capacidades operativas.
Ahora hay una dirección de aplicación interesante: el uso de agentes para la investigación social. Un experimento de Stanford demostró que un pequeño grupo de agentes generativos producía un comportamiento social emergente: comenzando con una sola idea especificada por el usuario, que un agente quería organizar una fiesta del Día de San Valentín, varios otros agentes la difundieron de forma autónoma durante los dos días siguientes. Invitar a fiestas, hacer nuevos amigos, invitarse unos a otros a fiestas… (Agentes Generativos: Simulacros Interactivos de Comportamiento Humano, Park et al., 2023).
Quizás la startup más notable en este espacio es Adept, fundada por dos coautores de Transformer (aunque ambos se han ido desde entonces) y un ex vicepresidente de OpenAI, y que ha recaudado casi 500 millones de dólares hasta la fecha. El año pasado, mostraron cómo su agente podía navegar por Internet y agregar nuevas cuentas en Salesforce. Espero ver su nueva demostración 🙂.
08 Mejorando la capacidad de aprender de las preferencias humanas
RLHF (Aprendizaje por refuerzo a partir de la preferencia humana) es genial, pero un poco tedioso.
No me sorprende que la gente encuentre mejores formas de formar LLM. Hay muchas preguntas abiertas sobre RLHF, tales como:
·¿Cómo representar matemáticamente las preferencias humanas?
Actualmente, las preferencias humanas se determinan mediante comparación: un anotador humano determina si la respuesta A es mejor que la respuesta B. Sin embargo, no tiene en cuenta en qué medida específica la respuesta A es mejor o peor que la respuesta B.
·¿Cuáles son las preferencias humanas?
Anthropic mide la calidad de las respuestas del modelo en tres dimensiones: útil, honesta e inofensiva. Documento de referencia: IA constitucional: inofensividad a partir de la retroalimentación de la IA (Bai et al., 2022).
DeepMind intenta generar respuestas que agraden a la mayoría de las personas. Artículo de referencia: Ajuste de modelos de lenguaje para encontrar acuerdos entre humanos con diversas preferencias (Bakker et al., 2022).
Además, ¿queremos una IA que pueda tomar una postura, o una IA genérica que evite hablar de cualquier tema potencialmente controvertido?
·¿Las preferencias de quién son preferencias “humanas”, teniendo en cuenta las diferencias de cultura, religión, tendencias políticas, etc.?
Existen muchos desafíos para obtener datos de capacitación que sean suficientemente representativos de todos los usuarios potenciales.
Por ejemplo, los datos de InstructGPT de OpenAI no tienen anotadores mayores de 65 años. Los grafiteros son principalmente filipinos y bangladesíes. Artículo de referencia: InstructGPT: Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana (Ouyang et al., 2022).
09Mejorar la eficiencia de la interfaz de chat
Desde la introducción de ChatGPT, ha habido un debate continuo sobre si el chat es adecuado para una amplia gama de tareas. Por ejemplo:
·El lenguaje natural es la interfaz de usuario perezosa (Austin Z. Henley, 2023)
·Por qué los chatbots no son el futuro (Amelia Wattenberger, 2023)
·¿Qué tipos de preguntas requieren una conversación para responder? Un estudio de caso de preguntas de AskReddit (Huang et al., 2023)
·Las interfaces de chat con IA podrían convertirse en la interfaz de usuario principal para leer la documentación (Tom Johnson, 2023)
·Interactuar con LLM con Minimal Chat (Eugene Yan, 2023)
Sin embargo, esta no es una discusión nueva. En muchos países, especialmente en Asia, el chat se ha utilizado como interfaz para súper aplicaciones durante aproximadamente una década. Dan Grover analizó este fenómeno en 2014.
·Sobre el chat como interfaz (Alistair Croll, 2016)
·¿Es la tendencia Chatbot un gran malentendido? (Will Caballero, 2016)
·Los bots no reemplazarán las aplicaciones. Mejores aplicaciones reemplazarán a las aplicaciones (Dan Grover, 2016)
Personalmente, me gusta la interfaz de chat por las siguientes razones:
La interfaz de chat es una que todos (incluso las personas sin experiencia previa con computadoras o Internet) pueden aprender a usar rápidamente.
Cuando trabajaba como voluntario en un vecindario de bajos ingresos en Kenia a principios de la década de 2010, me sorprendió ver lo cómodos que se sentían todos allí con las operaciones bancarias a través de mensajes de texto en sus teléfonos. Incluso si nadie en esa comunidad tiene una computadora.
Generalmente es fácil acceder a la interfaz de chat. También podemos utilizar la voz en lugar del texto si tenemos las manos ocupadas con otras cosas.
La interfaz de chat también es una interfaz muy poderosa: responderá a cualquier solicitud realizada por el usuario, incluso si algunas de las respuestas no son muy buenas.
Sin embargo, creo que hay algunas áreas en las que se podría mejorar la interfaz del chat:
·Múltiples mensajes en una ronda
Actualmente, asumimos que solo hay un mensaje a la vez. Pero cuando mis amigos y yo enviamos mensajes de texto, a menudo se necesitan varios mensajes para completar un chat porque necesito insertar diferentes datos (por ejemplo, imágenes, ubicaciones, enlaces), olvidé algo de un mensaje anterior o simplemente no quiero encajar. todo en un gran párrafo.
·Entrada multimodal
En el campo de las aplicaciones multimodales, la mayor parte de los esfuerzos se dedican a construir mejores modelos y menos a construir mejores interfaces. Tomemos como ejemplo el chatbot NeVA de NVIDIA. No soy un experto en experiencia de usuario, pero creo que aquí se puede mejorar.
PD: Lo siento, equipo de NeVA, por nombrarte. Aún así, ¡tu trabajo es increíble!
·Integre la IA generativa en los flujos de trabajo
Linus Lee cubre muy bien esto en su charla "Interfaz de IA generativa más allá de los chats". Por ejemplo, si desea hacer una pregunta sobre una columna del gráfico en la que está trabajando, debería poder señalar esa columna y preguntar.
·Editar y eliminar mensajes
¿Cómo cambia la edición o eliminación de la entrada del usuario el flujo de la conversación con el chatbot?
10 Creación de LLM para idiomas distintos del inglés
Sabemos que los LLM actuales impartidos en inglés tienen malos resultados en muchos otros idiomas, ya sea en términos de rendimiento, latencia o velocidad.
Aquí hay estudios relevantes que puede consultar:
·ChatGPT más allá del inglés: hacia una combinación integral de grandes modelos lingüísticos en el aprendizaje multilingüe (Lai et al., 2023)
·Todos los idiomas NO son creados (tokenizados) iguales (Yennie junio de 2023)
Ésta es más una cuestión "logística" que una cuestión de investigación. Ya sabemos cómo hacerlo. Alguien sólo necesita poner dinero y esfuerzo.
Esto no es del todo correcto. La mayoría de los idiomas se consideran idiomas de bajos recursos, ya que tienen datos de mucha menos calidad que el inglés o el chino, por ejemplo, y pueden requerir diferentes técnicas para entrenar modelos de lenguaje grandes.
Aquí hay estudios relevantes que puede consultar:
·Lenguajes de bajos recursos: una revisión del trabajo pasado y los desafíos futuros (Magueresse et al., 2020)
·JW300: un corpus paralelo de amplia cobertura para idiomas de bajos recursos (Agić et al., 2019)
Los más pesimistas creen que en el futuro muchas lenguas desaparecerán e Internet serán dos mundos compuestos por dos idiomas: el inglés y el chino. Esta forma de pensar no es nueva. ¿Alguien recuerda el esperanto?
El impacto de las herramientas de inteligencia artificial, como la traducción automática y los chatbots, en el aprendizaje de idiomas aún no está claro. ¿Ayudarán a las personas a aprender nuevos idiomas más rápido o eliminarán por completo la necesidad de aprender nuevos idiomas?
en conclusión
De los 10 desafíos mencionados anteriormente, algunos son más difíciles que otros.
Por ejemplo, creo que el punto 10, Creación de LLM para idiomas distintos del inglés, apunta más directamente al tiempo y los recursos adecuados.
El punto 1, reducir las alucinaciones, será más difícil porque las alucinaciones son simplemente LLM que realizan su tarea probabilística.
El punto 4, hacer que los LLM sean más rápidos y más baratos, nunca llegará a un estado completamente resuelto. Se ha avanzado mucho en esta área y hay más por venir, pero nunca dejaremos de mejorar.
Los puntos 5 y 6, nueva arquitectura y nuevo hardware, son muy desafiantes e inevitables. Debido a la relación simbiótica entre arquitectura y hardware, las nuevas arquitecturas deben optimizarse para hardware común y el hardware debe admitir arquitecturas comunes. Podrán ser liquidados por la misma empresa.
Algunos de estos problemas pueden resolverse con algo más que conocimientos técnicos. Por ejemplo, el punto 8, Mejorar el aprendizaje a partir de las preferencias humanas, puede ser más una cuestión de estrategia que una cuestión técnica.
El punto 9, mejorar la eficiencia de la interfaz de chat, es más una cuestión de experiencia del usuario. Necesitamos más personas sin formación técnica trabajando juntas para resolver estos problemas.