¿Qué piensan los investigadores chinos populares de OpenAI, Google y Meta? Transcripción de la conversación

Question

Fuente original: Silicon Star People![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e029b64b98-dd1a6f-6d2ef1) Fuente de la imagen: Generada por Unbounded AI‌Los asientos estaban llenos y los pasillos llenos de gente.Incluso se podría pensar que fue una reunión de celebridades.Pero esta es en realidad una de las mesas redondas de la conferencia GenAI en Silicon Valley.Se organizó en el "escenario auxiliar" al mediodía, cuando la gente tiene más sueño. Había muchos directores ejecutivos y fundadores de empresas estrella de Silicon Valley sentados en el escenario de otra gran sala de conferencias, y en esta mesa redonda estaban "solo" algunos investigadores. pero la gente seguía entrando en la pequeña habitación.Su objetivo eran tres investigadores chinos. En el pasado, en Silicon Valley, este tipo de escena siempre ocurría cuando aparecían "ejecutivos chinos con los puestos más altos en empresas de Silicon Valley", pero esta vez la gente perseguía a tres jóvenes.Xinyun Chen, Chunting Zhou y Jason Wei.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-00ce492266-dd1a6f-6d2ef1) **Jóvenes investigadores chinos en tres de las empresas estrella de IA más importantes de Silicon Valley. **Estos tres nombres seguramente resultarán familiares a las personas que siguen de cerca la tendencia de los modelos grandes.Xinyun Chen es un científico investigador senior de los equipos de inferencia de Google Brain y DeepMind. Sus intereses de investigación son la síntesis de programas neuronales y el aprendizaje automático adversario. Recibió un doctorado en informática de la Universidad de California, Berkeley, y una licenciatura en informática de la clase ACM de la Universidad Jiao Tong de Shanghai.Participó en artículos que incluían permitir a LLM crear sus propias herramientas y enseñar a LLM a depurar su propio código, etc. Todos estos son artículos muy importantes y críticos en el campo de la generación de códigos de IA. Algunos medios también la han descrito exageradamente como miembro del "Equipo chino Google Deepmind".Chunting Zhou es científico investigador en Meta AI. Obtuvo su doctorado en el Instituto de Tecnología del Lenguaje de la Universidad Carnegie Mellon en mayo de 2022. Sus principales intereses de investigación actuales se encuentran en la intersección del procesamiento del lenguaje natural y el aprendizaje automático, así como en nuevos métodos de alineación. El artículo que dirigió, que intentaba utilizar menos muestras y más refinadas para entrenar modelos grandes, fue muy elogiado por Yann Lecun y recomendado en un artículo. El artículo proporcionó a la industria ideas más nuevas además de métodos convencionales como RLHF.El último es Jason Wei de OpenAI, un investigador estrella muy respetado por las comunidades de IA nacionales y extranjeras. El famoso desarrollador COT (Chain of Thoughts). Después de graduarse de su licenciatura en 2020, se convirtió en investigador senior de Google Brain y durante su mandato propuso el concepto de cadenas de pensamiento, que también es una de las claves para el surgimiento de LLM. En febrero de 2023 se unió a OpenAI y se unió al equipo de ChatGPT.La gente acude a estas empresas, pero más para investigar.Muchas veces en este foro son como estudiantes, parece que estás viendo una discusión universitaria, son mentes inteligentes, lógicas de respuesta rápida, un poco nerviosos, pero también llenos de palabras ingeniosas.**"¿Por qué tienes que pensar que las alucinaciones son algo malo?"****“Pero Trump tiene alucinaciones todos los días”.**Hubo risas.Esta es una conversación poco común. La siguiente es la transcripción. La gente de Silicon Star también participó e hizo preguntas.**Pregunta**: Analicemos un tema muy importante en LLM, que son las alucinaciones. El concepto de alucinación se propuso ya cuando los parámetros del modelo eran muy pocos y el tamaño aún era muy pequeño, pero ahora que los modelos se hacen cada vez más grandes, ¿cómo ha cambiado el problema de las alucinaciones?**Chunting**: Puedo hablar primero. Hace tres años hice un proyecto sobre alucinaciones. El problema de las alucinaciones que enfrentábamos en ese momento era muy diferente al que enfrentamos ahora, en ese momento hacíamos modelos muy pequeños y discutíamos las alucinaciones en campos específicos, como la traducción o el resumen de documentos y otras funciones. Pero ahora está claro que el problema es mucho mayor.Creo que hay muchas razones por las que los modelos grandes todavía producen alucinaciones. En primer lugar, en términos de datos de entrenamiento, debido a que los humanos tienen alucinaciones, también hay problemas con los datos. La segunda razón es que, debido a la forma en que se entrena el modelo, no puede responder preguntas en tiempo real y responderá preguntas incorrectas. Además, las deficiencias en el razonamiento y otras habilidades pueden provocar este problema.**Xinyun**:** En realidad, comenzaré esta respuesta con otra pregunta. Por qué los humanos piensan que las alucinaciones son algo malo. **Tengo una historia en la que mi colega le hizo una pregunta al modelo, que también fue tomada de algunos bancos de preguntas de evaluación: ¿Qué pasará cuando la princesa bese al sapo? La respuesta del modelo es que no pasa nada. **En muchas respuestas de evaluación de modelos, la respuesta "se convertirá en príncipe" es la respuesta correcta, y la respuesta de que no pasará nada se marcará como incorrecta. **Pero para mí, creo que esta es una mejor respuesta, y muchos humanos interesantes responderían esto. **La razón por la que la gente piensa que esto es una ilusión es porque no han pensado en cuándo la IA no debería tener alucinaciones y cuándo debería tener alucinaciones.Por ejemplo, algún trabajo creativo puede requerirlo, y la imaginación es muy importante. Ahora estamos constantemente ampliando el modelo, pero un problema aquí es que no importa cuán grande sea, no puede recordar todo con precisión. Los humanos en realidad tenemos el mismo problema. Creo que una cosa que se puede hacer es proporcionar algunas herramientas mejoradas para ayudar al modelo, como búsqueda, cálculo, herramientas de programación, etc. Los humanos pueden resolver rápidamente el problema de las alucinaciones con la ayuda de estas herramientas, pero los modelos aún no parecen muy buenos. Esta es también una cuestión que me gustaría estudiar yo mismo.**Jason**: **Si me preguntas, Trump tiene alucinaciones todos los días. (Risas) Dices sí o no. **Pero creo que otro problema aquí es que las expectativas de la gente sobre los modelos lingüísticos están cambiando. **En 2016, cuando un RNN genera una URL, su expectativa es que sea incorrecta y no confiable. Pero hoy en día, supongo que uno esperaría que el modelo fuera correcto en muchas cosas, por lo que también pensaría que las alucinaciones son más peligrosas. Así que este es en realidad un trasfondo muy importante. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0f63dc0078-dd1a6f-6d2ef1) (Posibles direcciones de investigación enumeradas por Jason Wei)**Pregunte**: La siguiente pregunta es para Xinyun. Un tema muy importante en la industria ahora es la automejora y la autodepuración de modelos, por ejemplo. ¿Puedes compartir tu investigación?**Xinyun**: La inspiración para la autodepuración de modelos en realidad proviene de cómo programan los humanos. Sabemos que si la programación humana termina una vez, definitivamente habrá problemas y será necesaria la depuración. Para programadores muy poderosos, la depuración también es una habilidad muy importante. Nuestro objetivo es que sin instrucciones externas y sin que humanos le digan qué está mal, el modelo pueda mirar el código que generó por sí mismo, ver los resultados de la operación y luego determinar qué salió mal. Si hay un problema, ve y depuralo.Y creo que hay dos razones por las que la autodepuración ayudará a la generación de código. Primero, la generación de código se basa básicamente en el entrenamiento de código fuente abierto: puede generar código que se ajuste a la dirección general que desea, pero el código puede ser muy largo, contener muchos errores y no se puede ejecutar. Pero no necesitamos comenzar a programar desde cero en lugar de usar la base de código existente, porque no importa cuántas veces comience desde cero, el problema es inevitable, por lo que es necesario generar código en los recursos de código existentes y depurarlo. se vuelve importante. **En segundo lugar, el proceso de depuración continúa recibiendo comentarios externos, lo cual es muy útil para mejorar la comprensión del modelo.**P**: Una pregunta de seguimiento es: si deja el modelo solo y deja que mejore solo, ¿no habrá problemas?**Chunting**: Una vez hicimos un experimento extraño. Como resultado, el agente eliminó el entorno de desarrollo de Python después de ejecutar el código. Si este agente ingresa al mundo real, puede tener un impacto negativo. Esto es algo que debemos considerar al desarrollar agentes. También descubrí que cuanto más pequeño es el modelo básico, menor es la capacidad y es difícil mejorar y reflexionar sobre uno mismo. Quizás podamos enseñarle al modelo a mejorar a sí mismo permitiéndole ver más "errores" durante el proceso de alineación.**P**: ¿Qué pasa con Jason? ¿Cómo te va y qué piensas sobre la evaluación de modelos?**Jason**: Mi opinión personal es que evaluar modelos es cada vez más desafiante, especialmente bajo el nuevo paradigma. Hay muchas razones detrás de esto: una es que los modelos de lenguaje ahora se utilizan en innumerables tareas y ni siquiera se conoce el alcance de sus capacidades. La segunda razón es que si nos fijamos en la historia de la IA, vemos que estamos resolviendo principalmente problemas tradicionales y clásicos, los objetivos son a muy corto plazo y el texto es muy breve. Pero ahora el texto de la solución es más largo e incluso los humanos tardan mucho en juzgar. Quizás el tercer desafío es que, en muchas cosas, el llamado comportamiento correcto no está muy claramente definido. **Creo que hay algunas cosas que podemos hacer para mejorar las capacidades de evaluación. La primera y más obvia es evaluar desde un alcance más amplio: cuando se encuentran algunos comportamientos dañinos, se puede dividir más específicamente en tareas más pequeñas para su evaluación. Otra pregunta es si se pueden dar más métodos de evaluación para tareas específicas: tal vez los humanos puedan dar algunos y luego la IA también pueda dar otros.**P**: ¿Qué opinas sobre el uso de la IA para evaluar la ruta de la IA?**Jason**: Suena genial. Creo que una de las tendencias que estoy observando últimamente es si los modelos utilizados para evaluar los modelos pueden funcionar mejor. Por ejemplo, la idea del entrenamiento de IA constitucional, incluso si el rendimiento no es perfecto ahora, es muy probable que después de la próxima generación de GPT, estos modelos funcionen mejor que los humanos.**Silicon Star: Todos ustedes son investigadores muy jóvenes. Me gustaría saber qué piensan ustedes, como investigadores en la empresa, sobre el grave desajuste entre la GPU y la potencia informática entre las empresas y el mundo académico. ****Jason**: Si trabajas en un entorno restringido, es posible que tenga un impacto negativo, pero creo que aún queda mucho trabajo por hacer, como la parte del algoritmo, e investigaciones que tal vez no requieran mucho de GPU. Nunca faltan temas.Chunting: También siento que hay mucho espacio y lugares que vale la pena explorar. Por ejemplo, la investigación sobre métodos de alineación se puede realizar con recursos limitados**. Y tal vez en el Área de la Bahía haya más oportunidades para las personas en el mundo académico.** Xinyun **: En general, hay dos direcciones generales para la investigación de LLM, una es mejorar el rendimiento de los resultados y la otra es comprender el modelo. Vemos que muchos buenos marcos, puntos de referencia, etc., así como algunos buenos algoritmos, provienen del mundo académico.Por ejemplo, cuando me gradué de mi doctorado, mi supervisor me dio una sugerencia: **Los investigadores de IA deberían pensar en la investigación en la dimensión temporal de muchos años en el futuro, es decir, no solo considerar mejoras en algunas cosas actuales. . , sino un concepto tecnológico que puede provocar cambios radicales en el futuro. **