¡Se publican los primeros resultados de la investigación de Musk sobre xAI! Los miembros fundadores de la clase Young & Yao, ex alumnos de la clase, trabajaron conjuntamente
La xAI de Musk, ¡el primer resultado de una investigación pública ya está aquí!
Una de las obras más comunes es la de Greg Yang, miembro fundador de xAI y discípulo de Yau Chengtong.
Anteriormente, Yange declaró públicamente que su dirección de investigación en xAI es "Matemáticas para IA" e "IA para Matemáticas".
Uno de los aspectos más destacados es continuar con sus investigaciones previas:
Tensor Programs, un lenguaje de programación unificado que describe arquitecturas de redes neuronales: logros relacionados, ya disponible en GPT-4.
Este nuevo artículo, que pertenece a la serie, se centra en "cómo entrenar redes profundas infinitas".
Con este fin, el propio Yange también realizó especialmente una transmisión en vivo compartida en X.
Echemos un vistazo a qué contenido maravilloso vale la pena marcar ~
Entrenamiento de redes neuronales profundas infinitas
En términos simples, este artículo estudia la expansión de las redes residuales (ResNet) en la dirección de profundidad.
Sabemos que las redes residuales resuelven el problema de la degradación del rendimiento de las redes neuronales convolucionales profundas a medida que aumenta la profundidad. Pero a medida que la red continúa profundizándose, entrenar una buena red residual profunda todavía no es una tarea fácil:
Cuando la red se profundice, la escala de las características seguirá aumentando, lo que provocará inestabilidad en la red. Después de profundizar la red, es necesario reajustar los hiperparámetros, lo cual no es una pequeña cantidad de trabajo ...
La idea de Yanger y sus amigos era encontrar un método paramétrico profundo que pudiera aprender características y lograr la transferencia de hiperparámetros.
Primero pensaron en dos límites para las redes neuronales infinitamente amplias: las máquinas del kernel o los aprendices de características. Para estos últimos, los hiperparámetros óptimos no cambian con el ancho.
Aquí, analizaron los límites de una red infinita utilizando el marco de los Programas Tensor.
Como se mencionó anteriormente, Tensor Programs es uno de los objetivos de investigación a largo plazo de Younger: construir el lenguaje de programación subyacente que pueda describir y analizar arquitecturas de redes neuronales en lenguaje matemático.
Específicamente, los programas tensoriales consisten en funciones de multiplicación y activación de matrices. Young descubrió que si las funciones de la red neuronal podían expresarse en este lenguaje, podrían inicializarse de forma automática y completa para su análisis.
La parte de la derivación matemática, sin expansión específica aquí, podemos sentir el estilo de pintar superficialmente...
Sobre la base de estos análisis derivados, los autores proponen el método Depth-μP, que puede realizar la transferencia de hiperparámetros en la dirección de la profundidad y simplificar en gran medida el ajuste de hiperparámetros a diferentes profundidades.
Depth-μP contiene los siguientes puntos:
El coeficiente a/sqrt(L) inversamente proporcional a la raíz cuadrada de cada rama residual y profundidad L.
La tasa de aprendizaje de cada matriz de peso disminuye a medida que aumenta la profundidad L, dependiendo del tipo de algoritmo de optimización. Para SGD, la tasa de aprendizaje toma un η constante, y para los algoritmos de optimización adaptativa como Adam, la tasa de aprendizaje toma η/sqrt(L).
Vale la pena señalar que los autores encontraron que cuando la profundidad residual del bloque es 1, Depth-μP es la forma óptima para la parametrización de profundidad, lo que puede garantizar que los hiperparámetros converjan con el aumento de la profundidad y realicen la transferencia de hiperparámetros en la dirección de la profundidad.
Sin embargo, cuando la profundidad de bloque residual ≥ 2, se producirá un error en la migración de hiperparámetros y una degradación del rendimiento del entrenamiento.
Además, el documento explora el concepto de "diversidad de características" como un papel clave en las redes profundas.
Otro coautor del artículo es Dingli Yu, de Princeton. Se graduó de Tsinghua Yao Class con una licenciatura y actualmente está cursando un doctorado en ciencias de la computación en Princeton.
**¿Qué dijo Yanger en la transmisión en vivo? **
Durante la transmisión en vivo, Yange también respondió preguntas de interés para la audiencia. Sin cambiar el significado original, los qubits resolvieron algunos problemas.
P: Para muchos de nosotros, [el contenido del documento] puede estar más allá de nuestra comprensión. Pero me pregunto, ¿en qué se diferencia el modelo que mencionas de la tecnología ChatGPT y OpenAI que podemos experimentar? ¿Cuáles son las diferencias o innovaciones significativas entre este documento y los resultados de OpenAI?
Younger: Permítanme hacer un breve comentario, y me gustaría decir que estas propiedades no están directamente relacionadas con aplicaciones prácticas en este momento, sino más bien con la investigación en la naturaleza.
Por supuesto, el objetivo final de hacer todo esto es hacer que el modelo sea mejor, más seguro y luego beneficiar a la humanidad. Lo que estamos haciendo ahora es describir el efecto deseado, que no necesariamente tiene un impacto directo.
Ahora que estamos en el mismo barco, estamos haciendo lo que podemos, ya sea trabajo a corto plazo o investigación aplicada a largo plazo, para que funcione en beneficio de todos.
P: Parece que estás construyendo un cerebro artificial capaz de razonar, ¿es en esto en lo que estás trabajando? Además, soy madre y mi hijo de 7 años está muy interesado en las matemáticas, ¿tienes algún consejo que pueda mantenerlo interesado y entusiasta en el campo de la IA?
Younger: La "nueva web" se refiere a las redes neuronales artificiales, que creo que son la columna vertebral de muchas tecnologías modernas, incluidas Google, Facebook, Instagram, etc., que se utilizan todos los días, y estos servicios utilizan estas redes neuronales artificiales por debajo. Estas redes nacieron hace unos sesenta o setenta años inspiradas en redes neuronales reales de animales y humanos, pero se han desviado de la neurociencia real.
Estas redes son esencialmente problemas matemáticos, por lo que podemos entender estas redes neuronales en profundidad después de comprender estos nuevos problemas matemáticos y hacer muchos análisis.
Si bien aún no sabemos exactamente cómo se conectan las neuronas, a través de la investigación matemática, podemos optimizar estas redes neuronales artificiales para ayudar a las empresas tecnológicas a mejorar la vida de las personas.
Con respecto a su segunda pregunta, es genial escuchar que su hijo está muy interesado en las matemáticas. Esta es la base para crear grandes logros en el campo de la tecnología y mejorar la vida de todos.
El consejo que me gustaría dar es que, en primer lugar, mantengas la pasión de tu hijo por las matemáticas, que es muy importante. Una vez que pierdes esta pasión, se vuelve difícil seguir aprendiendo.
También preste atención a observar lo que le gusta, lo que hace que el proceso de aprendizaje sea interesante y estimula aún más su interés. Al mismo tiempo, también es necesario cultivar su curiosidad sobre el principio de cómo funcionan las cosas y tratar de cultivar un pensamiento científico, que es impulsado por la curiosidad por estudiar. Es como desarmar cosas y tratar de entender cómo funcionan.
Si uno pierde el entusiasmo por explorar las verdades matemáticas del universo, puede ser difícil ganar impulso. En general, le recomiendo que cultive el profundo interés y curiosidad de su hijo por el mundo, especialmente por la naturaleza de las matemáticas y la ciencia.
P: Tengo una pregunta más abstracta. Tenías la idea de que la profundidad se acerca al infinito, y luego escribiste este artículo basado en esa idea. ¿Has considerado redes neuronales con diferentes arquitecturas? No se trata de una arquitectura estándar con neuronas e innumerables capas, sino de algo completamente diferente. Por ejemplo, estas neuronas están conectadas de maneras completamente diferentes, ¿tal vez algún tipo de cuadrado?
Younger: De hecho, los conocimientos sobre la no linealidad y el número de capas en nuestro trabajo son estudios muy rudimentarios. Ciertamente, hay muchas preguntas que se pueden explorar sobre cuál es la estructura adecuada, o qué tipo de estructura debería ser.
Por ejemplo, el equipo de Meta ha estudiado previamente lo que sucede con las neuronas conectadas aleatoriamente y obtuvo algunos resultados interesantes. Así que, definitivamente, hay mucho más que hacer aquí. Ahora realmente no tengo una respuesta concreta para decir qué sería correcto o mejor estructurado.
Acerca de Jange
Nacido en la provincia de Hunan, Yang Ge se fue a los Estados Unidos después de graduarse de la escuela primaria, donde estudió en Harvard con el profesor Chengtong Yau.
△ Yang Ge y Yau Chengtong, fuente: Twitter de Yang Ge
En 2017, Yange se graduó de Harvard y luego ingresó a Microsoft bajo la recomendación de Shen Xiangyang.
En Microsoft, Yang Ge fue muy elogiado por Shen Xiangyang. Hace unos meses, en un foro llamado "Ciencia Básica e Inteligencia Artificial", Shen Xiangyang declaró públicamente:
Microsoft Research generalmente solo recluta estudiantes de doctorado, y Yange ingresó a Microsoft Research como graduado de pregrado. No solo ingresó a Microsoft Research, sino que también lo hizo extremadamente bien en los últimos cinco años, especialmente en el desarrollo de GPT ha hecho una contribución decisiva.
Cabe mencionar que él mismo ha admitido que GPT-4 utiliza su método μTransfer (serie Tensor Programs).
La investigación de Younger sobre los programas Tensor ha existido desde muy temprano, y "Tensor Programs I" se publicó en 2019, y continuó explorándola en profundidad cuando trabajó en Microsoft. Él cree que casi cualquier cómputo en el aprendizaje profundo puede ser representado como Programas Tensoriales.
En julio de este año, Musk anunció la formación de una nueva empresa, xAI, y Young dejó Microsoft para unirse al equipo fundador de xAI y convertirse en matemático de xAI.
Después de unirse a xAI, Young reveló más de una vez que el objetivo a largo plazo del proyecto Tensor Programs es desarrollar una "teoría del todo" del aprendizaje profundo a gran escala, es decir, encontrar una regla teórica que pueda comprender realmente el comportamiento de los grandes modelos de IA.
También declaró:
IA permitirá a todo el mundo entender nuestro universo matemático de formas que antes eran inimaginables.
Enlace de papel:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡Se publican los primeros resultados de la investigación de Musk sobre xAI! Los miembros fundadores de la clase Young & Yao, ex alumnos de la clase, trabajaron conjuntamente
Fuente: Qubits
La xAI de Musk, ¡el primer resultado de una investigación pública ya está aquí!
Una de las obras más comunes es la de Greg Yang, miembro fundador de xAI y discípulo de Yau Chengtong.
Anteriormente, Yange declaró públicamente que su dirección de investigación en xAI es "Matemáticas para IA" e "IA para Matemáticas".
Uno de los aspectos más destacados es continuar con sus investigaciones previas:
Tensor Programs, un lenguaje de programación unificado que describe arquitecturas de redes neuronales: logros relacionados, ya disponible en GPT-4.
Este nuevo artículo, que pertenece a la serie, se centra en "cómo entrenar redes profundas infinitas".
Echemos un vistazo a qué contenido maravilloso vale la pena marcar ~
Entrenamiento de redes neuronales profundas infinitas
En términos simples, este artículo estudia la expansión de las redes residuales (ResNet) en la dirección de profundidad.
Sabemos que las redes residuales resuelven el problema de la degradación del rendimiento de las redes neuronales convolucionales profundas a medida que aumenta la profundidad. Pero a medida que la red continúa profundizándose, entrenar una buena red residual profunda todavía no es una tarea fácil:
Cuando la red se profundice, la escala de las características seguirá aumentando, lo que provocará inestabilidad en la red. Después de profundizar la red, es necesario reajustar los hiperparámetros, lo cual no es una pequeña cantidad de trabajo ...
La idea de Yanger y sus amigos era encontrar un método paramétrico profundo que pudiera aprender características y lograr la transferencia de hiperparámetros.
Primero pensaron en dos límites para las redes neuronales infinitamente amplias: las máquinas del kernel o los aprendices de características. Para estos últimos, los hiperparámetros óptimos no cambian con el ancho.
Como se mencionó anteriormente, Tensor Programs es uno de los objetivos de investigación a largo plazo de Younger: construir el lenguaje de programación subyacente que pueda describir y analizar arquitecturas de redes neuronales en lenguaje matemático.
La parte de la derivación matemática, sin expansión específica aquí, podemos sentir el estilo de pintar superficialmente...
Depth-μP contiene los siguientes puntos:
Vale la pena señalar que los autores encontraron que cuando la profundidad residual del bloque es 1, Depth-μP es la forma óptima para la parametrización de profundidad, lo que puede garantizar que los hiperparámetros converjan con el aumento de la profundidad y realicen la transferencia de hiperparámetros en la dirección de la profundidad.
Otro coautor del artículo es Dingli Yu, de Princeton. Se graduó de Tsinghua Yao Class con una licenciatura y actualmente está cursando un doctorado en ciencias de la computación en Princeton.
**¿Qué dijo Yanger en la transmisión en vivo? **
Durante la transmisión en vivo, Yange también respondió preguntas de interés para la audiencia. Sin cambiar el significado original, los qubits resolvieron algunos problemas.
P: Para muchos de nosotros, [el contenido del documento] puede estar más allá de nuestra comprensión. Pero me pregunto, ¿en qué se diferencia el modelo que mencionas de la tecnología ChatGPT y OpenAI que podemos experimentar? ¿Cuáles son las diferencias o innovaciones significativas entre este documento y los resultados de OpenAI?
Younger: Permítanme hacer un breve comentario, y me gustaría decir que estas propiedades no están directamente relacionadas con aplicaciones prácticas en este momento, sino más bien con la investigación en la naturaleza.
Por supuesto, el objetivo final de hacer todo esto es hacer que el modelo sea mejor, más seguro y luego beneficiar a la humanidad. Lo que estamos haciendo ahora es describir el efecto deseado, que no necesariamente tiene un impacto directo.
Ahora que estamos en el mismo barco, estamos haciendo lo que podemos, ya sea trabajo a corto plazo o investigación aplicada a largo plazo, para que funcione en beneficio de todos.
P: Parece que estás construyendo un cerebro artificial capaz de razonar, ¿es en esto en lo que estás trabajando? Además, soy madre y mi hijo de 7 años está muy interesado en las matemáticas, ¿tienes algún consejo que pueda mantenerlo interesado y entusiasta en el campo de la IA?
Younger: La "nueva web" se refiere a las redes neuronales artificiales, que creo que son la columna vertebral de muchas tecnologías modernas, incluidas Google, Facebook, Instagram, etc., que se utilizan todos los días, y estos servicios utilizan estas redes neuronales artificiales por debajo. Estas redes nacieron hace unos sesenta o setenta años inspiradas en redes neuronales reales de animales y humanos, pero se han desviado de la neurociencia real.
Estas redes son esencialmente problemas matemáticos, por lo que podemos entender estas redes neuronales en profundidad después de comprender estos nuevos problemas matemáticos y hacer muchos análisis.
Si bien aún no sabemos exactamente cómo se conectan las neuronas, a través de la investigación matemática, podemos optimizar estas redes neuronales artificiales para ayudar a las empresas tecnológicas a mejorar la vida de las personas.
Con respecto a su segunda pregunta, es genial escuchar que su hijo está muy interesado en las matemáticas. Esta es la base para crear grandes logros en el campo de la tecnología y mejorar la vida de todos.
El consejo que me gustaría dar es que, en primer lugar, mantengas la pasión de tu hijo por las matemáticas, que es muy importante. Una vez que pierdes esta pasión, se vuelve difícil seguir aprendiendo.
También preste atención a observar lo que le gusta, lo que hace que el proceso de aprendizaje sea interesante y estimula aún más su interés. Al mismo tiempo, también es necesario cultivar su curiosidad sobre el principio de cómo funcionan las cosas y tratar de cultivar un pensamiento científico, que es impulsado por la curiosidad por estudiar. Es como desarmar cosas y tratar de entender cómo funcionan.
Si uno pierde el entusiasmo por explorar las verdades matemáticas del universo, puede ser difícil ganar impulso. En general, le recomiendo que cultive el profundo interés y curiosidad de su hijo por el mundo, especialmente por la naturaleza de las matemáticas y la ciencia.
P: Tengo una pregunta más abstracta. Tenías la idea de que la profundidad se acerca al infinito, y luego escribiste este artículo basado en esa idea. ¿Has considerado redes neuronales con diferentes arquitecturas? No se trata de una arquitectura estándar con neuronas e innumerables capas, sino de algo completamente diferente. Por ejemplo, estas neuronas están conectadas de maneras completamente diferentes, ¿tal vez algún tipo de cuadrado?
Younger: De hecho, los conocimientos sobre la no linealidad y el número de capas en nuestro trabajo son estudios muy rudimentarios. Ciertamente, hay muchas preguntas que se pueden explorar sobre cuál es la estructura adecuada, o qué tipo de estructura debería ser.
Por ejemplo, el equipo de Meta ha estudiado previamente lo que sucede con las neuronas conectadas aleatoriamente y obtuvo algunos resultados interesantes. Así que, definitivamente, hay mucho más que hacer aquí. Ahora realmente no tengo una respuesta concreta para decir qué sería correcto o mejor estructurado.
Acerca de Jange
Nacido en la provincia de Hunan, Yang Ge se fue a los Estados Unidos después de graduarse de la escuela primaria, donde estudió en Harvard con el profesor Chengtong Yau.
En 2017, Yange se graduó de Harvard y luego ingresó a Microsoft bajo la recomendación de Shen Xiangyang.
En Microsoft, Yang Ge fue muy elogiado por Shen Xiangyang. Hace unos meses, en un foro llamado "Ciencia Básica e Inteligencia Artificial", Shen Xiangyang declaró públicamente:
Cabe mencionar que él mismo ha admitido que GPT-4 utiliza su método μTransfer (serie Tensor Programs).
La investigación de Younger sobre los programas Tensor ha existido desde muy temprano, y "Tensor Programs I" se publicó en 2019, y continuó explorándola en profundidad cuando trabajó en Microsoft. Él cree que casi cualquier cómputo en el aprendizaje profundo puede ser representado como Programas Tensoriales.
En julio de este año, Musk anunció la formación de una nueva empresa, xAI, y Young dejó Microsoft para unirse al equipo fundador de xAI y convertirse en matemático de xAI.
Después de unirse a xAI, Young reveló más de una vez que el objetivo a largo plazo del proyecto Tensor Programs es desarrollar una "teoría del todo" del aprendizaje profundo a gran escala, es decir, encontrar una regla teórica que pueda comprender realmente el comportamiento de los grandes modelos de IA.
También declaró:
Enlace de papel: