¡Comprime todo directamente! El científico jefe de OpenAI, Ilya Sutskever, ve el aprendizaje no supervisado de esta manera

2023-08-21 01:46:52

Fuente original: Corazón de la máquina

Crédito de la imagen: Generado por Unbounded AI‌

Recientemente, Ilya Sutskever, científico jefe de OpenAI, dio una conferencia en el Instituto Simons, que se enfoca en la investigación de la teoría computacional.En una oración, podemos ver el aprendizaje no supervisado desde una perspectiva comprimida. Además, compartió muchas otras ideas interesantes. El corazón de la máquina resolvió el contenido general del discurso, con la esperanza de ayudar a los lectores a comprender más profundamente el aprendizaje no supervisado.

Sutskever habló por primera vez sobre el cambio de dirección de su investigación. Dijo: "No hace mucho, cambié todo mi enfoque de investigación a la investigación de alineación de IA". Este es el equipo de "Superalineación (superalineación)" establecido por OpenAI hace algún tiempo. que codirige con Jan Leike. Sutskever dijo que han logrado algunos resultados de investigación en la alineación de la IA, pero este no es un tema en el que se centre esta charla.

El tema de este discurso es "Una observación sobre la generalización (una observación sobre la generalización)", e Ilya Sutskever habla específicamente sobre una teoría que explica el aprendizaje no supervisado.

En primer lugar, Ilya Sutskever plantea una serie de preguntas generales sobre el "aprendizaje": ¿Qué es exactamente el aprendizaje? ¿Por qué es útil aprender? ¿Por qué debería ser útil el aprendizaje? ¿Por qué las computadoras deben tener la capacidad de aprender? ¿Por qué las redes neuronales pueden aprender? ¿Por qué los modelos de aprendizaje automático pueden aprender las leyes de los datos? ¿Podemos describir el aprendizaje en términos matemáticos?

Aprendizaje supervisado

Sutskever comienza con el aprendizaje supervisado. Él dice que ha habido un trabajo formal significativo sobre el aprendizaje supervisado, el resultado de varios investigadores hace años; estos resultados a menudo se denominan teoría del aprendizaje estadístico.

La ventaja del aprendizaje supervisado es que puede proporcionar una condición matemática precisa para que el aprendizaje tenga éxito. Es decir, si tiene algunos datos de alguna distribución de datos, puede lograr con éxito una baja pérdida de entrenamiento y tiene suficientes datos de entrenamiento (más grados de libertad que la distribución de datos), entonces su error de prueba debe ser bajo.

Matemáticamente, el aprendizaje debe tener éxito si se puede encontrar una función dentro de una clase de funciones que logre una menor pérdida de entrenamiento. Por lo tanto, el aprendizaje supervisado es muy simple.

Los investigadores han descubierto algunos teoremas en investigaciones relacionadas, el siguiente es un ejemplo. Sutskever dijo que le llevaría unos cinco minutos explicar el teorema, pero aparentemente tiene un tiempo limitado para su charla.

Con todo, el teorema es "elegante" y demuestra un proceso de aprendizaje supervisado con solo tres líneas de derivación matemática.

Por lo tanto, el aprendizaje supervisado se entiende relativamente bien. Sabemos por qué funcionará: siempre que podamos recopilar grandes conjuntos de datos de aprendizaje supervisado, podemos estar seguros de que los modelos mejorarán cada vez más. Por supuesto, otro punto también es muy importante, y es lograr que la distribución de la prueba sea consistente con la distribución del entrenamiento, solo así la teoría del aprendizaje supervisado puede ser efectiva.

Entonces, el concepto de aprendizaje supervisado es muy simple. También tenemos respuestas sobre por qué funciona el aprendizaje supervisado: sabemos por qué funcionan el reconocimiento de voz y la clasificación de imágenes porque se basan en un aprendizaje supervisado eficiente y matemáticamente garantizado.

Aquí Ilya Sutskever mencionó la dimensión VC por cierto. Mencionó que muchos investigadores en la teoría del aprendizaje estadístico creen que la dimensión VC es un componente clave, pero el propósito de la dimensión VC se inventó para permitir que el modelo pueda manejar parámetros con una precisión infinita.

Por ejemplo, si cada parámetro de su clasificador lineal tiene una precisión infinita, pero la precisión de los números de punto flotante en realidad es limitada y la precisión se reducirá, entonces puede implementar algunas funciones a través de la dimensión VC y convertir este clasificador lineal se reduce a la forma de aprendizaje supervisado descrita por la fórmula anterior.

¿Qué es el aprendizaje no supervisado?

A continuación, mire el aprendizaje no supervisado. En primer lugar, ¿qué es el aprendizaje no supervisado? Ilya Sutskever dijo que aún no ha visto una explicación satisfactoria del aprendizaje no supervisado y que no sabemos cómo razonar matemáticamente; en el mejor de los casos, solo podemos hacer algo de intuición.

El aprendizaje no supervisado ha sido un sueño de larga data en el campo del aprendizaje automático. Sutskever cree que este objetivo se ha logrado en estudios experimentales, donde el modelo mira los datos sin que se le diga su contenido y descubre la estructura oculta real y útil en ellos.

¿Cómo pasó esto? ¿Podemos estar seguros de que esto sucederá? Sutskever dice que no podemos, después de todo no tenemos las mismas garantías teóricas en el aprendizaje no supervisado que tenemos en el aprendizaje supervisado.

La gente ha estado explorando el aprendizaje no supervisado desde la década de 1980, utilizando una terminología similar. En el experimento, las personas observaron que cuando la cantidad de datos es pequeña, el fenómeno del aprendizaje no supervisado no aparece, pero han aparecido algunas ideas de desarrollo populares, como BERT, modelo de difusión, modelo de lenguaje antiguo, etc. El aprendizaje no supervisado en ese momento también podía generar algunas muestras geniales, pero por supuesto no era tan bueno como la tecnología actual.

Pero debido a que no sabemos cómo funciona el aprendizaje no supervisado, siempre ha sido confuso.

Por ejemplo, cuando optimiza para un objetivo determinado (como la reconstrucción de imágenes o la predicción de la siguiente palabra), también puede interesarle otro objetivo (como la clasificación de imágenes o la clasificación de documentos), y el modelo también puede funcionar bien en este objetivo no optimizado. Obtener un buen rendimiento. ¿Pero por qué? No sé, ese es el resultado del experimento. Sutskever dijo que era como magia.

¿Vamos a abandonar la teoría e ir hasta el final en el positivismo?

Sabemos que el aprendizaje no supervisado es aprender la estructura en la distribución de entrada y luego obtener algo que ayude a lograr el objetivo. Pero, ¿y si la distribución de entrada es una distribución uniforme? En este momento, varios algoritmos de aprendizaje no supervisados fallarán. ¿Cómo debemos tratar este fenómeno? Sutskever dice que debemos hacer algunas suposiciones.

Un método de aprendizaje no supervisado: coincidencia de distribución

A continuación, Sutskever muestra una forma potencial de pensar sobre el aprendizaje no supervisado. Dijo que este método de aprendizaje no supervisado no se ha generalizado, pero es muy interesante. Tiene características similares al aprendizaje supervisado, es decir, debe ser efectivo. ¿por qué? Esto implica un proceso de aprendizaje no supervisado llamado coincidencia de distribución.

A continuación, déjame explicarte brevemente. Supongamos que hay dos fuentes de datos X e Y sin correspondencia entre ellas; el objetivo del modelo es encontrar una función F tal que la distribución de F(X) se aproxime a la distribución de Y: esta es la restricción de F.

Esta restricción puede ser significativa para muchos escenarios de aplicaciones, como la traducción automática y el reconocimiento de voz. Por ejemplo, si hay una distribución de oraciones en inglés, después de usar la función F, podemos obtener una distribución cercana a la distribución de oraciones en francés, entonces podemos decir que hemos obtenido las restricciones reales de F.

Si las dimensiones de X e Y son lo suficientemente altas, entonces F puede tener una gran cantidad de restricciones. De hecho, es posible que incluso pueda recuperar una F completa de esas restricciones. Este es un ejemplo de aprendizaje supervisado de aprendizaje no supervisado, y debe funcionar, al igual que debe funcionar el aprendizaje supervisado.

Además, los cifrados por sustitución también se ajustan a este marco.

Sutskever dijo que descubrió el fenómeno de forma independiente en 2015. Lo hizo pensar: tal vez podamos describir el aprendizaje no supervisado en alguna forma matemática significativa.

Por supuesto, el escenario de traducción automática descrito anteriormente es un escenario artificial simplificado, que no se ajusta a la situación real de la aplicación, y el escenario de aprendizaje no supervisado correspondiente es naturalmente el mismo.

A continuación, Sutskever describirá su método propuesto, que puede proporcionar una explicación matemática para el aprendizaje no supervisado y garantizar que los resultados del aprendizaje no supervisado sean buenos.

Como todos sabemos, la compresión es una predicción, y cada compresor puede transformarse en un predictor y viceversa. Existe una correspondencia biunívoca entre el compresor de conjunto y el predictor de conjunto.

Sutskever señaló que para ilustrar más claramente el pensamiento sobre el aprendizaje no supervisado, es ventajoso utilizar el aspecto de compresión de la discusión.

Basado en esto, hizo un experimento mental.

Digamos que tiene dos conjuntos de datos X e Y, que son dos archivos en su disco duro; entonces tiene un excelente algoritmo de compresión C. Suponga también que realiza una compresión conjunta en X e Y, es decir, los concatena primero y luego los alimenta al compresor.

La pregunta importante ahora es: ¿qué hará un compresor lo suficientemente bueno?

Sutskever dio una respuesta muy intuitiva: el compresor usa los patrones presentes en X para ayudar a comprimir Y, y viceversa.

Dijo que la escena de la tarea de predicción en realidad tiene un fenómeno similar, pero parece ser más intuitivo decirlo en el contexto comprimido.

Si su compresor es lo suficientemente bueno, los resultados comprimidos de los archivos concatenados no deberían ser peores que los resultados comprimidos separados.

Entonces, la compresión adicional que obtiene al concatenar es algún tipo de estructura compartida que nota su compresor. Cuanto mejor sea el compresor, más estructuras comunes podrá extraer.

La diferencia entre los dos resultados de compresión es la estructura compartida, la información algorítmica mutua.

En consecuencia, puede pensar en Y como datos para una tarea supervisada, X como datos para una tarea no supervisada, y tiene algún tipo de razonamiento matemático sobre esta información: puede usar los patrones en X para ayudar en la tarea Y.

Tenga en cuenta también cómo se generaliza a la coincidencia de distribución. Si en el caso de coincidencia de distribuciones, digamos que X es el idioma 1 e Y es el idioma 2, y existe alguna función simple F que transforma de una distribución a la otra, entonces un buen compresor notará esto también y utilizará Utilizándolo, incluso es posible restaurar la función internamente.

De esta manera, se forma un circuito cerrado. Entonces, ¿cómo describimos el aprendizaje no supervisado en forma matemática?

Formalización matemática del aprendizaje no supervisado

Tenga en cuenta que la descripción en esta sección usa la descripción del escenario de compresión y el escenario de predicción de manera intercambiable.

Primero supongamos que tenemos un algoritmo de aprendizaje automático A cuya función es comprimir Y. El algoritmo A tiene acceso a X. Sea X el documento número 1 y Y el documento número 2. Queremos que nuestro algoritmo/compresor de aprendizaje automático comprima Y y pueda usar X cuando corresponda. El objetivo es comprimir Y tanto como sea posible.

Entonces tenemos que preguntarnos: ¿Cuál es el mayor arrepentimiento (arrepentimiento) de usar este algoritmo?

Sutskever explicó: "Si estoy haciendo un buen trabajo y mi arrepentimiento es bajo, significa que tengo toda la ayuda que puedo obtener de estos datos sin etiquetar. Los datos sin etiquetar me han ayudado tanto como sea posible". no me arrepiento." Lo que significa que no hay mejores predictores disponibles para un mejor algoritmo de compresión. "He aprovechado al máximo mis datos sin etiquetar".

Sutskever ve esto como un paso importante para pensar en el aprendizaje no supervisado. No sabe si su conjunto de datos no supervisado es realmente útil, pero si tiene poco arrepentimiento en un algoritmo de aprendizaje supervisado, entonces tiene el mejor resultado, no hay mejor resultado posible.

Ahora en un territorio teórico un tanto oscuro.

El uso de la complejidad de Kolmogorov como compresor definitivo nos brinda un algoritmo con un arrepentimiento ultra bajo, pero no es realmente un algoritmo porque no es computable.

Expliquemos brevemente la complejidad de Kolmogorov: es como si me diera algunos datos y, para comprimirlos, le proporcionaría el programa más breve posible. La complejidad de Kolmogorov es igual a la longitud de este programa más corto.

Sea C un compresor computable, entonces para todo X la complejidad del compresor Kolmogorov es menor que la salida arbitraria del compresor C más el número de caracteres de código necesarios para implementar el compresor.

Podemos probar esto usando un argumento de simulación. Supongamos que hay un muy buen compresor C, entonces puede ser un programa de computadora, si este programa de computadora se entrega a K para que lo ejecute, entonces el costo requerido por K es la duración de este programa. El compresor Kolmogorov puede simular otros programas de computadora y otros compresores y, por lo tanto, no es computable. Es como un programa gratuito que emula todos los programas de computadora, pero también es el mejor compresor posible.

Ahora generalizamos el compresor Kolmogorov para usar información adicional. Sabemos que el compresor de Kolmogorov no es computable, no decidible, pero como buscar todos los programas. Esto es como usar una red neuronal para ajustar parámetros a través de SGD (descenso de gradiente estocástico) para buscar un programa. Este proceso se ejecuta en una computadora con ciertos recursos (memoria, cantidad de pasos), que es como un compresor Kolmogorov muy pequeño. Hay similitudes entre los dos.

Las redes neuronales pueden simular applets, que son pequeñas computadoras con bucles/circuitos. Podemos usar SGD para entrenar estas computadoras para encontrar sus "circuitos" a partir de los datos.

Los argumentos de las simulaciones también se aplican aquí. Si desea diseñar una mejor arquitectura de red neuronal, le resultará difícil, porque otras arquitecturas de redes neuronales pueden simular agregar o modificar conexiones, pero en realidad es difícil de hacer. Porque estos son los casos raros que pueden conducir a grandes mejoras. Al igual que la transición de RNN a Transformer. Los RNN tienen un cuello de botella: el estado oculto. Pero si podemos encontrar una manera de hacer que el RNN tenga un estado oculto muy grande, entonces su rendimiento puede volver a alcanzar al Transformador.

Entonces podemos usar la complejidad de Kolmogorov condicional como una solución para el aprendizaje no supervisado de la siguiente manera:

donde C es un compresor computable y K(Y|X) es la longitud del programa más corto que genera Y si se puede usar X.

Esta es una solución de muy bajo arrepentimiento para el aprendizaje no supervisado que no es computable, pero proporciona un marco útil.

¡Comprime todo directamente!

Sutskever va un paso más allá y menciona que también es posible "comprimir todo directamente".

La complejidad de Kolmogorov condicional K(Y|X) no es natural en el contexto del aprendizaje automático porque comprime Y en función de X, lo que es en gran medida imposible de condicionar en grandes conjuntos de datos, al menos por ahora. Podemos ajustar grandes conjuntos de datos, pero es difícil condicionarlos.

Y lo anterior dice: si desea hacer predicciones sobre algo Y que supervisa, un compresor Kolmogorov regular que comprime datos concatenados X e Y funcionará tan bien como un compresor condicional. Por supuesto, hay más sutilezas en los detalles reales, pero lo que esto realmente significa es que podemos usar un compresor Kolmogorov regular para resolver el aprendizaje no supervisado: simplemente concatene todos sus datos y realice la compresión, para que pueda. Se han obtenido buenos resultados. obtenidos en tareas de supervisión.

La prueba de esto es más complicada, así que no entraré aquí.

La conclusión importante es que la compresión regular de Kolmogorov (sin estar condicionada a un determinado conjunto de datos) es el "mejor uso posible" de los datos no etiquetados. Esta es la solución al aprendizaje no supervisado.

la compresión conjunta es la máxima probabilidad

El último punto que hizo Sutskever en su charla fue este: esta compresión articular es de máxima probabilidad, siempre que no haya sobreajuste.

Si tiene un conjunto de datos, la suma de las probabilidades de los parámetros dados es el costo de comprimir ese conjunto de datos. También paga el costo de comprimir los parámetros. Y si desea comprimir dos conjuntos de datos, no hay problema, solo agregue puntos de datos a su conjunto de datos, es decir, agregue más elementos a la suma de la operación de suma anterior.

Por lo tanto, la compresión conjunta mediante la concatenación de datos es un enfoque muy natural en el contexto del aprendizaje automático. Por el contrario, pasar la complejidad condicional de Kolmogorov es mucho más problemático.

Incluso podemos usarlo para explicar cómo funcionan las redes neuronales. Podemos usar SGD para grandes redes neuronales como nuestro gran buscador de programas. Cuanto más grande sea la red neuronal, mejor se puede aproximar al compresor Kolmogorov regular. Sutskever comentó: "Quizás por eso nos gustan las redes neuronales grandes, porque podemos aproximarnos a la idea de un compresor Kolmogorov regular irrealizable sin arrepentimientos. A medida que entrenamos redes neuronales cada vez más grandes, el arrepentimiento aumentará. Bajo".

¿Esta teoría también se aplica a los modelos GPT?

La respuesta de Sutskever a esto es sí, pero para explicar el comportamiento del modelo GPT, sin citar una afirmación sobre compresión o aprendizaje supervisado, se puede decir que la "teoría" de GPT se puede obtener razonando sobre la distribución condicional del texto.

Entonces, ¿podemos encontrar otros métodos de verificación directa para probar esta teoría? ¿Podemos explicarlo en términos de otros dominios como la visión? ¿Podemos obtener un buen aprendizaje no supervisado si hacemos esto con datos de píxeles?

Sutskever dijo que ya realizaron un estudio de este tipo en 2020, iGPT. Por supuesto, esta es principalmente una investigación de prueba de concepto, y todavía queda un largo camino por recorrer desde la aplicación práctica. Para obtener más detalles, consulte el artículo "Preentrenamiento generativo a partir de píxeles".

El documento muestra que si puede hacer un gran predictor del próximo paso, puede obtener un gran aprendizaje no supervisado. Este artículo prueba la afirmación en el dominio de la imagen.

En términos simples, primero convierta la imagen en una secuencia de píxeles, cada píxel tiene un valor de densidad discreto. Todo lo que se necesita hacer es usar el mismo Transformador para predecir el próximo píxel. Esto es diferente de BERT, que es para predecir el próximo token, porque esta es la probabilidad de maximizar la compresión.

Veamos el resultado:

Como se muestra, esta es la precisión de la sonda lineal en CIFAR-10 para diferentes tamaños de modelos iGPT, es decir, la precisión de predicción del siguiente paso en la tarea de predicción de píxeles del aprendizaje no supervisado. Se puede ver que predecir el siguiente píxel es tan efectivo como predecir la siguiente palabra. El aprendizaje no supervisado funciona mejor cuando el tamaño del modelo es mayor.

Realizaron estudios experimentales y descubrieron que en ImageNet, el rendimiento de iGPT, que se ha ampliado de muchas maneras, puede acercarse al aprendizaje supervisado de última generación, pero aún existen algunas lagunas.

Sin embargo, Sutskever cree que se trata de un problema computacional, porque los métodos de aprendizaje supervisado como SimCLR utilizan imágenes grandes de alta resolución y proporcionan imágenes pequeñas de 64 × 64 para el transformador gigante (6800 millones de parámetros). Es como predecir el siguiente píxel sin supervisión en función de un gran conjunto de datos y luego ajustar sondas lineales en ImageNet, con excelentes resultados.

En CIFAR-10, iGPT-L con 1360 millones de parámetros logró una precisión del 99 %, como se muestra en la siguiente figura.

Representación lineal

Al final de la charla, Sutskever dijo que quería hablar sobre representaciones lineales.

“Me gusta la teoría de la compresión porque antes no había forma de pensar en el aprendizaje no supervisado de una manera rigurosa", dice. Ahora podemos hacerlo hasta cierto punto. Pero la teoría de la compresión no puede explicar directamente por qué las representaciones son linealmente separables, ni puede explicar que debería haber pruebas lineales. Las representaciones lineales son ubicuas y las razones para su formación deben ser profundas. Sutskever cree que podremos articularlo en el futuro.

Otra cosa que encuentra interesante es que el modelo autorregresivo supera a BERT en términos de representación lineal. Pero aún no está claro por qué.

Sin embargo, Sutskever dio su propia especulación: al predecir el siguiente píxel en función de todos los píxeles anteriores, el modelo debe observar la estructura de largo alcance de los datos. BERT descarta algunos tokens de píxeles al procesar vectores y, al considerar un poco del pasado y un poco del futuro, el modelo puede obtener predicciones bastante buenas. De esta manera, se eliminan todas las tareas difíciles y la dificultad de las tareas se reduce mucho. La tarea de predicción más difícil en la predicción del siguiente píxel es mucho más difícil que la tarea de predicción más difícil en el caso de la predicción BERT.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta