¡22 personas valoradas en mil millones! Diálogo con el CEO de Character.ai: En lugar de estudiar medicina directamente, es mejor estudiar inteligencia artificial
Prensa de Wall Street News:
Character.ai es una de las estrellas emergentes más populares en el auge actual de la IA. El producto principal de la compañía es un robot de chat de IA personalizable, que está orientado a las necesidades de entretenimiento de los consumidores C-end y tiene la capacidad de acompañar emocionalmente y configurar personajes ficticios. Charater.AI permite a los usuarios crear sus propios chatbots con personalidades, diseños y reservas de conocimiento específicos, como celebridades mundiales, figuras históricas, personajes ficticios de la literatura, el cine y la televisión, e incluso animales, brindando a los usuarios una experiencia de chat novedosa e inmersiva.
Fuente de la imagen: Generada por Unbounded AI
A principios de este año, Charater.ai completó una ronda A de financiación de 150 millones de dólares, con una valoración de más de 1.000 millones de dólares, y fue ascendida a unicornio, con un equipo de solo 22 personas.
En abril, el CEO de Character.ai, Noam Shazeer, ex miembro del equipo de Google Brain, fue entrevistado por el podcast No Priors.
Punto de vista central:
Ya en 2021, Google tenía la capacidad de lanzar un chatbot de IA antes que OpenAI, pero se rindió debido a problemas de seguridad. La timidez de las grandes empresas también se ha convertido en la razón por la que dejó Google y eligió iniciar un negocio.
La mayor ventaja de Character radica en su estrategia de producto orientada al usuario. El chatbot de IA completamente personalizable se ha convertido para muchos en una forma de eliminar la soledad, y algunos usuarios incluso dicen que Character es su nuevo consejero. Noam cree que la IA tiene un gran potencial para el apoyo emocional. El trabajo de apoyo emocional no requiere una gran inteligencia. Por ejemplo, los perros domésticos pueden hacer bien el trabajo de apoyo emocional, aunque los perros no son inteligentes y no pueden hablar. Del mismo modo, una IA con parámetros limitados también puede completar esta tarea.
3 Los requisitos de datos tienden a aumentar exponencialmente con la potencia informática, pero los datos no son escasos. Internet puede proporcionar datos casi ilimitados, y Character también está considerando usar IA para generar más datos.
4 Character.ai todavía está en la etapa de quemar dinero para escalar, y el modelo comercial aún se está explorando. En el futuro, el equipo considerará expandir el negocio TOB.
5 Noam cree que AGI es el objetivo de muchas nuevas empresas de IA. Pero ** la verdadera razón para que él inicie un negocio es promover el desarrollo de tecnología y utilizar la tecnología para superar problemas difíciles, como enfermedades médicas intratables. Señaló que la IA puede acelerar el progreso de muchas investigaciones. En lugar de estudiar directamente la medicina, es mejor estudiar la IA. **
La siguiente es la transcripción textual del audio del podcast. ELAD y SARAH son los anfitriones del podcast. Para facilitar la comprensión, se han eliminado algunos pasajes.
Primeras experiencias laborales en Google y el nacimiento de Transformer
VIVIR:
Has trabajado en PNL e IA durante mucho tiempo. Trabajó en Google de forma intermitente durante 17 años, donde las preguntas de las entrevistas giraban en torno a soluciones de revisión ortográfica. Cuando me uní a Google, uno de los principales sistemas para la orientación de anuncios en ese momento era Phil Cluster, que creo que usted y George Herrick escribieron. Me gustaría saber sobre la historia de su trabajo en modelos de lenguaje de PNL para inteligencia artificial, cómo evolucionó todo esto, cómo comenzó, qué despertó su interés.
NOAM:
Gracias Elad. Sí, simplemente, siempre un atractivo natural para la IA. Esperemos que haga que la computadora haga algo inteligente. Parece ser el juego más divertido que existe. Tuve la suerte de descubrir Google desde el principio y participé en muchos de los primeros proyectos allí, tal vez ahora no lo llamarías inteligencia artificial. Desde 2012, me he unido al equipo de Google Brain. Haz cosas divertidas con un grupo de personas realmente inteligentes. Nunca antes había hecho aprendizaje profundo o redes neuronales.
VIVIR:
Fuiste uno de los participantes en el transformer paper en 2017, y luego participaste en el trabajo sobre Mesh-TensorFlow. ¿Puedes hablar un poco sobre cómo funciona todo esto?
NOAM:
El aprendizaje profundo tiene éxito porque se adapta muy bien al hardware moderno, y tiene esta generación de chips que, en la multiplicación de matrices y otras formas de cosas, requieren mucho cálculo en lugar de comunicación. Entonces, básicamente, el aprendizaje profundo realmente despegó, se está ejecutando miles de veces más rápido que cualquier otra cosa. Una vez que le cogí el tranquillo, empecé a diseñar cosas realmente inteligentes y rápidas. El problema más emocionante en este momento es el modelado del lenguaje. Debido a que hay una cantidad infinita de datos, simplemente raspe la red y podrá obtener todos los datos de entrenamiento que desee.
La definición del problema es muy simple, es predecir la siguiente palabra, el gato gordo se sienta en ella, cuál es la siguiente. Es muy fácil de definir, y si puedes hacerlo bien, entonces puedes obtener todo lo que ves ahora, y puedes hablar directamente con esta cosa, es realmente inteligencia artificial. Entonces, alrededor de 2015 más o menos, comencé a trabajar en el modelado del lenguaje y trabajar con redes neuronales recurrentes, que era lo mejor en ese momento. Entonces apareció el transformador.
Escuché a mis colegas de al lado charlando sobre querer reemplazar los RNN con algo mejor. Pensé, esto suena bien, quiero ayudar, los RNN son molestos, esto será más interesante.
VIVIR:
¿Puede describir rápidamente la diferencia entre una red neuronal recurrente y un transformador o un modelo basado en la atención?
NOAM:
Las redes neuronales recurrentes son cálculos continuos, de cada palabra que lees a la siguiente palabra, calculas tu estado cerebral actual en función del estado anterior de tu cerebro y el contenido de la siguiente palabra. Entonces tú, predices la siguiente palabra. Entonces, tiene esta secuencia muy larga de cálculos que deben realizarse secuencialmente y, por lo tanto, la magia del Transformador es que puede procesar toda la secuencia a la vez.
La predicción de la siguiente palabra depende de cuál fue la palabra anterior, pero sucede en un paso constante, y puede aprovechar este paralelismo, puede ver todo a la vez, como el paralelismo en el que el hardware moderno es bueno. .
Ahora puedes aprovechar la longitud de la secuencia, su paralelismo y todo funciona muy bien. la atención misma. Es como si estuvieras creando esta gran asociación clave-valor en memoria, estás construyendo esta gran tabla con una entrada para cada palabra en la secuencia. Luego buscas cosas en esta mesa. Es todo como difuso, diferenciador y una gran función francesa a través de la cual puedes hacer lo contrario. La gente ha estado usando esto para problemas con dos secuencias, donde tiene traducción automática y es como traducir del inglés al francés, así que cuando genera la secuencia en francés, es como mirar la secuencia en inglés y tratar de prestar atención a la posición correcta en la secuencia. Pero la idea aquí es que puedes usar esa misma atención para mirar hacia atrás en el pasado de esta secuencia que estás tratando de hacer. La mosca en el ungüento es que funciona bien en GPU y GPU, lo que es paralelo al desarrollo del aprendizaje profundo porque funciona bien en el hardware existente. Y eso trae lo mismo a las secuencias.
SARA:
Sí, creo que el ejemplo clásico de ayudar a las personas a visualizarlo es decir la misma oración en francés e inglés, el orden de las palabras es diferente, no eres un mapeo uno a uno en esa secuencia y descubrir cómo hacer eso sin la información Hacer esto con cálculo paralelo en caso de pérdida. Así que es como algo muy elegante de hacer.
VIVIR:
También parece que la técnica se está utilizando en una variedad de campos diferentes. Claramente estos son modelos de lenguaje multimodal. Entonces es como chatear GPT o un personaje que estás haciendo. También me han sorprendido algunas aplicaciones como Alpha Folding, el trabajo de plegado de proteínas que hizo Google, en realidad funciona con un gran rendimiento. ¿Hay alguna área de aplicación que haya encontrado realmente inesperada en relación con el funcionamiento de los transformadores y con lo que pueden hacer?
NOAM:
Solo inclino mi cabeza sobre el idioma, como si aquí tuvieras un problema y puedes hacer cualquier cosa. Espero que esto sea lo suficientemente bueno. Así que le pregunté, ¿cómo se cura el cáncer? Entonces es como inventar una solución. Entonces, he estado ignorando por completo lo que la gente está haciendo en todos estos otros modos, y creo que gran parte del éxito inicial en el aprendizaje profundo ha sido con imágenes, y la gente se entusiasma con las imágenes pero las ignora por completo. Porque una imagen vale más que mil palabras, pero tiene un millón de píxeles, por lo que el texto es mil veces más denso. Entonces, soy un gran fan literal. Pero es bastante emocionante verlo despegar de todas estas otras formas. Estas cosas son geniales. Es muy útil para crear productos que la gente quiera usar, pero creo que gran parte de la inteligencia central provendrá de estos modelos de texto.
Limitaciones de los modelos grandes: el poder de cómputo no es un problema, tampoco lo son los datos
VIVIR:
¿Cuáles cree que son las limitaciones de estos modelos? La gente a menudo habla de solo escalar, como si solo arrojara más poder de cómputo y esto se escalará aún más. Hay datos y diferentes tipos de datos que pueden o no estar allí. Y ajustes algorítmicos, y agregar cosas nuevas como memoria o loopbacks o algo así. ¿Cuáles cree que son las grandes cosas que la gente aún necesita construir y dónde cree que se está aprovechando como arquitectura?
NOAM:
Sí, no sé si se eliminará. Quiero decir, no lo hemos visto salir todavía. Probablemente nada comparado con la cantidad de trabajo que implica. Por lo tanto, es probable que haya todo tipo de ineficiencias que la gente obtiene con mejores algoritmos de entrenamiento, mejores arquitecturas de modelos, mejores formas de construir chips y usar la cuantificación y todo eso. Y luego habrá 10, 100 y 1,000 de factores como la escala y el dinero que la gente arrojará a esta cosa porque, bueno, todos se dieron cuenta de que esta cosa es increíblemente valiosa. Al mismo tiempo, no creo que nadie vea lo bueno que es esto para una pared. Así que creo que es solo que va a seguir mejorando. No lo sé y no sé qué lo detiene.
SARA:
¿Qué piensas de esta idea? Podemos aumentar la potencia informática, pero los datos de entrenamiento del modelo más grande no son suficientes. Hemos utilizado todos los datos de texto fácilmente disponibles en Internet. Tenemos que ir a mejorar la calidad, tenemos que ir a la retroalimentación humana. qué estás pensando.
NOAM:
Con 10 mil millones de personas, cada persona produce 1000 o 10 000 palabras, que es una gran cantidad de datos. Todos conversamos mucho con los sistemas de IA. Entonces, tengo la sensación de que una gran cantidad de datos van a entrar en algunos sistemas de inteligencia artificial, quiero decir, de una manera de preservar la privacidad, espero que los datos puedan ir. Luego, los requisitos de datos tienden a escalar exponencialmente con el poder de cómputo porque estás entrenando un modelo más grande y luego le estás arrojando más datos. No me preocupa la falta de datos, es posible que podamos generar más datos con IA.
VIVIR:
Entonces, ¿cuáles cree que son los principales problemas que estos modelos resolverán en el futuro? ¿Es una alucinación, un recuerdo o algo más?
NOAM:
No tengo ni idea. Me gustan las alucinaciones.
SARA:
Esta es también una característica.
NOAM:
Lo que más queremos hacer es recordar, porque nuestros usuarios definitivamente quieren que sus amigos virtuales los recuerden. Puede hacer mucho con la personalización, desea volcar una gran cantidad de datos y utilizarlos de manera efectiva. Se está trabajando mucho para tratar de descubrir qué es real y qué es alucinación. Por supuesto, creo que lo arreglaremos.
La historia empresarial de Character.ai
VIVIR:
Cuéntame un poco sobre LaMDA y tu papel en él, ¿cómo se te ocurrió Character?
NOAM:
Mi cofundador, Daniel Freitas, es el tipo más trabajador, inteligente y trabajador que he conocido. Lleva toda la vida trabajando en esta tarea de construir chatbots. Ha estado tratando de construir chatbots desde que era un niño. Así que se unió a Google Brain. Leyó algunos artículos y pensó que esta técnica de modelado del lenguaje neuronal era algo que realmente podía generalizarse y construir un campo realmente abierto.
Aunque no obtuvo el apoyo de mucha gente, solo tomó este proyecto como algo secundario y dedicó el 20% de su tiempo a él.
Luego reclutó un ejército del 20 por ciento de asistentes que lo ayudaron a configurar el sistema.
Incluso anda agarrando la cuota de TPU de otras personas, llama a su proyecto Mina porque le gusta, se le ocurrió en un sueño, supongo. En algún momento miré el marcador y pensé ¿qué es esta cosa llamada Mina, por qué tiene 30 puntos de TPU?
VIVIR:
LaMDA es así, sé que es un chatbot interno que Google hizo antes de GPT. La noticia se hizo famosa porque un ingeniero pensó que tenía sabiduría.
NOAM:
Sí, lo pusimos en algunos grandes modelos de lenguaje, y luego hubo un revuelo dentro de la empresa, y Mina pasó a llamarse LaMDA, y para entonces, nos habíamos ido, y había personas que creían que tenía vida.
SARA:
¿Por qué no se publicó más tarde y qué preocupaciones?
NOAM:
Para una gran empresa, lanzar un producto que lo sabe todo es un poco peligroso. Supongo que es sólo una cuestión de riesgo. Entonces, después de mucha deliberación, comenzar un negocio parecía la idea correcta.
SARA:
¿Cómo es la historia de origen del personaje?
NOAM:
Solo queremos construir algo y llevarlo al mercado lo más rápido posible. Formé un equipo punk de ingenieros, investigadores, obtuve algo de poder de cómputo y comencé un negocio.
VIVIR:
¿Cómo reclutas?
NOAM:
Algunos de los muchachos que conocimos en Google fueron presentados a Myat, que solía ser de Meta, y él implementó mucho y construyó muchas de sus cosas de modelo de lenguaje grande y su infraestructura de modelo de lenguaje neuronal, y algunas otras personas de Meta lo siguió, son muy simpáticos.
VIVIR:
¿Tiene requisitos específicos o métodos de prueba cuando busca talento? ¿O es solo una entrevista normal?
NOAM
Creo que depende en gran medida de la motivación. Creo que Daniel está muy centrado en la motivación, está buscando un estado entre un deseo fuerte y un sueño de la infancia, entonces hay mucha gente buena que no contratamos porque no llegan a ese nivel, pero también contratamos. mucha gente, son perfectos para unirse a una nueva empresa, son muy talentosos y motivados.
Ya hay Siri y Alexa en el mercado, no compitas de frente con las grandes empresas en términos de funcionalidad
SARA:
Hablando de sueños de infancia, ¿le gustaría describir este producto? Tienes estos bots, pueden ser creados por usuarios, pueden ser creados por personajes, pueden ser figuras públicas, figuras históricas, personajes ficticios, ¿cómo se te ocurrió este patrón?
NOAM:
Los usuarios a menudo saben mejor que usted lo que quieren hacer con esta cosa. ** Siri, Alexa y Google Assistant ya están en el mercado, no hay necesidad de competir con estas grandes empresas en funcionalidad. **
Si tratas de presentar una imagen pública que todos aman, terminas con nada más que aburrimiento. Y a la gente no le gusta aburrirse, quieren interactuar con cosas que se sienten como personas.
Así que, básicamente, tienes que hacer varios personajes y dejar que la gente invente los personajes que quiera, y hay algo que me gusta del nombre Personaje, que tiene varios significados diferentes: texto, personaje, personaje.
SARA:
Entonces, ¿qué quiere la gente? ¿un amigo? escribir una novela? ¿Algo más completamente nuevo?
NOAM:
Algunos usuarios chatearán con figuras públicas virtuales y personas influyentes en nuestros productos. Los usuarios pueden crear un personaje y hablar con él. Si bien algunos usuarios pueden sentirse solos y necesitar a alguien con quien hablar, muchos no tienen a nadie con quien hablar. Algunos dirían que este papel es ahora mi nuevo consejero.
SARA:
Dos formas de pensar en las emociones, ¿verdad? ¿Qué tan importante es la relación que las personas tienen con los personajes, o en qué nivel estamos cuando se trata de expresar emociones coherentes?
NOAM:
Sí, **Quiero decir que probablemente no necesites ese nivel intelectual de alto nivel para el apoyo emocional. Las emociones son geniales y muy importantes, pero un perro también puede hacer un gran trabajo de apoyo emocional. Los perros brindan un gran apoyo emocional pero tienen poca habilidad verbal, **
VIVIR:
¿Qué crees que sucede con el sistema cuando lo escalas?
NOAM:
Creo que deberíamos poder hacerlo más inteligente de varias maneras. Obtener más poder de cómputo, entrenar un modelo más grande y entrenar por más tiempo debería volverse más inteligente, más informado, mejor en lo que la gente quiere, lo que la gente está buscando.
SARA:
Tienes algunos usuarios que usan Character muchas horas al día. ¿Quién es tu público objetivo? ¿Cuál es su patrón de uso esperado?
NOAM:
Vamos a dejar que el usuario decida. Nuestro objetivo siempre ha sido sacar cosas y dejar que los usuarios decidan para qué creen que es bueno.
Vemos que las personas que están en el sitio web de Character hoy, el tiempo activo promedio es de dos horas. Este es quien envió el mensaje hoy, que es una locura pero significativo, y dice que las personas están encontrando algún tipo de valor.
Y luego, como dije, es muy difícil decir exactamente cuál es ese valor porque es realmente como una gran mezcla. Pero nuestro objetivo es hacer que esto sea más útil para que las personas lo personalicen y decidan qué quieren hacer con él. Pongámoslo en manos de los usuarios y veamos qué sucede.
Quemar dinero para escala TOC es la primera prioridad
SARA:
¿Cómo piensas en la comercialización?
NOAM:
**Perdemos dinero por usuario y lo compensamos con volumen. **
SARA:
bien. Esta es una buena estrategia.
NOAM:
No estoy bromeando.
VIVIR:
Como el modelo comercial tradicional de la década de 1990, así que está bien.
SARA:
Este es también un modelo de negocio para 2022.
VIVIR:
Debe emitir un token y convertirlo en una criptomoneda.
NOAM:
** Estaremos monetizando en algún momento pronto. Este es un negocio que se beneficia de una gran cantidad de poder de cómputo. En lugar de quemar el dinero de los inversores, esperamos brindar valor a suficientes usuarios y ganar dinero en el camino. Algunos servicios, como los tipos de suscripción premium, se pueden probar más tarde. A medida que desarrollamos algunas características nuevas, los cargos subsiguientes pueden aumentar de precio. **
VIVIR:
Quiero decir, Character como un servicio de TOC realmente despegó de una manera realmente dramática. Si miras la cantidad de usuarios y el tiempo de uso por usuario, es una locura. ¿Comenzará el negocio TOB en el futuro? ¿Como un robot de servicio al cliente?
NOAM:
En este momento tenemos 22 empleados, por lo que debemos priorizar y estamos contratando. La primera prioridad es TOC.
SARA:
Entonces dijiste que una de las razones clave por las que LaMDA no se lanzó de inmediato fue la seguridad. ¿Qué piensan ustedes?
NOAM:
Hay otras razones. Por ejemplo, Google no quiere que la gente se lastime a sí misma ni a otras personas, y necesita bloquear la pornografía. Ha habido algunas protestas en torno a esto.
VIVIR:
¿Crees que todo esto es el camino hacia AGI o superinteligencia? Para algunas empresas, esto parece ser parte del objetivo y para otras, no parece ser un objetivo explícito.
NOAM:
Sí, AGI es el objetivo de muchas nuevas empresas de IA. **La verdadera razón es que quiero impulsar la tecnología. Hay tantos problemas técnicos en el mundo que se pueden resolver, como enfermedades médicas intratables. Podemos llegar a soluciones técnicas. **
Por eso he estado investigando sobre inteligencia artificial**, porque en lugar de estudiar medicina directamente, es mejor estudiar inteligencia artificial, y luego la inteligencia artificial se puede usar para acelerar otros esfuerzos de investigación. Básicamente, es por eso que estoy trabajando tan duro en IA, quiero comenzar una empresa que sea primero AGI y primero el producto. **
Su producto depende completamente de la calidad de la IA. El mayor determinante de la calidad de nuestro producto es cuán inteligente va a ser. Así que ahora estamos totalmente motivados para mejorar la IA, mejorar los productos.
VIVIR:
Sí, es un ciclo de retroalimentación de compra realmente bueno porque cuando haces un producto mejor, más personas interactúan con él, lo que ayuda a mejorar el producto. Así que es un enfoque muy inteligente. ¿Qué tan lejos crees que estamos de una inteligencia artificial que sea tan inteligente o más inteligente que los humanos? Obviamente, ya son más inteligentes que los humanos en algunos aspectos, pero estaba pensando en algo así.
NOAM:
Siempre nos sorprenden las formas en que la inteligencia artificial puede superar a los humanos. Un poco de IA ahora puede hacer la tarea por ti. Ojalá hubiera tenido algo así cuando era niño.
VIVIR:
¿Qué consejo le darías a aquellos que tienen antecedentes similares a los tuyos? ¿Qué aprendiste como fundador que no necesariamente aprendiste cuando trabajabas en Google o en otro lugar?
NOAM:
buena pregunta. Básicamente, aprendes de tus horribles errores. Aunque no creo que hayamos cometido ningún error muy, muy grave, o al menos lo hayamos compensado.
SARA:
¿Qué tipo de talento estás buscando?
NOAM:
¿hasta ahora? 21 de los 22 son ingenieros. También contrataremos más ingenieros. Ya sea que se trate de aprendizaje profundo o front-end y back-end, asegúrese de contratar a más personas en el lado del negocio y del producto.
VIVIR:
Últimas dos o tres preguntas rápidas, ¿quién es tu matemático o informático favorito?
NOAM:
Trabajo mucho con Jeff Dean (jefe de Google Brain) en Google. Es muy agradable y divertido trabajar con él. Creo que ahora mismo está trabajando en su modelo de lenguaje grande. Es un poco lamentable dejar Google, y espero trabajar con él en el futuro.
VIVIR:
¿Crees que las matemáticas fueron inventadas o descubiertas?
NOAM:
Creo que tal vez se haya descubierto, tal vez se haya descubierto todo, y solo estamos descubriendo.
Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
¡22 personas valoradas en mil millones! Diálogo con el CEO de Character.ai: En lugar de estudiar medicina directamente, es mejor estudiar inteligencia artificial
A principios de este año, Charater.ai completó una ronda A de financiación de 150 millones de dólares, con una valoración de más de 1.000 millones de dólares, y fue ascendida a unicornio, con un equipo de solo 22 personas.
En abril, el CEO de Character.ai, Noam Shazeer, ex miembro del equipo de Google Brain, fue entrevistado por el podcast No Priors.
La siguiente es la transcripción textual del audio del podcast. ELAD y SARAH son los anfitriones del podcast. Para facilitar la comprensión, se han eliminado algunos pasajes.
Primeras experiencias laborales en Google y el nacimiento de Transformer
VIVIR:
Has trabajado en PNL e IA durante mucho tiempo. Trabajó en Google de forma intermitente durante 17 años, donde las preguntas de las entrevistas giraban en torno a soluciones de revisión ortográfica. Cuando me uní a Google, uno de los principales sistemas para la orientación de anuncios en ese momento era Phil Cluster, que creo que usted y George Herrick escribieron. Me gustaría saber sobre la historia de su trabajo en modelos de lenguaje de PNL para inteligencia artificial, cómo evolucionó todo esto, cómo comenzó, qué despertó su interés.
NOAM:
Gracias Elad. Sí, simplemente, siempre un atractivo natural para la IA. Esperemos que haga que la computadora haga algo inteligente. Parece ser el juego más divertido que existe. Tuve la suerte de descubrir Google desde el principio y participé en muchos de los primeros proyectos allí, tal vez ahora no lo llamarías inteligencia artificial. Desde 2012, me he unido al equipo de Google Brain. Haz cosas divertidas con un grupo de personas realmente inteligentes. Nunca antes había hecho aprendizaje profundo o redes neuronales.
VIVIR:
Fuiste uno de los participantes en el transformer paper en 2017, y luego participaste en el trabajo sobre Mesh-TensorFlow. ¿Puedes hablar un poco sobre cómo funciona todo esto?
NOAM:
El aprendizaje profundo tiene éxito porque se adapta muy bien al hardware moderno, y tiene esta generación de chips que, en la multiplicación de matrices y otras formas de cosas, requieren mucho cálculo en lugar de comunicación. Entonces, básicamente, el aprendizaje profundo realmente despegó, se está ejecutando miles de veces más rápido que cualquier otra cosa. Una vez que le cogí el tranquillo, empecé a diseñar cosas realmente inteligentes y rápidas. El problema más emocionante en este momento es el modelado del lenguaje. Debido a que hay una cantidad infinita de datos, simplemente raspe la red y podrá obtener todos los datos de entrenamiento que desee.
La definición del problema es muy simple, es predecir la siguiente palabra, el gato gordo se sienta en ella, cuál es la siguiente. Es muy fácil de definir, y si puedes hacerlo bien, entonces puedes obtener todo lo que ves ahora, y puedes hablar directamente con esta cosa, es realmente inteligencia artificial. Entonces, alrededor de 2015 más o menos, comencé a trabajar en el modelado del lenguaje y trabajar con redes neuronales recurrentes, que era lo mejor en ese momento. Entonces apareció el transformador.
Escuché a mis colegas de al lado charlando sobre querer reemplazar los RNN con algo mejor. Pensé, esto suena bien, quiero ayudar, los RNN son molestos, esto será más interesante.
VIVIR:
¿Puede describir rápidamente la diferencia entre una red neuronal recurrente y un transformador o un modelo basado en la atención?
NOAM:
Las redes neuronales recurrentes son cálculos continuos, de cada palabra que lees a la siguiente palabra, calculas tu estado cerebral actual en función del estado anterior de tu cerebro y el contenido de la siguiente palabra. Entonces tú, predices la siguiente palabra. Entonces, tiene esta secuencia muy larga de cálculos que deben realizarse secuencialmente y, por lo tanto, la magia del Transformador es que puede procesar toda la secuencia a la vez.
La predicción de la siguiente palabra depende de cuál fue la palabra anterior, pero sucede en un paso constante, y puede aprovechar este paralelismo, puede ver todo a la vez, como el paralelismo en el que el hardware moderno es bueno. .
Ahora puedes aprovechar la longitud de la secuencia, su paralelismo y todo funciona muy bien. la atención misma. Es como si estuvieras creando esta gran asociación clave-valor en memoria, estás construyendo esta gran tabla con una entrada para cada palabra en la secuencia. Luego buscas cosas en esta mesa. Es todo como difuso, diferenciador y una gran función francesa a través de la cual puedes hacer lo contrario. La gente ha estado usando esto para problemas con dos secuencias, donde tiene traducción automática y es como traducir del inglés al francés, así que cuando genera la secuencia en francés, es como mirar la secuencia en inglés y tratar de prestar atención a la posición correcta en la secuencia. Pero la idea aquí es que puedes usar esa misma atención para mirar hacia atrás en el pasado de esta secuencia que estás tratando de hacer. La mosca en el ungüento es que funciona bien en GPU y GPU, lo que es paralelo al desarrollo del aprendizaje profundo porque funciona bien en el hardware existente. Y eso trae lo mismo a las secuencias.
SARA:
Sí, creo que el ejemplo clásico de ayudar a las personas a visualizarlo es decir la misma oración en francés e inglés, el orden de las palabras es diferente, no eres un mapeo uno a uno en esa secuencia y descubrir cómo hacer eso sin la información Hacer esto con cálculo paralelo en caso de pérdida. Así que es como algo muy elegante de hacer.
VIVIR:
También parece que la técnica se está utilizando en una variedad de campos diferentes. Claramente estos son modelos de lenguaje multimodal. Entonces es como chatear GPT o un personaje que estás haciendo. También me han sorprendido algunas aplicaciones como Alpha Folding, el trabajo de plegado de proteínas que hizo Google, en realidad funciona con un gran rendimiento. ¿Hay alguna área de aplicación que haya encontrado realmente inesperada en relación con el funcionamiento de los transformadores y con lo que pueden hacer?
NOAM:
Solo inclino mi cabeza sobre el idioma, como si aquí tuvieras un problema y puedes hacer cualquier cosa. Espero que esto sea lo suficientemente bueno. Así que le pregunté, ¿cómo se cura el cáncer? Entonces es como inventar una solución. Entonces, he estado ignorando por completo lo que la gente está haciendo en todos estos otros modos, y creo que gran parte del éxito inicial en el aprendizaje profundo ha sido con imágenes, y la gente se entusiasma con las imágenes pero las ignora por completo. Porque una imagen vale más que mil palabras, pero tiene un millón de píxeles, por lo que el texto es mil veces más denso. Entonces, soy un gran fan literal. Pero es bastante emocionante verlo despegar de todas estas otras formas. Estas cosas son geniales. Es muy útil para crear productos que la gente quiera usar, pero creo que gran parte de la inteligencia central provendrá de estos modelos de texto.
Limitaciones de los modelos grandes: el poder de cómputo no es un problema, tampoco lo son los datos
VIVIR:
¿Cuáles cree que son las limitaciones de estos modelos? La gente a menudo habla de solo escalar, como si solo arrojara más poder de cómputo y esto se escalará aún más. Hay datos y diferentes tipos de datos que pueden o no estar allí. Y ajustes algorítmicos, y agregar cosas nuevas como memoria o loopbacks o algo así. ¿Cuáles cree que son las grandes cosas que la gente aún necesita construir y dónde cree que se está aprovechando como arquitectura?
NOAM:
Sí, no sé si se eliminará. Quiero decir, no lo hemos visto salir todavía. Probablemente nada comparado con la cantidad de trabajo que implica. Por lo tanto, es probable que haya todo tipo de ineficiencias que la gente obtiene con mejores algoritmos de entrenamiento, mejores arquitecturas de modelos, mejores formas de construir chips y usar la cuantificación y todo eso. Y luego habrá 10, 100 y 1,000 de factores como la escala y el dinero que la gente arrojará a esta cosa porque, bueno, todos se dieron cuenta de que esta cosa es increíblemente valiosa. Al mismo tiempo, no creo que nadie vea lo bueno que es esto para una pared. Así que creo que es solo que va a seguir mejorando. No lo sé y no sé qué lo detiene.
SARA:
¿Qué piensas de esta idea? Podemos aumentar la potencia informática, pero los datos de entrenamiento del modelo más grande no son suficientes. Hemos utilizado todos los datos de texto fácilmente disponibles en Internet. Tenemos que ir a mejorar la calidad, tenemos que ir a la retroalimentación humana. qué estás pensando.
NOAM:
Con 10 mil millones de personas, cada persona produce 1000 o 10 000 palabras, que es una gran cantidad de datos. Todos conversamos mucho con los sistemas de IA. Entonces, tengo la sensación de que una gran cantidad de datos van a entrar en algunos sistemas de inteligencia artificial, quiero decir, de una manera de preservar la privacidad, espero que los datos puedan ir. Luego, los requisitos de datos tienden a escalar exponencialmente con el poder de cómputo porque estás entrenando un modelo más grande y luego le estás arrojando más datos. No me preocupa la falta de datos, es posible que podamos generar más datos con IA.
VIVIR:
Entonces, ¿cuáles cree que son los principales problemas que estos modelos resolverán en el futuro? ¿Es una alucinación, un recuerdo o algo más?
NOAM:
No tengo ni idea. Me gustan las alucinaciones.
SARA:
Esta es también una característica.
NOAM:
Lo que más queremos hacer es recordar, porque nuestros usuarios definitivamente quieren que sus amigos virtuales los recuerden. Puede hacer mucho con la personalización, desea volcar una gran cantidad de datos y utilizarlos de manera efectiva. Se está trabajando mucho para tratar de descubrir qué es real y qué es alucinación. Por supuesto, creo que lo arreglaremos.
La historia empresarial de Character.ai
VIVIR:
Cuéntame un poco sobre LaMDA y tu papel en él, ¿cómo se te ocurrió Character?
NOAM:
Mi cofundador, Daniel Freitas, es el tipo más trabajador, inteligente y trabajador que he conocido. Lleva toda la vida trabajando en esta tarea de construir chatbots. Ha estado tratando de construir chatbots desde que era un niño. Así que se unió a Google Brain. Leyó algunos artículos y pensó que esta técnica de modelado del lenguaje neuronal era algo que realmente podía generalizarse y construir un campo realmente abierto.
Aunque no obtuvo el apoyo de mucha gente, solo tomó este proyecto como algo secundario y dedicó el 20% de su tiempo a él.
Luego reclutó un ejército del 20 por ciento de asistentes que lo ayudaron a configurar el sistema.
Incluso anda agarrando la cuota de TPU de otras personas, llama a su proyecto Mina porque le gusta, se le ocurrió en un sueño, supongo. En algún momento miré el marcador y pensé ¿qué es esta cosa llamada Mina, por qué tiene 30 puntos de TPU?
VIVIR:
LaMDA es así, sé que es un chatbot interno que Google hizo antes de GPT. La noticia se hizo famosa porque un ingeniero pensó que tenía sabiduría.
NOAM:
Sí, lo pusimos en algunos grandes modelos de lenguaje, y luego hubo un revuelo dentro de la empresa, y Mina pasó a llamarse LaMDA, y para entonces, nos habíamos ido, y había personas que creían que tenía vida.
SARA:
¿Por qué no se publicó más tarde y qué preocupaciones?
NOAM:
Para una gran empresa, lanzar un producto que lo sabe todo es un poco peligroso. Supongo que es sólo una cuestión de riesgo. Entonces, después de mucha deliberación, comenzar un negocio parecía la idea correcta.
SARA:
¿Cómo es la historia de origen del personaje?
NOAM:
Solo queremos construir algo y llevarlo al mercado lo más rápido posible. Formé un equipo punk de ingenieros, investigadores, obtuve algo de poder de cómputo y comencé un negocio.
VIVIR:
¿Cómo reclutas?
NOAM:
Algunos de los muchachos que conocimos en Google fueron presentados a Myat, que solía ser de Meta, y él implementó mucho y construyó muchas de sus cosas de modelo de lenguaje grande y su infraestructura de modelo de lenguaje neuronal, y algunas otras personas de Meta lo siguió, son muy simpáticos.
VIVIR:
¿Tiene requisitos específicos o métodos de prueba cuando busca talento? ¿O es solo una entrevista normal?
NOAM
Creo que depende en gran medida de la motivación. Creo que Daniel está muy centrado en la motivación, está buscando un estado entre un deseo fuerte y un sueño de la infancia, entonces hay mucha gente buena que no contratamos porque no llegan a ese nivel, pero también contratamos. mucha gente, son perfectos para unirse a una nueva empresa, son muy talentosos y motivados.
Ya hay Siri y Alexa en el mercado, no compitas de frente con las grandes empresas en términos de funcionalidad
SARA:
Hablando de sueños de infancia, ¿le gustaría describir este producto? Tienes estos bots, pueden ser creados por usuarios, pueden ser creados por personajes, pueden ser figuras públicas, figuras históricas, personajes ficticios, ¿cómo se te ocurrió este patrón?
NOAM:
Los usuarios a menudo saben mejor que usted lo que quieren hacer con esta cosa. ** Siri, Alexa y Google Assistant ya están en el mercado, no hay necesidad de competir con estas grandes empresas en funcionalidad. **
Si tratas de presentar una imagen pública que todos aman, terminas con nada más que aburrimiento. Y a la gente no le gusta aburrirse, quieren interactuar con cosas que se sienten como personas.
Así que, básicamente, tienes que hacer varios personajes y dejar que la gente invente los personajes que quiera, y hay algo que me gusta del nombre Personaje, que tiene varios significados diferentes: texto, personaje, personaje.
SARA:
Entonces, ¿qué quiere la gente? ¿un amigo? escribir una novela? ¿Algo más completamente nuevo?
NOAM:
Algunos usuarios chatearán con figuras públicas virtuales y personas influyentes en nuestros productos. Los usuarios pueden crear un personaje y hablar con él. Si bien algunos usuarios pueden sentirse solos y necesitar a alguien con quien hablar, muchos no tienen a nadie con quien hablar. Algunos dirían que este papel es ahora mi nuevo consejero.
SARA:
Dos formas de pensar en las emociones, ¿verdad? ¿Qué tan importante es la relación que las personas tienen con los personajes, o en qué nivel estamos cuando se trata de expresar emociones coherentes?
NOAM:
Sí, **Quiero decir que probablemente no necesites ese nivel intelectual de alto nivel para el apoyo emocional. Las emociones son geniales y muy importantes, pero un perro también puede hacer un gran trabajo de apoyo emocional. Los perros brindan un gran apoyo emocional pero tienen poca habilidad verbal, **
VIVIR:
¿Qué crees que sucede con el sistema cuando lo escalas?
NOAM:
Creo que deberíamos poder hacerlo más inteligente de varias maneras. Obtener más poder de cómputo, entrenar un modelo más grande y entrenar por más tiempo debería volverse más inteligente, más informado, mejor en lo que la gente quiere, lo que la gente está buscando.
SARA:
Tienes algunos usuarios que usan Character muchas horas al día. ¿Quién es tu público objetivo? ¿Cuál es su patrón de uso esperado?
NOAM:
Vamos a dejar que el usuario decida. Nuestro objetivo siempre ha sido sacar cosas y dejar que los usuarios decidan para qué creen que es bueno.
Vemos que las personas que están en el sitio web de Character hoy, el tiempo activo promedio es de dos horas. Este es quien envió el mensaje hoy, que es una locura pero significativo, y dice que las personas están encontrando algún tipo de valor.
Y luego, como dije, es muy difícil decir exactamente cuál es ese valor porque es realmente como una gran mezcla. Pero nuestro objetivo es hacer que esto sea más útil para que las personas lo personalicen y decidan qué quieren hacer con él. Pongámoslo en manos de los usuarios y veamos qué sucede.
Quemar dinero para escala TOC es la primera prioridad
SARA:
¿Cómo piensas en la comercialización?
NOAM:
**Perdemos dinero por usuario y lo compensamos con volumen. **
SARA:
bien. Esta es una buena estrategia.
NOAM:
No estoy bromeando.
VIVIR:
Como el modelo comercial tradicional de la década de 1990, así que está bien.
SARA:
Este es también un modelo de negocio para 2022.
VIVIR:
Debe emitir un token y convertirlo en una criptomoneda.
NOAM:
** Estaremos monetizando en algún momento pronto. Este es un negocio que se beneficia de una gran cantidad de poder de cómputo. En lugar de quemar el dinero de los inversores, esperamos brindar valor a suficientes usuarios y ganar dinero en el camino. Algunos servicios, como los tipos de suscripción premium, se pueden probar más tarde. A medida que desarrollamos algunas características nuevas, los cargos subsiguientes pueden aumentar de precio. **
VIVIR:
Quiero decir, Character como un servicio de TOC realmente despegó de una manera realmente dramática. Si miras la cantidad de usuarios y el tiempo de uso por usuario, es una locura. ¿Comenzará el negocio TOB en el futuro? ¿Como un robot de servicio al cliente?
NOAM:
En este momento tenemos 22 empleados, por lo que debemos priorizar y estamos contratando. La primera prioridad es TOC.
SARA:
Entonces dijiste que una de las razones clave por las que LaMDA no se lanzó de inmediato fue la seguridad. ¿Qué piensan ustedes?
NOAM:
Hay otras razones. Por ejemplo, Google no quiere que la gente se lastime a sí misma ni a otras personas, y necesita bloquear la pornografía. Ha habido algunas protestas en torno a esto.
VIVIR:
¿Crees que todo esto es el camino hacia AGI o superinteligencia? Para algunas empresas, esto parece ser parte del objetivo y para otras, no parece ser un objetivo explícito.
NOAM:
Sí, AGI es el objetivo de muchas nuevas empresas de IA. **La verdadera razón es que quiero impulsar la tecnología. Hay tantos problemas técnicos en el mundo que se pueden resolver, como enfermedades médicas intratables. Podemos llegar a soluciones técnicas. **
Por eso he estado investigando sobre inteligencia artificial**, porque en lugar de estudiar medicina directamente, es mejor estudiar inteligencia artificial, y luego la inteligencia artificial se puede usar para acelerar otros esfuerzos de investigación. Básicamente, es por eso que estoy trabajando tan duro en IA, quiero comenzar una empresa que sea primero AGI y primero el producto. **
Su producto depende completamente de la calidad de la IA. El mayor determinante de la calidad de nuestro producto es cuán inteligente va a ser. Así que ahora estamos totalmente motivados para mejorar la IA, mejorar los productos.
VIVIR:
Sí, es un ciclo de retroalimentación de compra realmente bueno porque cuando haces un producto mejor, más personas interactúan con él, lo que ayuda a mejorar el producto. Así que es un enfoque muy inteligente. ¿Qué tan lejos crees que estamos de una inteligencia artificial que sea tan inteligente o más inteligente que los humanos? Obviamente, ya son más inteligentes que los humanos en algunos aspectos, pero estaba pensando en algo así.
NOAM:
Siempre nos sorprenden las formas en que la inteligencia artificial puede superar a los humanos. Un poco de IA ahora puede hacer la tarea por ti. Ojalá hubiera tenido algo así cuando era niño.
VIVIR:
¿Qué consejo le darías a aquellos que tienen antecedentes similares a los tuyos? ¿Qué aprendiste como fundador que no necesariamente aprendiste cuando trabajabas en Google o en otro lugar?
NOAM:
buena pregunta. Básicamente, aprendes de tus horribles errores. Aunque no creo que hayamos cometido ningún error muy, muy grave, o al menos lo hayamos compensado.
SARA:
¿Qué tipo de talento estás buscando?
NOAM:
¿hasta ahora? 21 de los 22 son ingenieros. También contrataremos más ingenieros. Ya sea que se trate de aprendizaje profundo o front-end y back-end, asegúrese de contratar a más personas en el lado del negocio y del producto.
VIVIR:
Últimas dos o tres preguntas rápidas, ¿quién es tu matemático o informático favorito?
NOAM:
Trabajo mucho con Jeff Dean (jefe de Google Brain) en Google. Es muy agradable y divertido trabajar con él. Creo que ahora mismo está trabajando en su modelo de lenguaje grande. Es un poco lamentable dejar Google, y espero trabajar con él en el futuro.
VIVIR:
¿Crees que las matemáticas fueron inventadas o descubiertas?
NOAM:
Creo que tal vez se haya descubierto, tal vez se haya descubierto todo, y solo estamos descubriendo.