El costo de entrenamiento y ejecución de los modelos grandes es extremadamente alto, y OpenAI también ha intentado reducir los costos, pero desafortunadamente fracasó.
A finales del año pasado, cuando ChatGPT se convirtió en una sensación mundial, los ingenieros de OpenAI comenzaron a trabajar en un nuevo modelo de IA, cuyo nombre en clave es Arrakis. Arrakis tiene como objetivo permitir que OpenAI ejecute chatbots a un costo menor.
Pero según personas familiarizadas con el asunto: a mediados de 2023, OpenAI canceló el lanzamiento de Arrakis porque el modelo no está funcionando tan eficientemente como esperaba la compañía.
Este fracaso significó que OpenAI perdió un tiempo valioso y tuvo que desviar recursos para desarrollar diferentes modelos.
Para la coinversión, el programa de investigación y desarrollo de Arrakis será invaluable para que las dos compañías completen las negociaciones de inversión y acuerdos de productos de 10 mil millones de dólares. Según un empleado de Microsoft familiarizado con el asunto, el fracaso de Arrakis decepcionó a algunos ejecutivos de Microsoft.
Además, el fracaso de Arrakis es un presagio del futuro de la IA que podría estar plagado de escollos difíciles de predecir.
¿Qué tipo de modelo es Arrakis? **
Según personas familiarizadas con el asunto, OpenAI espera que Arrakis sea un modelo con un rendimiento comparable y una mayor eficiencia operativa que GPT-4. El enfoque clave utilizado en el modelo de Arrakis es aprovechar la escasez.
Sparsity es un concepto de aprendizaje automático que otros desarrolladores de IA, como Google, también discuten y utilizan abiertamente. El ejecutivo de Google, Jeff Dean, ha dicho: "La computación dispersa se convertirá en una tendencia importante en el futuro".
OpenAI comenzó a investigar sobre la dispersión desde el principio, e introdujeron kernels de computación dispersa en 2017. Arrakis podría haber permitido a OpenAI promover su tecnología más ampliamente porque la compañía podría usar un número limitado de chips de servidor dedicado para alimentar su software.
Actualmente, una forma común de aumentar la dispersión es con la ayuda de la tecnología de "sistemas expertos híbridos (MoE)". Sin embargo, Ion Stoica, profesor de ciencias de la computación en la Universidad de California, Berkeley, ha dicho: "En general, cuanto mayor sea el número de modelos expertos, más escaso y eficiente será el modelo, pero puede conducir a resultados menos precisos generados por el modelo".
Alrededor de la primavera de este año, los investigadores de OpenAI comenzaron a entrenar modelos Arrakis, que implican el uso de hardware informático avanzado para ayudar a los modelos a procesar grandes cantidades de datos. Según personas familiarizadas con el asunto, la compañía espera que entrenar a Arrakis sea mucho más barato que entrenar GPT-4. Sin embargo, el equipo de investigación pronto se dio cuenta de que el modelo no estaba funcionando lo suficientemente bien como para lograr las ganancias esperadas. Después de que el equipo de investigación pasara alrededor de un mes tratando de resolver el problema, la alta dirección de OpenAI decidió dejar de entrenar el modelo.
La buena noticia es que OpenAI puede integrar su trabajo en Arrakis en otros modelos, como el próximo modelo multimodal de gran tamaño Gobi.
Arrakis no cumplió con las expectativas de OpenAI porque la compañía está tratando de mejorar la dispersión del modelo, lo que significa que solo una parte del modelo se utilizará para generar respuestas, reduciendo los costos de funcionamiento, dijeron dos personas familiarizadas con el asunto. Se desconoce la razón por la que el modelo funcionó en las primeras pruebas, pero luego funcionó mal.
Cabe mencionar que personas familiarizadas con el asunto dijeron que el nombre público de OpenAI considerado para Arrakis es GPT-4 Turbo.
**¿Qué tan importante es reducir costos? **
Para OpenAI, con la creciente preocupación por el coste de la tecnología y la proliferación de alternativas de código abierto, hacer que sus modelos sean más baratos y eficientes es una prioridad absoluta.
Según personas familiarizadas con el asunto, Microsoft utiliza el modelo GPT de OpenAI para impulsar las funciones de IA en las aplicaciones de Office 365 y otros servicios, y Microsoft esperaba que Arrakis mejorara el rendimiento de esas funciones y redujera los costos.
Al mismo tiempo, Microsoft está empezando a desarrollar su propio LLM, y su LLM puede costar menos que el modelo de OpenAI.
Aunque este revés no ha frenado el desarrollo comercial de OpenAI este año, también es probable que OpenAI disminuya en este camino con el aumento de la competencia en el campo de LLM, especialmente la investigación y el desarrollo acelerados de gigantes tecnológicos como Google y Microsoft.
Enlace original:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
El desarrollo de nuevos modelos de OpenAI se ha visto frustrado, ¿es la dispersión la clave para reducir el coste de los modelos grandes?
Fuente original: Heart of the Machine
El costo de entrenamiento y ejecución de los modelos grandes es extremadamente alto, y OpenAI también ha intentado reducir los costos, pero desafortunadamente fracasó.
A finales del año pasado, cuando ChatGPT se convirtió en una sensación mundial, los ingenieros de OpenAI comenzaron a trabajar en un nuevo modelo de IA, cuyo nombre en clave es Arrakis. Arrakis tiene como objetivo permitir que OpenAI ejecute chatbots a un costo menor.
Pero según personas familiarizadas con el asunto: a mediados de 2023, OpenAI canceló el lanzamiento de Arrakis porque el modelo no está funcionando tan eficientemente como esperaba la compañía.
Para la coinversión, el programa de investigación y desarrollo de Arrakis será invaluable para que las dos compañías completen las negociaciones de inversión y acuerdos de productos de 10 mil millones de dólares. Según un empleado de Microsoft familiarizado con el asunto, el fracaso de Arrakis decepcionó a algunos ejecutivos de Microsoft.
Además, el fracaso de Arrakis es un presagio del futuro de la IA que podría estar plagado de escollos difíciles de predecir.
¿Qué tipo de modelo es Arrakis? **
Según personas familiarizadas con el asunto, OpenAI espera que Arrakis sea un modelo con un rendimiento comparable y una mayor eficiencia operativa que GPT-4. El enfoque clave utilizado en el modelo de Arrakis es aprovechar la escasez.
Sparsity es un concepto de aprendizaje automático que otros desarrolladores de IA, como Google, también discuten y utilizan abiertamente. El ejecutivo de Google, Jeff Dean, ha dicho: "La computación dispersa se convertirá en una tendencia importante en el futuro".
OpenAI comenzó a investigar sobre la dispersión desde el principio, e introdujeron kernels de computación dispersa en 2017. Arrakis podría haber permitido a OpenAI promover su tecnología más ampliamente porque la compañía podría usar un número limitado de chips de servidor dedicado para alimentar su software.
Actualmente, una forma común de aumentar la dispersión es con la ayuda de la tecnología de "sistemas expertos híbridos (MoE)". Sin embargo, Ion Stoica, profesor de ciencias de la computación en la Universidad de California, Berkeley, ha dicho: "En general, cuanto mayor sea el número de modelos expertos, más escaso y eficiente será el modelo, pero puede conducir a resultados menos precisos generados por el modelo".
Alrededor de la primavera de este año, los investigadores de OpenAI comenzaron a entrenar modelos Arrakis, que implican el uso de hardware informático avanzado para ayudar a los modelos a procesar grandes cantidades de datos. Según personas familiarizadas con el asunto, la compañía espera que entrenar a Arrakis sea mucho más barato que entrenar GPT-4. Sin embargo, el equipo de investigación pronto se dio cuenta de que el modelo no estaba funcionando lo suficientemente bien como para lograr las ganancias esperadas. Después de que el equipo de investigación pasara alrededor de un mes tratando de resolver el problema, la alta dirección de OpenAI decidió dejar de entrenar el modelo.
La buena noticia es que OpenAI puede integrar su trabajo en Arrakis en otros modelos, como el próximo modelo multimodal de gran tamaño Gobi.
Arrakis no cumplió con las expectativas de OpenAI porque la compañía está tratando de mejorar la dispersión del modelo, lo que significa que solo una parte del modelo se utilizará para generar respuestas, reduciendo los costos de funcionamiento, dijeron dos personas familiarizadas con el asunto. Se desconoce la razón por la que el modelo funcionó en las primeras pruebas, pero luego funcionó mal.
Cabe mencionar que personas familiarizadas con el asunto dijeron que el nombre público de OpenAI considerado para Arrakis es GPT-4 Turbo.
**¿Qué tan importante es reducir costos? **
Para OpenAI, con la creciente preocupación por el coste de la tecnología y la proliferación de alternativas de código abierto, hacer que sus modelos sean más baratos y eficientes es una prioridad absoluta.
Según personas familiarizadas con el asunto, Microsoft utiliza el modelo GPT de OpenAI para impulsar las funciones de IA en las aplicaciones de Office 365 y otros servicios, y Microsoft esperaba que Arrakis mejorara el rendimiento de esas funciones y redujera los costos.
Al mismo tiempo, Microsoft está empezando a desarrollar su propio LLM, y su LLM puede costar menos que el modelo de OpenAI.
Aunque este revés no ha frenado el desarrollo comercial de OpenAI este año, también es probable que OpenAI disminuya en este camino con el aumento de la competencia en el campo de LLM, especialmente la investigación y el desarrollo acelerados de gigantes tecnológicos como Google y Microsoft.
Enlace original: