GPT-4 es demasiado caro, ¿Microsoft quiere deshacerse de OpenAI? Plan B revelado: miles de GPU dedicadas a entrenar "modelos pequeños", comienzan las pruebas internas de Bing

Question

**Fuente:**Xinzhiyuan**Introducción: **GPT-4 es demasiado exigente desde el punto de vista computacional y se descubrió que Microsoft había formulado el Plan B internamente para entrenar modelos más pequeños y de menor costo para deshacerse de OpenAI.¡GPT-4 es tan exigente desde el punto de vista computacional que ni siquiera Microsoft puede soportarlo!Este año, en numerosas conferencias de inteligencia artificial de Microsoft, el CEO Nadella anunció con entusiasmo la integración de GPT-4 y DALL·E 3 en el “Family Bucket” de Microsoft.Toda la gama de productos de Microsoft ha sido remodelada según el modelo OpenAI, con la visión de hacer de la IA un compañero de vida para todos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4c49bfb880-dd1a6f-6d2ef1) Sin embargo, detrás de escena, debido a que el costo de funcionamiento de GPT-4 era demasiado alto, Microsoft desarrolló silenciosamente el plan B.The Information dio la noticia exclusivamente de que para deshacerse de la dependencia de OpenAI, algunos miembros del equipo de investigación de 1.500 personas dirigido por Peter Lee recurrieron al desarrollo de una nueva IA conversacional.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0055965f75-dd1a6f-6d2ef1) Se dice que el rendimiento del modelo desarrollado puede no ser tan bueno como el del GPT-4, pero la escala de parámetros es pequeña, el costo de investigación es menor y la velocidad de carrera es más rápida.Actualmente, Microsoft ha lanzado pruebas internas en productos como Bing Chat.No sólo Microsoft, sino también otros gigantes tecnológicos, incluido Google, están encontrando otras formas de ahorrar costos tanto en software como en chips de chat de IA.La cooperación entre Microsoft y Meta cuando se anunció Llama 2 no era más que un medio para deshacerse de depender completamente de OpenAI.Este es el camino que el imperio Microsoft está destinado a tomar a medida que continúa creciendo y superando sus limitaciones actuales.## **Modelos más "refinados", deberías probarlos primero**En febrero de este año, Microsoft lanzó oficialmente New Bing, que combina ChatGPT y su propio modelo Prometheus.Después del anuncio de GPT-4, Microsoft anunció inmediatamente que GPT-4 se integraría en Bing, llevando la experiencia de búsqueda a un nuevo nivel.El director de búsqueda de Microsoft, Mikhail Parakhin, dijo recientemente que Bing Chat actualmente utiliza 100% GPT-4 en modos "creativos" y "precisos".En modo equilibrado (el modo seleccionado por la mayoría de los usuarios), Microsoft utiliza el modelo Prometheus y los modelos de lenguaje Turing como complementos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5877711f34-dd1a6f-6d2ef1) El modelo Prometheus es una colección de habilidades y técnicas. El modelo de Turing no es tan poderoso como GPT-4 y está diseñado para identificar y responder preguntas simples y pasar preguntas más difíciles a GPT-4.Dentro de Microsoft, la mayoría de las 2.000 GPU que tiene disponibles se han invertido en la formación de "modelos pequeños". Por supuesto, esto palidece en comparación con la cantidad de chips que Microsoft proporciona a OpenAI.Sin embargo, estos modelos pueden realizar tareas más simples que GPT-4 y son los esfuerzos de Microsoft por romper el hielo.## **Rompe los grilletes de OpenAI**A lo largo de los años, Microsoft y OpenAI han mantenido vínculos inextricables.Sin embargo, con el lanzamiento de ChatGPT, Microsoft Bing y otros grupos familiares, Microsoft y OpenAI también comenzaron a competir en secreto por el mercado.Aunque los esfuerzos de Microsoft aún se encuentran en las primeras etapas, Nadella está liderando los esfuerzos de Microsoft para abrir un camino para sus propios productos de IA que no dependan completamente de OpenAI.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fb31a006b2-dd1a6f-6d2ef1) "Esto sucederá eventualmente", dijo el ejecutivo de Databricks, Naveen Rao, sobre los esfuerzos internos de IA de Microsoft."Microsoft es una empresa inteligente. Cuando implementas productos utilizando el modelo gigante GPT-4, quieren eficiencia. Es como decir, no necesitamos una persona con tres doctorados para ser operador telefónico. No es económicamente viable".Sin embargo, Nadella y el director de investigación Peter Lee esperan desarrollar una IA compleja sin OpenAI, lo que probablemente sea sólo una ilusión.Desde que Microsoft invirtió en OpenAI, el departamento de investigación del gigante ha dedicado la mayor parte de su tiempo a ajustar los modelos de OpenAI para hacerlos adecuados para los productos de Microsoft, en lugar de desarrollar sus propios modelos.El equipo de investigación de Microsoft no se hace ilusiones de que pueda desarrollar una IA tan poderosa como GPT-4.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6ba0e881b-dd1a6f-6d2ef1) Saben claramente que no tienen los recursos informáticos de OpenAI, ni tienen una gran cantidad de revisores humanos que retroalimenten las preguntas respondidas por LLM para que los ingenieros puedan mejorar el modelo.El departamento de investigación también ha estado perdiendo talento durante el año pasado, con varias oleadas de salidas de investigadores, incluidos algunos que se trasladaron a equipos de productos dentro de Microsoft.Para la propia Microsoft, desarrollar un LLM de alta calidad sin la ayuda de OpenAI puede ganar más puntos de negociación cuando las dos empresas discutan la renovación de su asociación en los próximos años.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-59dbef7071-dd1a6f-6d2ef1) Peter Lee, director de investigación de IA de MicrosoftEn la actualidad, las dos transacciones son beneficiosas para ambas partes.Microsoft invirtió más de 10 mil millones de dólares en OpenAI y, a cambio, tendrá el derecho exclusivo de utilizar permanentemente la propiedad intelectual existente de OpenAI en los productos de Microsoft.Además, Microsoft recibirá el 75% de los ingresos operativos teóricos de OpenAI hasta que se reembolse su inversión inicial, y recibirá el 49% de las ganancias hasta que se alcance un determinado límite.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8000d07f58-dd1a6f-6d2ef1) Ahora, Microsoft espera agregar al menos 10 mil millones de dólares en nuevos ingresos durante un período incierto a través de alianzas existentes con OpenAI y otras empresas de IA.Office 365 Family Bucket ha mostrado signos tempranos de crecimiento de ingresos después de recibir la bendición de las capacidades GPT-4.Microsoft también dijo en julio que más de 27.000 empresas habían pagado por la herramienta de escritura de códigos GitHub Copilot.Según las estadísticas de Statista, además de que los servicios en la nube de Microsoft tendrán la mayor proporción en 2023, la participación en los ingresos de los productos de software que aceleran los procesos comerciales de productividad también está aumentando gradualmente.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b84b734da9-dd1a6f-6d2ef1) Sin embargo, la ironía es que los términos de la transacción entre Microsoft y OpenAI también ayudan indirectamente a Microsoft a esforzarse por deshacerse de su dependencia de OpenAI.Cuando los usuarios usan Bing, Microsoft puede acceder a los resultados generados por el modelo OpenAI.Actualmente, Microsoft está utilizando estos datos para crear modelos más "refinados". Los hallazgos de investigadores internos muestran que estos modelos pueden producir resultados similares con menos recursos computacionales.## **Exploración de "modelos pequeños"**Después de pasar un año a la sombra de OpenAI, algunos investigadores de Microsoft han encontrado un nuevo objetivo: crear un modelo "destilado" que imite GPT-4.En junio de este año, Microsoft entrenó un modelo que consume sólo una décima parte de la potencia informática del GPT-4: Orca.Para crear Orca, Microsoft introdujo millones de respuestas generadas por GPT-4 en un modelo de código abierto más básico y le enseñó a imitar GPT-4.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8fe8412ac8-dd1a6f-6d2ef1) Dirección del papel:Los resultados muestran que Orca no solo supera a otros modelos de ajuste fino de instrucciones SOTA, sino que también logra el doble de rendimiento que Vicuña-13B en puntos de referencia complejos de inferencia de disparo cero como BigBench Hard (BBH).Además, Orca logra un desempeño a la par con ChatGPT en el punto de referencia BBH, con solo una brecha de desempeño del 4% en exámenes profesionales y académicos como SAT, LSAT, GRE y GMAT, todos medidos en un entorno de muestra cero sin encadenamiento de pensamientos. .![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-13fcf56d26-dd1a6f-6d2ef1)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-81632349c6-dd1a6f-6d2ef1) Incluso, en algunos casos, el rendimiento de Orca es comparable al de la versión gratuita ChatGPT de OpenAI.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-efcf7b9936-dd1a6f-6d2ef1) Asimismo, Microsoft también anunció un modelo con parámetros inferiores a una milésima parte de GPT-4-phi-1.Debido al uso de datos de entrenamiento de alta calidad "a nivel de libro de texto", la competencia de phi-1 en problemas matemáticos y lógicos es nada menos que cinco veces mayor que la de su modelo de código abierto.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5bfb5b8af7-dd1a6f-6d2ef1) Dirección del papel:Posteriormente, Microsoft fue un paso más allá al estudiar "qué tan pequeño debe ser un LLM para alcanzar una determinada capacidad" y lanzó el modelo phi-1.5 con sólo 1.300 millones de parámetros.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ef87115f95-dd1a6f-6d2ef1) Dirección del papel:phi-1.5 demuestra las capacidades de muchos modelos grandes, pudiendo "pensar paso a paso" o realizar algún aprendizaje de contexto básico.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ab07c48482-dd1a6f-6d2ef1) Los resultados muestran que phi-1.5 funciona a la par con modelos 10 veces su tamaño en razonamiento de sentido común y habilidades lingüísticas.Al mismo tiempo, supera con creces a otros modelos grandes en razonamiento de varios pasos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0740459868-dd1a6f-6d2ef1) Aunque no está claro si los “modelos pequeños” como Orca y Phi realmente pueden competir con modelos SOTA más grandes como GPT-4. Pero su enorme ventaja en costos ha fortalecido la motivación de Microsoft para continuar promoviendo la investigación relacionada.Según una persona familiarizada con el asunto, la primera prioridad del equipo después del lanzamiento de Phi es verificar la calidad de dichos modelos.En un artículo de próxima aparición, los investigadores proponen un método basado en el aprendizaje contrastivo que permite a los ingenieros mejorar Orca enseñándole al modelo a distinguir entre respuestas de alta y baja calidad.Al mismo tiempo, otros equipos de Microsoft también están desarrollando intensamente un nuevo modelo grande multimodal, es decir, un LLM que puede interpretar y generar texto e imágenes.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5e9b9e2450-dd1a6f-6d2ef1) GPT-4VClaramente, modelos como Orca y Phi pueden ayudar a Microsoft a reducir los costos informáticos necesarios para brindar capacidades de IA a los clientes.Según un empleado actual, los gerentes de producto de Microsoft ya están probando cómo usar Orca y Phi en lugar de los modelos de OpenAI para manejar consultas de chatbot de Bing. Por ejemplo, preguntas relativamente sencillas como resumir un breve párrafo de texto y responder sí o no.Además, Microsoft también está sopesando la posibilidad de ofrecer el modelo Orca a los clientes de la nube Azure.Según personas familiarizadas con el asunto, tan pronto como se publicó el artículo de Orca, los clientes vinieron a preguntar cuándo podrían usarlo.Pero la pregunta es, si esto realmente se va a hacer, ¿Microsoft todavía necesita obtener una licencia de Meta? Después de todo, este último todavía tiene restricciones sobre qué empresas pueden comercializar su LLM de código abierto.Referencias: