No se limite a mirar el gran modelo, el futuro de la IA depende de la nube como nunca antes

2023-11-01 07:07:33

Fuente original: Silicon Star People

Fuente de la imagen: Generado por Unbounded AI

**¡Nube! **

Si observa los informes de los medios de comunicación sobre grandes modelos todos los días, quedará deslumbrado por la variedad de modelos y las aplicaciones aterradoras de corta duración, pensando que el futuro de los modelos se encuentra en el próximo modelo completo y completo. Así que la IA parece ser una historia en la que OpenAI o Anthropic ganan.

La financiación que se ha completado con una velocidad y un volumen increíbles parece demostrar esta percepción.

Anthropic, que está considerado como uno de los mayores rivales de OpenAI, se encuentra en una ronda de financiación en un ciclo mensual de 2.000 millones: el 27 de octubre, Google dijo que ha invertido otros 2.000 millones de dólares en ella, menos de un mes después de que Amazon invirtiera 4.000 millones de dólares en ella, y su modelo Claude, que compite con características como la longitud del contexto, es considerado uno de los competidores más fuertes para ChatGPT. Al mismo tiempo, OpenAI también está reuniendo varios recursos, y detrás de cada uno de sus movimientos, SoftBank, Microsoft y Apple son rumores de varias maneras.

Sin embargo, en realidad, esta no es toda la historia.

Para los practicantes, el otro lado de la historia es más profundo:

Obviamente, es una mejor opción tomar los dólares de aquellos inversores que tienen más dinero y menos que hacer, sin embargo, todos eligen grandes fábricas una tras otra, e incluso grandes fábricas que los están mirando, solo por una cosa: tienen capacidades de computación en la nube. La contribución de OpenAI a Microsoft Azure se ha dicho demasiadas veces en el camino hacia el éxito, y Anthropic ahora se garantiza el soporte de poder de computación en la nube de Google y Amazon al mismo tiempo, y dijo que uno de los propósitos importantes de la financiación es construir una garantía de poder de cómputo para entrenar la próxima generación de modelos.

Este es un excelente testimonio de la necesidad de la nube para los modelos grandes.

En la Conferencia Apsara del 31 de octubre, una serie de datos de Alibaba Cloud decían lo mismo.

Alibaba Cloud ha anunciado algunos de los modelos que se ejecutan en la parte superior de sus servicios, desde su propio modelo grande Tongyi, hasta Baichuan Intelligence, Zhipu AI, Zero One Everything, Kunlun Wanwei, vivo, Fudan University, etc., la mitad de las grandes empresas e instituciones modelo de China se forman aquí.

Estos modelos convencionales en China también brindan servicios API a través de Alibaba Cloud, incluida la serie Tongyi, la serie Baichuan, la serie Zhipu AI ChatGLM, el modelo general Jiang Ziya, etc.

Estos modelos se ponen al día con el nivel superior al mismo tiempo, pero también comienzan a crecer sus propias características, entre las que una de las grandes empresas de modelos más importantes de China, Baichuan Intelligence, ha establecido un promedio de 28 días para iterar una versión del registro de un modelo grande, 30 de octubre La última versión de Baichuan2-192K se ha convertido en el soporte más largo del mundo para la ventana de contexto del modelo grande, puede ingresar 350,000 palabras a la vez, liderando Claude2-100K.

Todas estas ventajas apuntan a aplicaciones más realistas. Wang Xiaochuan, director ejecutivo de Baichuan Intelligence, describió esto como "un paso más lento que el ideal y tres pasos más rápido sobre el terreno". La infraestructura en la nube, por otro lado, ofrece posibilidades rápidas.

Wang Xiaochuan presentó que una razón importante para la iteración mensual del modelo de Baichuan es el soporte de la computación en la nube. "La rápida iteración y despliegue del modelo es inseparable de la computación en la nube, y Baichuan Intelligence y Alibaba Cloud han llevado a cabo una cooperación profunda. Con los esfuerzos conjuntos de ambas partes, Baichuan ha completado con éxito la tarea de entrenamiento del modelo grande de kilocalorías, reduciendo efectivamente el costo de la inferencia del modelo y mejorando la eficiencia de la implementación del modelo. "

Otra razón por la que se ha pasado por alto la importancia de la computación en la nube es que el campo de la IA se ha distraído por la "falta de tarjetas para todos".

"La gente está prestando demasiada atención a las GPU". Muchos profesionales de grandes modelos me dijeron que, como unidad de cómputo, se mejora constantemente, pero para resolver el problema de la IA, lo que se necesita en última instancia es una solución de potencia de cálculo sistemática y óptima. Incluso la nube ha sido algo que resuelve el problema de que una sola unidad no sea lo suficientemente fuerte desde su creación.

"Solo la tarjeta, solo el increíble modelo en el papel, no es suficiente, y finalmente confía en la nube para aterrizar y luego realizar el ideal". Dijo. Si aguzas cuidadosamente tus oídos y escuchas los "gritos" de estos participantes reales en la primera línea de la ecología modelo, entonces puedes escuchar una palabra:

¡Nube!

La evolución del futuro de la IA depende de la nube hoy más que nunca.

Una nueva nube

Pero esto definitivamente no significa que los proveedores de nube que han establecido una ventaja puedan acostarse y ganar.

Basta con echar un vistazo a lo que sucedió después de que Google y Microsoft publicaran recientemente sus informes de ganancias el mismo día.

El 25 de octubre, Google publicó un informe de ganancias que superó las expectativas, con un aumento interanual del 11%, y el negocio principal de publicidad también aumentó un 9%. Pero luego el precio de las acciones cayó. Solo hay una razón, la computación en la nube ha crecido un 22%, pero el mercado cree que no es suficiente. En particular, el informe financiero de Microsoft publicado el mismo día mostró que su división de nube inteligente se convirtió en la mayor fuente de ingresos.

Por primera vez, los gigantes se encuentran marginados de negocios como el de la publicidad, del que alguna vez hablaron, porque la computación en la nube se considera una métrica observable en comparación con los ingresos directos generados por modelos que aún son ilusorios. Detrás de este indicador está la capacidad de los proveedores de la nube para adaptarse a los desafíos que plantea la IA.

Incluso AWS, la cuota de mercado número 1, está sintiendo la presión, y la inversión de Amazon en Anthropic también se produjo durante estos informes de ganancias. Se ha informado que el 3% de los ingresos de Azure de Microsoft provienen de la IA, y entre sus clientes se encuentra un gran número de usuarios de OpenAI, y AWS está empezando a hacer hincapié en sus servicios para varios modelos. Después de invertir 2.000 millones en Anthropic, se anunció inmediatamente que el LLM después de la empresa modelo se construiría con el chip de aceleración de entrenamiento Trainium y el chip de inferencia Inferentia de AWS. Además, como la nueva solución de clúster destacada en el informe financiero de Microsoft, y Bedrock, un servicio de modelo básico totalmente administrado para AWS, también están enfatizando su propia transformación para las nuevas necesidades de IA.

"De cara a la era inteligente, Alibaba Cloud actualizará su sistema de computación en la nube a través de la innovación tecnológica de pila completa, desde la potencia informática subyacente hasta la plataforma de IA y el servicio modelo". Zhou Jingren, quien determina la ruta técnica de Alibaba Cloud, también dio su respuesta en la Conferencia Apsara. Los cambios reflejados por Alibaba Cloud en esta ocasión son decisivos y minuciosos, desde la textura hasta el núcleo, todos ellos se transforman para la IA.

Según la introducción de Zhou Jingren, Alibaba Cloud utilizó por primera vez un modelo grande para transformarse, y se han conectado más de 30 productos en la nube a las capacidades del modelo grande.

Por ejemplo, DataWorks, la plataforma de gobernanza de big data de Alibaba Cloud, ha añadido un nuevo formulario interactivo, Copilot, que permite a los usuarios generar sentencias SQL con entrada de lenguaje natural y ejecutar automáticamente las operaciones ETL de datos correspondientes, mejorando la eficiencia general del desarrollo y el análisis en más de un 30%.

Zhou Jingren describió esto como un modo de conducción autónoma de la computación en la nube, que mejorará en gran medida la eficiencia y la experiencia de los desarrolladores que usan la nube.

Al mismo tiempo, Alibaba Cloud también ha actualizado su plataforma de inteligencia artificial PAI. La capa subyacente de PAI utiliza la arquitectura de red de clúster de IA de próxima generación HPN 7.0, admite la escala escalable de clústeres de hasta 100.000 tarjetas y la tasa de aceleración del entrenamiento distribuido a ultra gran escala es tan alta como el 96%, superando con creces el nivel de la industria. En tareas de entrenamiento de modelos grandes, puede ahorrar más del 50% de los recursos informáticos y el rendimiento es líder en el mundo.

Estos términos profesionales son un poco complejos, explicados por casos sencillos de clientes, y Zhou Jingren también compartió algunos casos el mismo día: "A través de nuestra plataforma PAI, puede ayudar a optimizar el razonamiento, ayudar a Xiaohongshu a ahorrar un 30% de costos y realmente puede promover el rápido crecimiento comercial de Xiaohongshu, así como una variedad de necesidades comerciales". "

Los proveedores de la nube, incluido Alibaba Cloud, esencialmente están descubriendo una nueva infraestructura. Los cambios provocados por las tecnologías de IA, como los modelos grandes, son full-stack, desde la capa inferior del modelo hasta las ideas de entrenamiento, desde los requisitos de datos hasta la interfaz interactiva, están cambiando, e incluso necesitan ser "rehechos".

El punto de partida de todas las transformaciones de Alibaba Cloud es el MaaS (model as a Service) propuesto por Zhou Jingren a principios de la temporada.

"El modelo en sí es una abstracción de alto nivel de datos y computación". Zhou Jingren dijo en un pequeño intercambio con nosotros ese día.

"Por ejemplo, en el pasado, solíamos usar más datos de registros o bases de datos. ¿Cuál es el modelo? Un modelo es una colección procesada de datos, que es una abstracción altamente intelectual. Entonces, desde este punto de vista, se puede pensar que los datos originales son un material de producción más primitivo, que se basa en la potencia de cálculo original. El modelo actual es una capa de procesamiento, que es un elemento de producción más abstracto basado en materias primas de datos, y puede utilizar dichos elementos de producción para desarrollar sistemas empresariales de mayor dimensión. Antes teníamos Infraestructura, que era un elemento de producción, y hoy el modelo también es un elemento de producción. "

Esta nueva infraestructura en torno al modelo requiere capacidades de sistema más complejas que en el pasado.

Si bien el umbral para las aplicaciones de IA es cada vez más bajo, el umbral para proporcionar computación en la nube que satisfaga las necesidades de la nueva era de IA solo será cada vez más alto. Para explorar esta novedad, es obvio que hay que dominar la tecnología central de la computación en la nube, y hay que tener una comprensión real de la tecnología de los grandes modelos: se sabe lo que se tiene y se sabe lo que necesitan los clientes.

"Basándonos en nuestra acumulación en computación en la nube, hemos construido una infraestructura completa de IA. A través de la serie actual de optimizaciones en redes, almacenamiento, programación, compilación, tolerancia a fallos, etc. Hemos establecido una plataforma de entrenamiento completa para modelos grandes de IA. Dijo Zhou Jingren. Al mismo tiempo, a través de una serie de optimizaciones combinadas con la alta elasticidad de la propia nube, podemos proporcionarte un servicio muy completo de entrenamiento e inferencia de modelos. "

El mismo día, Alibaba Cloud también lanzó el modelo de parámetros de 100 mil millones de niveles de desarrollo propio Tongyi Qianwen 2.0.

Tongyi Qianwen 2.0 ha hecho un gran progreso en el rendimiento y ha mejorado significativamente su capacidad para comprender instrucciones complejas, capacidad de creación literaria, capacidad matemática general, memoria de conocimiento, resistencia a la ilusión, etc., y su rendimiento integral ha superado a GPT-3.5, acelerándose para ponerse al día con GPT-4.

Al mismo tiempo, el sitio web oficial del modelo Tongyi se ha actualizado por completo, agregando funciones de interacción multimodal y complementos, que permiten a los usuarios interactuar con Tongyi Qianwen 2.0 a través de imágenes y también llamar a nuevas capacidades de complementos más ricas.

Zhou Jingren dijo: "Tongyi Qianwen 2.0 es más maduro y más fácil de usar".

Abrir, Abrir o Abrir

Con una transformación tan integral, naturalmente surge la pregunta de si tanto el modelo como la infraestructura eventualmente se convertirán en una situación en la que seas tanto un árbitro como un atleta.

La respuesta que da Alibaba Cloud es la máxima apertura.

Alibaba Cloud es la primera empresa de tecnología en China en abrir modelos grandes de desarrollo propio de código abierto y, en la actualidad, Alibaba Cloud tiene versiones de código abierto Tongyi Qianwen 7B y 14B, con más de un millón de descargas. En la escena, Zhou Jingren anunció que el modelo Tongyi Qianwen 72B pronto será de código abierto y se convertirá en el modelo de código abierto más grande de China.

De hecho, este tipo de apertura no es algo que sucederá después de ChatGPT. En la Conferencia Apsara de hace un año, Alibaba Cloud comenzó a construir un edificio mágico comunitario modelo, de hecho, el primer lote de código abierto en ese momento fue el propio modelo central de Alibaba Cloud. En ese momento, el plan de Moda era usar Alibaba Cloud para entregar las cosas en la parte inferior de la caja para llevar a todos a cambiar el estado cerrado de la IA en el pasado y usar la apertura para hacerla realmente accesible al público.

Zhou Jingren reveló que la comunidad ha reunido más de 2.300 modelos de IA en la actualidad, ha atraído a 2,8 millones de desarrolladores de IA y el número de descargas de modelos de IA superó los 100 millones, lo que la convierte en la comunidad de IA más grande y activa de China. Este logro es el reconocimiento más directo de su apertura al mundo exterior.

Hoy en día, en la Comunidad Mágica, Baichuan Intelligence, Zhipu AI, el Laboratorio de Inteligencia Artificial de Shanghai, el Instituto de Investigación IDEA, etc. han abierto el código de sus modelos grandes principales, y Alibaba Cloud proporciona a los desarrolladores potencia de cómputo de GPU gratuita para los "primeros usuarios" de modelos grandes, que han superado los 30 millones de horas hasta ahora.

"Nuestro posicionamiento hoy en día es servir a una variedad de clientes con diferentes necesidades". Dijo Zhou Jingren.

En el ecosistema de Alibaba Cloud, hay una supercomputadora construida conjuntamente con la Universidad de Fudan, que admite el entrenamiento de modelos grandes con cientos de miles de millones de parámetros, y se encuentra entre las 15 mejores del mundo en términos de potencia informática general. El clúster informático detrás de él está compuesto por Jinsi No. 1 en el campus de Fudan y Qiewen No. 1 en el centro de datos Ulanqab de Alibaba Cloud, a 1.500 kilómetros de distancia.

vivo ha desarrollado por sí mismo grandes modelos, desde la potencia informática, las funciones de la plataforma, el rendimiento de la formación, etc., hasta el marco de optimización de la formación de la plataforma de inteligencia artificial PAI de Alibaba Cloud en términos de supervisión de SFT y ajuste fino de grandes modelos y aprendizaje por refuerzo, vivo y Alibaba Cloud cooperan para iterar grandes modelos de forma más eficiente.

También está la popular "Wonderful Duck Camera", cuya generación de fotos requiere al menos unos pocos miles de servidores GPU en el nivel máximo, y la implementación fuera de línea no es práctica, y la implementación en la nube puede ahorrar mucho costo y tiempo a las nuevas empresas. Además, aplicaciones como Miaoya representan una tendencia de que, en el futuro, la necesidad de inferencia superará la necesidad de entrenamiento, lo que solo hará que la computación en la nube sea más crítica para la sostenibilidad de los servicios de IA.

Bajo este posicionamiento, el gran modelo de Alibaba Cloud se parece más a una continuación de una idea que Alibaba siempre ha utilizado en el pasado: las mejores prácticas. Su pensamiento es que solo cuando haya realizado las tareas más complejas y haya probado su infraestructura con él, podrá proporcionar servicios y tecnologías más confiables al mundo exterior. Y todos estos esfuerzos están dirigidos en última instancia a un objetivo: promover la industrialización de la IA.

Con este objetivo en mente, Alibaba Cloud también ha lanzado Alibaba Cloud Bailian, una plataforma integral de desarrollo de aplicaciones de modelos a gran escala. Alibaba Cloud es un integrador sistemático y abierto.

Alibaba Cloud dijo que, en base a él, los desarrolladores pueden desarrollar una aplicación de modelo grande en 5 minutos y "refinar" un modelo específico de la empresa en unas pocas horas. Después de ayudar a los desarrolladores a elegir el modelo más adecuado, también proporciona una variedad de métodos de ajuste fino, como SFT y LoRA, lo que le permite ajustar su modelo. Una vez completada la formación, también puede desplegarla a través de Alibaba Cloud con un solo clic. El desarrollo de aplicaciones también se simplifica enormemente, e incluso los agentes más recientes y otros complementos están disponibles para que los usuarios elijan.

"Cada enlace y cada grupo de personas es una parte importante de todo el ecosistema de desarrolladores hoy en día". Dijo Zhou Jingren.

"Nuestro objetivo es hacer de Alibaba Cloud la nube más abierta, y esperamos que hoy Alibaba Cloud no solo pueda servir a un tipo de cliente, sino que todos nuestros clientes de hoy, todos los cuales se mencionan de diversas maneras, puedan brindarles apoyo de manera efectiva en la era de la inteligencia artificial y puedan ayudarlos a innovar y hacer avances en sus propias áreas de especialización. Este es nuestro objetivo y un reflejo detrás del diseño de nuestros productos en la actualidad. "

En el "ideal un paso atrás" de hoy en día, el animado ecosistema de modelos no solo necesita la nube en el desarrollo real, sino que también la inspiración de la computación en la nube para las empresas tecnológicas chinas también es extremadamente importante para los profesionales actuales de la IA y los modelos.

El proceso de desarrollo de la computación en la nube de China siempre ha tenido un significado simbólico, es decir, cuando tenemos fuertes talentos de desarrollo tecnológico y las necesidades de aplicaciones industriales más amplias, cómo captar espontáneamente la tecnología subyacente. Y cuando se encuentra en cierta desventaja tecnológica, tales oportunidades solo aparecerán cuando el gran sistema tecnológico se transforme por completo.

Cuando la nueva revolución tecnológica llega de nuevo y la tecnología subyacente necesita ser reconstruida de nuevo, la computación en la nube se ha convertido en la confianza y el costo del modelo de China para continuar luchando con sus pares avanzados, y también es una inspiración y advertencia. Si bien la industria y las aplicaciones de IA se están acelerando, tener nuestra propia base tecnológica de vanguardia y formar una relación abierta y de asistencia mutua basada en ella, será importante para que todo el ecosistema progrese en conjunto, y también es importante recordarnos cómo comprender esta innovación tecnológica, e incluso se espera que se convierta en una ventaja en esta competencia con esfuerzos continuos.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

2 me gusta

Recompensa
2
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
#Gate ETH Staking APY 5%
28k Popularidad
#Show My Alpha Points
43k Popularidad
#Crypto IPO Surge
7k Popularidad
#SOL Futures Reach New High
25k Popularidad
#ETH ETF Sees 12 Weeks of Inflows
6k Popularidad

Anclado