Los modelos grandes no son mascotas de gigantes

Fuente del artículo: Tiger Sniff

Autor: Creek

Fuente de la imagen: Generado por Unbounded AI

La guerra de los 100 modelos se está intensificando, pero muchos profesionales tienen cada vez más preguntas sobre los modelos grandes.

En el campo de los modelos grandes básicos, Tencent, Alibaba, Baidu y otros gigantes de Internet han entrado, y Alibaba, Baidu, iFLYTEK y otros grandes fabricantes han lanzado sucesivamente las últimas versiones de productos de modelos grandes en el último mes, y sus capacidades técnicas también se han mejorado enormemente; Las startups iteran en la nueva versión al mismo tiempo, pero también una financiación "loca", Zhipu AI anunció recientemente que este año ha recibido un total de 2.5 mil millones de yuanes en financiación, establecida casi medio año Baichuan Intelligence ha recibido 350 millones de dólares estadounidenses en financiación, entre los inversores de estas startups, también se encuentran Tencent, Alibaba, Meituan y otros gigantes de Internet.

¿Realmente necesita China tantos modelos básicos? Todas las grandes empresas de modelos básicos están locas por "rodar" los parámetros técnicos, pero ¿qué tipo de modelo grande necesita el mercado? En la animada y caótica situación de batalla, estas preguntas son planteadas por más y más personas.

Para responder a esta pregunta, primero debemos entender cómo el modelo básico grande gana dinero en el mercado chino. Aunque la gran mayoría de la percepción de las personas sobre los modelos grandes son los chatbots, y muchos usuarios comienzan a usar estos productos cuando buscan información y organizan documentos, es difícil para las empresas relacionadas ganar dinero con estos productos C-end, e incluso cuanto mayor es la escala de usuarios, más dinero pierden las empresas. ** En la actualidad, la dirección más pragmática para la comercialización de modelos básicos grandes sigue estando en el lado B, sirviendo a las empresas minoristas, financieras, manufactureras y otros campos para reducir costos y mejorar la eficiencia, con el fin de obtener ingresos comerciales estables. **

Solo hay tres tipos de necesidades para los modelos grandes básicos: ** Llame directamente a la API del modelo grande para obtener capacidades relevantes del modelo grande; Basado en el modelo grande, el desarrollo secundario se lleva a cabo en línea con el negocio real; Desarrolle aplicaciones de IA basadas en modelos de gran tamaño. **Estos requisitos ponen a prueba las capacidades técnicas de la plataforma básica de modelo grande y también prueban sus capacidades de servicio empresarial.

Desde el punto de vista de las capacidades de servicio, las startups de modelos a gran escala y los gigantes de Internet tienen que empezar de cero, y nadie tiene una ventaja innata. Las plataformas que pueden obtener una visión más rápida de las necesidades de los clientes y proporcionar servicios estables y fiables pueden destacarse.

Los modelos grandes no se "revientan"

Con la popularidad de ChatGPT como punto de demarcación, el desarrollo de grandes modelos domésticos ha experimentado dos días.

Antes de que ChatGPT se hiciera popular, solo un pequeño número de empresas nacionales se dedicaban a la investigación y el desarrollo de modelos básicos grandes, porque la tecnología y las capacidades de servicio de los modelos grandes no han sido ampliamente aceptadas por el mercado, y estas empresas se centran principalmente en la investigación y el desarrollo de tecnología y la acumulación de capacidades de servicio. Cuando ChatGPT se hizo popular, un gran número de inversores y profesionales acudieron, y los grandes modelos se convirtieron en una nueva salida.

El mercado caliente es fácil de dar lugar a especuladores, que no profundizan en la tecnología, sino que cuentan historias, conceptos exagerados, independientemente de las capacidades tecnológicas y de servicio, primero cuentan la historia al cielo, y de esta manera ganan el reconocimiento del mercado de capitales y los clientes. Un gran practicante de modelos le dijo en broma a Tiger Sniff que muchas grandes empresas de modelos en China afirman que la brecha entre ellos y GPT-4 es de solo unos meses, y esto se debe a que han realizado un entrenamiento sobre la base de GPT-2 que ha sido de código abierto y han salido a contar historias.

De hecho, la evolución de las capacidades técnicas de los modelos grandes no se puede lograr entrenando durante unos meses, porque este es un sistema complejo, y es muy importante tener una gran escala, y es imposible producir una evolución más inteligente sin una cierta escala. Sin embargo, aumentar la escala de entrenamiento de modelos grandes requiere mucho tiempo y una depuración repetida. Los técnicos que han depurado los parámetros de entrenamiento de los modelos grandes entienden esta dificultad: nadie te dice qué hacer, tienes que resolverlo por tu cuenta, y en el proceso surgen todo tipo de situaciones inesperadas que tardan en resolverse.

En China, los modelos grandes básicos que realmente confían en las capacidades técnicas se entrenaron antes de que ChatGPT se hiciera popular, en ese momento, el modelo grande no era bien conocido por todos, y muchas personas no entendían y no eran optimistas sobre el modelo grande, y las empresas que insistían en invertir en el modelo grande estaban muy seguras de la nueva tecnología.

Por ejemplo, en 2020, KLCII lanzó el primer proyecto de investigación de modelos preentrenados a ultra gran escala, Wudao, y su versión 2.0 se convirtió en el modelo de nivel de billón más grande del mundo. Después de la actualización de este año, "Wudao" cubre grandes modelos básicos como el lenguaje, la visión y la multimodalidad, y ha entrado en la etapa de código abierto completo.

Zhipu AI también desarrolló una arquitectura de preentrenamiento GLM en 2020 y también entrenó un modelo GLM-10B con decenas de miles de millones de parámetros. El 27 de octubre, Zhipu AI lanzó el modelo de diálogo de desarrollo propio de tercera generación ChatGLM3, que ha mejorado en gran medida su rendimiento, capacidad de inferencia y capacidad de contexto en comparación con la generación anterior. En comparación con ChatGLM2, ChatGLM3 ocupó el primer lugar entre 44 conjuntos de datos públicos chinos e ingleses en China. Entre ellos, MMLU aumentó un 36%, C aumentó un 33%, GSM8K aumentó un 179% y BBH aumentó un 126%.

Además, en términos de funciones, una serie de modelos grandes desarrollados en el país (ChatGLM, CodeGeeX, WebGLM, CogVLM, etc.) lanzados por Zhipu AI son también los modelos grandes de la serie OpenAI de evaluación comparativa más completos en China, y son aplicables al asistente de IA generativa "Zhipu Qingyan".

Este primer grupo de empresas que fabrican modelos de gran tamaño son fundamentalmente diferentes de las empresas que especulan con conceptos y persiguen el viento. Cuando la tecnología del modelo a gran escala aún no ha explotado y el mercado aún no ha sido tan volátil, se involucran en ella porque han descubierto el valor técnico y la lógica comercial del modelo básico a gran escala. Esta diferencia también es muy obvia después de la popularidad del modelo grande, muchas empresas se involucran en productos de extremo C por el bien del tráfico y la actualidad, mientras que las primeras empresas, como Zhipu AI, están más enfocadas en el campo de los servicios empresariales, y todas las capacidades de investigación y desarrollo y las capacidades de servicio también se presentan en torno a esta idea, y se están acumulando de manera realista y desarrollándose en la dirección de crear valor para los clientes.

** La complejidad del modelo grande determina que las empresas que han acumulado tecnología y capacidades de servicio durante más tiempo tienen una ventaja más fuerte. Cuando cada vez más personas en el mercado sean conscientes de la complejidad de los grandes modelos y del tiempo requerido para la evolución de los grandes modelos, aquellas grandes empresas de modelos que confían en la narración de historias para freír conceptos tendrán cada vez menos espacio para sobrevivir, y las empresas que acumulen seriamente tecnología y capacidades de servicio podrán resistir la prueba de la primera ola de competencia.

Sin un gran modelo de ecología próspera, no hay futuro

**En el proceso de comercialización de grandes modelos, quien pueda aterrizar en los escenarios de aplicación que tengan las rígidas necesidades de la sociedad será el primero en formar un círculo virtuoso de autohematopoyesis. **

El modelo general grande tiene una gama más amplia de aplicaciones, pero no está lo suficientemente especializado como para resolver problemas específicos en dominios verticales. Los modelos verticales grandes tienen una mayor capacidad para resolver problemas específicos del dominio, pero el alcance de los servicios es muy limitado, lo que dificulta que muchos modelos verticales grandes logren un equilibrio entre el costo y los beneficios comerciales, y el espacio de desarrollo es limitado.

El punto final de la aplicación de modelos grandes es para ser utilizados en la vida y la producción, para resolver problemas prácticos en el trabajo y la vida, y para mejorar la eficiencia y la productividad del trabajo. Sobre la base de las ventajas y desventajas del modelo general actual y el modelo vertical, una idea más apropiada en el proceso actual de comercialización del modelo es abrir el código de la tecnología y las capacidades de servicio al comercio minorista, las finanzas, la fabricación y otros campos, y el modelo general y las empresas en campos relacionados trabajan juntos para construir escenarios de aplicación. **

Sujeto a limitaciones como los datos, la potencia informática y los escenarios, no hay demasiados modelos grandes que realmente puedan ejecutarse a través de código abierto. Al mismo tiempo, como base tecnológica básica, el papel del modelo grande es muy similar al de los sistemas operativos de PC y teléfonos móviles, y presentará un patrón competitivo de "debajo del árbol grande, ni una sola pulgada de hierba", es decir, una o dos bases técnicas ocupan una posición dominante en la industria, y todos los desarrolladores de aplicaciones deben desarrollarse en base a estas dos bases técnicas. Si el modelo de pedestal no puede formar una ecología próspera, no habrá capacidad de desarrollo sostenible.

A juzgar por el historial de desarrollo de los sistemas operativos de PC y teléfonos móviles, la ventaja de ser el primero en moverse es muy importante. Cuando Windows domina el mercado de PC, e iOS y Android se dividen en dos mundos en el campo de la telefonía móvil, es difícil que otros sistemas operativos tengan espacio para un cambio.

La misma tendencia se observa también en el campo de los modelos grandes. Los modelos grandes abrirán un próspero ecosistema de aplicaciones de IA, y los datos, capacidades o aplicaciones personales y empresariales pueden convertirse rápidamente en complementos de IA, mejorando las capacidades de los modelos grandes y haciendo que los modelos grandes sean más prácticos y fáciles de usar.

En la actualidad, Baidu, iFLYTEK y otras empresas gigantes se han comprometido con la construcción ecológica, la nube inteligente de Baidu Qianfan gran plataforma de modelo grande 2.0 empresas activas mensuales de casi 10,000, que cubren más de 400 escenarios en finanzas, educación, fabricación, energía, asuntos gubernamentales, transporte y otras industrias, la escala de desarrollador de la plataforma de modelo grande Spark de iFLYTEK ha superado los 700,000.

Algunas startups que han acumulado mucho tiempo en el campo de los grandes modelos también son las primeras en comer cangrejos. En la actualidad, Zhipu AI cuenta con más de 1.000 clientes y más de 100 socios para construir un ecosistema, que cubre múltiples escenarios como los medios de comunicación, SaaS, la educación y la oficina. Por ejemplo, detrás de las capacidades de WPS para la generación inteligente de documentos de contenido de presentación y redacción de comunicados de prensa, está la capacidad técnica de Zhipu AI como soporte.

En la competencia ecológica de varias plataformas de modelos a gran escala, la prueba más importante de la plataforma es el valor que aporta a los socios y la capacidad de crecer junto con los socios. En lo que respecta al escenario de oficina, la generación de contenido de presentaciones, la redacción de contenido de artículos y la reescritura de estilo tienen requisitos muy altos para la precisión y las capacidades de razonamiento de la plataforma de modelos grandes, y solo el modelo grande que ha alcanzado un cierto nivel técnico puede tener la capacidad de admitir estas aplicaciones, y la plataforma de modelos grandes también necesita corregir errores e iteraciones de acuerdo con los comentarios de los usuarios en aplicaciones reales.

** Ya sea que se trate de una empresa gigante o una empresa de nueva creación, no importa cuán fuertes sean el capital y la fuerza de los recursos, es necesario acumular e iterar paso a paso desde cero. Por lo tanto, en el proceso de construcción de un ecosistema para grandes plataformas de modelos, la ventaja de tiempo es muy importante. Esta es también la razón por la que las empresas emergentes con ventajas de ser las primeras en moverse y los gigantes de Internet con mayores recursos financieros pueden competir a la par.

**100 modelo de guerra, ¿quién es más adecuado para el mercado chino? **

Aunque la situación de batalla de la guerra de 100 modelos es animada y caótica, la dirección de la competencia detrás de ella es muy clara, y las capacidades técnicas y de servicio y la capacidad de la gran plataforma de modelos para construir un ecosistema determinan directamente la dirección de la competencia.

La construcción de estas capacidades lleva tiempo en acumularse, y es difícil alcanzarlas de la noche a la mañana, pero no es suficiente acumularlas con el tiempo. La ventaja de ser el primero, además de la diferencia de tiempo que aporta la acción temprana, también tiene la capacidad de percibir con precisión la demanda del mercado, es decir, actuar con firmeza y rapidez a lo largo de una estrategia correcta, la oscilación estratégica y los desvíos pueden consumir fácilmente todas las ventajas de tiempo acumuladas por la acción temprana.

Cuando más y más grandes plataformas modelo hayan cambiado su enfoque hacia la construcción ecológica, la determinación estratégica y la ejecución de la plataforma serán cada vez más importantes en la competencia ecológica. ** Cuando algunas plataformas completan el cambio cualitativo a las súper plataformas, el panorama competitivo está básicamente determinado.

En el amplio y complejo mercado nacional, las empresas de servicios de gama B son propensas a los vaivenes y desvíos estratégicos. Por un lado, las regiones y escalas de negocio de las empresas en el mercado nacional son diferentes, y la percepción del valor de los grandes modelos para la inteligencia empresarial es bastante diferente, y los recursos y costos que están dispuestos a invertir también son diferentes, por lo que es difícil encontrar una solución estandarizada; Por otro lado, las empresas de diferentes campos tienen diferentes necesidades de capacidades de modelos grandes, e incluso diferentes empresas del mismo campo tienen diferentes necesidades de modelos grandes.

En un entorno así, en comparación con el plan de comercialización de OpenAI, la comercialización de plataformas modelo nacionales a gran escala requiere más atención a los detalles. Vemos esta tendencia en las ideas de comercialización de algunas plataformas.

Por ejemplo, además de los servicios comunes de API de plataforma abierta, Zhipu AI también ofrece dos soluciones: la privatización de la nube y la privatización local. ** La privatización de la nube puede ayudar a las empresas a construir sus propios modelos grandes basados en datos privados con mayor seguridad, mientras que la privatización local es una solución única en el mercado chino, además de proporcionar un modelo más potente, también proporciona una matriz de modelos completa para satisfacer diversos escenarios y necesidades. **

En respuesta a las diferentes necesidades de los clientes, como la generación de artículos, el servicio al cliente inteligente y la anotación de datos, así como a la escala de las grandes, medianas y pequeñas empresas, Zhipu AI ofrece diferentes soluciones, que los clientes pueden combinar libremente según sus propias necesidades. Este modelo de servicio más detallado y flexible también se basa en una visión precisa a largo plazo del mercado chino.

Ante la incertidumbre del entorno externo, Zhipu AI también ha lanzado un plan de adaptación de chips nacionales, cooperando con fabricantes nacionales de hardware y fabricantes de chips para proporcionar diferentes niveles de certificación y pruebas para diferentes tipos de usuarios y diferentes tipos de chips, a fin de hacer que los servicios de modelos grandes sean más seguros y confiables. En la actualidad, la serie ChatGLM ha sido compatible con más de 10 tipos de ecosistemas de hardware domésticos, incluidos Ascend, Shenwei Supercomputer, Haiguang DCU, Haifeike, Muxi Xiyun, Computing Technology, Tiantian Zhixin, Cambrian, Moore Threads, Baidu Kunlun Core, Lingxi Technology, Great Wall Chaoyun, y el modelo de prueba final desplegable de teléfonos móviles lanzado simultáneamente ChatGLM3-1.5B y 3B compatible con Xiaomi, vivo, Samsung y otros teléfonos móviles y plataformas de vehículos.

Cuanto más feroz es la batalla en la guerra de los 100 modelos, más importantes son estos detalles aparentemente discretos, porque estos detalles determinan el grado de reconocimiento de los socios externos y también afectan la velocidad de aterrizaje de los modelos grandes en diferentes escenarios. El umbral para simplemente lanzar un modelo grande no es tan alto como imagina el mercado, pero es posible tener escenarios de datos de alta calidad para continuar iterando y formando barreras competitivas, y la clave para escenarios de datos de alta calidad radica en los socios externos: la plataforma que más socios están dispuestos a elegir facilita la ejecución de este ciclo comercial.

En esta competencia, muchos profesionales creen que el ganador debe ser la empresa gigante con mayores recursos y capacidades financieras, pero no es así. Tanto las startups como los gigantes deben hacer los trucos y llegar al fondo de los detalles, y no hay atajos. En cuanto a la financiación, no es la raíz de la batalla decisiva, porque a las startups con competitividad central no les faltará dinero: incluso si Zhipu AI ha recibido la mayor cantidad de financiación de startups modelo a gran escala, hay más inversores nuevos que quieren entrar en el juego.

Si lo piensas desde otro ángulo, de hecho, el mercado de capitales ya está votando con los pies sobre quién es más adecuado para el modelo de pedestal de las empresas chinas.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)