Fuente de la imagen: Generada por la herramienta de IA Unbounded
En los doscientos días desde que se lanzó ChatGPT, el desarrollo de modelos domésticos a gran escala ha iniciado un modo de "huracán".
Se dice que se han lanzado 79 modelos a gran escala con una escala de más de mil millones de parámetros en China.
El campo de evolución del modelo a gran escala se centra en un tumulto de cien modelos: el modelo a gran escala de Baidu Wenxin ha evolucionado a 3,5, Ali Tongyi Qianwen ha construido un modelo familiar, el modelo a gran escala de JD Yanxi es un modelo industrial a gran escala "hecho a medida" para sí mismo;
La teoría de la evolución de los modelos a gran escala de las grandes fábricas es cruel y realista, y deben ponerse al día o ser eliminados.
Baidu Wenxin Big Model 3.5, que avanza y entrena duro, anunció recientemente que la última versión de la capacidad Yiyan de Wenxin ha superado a ChatGPT 3.5.
La selección natural, la supervivencia del más apto, los grandes fabricantes y los grandes modelos han superado a ChatGPT.
Gran modelo de fábrica, más que ChatGPT3.5
Con una chaqueta de traje negra por dentro y por fuera de blanco y con el pelo corto y bien cuidado, apareció en la Conferencia del Informe de Evaluación de Capacidad Técnica de Modelo Grande de IA.
El tema aún se estaba revisando la noche anterior. Wu Tian, vicepresidente de Baidu Group, quien acaba de regresar de un viaje de negocios, dijo en la reunión: "La nueva versión de Wenxin Yiyan ha superado ChatGPT 3.5. Este también es un hito importante para que podamos llevar a cabo trabajos técnicos relacionados en China".
Este es otro fabricante importante que confirma oficialmente que el modelo grande supera a ChatGPT después de que Liu Qingfeng de HKUST Xunfei mencionara que el modelo grande de Spark está a punto de superar a ChatGPT.
En marzo de este año, se invitó públicamente a probar el modelo de lenguaje a gran escala mejorado con conocimiento de próxima generación de Baidu "Wenxin Yiyan", basado en la versión 3.0 del modelo a gran escala de Wenxin. Después de más de 3 meses, el modelo Wenxin se actualizó a la versión 3.5 y sus efectos, funciones y rendimiento se mejoraron ampliamente.
Wenxin Yiyan 3.5 ha superado a ChatGPT3.5, muy probablemente debido al nuevo mecanismo de complemento en términos de funciones. Wenxin Large Model 3.5 ha ampliado el límite de capacidad del modelo grande a través de complementos.
El modelo grande enfatiza la fuerza técnica y la capacidad básica del modelo grande. En mayo de este año, el nuevo modelo de base grande lanzado por Baidu es Wenxin Large Model 3.5 Este modelo es el modelo básico del sistema Wenxin Yiyan.
Vale la pena mencionar que en el entrenamiento básico del modelo, la versión 3.5 también adopta la tecnología de entrenamiento paralelo híbrido adaptativo más avanzada y la estrategia de cálculo de precisión mixta de FlyPaddle, lo que acelera enormemente la velocidad de iteración del modelo.
Como todos sabemos, Baidu ha estado cultivando profundamente la investigación y el desarrollo de tecnología de inteligencia artificial completa, con un total de cuatro capas: capa de chip, capa de marco, capa de modelo y capa de aplicación.
La capa de chip tiene Kunlun Core; la capa de marco tiene la plataforma de aprendizaje profundo Paddle, que respalda firmemente el entrenamiento y el razonamiento eficientes de modelos grandes; la capa de modelo tiene el modelo grande Wenxin; en la capa de aplicación, 150,000 empresas actualmente solicitan acceso a la prueba Wenxin Yiyan.
Entre ellos, la plataforma Flying Paddle tiene 7,5 millones de desarrolladores, en comparación con los 8 a 10 millones de profesionales de software en China. Aunque los profesionales de software y los desarrolladores de aprendizaje profundo no son exactamente iguales, la ventaja en la cantidad de talentos también proporciona un grupo de expertos de gran capacidad para que Wenxin 3.5 se ponga al día con ChatGPT, similar a la existencia de Ultrain.
En comparación con las empresas extranjeras, las empresas chinas tienen ventajas naturales en la obtención del corpus chino y la comprensión de la cultura china.La industria manufacturera de China tiene las categorías más completas y tiene condiciones favorables para la formación de AIGC para industrias reales.
Muchos factores han contribuido a la promoción. Wenxin Big Model 3.0 basado en Wenxinyiyan se lanzó hace más de 100 días. Bajo la optimización colaborativa de FlyPaddle y Wenxin, Wenxin Big Model 3.5 ha crecido rápidamente. El efecto del último modelo ha aumentado en un 50 %, la velocidad de entrenamiento se ha multiplicado por 2 y la velocidad de razonamiento se ha multiplicado por 30. Ha superado con éxito a ChatGPT.
Además de la tecnología básica, Baidu ha desarrollado tres tecnologías de mejora adicionales: mejora del conocimiento, mejora de la recuperación y mejora del diálogo.
Comparando el modelo grande con los seres humanos, si las personas aprenden en forma de estructura de conocimiento y sistema de conocimiento, la eficiencia de aprendizaje es mayor. Luego, aprenda a usar herramientas para buscar, realice una recuperación extremadamente simplificada de un extremo a otro y mejore la puntualidad.
Una vez que el modelo grande ha terminado de aprender por sí mismo, tiene que aprender un entrenamiento intensivo de retroalimentación. La mejora del diálogo es como dejar que el modelo grande haga las preguntas continuamente, decirle al modelo grande lo que está bien y lo que está mal en el diálogo y, a través de las indicaciones, dejar que el modelo grande fortalezca el mecanismo de la memoria, deje que responda las preguntas de la manera que queremos y enséñele al niño cómo responder mejor.
Además de la fuerza técnica, los modelos grandes deben estar conectados a tierra.
En términos de aplicaciones industriales, el modelo a gran escala de Baidu Wenxin se originó y sirve a la práctica industrial. Ya ha explorado el camino clave para la implementación de la industria modelo a gran escala, y también ha lanzado modelos a gran escala que cubren muchas industrias y campos para acelerar la transformación inteligente de las industrias.
En la actualidad, empresas como State Grid, Pudong Development, Taikang, Geely, Harbin, Shenzhen Gas, TCL y Baidu Wenxin han cooperado entre sí.
Además, Baidu ha invertido más de 100 000 millones de yuanes en investigación y desarrollo en los últimos diez años, y su inversión principal en I+D representará más del 23 % en 2021. La cantidad de solicitudes y autorizaciones para especializaciones en inteligencia artificial ocupó el primer lugar en China durante cinco años consecutivos, y la cantidad de solicitudes de patentes de aprendizaje profundo ocupó el primer lugar en el mundo. El avance de Baidu en el campo de los modelos a gran escala de IA también está estrechamente relacionado con la fuerte inversión de Baidu en recursos de elementos.
Se puede ver que ha llegado el momento de que las grandes fábricas y los grandes modelos luchen por la investigación y el desarrollo.
¿Cuál de las grandes fábricas y grandes modelos es mejor?
En la primera mitad de este año, hubo casi cien empresas que anunciaron oficialmente que fabricarían modelos a gran escala, y cada modelo a gran escala estaba en una feroz batalla. Entre ellos, hay importantes jugadores de Internet como Ali, Baidu, Tencent, JD.com y ByteDance, así como compañías de inteligencia artificial como HKUST Xunfei y SenseTime, y otras "tropas sin nombre" también se mezclan.
En medio año, la pista modelo a gran escala ha completado el proceso desde el concepto hasta el aterrizaje, que es muy explosivo en cualquier pista.
Sin embargo, hasta el momento, no hay indicadores claros ni pautas para verificar qué modelo a gran escala es mejor. Uno tras otro, la autoevaluación de "Wang Po vende melones, vende melones y se jacta" es deslumbrante, y no hay mucha objetividad.
Entonces, en la batalla de los cien modelos, ¿quién es mejor?
En el último "Informe de evaluación de la capacidad técnica del modelo de IA a gran escala, 2023" publicado por IDC, se propone por primera vez el marco de evaluación de la capacidad técnica del modelo de IA a gran escala.
Hay tres dimensiones en el modelo de evaluación: tecnología del producto, ecología del servicio y aplicación industrial.
Hay hasta 12 indicadores de subdivisión específicos: modelo de algoritmo, capacidad de servicio, capacidad general, capacidad de innovación, capacidad de plataforma, seguridad y explicabilidad, cooperación ecológica, cobertura de la industria, finanzas, industria, atención médica y energía.
Entre ellos, el modelo de algoritmo y la cobertura de la industria son los dos indicadores más importantes para medir la capacidad de los modelos grandes En particular, los dos pueden formar un volante para la mejora iterativa continua.
Entre las capacidades técnicas de los productos, la dimensión del "modelo de algoritmo" es el elemento central de la capacidad del modelo grande, y también es la raíz que determina el efecto de aplicación del modelo grande.
La razón es que solo a través del avance de la tecnología de modelos de algoritmos y la realización de una gran base de modelos con ventajas de efectos generales puede respaldar una cobertura más amplia de la industria, permitir que todos los ámbitos de la vida disfruten plenamente de los dividendos que brindan los avances tecnológicos y resolver el dilema del umbral alto para la implementación de IA.
Entre las capacidades de aplicación de la industria, la amplitud de la cobertura de la aplicación es el indicador más importante para los fabricantes de modelos a gran escala en la actualidad, y es un reflejo integral del efecto líder general de los modelos a gran escala y la capacidad de combinar industrias.
Por lo tanto, la "cobertura de la industria" refleja la fuerza del modelo grande en la implementación industrial a través de la cantidad de clientes de nivel empresarial y la cantidad de industrias de destino.
Los principales modelos nacionales a gran escala, incluidos 14 fabricantes, incluidos Baidu, Ali, Tencent, Huawei, iFlytek, 360, SenseTime y 4Paradigm, participaron en esta evaluación.
Los grandes fabricantes y los modelos grandes tienen un alto grado de competencia. Baidu tiene la ventaja única de un diseño completo de la pila de tecnología de cuatro capas de "chip-marco-modelo-aplicación": capa de chip-núcleo Kunlun, capa de marco-paleta voladora, capa de modelo-modelo grande Wenxin y varias aplicaciones de IA. Entre ellos, la plataforma de aprendizaje profundo de desarrollo propio de Baidu, Flying Paddle, brinda un fuerte apoyo para el entrenamiento y el razonamiento eficientes de modelos grandes.
Aliyun también es muy llamativo, con 6 de los 12 indicadores obteniendo la máxima puntuación, y es el único proveedor que obtuvo la máxima puntuación en "capacidad de servicio". Como proveedor de modelos básicos, la capacidad de la plataforma, la capacidad de servicio y el nivel de cooperación ecológica de los grandes fabricantes de modelos son muy importantes para el desarrollo de la industria. Alibaba Cloud obtuvo la máxima puntuación en los tres indicadores.
En la actualidad, la gran familia de modelos de propósito general de Alibaba Cloud tiene la capacidad de procesar o generar texto, voz e imágenes y otras modalidades. En los últimos tres meses, Alibaba Cloud ha lanzado sucesivamente el modelo básico "Tongyi Thousand Questions", el producto de modelo a gran escala de audio y video "Tongyi Tingwu" y el modelo a gran escala de creación de pintura con IA "Tongyi Wanxiang". La familia de modelos a gran escala Tongyi todavía está en constante iteración y evolución.
Tencent Cloud y JD Cloud, ambas importantes empresas de Internet, han optado por centrarse en el lado de la industria y lanzar modelos a gran escala de la industria en función de sus propias características.
Sobre la base de la construcción de un gran modelo industrial, Tencent Cloud utiliza sus propios datos para realizar ajustes y crear un modelo exclusivo con mayor precisión de datos y mayor privacidad y seguridad.
Para JD.com, que ha estado cultivando la cadena de suministro durante varios años, es una mejor opción centrarse en la cadena de suministro centrándose en el negocio de comercio electrónico y el negocio de logística durante mucho tiempo. Como dijo JD.com en la conferencia de prensa del modelo a gran escala de Yanxi, "Solo haciendo real la cadena de suministro se puede hacer realidad el gran modelo".
Los fabricantes de IA como HKUST iFLYTEK también han obtenido la máxima puntuación en la pista vertical. Estos jugadores tienen la oportunidad de penetrar en la industria vertical. En la competencia entre fabricantes, liderarán las empresas con ventajas obvias en el campo vertical.
Tome IFLYTEK como ejemplo. IFLYTEK se ha centrado en el campo de la inteligencia artificial durante más de 20 años, y muchas tecnologías centrales se encuentran en el nivel líder internacional. Spark Big Model combina la capacidad de comprensión del idioma y la capacidad de expresión general del modelo grande con un complemento de búsqueda, que resuelve de manera efectiva los problemas de la industria, como la dificultad de actualizar nuevos conocimientos y el hecho de que las preguntas y respuestas de los hechos son fáciles de "marcar la diferencia".
Debido al costo extremadamente alto de entrenar modelos grandes, los desarrolladores ordinarios y las pequeñas y medianas empresas no tienen forma de comenzar. Esto también se puede ver en los resultados del informe: otras fábricas también están trabajando duro, pero el futuro es largo. Para decirlo con crueldad, puede haber pocas oportunidades incluso para comer en la mesa.
¿A dónde irá el gran modelo en el futuro?
En la conferencia WAIC no hace mucho, los jugadores que ingresaron al modelo grande ya habían definido los puntos clave: primero resolver problemas técnicos, luego implementar la escena y finalmente realizar negocios y escalar.
En la actualidad, hemos visto que los grandes modelos han comenzado a estar profundamente integrados con escenarios e industrias, por ejemplo, los grandes modelos en campos como la generación de código y la predicción de estructuras de proteínas han verificado que los grandes modelos no solo se han aplicado en empresas de tecnología, sino que también han dado pasos hacia todos los ámbitos de la vida.
El modelo doméstico a gran escala ha saltado rápidamente la etapa de las existencias conceptuales a gran escala, y el modelo a gran escala de IA se ha desarrollado de una competencia de parámetros a una competencia de aplicaciones.
Por ejemplo, el modelo grande Pangu de Huawei se ha implementado en campos como la meteorología, la investigación y el desarrollo médicos, la energía eléctrica y los idiomas, y ha entregado múltiples modelos grandes con cientos de miles de millones de parámetros. Las capacidades del modelo industrial a gran escala de Tencent Cloud se aplicarán a escenarios como el control de riesgos financieros, la traducción interactiva y el servicio al cliente inteligente digital, lo que mejora la eficiencia de las aplicaciones inteligentes y el servicio MaaS integral reduce la carga de las empresas.
Específico para el escenario de aplicación, tomando el campo financiero como ejemplo, el modelo de industria a gran escala puede respaldar soluciones de control de riesgos financieros, que tiene un aumento de 10 veces en eficiencia en comparación con antes.
El modelo a gran escala combina años de experiencia antifraude acumulada y miles de escenarios comerciales reales.En comparación con el modelo tradicional, el efecto antifraude general ha aumentado en aproximadamente un 20%. Las empresas pueden iterar las capacidades de control de riesgos basadas en modelos, desde la recolección de muestras, el entrenamiento del modelo hasta la implementación y el lanzamiento, para lograr una participación manual cero en todo el proceso, y el tiempo de modelado se reduce de 2 semanas a solo 2 días.
Incluso con una acumulación limitada de muestras, se puede completar una construcción rápida y se puede omitir el proceso de "arranque en frío".
Cómo aterrizar y comercializar se está convirtiendo en el foco de atención de los fabricantes.
Esto significa que la IA ha entrado en la etapa de implementación industrial replicable a gran escala, y solo se pueden lograr buenos resultados mediante el uso de aprendizaje de muestra pequeña o muestra cero aguas abajo, lo que reduce el costo del desarrollo de la IA. Después de actualizar el modelo grande de Baidu Wenxin, el costo se redujo con éxito al 10% del pasado.
Cualquier industria eventualmente formará un oligopolio, y los modelos grandes no son una excepción.
En los últimos meses, ha surgido una gran cantidad de nuevos modelos a gran escala. Ya sea por un deseo loco de aprovechar la oportunidad y el miedo a quedarse atrás, o por un diseño de la pista a largo plazo y una investigación dedicada, cada jugador lo sabe bien.
El cuerpo a cuerpo de cien modelos solo será un fenómeno gradual, y el resultado final aún se concentra en una pequeña cantidad de modelos grandes. Las razones no son más que las siguientes:
Primero, en el proceso de evolución, varias empresas e instituciones han encontrado gradualmente su propio posicionamiento, moviéndose gradualmente hacia la subdivisión y finalmente siendo incluidas en el modelo a gran escala más completo.
En segundo lugar, lleva años de acumulación. El modelo a gran escala que realmente se construye desde abajo es muy costoso, requiere capacidades muy completas y debe tener una mentalidad absoluta a largo plazo, lo que significa que los jugadores sin fuerza económica absoluta se quedarán a mitad de camino o "morirán" en el camino hacia la luz.
La tercera es que hay mucho espacio para la imaginación en el futuro de los grandes modelos a nivel de aplicación. Suponiendo que cada industria tiene un gran espacio para el desarrollo, la nueva tecnología de IA se puede utilizar para mejorar la eficiencia, y el valor a nivel de aplicación definitivamente se desviará. Confiar en varios modelos de cabeza grande tendrá una ecología de aplicación muy amplia.
Es innegable que en el futuro todas las empresas confiarán fuertemente en modelos grandes y todos los productos se desarrollarán en base a modelos grandes.
La tasa de penetración de la industria y la cuota de mercado se han convertido en los elementos de desafío más importantes para que un modelo de gran empresa se convierta en un oligopolio.
Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Dachang supera a ChatGPT
Original: Magnolia de Luozhi
Fuente: Nuevo extracto de la revisión comercial
En los doscientos días desde que se lanzó ChatGPT, el desarrollo de modelos domésticos a gran escala ha iniciado un modo de "huracán".
Se dice que se han lanzado 79 modelos a gran escala con una escala de más de mil millones de parámetros en China.
El campo de evolución del modelo a gran escala se centra en un tumulto de cien modelos: el modelo a gran escala de Baidu Wenxin ha evolucionado a 3,5, Ali Tongyi Qianwen ha construido un modelo familiar, el modelo a gran escala de JD Yanxi es un modelo industrial a gran escala "hecho a medida" para sí mismo;
La teoría de la evolución de los modelos a gran escala de las grandes fábricas es cruel y realista, y deben ponerse al día o ser eliminados.
Baidu Wenxin Big Model 3.5, que avanza y entrena duro, anunció recientemente que la última versión de la capacidad Yiyan de Wenxin ha superado a ChatGPT 3.5.
La selección natural, la supervivencia del más apto, los grandes fabricantes y los grandes modelos han superado a ChatGPT.
Gran modelo de fábrica, más que ChatGPT3.5
Con una chaqueta de traje negra por dentro y por fuera de blanco y con el pelo corto y bien cuidado, apareció en la Conferencia del Informe de Evaluación de Capacidad Técnica de Modelo Grande de IA.
El tema aún se estaba revisando la noche anterior. Wu Tian, vicepresidente de Baidu Group, quien acaba de regresar de un viaje de negocios, dijo en la reunión: "La nueva versión de Wenxin Yiyan ha superado ChatGPT 3.5. Este también es un hito importante para que podamos llevar a cabo trabajos técnicos relacionados en China".
Este es otro fabricante importante que confirma oficialmente que el modelo grande supera a ChatGPT después de que Liu Qingfeng de HKUST Xunfei mencionara que el modelo grande de Spark está a punto de superar a ChatGPT.
En marzo de este año, se invitó públicamente a probar el modelo de lenguaje a gran escala mejorado con conocimiento de próxima generación de Baidu "Wenxin Yiyan", basado en la versión 3.0 del modelo a gran escala de Wenxin. Después de más de 3 meses, el modelo Wenxin se actualizó a la versión 3.5 y sus efectos, funciones y rendimiento se mejoraron ampliamente.
Wenxin Yiyan 3.5 ha superado a ChatGPT3.5, muy probablemente debido al nuevo mecanismo de complemento en términos de funciones. Wenxin Large Model 3.5 ha ampliado el límite de capacidad del modelo grande a través de complementos.
El modelo grande enfatiza la fuerza técnica y la capacidad básica del modelo grande. En mayo de este año, el nuevo modelo de base grande lanzado por Baidu es Wenxin Large Model 3.5 Este modelo es el modelo básico del sistema Wenxin Yiyan.
Vale la pena mencionar que en el entrenamiento básico del modelo, la versión 3.5 también adopta la tecnología de entrenamiento paralelo híbrido adaptativo más avanzada y la estrategia de cálculo de precisión mixta de FlyPaddle, lo que acelera enormemente la velocidad de iteración del modelo.
Como todos sabemos, Baidu ha estado cultivando profundamente la investigación y el desarrollo de tecnología de inteligencia artificial completa, con un total de cuatro capas: capa de chip, capa de marco, capa de modelo y capa de aplicación.
La capa de chip tiene Kunlun Core; la capa de marco tiene la plataforma de aprendizaje profundo Paddle, que respalda firmemente el entrenamiento y el razonamiento eficientes de modelos grandes; la capa de modelo tiene el modelo grande Wenxin; en la capa de aplicación, 150,000 empresas actualmente solicitan acceso a la prueba Wenxin Yiyan.
Entre ellos, la plataforma Flying Paddle tiene 7,5 millones de desarrolladores, en comparación con los 8 a 10 millones de profesionales de software en China. Aunque los profesionales de software y los desarrolladores de aprendizaje profundo no son exactamente iguales, la ventaja en la cantidad de talentos también proporciona un grupo de expertos de gran capacidad para que Wenxin 3.5 se ponga al día con ChatGPT, similar a la existencia de Ultrain.
En comparación con las empresas extranjeras, las empresas chinas tienen ventajas naturales en la obtención del corpus chino y la comprensión de la cultura china.La industria manufacturera de China tiene las categorías más completas y tiene condiciones favorables para la formación de AIGC para industrias reales.
Muchos factores han contribuido a la promoción. Wenxin Big Model 3.0 basado en Wenxinyiyan se lanzó hace más de 100 días. Bajo la optimización colaborativa de FlyPaddle y Wenxin, Wenxin Big Model 3.5 ha crecido rápidamente. El efecto del último modelo ha aumentado en un 50 %, la velocidad de entrenamiento se ha multiplicado por 2 y la velocidad de razonamiento se ha multiplicado por 30. Ha superado con éxito a ChatGPT.
Además de la tecnología básica, Baidu ha desarrollado tres tecnologías de mejora adicionales: mejora del conocimiento, mejora de la recuperación y mejora del diálogo.
Comparando el modelo grande con los seres humanos, si las personas aprenden en forma de estructura de conocimiento y sistema de conocimiento, la eficiencia de aprendizaje es mayor. Luego, aprenda a usar herramientas para buscar, realice una recuperación extremadamente simplificada de un extremo a otro y mejore la puntualidad.
Una vez que el modelo grande ha terminado de aprender por sí mismo, tiene que aprender un entrenamiento intensivo de retroalimentación. La mejora del diálogo es como dejar que el modelo grande haga las preguntas continuamente, decirle al modelo grande lo que está bien y lo que está mal en el diálogo y, a través de las indicaciones, dejar que el modelo grande fortalezca el mecanismo de la memoria, deje que responda las preguntas de la manera que queremos y enséñele al niño cómo responder mejor.
Además de la fuerza técnica, los modelos grandes deben estar conectados a tierra.
En términos de aplicaciones industriales, el modelo a gran escala de Baidu Wenxin se originó y sirve a la práctica industrial. Ya ha explorado el camino clave para la implementación de la industria modelo a gran escala, y también ha lanzado modelos a gran escala que cubren muchas industrias y campos para acelerar la transformación inteligente de las industrias.
En la actualidad, empresas como State Grid, Pudong Development, Taikang, Geely, Harbin, Shenzhen Gas, TCL y Baidu Wenxin han cooperado entre sí.
Además, Baidu ha invertido más de 100 000 millones de yuanes en investigación y desarrollo en los últimos diez años, y su inversión principal en I+D representará más del 23 % en 2021. La cantidad de solicitudes y autorizaciones para especializaciones en inteligencia artificial ocupó el primer lugar en China durante cinco años consecutivos, y la cantidad de solicitudes de patentes de aprendizaje profundo ocupó el primer lugar en el mundo. El avance de Baidu en el campo de los modelos a gran escala de IA también está estrechamente relacionado con la fuerte inversión de Baidu en recursos de elementos.
Se puede ver que ha llegado el momento de que las grandes fábricas y los grandes modelos luchen por la investigación y el desarrollo.
¿Cuál de las grandes fábricas y grandes modelos es mejor?
En la primera mitad de este año, hubo casi cien empresas que anunciaron oficialmente que fabricarían modelos a gran escala, y cada modelo a gran escala estaba en una feroz batalla. Entre ellos, hay importantes jugadores de Internet como Ali, Baidu, Tencent, JD.com y ByteDance, así como compañías de inteligencia artificial como HKUST Xunfei y SenseTime, y otras "tropas sin nombre" también se mezclan.
En medio año, la pista modelo a gran escala ha completado el proceso desde el concepto hasta el aterrizaje, que es muy explosivo en cualquier pista.
Sin embargo, hasta el momento, no hay indicadores claros ni pautas para verificar qué modelo a gran escala es mejor. Uno tras otro, la autoevaluación de "Wang Po vende melones, vende melones y se jacta" es deslumbrante, y no hay mucha objetividad.
Entonces, en la batalla de los cien modelos, ¿quién es mejor?
En el último "Informe de evaluación de la capacidad técnica del modelo de IA a gran escala, 2023" publicado por IDC, se propone por primera vez el marco de evaluación de la capacidad técnica del modelo de IA a gran escala.
Hay tres dimensiones en el modelo de evaluación: tecnología del producto, ecología del servicio y aplicación industrial.
Hay hasta 12 indicadores de subdivisión específicos: modelo de algoritmo, capacidad de servicio, capacidad general, capacidad de innovación, capacidad de plataforma, seguridad y explicabilidad, cooperación ecológica, cobertura de la industria, finanzas, industria, atención médica y energía.
Entre ellos, el modelo de algoritmo y la cobertura de la industria son los dos indicadores más importantes para medir la capacidad de los modelos grandes En particular, los dos pueden formar un volante para la mejora iterativa continua.
Entre las capacidades técnicas de los productos, la dimensión del "modelo de algoritmo" es el elemento central de la capacidad del modelo grande, y también es la raíz que determina el efecto de aplicación del modelo grande.
La razón es que solo a través del avance de la tecnología de modelos de algoritmos y la realización de una gran base de modelos con ventajas de efectos generales puede respaldar una cobertura más amplia de la industria, permitir que todos los ámbitos de la vida disfruten plenamente de los dividendos que brindan los avances tecnológicos y resolver el dilema del umbral alto para la implementación de IA.
Entre las capacidades de aplicación de la industria, la amplitud de la cobertura de la aplicación es el indicador más importante para los fabricantes de modelos a gran escala en la actualidad, y es un reflejo integral del efecto líder general de los modelos a gran escala y la capacidad de combinar industrias.
Por lo tanto, la "cobertura de la industria" refleja la fuerza del modelo grande en la implementación industrial a través de la cantidad de clientes de nivel empresarial y la cantidad de industrias de destino.
Los principales modelos nacionales a gran escala, incluidos 14 fabricantes, incluidos Baidu, Ali, Tencent, Huawei, iFlytek, 360, SenseTime y 4Paradigm, participaron en esta evaluación.
Los grandes fabricantes y los modelos grandes tienen un alto grado de competencia. Baidu tiene la ventaja única de un diseño completo de la pila de tecnología de cuatro capas de "chip-marco-modelo-aplicación": capa de chip-núcleo Kunlun, capa de marco-paleta voladora, capa de modelo-modelo grande Wenxin y varias aplicaciones de IA. Entre ellos, la plataforma de aprendizaje profundo de desarrollo propio de Baidu, Flying Paddle, brinda un fuerte apoyo para el entrenamiento y el razonamiento eficientes de modelos grandes.
Aliyun también es muy llamativo, con 6 de los 12 indicadores obteniendo la máxima puntuación, y es el único proveedor que obtuvo la máxima puntuación en "capacidad de servicio". Como proveedor de modelos básicos, la capacidad de la plataforma, la capacidad de servicio y el nivel de cooperación ecológica de los grandes fabricantes de modelos son muy importantes para el desarrollo de la industria. Alibaba Cloud obtuvo la máxima puntuación en los tres indicadores.
En la actualidad, la gran familia de modelos de propósito general de Alibaba Cloud tiene la capacidad de procesar o generar texto, voz e imágenes y otras modalidades. En los últimos tres meses, Alibaba Cloud ha lanzado sucesivamente el modelo básico "Tongyi Thousand Questions", el producto de modelo a gran escala de audio y video "Tongyi Tingwu" y el modelo a gran escala de creación de pintura con IA "Tongyi Wanxiang". La familia de modelos a gran escala Tongyi todavía está en constante iteración y evolución.
Tencent Cloud y JD Cloud, ambas importantes empresas de Internet, han optado por centrarse en el lado de la industria y lanzar modelos a gran escala de la industria en función de sus propias características.
Sobre la base de la construcción de un gran modelo industrial, Tencent Cloud utiliza sus propios datos para realizar ajustes y crear un modelo exclusivo con mayor precisión de datos y mayor privacidad y seguridad.
Para JD.com, que ha estado cultivando la cadena de suministro durante varios años, es una mejor opción centrarse en la cadena de suministro centrándose en el negocio de comercio electrónico y el negocio de logística durante mucho tiempo. Como dijo JD.com en la conferencia de prensa del modelo a gran escala de Yanxi, "Solo haciendo real la cadena de suministro se puede hacer realidad el gran modelo".
Los fabricantes de IA como HKUST iFLYTEK también han obtenido la máxima puntuación en la pista vertical. Estos jugadores tienen la oportunidad de penetrar en la industria vertical. En la competencia entre fabricantes, liderarán las empresas con ventajas obvias en el campo vertical.
Tome IFLYTEK como ejemplo. IFLYTEK se ha centrado en el campo de la inteligencia artificial durante más de 20 años, y muchas tecnologías centrales se encuentran en el nivel líder internacional. Spark Big Model combina la capacidad de comprensión del idioma y la capacidad de expresión general del modelo grande con un complemento de búsqueda, que resuelve de manera efectiva los problemas de la industria, como la dificultad de actualizar nuevos conocimientos y el hecho de que las preguntas y respuestas de los hechos son fáciles de "marcar la diferencia".
Debido al costo extremadamente alto de entrenar modelos grandes, los desarrolladores ordinarios y las pequeñas y medianas empresas no tienen forma de comenzar. Esto también se puede ver en los resultados del informe: otras fábricas también están trabajando duro, pero el futuro es largo. Para decirlo con crueldad, puede haber pocas oportunidades incluso para comer en la mesa.
¿A dónde irá el gran modelo en el futuro?
En la conferencia WAIC no hace mucho, los jugadores que ingresaron al modelo grande ya habían definido los puntos clave: primero resolver problemas técnicos, luego implementar la escena y finalmente realizar negocios y escalar.
En la actualidad, hemos visto que los grandes modelos han comenzado a estar profundamente integrados con escenarios e industrias, por ejemplo, los grandes modelos en campos como la generación de código y la predicción de estructuras de proteínas han verificado que los grandes modelos no solo se han aplicado en empresas de tecnología, sino que también han dado pasos hacia todos los ámbitos de la vida.
El modelo doméstico a gran escala ha saltado rápidamente la etapa de las existencias conceptuales a gran escala, y el modelo a gran escala de IA se ha desarrollado de una competencia de parámetros a una competencia de aplicaciones.
Por ejemplo, el modelo grande Pangu de Huawei se ha implementado en campos como la meteorología, la investigación y el desarrollo médicos, la energía eléctrica y los idiomas, y ha entregado múltiples modelos grandes con cientos de miles de millones de parámetros. Las capacidades del modelo industrial a gran escala de Tencent Cloud se aplicarán a escenarios como el control de riesgos financieros, la traducción interactiva y el servicio al cliente inteligente digital, lo que mejora la eficiencia de las aplicaciones inteligentes y el servicio MaaS integral reduce la carga de las empresas.
Específico para el escenario de aplicación, tomando el campo financiero como ejemplo, el modelo de industria a gran escala puede respaldar soluciones de control de riesgos financieros, que tiene un aumento de 10 veces en eficiencia en comparación con antes.
El modelo a gran escala combina años de experiencia antifraude acumulada y miles de escenarios comerciales reales.En comparación con el modelo tradicional, el efecto antifraude general ha aumentado en aproximadamente un 20%. Las empresas pueden iterar las capacidades de control de riesgos basadas en modelos, desde la recolección de muestras, el entrenamiento del modelo hasta la implementación y el lanzamiento, para lograr una participación manual cero en todo el proceso, y el tiempo de modelado se reduce de 2 semanas a solo 2 días.
Incluso con una acumulación limitada de muestras, se puede completar una construcción rápida y se puede omitir el proceso de "arranque en frío".
Cómo aterrizar y comercializar se está convirtiendo en el foco de atención de los fabricantes.
Esto significa que la IA ha entrado en la etapa de implementación industrial replicable a gran escala, y solo se pueden lograr buenos resultados mediante el uso de aprendizaje de muestra pequeña o muestra cero aguas abajo, lo que reduce el costo del desarrollo de la IA. Después de actualizar el modelo grande de Baidu Wenxin, el costo se redujo con éxito al 10% del pasado.
Cualquier industria eventualmente formará un oligopolio, y los modelos grandes no son una excepción.
En los últimos meses, ha surgido una gran cantidad de nuevos modelos a gran escala. Ya sea por un deseo loco de aprovechar la oportunidad y el miedo a quedarse atrás, o por un diseño de la pista a largo plazo y una investigación dedicada, cada jugador lo sabe bien.
El cuerpo a cuerpo de cien modelos solo será un fenómeno gradual, y el resultado final aún se concentra en una pequeña cantidad de modelos grandes. Las razones no son más que las siguientes:
Primero, en el proceso de evolución, varias empresas e instituciones han encontrado gradualmente su propio posicionamiento, moviéndose gradualmente hacia la subdivisión y finalmente siendo incluidas en el modelo a gran escala más completo.
En segundo lugar, lleva años de acumulación. El modelo a gran escala que realmente se construye desde abajo es muy costoso, requiere capacidades muy completas y debe tener una mentalidad absoluta a largo plazo, lo que significa que los jugadores sin fuerza económica absoluta se quedarán a mitad de camino o "morirán" en el camino hacia la luz.
La tercera es que hay mucho espacio para la imaginación en el futuro de los grandes modelos a nivel de aplicación. Suponiendo que cada industria tiene un gran espacio para el desarrollo, la nueva tecnología de IA se puede utilizar para mejorar la eficiencia, y el valor a nivel de aplicación definitivamente se desviará. Confiar en varios modelos de cabeza grande tendrá una ecología de aplicación muy amplia.
Es innegable que en el futuro todas las empresas confiarán fuertemente en modelos grandes y todos los productos se desarrollarán en base a modelos grandes.
La tasa de penetración de la industria y la cuota de mercado se han convertido en los elementos de desafío más importantes para que un modelo de gran empresa se convierta en un oligopolio.