¿Qué tan difícil es aterrizar un modelo vertical?

Question

Fuente original: esas cosas en Internet![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e08b39ed63-dd1a6f-1c6801) Fuente de la imagen: Generada por Unbounded AI‌El estado actual de la pista del modelo a gran escala: **Por un lado, las empresas de nueva creación se basan en modelos a gran escala de código abierto y, por otro lado, los grandes fabricantes están involucrando varios parámetros del modelo a gran escala* *.> Según las estadísticas incompletas de la organización, actualmente hay 79 modelos a gran escala con una escala de más de mil millones de parámetros en China. En el proceso de gran involución de parámetros, otra voz comenzó a aparecer en el mercado, "la mejora de parámetros sin dirección de desarrollo no tiene sentido".Por esta razón, en términos de dirección de desarrollo, algunos modelos grandes se han centrado en la aplicación de campos verticales. Basado en el desarrollo de miles de modelos, la base puede cambiar, pero si lo piensas bien, siempre habrá alguien que pueda quedarse sin la industria vertical.Al mismo tiempo, en la etapa inicial de desarrollo, aunque los modelos grandes de código cerrado son de mejor calidad y relativamente seguros, la ecología del modelo a gran escala necesita un cierto grado de involución después de todo, y el código abierto en realidad puede promover la prosperidad de modelos grandes. Desde otra perspectiva, basada en código abierto, muchas empresas tienen las calificaciones para participar en la pista, pero siempre hay algunas personas que caen fácilmente en el primer nivel: la escasez de poder de cómputo.Después de todo, la cantidad de modelos grandes está aumentando en múltiplos, pero si observamos la cantidad cada vez mayor de modelos grandes de manera unilateral, hasta cierto punto, ignoraremos las opciones, las luchas e incluso los problemas de algunas empresas detrás de los grandes. modelos La posibilidad de renunciar después de elegir.Como todos sabemos, los tres elementos de la inteligencia artificial son: **poder de cómputo, algoritmo y datos**. El código abierto solo se encuentra en la etapa del algoritmo, después de lo cual las empresas necesitan mucho soporte de potencia informática y capacitación de datos, el costo detrás de esto es alto.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6f845a3753-dd1a6f-1c6801)## 01 Modelo vertical, ¿todavía hay esperanza para las empresas de nueva creación?En la selección de modelos grandes de código abierto, con base en razones de costo y desarrollo personalizado, no son pocas las empresas emprendedoras que eligen modelos de parámetros pequeños, e incluso son la primera opción de tales empresas.**Uno es el tema del costo de la capacitación previa. **> Guosheng Securities estimó una vez que el costo de la capacitación de GPT-3 es de aproximadamente 1,4 millones de dólares estadounidenses, y para algunos modelos LLM más grandes, el costo de la capacitación es de entre 2 y 12 millones de dólares estadounidenses.Incluyendo enero de este año, un promedio de alrededor de 13 millones de visitantes únicos usan ChatGPT todos los días. La demanda de chips correspondiente es más de 30,000 GPU NVIDIA A100. El costo de inversión inicial es de aproximadamente 800 millones de dólares estadounidenses, y el costo diario de electricidad es de aproximadamente 50,000 Dólares estadounidenses.Además, antes de invertir mucho dinero, se necesitan muchos recursos de datos para respaldar el entrenamiento del modelo. Otra razón de esto es la cuestión de los requisitos de formación previa.Algunas personas en la industria también han expresado sus puntos de vista sobre esto: "La capacidad de generalización del modelo grande en sí todavía está limitada por los datos".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4eec942c67-dd1a6f-1c6801) Debido a que una vez que los datos de alta calidad del modelo grande se filtran y entrenan muy poco, el problema de la calidad de salida del modelo grande será obvio y la experiencia del usuario se reducirá considerablemente en términos de experiencia.Se puede decir que en el proceso de pre-entrenamiento se ha gastado mucho dinero y tiempo solo en la acumulación de datos.Es más, en la pista de modelos a gran escala, la mayoría de las startups se desarrollan en torno al campo vertical de la industria y, aunque el esfuerzo es relativamente pequeño, no debe ser fácil.Específicamente, si un modelo grande quiere cambiar el modelo de negocios de la industria, entonces el criterio más simple para juzgar esto es si el modelo grande de este tipo tiene suficientes datos de la industria, por ejemplo, es necesario analizar los productos negros escondidos en el oscuro Solo con suficiente comprensión podemos no ser utilizados por productos negros y estar en un estado seguro y pasivo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2fd8165013-dd1a6f-1c6801) ** Otro criterio para juzgar es la calidad del resultado final de los datos procesados por el modelo grande cuando se está ejecutando. **Después de todo, si desea romper el modelo de monopolio basado en el modelo de código abierto, debe optimizar y mejorar una gran cantidad de datos e invertir en suficiente infraestructura.El modelo de código abierto de hoy en día se parece más a Android en la era de Internet. No es fácil para las empresas de nueva creación desarrollarse sin las ventajas de los escenarios de aterrizaje de los grandes fabricantes y la acumulación de datos, pero aún hay oportunidades.De hecho, el Instituto Bodhidharma alguna vez consideró el "desarrollo cooperativo de modelos grandes y pequeños" como una de las tendencias futuras.Incluso la empresa emergente Zhuiyi Technology cree que "el gran modelo vertical es una oportunidad sólida, al igual que el descubrimiento del continente americano es mucho más que una sola persona".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-93333c8386-dd1a6f-1c6801) Así que ahora podemos ver que muchas nuevas empresas han comenzado a optar por ingresar a la pista de modelos a gran escala, incluidos DriveGPT Xuehu Hairuo, Qizhi Kongming y ChatYuan Yuanyu lanzados por nuevas empresas de inteligencia artificial como Momo Zhixing, Innovation Qizhi y Yuanyu Intelligence, entre otras. modelos grandes.Sin embargo, aunque no existen productos nacionales para el extremo C, basados en el extremo B, los principales fabricantes han comenzado el proceso de implementación inicial.Se informa que los principales fabricantes actualmente planean exportar modelos grandes a través de la nube. La computación en la nube se ha convertido en la mejor manera de implementar un modelo grande. El modelo como servicio (MaaS) ha atraído cada vez más la atención, y esto también traerá la costo de los modelos grandes.disminución.Entonces, ¿todavía hay esperanza para las startups?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-183a1d49c5-dd1a6f-1c6801)## 02 ¿Se corresponde la experiencia del producto con la demanda del mercado?> Según la predicción de la revista autorizada "Fast Company", los ingresos de OpenAI en 2023 alcanzarán los 200 millones de dólares estadounidenses, incluida la provisión de servicios de interfaz de datos API, tarifas de servicio de suscripción de robots de chat, etc.Obviamente, existe una demanda de modelos grandes en varias industrias, pero según las consideraciones de seguridad y la actitud de B hacia los modelos grandes, el factor de seguridad actual de los modelos grandes es limitado. Por lo tanto, sobre una base relativamente básica, las grandes empresas de Internet también están dando prioridad a los diálogos de alta demanda, la generación de contenido de documentos y los escenarios de preguntas y respuestas, incluidos los diálogos en la oficina colaborativa, la generación de documentos y muchos otros escenarios.Por ejemplo, ahora los humanos solo necesitan decirle a AI sobre la información del producto, dejar que AI genere automáticamente una variedad de estilos de guiones y estilos de entrega de productos, y luego asignar un ancla humana digital para ayudar a las empresas a vender los productos. Según Baidu, en comparación con la transmisión en vivo, la transmisión digital en vivo puede lograr 7\*24 horas de transmisión en vivo ininterrumpida, y la tasa de conversión es el doble que la de las salas de transmisión en vivo no tripuladas.Con la infraestructura en la nube como la base necesaria para el emprendimiento a gran escala, los gigantes de Internet con computación en la nube tienen ciertas ventajas.> De acuerdo con los datos de seguimiento del mercado IaaS de computación en la nube global de 2022 publicados por IDC, los 10 principales actores de participación de mercado son todas grandes empresas en China y los Estados Unidos, incluidas Amazon, Google, Microsoft e IBM en los Estados Unidos, y Ali, Huawei, Tencent y Baidu en China.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-53326b8418-dd1a6f-1c6801) Aunque las disputas de código abierto y código cerrado de los grandes modelos no terminarán con la aparición de uno o varios productos, se necesita más participación de los mejores talentos, iteración técnica y apoyo financiero.Pero en comparación horizontal, muchas empresas emergentes de IA también carecen de la suerte de la empresa unicornio MiniMax. (La diferencia es que MiniMax se enfoca en modelos grandes generales)El 20 de julio, Tencent Cloud reveló el último progreso para ayudar a MiniMax a desarrollar modelos grandes. En la actualidad, Tencent Cloud admite las tareas a nivel de kilocalorías de MiniMax para ejecutarse de manera estable en Tencent Cloud durante mucho tiempo, con una disponibilidad del 99,9 %.Se informa que a partir de junio de 2022, en función de las capacidades del producto, como clústeres de potencia informática, nube nativa, macrodatos y seguridad, Tencent Cloud ha creado una arquitectura de nube para MiniMax desde la capa de recursos, la capa de datos y la capa empresarial.La realidad parece demostrar una vez más que obtener el boleto de admisión es el primer paso, y la siguiente prueba es la capacidad de los actores del mercado para explorar la comercialización y las actualizaciones tecnológicas. Para decirlo sin rodeos, las empresas emergentes de IA quieren llegar al final de la pista y no deben perderse cada paso.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-82f1a392c9-dd1a6f-1c6801) Hasta cierto punto, las empresas de nueva creación no carecen de ventajas en el desarrollo de modelos grandes.Aunque algunas de las principales empresas de Internet ya se han dado cuenta de los escenarios iniciales o han comenzado a vender servicios para obtener ingresos, los ojos de las principales empresas y MiniMax están más centrados en los modelos grandes de uso general.La maqueta vertical sigue siendo un vacío. Especialmente para los grupos empresariales tradicionales, teniendo en cuenta los bajos atributos de TI de sus propios negocios y la baja relación insumos-producción, la probabilidad de elegir un gran modelo de desarrollo propio es baja.Por ejemplo, Chuangxin Qizhi se enfoca en el producto modelo industrial a gran escala "Qizhi Kongming"; tiene una cierta ventaja de datos y desarrolla un modelo de lenguaje a gran escala en ChatYuan; el principal modelo generativo a gran escala autodirigido DriveGPT Xuehu · Hairuo .Sin embargo, hay una cosa que decir, los datos de entrenamiento y la dirección son diferentes, y el costo varía mucho.Primero, el costo de entrenar un gran modelo de metalenguaje desde cero puede llegar a decenas de millones de RMB. En el campo de la conducción autónoma generativa, es necesario diseñar un nuevo lenguaje que no sea ChatGPT y luego "traducir" todos los datos reales de conducción en carretera a un lenguaje unificado.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-485a9bccae-dd1a6f-1c6801) Hasta cierto punto, las empresas emergentes de IA pueden realizar una gran inversión en modelos grandes y beneficiarse más del éxito de ChatGPT en los negocios y el marketing, que puede permitir que las personas sean testigos instantáneos de la viabilidad de los modelos grandes, en lugar de continuar. hide in the En la larga iteración técnica.Por ello, el primer paso para concretar la implementación actual es que el coste de entrenamiento y coste de razonamiento del modelo grande debe ser inferior al de búsqueda, y además se puede garantizar la inmediatez.## 03 ¿Qué tan difícil es desde el concepto hasta la implementación?Existe la opinión de que las empresas chinas de nueva creación a gran escala que pueden agotarse probablemente se integren verticalmente.> En pocas palabras, mientras crea el modelo grande subyacente, identifique el escenario de aplicación principal final de un modelo, recopile datos de usuario y realice iteraciones rápidas.Visualmente, la inteligencia metalingüística se inclina más por esta categoría. En resumen, durante mucho tiempo, la inteligencia del metalenguaje se ha centrado en el negocio de los grandes modelos de lenguaje natural.El director de operaciones de Yuanyu, Zhu Lei, también dijo: "No expandiremos ciegamente el negocio de imágenes y videos solo para hacer lo mismo. Un buen enfoque comercial es importante".Sin embargo, para otras empresas emergentes que se están convirtiendo en modelos verticales a gran escala, como la conducción autónoma y la producción industrial, pueden carecer del conocimiento de algunos datos especiales de la industria.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d213e0ad86-dd1a6f-1c6801) Después de todo, en la pista del modelo vertical a gran escala, un factor central de la futura competencia empresarial son los datos privados y la experiencia privada.Cuando los modeladores a gran escala no conocen el proceso de una empresa individual, puede tener una competitividad única.Además, en el proceso de enfoque comercial, también se requiere la precisión de los datos desde la fuente hasta la capacitación previa y la salida.La IA generativa también está recibiendo actualmente más atención regulatoria. Recientemente, China publicó las "Medidas de gestión del servicio de inteligencia artificial generativa (borrador para comentario)", que exigen claramente que no debe haber discriminación, el contenido generado debe ser verdadero y preciso, y debe evitarse la información falsa. además de filtrado de contenido, optimización de modelos, etc. para la optimización.Sin embargo, si se trata de un defecto inherente a la inteligencia artificial generativa, técnicamente es difícil garantizarlo y solucionarlo por completo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5c42394c68-dd1a6f-1c6801) Además, con el surgimiento de un mejor modelo de código abierto, habrá una afluencia de más empresas ansiosas por probar.Para las empresas de nueva creación, ¿no es esto competencia?Por ejemplo, el actual Llama 2, el 18 de julio, Meta lanzó la versión comercial Llama 2 del primer modelo de inteligencia artificial de código abierto Llama. Algunas empresas creen que, según los diversos documentos de evaluación actuales, además de la escasa capacidad de codificación, de hecho, muchos lugares han comenzado a acercarse a ChatGPT.Quizás el frenesí de la comunidad de código abierto en el futuro popularice modelos a gran escala con capacidades básicas, y los modelos a gran escala privatizados serán el precio del repollo en el futuro. Para decirlo sin rodeos, las empresas pueden utilizar el modelo de privatización a muy bajo costo.Más importante aún, Tang Daosheng dijo una vez: "El modelo grande general tiene capacidades sólidas, pero no puede resolver los problemas específicos de muchas empresas. Puede resolver el 70% -80% de los problemas en 100 escenarios, pero es posible que no pueda resolver los problemas específicos de muchas empresas. El 100% satisface las necesidades de un determinado escenario de la empresa. Sin embargo, si la empresa realiza un ajuste fino basado en el modelo grande de la industria y sus propios datos, puede construir un modelo dedicado y crear altamente servicios inteligentes disponibles".Por supuesto, este tipo de modelo de privatización aún no ha llegado, pero las nuevas empresas en la pista deben tener tanto oportunidades como dificultades.