Producido | Tiger Sniff Technology Group
Autor | Qi Jian
Redactor | Liao Ying
Fuente de la imagen: Generada por Unbounded AI
El 7 de agosto, otra nueva empresa nacional de IA lanzó su propio modelo de IA comercial gratuito y de código abierto: XVERSE-13B. La empresa llamada Yuanxiang XVERSE fue fundada por Yao Xing, exvicepresidente de Tencent y fundador del laboratorio Tencent AI.
Desde que Meta lanzó los modelos grandes de la serie LLaMA 2 de código abierto para uso comercial gratuito en julio, se está gestando una nueva ola de "código abierto" en el mercado de modelos a gran escala de IA.
El 2 de agosto, Wenxin Qianfan, una plataforma de modelos a gran escala de IA bajo Baidu, anunció el acceso a la serie completa de modelos de código abierto de LLaMA2. El número de modelos a gran escala que se pueden llamar en la plataforma ha aumentado a 33. A excepción de 3 modelos de Wenxin, los otros 30 modelos son todos de código abierto, incluidos ChatGLM2, RWKV, MPT, Dolly, OpenLLaMA, Falcon, etc.
Al día siguiente, Alibaba Cloud también anunció unirse a las filas del modelo de código abierto. El modelo de código abierto Tongyi Qianwen de 7 mil millones de parámetros incluye el modelo general Qwen-7B y el modelo de diálogo Qwen-7B-Chat. Los dos modelos se han lanzado en la comunidad Mota. Son de código abierto, gratuitos y disponibles comercialmente.
Curiosamente, esta actitud positiva hacia el código abierto y la apertura comenzó con Microsoft, el gran propietario del modelo de código cerrado ChatGPT. ** El 18 de julio, Microsoft anunció que cooperará con Meta para lanzar la versión comercial de código abierto del modelo LLaMA 2, brindando a las empresas alternativas a los modelos OpenAI y Google. **La posición de monopolio de OpenAI en el mercado de modelos a gran escala de IA parece estar siendo "objetivo" de toda la industria, incluso de sus socios más cercanos.
Como el modelo de lenguaje grande reconocido mundialmente, GPT-4 de OpenAI es actualmente el único modelo de lenguaje grande con una gran cantidad de usuarios dispuestos a pagar por él.
El mejor estudiante de la clase generalmente no está motivado para unirse al grupo de estudio. Del mismo modo, **OpenAI no tiene motivos ni motivación para abrir el código. **
Sin embargo, con el código abierto completo de LLaMA 2, cada vez más desarrolladores han invertido en Meta y en varios modelos de código abierto. Al igual que Android usa el código abierto para luchar contra iOS, una gran cantidad de modelos de IA de código abierto están eludiendo activamente las barreras técnicas de GPT-4 y los alrededores de OpenAI con un ecosistema de código abierto. **
¿Por qué código abierto?
Cuando OpenAI lanzó por primera vez la función de complemento, muchas personas compararon el modelo de IA con el futuro Windows, iOS y Android. Ahora, con el lanzamiento de LLaMA 2, el modelo grande de IA no es solo una función, sino que incluso la estructura del mercado se está desarrollando hacia la dirección del sistema operativo.
Iniciado por LMSYS Org, una organización dirigida por UC Berkeley, es una competencia de clasificación para modelos de lenguaje grandes (LLM); al 20 de julio, la última versión de la clasificación ha contado 40 modelos grandes de IA, y los cinco primeros aún están cerrados Sources Model (Propietario), que son tres modelos de GPT-4, GPT-3.5-turbo y Claude. Sin embargo, los siguientes 34 modelos, excepto PaLM-Chat-Bison-001 de Google, son todos modelos de código abierto, 15 de los cuales no son comerciales.
*Tabla de clasificación de LMSYS Org Large Language Models (LLM) lanzada el 20 de julio
Chatbot Arena: calcula las calificaciones de Elo utilizando más de 50,000 votos de usuarios.
MT-Bench: un conjunto de desafiantes problemas de varias rondas.
MMLU (5 disparos): una prueba que mide la precisión multitarea de un modelo en 57 tareas. *
Aunque en términos de capacidades del modelo, mirando todo el mercado, ningún modelo, independientemente de que sea de código abierto o de código cerrado, puede atreverse a competir de frente con GPT-4. Sin embargo, los Tigres no pudieron hacer frente a los lobos, y no pudieron vencer a los grandes modelos de GPT-4. Eligieron "cambiar de carril y adelantar" y usar código abierto para aprovechar la ecología de la aplicación. Esto parece ser algo similar a la lucha de Android contra iOS.
"En este momento, todos los grandes modelos de código abierto tienen un propósito, y ese es el marketing".
El fundador de una empresa nacional de investigación y desarrollo de modelos a gran escala de código abierto admitió a Tiger Sniff que la razón principal para promover modelos a gran escala de código abierto y sistemas Android de código abierto es captar el mercado de forma gratuita. "Muchas grandes empresas han lanzado grandes modelos de IA, o simplemente crearon una aplicación basada en un modelo existente y luego comenzaron a promocionarla con bombos y platillos. De hecho, para los usuarios de grandes modelos básicos, gastar más dinero en publicidad es más costoso. que realmente no es de código abierto para el modelo ". Esta es también la mejor manera para que las empresas de IA demuestren su fortaleza.
Primero, los modelos de código abierto son más fáciles de evaluar que los modelos cerrados. Debido a que el código y los conjuntos de datos de los modelos de código abierto están disponibles públicamente, los investigadores pueden inspeccionar directamente la arquitectura del modelo, los datos de entrenamiento y el proceso de entrenamiento para realizar un análisis más profundo del modelo para comprender sus fortalezas y debilidades.
"Algunos modelos grandes de IA parecen ser muy capaces, pero no son de código abierto y solo puedes ver los resultados de su producción".
En comparación con el modelo de código abierto, el modelo de código cerrado solo puede comprender las ventajas y desventajas del modelo a través de la evaluación del rendimiento del modelo. Esto lleva al hecho de que el rendimiento de los modelos de código cerrado puede exagerarse artificialmente u ocultar sus deficiencias. La transparencia del modelo de código abierto puede ayudar a los desarrolladores a obtener una comprensión más profunda del modelo y evaluarlo de manera más justa.
Para los recién llegados, existe otro problema con el modelo de código cerrado: es fácil cuestionar la originalidad de la tecnología. Muchos desarrolladores de modelos grandes le dijeron una vez a Huxiu: "Para aquellos modelos que no son de código abierto, para decirlo sin rodeos, incluso si es un shell LLaMA, o simplemente llama a la interfaz ChatGPT en segundo plano, ¿quién sabe?"
Cuando salió la primera ola de grandes modelos domésticos de IA, tales voces de duda circularon ampliamente en Internet. Para esos grandes modelos de IA que no son de código abierto, es difícil probar su inocencia Para probar que no están llamando a la API de ChatGPT, algunas compañías incluso movieron el servidor de razonamiento y sacaron el cable de red para demostrar en el lugar.
El código abierto es, sin duda, una de las mejores formas de autocertificar grandes modelos de IA. Pero el valor real de **open source no es la capacidad de autocertificación, sino aprovechar la ecología. **
"Después del lanzamiento de LLaMA 2, definitivamente se apoderará del ecosistema OpenAI rápidamente". Un gran desarrollador de modelos le dijo a Huxiu que, aunque la industria casi reconoce que GPT-4 tiene la capacidad más fuerte, los modelos posteriores a GPT-3 no son de código abierto. Además, la apertura de la interfaz API de GPT-4 también es muy baja, por lo que existen muchas restricciones en el desarrollo del modelo GPT. Como resultado, muchos desarrolladores eligen modelos de código abierto como LLaMA Estos modelos de código abierto no solo pueden ajustar las instrucciones, sino también realizar investigaciones sobre los modelos subyacentes.
"LLaMA es definitivamente más popular entre los desarrolladores que OpenAI".
Cuando LLaMA 2 se lanzó por primera vez el 19 de julio, había más de 5600 proyectos en GitHub con palabras clave que incluían "LLaMA" y más de 4100 proyectos que incluían "GPT-4". Dos semanas después de su lanzamiento, la tasa de crecimiento de LLaMA es más rápida. Al cierre de esta edición, hay más de 6200 "LLaMA" y más de 4400 "GPT-4".
Por otro lado, los modelos de código abierto se pueden descargar localmente para su implementación privatizada, lo que facilita la capacitación en IA para empresas comerciales. Las aplicaciones de IA de dichas empresas deben capacitarse en función de sus propios datos comerciales, y el modelo de IA a gran escala implementado de forma privada puede proteger la seguridad de los datos en la mayor medida posible. Al mismo tiempo, hay más opciones de poder de cómputo para la implementación privatizada, ya sea servicio en la nube, implementación local o incluso poder de cómputo distribuido de múltiples IDC, lo que reduce en gran medida el costo de la capacitación y el razonamiento del modelo.
Aunque ChatGPT ha cosechado 100 millones de usuarios activos mensuales en solo dos meses, en el ecosistema de desarrolladores, la velocidad a la que el modelo de código abierto se apodera de la mente de los usuarios parece ser más rápida.
En la actualidad, muchas empresas nacionales de IA han optado por lanzar modelos de código abierto. Estos incluyen el modelo de código abierto ChatGLM-6B lanzado por Zhipu AI, MOSS lanzado por la Universidad de Fudan, Wudao Tianying Aquila lanzado por el Instituto de Investigación Zhiyuan y Baichuan-7B (13B) lanzado por Baichuan Intelligent. Entre ellos, ChatGLM-6B, un gran modelo de código abierto lanzado por **Zhipu AI, se ha descargado más de 4 millones de veces en todo el mundo y ha recibido 32 000 estrellas en GitHub, 3000 estrellas más que LLaMA. **
"Si no hacemos un modelo de código abierto, el mercado pronto estará lleno de LLaMA". modelo grande
Algunos modelos grandes de IA de código abierto domésticos
De hecho, antes de que comenzara la tendencia de los LLM, la IA generativa ya había librado una batalla entre el código abierto y el código cerrado.
** Con una gran cantidad de desarrolladores y aplicaciones de productos, el modelo de gráfico Wensheng de código abierto Stable Diffusion casi arrinconó al primer modelo de código cerrado Dall-E 2 de OpenAI. Aunque los usuarios generalmente creen que las capacidades del modelo de Stable Diffusion no son tan buenas como las de otro producto de código cerrado, MidJourney, Stable Diffusion se ha apoderado de una gran cantidad de mercados de gráficos de Vincent en virtud de su código abierto y sus atributos gratuitos, y se ha convertido en el El modelo gráfico de Vincent más convencional Su empresa de desarrollo RunwayML And Stability AI también ha recibido mucha atención y financiación. **
El modelo de código abierto de LLaMA 2 parece querer forzar OpenAI en el campo de los LLM.
Código abierto con bienes
LLaMA 2 es actualmente de código abierto, los tres modelos de la serie: 7 mil millones, 13 mil millones y 70 mil millones de versiones de parámetros. Sin embargo, también hay rumores en el mercado de que "Meta en realidad tiene una versión con parámetros más grandes que no se ha lanzado. La próxima versión puede tener una versión con parámetros más grandes, pero puede que no sea de código abierto".
Vale la pena señalar que, en la actualidad, muchos modelos de código abierto no son todos de código abierto. En el modelo Enlightenment 3.0 lanzado por el Instituto de Investigación Zhiyuan, solo el modelo de lenguaje básico "Tianying" es de código abierto; el ChatGLM lanzado por Zhipu AI solo ha abierto una parte de la serie de modelos, y el modelo más grande de 130 mil millones de parámetros sigue siendo fuente cerrada. **
Independientemente de si LLaMA 2 está "reservado" para modelos más grandes, la forma "gratuita" sin duda acelerará la formación de Meta en el mercado de modelos grandes y lo empujará hacia el "viejo camino" de Android.
A través del ecosistema de código abierto, el sistema Android ha acumulado una gran cantidad de desarrolladores y usuarios en todo el mundo. En términos de ecología tecnológica, ha controlado y equilibrado en gran medida el sistema líder de código cerrado iOS, e incluso formó su propio monopolio en algunos mercados. Desde 2018, la Unión Europea ha impuesto una multa de más de 4.000 millones de euros a Google por el mecanismo de monopolio del sistema Android. A partir de esta multa altísima, también podemos ver cuán rentable es el sistema Android de código abierto.
Según un informe de la firma de investigación Sensor Tower, el gasto de los usuarios en Google Play será de aproximadamente 53 mil millones de dólares en 2022, y esta cifra aumentará a 60 mil millones de dólares en 2023. Según un informe publicado por otra institución de investigación, Statista, a partir de enero de 2022, hay alrededor de 140 000 aplicaciones en Google Play Store.
En esta etapa, el modelo de IA de código abierto obviamente aún no es tan popular como los teléfonos móviles. Sin embargo, incluso si la IA es realmente tan popular como los teléfonos móviles, los gigantes como Meta no dejarán ir fácilmente a las empresas que han ganado mucho dinero con LLaMA 2.
En el acuerdo de código abierto de LLaMA 2, existe tal estipulación: **Si los usuarios activos mensuales superan los 700 millones, debe solicitar una licencia de Meta. Meta puede, a su exclusivo criterio, otorgarle una licencia y usted no tendrá derecho a ejercer ninguno de estos derechos. **
Al mismo tiempo, además de la versión de código cerrado del modelo de código abierto y la aplicación de modelos grandes de IA, también puede ayudar a la potencia informática a "traer bienes".
Los dos primeros fabricantes en China en promover modelos de IA a gran escala, Baidu y Ali, son fabricantes de nube. Los otros dos proveedores de la nube, Tencent Cloud y Huawei Cloud, aunque no tienen productos LLM como Wenxin Yiyan y Tongyi Qianwen, también continúan gritando sobre los modelos de IA. La razón principal detrás de esto es el "efecto portador" del modelo grande en la nube.
"El mercado y los clientes también promueven conjuntamente el anuncio de algunas acciones sobre modelos de IA a gran escala. En los últimos meses, ha habido demasiados clientes que han venido a preguntar sobre modelos a gran escala", dijo un líder empresarial en la nube de Tencent. Huxiu que la potencia informática se puso en cola, que es la mejor prueba de la capacidad del modelo grande de IA para transportar mercancías.
**El modelo no necesita generar dinero, pero el poder de cómputo debe ser rentable. **Alibaba abrió Tongyi Qianwen y Baidu introdujo 30 modelos de código abierto en la plataforma de modelos a gran escala Wenxin Qianfan Estas dos acciones son para ofrecer capacidades de IA "gratuitas" a los usuarios. Los usuarios que utilizan el modelo de código abierto ya no pagan por la IA, pero mientras su IA se ejecute en Alibaba Cloud y Baidu Smart Cloud, tendrán que pagar por la potencia informática.
"AI también debería volver a la idea de la nube y ganar dinero con la nube." Xin Zhou, gerente general de Baidu Smart Cloud AI y Big Data Platform, dijo que la intención original de abrir la La plataforma de modelo grande es crear valor para los negocios de los clientes. Mientras crea valor, puede mejorar la adherencia de los clientes antiguos y expandir más clientes nuevos. Esto es de gran ayuda para expandir el efecto de escala de los proveedores de la nube.
Gratis es más caro
"10 millones, es aproximadamente la misma cantidad que el precio inicial para personalizar un modelo grande."
El fundador de una empresa de modelos a gran escala de código abierto le dio una cotización al intermediario que vino a consultar por teléfono.
"Después de que los usuarios hayan reconocido el modelo de código abierto, puede hablar con otros sobre la tarifa de servicio para el desarrollo personalizado". Después de que el fundador colgó el teléfono, le explicó a Huxiu que para un modelo como LLaMA 2, el costo de desarrollo es al menos lo que cuesta Decenas de millones de dólares. Por lo tanto, el mercado al que se dirige debe ser decenas o cientos de veces el costo de desarrollo.
Desde el punto de vista actual, la mejor manera para que las empresas de **IA ganen dinero con los modelos de código abierto es comenzar con los servicios. **
Afortunadamente, la mayoría de los usuarios de modelos grandes de IA necesitan mucho estos servicios.
"El modelo es de código abierto, gratuito y está disponible comercialmente. Eso significa que, desde la descarga del modelo, la implementación del modelo, la capacitación, el ajuste y el desarrollo de la aplicación en aplicaciones reales, todo el trabajo debe hacerlo usted mismo". le dijo a Huxiu, la mayoría de los proveedores de modelos de código cerrado proporcionarán servicios de capacitación e implementación, y pueden personalizar las funciones de desarrollo de acuerdo con las necesidades del usuario. Pero si usa un modelo de código abierto, tiene que hacer todas estas tareas usted mismo, nadie lo ayudará a capacitarse, nadie encontrará su poder de cómputo y nadie lo ayudará a personalizar el desarrollo.
"En realidad, los fabricantes de modelos de código cerrado venden servicios." La persona a cargo de una institución de educación en línea que ha realizado una investigación de aplicaciones de IA basada en el modelo LLaMA le dijo a Huxiu: "El modelo de código abierto parece ser gratuito. , pero durante el proceso de implementación, todavía se necesita gastar mucho dinero.” Después de agregar el modelo de IA, el costo de la mano de obra y la potencia informática en el departamento de TI ha aumentado significativamente.
Aunque la capacitación y el ajuste basados en modelos de código abierto no son difíciles para la mayoría del personal de TI. Sin embargo, para llevar a cabo una investigación y desarrollo en profundidad del modelo, aún se requieren algunas reservas técnicas en términos de algoritmos e IA. A medida que el concepto de modelos de IA a gran escala se vuelve cada vez más popular, el precio de los talentos en esta área también aumenta.
"El aumento en los costos de mano de obra en realidad es flotante, pero el costo de los servidores y el hardware es real. Desde la inversión en modelos grandes hasta ahora, nuestros costos han aumentado entre un 20% y un 30%." dijo el responsable de la mencionada institución de educación en línea En la actualidad, su organización aún se encuentra en la etapa de exploración de escenarios de IA, y la mayor dificultad es que necesita experimentar con cada escenario. "Si uno falla, reemplácelo por otro. En este proceso, cada paso cuesta dinero".
En este sentido, Huxiu le preguntó a un miembro de Baidu Smart Cloud sobre el servicio y el costo de Baidu Wenxin Qianfan en términos de implementación. Ahorrará dinero.**”
De hecho, independientemente de si se trata de un modelo de código abierto o un modelo de código cerrado, el costo de la implementación del modelo se calcula por persona/día, y no habrá una diferencia esencial en los costos de energía informática para posteriores formación y razonamiento. "**Sin embargo, el uso de modelos de código abierto para entrenar, implementar y desarrollar solo hará que este proceso sea muy problemático". El miembro de Baidu dijo que el costo de implementación específico depende del proyecto específico y que la diferencia es muy grande. Sin embargo, en realidad no existe una diferencia esencial entre el código abierto y el código cerrado en términos de costos de implementación y uso. **Y desde la perspectiva de la seguridad de los datos, la mayoría de los modelos de código cerrado también se pueden implementar de forma privada.
**En esta etapa, todavía es difícil para la IA lograr la inclusión. **
La mayoría de las empresas dedicadas al negocio de Internet tienen sus propios equipos de I + D. Cuando llegue el gran modelo, pronto podrán formar un equipo "establecido" para desarrollar aplicaciones de IA. Pero para muchas industrias minoristas, de fabricación tradicional y de servicios, la transformación digital es un problema difícil.Es realmente difícil para ellos estudiar el entrenamiento, la implementación y el razonamiento de modelos grandes de IA.
Para estas empresas, el mejor producto de IA es un complemento de IA de propósito general. "Lo que necesitamos es solo un robot de servicio al cliente cuyas conversaciones no parezcan tan idiotas. Me pidió que aprendiera a entrenar el modelo, lo cual es un poco emocionante", le dijo a Huxiu el gerente de línea comercial de una marca de comercio electrónico. en los últimos seis meses, solo escuchó Se dice que la capacidad de diálogo de la IA es más fuerte que antes, pero ChatGPT aún no se ha probado. Aunque también está dispuesto a adoptar nuevas tecnologías, no es suficiente motivación para él dedicar tiempo a aprender e invertir dinero en IA ahora.
"A menos que haya un complemento en la plataforma o el software que estoy usando ahora, puedo usarlo simplemente tomándolo, de lo contrario, no pensaré demasiado en gastar dinero para actualizar el asistente de IA de inmediato". ." Bajo.
"** Los comerciantes necesitan IA para hacerlo, y se puede aplicar y potenciar sin sentirlo. **" El fabricante de SaaS Weimob ha creado una aplicación de este tipo WAI en marketing digital, que ayuda a los comerciantes a llamar capacidades de IA en forma de incrustación de aplicaciones existentes. Proporcione a los comerciantes diálogos de IA y capacidades de generación de texto e imágenes basadas en grandes modelos de lenguaje.
La conexión abierta de modelos grandes a las herramientas de servicio SaaS es algo similar a la invocación del modelo de Baidu Wenxin Qianfan. Aunque solo se realizan llamadas de interfaz y Finetune, proporciona a los usuarios capacidades de aterrizaje de IA más rápidas y estables.
"Los modelos de código abierto pueden facilitar el inicio de los usuarios, y ahora muchos modelos de código abierto se actualizan más rápido que los principales fabricantes." El director de operaciones de Weimob, Yin Shiming, cree que el código abierto y la apertura pueden ofrecer rápidamente capacidades de inteligencia artificial. a los usuarios En sus manos, lo que los usuarios realmente necesitan es IA "plug and play". **
Para la mayoría de los usuarios que aún se encuentran en la etapa de prueba, experimentación y experiencia con modelos grandes de IA, el umbral para los modelos de código abierto es obviamente más bajo y el costo inicial es casi cero.
Muchos usuarios han utilizado el modelo de código abierto desde el principio y lo seguirán utilizando en el futuro. Los problemas de implementación y capacitación mencionados anteriormente están generando una cadena de la industria de servicios para modelos de código abierto.
Chen Ran En esta ola de auge de los grandes modelos, OpenCSG, recientemente creado, está haciendo negocios de servicios en torno al gran modelo de código abierto.
El servicio de modelos grandes proporcionado por OpenCSG está dirigido principalmente a la capacitación e implementación de modelos de código abierto para empresas. Desde la selección de modelos de código abierto hasta la potencia de computación distribuida híbrida, combinada con capacitación en modelos comerciales y desarrollo de aplicaciones de back-end, etc., puede brindar servicios a las empresas.
"**En mi opinión, los modelos grandes son similares a todos los SaaS. Las industrias ascendentes y descendentes se enriquecerán gradualmente, y los clientes no solo se centrarán en las capacidades del modelo". Chen Ran cree que la demanda final de los clientes no es encontrar lo más modelo capaz, pero un uso mejor, más fácil y más simple de modelos grandes de IA para servir a su negocio.
Ecología de código abierto en torno a la IA
En toda la cadena de la industria de la IA, el código abierto va mucho más allá de los modelos. Desde la investigación y el desarrollo hasta la implementación y la aplicación, casi todos los vínculos son inseparables del tema del código abierto.
**Algoritmos, poder de cómputo, datos e inteligencia artificial tres elementos cada uno requiere soporte de código abierto. **
A nivel de algoritmo, los grandes modelos de IA de código abierto se encuentran en una etapa relativamente tardía. En las primeras investigaciones y desarrollos de IA, casi todos los modelos de IA usaban marcos de aprendizaje automático, que son equivalentes a la creación de cajas de herramientas de IA. Los marcos de trabajo de aprendizaje automático convencionales actuales, incluidos TensorFlow, Pytorch y PaddlePaddle (pala voladora), son todos marcos de código abierto.
A nivel de datos, el conjunto de datos de código abierto de Commen Crowl es una fuente de datos importante en el proceso de entrenamiento del modelo GPT. En la actualidad, muchas instituciones y compañías de datos han lanzado productos de código abierto sobre conjuntos de datos de capacitación de IA, incluido el conjunto de datos COIG-PC del Instituto de Investigación Zhiyuan y el conjunto de datos multimodal DOTS-MM-0526 de Haitian AAC.
Para los editores de conjuntos de datos, el código abierto no solo puede mejorar la influencia y el valor de la marca, sino que los conjuntos de datos de código abierto también pueden recopilar comentarios positivos de la comunidad de código abierto para encontrar y corregir errores o inconsistencias en los datos. Esta revisión externa ayuda a mejorar la calidad de los datos mientras enriquece aún más el ecosistema de productos del editor.
"**Los ingenieros de algoritmos a menudo se enfrentan al problema de la falta de datos en investigación y desarrollo. Los datos de alta calidad pueden aportar mejoras cualitativas a la evaluación del modelo. **Mi país se enfrenta actualmente al problema de la escasez de conjuntos de datos de alta calidad, que también dificulta los grandes modelos chinos El desarrollo de la tecnología.” Haitian AAC es uno de los proveedores de datos de capacitación del modelo de código abierto LLaMA 2, dijo Li Ke, director de operaciones de Haitian AAC.
** En términos de potencia informática, el mayor cuello de botella en el desarrollo de la IA, el marco de chips de código abierto también está estimulando el desarrollo de la industria. **
El 4 de agosto, Qualcomm anunció el establecimiento de una empresa conjunta con cuatro empresas de semiconductores para acelerar la comercialización de chips basados en la arquitectura RISC-V de código abierto. Actualmente hay tres marcos de chips principales en el mercado: x86 utilizado por las CPU de Intel, Arm utilizado por las GPU de Nvidia y RISC-V, un marco de chips de código abierto.
"RISC-V puede proporcionar un entorno programable. El equipo de desarrollo de chips puede usar RISC-V para realizar una gran cantidad de trabajo de procesamiento previo y posterior, y también puede agregar aceleradores especiales o módulos funcionales que satisfagan las necesidades del usuario. "Gang Zhijian, vicepresidente sénior de marketing y desarrollo comercial de SiFive, dijo que el ecosistema RISC-V ofrece una gran cantidad de opciones para la investigación y el desarrollo de chips, lo que es de gran ayuda para la creciente demanda de chips de IA en la actualidad.
Arm y x86 tienen ecosistemas relativamente cerrados en comparación con RISC-V. **En el ecosistema Arm, los usuarios solo pueden elegir las opciones limitadas proporcionadas por Arm, mientras que el ecosistema RISC-V tiene muchas empresas participantes y habrá más tipos de productos y opciones. **
La arquitectura de código abierto también está estimulando a la industria de chips para acelerar la competencia. Gang Zhijian dijo: "** Como proveedor de servicios de la arquitectura de chips de código abierto, también competiremos con otras empresas. Pero ya sea que ganemos nosotros u otras empresas, esto tipo de competencia En última instancia, promoverá la prosperidad y el progreso del ecosistema RISC-V.**”
Aunque la arquitectura del conjunto de instrucciones RISC-V es gratuita y de código abierto, la propiedad intelectual central formada por los fabricantes de diseño de chips basada en el desarrollo secundario de la arquitectura del conjunto de instrucciones RISC-V tiene derechos de propiedad intelectual independientes y puede autorizarse a través de tarifas externas. Según datos de la Fundación Internacional RISC-V, el número de miembros aumentará en más del 26 % año tras año en 2022, y el número total de unidades miembro superará las 3180, cubriendo 70 países/regiones, incluido Qualcomm, Intel, Google, Alibaba, Huawei y UNISOC, Sharp y muchas otras empresas líderes en chips.
El código abierto es una ventaja para RISC-V, pero también crea algunos problemas. RISC-V solo tiene más de 40 conjuntos de instrucciones básicas, además de docenas de instrucciones de extensión de módulos básicos. Cualquier empresa y desarrollador puede usar RISC-V de forma gratuita para crear chips con derechos de propiedad intelectual independientes.
Sin embargo, las funciones de código abierto, altamente personalizables y modulares también hacen que el ecosistema RISC-V sea más fragmentado y complejo.
"Después de que cada compañía de investigación y desarrollo de chips actualice el conjunto de instrucciones de RISC-V, en realidad producirá una nueva arquitectura. Se llama RISC-V, pero diferentes compañías no son compatibles con RISC-V, y la ecología de código abierto en realidad es divididos. .**" Lu Tao, presidente de Weiwei Technology y gerente general de la Gran China, cree que el código abierto de la arquitectura de chips y la ecología del software son muy importantes, pero es muy difícil para los diferentes equipos encontrar un equilibrio entre apertura, Personalización y fragmentación Pon a prueba la sabiduría y la capacidad del equipo de I+D.
Además, la arquitectura Arm ya ha producido GPU, IPU y otros chips adecuados para el entrenamiento y el razonamiento de la IA, y la ecología técnica es más completa y madura. La intención original de RISC-V es diseñar CPU y, aunque es muy abierto, el diseño de chips de IA aún se encuentra en etapa exploratoria.
Según la firma de investigación Counterpoint Research, para 2025, los envíos acumulados de procesadores RISC-V superarán los 80 000 millones, con una tasa de crecimiento anual compuesta del 114,9 %. Para entonces, RISC-V ocupará el 14 % del mercado global de CPU, el 28 % del mercado de IoT, el 12 % del mercado industrial y el 10 % del mercado automotriz.
Qualcomm ya implementó RISC-V en microcontroladores en su SoC Snapdragon 865 en 2019 y ha enviado más de 650 millones de chips RISC-V hasta la fecha. En el AI Hardware Summit Forum de septiembre de 2022, el profesor Krste Asanovic, el inventor de RISC-V, reveló que Google comenzó a utilizar SiFive Intelligence X280 basado en RISC-V para desarrollar su marco de aprendizaje automático TensorFlow. **Antes de esto, Google ha llevado a cabo un trabajo de autoinvestigación sobre la arquitectura del chip TPU durante más de 10 años.
Aunque es difícil desarrollar chips RISC-V desde cero, la naturaleza de código abierto de RISC-V le ha dado a los chips chinos, que también comenzaron desde cero, la oportunidad de sobrevivir al bloqueo y al monopolio". Las empresas chinas son las de más rápido crecimiento en el mundo. Las empresas chinas de chips son más agresivas y están dispuestas a enfrentar los desafíos". Gang Zhijian dijo que el mercado chino es la clave para estimular el desarrollo de la industria de chips. El mercado de chips de China es enorme. Por ejemplo, la demanda de energía de cómputo de chips automotrices de China ha superado con creces la de los mercados europeos y estadounidenses. **Con la creciente demanda de las empresas chinas de poder de cómputo de IA, la industria de chips de IA de China definitivamente traerá más oportunidades en el futuro.
Conclusión
Además de las consideraciones comerciales, **el código abierto también puede ayudar a los editores técnicos a optimizar los modelos. **
"ChatGPT es en realidad una victoria de la ingeniería". Si después de establecer el modelo básico, el modelo se promociona a la comunidad de código abierto y más desarrolladores participan en el trabajo de optimización del modelo, sin duda será de gran ayuda para el progreso del modelo grande de IA.
Además, "los modelos grandes de código abierto pueden evitar reinventar la rueda", dijo Lin Yonghua, vicepresidente e ingeniero jefe del Instituto de Investigación de Inteligencia Artificial de Beijing Zhiyuan, en una entrevista durante la Conferencia de Zhiyuan de 2023, asumiendo que todos en ** provienen de The La investigación y el desarrollo de modelos a gran escala de uso general requieren mucha potencia informática, datos y electricidad. Es una reinvención completa de la rueda, que no conduce al uso racional de los recursos sociales. **
Para una organización sin fines de lucro como el Instituto de Investigación Zhiyuan, no importa si el modelo es de código abierto o cerrado, es posible que no haya muchas consideraciones comerciales. Pero para las empresas comerciales de IA, ya sea Microsoft, Google, Meta, OpenAI o las nacionales Zhipu AI y Baichuan Intelligent, cualquier modelo grande de IA definitivamente no solo tendrá el propósito de "investigación científica". **
Aunque los productos de OpenAI tienen una ventaja absoluta en tecnología, el ecosistema ChatGPT construido en forma de complementos es débil en términos de construcción ecológica. En las disputas de código abierto y código cerrado de la IA, podemos ver un patrón diferente del sistema operativo móvil en el futuro.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
OpenAI está en peligro
Producido | Tiger Sniff Technology Group Autor | Qi Jian Redactor | Liao Ying
El 7 de agosto, otra nueva empresa nacional de IA lanzó su propio modelo de IA comercial gratuito y de código abierto: XVERSE-13B. La empresa llamada Yuanxiang XVERSE fue fundada por Yao Xing, exvicepresidente de Tencent y fundador del laboratorio Tencent AI.
Desde que Meta lanzó los modelos grandes de la serie LLaMA 2 de código abierto para uso comercial gratuito en julio, se está gestando una nueva ola de "código abierto" en el mercado de modelos a gran escala de IA.
El 2 de agosto, Wenxin Qianfan, una plataforma de modelos a gran escala de IA bajo Baidu, anunció el acceso a la serie completa de modelos de código abierto de LLaMA2. El número de modelos a gran escala que se pueden llamar en la plataforma ha aumentado a 33. A excepción de 3 modelos de Wenxin, los otros 30 modelos son todos de código abierto, incluidos ChatGLM2, RWKV, MPT, Dolly, OpenLLaMA, Falcon, etc.
Al día siguiente, Alibaba Cloud también anunció unirse a las filas del modelo de código abierto. El modelo de código abierto Tongyi Qianwen de 7 mil millones de parámetros incluye el modelo general Qwen-7B y el modelo de diálogo Qwen-7B-Chat. Los dos modelos se han lanzado en la comunidad Mota. Son de código abierto, gratuitos y disponibles comercialmente.
Curiosamente, esta actitud positiva hacia el código abierto y la apertura comenzó con Microsoft, el gran propietario del modelo de código cerrado ChatGPT. ** El 18 de julio, Microsoft anunció que cooperará con Meta para lanzar la versión comercial de código abierto del modelo LLaMA 2, brindando a las empresas alternativas a los modelos OpenAI y Google. **La posición de monopolio de OpenAI en el mercado de modelos a gran escala de IA parece estar siendo "objetivo" de toda la industria, incluso de sus socios más cercanos.
Como el modelo de lenguaje grande reconocido mundialmente, GPT-4 de OpenAI es actualmente el único modelo de lenguaje grande con una gran cantidad de usuarios dispuestos a pagar por él.
El mejor estudiante de la clase generalmente no está motivado para unirse al grupo de estudio. Del mismo modo, **OpenAI no tiene motivos ni motivación para abrir el código. **
Sin embargo, con el código abierto completo de LLaMA 2, cada vez más desarrolladores han invertido en Meta y en varios modelos de código abierto. Al igual que Android usa el código abierto para luchar contra iOS, una gran cantidad de modelos de IA de código abierto están eludiendo activamente las barreras técnicas de GPT-4 y los alrededores de OpenAI con un ecosistema de código abierto. **
¿Por qué código abierto?
Cuando OpenAI lanzó por primera vez la función de complemento, muchas personas compararon el modelo de IA con el futuro Windows, iOS y Android. Ahora, con el lanzamiento de LLaMA 2, el modelo grande de IA no es solo una función, sino que incluso la estructura del mercado se está desarrollando hacia la dirección del sistema operativo.
Iniciado por LMSYS Org, una organización dirigida por UC Berkeley, es una competencia de clasificación para modelos de lenguaje grandes (LLM); al 20 de julio, la última versión de la clasificación ha contado 40 modelos grandes de IA, y los cinco primeros aún están cerrados Sources Model (Propietario), que son tres modelos de GPT-4, GPT-3.5-turbo y Claude. Sin embargo, los siguientes 34 modelos, excepto PaLM-Chat-Bison-001 de Google, son todos modelos de código abierto, 15 de los cuales no son comerciales.
Aunque en términos de capacidades del modelo, mirando todo el mercado, ningún modelo, independientemente de que sea de código abierto o de código cerrado, puede atreverse a competir de frente con GPT-4. Sin embargo, los Tigres no pudieron hacer frente a los lobos, y no pudieron vencer a los grandes modelos de GPT-4. Eligieron "cambiar de carril y adelantar" y usar código abierto para aprovechar la ecología de la aplicación. Esto parece ser algo similar a la lucha de Android contra iOS.
"En este momento, todos los grandes modelos de código abierto tienen un propósito, y ese es el marketing".
El fundador de una empresa nacional de investigación y desarrollo de modelos a gran escala de código abierto admitió a Tiger Sniff que la razón principal para promover modelos a gran escala de código abierto y sistemas Android de código abierto es captar el mercado de forma gratuita. "Muchas grandes empresas han lanzado grandes modelos de IA, o simplemente crearon una aplicación basada en un modelo existente y luego comenzaron a promocionarla con bombos y platillos. De hecho, para los usuarios de grandes modelos básicos, gastar más dinero en publicidad es más costoso. que realmente no es de código abierto para el modelo ". Esta es también la mejor manera para que las empresas de IA demuestren su fortaleza.
Primero, los modelos de código abierto son más fáciles de evaluar que los modelos cerrados. Debido a que el código y los conjuntos de datos de los modelos de código abierto están disponibles públicamente, los investigadores pueden inspeccionar directamente la arquitectura del modelo, los datos de entrenamiento y el proceso de entrenamiento para realizar un análisis más profundo del modelo para comprender sus fortalezas y debilidades.
"Algunos modelos grandes de IA parecen ser muy capaces, pero no son de código abierto y solo puedes ver los resultados de su producción".
En comparación con el modelo de código abierto, el modelo de código cerrado solo puede comprender las ventajas y desventajas del modelo a través de la evaluación del rendimiento del modelo. Esto lleva al hecho de que el rendimiento de los modelos de código cerrado puede exagerarse artificialmente u ocultar sus deficiencias. La transparencia del modelo de código abierto puede ayudar a los desarrolladores a obtener una comprensión más profunda del modelo y evaluarlo de manera más justa.
Para los recién llegados, existe otro problema con el modelo de código cerrado: es fácil cuestionar la originalidad de la tecnología. Muchos desarrolladores de modelos grandes le dijeron una vez a Huxiu: "Para aquellos modelos que no son de código abierto, para decirlo sin rodeos, incluso si es un shell LLaMA, o simplemente llama a la interfaz ChatGPT en segundo plano, ¿quién sabe?"
Cuando salió la primera ola de grandes modelos domésticos de IA, tales voces de duda circularon ampliamente en Internet. Para esos grandes modelos de IA que no son de código abierto, es difícil probar su inocencia Para probar que no están llamando a la API de ChatGPT, algunas compañías incluso movieron el servidor de razonamiento y sacaron el cable de red para demostrar en el lugar.
El código abierto es, sin duda, una de las mejores formas de autocertificar grandes modelos de IA. Pero el valor real de **open source no es la capacidad de autocertificación, sino aprovechar la ecología. **
"Después del lanzamiento de LLaMA 2, definitivamente se apoderará del ecosistema OpenAI rápidamente". Un gran desarrollador de modelos le dijo a Huxiu que, aunque la industria casi reconoce que GPT-4 tiene la capacidad más fuerte, los modelos posteriores a GPT-3 no son de código abierto. Además, la apertura de la interfaz API de GPT-4 también es muy baja, por lo que existen muchas restricciones en el desarrollo del modelo GPT. Como resultado, muchos desarrolladores eligen modelos de código abierto como LLaMA Estos modelos de código abierto no solo pueden ajustar las instrucciones, sino también realizar investigaciones sobre los modelos subyacentes.
"LLaMA es definitivamente más popular entre los desarrolladores que OpenAI".
Cuando LLaMA 2 se lanzó por primera vez el 19 de julio, había más de 5600 proyectos en GitHub con palabras clave que incluían "LLaMA" y más de 4100 proyectos que incluían "GPT-4". Dos semanas después de su lanzamiento, la tasa de crecimiento de LLaMA es más rápida. Al cierre de esta edición, hay más de 6200 "LLaMA" y más de 4400 "GPT-4".
Por otro lado, los modelos de código abierto se pueden descargar localmente para su implementación privatizada, lo que facilita la capacitación en IA para empresas comerciales. Las aplicaciones de IA de dichas empresas deben capacitarse en función de sus propios datos comerciales, y el modelo de IA a gran escala implementado de forma privada puede proteger la seguridad de los datos en la mayor medida posible. Al mismo tiempo, hay más opciones de poder de cómputo para la implementación privatizada, ya sea servicio en la nube, implementación local o incluso poder de cómputo distribuido de múltiples IDC, lo que reduce en gran medida el costo de la capacitación y el razonamiento del modelo.
Aunque ChatGPT ha cosechado 100 millones de usuarios activos mensuales en solo dos meses, en el ecosistema de desarrolladores, la velocidad a la que el modelo de código abierto se apodera de la mente de los usuarios parece ser más rápida.
En la actualidad, muchas empresas nacionales de IA han optado por lanzar modelos de código abierto. Estos incluyen el modelo de código abierto ChatGLM-6B lanzado por Zhipu AI, MOSS lanzado por la Universidad de Fudan, Wudao Tianying Aquila lanzado por el Instituto de Investigación Zhiyuan y Baichuan-7B (13B) lanzado por Baichuan Intelligent. Entre ellos, ChatGLM-6B, un gran modelo de código abierto lanzado por **Zhipu AI, se ha descargado más de 4 millones de veces en todo el mundo y ha recibido 32 000 estrellas en GitHub, 3000 estrellas más que LLaMA. **
"Si no hacemos un modelo de código abierto, el mercado pronto estará lleno de LLaMA". modelo grande
De hecho, antes de que comenzara la tendencia de los LLM, la IA generativa ya había librado una batalla entre el código abierto y el código cerrado.
** Con una gran cantidad de desarrolladores y aplicaciones de productos, el modelo de gráfico Wensheng de código abierto Stable Diffusion casi arrinconó al primer modelo de código cerrado Dall-E 2 de OpenAI. Aunque los usuarios generalmente creen que las capacidades del modelo de Stable Diffusion no son tan buenas como las de otro producto de código cerrado, MidJourney, Stable Diffusion se ha apoderado de una gran cantidad de mercados de gráficos de Vincent en virtud de su código abierto y sus atributos gratuitos, y se ha convertido en el El modelo gráfico de Vincent más convencional Su empresa de desarrollo RunwayML And Stability AI también ha recibido mucha atención y financiación. **
El modelo de código abierto de LLaMA 2 parece querer forzar OpenAI en el campo de los LLM.
Código abierto con bienes
LLaMA 2 es actualmente de código abierto, los tres modelos de la serie: 7 mil millones, 13 mil millones y 70 mil millones de versiones de parámetros. Sin embargo, también hay rumores en el mercado de que "Meta en realidad tiene una versión con parámetros más grandes que no se ha lanzado. La próxima versión puede tener una versión con parámetros más grandes, pero puede que no sea de código abierto".
Vale la pena señalar que, en la actualidad, muchos modelos de código abierto no son todos de código abierto. En el modelo Enlightenment 3.0 lanzado por el Instituto de Investigación Zhiyuan, solo el modelo de lenguaje básico "Tianying" es de código abierto; el ChatGLM lanzado por Zhipu AI solo ha abierto una parte de la serie de modelos, y el modelo más grande de 130 mil millones de parámetros sigue siendo fuente cerrada. **
Independientemente de si LLaMA 2 está "reservado" para modelos más grandes, la forma "gratuita" sin duda acelerará la formación de Meta en el mercado de modelos grandes y lo empujará hacia el "viejo camino" de Android.
A través del ecosistema de código abierto, el sistema Android ha acumulado una gran cantidad de desarrolladores y usuarios en todo el mundo. En términos de ecología tecnológica, ha controlado y equilibrado en gran medida el sistema líder de código cerrado iOS, e incluso formó su propio monopolio en algunos mercados. Desde 2018, la Unión Europea ha impuesto una multa de más de 4.000 millones de euros a Google por el mecanismo de monopolio del sistema Android. A partir de esta multa altísima, también podemos ver cuán rentable es el sistema Android de código abierto.
Según un informe de la firma de investigación Sensor Tower, el gasto de los usuarios en Google Play será de aproximadamente 53 mil millones de dólares en 2022, y esta cifra aumentará a 60 mil millones de dólares en 2023. Según un informe publicado por otra institución de investigación, Statista, a partir de enero de 2022, hay alrededor de 140 000 aplicaciones en Google Play Store.
En esta etapa, el modelo de IA de código abierto obviamente aún no es tan popular como los teléfonos móviles. Sin embargo, incluso si la IA es realmente tan popular como los teléfonos móviles, los gigantes como Meta no dejarán ir fácilmente a las empresas que han ganado mucho dinero con LLaMA 2.
En el acuerdo de código abierto de LLaMA 2, existe tal estipulación: **Si los usuarios activos mensuales superan los 700 millones, debe solicitar una licencia de Meta. Meta puede, a su exclusivo criterio, otorgarle una licencia y usted no tendrá derecho a ejercer ninguno de estos derechos. **
Al mismo tiempo, además de la versión de código cerrado del modelo de código abierto y la aplicación de modelos grandes de IA, también puede ayudar a la potencia informática a "traer bienes".
Los dos primeros fabricantes en China en promover modelos de IA a gran escala, Baidu y Ali, son fabricantes de nube. Los otros dos proveedores de la nube, Tencent Cloud y Huawei Cloud, aunque no tienen productos LLM como Wenxin Yiyan y Tongyi Qianwen, también continúan gritando sobre los modelos de IA. La razón principal detrás de esto es el "efecto portador" del modelo grande en la nube.
"El mercado y los clientes también promueven conjuntamente el anuncio de algunas acciones sobre modelos de IA a gran escala. En los últimos meses, ha habido demasiados clientes que han venido a preguntar sobre modelos a gran escala", dijo un líder empresarial en la nube de Tencent. Huxiu que la potencia informática se puso en cola, que es la mejor prueba de la capacidad del modelo grande de IA para transportar mercancías.
**El modelo no necesita generar dinero, pero el poder de cómputo debe ser rentable. **Alibaba abrió Tongyi Qianwen y Baidu introdujo 30 modelos de código abierto en la plataforma de modelos a gran escala Wenxin Qianfan Estas dos acciones son para ofrecer capacidades de IA "gratuitas" a los usuarios. Los usuarios que utilizan el modelo de código abierto ya no pagan por la IA, pero mientras su IA se ejecute en Alibaba Cloud y Baidu Smart Cloud, tendrán que pagar por la potencia informática.
"AI también debería volver a la idea de la nube y ganar dinero con la nube." Xin Zhou, gerente general de Baidu Smart Cloud AI y Big Data Platform, dijo que la intención original de abrir la La plataforma de modelo grande es crear valor para los negocios de los clientes. Mientras crea valor, puede mejorar la adherencia de los clientes antiguos y expandir más clientes nuevos. Esto es de gran ayuda para expandir el efecto de escala de los proveedores de la nube.
Gratis es más caro
"10 millones, es aproximadamente la misma cantidad que el precio inicial para personalizar un modelo grande."
El fundador de una empresa de modelos a gran escala de código abierto le dio una cotización al intermediario que vino a consultar por teléfono.
"Después de que los usuarios hayan reconocido el modelo de código abierto, puede hablar con otros sobre la tarifa de servicio para el desarrollo personalizado". Después de que el fundador colgó el teléfono, le explicó a Huxiu que para un modelo como LLaMA 2, el costo de desarrollo es al menos lo que cuesta Decenas de millones de dólares. Por lo tanto, el mercado al que se dirige debe ser decenas o cientos de veces el costo de desarrollo.
Desde el punto de vista actual, la mejor manera para que las empresas de **IA ganen dinero con los modelos de código abierto es comenzar con los servicios. **
Afortunadamente, la mayoría de los usuarios de modelos grandes de IA necesitan mucho estos servicios.
"El modelo es de código abierto, gratuito y está disponible comercialmente. Eso significa que, desde la descarga del modelo, la implementación del modelo, la capacitación, el ajuste y el desarrollo de la aplicación en aplicaciones reales, todo el trabajo debe hacerlo usted mismo". le dijo a Huxiu, la mayoría de los proveedores de modelos de código cerrado proporcionarán servicios de capacitación e implementación, y pueden personalizar las funciones de desarrollo de acuerdo con las necesidades del usuario. Pero si usa un modelo de código abierto, tiene que hacer todas estas tareas usted mismo, nadie lo ayudará a capacitarse, nadie encontrará su poder de cómputo y nadie lo ayudará a personalizar el desarrollo.
"En realidad, los fabricantes de modelos de código cerrado venden servicios." La persona a cargo de una institución de educación en línea que ha realizado una investigación de aplicaciones de IA basada en el modelo LLaMA le dijo a Huxiu: "El modelo de código abierto parece ser gratuito. , pero durante el proceso de implementación, todavía se necesita gastar mucho dinero.” Después de agregar el modelo de IA, el costo de la mano de obra y la potencia informática en el departamento de TI ha aumentado significativamente.
Aunque la capacitación y el ajuste basados en modelos de código abierto no son difíciles para la mayoría del personal de TI. Sin embargo, para llevar a cabo una investigación y desarrollo en profundidad del modelo, aún se requieren algunas reservas técnicas en términos de algoritmos e IA. A medida que el concepto de modelos de IA a gran escala se vuelve cada vez más popular, el precio de los talentos en esta área también aumenta.
"El aumento en los costos de mano de obra en realidad es flotante, pero el costo de los servidores y el hardware es real. Desde la inversión en modelos grandes hasta ahora, nuestros costos han aumentado entre un 20% y un 30%." dijo el responsable de la mencionada institución de educación en línea En la actualidad, su organización aún se encuentra en la etapa de exploración de escenarios de IA, y la mayor dificultad es que necesita experimentar con cada escenario. "Si uno falla, reemplácelo por otro. En este proceso, cada paso cuesta dinero".
En este sentido, Huxiu le preguntó a un miembro de Baidu Smart Cloud sobre el servicio y el costo de Baidu Wenxin Qianfan en términos de implementación. Ahorrará dinero.**”
De hecho, independientemente de si se trata de un modelo de código abierto o un modelo de código cerrado, el costo de la implementación del modelo se calcula por persona/día, y no habrá una diferencia esencial en los costos de energía informática para posteriores formación y razonamiento. "**Sin embargo, el uso de modelos de código abierto para entrenar, implementar y desarrollar solo hará que este proceso sea muy problemático". El miembro de Baidu dijo que el costo de implementación específico depende del proyecto específico y que la diferencia es muy grande. Sin embargo, en realidad no existe una diferencia esencial entre el código abierto y el código cerrado en términos de costos de implementación y uso. **Y desde la perspectiva de la seguridad de los datos, la mayoría de los modelos de código cerrado también se pueden implementar de forma privada.
**En esta etapa, todavía es difícil para la IA lograr la inclusión. **
La mayoría de las empresas dedicadas al negocio de Internet tienen sus propios equipos de I + D. Cuando llegue el gran modelo, pronto podrán formar un equipo "establecido" para desarrollar aplicaciones de IA. Pero para muchas industrias minoristas, de fabricación tradicional y de servicios, la transformación digital es un problema difícil.Es realmente difícil para ellos estudiar el entrenamiento, la implementación y el razonamiento de modelos grandes de IA.
Para estas empresas, el mejor producto de IA es un complemento de IA de propósito general. "Lo que necesitamos es solo un robot de servicio al cliente cuyas conversaciones no parezcan tan idiotas. Me pidió que aprendiera a entrenar el modelo, lo cual es un poco emocionante", le dijo a Huxiu el gerente de línea comercial de una marca de comercio electrónico. en los últimos seis meses, solo escuchó Se dice que la capacidad de diálogo de la IA es más fuerte que antes, pero ChatGPT aún no se ha probado. Aunque también está dispuesto a adoptar nuevas tecnologías, no es suficiente motivación para él dedicar tiempo a aprender e invertir dinero en IA ahora.
"A menos que haya un complemento en la plataforma o el software que estoy usando ahora, puedo usarlo simplemente tomándolo, de lo contrario, no pensaré demasiado en gastar dinero para actualizar el asistente de IA de inmediato". ." Bajo.
"** Los comerciantes necesitan IA para hacerlo, y se puede aplicar y potenciar sin sentirlo. **" El fabricante de SaaS Weimob ha creado una aplicación de este tipo WAI en marketing digital, que ayuda a los comerciantes a llamar capacidades de IA en forma de incrustación de aplicaciones existentes. Proporcione a los comerciantes diálogos de IA y capacidades de generación de texto e imágenes basadas en grandes modelos de lenguaje.
La conexión abierta de modelos grandes a las herramientas de servicio SaaS es algo similar a la invocación del modelo de Baidu Wenxin Qianfan. Aunque solo se realizan llamadas de interfaz y Finetune, proporciona a los usuarios capacidades de aterrizaje de IA más rápidas y estables.
"Los modelos de código abierto pueden facilitar el inicio de los usuarios, y ahora muchos modelos de código abierto se actualizan más rápido que los principales fabricantes." El director de operaciones de Weimob, Yin Shiming, cree que el código abierto y la apertura pueden ofrecer rápidamente capacidades de inteligencia artificial. a los usuarios En sus manos, lo que los usuarios realmente necesitan es IA "plug and play". **
Para la mayoría de los usuarios que aún se encuentran en la etapa de prueba, experimentación y experiencia con modelos grandes de IA, el umbral para los modelos de código abierto es obviamente más bajo y el costo inicial es casi cero.
Muchos usuarios han utilizado el modelo de código abierto desde el principio y lo seguirán utilizando en el futuro. Los problemas de implementación y capacitación mencionados anteriormente están generando una cadena de la industria de servicios para modelos de código abierto.
Chen Ran En esta ola de auge de los grandes modelos, OpenCSG, recientemente creado, está haciendo negocios de servicios en torno al gran modelo de código abierto.
El servicio de modelos grandes proporcionado por OpenCSG está dirigido principalmente a la capacitación e implementación de modelos de código abierto para empresas. Desde la selección de modelos de código abierto hasta la potencia de computación distribuida híbrida, combinada con capacitación en modelos comerciales y desarrollo de aplicaciones de back-end, etc., puede brindar servicios a las empresas.
"**En mi opinión, los modelos grandes son similares a todos los SaaS. Las industrias ascendentes y descendentes se enriquecerán gradualmente, y los clientes no solo se centrarán en las capacidades del modelo". Chen Ran cree que la demanda final de los clientes no es encontrar lo más modelo capaz, pero un uso mejor, más fácil y más simple de modelos grandes de IA para servir a su negocio.
Ecología de código abierto en torno a la IA
En toda la cadena de la industria de la IA, el código abierto va mucho más allá de los modelos. Desde la investigación y el desarrollo hasta la implementación y la aplicación, casi todos los vínculos son inseparables del tema del código abierto.
**Algoritmos, poder de cómputo, datos e inteligencia artificial tres elementos cada uno requiere soporte de código abierto. **
A nivel de algoritmo, los grandes modelos de IA de código abierto se encuentran en una etapa relativamente tardía. En las primeras investigaciones y desarrollos de IA, casi todos los modelos de IA usaban marcos de aprendizaje automático, que son equivalentes a la creación de cajas de herramientas de IA. Los marcos de trabajo de aprendizaje automático convencionales actuales, incluidos TensorFlow, Pytorch y PaddlePaddle (pala voladora), son todos marcos de código abierto.
A nivel de datos, el conjunto de datos de código abierto de Commen Crowl es una fuente de datos importante en el proceso de entrenamiento del modelo GPT. En la actualidad, muchas instituciones y compañías de datos han lanzado productos de código abierto sobre conjuntos de datos de capacitación de IA, incluido el conjunto de datos COIG-PC del Instituto de Investigación Zhiyuan y el conjunto de datos multimodal DOTS-MM-0526 de Haitian AAC.
Para los editores de conjuntos de datos, el código abierto no solo puede mejorar la influencia y el valor de la marca, sino que los conjuntos de datos de código abierto también pueden recopilar comentarios positivos de la comunidad de código abierto para encontrar y corregir errores o inconsistencias en los datos. Esta revisión externa ayuda a mejorar la calidad de los datos mientras enriquece aún más el ecosistema de productos del editor.
"**Los ingenieros de algoritmos a menudo se enfrentan al problema de la falta de datos en investigación y desarrollo. Los datos de alta calidad pueden aportar mejoras cualitativas a la evaluación del modelo. **Mi país se enfrenta actualmente al problema de la escasez de conjuntos de datos de alta calidad, que también dificulta los grandes modelos chinos El desarrollo de la tecnología.” Haitian AAC es uno de los proveedores de datos de capacitación del modelo de código abierto LLaMA 2, dijo Li Ke, director de operaciones de Haitian AAC.
** En términos de potencia informática, el mayor cuello de botella en el desarrollo de la IA, el marco de chips de código abierto también está estimulando el desarrollo de la industria. **
El 4 de agosto, Qualcomm anunció el establecimiento de una empresa conjunta con cuatro empresas de semiconductores para acelerar la comercialización de chips basados en la arquitectura RISC-V de código abierto. Actualmente hay tres marcos de chips principales en el mercado: x86 utilizado por las CPU de Intel, Arm utilizado por las GPU de Nvidia y RISC-V, un marco de chips de código abierto.
"RISC-V puede proporcionar un entorno programable. El equipo de desarrollo de chips puede usar RISC-V para realizar una gran cantidad de trabajo de procesamiento previo y posterior, y también puede agregar aceleradores especiales o módulos funcionales que satisfagan las necesidades del usuario. "Gang Zhijian, vicepresidente sénior de marketing y desarrollo comercial de SiFive, dijo que el ecosistema RISC-V ofrece una gran cantidad de opciones para la investigación y el desarrollo de chips, lo que es de gran ayuda para la creciente demanda de chips de IA en la actualidad.
Arm y x86 tienen ecosistemas relativamente cerrados en comparación con RISC-V. **En el ecosistema Arm, los usuarios solo pueden elegir las opciones limitadas proporcionadas por Arm, mientras que el ecosistema RISC-V tiene muchas empresas participantes y habrá más tipos de productos y opciones. **
La arquitectura de código abierto también está estimulando a la industria de chips para acelerar la competencia. Gang Zhijian dijo: "** Como proveedor de servicios de la arquitectura de chips de código abierto, también competiremos con otras empresas. Pero ya sea que ganemos nosotros u otras empresas, esto tipo de competencia En última instancia, promoverá la prosperidad y el progreso del ecosistema RISC-V.**”
Aunque la arquitectura del conjunto de instrucciones RISC-V es gratuita y de código abierto, la propiedad intelectual central formada por los fabricantes de diseño de chips basada en el desarrollo secundario de la arquitectura del conjunto de instrucciones RISC-V tiene derechos de propiedad intelectual independientes y puede autorizarse a través de tarifas externas. Según datos de la Fundación Internacional RISC-V, el número de miembros aumentará en más del 26 % año tras año en 2022, y el número total de unidades miembro superará las 3180, cubriendo 70 países/regiones, incluido Qualcomm, Intel, Google, Alibaba, Huawei y UNISOC, Sharp y muchas otras empresas líderes en chips.
El código abierto es una ventaja para RISC-V, pero también crea algunos problemas. RISC-V solo tiene más de 40 conjuntos de instrucciones básicas, además de docenas de instrucciones de extensión de módulos básicos. Cualquier empresa y desarrollador puede usar RISC-V de forma gratuita para crear chips con derechos de propiedad intelectual independientes.
Sin embargo, las funciones de código abierto, altamente personalizables y modulares también hacen que el ecosistema RISC-V sea más fragmentado y complejo.
"Después de que cada compañía de investigación y desarrollo de chips actualice el conjunto de instrucciones de RISC-V, en realidad producirá una nueva arquitectura. Se llama RISC-V, pero diferentes compañías no son compatibles con RISC-V, y la ecología de código abierto en realidad es divididos. .**" Lu Tao, presidente de Weiwei Technology y gerente general de la Gran China, cree que el código abierto de la arquitectura de chips y la ecología del software son muy importantes, pero es muy difícil para los diferentes equipos encontrar un equilibrio entre apertura, Personalización y fragmentación Pon a prueba la sabiduría y la capacidad del equipo de I+D.
Además, la arquitectura Arm ya ha producido GPU, IPU y otros chips adecuados para el entrenamiento y el razonamiento de la IA, y la ecología técnica es más completa y madura. La intención original de RISC-V es diseñar CPU y, aunque es muy abierto, el diseño de chips de IA aún se encuentra en etapa exploratoria.
Según la firma de investigación Counterpoint Research, para 2025, los envíos acumulados de procesadores RISC-V superarán los 80 000 millones, con una tasa de crecimiento anual compuesta del 114,9 %. Para entonces, RISC-V ocupará el 14 % del mercado global de CPU, el 28 % del mercado de IoT, el 12 % del mercado industrial y el 10 % del mercado automotriz.
Qualcomm ya implementó RISC-V en microcontroladores en su SoC Snapdragon 865 en 2019 y ha enviado más de 650 millones de chips RISC-V hasta la fecha. En el AI Hardware Summit Forum de septiembre de 2022, el profesor Krste Asanovic, el inventor de RISC-V, reveló que Google comenzó a utilizar SiFive Intelligence X280 basado en RISC-V para desarrollar su marco de aprendizaje automático TensorFlow. **Antes de esto, Google ha llevado a cabo un trabajo de autoinvestigación sobre la arquitectura del chip TPU durante más de 10 años.
Aunque es difícil desarrollar chips RISC-V desde cero, la naturaleza de código abierto de RISC-V le ha dado a los chips chinos, que también comenzaron desde cero, la oportunidad de sobrevivir al bloqueo y al monopolio". Las empresas chinas son las de más rápido crecimiento en el mundo. Las empresas chinas de chips son más agresivas y están dispuestas a enfrentar los desafíos". Gang Zhijian dijo que el mercado chino es la clave para estimular el desarrollo de la industria de chips. El mercado de chips de China es enorme. Por ejemplo, la demanda de energía de cómputo de chips automotrices de China ha superado con creces la de los mercados europeos y estadounidenses. **Con la creciente demanda de las empresas chinas de poder de cómputo de IA, la industria de chips de IA de China definitivamente traerá más oportunidades en el futuro.
Conclusión
Además de las consideraciones comerciales, **el código abierto también puede ayudar a los editores técnicos a optimizar los modelos. **
"ChatGPT es en realidad una victoria de la ingeniería". Si después de establecer el modelo básico, el modelo se promociona a la comunidad de código abierto y más desarrolladores participan en el trabajo de optimización del modelo, sin duda será de gran ayuda para el progreso del modelo grande de IA.
Además, "los modelos grandes de código abierto pueden evitar reinventar la rueda", dijo Lin Yonghua, vicepresidente e ingeniero jefe del Instituto de Investigación de Inteligencia Artificial de Beijing Zhiyuan, en una entrevista durante la Conferencia de Zhiyuan de 2023, asumiendo que todos en ** provienen de The La investigación y el desarrollo de modelos a gran escala de uso general requieren mucha potencia informática, datos y electricidad. Es una reinvención completa de la rueda, que no conduce al uso racional de los recursos sociales. **
Para una organización sin fines de lucro como el Instituto de Investigación Zhiyuan, no importa si el modelo es de código abierto o cerrado, es posible que no haya muchas consideraciones comerciales. Pero para las empresas comerciales de IA, ya sea Microsoft, Google, Meta, OpenAI o las nacionales Zhipu AI y Baichuan Intelligent, cualquier modelo grande de IA definitivamente no solo tendrá el propósito de "investigación científica". **
Aunque los productos de OpenAI tienen una ventaja absoluta en tecnología, el ecosistema ChatGPT construido en forma de complementos es débil en términos de construcción ecológica. En las disputas de código abierto y código cerrado de la IA, podemos ver un patrón diferente del sistema operativo móvil en el futuro.