Gran modelo, el código abierto no puede matar al código cerrado

2023-07-25 03:08:56

Fuente: Cuerpo Cerebropolar

Fuente de la imagen: Generada por Unbounded AI

El impacto de los modelos grandes de código abierto en los modelos grandes de código cerrado se ha vuelto muy violento.

En marzo de este año, Meta lanzó Llama (alpaca), que rápidamente se convirtió en el modelo grande de código abierto más poderoso en la comunidad de IA y el modelo base para muchos modelos. Algunas personas bromearon diciendo que el grupo de modelos a gran escala actual es solo un grupo de "alpacas" de varios colores.

Y hace solo unos días, Meta lanzó una versión comercial gratuita de "Alpaca 2": Llama2, que se dice que es comparable en rendimiento a GPT-3.5.

Esto es muy explosivo en todo el círculo de modelos a gran escala.

Sabemos que varias empresas de Internet y tecnología están compitiendo para entrenar y lanzar sus propios modelos a gran escala, invirtiendo una gran cantidad de recursos informáticos y costos. Si no se pueden comercializar de manera efectiva, será difícil recuperar el costo de estos modelos a gran escala. Las iteraciones, actualizaciones y actualizaciones posteriores se convertirán en problemas. No solo las empresas de I+D perderán dinero, sino que los usuarios que "desperdician todos los esfuerzos anteriores" probablemente se sientan más angustiados.

Pero ahora que existen modelos de código abierto gratuitos, abiertos y potentes, ¿quién está dispuesto a dar dinero a los modelos de código cerrado?

Realmente los hay.

El código abierto es la tendencia general, pero el gran modelo de código cerrado todavía tiene su importancia y valor comercial. De acuerdo con la experiencia actual en la industria de la IA, para hacer un buen uso de modelos grandes, aún debe confiar en fuentes cerradas.

Hoy vamos a hablar de este tema ¿Quién necesita un modelo grande de código cerrado?

Ve a la industria, ve a la industria

El punto final de comercialización de modelos grandes es la industria, y debe ser un consenso que no requiera demasiada explicación.

No hace mucho, participé en una reunión de comunicación interna de un modelo doméstico a gran escala, y los ejecutivos de alto nivel de la otra parte declararon claramente que todos usan código de fuente cerrada e insisten en la ruta de fuente cerrada, porque consideran entrenar modelos a gran escala y cooperar con socios de la industria, y muchos de los datos privados no son convenientes para la fuente abierta.

Puede echar un vistazo a la imagen completa, al menos a corto plazo, los modelos a gran escala irán a la industria y la implementación aún depende de fuentes cerradas.

** En términos de modelos, la calidad de los modelos grandes de código cerrado es mayor. **

Tome Llama 2, que actualmente es el más capaz, como ejemplo. Meta comparó los resultados de Llama 2 70B con el modelo de código cerrado. Los resultados están cerca de GPT-3.5 en MMLU y GSM8K, pero todavía hay una brecha significativa en el punto de referencia de codificación, y muchos datos carecen de diversidad y calidad.

Por supuesto, la velocidad de iteración de optimización de los modelos grandes de código abierto es muy rápida. Pero la esencia del código abierto es muy similar a la "reproducción sexual", es decir, a través de la reproducción masiva y la mutación, al igual que el "grupo de alpaca" al principio, frente a un futuro incierto, con la ayuda de la "supervivencia del más apto" de la evolución, seguirá surgiendo descendencia de la mejor calidad. Por lo tanto, hay muchas ramas de software de código abierto.Para los usuarios, el costo de esta elección es muy alto.Además de la gran cantidad de desarrolladores, el control de versiones es un problema.

**En términos de seguridad, los modelos grandes de código cerrado son más confiables. **

Los modelos grandes de código abierto deben cumplir con el acuerdo de código abierto y el uso comercial debe estar autorizado. Los modelos grandes de código abierto en el extranjero también deben estar sujetos a la jurisdicción territorial. GitHub prohibió una vez las cuentas de desarrolladores rusos. El uso de grandes modelos de código abierto en el extranjero para desarrollar productos y los riesgos de la cadena de suministro existen objetivamente.

Entonces, ¿qué pasa con el uso de grandes modelos domésticos de código abierto? La seguridad está garantizada, pero desde un punto de vista comercial, muchos clientes, como las grandes empresas gubernamentales, también otorgan gran importancia a la confiabilidad de los modelos grandes en los negocios y, a menudo, requieren el respaldo de la marca de las grandes empresas al comprar. Por un lado, la inversión en I+D es mayor y el boca a boca es mayor; por otro lado, en caso de que el modelo grande se genere incorrectamente, lo que resulta en pérdidas comerciales o problemas de buena voluntad, el uso del modelo grande de código cerrado puede responsabilizar al proveedor de servicios, y el uso del modelo grande de código abierto no puede saldar cuentas con los desarrolladores globales, ¿verdad?

Por ejemplo, Huging Face, una empresa emergente de modelos a gran escala, brinda consultoría de inteligencia artificial para los clientes y es un pilar de la comunidad de código abierto. Dijo que una gran cantidad de clientes desean usar sus datos privados/datos profesionales para entrenar modelos, y no desean proporcionar estos datos a OpenAl.

** En términos de industrialización, la capacidad de servicio a largo plazo de los modelos grandes de código cerrado es más sólida y utilizable. **

La obtención de un modelo grande no termina con el acceso a las API, la inserción de datos y el ajuste de parámetros. Como tecnología emergente, aún existen muchos desafíos en la integración de grandes modelos y escenarios comerciales. Por ejemplo, los modelos grandes deben comprimirse por destilación para reducir el tamaño del modelo antes de que puedan implementarse en el lado del dispositivo. Muchas empresas simplemente no cuentan con tales profesionales.

Para otro ejemplo, la combinación de grandes modelos y negocios requiere la participación de múltiples roles, como ingenieros de producto, operaciones y pruebas.Estas capacidades de servicio son difíciles de proporcionar para los equipos de código abierto que son principalmente codificadores. Además, la aplicación a largo plazo de modelos grandes, las instalaciones de apoyo como la potencia informática, el almacenamiento y la red deben mantenerse al día. La comunidad de código abierto no puede ayudar a los usuarios a resolver estos problemas detallados de una manera "única".

También existen preocupaciones sobre la privacidad de los datos: la industria no puede usar modelos grandes directamente, sino que deben optimizarse a través de datos de escena patentados, y los modelos entrenados en estos datos serán de código abierto y se publicarán, lo que hace que las empresas se preocupen mucho.

Una vez entrevistamos a un equipo inteligente de investigación y desarrollo médico. La otra parte dijo que una gran cantidad de datos médicos se distribuyen en los principales hospitales e instituciones de investigación, y también involucra la privacidad del paciente. Todos tienen preocupaciones sobre el uso de los datos para entrenar conjuntamente un modelo de industria. Por un lado, la seguridad no se puede garantizar y, por otro lado, la calidad de sus propios datos es alta, pero no pueden obtener los rendimientos adecuados, al igual que otras organizaciones con datos de baja calidad, es difícil de coordinar. En la co-construcción de grandes modelos de código abierto, todavía hay muchas dificultades en cómo obtener datos, comprender la fórmula y determinar las contribuciones de todas las partes.

Los modelos grandes de código abierto necesitan equilibrar el conflicto entre la libertad de innovación tecnológica y los beneficios de los derechos de autor, mientras que los modelos grandes de código cerrado no tienen este problema. Los derechos de propiedad y uso de datos y modelos son muy claros y están firmemente en manos de la propia empresa.

Se puede decir que el modelo grande de código abierto actual no puede satisfacer las necesidades comerciales reales. Sin embargo, los usuarios de modelos grandes de código abierto y los integradores de ISV necesitan obtener beneficios comerciales. Si el modelo grande de código abierto no está disponible comercialmente, el efecto no es bueno y es difícil ganar dinero, incluso si es gratis, la empresa considerará cuidadosamente si invertir en personas para desarrollarlo.

Por lo tanto, durante algún tiempo, el código cerrado seguirá siendo una opción popular para la industria de aterrizaje de modelos a gran escala.

Ve a las masas, ve a las masas

Es posible que algunas personas no lo entiendan, el código abierto es gratuito para uso comercial y todos pueden usar un modelo grande al precio de un repollo. Es tan amigable para los desarrolladores y usuarios empresariales, ¿por qué sigue diciendo que el código cerrado es mejor? ¿Es la plataforma de una gran fábrica enfocada en ganar dinero?

No.

Cualquiera que entienda el código abierto apoyará el código abierto. Cualquiera que apoye el código abierto prestará atención a la comercialización del código abierto.

El académico Mei Hong de la Academia de Ciencias de China dijo una vez que el código abierto se origina en el idealismo y está vigorosamente impulsado por la comercialización. Es un modelo de innovación abierta. Sin comercialización, no puede haber código abierto.

Por lo tanto, ya sea de código abierto o de código cerrado, quien pueda ser "comercial" antes tendrá un mejor futuro. En este sentido, los modelos a gran escala de fuente cerrada pueden tener una ventaja.Después de todo, los fabricantes con la confianza para cerrar la fuente todavía tienen dos cepillos y experiencia en I+D.

Entonces, ¿cuáles son las ventajas de los modelos grandes de código abierto? Si el modelo a gran escala de código cerrado va a la industria, entonces el modelo a gran escala de código abierto debe ir a las masas, centrándose en la fuerza de una persona.

(LeCun cree que Llama-v2 cambiará la estructura de mercado de LLM)

El gran modelo de código abierto es diferente del software de código abierto tradicional, donde se coloca el código fuente y luego los desarrolladores de todo el mundo contribuyen con el código y eso es todo. La colaboración y construcción conjunta de modelos grandes se refleja más en la prosperidad de la comunidad. Todos trabajan juntos para optimizar el modelo, enriquecer los datos, mejorar las herramientas y hacer que la aplicación sea integral...

En este momento, el modelo de código abierto puede traer varios beneficios:

Innovación tecnológica. La comunidad de código abierto puede reunir a una gran cantidad de empresas de tecnología, instituciones de investigación y desarrolladores para optimizar, mejorar y acelerar las iteraciones del modelo, haciendo que la tecnología del modelo y los conjuntos de datos de apoyo, las herramientas de aplicación, etc. sean ricos y de alta calidad, para mantenerse a la vanguardia.
Concurso de talentos. Como tecnología emergente, los modelos grandes tienen escasez de talentos. La brecha se puede ampliar atrayendo talentos destacados de todo el mundo para que contribuyan a través de comunidades de código abierto y acelerando la actualización de modelos grandes. Hay presión cuando hay competencia, por lo que después del lanzamiento de LLama 2, pronto se informó que OpenAI también comenzó a considerar el código abierto GPT-3.5 dentro de medio año.
Cierre ecológico. En la actualidad, las soluciones de TI y la transformación digital en todos los ámbitos de la vida utilizan una gran cantidad de tecnologías y aplicaciones de código abierto para construir un ecosistema de código abierto a gran escala, lo que permite que los talentos y las empresas de TI utilicen tecnologías relacionadas, lo que es muy útil para la comercialización posterior. Por ejemplo, Microsoft, el socio/inversionista de OpenAI, también optó por convertirse en el socio principal de Llama 2 esta vez, apoyando a los desarrolladores individuales y a las pequeñas y medianas empresas a llamar a Llama 2 al costo más bajo, lo que sin duda es un gran beneficio para Azure.

No todos los grandes modelos de código abierto pueden tener éxito, y la ecología es el foso clave.

Galleta sándwich, ¿adónde vas?

Al igual que iOS y Android, el sistema operativo móvil, la competencia entre el código abierto y el código cerrado no es una lucha de "vida o muerte" en un campo determinado, sino que cada uno toma un camino diferenciado y marca el comienzo de su propio mundo. Lo mismo ocurre con los modelos grandes.

Los modelos a gran escala de código cerrado están abiertos para dar la bienvenida a los clientes, los modelos a gran escala de código abierto están en auge y todos tienen un futuro brillante.

Siendo ese el caso, ¿por qué algunos expertos creen que el código abierto de Llama 2 es un gran salto para el código abierto, pero un gran golpe para las grandes empresas modelo de código cerrado?

¿A quién golpeó?

La respuesta debería ser que es un fabricante básico de modelos a gran escala que no está dispuesto a ser solo una capa de aplicación, sino que tampoco puede abrumar a un gran fabricante.

Los investigadores de Google escribieron una vez que debido a la comunidad de código abierto, nosotros (Google y OpenAI) no tenemos foso. Sin embargo, OpenAI también tiene modelos grandes de código cerrado como GPT-4 como su característica principal. Solo cuando se ve obligado a abrir código, considera GPT-3.5 de código abierto. Hay una brecha técnica en esto. Además, el código abierto de GPT-3.5 solo reveló el boca a boca, y aún se desconoce el progreso específico.

Por lo tanto, los principales fabricantes de tecnología y los gigantes de la nube, como Google en el extranjero, OpenAI y BATH nacional, tienen ventajas en tarjetas, dinero, talentos, datos, conocimiento del mercado y base de clientes.Tomar la ruta de código cerrado para completar la comercialización e industrialización de modelos grandes tiene ciertas ventajas y barreras para los pioneros.

Esto es un dolor para aquellos fabricantes de segundo y tercer nivel que quieren entrenar el modelo grande básico de uso general.

Anteriormente, grandes y pequeñas empresas de tecnología y varias instituciones de investigación científica de todo el mundo acudían en masa para entrenar grandes modelos básicos, como algunos unicornios de IA de visión artificial, que accidentalmente se convertían en "galletas sándwich" entre la capa básica y la capa de aplicación.

No puede vencer a GPT en términos de fuerza, y no puede vencer a Llama en términos de costo. El modelo grande básico de propósito general entrenado ya está desactualizado antes de que se abra oficialmente para uso comercial, y está destinado a ser cosa del pasado. El mercado no puede competir con los gigantes, y el grado de apertura no es tan bueno como el de la comunidad de código abierto, es casi imposible recuperar los altos costos de desarrollo.

Puede ser una sabia elección renunciar al gran modelo lo antes posible.

Por ejemplo, el modelo a gran escala de una empresa nacional de inteligencia artificial se privatizó previamente a un precio de 300.000 yuanes al año, y luego se anunció que estaba completamente abierto a la investigación académica y se autorizó para uso comercial gratuito. También existe la posibilidad de comercialización (como Linux/Android/Red Hat) en la comunidad de código abierto modelo a gran escala y, al mismo tiempo, puede evitar "cara a cara" con el modelo general a gran escala de la cabeza.

Para los desarrolladores de la capa de aplicaciones y los integradores de ISV, hacer un buen uso de los grandes modelos de código cerrado con una alta aceptación en la industria puede permitir que los clientes los acepten más rápido, sean más adecuados para las necesidades comerciales de privatización e implementación personalizada, y completen el aterrizaje comercial y el crecimiento de los ingresos más rápido.

Para las nuevas empresas de IA, el código abierto se puede usar directamente y evitar la creación repetida de ruedas. Puede ser un método de comercialización de prueba y error más ideal y de bajo costo. "Informar al grupo para calentar" contribuye a proyectos de código abierto a gran escala, promueve el desarrollo de comunidades de código abierto a gran escala y también recibirá comentarios de la comunidad y de las empresas.

El desarrollo del modelo a gran escala de China a un alto nivel requiere no solo que el modelo a gran escala de código cerrado líder en el mundo tome la iniciativa, sino también una comunidad de modelos a gran escala de código abierto con influencia mundial.

El camino está obstruido y es largo, pero el viaje se acerca. Es posible que desee utilizar una actitud constructiva para analizar las disputas de fuente abierta y fuente cerrada, dar cierta confianza al modelo grande de fuente cerrada nacional y también alentar y apoyar a la comunidad de fuente abierta nacional.

Ver originales

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
BTC Hits New High
64k Popularidad
ETH Breaks $3,000
22k Popularidad
VIP Exclusive Airdrop Carnival
6k Popularidad
4Pump.Fun Debuts on Gate
4k Popularidad
5Fed June Meeting Minutes
4k Popularidad
6Join Gate VIP to Win MacBook
29k Popularidad
7Trump Tariff Hikes
16k Popularidad
8Gate xStocks Trading Share
22k Popularidad
9HK Stablecoin Rules
12k Popularidad
10Truth Social Crypto ETF
2k Popularidad

Anclado

Gran modelo, el código abierto no puede matar al código cerrado

Ve a la industria, ve a la industria

Ve a las masas, ve a las masas

**Galleta sándwich, ¿adónde vas? **

Galleta sándwich, ¿adónde vas?