El 19 de julio, Meta anunció el lanzamiento oficial del modelo de lenguaje grande Llama2 en su sitio web oficial. Esta es la última versión del modelo de lenguaje grande de Meta y el primer modelo de lenguaje grande comercial de código abierto de Meta. Al mismo tiempo, Microsoft Azure también anunció que cooperará con Llama2 en profundidad.
Según los datos oficiales de Meta, Llama 2 ha mejorado sus datos de entrenamiento en un 40% en comparación con la generación anterior, incluidas 3 versiones de 7 mil millones, 13 mil millones y 70 mil millones de parámetros. El modelo preentrenado de Llama 2 se entrenó en 2 billones de tokens con el doble de la longitud de contexto de Llama 1, y su modelo ajustado se entrenó en más de 1 millón de anotaciones humanas.
Se dice que su rendimiento es comparable a GPT-3.5, y también es conocido como el mejor modelo grande de código abierto. Una vez que se dio a conocer la noticia, los medios y la industria incluso llegaron a la conclusión de que la comercialización de código abierto de Llama2 cambiará el panorama competitivo en el campo de los modelos grandes. ¿Qué tan grande es el impacto de este incidente? ¿Qué tipo de impacto traerá a la industria? Invitamos a dos personas de la industria a conversar. Una es Zhou Songtao, subgerente general del Centro de I+D de productos de Leo Group Digital Technology Co., Ltd.. Lideró al equipo para evaluar casi la mayoría de los principales modelos grandes en el país y en el extranjero, el otro Es la Sra. Jiao Juan, Presidente del Instituto de Investigación Cósmica de Anxinyuan, que ha estado observando profundamente la ecología de la industria de la tecnología en el país y en el extranjero durante muchos años.
Los siguientes son los principales puntos de vista de los dos:
① Llama2 considera los parámetros del modelo, el consumo de tiempo, el consumo de energía informática y otros aspectos de manera integral. Comparado con GPT-3.5, es seguro.
② La inteligencia artificial generativa provocará cambios trascendentales en todo el sistema de código abierto.
③ En el futuro, el código abierto y el código cerrado definitivamente se balancearán entre sí, y se formará un patrón de juegos y competencia mutuos en este campo durante bastante tiempo.
④ El código abierto comercial de Llama2 no necesariamente reducirá el costo para que los empresarios usen modelos grandes, pero puede causar que los proveedores de servicios de modelos grandes comiencen una guerra de precios, lo cual es una buena noticia para los usuarios y empresarios.
⑤ La competencia de los gigantes extranjeros en el campo de la IA ya no es tan simple como el desarrollo de la segunda curva. La competencia es feroz y decisiva, e incluso un poco para salvar vidas. Vale la pena reflexionar sobre las razones detrás de esto.
La siguiente es una selección del contenido de la conversación:
**Tecnología Tencent: desde la perspectiva de los profesionales o aplicadores de la industria, ¿cómo evaluar un modelo grande? **
Zhou Songtao: MMLU es el marco de evaluación de modelos a gran escala más utilizado en el mundo. Considera el conocimiento integral y la capacidad de 57 disciplinas, desde humanidades hasta ciencias sociales, ciencia e ingeniería. La mayoría de nuestras evaluaciones se basan en este marco. Pero nuestra industria es la industria de la publicidad, según los atributos de la industria de la publicidad, agregaremos algunos otros elementos de evaluación.
También dijimos en la reunión de gestión del grupo que el enfoque de la industria de la publicidad no es la creatividad, sino el control. Los resultados generados deben ser 100% consistentes con el anunciante, el desempeño de su producto, apariencia, logotipo, etc. Solo después de lograr estas reducciones puede haber lugar para la divergencia y la imaginación. Así que haremos una prueba separada para el control de la alucinación del modelo grande. Sin embargo, la mayoría de los grandes modelos de lenguaje y modelos de difusión para la generación de imágenes en el mercado son difíciles de satisfacer por completo las necesidades de los anunciantes. Después de que se lance el modelo grande de uso general, todavía queda un largo camino por recorrer antes de que se comercialice por completo.
Además, lo más importante que consideramos es el tema del costo: el modelo de código cerrado tiene un sistema de cotización directa, y generalmente medimos el costo de miles de Tokens. Para el modelo de código abierto, hay más enlaces para medir y calcular, desde la implementación hasta el ajuste fino y el razonamiento en línea final, cuánta potencia de cómputo se consume y cuánto es el costo de desarrollo y el costo de los datos invertidos en mantener la apertura. modelo fuente.
La retroalimentación de calidad del modelo grande más la estimación de costos pueden formar una evaluación del modelo. En una oración simple, Cuanto mayor sea el rendimiento de costos, más popular.
Jiao Juan: Desde nuestro punto de vista, lo que más importa es cómo definir algunos requisitos verticales. Porque a escala global, sin importar si se trata de una empresa de tecnología dura o una empresa de Internet, es posible que no haya demasiadas empresas que sean realmente capaces de definir los requisitos, por lo que esta propuesta se puede convertir en——**¿Se puede ¿Las propias empresas modelo establecen algunos requisitos verticales? Si no, podemos trabajar con socios ecológicos para explorar una mejor dirección de categoría vertical. Por supuesto, sería mejor si ciertas empresas pueden tener su propia acumulación de datos y acumulación de experiencia en una dirección específica. Esta es nuestra perspectiva, desde la perspectiva de aplicar y definir las necesidades de las industrias segmentadas verticalmente.
**Tecnología Tencent: ¿Puede Llama2 realmente superar o igualar a GPT-3.5 en términos de rendimiento? **
Zhou Songtao: El modelo grande para Llama2 aún está en evaluación y tomará alrededor de 2 semanas. Pero a partir de nuestro estudio del documento y algunas evaluaciones simples que se han hecho hasta ahora, podemos hacer algunas comparaciones generales.
Hay varias diferencias entre la etapa de pre-entrenamiento y el modelo original de GPT, y otras compañías modelo no han hecho estos cambios antes. El primero es cambiar el mecanismo de atención de múltiples cabezas del Transformador tradicional en un mecanismo de grupo de fragmentos en la etapa previa al entrenamiento. Es un poco similar o imita la tecnología de fragmentación que usamos cuando estábamos procesando big data y procesando datos paralelos a gran escala. Agrupe una gran cantidad de consultas (solicitudes) requeridas por la atención en grupos, y coloque cada grupo en una unidad de capacitación, de modo que la eficiencia y la velocidad del paralelismo teóricamente mejoren en gran medida. Creo que esta parte es un nuevo cambio realizado por Meta basado en la experiencia previa de procesamiento paralelo a gran escala.
En base a este cambio, creo que, en teoría, son muchas veces más altos que los modelos grandes existentes en términos de requisitos de potencia informática y consumo de tiempo. Estimo que Llama2 empezará en enero según su comunicado, calculado según el tiempo de lanzamiento, debería ser más corto que el tiempo de pre-entrenamiento de Llama1 porque tiene una mayor cantidad de parámetros que Llama1. De esta forma, se comprime el posible ciclo de múltiples rondas de entrenamiento. Esto está estrechamente relacionado con el GQA mencionado en el documento. En este punto, debería exceder a GPT 4. Aunque no sabemos el número específico de GPT-4, según la especulación externa, GPT-4 es mucho más alto que GPT-3 y GPT-3.5.
Para GQA, actualmente creemos que el método de procesamiento de **GQA puede mejorar la velocidad de entrenamiento para los usuarios con suficientes tarjetas de poder de cómputo, especialmente recursos de poder de cómputo paralelo GPU. **Sin embargo, las pruebas y las revisiones de pares encontraron que esta función tiene altos requisitos en cuanto al tamaño del conjunto de potencia informática y el hardware. Por razones bien conocidas, los desarrolladores en China continental tienen pocos recursos informáticos paralelos de GPU a gran escala, por lo que **GQA puede tener un impacto negativo en nosotros, es de mal gusto. **
Además, el segundo punto es que en la etapa de ajuste, sabemos que el sistema GPT ha realizado un procesamiento de datos en capas durante la normalización, lo que hace que los resultados del entrenamiento de datos sean muy precisos, pero también consume mucha potencia informática. Pero Llama2 usa una solución diferente, que consiste en agregar coeficientes de peso sobre la base del procesamiento en capas, lo cual es muy útil para mejorar la eficiencia y mantener la precisión, y también es útil para ahorrar potencia informática. Estos dos puntos son optimizaciones realizadas durante la fase previa al entrenamiento. **
Además, el documento también mencionó que la posición de incrustación de Llama1 es fija y no se puede modificar. Pero en Llama2, esto se puede ajustar dinámicamente, lo que también es un punto brillante. También estamos muy interesados en esto y queremos saber qué tipo de efecto práctico puede producir.
Además de estos, Llama2 obviamente ha absorbido algo de experiencia en ingeniería de las series Llama1 y GPT, es decir, la exitosa experiencia en la etapa RHLF se ha reutilizado y debería mejorarse mucho.
El último son los parámetros de ratio, lo que he visto hasta ahora son esos parámetros que ha dado a conocer en su web oficial. Hay más de 1 millón de parámetros, incluida su retroalimentación mejorada artificialmente, y la parte afinada alcanza más de 100,000. Si se atreve a publicar estos parámetros, significa que Meta tiene la confianza para considerar de manera integral los parámetros del modelo, el consumo de tiempo y el consumo de energía informática.
**Tencent Technology: ¿Por qué el umbral para el código abierto comercial se establece en no más de 700 millones de usuarios activos mensuales? **
Jiao Juan: Es broma, creo que esta regulación es "muy abierta": Meta ha jugado una carta brillante, ya que no puede evitar que otros investiguen y luego dejarlo ir. En esencia, es el resultado de juegos internos. Los indicadores financieros de Meta no han sido muy buenos desde principios de 2021, por lo que ha estado buscando la segunda curva de crecimiento. En octubre de 2021, Meta cambió su nombre a All in Metaverse, pero no vio ninguna mejora sustancial. Lanzó el modelo grande actual, que se puede integrar con su propio hardware. Es equivalente a jugar una carta brillante. Requiere hardware, software y sistema operativo. Espera tener su propio lugar en la era de la IA, pero al mismo tiempo como código abierto, no quiere serlo. demasiado beneficioso para los competidores. Como puede ver, los 700 millones de productos activos mensuales incluyen YouTube 2500 millones, Apple 1800 millones, Microsoft 1400 millones, Samsung 1000 millones, LinkedIn 900 millones, Snapchat 750 millones, etc.
**Tecnología Tencent: ¿Cuál es la diferencia esencial entre el código abierto comercial y la licencia de investigación? ¿Qué impacto podría haber en el ecosistema de código abierto? **
Zhou Songtao: Después del estallido del gran modelo de lenguaje, el tema del código abierto también se ha vuelto muy complicado. Todos han hecho muchos ajustes a la definición de código abierto y esta regla. Implicará que usted abra el algoritmo en sí mismo, la investigación de datos de código abierto, etc. Para el juicio del código abierto general del nuevo modelo de lenguaje o modelo generativo: primero, depende de si su código de algoritmo es de código abierto y luego si su conjunto de números de entrenamiento será de código abierto. El tercero se basa en el algoritmo de código abierto. Si hago un ajuste fino u otro procesamiento, ¿qué tipo de restricciones tendrá su política de autorización? El cuarto es usar los resultados de la inferencia de su modelo, si el lado del modelo tiene el control. Por lo general, juzgamos a partir de estas direcciones si el "código abierto" de este modelo tiene realmente valor de aplicación para nosotros.
En cuanto a la investigación de código abierto y el código abierto comercial, recuerdo que el ejemplo más típico es la empresa Stability AI, recuerdo que dos semanas antes de que LLama2 fuera de código abierto, también se lanzó la versión XL de StabilityAI, es decir, solo se autoriza la investigación. código abierto, y está claramente estipulado que se pueden usar modelos, hacer investigaciones con datos, por ejemplo, si eres investigador o perteneces a cierta universidad, pero si usas este modelo para comercialización, está completamente prohibido, y necesita solicitar autorización por separado para usarlo.
Creo que la autorización de código abierto de modelos grandes ha cambiado mucho con respecto a la lógica de código abierto original. Los enlaces y procesos se configuran con mucho cuidado. Es posible que la inteligencia artificial generativa provoque cambios trascendentales en todo el código abierto. sistema fuente. **
**Tencent Technology: ¿Qué tipo de impacto tendrá el código abierto comercial de Llama2 en el panorama de la competencia de modelos grandes? **
Jiao Juan: En la competencia de los gigantes extranjeros, hay un estilo, que es hacer que sus productos y servicios sean reconocibles, por lo que Meta se llama Metaverse y Apple debe llamarse New Universe. Si otros cierran la fuente, ocuparé la fuente abierta . El código abierto en el pasado puede haber sido creado por geeks con un sentido de libertad, y el pensamiento era relativamente simple. Pero ahora que un organismo empresarial tan grande está liderando este asunto, se trata más de intereses comerciales.
Zhou Songtao: Creo que los tres elementos del panorama competitivo del sistema de inteligencia artificial generativa (poder de cómputo, algoritmos y modelos) no han cambiado. De hecho, el modelo solo da cuenta de un tercio de los factores competitivos, si se cambia el modelo, solo puede cambiar un tercio o un poco más de un tercio, estimo que es más optimista, y puede alcanzar alrededor del 45%. **
El patrón en casa y en el extranjero todavía no es el mismo, y el patrón en el nivel del algoritmo extranjero es más obvio. Los datos externos básicamente se limpian y vectorizan. El conjunto de datos de entrenamiento ya es suficiente y la ventaja competitiva en términos de datos no es obvia, a menos que tenga datos propietarios para una determinada industria. El poder de cómputo no es un lugar donde los gigantes extranjeros puedan ampliar la brecha, los gigantes en realidad tienen la fuerza para luchar por el poder de cómputo.
En primer lugar, las empresas nacionales con algoritmos básicos subyacentes en realidad son muy limitadas; en segundo lugar, el grado de limpieza y vectorización de los datos nacionales en realidad no es alto. Al principio, si una empresa invertía mucho poder en el procesamiento de datos estructurados, en realidad podía compensar la falta de poder de cómputo y algoritmos. En tercer lugar, el país en realidad carece de poder de cómputo a corto plazo. Por lo tanto, el impacto del código abierto de LLama2 en el panorama doméstico actualmente no es fácil de juzgar.
Además, en el extranjero, Google es el verdadero pionero en toda la inteligencia artificial generativa, y luego casi se convierte en un mártir. Es porque el documento fuente de toda la inteligencia artificial generativa es "Todo lo que necesita es atención", y luego, incluido el primer modelo de código abierto T5, en realidad es Google. Google solía estar orgulloso de la multitud. Inesperadamente, un caballo oscuro, OpenAI, fue asesinado más tarde. Los primeros GPT-1 y GPT-2 eran de código abierto, y GPT-3 fue de código cerrado después de que fuera de código abierto. Cuando OpenAI ingresa al mercado, el código abierto es la corriente principal de toda la inteligencia artificial generativa.
OpenAI encontró a Microsoft en este momento y también poseía un poder de cómputo muy costoso, convirtiéndose en un fuerte competidor de Google. A partir de 2022, el mercado de inteligencia artificial generativa comenzará a ingresar al sistema de código cerrado. OpenAI dominó el algoritmo, agregó el poder de cómputo y los datos de Microsoft, y cerró el producto, y el producto se convirtió en un éxito a nivel de fenómeno, y tanto Microsoft como OpenAI se beneficiaron de él. Creo que cuando Meta decidió ingresar por primera vez en este campo, se estima que estudió cuidadosamente el historial de desarrollo desde el principio. Ahora que OpenAI se ha retirado del campo de código abierto a código cerrado, usaré el método de código abierto para derrotar tu magia otra vez.
Antes de eso, Meta también vio la vitalidad de varias pequeñas empresas después del código abierto, especialmente Stability AI. Esta empresa no tiene una base profunda. La empresa todavía tiene muchas controversias.
Recuerdo que Llama1 anunció su código abierto en marzo. En ese momento, también dijo que era "código abierto accidentalmente". Luego, Stability AI también dijo que filtré el código accidentalmente, por lo que también era código abierto. El camino general es que Google marcó el tono del código abierto, y luego OpenAI y Microsoft lo volvieron a convertir en el sistema de código cerrado, y luego Meta y Stability AI lo pusieron de nuevo en código abierto. Creo que en el futuro, **Open La fuente y la fuente cerrada deben balancearse entre sí, y se formará un patrón de juegos y competencia mutuos en este campo durante mucho tiempo. **
**Tecnología Tencent: ¿Meta de código abierto Llama2 es un último recurso o una opción estratégica activa? **
Jiao Juan: Debe ser una elección estratégica activa, porque los tres principales competidores en el campo de AR, Meta, Microsoft y Google, han estado luchando durante más de diez años. Meta lanzó rápidamente LLama2, al menos más rápido que Google. La elección de código abierto y código cerrado no eliminará algunas demandas de interés esenciales, por lo que creo que puede no ser tan significativo cambiar completamente el patrón de competencia. La segunda es que la situación interna es diferente, por lo que es necesario volver a observar el patrón de competencia interna.
Ya sea de código abierto o de código cerrado, es esencialmente una elección estratégica entre estas empresas en todo el mundo frente a nuevas grandes oportunidades. Al hacer esfuerzos para diseñar el frente, también espero capturar el interior de Bier tanto como sea posible. La competencia de los gigantes extranjeros ya no es tan simple como desarrollar la segunda o enésima curva de crecimiento. La competencia es feroz y decisiva, incluso un poco para salvar vidas.
Creo que esto es lo más digno de la discusión de todos: qué tipo de entorno o trasfondo hay detrás de sus acciones, para que deban hacerlo de una manera tan decisiva, como una carrera armamentista.
También han sucedido algunas cosas notables recientemente. Se estableció la compañía X-AI de Musk. Quiere volver a comprender el mundo físico real. Todos los gigantes están mirando fijamente la realización real de AGI. Este mapa es cada vez más grande. Sin embargo, el nuevo mundo empresarial y el nuevo panorama empresarial siempre requieren algunas aplicaciones y productos nuevos y populares para impulsarlo, lo que puede ser difícil de lograr en 2023. Podemos poner nuestra esperanza en 2024, tal vez las gafas MR de Apple sean una nueva oportunidad.
**Tencent Technology: También vimos que otros dos gigantes extranjeros, Musk y Apple, no hicieron anuncios de alto perfil sobre su progreso en el campo de los modelos a gran escala. ¿Qué opinas de esto? **
Jiao Juan: Solo se están conteniendo por el momento, y lo que es seguro es que lo que lanzarán definitivamente no se llamará un modelo grande. Creo que podemos centrarnos en el siguiente nivel, la inteligencia incorporada. En este sentido, Musk es el menos preocupado. La mayor ventaja de Apple radica en la combinación de software y hardware.
Zhou Songtao: Lo hemos probado a grandes rasgos nosotros mismos, y el chip **M2 puede competir con las tarjetas de Nvidia en términos de potencia informática de punto flotante. ** Apple puede tomar la integración de software y hardware, que en realidad está más allá del panorama competitivo actual de modelos grandes.
Creo que la inteligencia incorporada puede ser un nuevo hito en el desarrollo de la inteligencia artificial general en el futuro, porque una vez que tenga una gran capacidad de razonamiento, definitivamente se extenderá al mundo físico y el punto central de controlar el mundo físico. es incrustarlo en el cuerpo o incrustarlo en sensores en el mundo físico, entonces este es un sistema que se convierte en inteligencia incorporada. Como acaba de decir el Sr. Zhou, esto se ha convertido en una serie de empresas de Musk.
Cuando combinamos software y hardware para observar toda la inteligencia artificial general, descubrirá que el panorama de la competencia ha cambiado nuevamente. Ya no son Google, Meta y la IA abierta los que compiten, pero es posible que se unan más empresas de hardware. en.
**Tecnología Tencent: código abierto comercial de Llama2, ¿es posible reducir el costo de iniciar un modelo a gran escala? **
Zhou Songtao: No estoy seguro de esto ahora, porque aunque ahorra el costo de alquilar API, encontrará que el gran recorte de precios de OpenAI el 15 de junio tiene casi un 10% de descuento, por lo que el modelo de código cerrado también está luchando contra un precio. guerra. Por el contrario, si se utiliza el modelo de código abierto, ¿cuánto costará el hardware, el poder de cómputo y los datos? Los costos ocultos son difíciles de estimar. Hablando simplemente desde el código abierto de LLama2, creo que no es necesariamente un camino económico para emprender.
Con respecto al costo de razonamiento, actualmente medimos y combinamos los artículos de evaluación de evaluadores extranjeros, y descubrimos que para algunos tipos específicos de tareas de razonamiento, como la clasificación o el flujo de trabajo de langchain, la eficiencia de razonamiento y el consumo de tiempo de Llama2 se reducen, pero para otros tipos de tareas, **Si se compara con la versión instantánea de GPT-3.5-turbo-0615, puede que no sea necesariamente más barata (solo en términos de consumo de energía de computación de inferencia); **La versión original actual es muy fluida y precisa en la comprensión Chino, pero la expresión china es casi 0, ** Por lo tanto, los empresarios chinos que quieran usar Llama2 por completo deben gastar mucho dinero para resolver el ajuste o la orientación de la expresión china, o esperar a que la comunidad de código abierto proporcione una expresión china. versión... Este costo no es bajo. **
Además, el código abierto comercial de **Llama2 puede provocar que los proveedores de servicios a gran escala inicien una guerra de precios, lo cual es una buena noticia para los usuarios y empresarios. **
Jiao Juan: Hablando con franqueza, todavía espero con ansias algunos modelos de la industria o modelos verticales en China. Elegí personalmente algunas empresas prometedoras, que se caracterizan por un desempeño sólido en esta industria y experiencia en la acumulación continua de datos y la construcción de plataformas. Además, creo que esta ronda no es una cuestión de si el boleto es caro o no, sino si eres caro o no, todo el mundo se enfrenta a una transformación.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Detrás del modelo de código abierto comercial más poderoso de Meta: competencia gigante que salva vidas, Musk y Apple encuentran otra manera
Texto: Guo Xiaojing, Tecnología Tencent
El 19 de julio, Meta anunció el lanzamiento oficial del modelo de lenguaje grande Llama2 en su sitio web oficial. Esta es la última versión del modelo de lenguaje grande de Meta y el primer modelo de lenguaje grande comercial de código abierto de Meta. Al mismo tiempo, Microsoft Azure también anunció que cooperará con Llama2 en profundidad.
Según los datos oficiales de Meta, Llama 2 ha mejorado sus datos de entrenamiento en un 40% en comparación con la generación anterior, incluidas 3 versiones de 7 mil millones, 13 mil millones y 70 mil millones de parámetros. El modelo preentrenado de Llama 2 se entrenó en 2 billones de tokens con el doble de la longitud de contexto de Llama 1, y su modelo ajustado se entrenó en más de 1 millón de anotaciones humanas.
Se dice que su rendimiento es comparable a GPT-3.5, y también es conocido como el mejor modelo grande de código abierto. Una vez que se dio a conocer la noticia, los medios y la industria incluso llegaron a la conclusión de que la comercialización de código abierto de Llama2 cambiará el panorama competitivo en el campo de los modelos grandes. ¿Qué tan grande es el impacto de este incidente? ¿Qué tipo de impacto traerá a la industria? Invitamos a dos personas de la industria a conversar. Una es Zhou Songtao, subgerente general del Centro de I+D de productos de Leo Group Digital Technology Co., Ltd.. Lideró al equipo para evaluar casi la mayoría de los principales modelos grandes en el país y en el extranjero, el otro Es la Sra. Jiao Juan, Presidente del Instituto de Investigación Cósmica de Anxinyuan, que ha estado observando profundamente la ecología de la industria de la tecnología en el país y en el extranjero durante muchos años.
Los siguientes son los principales puntos de vista de los dos:
① Llama2 considera los parámetros del modelo, el consumo de tiempo, el consumo de energía informática y otros aspectos de manera integral. Comparado con GPT-3.5, es seguro.
② La inteligencia artificial generativa provocará cambios trascendentales en todo el sistema de código abierto.
③ En el futuro, el código abierto y el código cerrado definitivamente se balancearán entre sí, y se formará un patrón de juegos y competencia mutuos en este campo durante bastante tiempo.
④ El código abierto comercial de Llama2 no necesariamente reducirá el costo para que los empresarios usen modelos grandes, pero puede causar que los proveedores de servicios de modelos grandes comiencen una guerra de precios, lo cual es una buena noticia para los usuarios y empresarios.
⑤ La competencia de los gigantes extranjeros en el campo de la IA ya no es tan simple como el desarrollo de la segunda curva. La competencia es feroz y decisiva, e incluso un poco para salvar vidas. Vale la pena reflexionar sobre las razones detrás de esto.
La siguiente es una selección del contenido de la conversación:
**Tecnología Tencent: desde la perspectiva de los profesionales o aplicadores de la industria, ¿cómo evaluar un modelo grande? **
Zhou Songtao: MMLU es el marco de evaluación de modelos a gran escala más utilizado en el mundo. Considera el conocimiento integral y la capacidad de 57 disciplinas, desde humanidades hasta ciencias sociales, ciencia e ingeniería. La mayoría de nuestras evaluaciones se basan en este marco. Pero nuestra industria es la industria de la publicidad, según los atributos de la industria de la publicidad, agregaremos algunos otros elementos de evaluación.
También dijimos en la reunión de gestión del grupo que el enfoque de la industria de la publicidad no es la creatividad, sino el control. Los resultados generados deben ser 100% consistentes con el anunciante, el desempeño de su producto, apariencia, logotipo, etc. Solo después de lograr estas reducciones puede haber lugar para la divergencia y la imaginación. Así que haremos una prueba separada para el control de la alucinación del modelo grande. Sin embargo, la mayoría de los grandes modelos de lenguaje y modelos de difusión para la generación de imágenes en el mercado son difíciles de satisfacer por completo las necesidades de los anunciantes. Después de que se lance el modelo grande de uso general, todavía queda un largo camino por recorrer antes de que se comercialice por completo.
Además, lo más importante que consideramos es el tema del costo: el modelo de código cerrado tiene un sistema de cotización directa, y generalmente medimos el costo de miles de Tokens. Para el modelo de código abierto, hay más enlaces para medir y calcular, desde la implementación hasta el ajuste fino y el razonamiento en línea final, cuánta potencia de cómputo se consume y cuánto es el costo de desarrollo y el costo de los datos invertidos en mantener la apertura. modelo fuente.
La retroalimentación de calidad del modelo grande más la estimación de costos pueden formar una evaluación del modelo. En una oración simple, Cuanto mayor sea el rendimiento de costos, más popular.
Jiao Juan: Desde nuestro punto de vista, lo que más importa es cómo definir algunos requisitos verticales. Porque a escala global, sin importar si se trata de una empresa de tecnología dura o una empresa de Internet, es posible que no haya demasiadas empresas que sean realmente capaces de definir los requisitos, por lo que esta propuesta se puede convertir en——**¿Se puede ¿Las propias empresas modelo establecen algunos requisitos verticales? Si no, podemos trabajar con socios ecológicos para explorar una mejor dirección de categoría vertical. Por supuesto, sería mejor si ciertas empresas pueden tener su propia acumulación de datos y acumulación de experiencia en una dirección específica. Esta es nuestra perspectiva, desde la perspectiva de aplicar y definir las necesidades de las industrias segmentadas verticalmente.
**Tecnología Tencent: ¿Puede Llama2 realmente superar o igualar a GPT-3.5 en términos de rendimiento? **
Zhou Songtao: El modelo grande para Llama2 aún está en evaluación y tomará alrededor de 2 semanas. Pero a partir de nuestro estudio del documento y algunas evaluaciones simples que se han hecho hasta ahora, podemos hacer algunas comparaciones generales.
Hay varias diferencias entre la etapa de pre-entrenamiento y el modelo original de GPT, y otras compañías modelo no han hecho estos cambios antes. El primero es cambiar el mecanismo de atención de múltiples cabezas del Transformador tradicional en un mecanismo de grupo de fragmentos en la etapa previa al entrenamiento. Es un poco similar o imita la tecnología de fragmentación que usamos cuando estábamos procesando big data y procesando datos paralelos a gran escala. Agrupe una gran cantidad de consultas (solicitudes) requeridas por la atención en grupos, y coloque cada grupo en una unidad de capacitación, de modo que la eficiencia y la velocidad del paralelismo teóricamente mejoren en gran medida. Creo que esta parte es un nuevo cambio realizado por Meta basado en la experiencia previa de procesamiento paralelo a gran escala.
En base a este cambio, creo que, en teoría, son muchas veces más altos que los modelos grandes existentes en términos de requisitos de potencia informática y consumo de tiempo. Estimo que Llama2 empezará en enero según su comunicado, calculado según el tiempo de lanzamiento, debería ser más corto que el tiempo de pre-entrenamiento de Llama1 porque tiene una mayor cantidad de parámetros que Llama1. De esta forma, se comprime el posible ciclo de múltiples rondas de entrenamiento. Esto está estrechamente relacionado con el GQA mencionado en el documento. En este punto, debería exceder a GPT 4. Aunque no sabemos el número específico de GPT-4, según la especulación externa, GPT-4 es mucho más alto que GPT-3 y GPT-3.5.
Para GQA, actualmente creemos que el método de procesamiento de **GQA puede mejorar la velocidad de entrenamiento para los usuarios con suficientes tarjetas de poder de cómputo, especialmente recursos de poder de cómputo paralelo GPU. **Sin embargo, las pruebas y las revisiones de pares encontraron que esta función tiene altos requisitos en cuanto al tamaño del conjunto de potencia informática y el hardware. Por razones bien conocidas, los desarrolladores en China continental tienen pocos recursos informáticos paralelos de GPU a gran escala, por lo que **GQA puede tener un impacto negativo en nosotros, es de mal gusto. **
Además, el documento también mencionó que la posición de incrustación de Llama1 es fija y no se puede modificar. Pero en Llama2, esto se puede ajustar dinámicamente, lo que también es un punto brillante. También estamos muy interesados en esto y queremos saber qué tipo de efecto práctico puede producir.
Además de estos, Llama2 obviamente ha absorbido algo de experiencia en ingeniería de las series Llama1 y GPT, es decir, la exitosa experiencia en la etapa RHLF se ha reutilizado y debería mejorarse mucho.
El último son los parámetros de ratio, lo que he visto hasta ahora son esos parámetros que ha dado a conocer en su web oficial. Hay más de 1 millón de parámetros, incluida su retroalimentación mejorada artificialmente, y la parte afinada alcanza más de 100,000. Si se atreve a publicar estos parámetros, significa que Meta tiene la confianza para considerar de manera integral los parámetros del modelo, el consumo de tiempo y el consumo de energía informática.
Jiao Juan: Es broma, creo que esta regulación es "muy abierta": Meta ha jugado una carta brillante, ya que no puede evitar que otros investiguen y luego dejarlo ir. En esencia, es el resultado de juegos internos. Los indicadores financieros de Meta no han sido muy buenos desde principios de 2021, por lo que ha estado buscando la segunda curva de crecimiento. En octubre de 2021, Meta cambió su nombre a All in Metaverse, pero no vio ninguna mejora sustancial. Lanzó el modelo grande actual, que se puede integrar con su propio hardware. Es equivalente a jugar una carta brillante. Requiere hardware, software y sistema operativo. Espera tener su propio lugar en la era de la IA, pero al mismo tiempo como código abierto, no quiere serlo. demasiado beneficioso para los competidores. Como puede ver, los 700 millones de productos activos mensuales incluyen YouTube 2500 millones, Apple 1800 millones, Microsoft 1400 millones, Samsung 1000 millones, LinkedIn 900 millones, Snapchat 750 millones, etc.
**Tecnología Tencent: ¿Cuál es la diferencia esencial entre el código abierto comercial y la licencia de investigación? ¿Qué impacto podría haber en el ecosistema de código abierto? **
Zhou Songtao: Después del estallido del gran modelo de lenguaje, el tema del código abierto también se ha vuelto muy complicado. Todos han hecho muchos ajustes a la definición de código abierto y esta regla. Implicará que usted abra el algoritmo en sí mismo, la investigación de datos de código abierto, etc. Para el juicio del código abierto general del nuevo modelo de lenguaje o modelo generativo: primero, depende de si su código de algoritmo es de código abierto y luego si su conjunto de números de entrenamiento será de código abierto. El tercero se basa en el algoritmo de código abierto. Si hago un ajuste fino u otro procesamiento, ¿qué tipo de restricciones tendrá su política de autorización? El cuarto es usar los resultados de la inferencia de su modelo, si el lado del modelo tiene el control. Por lo general, juzgamos a partir de estas direcciones si el "código abierto" de este modelo tiene realmente valor de aplicación para nosotros.
En cuanto a la investigación de código abierto y el código abierto comercial, recuerdo que el ejemplo más típico es la empresa Stability AI, recuerdo que dos semanas antes de que LLama2 fuera de código abierto, también se lanzó la versión XL de StabilityAI, es decir, solo se autoriza la investigación. código abierto, y está claramente estipulado que se pueden usar modelos, hacer investigaciones con datos, por ejemplo, si eres investigador o perteneces a cierta universidad, pero si usas este modelo para comercialización, está completamente prohibido, y necesita solicitar autorización por separado para usarlo.
Creo que la autorización de código abierto de modelos grandes ha cambiado mucho con respecto a la lógica de código abierto original. Los enlaces y procesos se configuran con mucho cuidado. Es posible que la inteligencia artificial generativa provoque cambios trascendentales en todo el código abierto. sistema fuente. **
**Tencent Technology: ¿Qué tipo de impacto tendrá el código abierto comercial de Llama2 en el panorama de la competencia de modelos grandes? **
Jiao Juan: En la competencia de los gigantes extranjeros, hay un estilo, que es hacer que sus productos y servicios sean reconocibles, por lo que Meta se llama Metaverse y Apple debe llamarse New Universe. Si otros cierran la fuente, ocuparé la fuente abierta . El código abierto en el pasado puede haber sido creado por geeks con un sentido de libertad, y el pensamiento era relativamente simple. Pero ahora que un organismo empresarial tan grande está liderando este asunto, se trata más de intereses comerciales.
Zhou Songtao: Creo que los tres elementos del panorama competitivo del sistema de inteligencia artificial generativa (poder de cómputo, algoritmos y modelos) no han cambiado. De hecho, el modelo solo da cuenta de un tercio de los factores competitivos, si se cambia el modelo, solo puede cambiar un tercio o un poco más de un tercio, estimo que es más optimista, y puede alcanzar alrededor del 45%. **
El patrón en casa y en el extranjero todavía no es el mismo, y el patrón en el nivel del algoritmo extranjero es más obvio. Los datos externos básicamente se limpian y vectorizan. El conjunto de datos de entrenamiento ya es suficiente y la ventaja competitiva en términos de datos no es obvia, a menos que tenga datos propietarios para una determinada industria. El poder de cómputo no es un lugar donde los gigantes extranjeros puedan ampliar la brecha, los gigantes en realidad tienen la fuerza para luchar por el poder de cómputo.
En primer lugar, las empresas nacionales con algoritmos básicos subyacentes en realidad son muy limitadas; en segundo lugar, el grado de limpieza y vectorización de los datos nacionales en realidad no es alto. Al principio, si una empresa invertía mucho poder en el procesamiento de datos estructurados, en realidad podía compensar la falta de poder de cómputo y algoritmos. En tercer lugar, el país en realidad carece de poder de cómputo a corto plazo. Por lo tanto, el impacto del código abierto de LLama2 en el panorama doméstico actualmente no es fácil de juzgar.
Además, en el extranjero, Google es el verdadero pionero en toda la inteligencia artificial generativa, y luego casi se convierte en un mártir. Es porque el documento fuente de toda la inteligencia artificial generativa es "Todo lo que necesita es atención", y luego, incluido el primer modelo de código abierto T5, en realidad es Google. Google solía estar orgulloso de la multitud. Inesperadamente, un caballo oscuro, OpenAI, fue asesinado más tarde. Los primeros GPT-1 y GPT-2 eran de código abierto, y GPT-3 fue de código cerrado después de que fuera de código abierto. Cuando OpenAI ingresa al mercado, el código abierto es la corriente principal de toda la inteligencia artificial generativa.
OpenAI encontró a Microsoft en este momento y también poseía un poder de cómputo muy costoso, convirtiéndose en un fuerte competidor de Google. A partir de 2022, el mercado de inteligencia artificial generativa comenzará a ingresar al sistema de código cerrado. OpenAI dominó el algoritmo, agregó el poder de cómputo y los datos de Microsoft, y cerró el producto, y el producto se convirtió en un éxito a nivel de fenómeno, y tanto Microsoft como OpenAI se beneficiaron de él. Creo que cuando Meta decidió ingresar por primera vez en este campo, se estima que estudió cuidadosamente el historial de desarrollo desde el principio. Ahora que OpenAI se ha retirado del campo de código abierto a código cerrado, usaré el método de código abierto para derrotar tu magia otra vez.
Antes de eso, Meta también vio la vitalidad de varias pequeñas empresas después del código abierto, especialmente Stability AI. Esta empresa no tiene una base profunda. La empresa todavía tiene muchas controversias.
Recuerdo que Llama1 anunció su código abierto en marzo. En ese momento, también dijo que era "código abierto accidentalmente". Luego, Stability AI también dijo que filtré el código accidentalmente, por lo que también era código abierto. El camino general es que Google marcó el tono del código abierto, y luego OpenAI y Microsoft lo volvieron a convertir en el sistema de código cerrado, y luego Meta y Stability AI lo pusieron de nuevo en código abierto. Creo que en el futuro, **Open La fuente y la fuente cerrada deben balancearse entre sí, y se formará un patrón de juegos y competencia mutuos en este campo durante mucho tiempo. **
**Tecnología Tencent: ¿Meta de código abierto Llama2 es un último recurso o una opción estratégica activa? **
Jiao Juan: Debe ser una elección estratégica activa, porque los tres principales competidores en el campo de AR, Meta, Microsoft y Google, han estado luchando durante más de diez años. Meta lanzó rápidamente LLama2, al menos más rápido que Google. La elección de código abierto y código cerrado no eliminará algunas demandas de interés esenciales, por lo que creo que puede no ser tan significativo cambiar completamente el patrón de competencia. La segunda es que la situación interna es diferente, por lo que es necesario volver a observar el patrón de competencia interna.
Ya sea de código abierto o de código cerrado, es esencialmente una elección estratégica entre estas empresas en todo el mundo frente a nuevas grandes oportunidades. Al hacer esfuerzos para diseñar el frente, también espero capturar el interior de Bier tanto como sea posible. La competencia de los gigantes extranjeros ya no es tan simple como desarrollar la segunda o enésima curva de crecimiento. La competencia es feroz y decisiva, incluso un poco para salvar vidas.
Creo que esto es lo más digno de la discusión de todos: qué tipo de entorno o trasfondo hay detrás de sus acciones, para que deban hacerlo de una manera tan decisiva, como una carrera armamentista.
También han sucedido algunas cosas notables recientemente. Se estableció la compañía X-AI de Musk. Quiere volver a comprender el mundo físico real. Todos los gigantes están mirando fijamente la realización real de AGI. Este mapa es cada vez más grande. Sin embargo, el nuevo mundo empresarial y el nuevo panorama empresarial siempre requieren algunas aplicaciones y productos nuevos y populares para impulsarlo, lo que puede ser difícil de lograr en 2023. Podemos poner nuestra esperanza en 2024, tal vez las gafas MR de Apple sean una nueva oportunidad.
**Tencent Technology: También vimos que otros dos gigantes extranjeros, Musk y Apple, no hicieron anuncios de alto perfil sobre su progreso en el campo de los modelos a gran escala. ¿Qué opinas de esto? **
Jiao Juan: Solo se están conteniendo por el momento, y lo que es seguro es que lo que lanzarán definitivamente no se llamará un modelo grande. Creo que podemos centrarnos en el siguiente nivel, la inteligencia incorporada. En este sentido, Musk es el menos preocupado. La mayor ventaja de Apple radica en la combinación de software y hardware.
Zhou Songtao: Lo hemos probado a grandes rasgos nosotros mismos, y el chip **M2 puede competir con las tarjetas de Nvidia en términos de potencia informática de punto flotante. ** Apple puede tomar la integración de software y hardware, que en realidad está más allá del panorama competitivo actual de modelos grandes.
Creo que la inteligencia incorporada puede ser un nuevo hito en el desarrollo de la inteligencia artificial general en el futuro, porque una vez que tenga una gran capacidad de razonamiento, definitivamente se extenderá al mundo físico y el punto central de controlar el mundo físico. es incrustarlo en el cuerpo o incrustarlo en sensores en el mundo físico, entonces este es un sistema que se convierte en inteligencia incorporada. Como acaba de decir el Sr. Zhou, esto se ha convertido en una serie de empresas de Musk.
Cuando combinamos software y hardware para observar toda la inteligencia artificial general, descubrirá que el panorama de la competencia ha cambiado nuevamente. Ya no son Google, Meta y la IA abierta los que compiten, pero es posible que se unan más empresas de hardware. en.
**Tecnología Tencent: código abierto comercial de Llama2, ¿es posible reducir el costo de iniciar un modelo a gran escala? **
Zhou Songtao: No estoy seguro de esto ahora, porque aunque ahorra el costo de alquilar API, encontrará que el gran recorte de precios de OpenAI el 15 de junio tiene casi un 10% de descuento, por lo que el modelo de código cerrado también está luchando contra un precio. guerra. Por el contrario, si se utiliza el modelo de código abierto, ¿cuánto costará el hardware, el poder de cómputo y los datos? Los costos ocultos son difíciles de estimar. Hablando simplemente desde el código abierto de LLama2, creo que no es necesariamente un camino económico para emprender.
Con respecto al costo de razonamiento, actualmente medimos y combinamos los artículos de evaluación de evaluadores extranjeros, y descubrimos que para algunos tipos específicos de tareas de razonamiento, como la clasificación o el flujo de trabajo de langchain, la eficiencia de razonamiento y el consumo de tiempo de Llama2 se reducen, pero para otros tipos de tareas, **Si se compara con la versión instantánea de GPT-3.5-turbo-0615, puede que no sea necesariamente más barata (solo en términos de consumo de energía de computación de inferencia); **La versión original actual es muy fluida y precisa en la comprensión Chino, pero la expresión china es casi 0, ** Por lo tanto, los empresarios chinos que quieran usar Llama2 por completo deben gastar mucho dinero para resolver el ajuste o la orientación de la expresión china, o esperar a que la comunidad de código abierto proporcione una expresión china. versión... Este costo no es bajo. **
Además, el código abierto comercial de **Llama2 puede provocar que los proveedores de servicios a gran escala inicien una guerra de precios, lo cual es una buena noticia para los usuarios y empresarios. **
Jiao Juan: Hablando con franqueza, todavía espero con ansias algunos modelos de la industria o modelos verticales en China. Elegí personalmente algunas empresas prometedoras, que se caracterizan por un desempeño sólido en esta industria y experiencia en la acumulación continua de datos y la construcción de plataformas. Además, creo que esta ronda no es una cuestión de si el boleto es caro o no, sino si eres caro o no, todo el mundo se enfrenta a una transformación.