Lan Zhenzhong, profesor de la Universidad de West Lake: varios conocimientos sobre modelos grandes

2023-09-19 07:47:02

El 19 de septiembre de 2023, se inauguró en Shanghai la "Semana Internacional Blockchain de Shanghai 2023·La Novena Cumbre Global Blockchain". Lan Zhenzhong, fundador de West Lake Xinchen y profesor de la Universidad de West Lake, dio una conferencia en vivo titulada "Varias cogniciones sobre modelos grandes".

Para obtener más información, haga clic en: "Lo más destacado de la Semana Internacional Blockchain de Shanghai 2023" (actualizado continuamente) "

Golden Finance realizó un seguimiento y presentación de informes in situ de toda la reunión. A continuación se presenta un resumen del contenido del discurso.

¡buenos días a todos!

Hoy hablaré principalmente sobre modelos grandes e inteligencia artificial, y luego hablaré sobre cierta integración con Web3 y el trabajo que se está realizando.

Comencé a trabajar en inteligencia artificial en 2007, y han pasado más de diez años desde entonces. Desde la era de la CPU hasta la era de la GPU, desde modelos pequeños hasta modelos grandes, lo he estado haciendo durante mucho tiempo y también hecho algún contenido relativamente representativo. En 2019, el modelo grande que hice cuando estaba en Google era el mejor modelo grande del mundo, mucho mejor que GPT2, por lo que despreciamos la serie GPT en ese momento, pero ahora les está yendo muy bien.

Cuando regresé a China en 2020, realicé la primera evaluación de modelos grandes chinos. Se me puede considerar un participante profundo en modelos grandes. Ahora hay un laboratorio y una empresa que realizan investigaciones relacionadas con modelos grandes.

En el pasado, rara vez miraba hacia atrás en el historial de desarrollo de modelos grandes y rara vez pensaba profundamente en ellos. Hasta que ChatGPT se hizo popular, la gente venía a hacerme varias preguntas, permítanme resumir las siguientes preguntas:

Primero, ¿quieres que el modelo sea más grande o más pequeño?

En segundo lugar, ahora se habla mucho de los grandes modelos generales. Entonces, ¿los grandes modelos generales tienen oportunidades o los grandes modelos industriales tienen oportunidades?

En tercer lugar, ¿debería invertir en NVIDIA o en grandes empresas de modelos y empresas de aplicaciones?

En cuarto lugar, para el público en general, ¿cómo pueden los modelos grandes cambiar mi trabajo? ¿Cómo debo elegir una carrera?

Estas preguntas nos permiten revisar la historia pasada, principalmente presento algunos datos pasados para su referencia.

En primer lugar, la primera pregunta: ¿los modelos grandes serán cada vez más grandes? Mirando hacia atrás en la historia, cuando las computadoras comenzaron a desarrollarse en 1950, los modelos en realidad se hicieron cada vez más grandes. Se puede decir que el modelo que se hace más grande es básicamente el primer factor para que el modelo se vuelva inteligente, por lo que el modelo se hará cada vez más grande.

Hasta 2018, descubrimos un método que puede hacer que el modelo se expanda rápidamente. Ahora se está expandiendo muy rápido. Desde 2018 hasta principios de 2021, básicamente aumentó cientos de veces cada 18 meses. Ahora la velocidad se ha desacelerado, pero es También rápida expansión.

(Como se muestra en la figura) Esta imagen es una imagen de GPT4. El eje vertical habla sobre el nivel de inteligencia. Cuanto mayor es el nivel de inteligencia, mayor es el nivel. El eje horizontal habla sobre el tamaño del modelo y la cantidad de entrenamiento. . A medida que el modelo se hace más grande y más entrenado, el nivel de inteligencia es cada vez mayor. El punto verde es GPT4, en ese punto todavía hay pendiente y seguirá bajando. Por lo tanto, se puede esperar que cuando el modelo sea más grande, aún pueda volverse más inteligente. Los seres humanos siempre perseguimos el límite y definitivamente lo amplificaremos.

Pero lo que ahora preocupa a todos es que GPT4 ya es un modelo de nivel de billón. Los costos de inferencia son muy costosos y el entrenamiento también es muy costoso. ¿Es útil la amplificación?

Al observar otros datos, sabemos que esta preocupación no es necesaria, porque el costo de la capacitación y la inferencia está disminuyendo drásticamente. Cuando se capacitó GPT3 en 2020, el coste de una sola sesión de formación era de 4 millones de dólares. Se ha reducido a 400.000 dólares estadounidenses en 2022 y la reducción de costos es muy rápida.

Principalmente desde varios aspectos:

En primer lugar, el rendimiento de la GPU ha aumentado considerablemente y los costes han disminuido, superando con creces la ley de Moore. De 2016 a 2022, según la Ley de Moore, el rendimiento de la CPU se multiplicó por 8 y el de la GPU se multiplicó por 26. La mejora es muy obvia.

El segundo es la mejora del software. Con la mejora de la eficiencia de la capacitación aportada por el software, el costo anual de la capacitación se reduce en aproximadamente un 47%. La combinación de los dos es una disminución muy terrible, uno es hardware y el otro es software.

En tercer lugar, estamos extendiendo la potencia informática a gran escala. Antes de que apareciera ChatGPT, la potencia informática global aumentaba entre un 20% y un 40% cada año. Después de que salga ChatGPT, el aumento de la potencia informática puede duplicarse. Cuando su potencia informática aumenta a gran escala y las GPU se producen en masa, los costos operativos también disminuyen. En conjunto, el costo de la capacitación y la inferencia está disminuyendo drásticamente, por lo que podemos ver que se ha reducido 10 veces en dos años.

En los próximos años, los modelos de nivel de billones como GPT4 serán relativamente baratos y todos podrán usarlos.

En resumen, predigo que los modelos seguirán haciéndose más grandes y más potentes, los costes de formación e inferencia seguirán disminuyendo y las iteraciones serán rápidas.

(Como se muestra en la imagen) Esta imagen es sobre GPT1. No pensaba muy bien en GPT1 en ese momento. Mirando hacia atrás ahora, cometí un gran error. GPT1 hizo una contribución muy grande y transformó la inteligencia artificial de una inteligencia artificial especializada. Transformación en inteligencia artificial general.

Solía haber cientos de tareas de procesamiento del lenguaje natural y se diseñaron varios modelos para cada tarea, por lo que había muchos artículos. Pero después de que salió GPT1, les dije que no usaran varios modelos. Usé un solo modelo para manejar la mayoría de sus (tareas).

Este último artículo fue escrito por mi colega de Google en ese momento, que integraba varias tareas en un mismo modelo. Por lo tanto, el principal aporte de esta ola es la universalidad. La universalidad no solo se refleja en el texto, sino también en imágenes, sonidos y proteínas Para diversos datos, como secuencias, siempre que pueda convertir los datos en una secuencia, básicamente se pueden procesar.

Cortar la imagen en muchos pedazos y alargarla es una tarea que ahora puede realizar el modelo Transformer, que básicamente puede cubrir una variedad de tareas y es muy versátil.

Aunque los modelos grandes ahora no pueden manejar muchas tareas complejas, puedes hacerlo siempre que lo ayudes un poco y divida un poco las tareas. Aunque todos sienten que GPT4 es muy fuerte, la precisión de hacer 24 puntos directamente es del 7,3%, pero si se desglosa un poco, se puede mejorar al 74% Muchas tareas aparentemente complicadas, si los profesionales lo ayudan a descomponerlas, Ahora los modelos de la serie GPT o los modelos grandes generales pueden ayudarle a resolver muchas tareas y lograr la automatización.

Una es que el modelo se hará más grande y la otra es que es versátil y puede resolver muchos personajes complejos con un poco de desmontaje, por lo que es muy práctico. Hay muchas que se han implementado con éxito en el extranjero. Por ejemplo, Duolingo es una empresa de Pittsburgh cuyos ingresos aumentaron un 42 % en el primer trimestre de 2023 gracias a la incorporación de la aplicación ChatGPT.

Muchos programadores están utilizando ahora Copilot. Se estima que los ingresos de OpenAI este año alcanzarán los 1.200 millones de dólares estadounidenses, una escala de ingresos muy difícil para una empresa emergente.

La diferencia entre esta ola de inteligencia artificial y la anterior es que reemplaza a los trabajadores mentales. La imagen de la derecha muestra el nivel de inteligencia (automatización) en varias industrias antes de esta ola de inteligencia artificial general. La de abajo son aquellos sin título. , seguidos por los de From Master to PHD, el grado de sustituibilidad es cada vez menor a medida que se asciende. Ahora las cosas son diferentes: tras la aparición de la inteligencia artificial general, los trabajadores mentales pueden ser reemplazados fácilmente.

En resumen, la implementación de grandes modelos será más rápida de lo que imaginamos y, por supuesto, más lenta de lo que imaginamos muchos trabajadores financieros, porque la reacción del mercado de valores es siempre más rápida que la tecnología, al menos más rápida de lo que imaginamos, y puede potenciar Todos los ámbitos de la vida. Le resulta difícil desmantelar cada tarea, si una gran empresa modelo se adentra en la industria, habrá grandes oportunidades.

Hoy en día, la mayoría de la gente presta atención a la inteligencia del modelo, y menos atención a la "inteligencia emocional" del modelo y al grado de interacción con las personas. Por ejemplo, hice una pregunta que haría mi amante y ChatGPT Me dio esta respuesta. Existe un método para esta respuesta, pero no. Las emociones parecen indicar que nuestra interacción con el modelo es fría y falta de atención a los usuarios. Esto es un reflejo del desarrollo temprano de la industria.

Puedes comparar los motores de búsqueda. Cuando se lanzaron por primera vez, la personalización era poco común. Pero ahora, todos usan Baidu y Google de manera diferente, porque mucha información se personalizará para hacer las búsquedas más precisas, pero la mayoría de los modelos aún no pueden hacer esto.

Algunas personas también han comenzado a hacerlo, como una empresa llamada Character.ai, que también fue fundada por mi colega de Google, quien agregó personalización al modelo, lo que puede mejorar significativamente el tiempo de interacción entre el modelo y las personas. Datos de mayo: el tiempo de interacción promedio de OpenAI es de 4 minutos y el tiempo de interacción promedio de esta empresa es de 28 minutos, que es varias veces el tiempo de interacción. La página se ve así, lo que equivale a dividir el modelo grande en varias Capitales y Agentes (agentes) para lograr una dirección personalizada, que es más emocional y la gente está dispuesta a interactuar con ella. Con el desarrollo actual de modelos de gran tamaño, se producirá un gran avance en la interacción entre humanos y computadoras.

Nuestra empresa y laboratorio investigan principalmente modelos grandes generales con alto coeficiente intelectual y alto coeficiente intelectual, principalmente modelos grandes multimodales. En el pasado, con el fin de mejorar la inteligencia emocional de los modelos, se desarrollaron una serie de capacidades para mejorar la memoria, la personalización y la percepción emocional.

El modelo se lanzó relativamente temprano, porque he estado trabajando en un modelo grande general en Google durante mucho tiempo. Antes de que saliera ChatGPT a mediados de 2020, teníamos nuestro propio modelo grande general. En ese momento, la capacidad de escritura del El modelo estaba a la par con 3,5 y era una profesión importante.

Ha estado en línea durante más de un año y tiene más de 200 usuarios del lado C y más de 100 usuarios del lado B, incluidos Starbucks y Alipay.

Una de las aplicaciones más típicas es la cooperación con Tom Cat. Tom Cat es un producto complementario con 400 millones de usuarios activos mensuales en todo el mundo y que en el pasado copiaba principalmente el habla de las personas y copiaba las palabras mediante cambios de voz. Le agregamos capacidades de interacción multimodal y capacidades de diálogo.

Volvamos a Web3 relacionado con la conferencia. Este es mi entendimiento aproximado. Creo que el modelo grande y Web3 corresponden a relaciones de productividad y producción respectivamente. El modelo grande mejora enormemente el nivel de productividad, pero si quiere funcionar bien, debe Tiene producción correspondiente relación para igualar. Resumí que existen varios problemas en la implementación de modelos grandes:

En primer lugar, el coste de la formación es muy alto. No hay ningún incentivo para que las empresas de nueva creación abran sus modelos. Los modelos que cuestan millones de dólares entrenar son de código abierto, pero luego no tienen nada que ver conmigo. Es difícil para que los abran. Pero el código abierto es muy importante para los modelos. Muchos de los modelos actuales son cajas negras. Muchas instituciones de investigación no pueden permitirse el lujo de entrenar sus propios modelos. Si todos se capacitan, entonces todos están reinventando la rueda. Por lo tanto, el código abierto es muy importante, pero necesita medidas correspondientes: incentivos.

En segundo lugar, el costo del razonamiento es alto. El costo actual del razonamiento de una sola conversación en GPT4 es de 60 centavos, que es mucho más caro que mi discurso. El costo del razonamiento es muy alto y es muy difícil de implementar. GPT4 se puede utilizar en muchos lugares, pero el costo es inasequible.

El tercero es la sensibilidad de los datos. Los datos de Samsung fueron filtrados por OpenAI antes y causaron mucho revuelo. Los datos que cargamos ahora en el modelo grande son datos confidenciales. Muchas empresas no están dispuestas a cargar sus propios datos. ¿Cómo lidiar con estos problemas? Espero que Web3 pueda ayudarnos a resolver estos problemas.

Acabo de escuchar al profesor Cao decir que todavía hay muchas dificultades, pero esperamos que a través de la investigación podamos ayudar a resolver estos problemas. Por ejemplo, tenemos una cadena pública y todos pueden cargar modelos de código abierto. Incluso si abre el modelo de código abierto. Y subirlo a la cadena pública, habrá un mecanismo de incentivo correspondiente, por ejemplo, si los usuarios suben datos, si se nos permite entrenar, habrá incentivos correspondientes.

También hay problemas informáticos. Ahora todo el mundo tiene una tarjeta gráfica muy potente en su teléfono móvil. Si el teléfono móvil de cada uno puede contribuir a la inferencia, entonces podemos reducir mucho el coste de la inferencia. Esperamos que nuestros ideales puedan realizarse verdaderamente a través del poder de Web3. Esperamos que los modelos grandes puedan empoderar a todos los ámbitos de la vida, acompañar a todos y convertirse verdaderamente en asistentes o compañeros de todos.

¡gracias a todos!

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1Simple Earn Annual Rate 24.4%
21k Popularidad
2Gate Launchpad List IKA
28k Popularidad
3ETH Trading Volume Surges
23k Popularidad
4Gate ETH 10th Anniversary Celebration
21k Popularidad
5Trump’s AI Strategy
18k Popularidad

Anclado