El gran modelo de IA revolucionará la IA

Fuente: Observador Económico

Autor: Shen Yiran

Fuente de la imagen: Generada por Unbounded AI

En abril de este año, varios investigadores de una empresa líder en inteligencia artificial prestaron atención a una nueva tecnología: SAM (Segment Anything Model). Los investigadores informaron rápidamente sobre esta tecnología al jefe del departamento. Esta empresa comenzó con la tecnología de visión artificial, y la tecnología en la que se centraron los investigadores también estaba relacionada con esto. "Con el advenimiento de SAM, más y más personas de IA se dan cuenta de que los modelos grandes son un shock para ellos", dijo uno de los investigadores.

Un mes después, la empresa comenzó a asignar recursos para desarrollar un gran modelo visual.

En los siguientes tres meses, las principales empresas de IA de visión artificial prestaron atención al potencial de esta tecnología.Hasta ahora, empresas de inteligencia artificial como SenseTime y CloudWalk Technology, así como empresas de seguridad tradicionales, han comenzado a invertir en esta nueva competencia tecnológica.

SAM es un modelo de segmentación de imágenes para escenas generales. Meta lo lanzó en abril de este año. Al igual que hablar con ChatGPT, los humanos pueden usar algunas instrucciones de lenguaje para permitir que SAM distinga y piense en el contenido de la imagen de forma independiente. Se considera que SAM ser ChatGPT apareció en el campo de visión.

Los entusiastas de todo el mundo lo usan para hacer dibujos, cortar imágenes y divertirse, pero los investigadores chinos han reconocido el poder de SAM: si se usa en conducción automática, monitoreo de seguridad, para detectar personas, automóviles y carreteras, es un modelo grande autónomo que rompe fundamentalmente con el juego de visión artificial tradicional.

Segmentar y reconocer imágenes es una tarea central de la visión artificial. En el pasado, cada tarea de crear una imagen segmentada requería entrenar un algoritmo, anotar un lote de datos y permitir que la máquina "vea" varios objetos en la imagen superponiendo pequeños modelos. El SAM ha mostrado algunas novedades: sin crear un pequeño modelo para cada tarea específica, la máquina puede segmentar de forma autónoma cualquier objeto en cualquier imagen, incluso una escena desconocida y borrosa, y el funcionamiento es extremadamente sencillo.

Esto significa que SAM tiene características más generales, y es posible usar esta característica general para reducir en gran medida el costo del reconocimiento de visión artificial, cambiando así el modelo comercial y el patrón de competencia basado en la tecnología original.

Desde 2016, han surgido cientos de empresas de inteligencia artificial en China, que tiene un mercado enorme.Con la ayuda de la competencia del mercado y el capital, se han formado gradualmente varios unicornios de IA, como Shangtang Technology, Cloudwalk Technology, Megvii Technology, según Yitu Technology. , estas empresas han llevado la IA a los campos de la seguridad, los asuntos gubernamentales y la industria, y han construido un foso aprovechando la sofisticación de los algoritmos y las ventajas de la escala.

Pero ahora, con el cambio de tecnología, es posible que se reanude el evento.

Feng Junlan, científico jefe de China Mobile Group y vicepresidente de la Alianza de Desarrollo de la Industria de Inteligencia Artificial de China, dijo a los periodistas que el modelo grande de IA traerá un nuevo paradigma de inteligencia artificial. básicamente no existe bajo el impacto del modelo grande. La aparición de SAM demuestra la viabilidad de grandes modelos visuales, subvirtiendo el marco de investigación, la interacción y los métodos de servicio de producción de la visión artificial.

Luo Xun, miembro sénior de IEEE, profesor de la Universidad Tecnológica de Tianjin y experto en tecnología AR/VR, dijo a los periodistas que las ventajas de las capacidades de IA de las empresas líderes anteriores se debilitarán hasta cierto punto debido al aumento de Modelos grandes de propósito general. Pero el hecho de que estas empresas se debiliten depende de su transformación.

Ruta técnica

Como rama importante de la IA, el objetivo de la visión artificial es permitir que las computadoras imiten el sistema visual humano para comprender y procesar imágenes y videos.

Después de 2000, Geoffrey Hinton, Yann LeCun y Yoshua Bengio, conocidos como los fundadores de la inteligencia artificial, rompieron con la tecnología de aprendizaje profundo, lo que permitió que las máquinas simulen vagamente el cerebro humano y aprendan y extraigan automáticamente características de imágenes masivas.

2012 es un nodo de tiempo importante El proyecto ImageNet creado por el profesor de la Universidad de Stanford Li Feifei impulsó el aprendizaje profundo a la corriente principal: los investigadores pueden enseñar a las computadoras a reconocer varios objetos etiquetando manualmente una gran cantidad de imágenes, lo que mejora en gran medida la visión artificial. reduce el costo y posibilita su comercialización.

En abril de 2023 llegaron nuevos cambios y Meta lanzó un modelo de segmentación de imágenes llamado SAM. Como modelo grande, SAM no solo equipa a la máquina con ojos para percibir el mundo exterior, sino que también dota a la máquina de un cerebro real. Aprende a observar, percibir, pensar, razonar lógicamente y obtener resultados a partir de imágenes, y el funcionamiento es extremadamente simple, similar a ChatGPT, usa diálogos en lenguaje humano para dar comandos a la máquina.

En resumen, logra el objetivo de la visión artificial más fácilmente, sin la necesidad de una gran cantidad de anotaciones de imágenes y algoritmos de apilamiento, y consume menos poder de cómputo. El científico de inteligencia artificial de Nvidia, Jim Fan, dijo que el modelo grande SAM es el momento GPT-3 de la visión artificial. Ha entendido el concepto general de objetos, incluso para objetos desconocidos, escenas desconocidas (como imágenes submarinas) y en situaciones ambiguas Imagen la segmentación también es posible.

Después de que Meta lanzó SAM, también abrió el modelo y el conjunto de datos de entrenamiento detrás de él, e introdujo los escenarios de aplicación de SAM desde AR, VR, creación de contenido y otros campos.

Las empresas y los investigadores en China juzgaron rápidamente el posible valor comercial de SAM: si se utiliza en conducción autónoma, monitoreo de seguridad, para detectar personas, automóviles y carreteras, puede romper fundamentalmente la visión artificial tradicional.

Feng Junlan dijo que el modelo grande cambiará el modo de suministro de la IA, reducirá en gran medida la complejidad del lado del suministro y el costo marginal es cercano a cero; el lado comercial puede expresar la demanda en un lenguaje natural más simple y ya no necesita depender en instrucciones profesionales como códigos de ingenieros Comunicarse con máquinas y desplegar de manera flexible a diferentes modelos de acuerdo con sus propias necesidades, mejorando la eficiencia

Zhu Bing, director de productos de Uniview Technology, dijo a los periodistas: "En el pasado, hacer trabajo de IA era como cargar cajas. De hecho, era un trabajo físico de tecnología relativamente baja. Cuando la IA potencia una escena de un solo punto, es muy fragmentado Y personalizados, la eficiencia de preventa, la eficiencia de posventa y la eficiencia de ventas son bajas, y las etapas ascendente y descendente de la industria son más dolorosas ". Por ejemplo, Zhu Bing dijo que la inversión y el costo de los fabricantes que invierten en el desarrollo, la recopilación de materiales, la calibración y la personalización de algoritmos para diferentes escenarios y regiones es muy grande. Para los clientes, la tarifa de desarrollo personalizado también es un gasto considerable.

Hoy en día, usar un modelo grande para reemplazar el juego del modelo pequeño original no requiere algoritmos de apilamiento o una gran cantidad de datos etiquetados, y consume muy poca potencia de cómputo en el proceso. Puede usar un lenguaje humano más simple para dar comandos a la máquina sin usando un lenguaje de programación de computadora profesional. . Zhu Bing dijo que el modelo grande ha reducido en gran medida el costo de la investigación, el desarrollo y la implementación de IA. Ha creado una serie de nuevos juegos y ha reestructurado el orden de la industria, especialmente en la industria de la visión por computadora. Las barreras técnicas anteriores construidas por grandes empresas han sido suavizado. , todos volvieron a la misma línea de partida.

Afluencia

Alrededor de la generación anterior de tecnología de visión artificial, nacieron varias empresas de inteligencia artificial en China, y las tecnologías proporcionadas por estas empresas comenzaron a usarse ampliamente en el monitoreo de cámaras y la identificación de inspección de seguridad para seguridad pública, subterráneos y edificios comerciales.

"AI Four Tigers" se refiere a cuatro empresas chinas de inteligencia artificial que se establecieron sucesivamente entre 2011 y 2014, a saber, SenseTime, Cloudwalk Technology, Megvii Technology y Yitu Technology. Su característica común es la visión artificial como tecnología central. El avance de la IA en la ruta del aprendizaje profundo ha proporcionado una base técnica para el surgimiento de este grupo de empresas de inteligencia artificial, y las ventajas industriales de China han proporcionado un mercado para el desarrollo de estas empresas. .

Después de que salió SAM, comenzaron a apuntar a esta tecnología uno tras otro.

El reportero aprendió de muchas personas en la industria que, además de Yitu Technology, SenseTime, Cloudwalk Technology y Megvii Technology entre los "AI Four Tigers" están desarrollando modelos visuales a gran escala. Kangweishi y Uniview Technology también implementan investigaciones tecnológicas relacionadas. y desarrollo.

En abril, solo unos días después de que Meta lanzara SAM, SenseTime lanzó el modelo grande "Daily New". Tian Feng, decano del Instituto de Investigación de la Industria Inteligente SenseTime, dijo a los periodistas que la serie "Ri Ri Xin" es una colección de múltiples modelos grandes que incluyen la generación de lenguaje natural, la generación de imágenes y la percepción visual. Entre ellos, "Ruying", "Qiongyu" , "Gewu" son modelos grandes relacionados con la visión.

En mayo, Yuncong Technology lanzó el modelo grande "tranquilo", que es un modelo grande multimodal que incluye visión. Yuncong Technology declaró en la reciente reunión de inversores que el modelo grande visual es muy importante y se lanzará en el futuro. modelos Porque la empresa tiene una fuerte reserva en visión por computadora y porque necesita tecnología multimodal para resolver el negocio específico de los clientes.

Megvii y Yitu aún tienen que lanzar modelos grandes. Megvii dijo a los periodistas que está "desarrollando un modelo grande, pero no se ha lanzado ni entregado a los clientes". En términos de dirección, Megvii ha seleccionado cuatro direcciones de investigación: modelo grande de imagen general, modelo grande de comprensión de video, modelo grande de fotografía computacional y modelo grande de percepción de conducción autónoma, y ha logrado ciertos avances.

Su Lianjie, analista jefe de inteligencia artificial en la institución de investigación Omdia, dijo a los periodistas que bajo el impacto del modelo visual a gran escala, los "Cuatro Tigres de IA" se transformaron rápidamente en un modelo a gran escala y desplegaron un gran modelo multimodal. -modelo a escala que se centra en la visión relativamente razonable.

Hikvision dijo a los inversores en junio de este año: "Prestamos atención al modelo SAM al comienzo de su lanzamiento y realizamos una evaluación sistemática". un modelo de industria a gran escala basado en un modelo general a gran escala + escena de la industria + capacitación y ajuste. Fue lanzado por primera vez el 9 de mayo y ha sido probado por el primer lote de socios en junio.

Hikvision y Uniview Technology son empresas de seguridad tradicionales que comenzaron como fabricantes de equipos. Se enfrentaron a una feroz competencia después de que los "Cuatro Tigres de la IA" entraran en la industria de la seguridad. Han estado adoptando activamente la tecnología de visión artificial.

En la actualidad, las empresas de IA están comenzando a llegar a un consenso sobre el significado de "los modelos grandes que hacen época".

Tian Feng, decano del Instituto de Investigación de la Industria Inteligente SenseTime, y Yao Zhiqiang, cofundador de Yuncong Technology, dijeron a los periodistas que AI1.0 es la era de los modelos pequeños. Las empresas proporcionan principalmente modelos pequeños patentados y utilizan tecnología multipunto para resolver problemas. necesidades específicas de la escena. ; AI2.0 es la era de los modelos grandes. Las empresas necesitan utilizar una plataforma de base tecnológica unificada a gran escala, es decir, para crear un modelo básico multimodal con capacidades generales de percepción y cognición para el mundo, y generar una serie de industrias sobre esta base, modelos pequeños para satisfacer las necesidades de escenas profesionales y escenas más masivas.

Yao Zhiqiang cree que si una empresa de inteligencia artificial todavía se encuentra en la etapa anterior, puede resolver muchos problemas de la escena, pero el costo es difícil de reducir, lo que hace que el efecto de escala sea imposible de mostrar; Tian Feng cree que las dos eras coexisten por mucho tiempo, y no es quien elimina al otro, la relación opuesta, los dos se completan de manera coordinada. Por ejemplo, al usar la estructura híbrida de modelo experto (MoE), en la era AI2.0, se combinan múltiples modelos en servicios y también se pueden integrar modelos 1.0.

En la nueva competencia, la acumulación de tecnología original y la inversión en hardware seguirán desempeñando un papel.

Tian Feng dijo a los periodistas que el centro de cómputo inteligente "AI Large Device" tiene un poderoso poder de cómputo de IA y puede proporcionar poder de cómputo de entrenamiento para 20 modelos grandes con cientos de miles de millones de parámetros.Es el equipo clave para desarrollar y entrenar modelos grandes. solo para uso personal, pero también abierto a nuevas empresas a gran escala y socios de I+D.

La persona relevante a cargo de Yunwalk dijo a los periodistas que el sistema operativo CWOS de la compañía tiene ventajas inherentes en la integración de modelos de súper lenguaje como ChatGPT. Al mismo tiempo, el sistema puede enviar datos e información al modelo grande de acuerdo con la situación de producción real, optimizar el entrenamiento y el ajuste del modelo y mejorar la precisión y la eficiencia del modelo.

Modelo grande irrumpe en el mercado

"Incluso sin el impacto del gran modelo, los 'AI Four Tigers' aún se encuentran en un período de confusión en la transformación y necesitan pensar en su propio valor y salida". Dijo Su Lianjie.

Un grupo de empresas de inteligencia artificial se han visto favorecidas por el capital y el mercado, entre las que han aterrizado en el mercado de capitales SenseTime y CloudWalk. De 2018 a 2022, SenseTime ha invertido más de 12 000 millones de yuanes en investigación y desarrollo cada año, y recaudó más de 5 000 millones de yuanes en su oferta pública inicial en 2021. Desde 2018 hasta 2022, Yuncong ha invertido más de 2200 millones de yuanes en investigación y desarrollo cada año, y recaudará 1700 millones de yuanes en su oferta pública inicial en 2022.

La buena interacción entre la tecnología y el capital también le ha dado a China una ventaja líder en el campo del reconocimiento visual. Alrededor de 2018, China ocupaba el segundo lugar después de los Estados Unidos o superaba a los Estados Unidos en términos de la cantidad de artículos de inteligencia artificial publicados y la cantidad de financiación de inteligencia artificial Especialmente en el campo del reconocimiento visual, las empresas chinas de inteligencia artificial han batido récords repetidamente en competiciones internacionales y han logrado excelentes resultados.

Pero pronto, con la promoción del mercado, el potencial de la tecnología original alcanzó gradualmente su punto máximo.En 2019, Zhang Bo, académico de la Academia de Ciencias de China, sugirió en una entrevista exclusiva con el Economic Observer que el potencial de las aplicaciones industriales puede se han tocado en la ruta de la tecnología existente.

Más importante aún, desde un punto de vista comercial, la ruta técnica original de la IA siempre ha sido difícil de superar el cuello de botella de costos, por lo que los clientes de la industria más tradicional no pueden pagar la factura. Zhu Bing dijo: "Durante muchos años, no hemos visto un nuevo orden vigoroso. Una gran cantidad de empresas compiten despiadadamente en las dos vías del reconocimiento humano y de matrículas. La razón fundamental es que más algoritmos no pueden formar un efecto de escala. "

Un investigador de inteligencia artificial de una empresa líder dijo a los periodistas que, de acuerdo con el método tradicional, una empresa de inteligencia artificial atiende a una fábrica de automóviles y vende un conjunto de algoritmos para identificar obstáculos. meses., el cliente debe proporcionar decenas de miles de imágenes para el etiquetado, pero solo un algoritmo no es suficiente, la escena real de la carretera es muy compleja, el algoritmo que es adecuado para automóviles pequeños puede no ser adecuado para camiones grandes, y no se puede reconocer desde otro ángulo También es difícil de reconocer cuando el objetivo de detección está parcialmente ocluido.

Para aumentar la inteligencia de los equipos, las empresas de IA necesitan superponer varios algoritmos, lo que simplemente significa apilar muchos modelos pequeños. Según el informe financiero, SenseTime ha acumulado 67,000 modelos comerciales pequeños. El reportero supo de Yuncong Technology que la compañía también tiene miles de modelos comerciales pequeños.

Pero el tiempo y el costo de la capacitación también se duplicaron.

Feng Junlan dijo a los periodistas que es difícil para muchas empresas de IA ganar dinero. Una razón importante es el alto costo de los servicios de IA, que hace que las empresas "ganen un yuan y pierdan cinco yuanes", y el modelo de "cuantos más pedidos reciban, cuanta más compensación", se lo dificulta a los proveedores. Continúa, el lado de la demanda solo puede ser unas pocas industrias clave o industrias con fuertes capacidades de pago.

Según el informe financiero, de 2018 a 2022, Yuncong Technology acumuló pérdidas por 3.100 millones de yuanes y SenseTime acumuló pérdidas por más de 40.000 millones de yuanes.

Para reducir aún más el costo de la IA y mejorar el mercado, la estrategia de los "Cuatro Tigres de la IA" también ha divergido. SenseTime elige dispositivos de IA, Cloudwalk elige sistemas operativos, Megvii elige chips y YITU elige IoT.

Desde esta perspectiva, el gran modelo puede traer no solo desafíos para las empresas existentes, sino también un nuevo modelo de negocio y escenario de aplicación.

El investigador mencionado anteriormente dijo que la compañía se ha esforzado por encontrar negocios de IA en más mercados. Por ejemplo, la compañía una vez habló con un supermercado sobre el monitoreo de IA para detectar si el vendedor estaba presente. La compañía envió cinco ingenieros de algoritmos y el solo el salario cuesta 300 000 yuanes. El salario mensual total de las docenas de vendedores del cliente es inferior a 50 000 yuanes; también habló con el propietario de la fábrica sobre la inspección de calidad de IA, que detecta si las cajas de embalaje en la línea de montaje están dañadas y el otro el partido evalúa que es más económico contratar trabajadores, etc.

Estos requisitos se denominan colectivamente requisitos de cola larga de IA: una gran cantidad de clientes pequeños y medianos, con capacidades de pago débiles, no tienen una demanda rígida de IA, pero tienen algunas necesidades especiales en ciertos escenarios, que pueden ser usados o no, y no están dispuestos a pagar millones de dólares. En opinión de este investigador, en el futuro, un cierto tipo de modelo grande o un conjunto de modelos grandes multimodales se pueden aplicar a estos escenarios de detección visual, utilizando la migración y las capacidades generales de los modelos grandes, solo una pequeña cantidad de Se requiere anotación de datos e inversión en algoritmos, y el ciclo de desarrollo y los requisitos de potencia informática también serán menores, por lo que el costo se reducirá considerablemente y será más probable que los clientes paguen.

Zhu Bing ha estimado que en el pasado, los algoritmos de IA basados en modelos pequeños podían cumplir con menos del 10 % de los requisitos de fragmentación. En el futuro, la probabilidad de que los algoritmos de IA basados en modelos grandes puedan aumentar a más del 50 % y la eficiencia del algoritmo general de cola larga se puede aumentar en 10. El tiempo se puede reducir a 1 persona por semana.

Yao Zhiqiang dijo a los reporteros que una vez que la tecnología esté organizada y estandarizada, todas las empresas de IA pueden adaptarse rápidamente a escenarios masivos y realizar aplicaciones masivas a través de una plataforma base de tecnología central unificada.

Feng Junlan dijo que el costo del consumo de tecnología es mucho menor que el valor que la tecnología aporta a los negocios. Cuando se cumple esta fórmula, la tecnología se puede escalar y migrar a más mercados y de cola más larga. Esto también satisface la lógica fundamental para que las empresas de IA logren la rentabilidad y también significa que tienen la oportunidad de desarrollar más mercados de océano azul.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)