Trabajadores de etiquetado de datos: IA de entrenamiento, reemplazada por IA

El crecimiento y la eliminación ocurren simultáneamente.

Autor|Ma Hui

Editar|Castañas

Fuente de la imagen: Generada por la herramienta de IA Unbounded

** Las perspectivas y la destrucción existen al mismo tiempo, y los profesionales del etiquetado de datos nunca han sido tan contradictorios. **

Dai Yan, un mongol interior de 30 años, comenzó su negocio a principios de este año y formó un equipo de etiquetado en línea de casi 30 personas. Anteriormente, Daiyan trabajó en una plataforma de crowdsourcing para la anotación de datos durante dos años. Él, que puede llamarse un "trabajador calificado", está ansioso y nervioso por la situación actual.

Ha estado prestando atención a ChatGPT desde principios de año. A partir del rápido crecimiento del número de registros de empresas de IA, Dai Yan vio la explosión de la industria de la IA y las oportunidades empresariales del etiquetado de datos. **Los datos de Tianyancha muestran que solo en el primer trimestre de este año, se registraron recientemente 170.000 empresas relacionadas con la inteligencia artificial, y el número total ahora es de 2,67 millones. **

Se imagina que puede seguir la industria y que la empresa crecerá a una escala de 100 personas en el futuro. **Pero el statu quo actual es difícil de respaldar sus expectativas: el círculo de etiquetado de datos pronto se romperá: una gran cantidad de necesidades de etiquetado, trabajadores de etiquetado e intermediarios se juntarán, y el precio unitario será más bajo. **

Al igual que el equipo de ingeniería no puede ponerse en contacto con la Parte A que tiene necesidades de construcción, y solo puede hacerse cargo del proyecto del contratista, los salarios contactados por **Daiyan son cada vez más bajos a medida que el proyecto cambia de manos. ** Se negó a hacer el proyecto de etiquetado en el que solo podía obtener 30 yuanes por día.

Al mismo tiempo, ** Daiyan también se enfrenta a la vergüenza de no tener promoción profesional en la industria del etiquetado, no hay garantía de contrato y no hay forma de quejarse por retrasos. **Se rió de sí mismo: "Somos los trabajadores migrantes de datos de la nueva era".

Pero esa no es toda la historia. **El mayor problema es que el etiquetado automatizado también se está comiendo los únicos proyectos que tienen. ** La IA entrenada por etiquetadores de datos como Dai Yan está aprendiendo y etiquetándose a sí misma bajo supervisión humana.

El etiquetado automatizado reducirá en gran medida los costos empresariales y se ha convertido en la dirección más prometedora en el mercado del etiquetado de datos.

Daiyan tuvo que prepararse para "La IA puede reemplazar completamente a las personas". Dirigió al equipo para realizar proyectos de anotación de material didáctico y anotación de nube de puntos 3D en la categoría de anotación de texto al mismo tiempo. Uno es texto y el otro es video de imagen. Dai Yan ha hecho un plan de que si AI anula un proyecto, inmediatamente guiará al equipo para que se transforme en otro campo.

Además, el tamaño del equipo debe reducirse. Dai Yan tachó la escala de la empresa de 100 personas imaginada en su mente. Él cree que al final, solo se puede retener al equipo experimentado de 20 personas.

**Estas IA entrenadas por etiquetadores de datos los hacen soñar con ganar más mientras los obligan a planear ser subvertidos. **

1. Marcando, deja que la IA abra los ojos para ver el mundo

Para que las máquinas entiendan el texto, la voz y las imágenes como los humanos, los humanos han creado una cadena de aprendizaje automático: recopilan imágenes y sonidos físicos en el mundo físico, etiquetan y limpian los datos, los convierten en una serie de códigos y los envían. a la maquina

Los estudiosos de la IA creen que los bebés de tres años "disparan" cientos de millones de imágenes a través de sus ojos, entendiendo repetidamente el mundo. Entonces, siempre que se infundan suficientes datos en la máquina, la máquina también puede aprender a leer y reconocer oraciones, y finalmente comprender el significado profundo detrás del idioma.

Hay 15 millones de imágenes en el atlas etiquetado ImageNet.Este conjunto de datos ha ayudado a innumerables empresas de inteligencia artificial a lograr avances en la visión por computadora, como el reconocimiento facial y la búsqueda de imágenes.

Para construir ImageNet, cerca de 50 000 etiquetadores de datos de 167 países de todo el mundo trabajaron juntos durante dos años y medio, todos ellos provenientes de la plataforma de crowdsourcing Mechanical Turk.

Los requisitos de etiquetado son muy simples, el trabajo común de MTurk es distinguir el color de la foto, o clasificar los animales que aparecen en la imagen, o usar cajas para enmarcar los objetos seleccionados y etiquetar sus nombres: esto es un pastel, esto es un automóvil, Es una nube y así sucesivamente.

Inteligencia de gráficos/enteros

Los 200.000 trabajadores a tiempo parcial de la plataforma están distribuidos en África y el Sudeste Asiático, donde los costos laborales son bajos, e incluso formaron una característica "aldea de anotación de datos". Los datos que marcan respaldan la exploración de empresas tecnológicas en IA.

En China, millones de anotadores se distribuyen en ciudades de segundo y tercer nivel en Guizhou, Shanxi, Shandong, Henan y otras provincias, y gradualmente penetran en condados con costos laborales más bajos. O confían en plataformas de crowdsourcing en línea o se unen a empresas de etiquetado de datos y bases de etiquetado fuera de línea. **

El contenido de la anotación se divide en texto, imagen y voz según la escena, correspondiente a las funciones de ayudar a la máquina a adquirir alfabetización, reconocimiento de imágenes y escucha de sonido.

Los primeros proyectos de anotación se centraron en las empresas de Internet, principalmente anotando voz y texto. Ahora se está recurriendo a las empresas autónomas para etiquetar escenas 3D obtenidas mediante escaneo lidar, como el etiquetado de nubes de puntos; o más instrucciones de etiquetado de texto y voz verticales: para ayudar a las empresas educativas a proporcionar datos de etiquetado auxiliares de enseñanza para modelos grandes; o para instituciones médicas El modelo grande proporciona datos médicos recopilados.

Cuando la IA entra en la era 2.0, ChatGPT ha asombrado a inversores, empresarios y emprendedores. La expectativa de todos de la IA no es solo reconocer información de texto, voz e imágenes de forma rígida. La gente también espera que la IA realmente pueda comprender la conexión entre cosas como los humanos, reconocer diferencias sutiles y emociones detrás de las acciones, y distinguir y recopilar información de manera activa.

Por ejemplo, que el coche autónomo distinga una bolsa de plástico vacía frente a él, en lugar de una piedra de color y tamaño similar; que la cámara junto a la piscina ya no solo registre lo que pasó junto a la piscina, sino que entienda qué sucedió, y cuando alguien se ahoga Alerta.

Estos aún deben depender de la anotación de datos y presentan requisitos más altos para la anotación: más vertical, más precisa y más económica.

El auge del mercado del etiquetado también comenzó a partir de esto.

2. "Hay demasiados pedidos para cumplir"

Es difícil tener datos que expliquen directamente el aumento de la demanda de nuevas anotaciones, pero no es difícil juzgar. Porque solo en el primer trimestre de 2023, China agregó 170,000 empresas de inteligencia artificial, y mientras sea una empresa que use IA, seguramente tendrá una demanda de etiquetado de datos.

La demanda se extendió rápidamente al mercado de etiquetado de datos. En la barra de publicaciones donde se reúnen los profesionales de la anotación de datos, se pueden actualizar más de una docena de publicaciones de reclutamiento de proyectos por día, incluidas, entre otras, anotaciones de texto, revisión de temas, anotaciones de videos de ventas de drones, varilla de detección 2D, nube de puntos 3D, etc. Anotación elementos para videos de texto a imagen.

Un etiquetador de datos que ha estado en la industria durante muchos años ha notado que los proyectos de etiquetado de vehículos no tripulados de este año han aumentado, y el modelo empresarial a gran escala en el campo vertical generado por el auge de AI2.0 ha permitido que los proyectos de etiquetado de texto en declive original subdividirse en diferentes pistas, también aumenta la demanda de etiquetado de datos de nicho.

Impulsado por la demanda, Daiyan no es el único que crea un nuevo equipo para buscar oro. Zhang Wei de Dongying, provincia de Shandong, también comenzó a dedicarse al etiquetado de datos a fines del año pasado y se convirtió en un pequeño equipo de más de una docena de personas en medio año. Basándose en los subsidios y el apoyo del gobierno local, la empresa de Zhang Wei no solo obtuvo una oficina gratis, sino que el gobierno también ayudó a canalizar los recursos del Partido A.

Hay muchos pedidos de proyectos, desde el proyecto inicial de más de 100 000 yuanes hasta el último pedido de 400 000 yuanes, la tarea de entrega urgente hizo que Zhang Wei buscara más activamente trabajadores de etiquetado: hace unos días, Zhang Wei compró 6 computadoras más en solo un dia

En Zhengzhou, Henan, una plataforma de crowdsourcing para la anotación de datos se está mudando a un edificio de oficinas de dos pisos con capacidad para 100 personas. Escriben el posicionamiento de la empresa en el letrero en la puerta y en la oficina: "Base de investigación y desarrollo de big data de inteligencia artificial de IA" "la limpieza repetida de datos es para que su IA sea más inteligente".

“Hay demasiados pedidos para que se haga el proyecto de etiquetado”, dijo el responsable.

La ceremonia de reubicación de una empresa de etiquetado de datos

Fuente de la imagen/proporcionada por los entrevistados

El capital especulativo también ha entrado en los bolsillos de las empresas de etiquetado durante mucho tiempo. Según los datos, el precio de las acciones de Haitian AAC, la empresa líder, aumentó hasta 4 veces de marzo a mayo de este año.

Según 36 Krypton news, desde principios de este año, más de una docena de plataformas de etiquetado de datos en la ronda B y antes han dado paso colectivamente a altas valoraciones con un aumento de casi el 100%. Desde la segunda mitad del año pasado, las empresas de etiquetado automático han obtenido sucesivamente nueva financiación.

En septiembre de 2022, Borden Intelligence recibió 10 millones de yuanes en financiamiento, en diciembre, Stardust Data completó su ronda A de financiamiento de 50 millones de yuanes. Han pasado cuatro años y medio desde el último financiamiento en junio de 2018.

En abril de 2023, la empresa de soluciones de etiquetado de datos "Kaiwang Data" recibió una nueva ronda de financiación estratégica; en junio, la empresa de datos de IA "Integer Intelligence" recibió decenas de millones de rondas de financiación Pre A.

Están llenos de entusiasmo para reproducir lemas para reemplazar el etiquetado manual: "Reconstruir la producción de etiquetas de datos", "Línea de producción automatizada + mano de obra a gran escala", "Romper el modo manual de etiquetado de conducción automática".

Obviamente, el mercado de capitales también está volviendo a prestar atención a este campo emergente.

3. Más volumen y más estricto

La cadena de etiquetado de datos consta de tres partes.

Upstream: empresas de etiquetado de datos con 1~150 empleados, rezagados en línea y pequeños talleres.

Midstream: proveedores de servicios de datos, uno es la plataforma de crowdsourcing intermediaria que se encarga de upstream y downstream, y el otro es que las empresas eligen construir sus propias bases de etiquetado para una inversión estable en la industria.

Downstream: empresas de tecnología, empresas de la industria, empresas de inteligencia artificial y unidades de investigación científica. Las empresas de Internet dominaron alrededor de 2018, y ahora se transfieren a empresas de automóviles y empresas de conducción autónoma.

La industria generalmente adopta un modelo de subcontratación, es decir, la primera empresa emite la oferta y el proveedor de servicios externo participa en la licitación. Después de que la oferta es exitosa, ingresa al escalón de proveedores de la empresa y los proveedores principales Puede disfrutar del derecho a elegir tareas prioritarias y más pedidos.

Los requisitos de la empresa para los proveedores principales son tener un equipo de entrega de al menos 30 personas, experiencia madura en la entrega de pedidos, establecer un sistema de capacitación y la capacidad de controlar la calidad y cantidad de la entrega. Un equipo de producción estable finalmente conduce a una cotización baja que hace que la empresa sea más competitiva.

Sin embargo, la ventaja de bajo precio aportada por el equipo de gestión y control se ha visto interrumpida. "¡La puja de este año es feroz!", Dijo un proveedor de servicios a "Jiazi Guangnian", "Ofrecemos 200 yuanes por un proyecto, y algunas personas ofrecen 80 yuanes por día".

Al final, el proyecto fue ganado por el equipo con la oferta más baja, pero terminó regresando al equipo más maduro. "La Parte A nos los devolvió cuando no pudieron terminarlo, pero el precio no pudo subir más".

Porque el equipo en línea de Daiyan no se comunica directamente con la Parte A. Por lo tanto, la situación caótica de los precios de los revestimientos multinivel y laminados en el mercado los hace sentir presionados.

El etiquetado de datos es una industria basada en recursos, y quien pueda obtener la cooperación de la Parte A tendrá una ventaja. Dai Yan reveló que después de registrar una empresa, algunas personas afirmaron falsamente que tenían un equipo profesional de 40-50 personas y participaron en la licitación a un precio muy bajo. Después de ganar el proyecto, lo dividieron en 4-5 acciones y distribuyeron ellos a diferentes equipos. El equipo se divide más abajo, y la comisión se cobra capa por capa. El intermediario gana la diferencia, y el precio por pieza distribuido a los trabajadores de etiquetado de datos es cada vez más bajo. **

Mientras alguien recoja el plato, seguirá cayendo en espiral.

Una lista de precios obtenida por "Jiazi Guangnian" muestra que, desde el etiquetado 2D hasta el etiquetado de nube de puntos láser 3D, el precio unitario de los artículos etiquetados es generalmente de 0,5 a 1,5 yuanes por cuadro. Dai Yan una vez recibió un precio de cuadro único con un descuento del 50%, "se han transferido al menos cuatro o cinco manos".

**La introducción del precio unitario conduce directamente a la reducción del salario del personal de etiquetado. **El equipo de Daiyanhe es de medio tiempo a tiempo completo. La mayoría de los miembros del equipo son madres, estudiantes universitarios, autónomos y estudiantes de secundaria vocacional. Trabajan 6 horas al día. Manteniendo este estado, Daiyan tendrá un ingreso mensual de 4 a 5 mil yuanes durante la epidemia en 2022.

“Si tiene una computadora y electricidad, puede operarla.” Esta es una frase atractiva común en los carteles de reclutamiento de etiquetas de datos. En el pasado, esta fue una vez la ventaja más significativa de la industria del etiquetado de datos. Pero hoy esta ventaja ha hecho que toda la industria caiga en la involución. Ahora, el ingreso mensual de Daiyan es de solo 2 a 3 mil yuanes.

Si bien los ingresos han caído, la carga de trabajo no lo ha hecho. Por el contrario, el trabajo de etiquetado de datos es más complejo y detallado.

Los profesionales experimentados de la anotación de datos pierden el mercado de la anotación en la era de Internet: el precio de un solo marco es tres veces más alto y la cantidad de elementos es grande. Un equipo de 60-70 personas puede obtener un ingreso mensual de 300.000 yuanes. "Ahora el mercado está lleno de proyectos con un valor de producción (el valor generado por una sola persona por día) de menos de 100 yuanes, que solían ser cientos de dólares por día", dijo un practicante.

En ese momento, la operación del proyecto era simple y no había requisitos, como marcar la escena 2D para el vehículo no tripulado, y al dibujar el marco del vehículo en la imagen, siempre que pudiera enmarcarse, no había ningún requisito. .

**Pero ahora es diferente. La "aptitud" es el criterio de aceptación más importante para la Parte A. ** "El año pasado, se requería que el error fuera de 5 a 7 mm, y este año será de 3 a 5 mm. El requisito de error es cada vez más pequeño", dijo Dai Yan.

El erudito en inteligencia artificial Wu Enda ha enfatizado repetidamente que el valor de la inteligencia artificial solo puede liberarse con datos etiquetados de alta calidad.Cuantos más datos de alta calidad, más rápido será el desarrollo de la inteligencia artificial.

En los datos etiquetados de los vehículos no tripulados, se expresa como el grado de ajuste entre el marco rectangular y el objeto marcado. Cuanto mayor sea el grado de ajuste, mayor será la precisión del algoritmo y más preciso el algoritmo puede controlar el vehículo. .

Los elementos de anotación de texto de alta calidad se reflejan en la corrección de la comprensión semántica y la tasa correcta de respuesta a las preguntas. Cuanto mayor sea la tasa correcta, más inteligente será el modelo grande que se está entrenando.

Las manos expertas pueden garantizar una entrega de datos rápida y buena. Una vez, Daiyan le pidió a un novato que participara para verificar si los problemas matemáticos completados por ChatGPT están completos, si la lógica es correcta y si los estudiantes de primaria pueden entender el idioma. Los 7500 datos marcados por el novato debían ser reelaborados por la Parte A porque la tasa de precisión era demasiado baja. Dai Yan y sus colegas tardaron más de diez días en corregirlos.

El etiquetado de datos no es cada vez más un trabajo sin umbral. La producción de anotaciones de voz complejas, médicas, legales, financieras y de otros conjuntos de datos profesionales requiere profesionales con reservas de conocimiento del tema para realizar anotaciones profesionales.

Dai Yan cree que, tomando como ejemplo el proyecto del vehículo no tripulado, los recién llegados tardan 3 meses en dominar el etiquetado 2D y entre 4 y 6 meses en el etiquetado 3D.

Este tipo de ejercicio se refiere a entrenar la precisión de dibujar el marco, usando el mouse para dibujar un marco rectangular en la página de etiquetado de la computadora de una sola vez, que puede cubrir con precisión el objeto marcado, sin pisar la línea, sin perder puntos, y incluso sin problemas.

Los expertos en anotación de datos/figuras señalan los problemas en la anotación

Es solo que cuando la máquina comienza a aprender por sí misma y reemplaza al ser humano para etiquetar la máquina, ¿sigue siendo significativa la habilidad que las personas dedican tiempo a entrenar?

4. Crisis alternativa

Dai Yan se dio cuenta de que la IA se acercaba, y estaba en el proyecto de anotación de imágenes que hizo hace algún tiempo.

Este es un proyecto antiguo en el que Daiyan ha estado trabajando durante dos años: el reconocimiento de mapas. Los etiquetadores de datos necesitan reconocer el texto en la imagen e imprimirlo, el precio es de 8 centavos por pieza. Los datos marcados en nombre de la extensión se introducen en el modelo de reconocimiento de imágenes. El modelo ahora es competente en el reconocimiento de texto en imágenes. El trabajo de etiquetado de Daiyan comenzó a reducirse a revisión y revisión. La dificultad ha disminuido, y el precio unitario marcado también ha disminuido.

** La IA entrenada por humanos con etiquetado está reemplazando el trabajo de etiquetado humano. **En el informe de la encuesta de la Universidad de Zurich, los investigadores encontraron a través de mediciones reales que la capacidad de procesamiento de ChatGPT en 15 tareas de etiquetado es mayor que la de los crowdsourcers. **La barra de progreso de la integración del modelo grande en la plataforma de crowdsourcing también se aceleró. **Una investigación posterior realizada por el Instituto Federal de Tecnología de Lausana encontró que más del 30 % de los anotadores de colaboración colectiva han utilizado modelos grandes al procesar anotaciones de texto.

Sin duda, la IA ahorra más tiempo y trabajo que el trabajo manual: los investigadores dijeron que el costo unitario de ChatGPT solo equivale a 1/20 de MTurk.

Daiyan también está preparado para que esta línea de negocios sea reemplazada por una "IA más perfecta" en cualquier momento. Apostó el futuro a etiquetas de conducción autónoma que requerían más habilidades.

Pero el etiquetado de conducción autónoma también está siendo invadido por la IA. En comparación con el método de dibujo de marco manual, el etiquetado automático solo requiere un modelo grande incorporado.Después de la configuración de parámetros, el marco rectangular que originalmente requería etiquetado manual se generará automáticamente. El único problema en la actualidad es que el marco rectangular generado tiene problemas de calidad como pisar la línea y ajuste bajo, lo que requiere una inspección manual uno por uno.

La mejora de la eficiencia ha sorprendido a las empresas automovilísticas. Ideal está utilizando el modelo grande 2.0 para la calibración automática, que es 1000 veces más eficiente que los humanos; Tesla ha estado promoviendo activamente el progreso del etiquetado automático, como la cancelación de 200 videos de etiquetado de Tesla en junio de 2022 para mejorar el sistema de asistencia de los empleados estadounidenses, porque Tesla La capacidad de etiquetado automático se ha mejorado mucho, etiquetando 10,000 videos de menos de 60 segundos, solo necesita un modelo grande para funcionar durante una semana, en lugar del etiquetado manual durante varios meses.

Lin Qunshu, el fundador de la empresa de datos de inteligencia artificial Integer Intelligence, dijo que cada vez más empresas automotrices y empresas AIGC utilizan productos modelo a gran escala para el etiquetado automático, y sus ingresos aumentan significativamente. Su último movimiento es establecer una rama de investigación y desarrollo en Singapur.

**Sin embargo, los proveedores de servicios externos no son tan optimistas sobre el crecimiento del etiquetado automatizado. **El gerente de proyecto de una plataforma de crowdsourcing en Henan dijo que el etiquetado automatizado no puede reemplazar más del 60% de los requisitos de etiquetado y solo puede usarse como una herramienta de etiquetado auxiliar para procesar datos únicos o específicos y mejorar la eficiencia humana.

El gerente de producto de otra empresa de etiquetado de datos cree que el etiquetado automático solo puede filtrar datos básicos simples y no puede identificar con precisión objetos de escenas complejas y controvertidas como los humanos. Esta es también la razón por la que el mercado del etiquetado de datos todavía está dominado por los datos de etiquetado de conducción autónoma.

Sin embargo, todos están de acuerdo en que el futuro etiquetado de datos pasará de la mano de obra a la tecnología.

En resumen, ya sea ser "aplastado hasta la muerte" por sus compañeros, o "aplastado hasta la muerte" por la tecnología. Pero definitivamente no es posible quedarse quieto, y las empresas de terceros que marcan los datos están buscando una salida en el futuro.

El plan de Daiyan es mantenerse al día con el mercado, mantenerse alerta, despedir personal en cualquier momento y, al mismo tiempo, desarrollarse en la dirección de una herramienta de etiquetado automatizado. El fundador de una plataforma de crowdsourcing dijo al comunicarse con sus pares que en el futuro, no deberíamos acumular mano de obra, sino que debemos tener capacidades de investigación y desarrollo.

¿Qué pasa con los individuos? La trayectoria profesional que circula en la industria es que etiquetadores novatos-etiquetadores experimentados-administradores de proyectos de etiquetado/gerentes-analistas de datos de la empresa de la parte A, y finalmente lograr una promoción con un salario mensual de decenas de miles.

Ninguno de los etiquetadores de datos que Dai Yan conocía iba en esa dirección. O se quedaban donde estaban o renunciaban. El mejor de los casos era construir su propio equipo de etiquetado como lo hizo Dai Yan, pero él no se sentía más fácil.

Por un lado, está el aumento de la demanda de proyectos provocado por la tendencia de la IA y, por otro lado, hay ofertas más caóticas, un valor de producción per cápita más bajo y una IA en rápido crecimiento. Las dos emociones están entrelazadas, la IA brindará infinitas oportunidades y la IA también nos eliminará a "nosotros".

(A pedido de los entrevistados, los nombres en el artículo son todos seudónimos)

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)