Công nhân dán nhãn dữ liệu: đào tạo AI, thay thế bằng AI

Tăng trưởng và loại bỏ xảy ra đồng thời.

Tác giả|Mã Huy

Chỉnh sửa|Hạt dẻ

Nguồn hình ảnh: Được tạo bởi công cụ Unbounded AI

** Triển vọng và sự hủy diệt tồn tại đồng thời và những người thực hành ghi nhãn dữ liệu chưa bao giờ mâu thuẫn đến thế. **

Dai Yan, 30 tuổi, người Nội Mông, bắt đầu công việc kinh doanh của mình vào đầu năm nay và thành lập một nhóm dán nhãn trực tuyến gồm gần 30 người. Trước đây, Daiyan đã làm việc trên một nền tảng cung cấp dịch vụ đám đông để chú thích dữ liệu trong hai năm. Anh, người có thể gọi là “thợ lành nghề”, vừa mong chờ vừa hồi hộp trước tình hình hiện tại.

Anh ấy đã chú ý đến ChatGPT từ đầu năm. Từ sự tăng trưởng nhanh chóng về số lượng đăng ký của các công ty AI, Dai Yan đã chứng kiến sự bùng nổ của ngành AI và cơ hội kinh doanh của việc dán nhãn dữ liệu. **Dữ liệu của Tianyancha cho thấy chỉ trong quý đầu tiên của năm nay, 170.000 công ty liên quan đến trí tuệ nhân tạo đã được đăng ký mới và tổng số hiện là 2,67 triệu. **

Anh tưởng tượng rằng mình có thể theo ngành và công ty sẽ phát triển lên quy mô 100 người trong tương lai. **Nhưng hiện trạng khó có thể hỗ trợ cho kỳ vọng của anh ấy: vòng tròn dán nhãn dữ liệu sẽ sớm bị phá vỡ - một số lượng lớn nhu cầu dán nhãn, công nhân dán nhãn và người trung gian sẽ cùng nhau đổ về, và đơn giá sẽ thấp hơn. **

Giống như đội kỹ thuật không thể liên lạc với Bên A có nhu cầu xây dựng và chỉ có thể tiếp quản dự án từ nhà thầu, tiền lương mà ** Daiyan liên hệ ngày càng thấp khi dự án đổi chủ. ** Anh ấy từ chối thực hiện dự án dán nhãn mà anh ấy chỉ có thể nhận được 30 nhân dân tệ mỗi ngày.

Đồng thời, ** Daiyan cũng đang phải đối mặt với sự bối rối khi không có cơ hội thăng tiến trong ngành dán nhãn, không có hợp đồng đảm bảo và không có cách nào để phàn nàn về việc bị chậm trễ. ** Anh tự cười mình: “Chúng tôi là công nhân nhập cư dữ liệu của thời đại mới”.

Nhưng đó không phải là toàn bộ câu chuyện. **Vấn đề lớn hơn là việc ghi nhãn tự động cũng đang ngốn sạch các dự án duy nhất mà họ có. ** Trí tuệ nhân tạo được đào tạo bởi các chuyên gia dán nhãn dữ liệu như Dai Yan đang học và tự dán nhãn dưới sự giám sát của con người.

Ghi nhãn tự động sẽ giảm đáng kể chi phí doanh nghiệp và đã trở thành hướng hứa hẹn nhất trong thị trường ghi nhãn dữ liệu.

Daiyan đã phải chuẩn bị cho việc "AI có thể thay thế hoàn toàn con người". Anh ấy đã lãnh đạo nhóm thực hiện các dự án chú thích hỗ trợ giảng dạy và chú thích đám mây điểm 3D trong danh mục chú thích văn bản cùng một lúc. Một là văn bản và một là video hình ảnh. Dai Yan đã lên một kế hoạch rằng nếu một dự án bị AI lật ngược, anh ấy sẽ ngay lập tức dẫn dắt nhóm chuyển đổi sang lĩnh vực khác.

Ngoài ra, quy mô nhóm nên được giảm bớt. Dai Yan gạch bỏ quy mô của công ty 100 người mà anh tưởng tượng trong đầu. Anh ấy tin rằng cuối cùng, chỉ có đội ngũ 20 người có kinh nghiệm mới có thể được giữ lại.

**Những AI này được đào tạo bởi những người dán nhãn dữ liệu khiến họ mơ ước kiếm được nhiều tiền hơn trong khi buộc họ phải lên kế hoạch để bị lật đổ. **

1. Đánh dấu, để AI mở rộng tầm mắt nhìn thế giới

Để máy hiểu văn bản, giọng nói và hình ảnh như con người, con người đã tạo ra một chuỗi học máy: thu thập hình ảnh và âm thanh vật lý trong thế giới vật chất, dán nhãn và làm sạch dữ liệu, chuyển đổi dữ liệu thành một chuỗi mã và gửi chúng. đến máy.

Các học giả AI tin rằng những đứa trẻ ba tuổi "bắn" hàng trăm triệu bức ảnh qua mắt chúng, liên tục hiểu thế giới. Vì vậy, miễn là có đủ dữ liệu được truyền vào máy, máy cũng có thể học cách đọc và nhận dạng câu, và cuối cùng hiểu được ý nghĩa sâu xa đằng sau ngôn ngữ.

Có 15 triệu bức ảnh trong tập bản đồ ImageNet được dán nhãn. Bộ dữ liệu này đã giúp vô số công ty AI đạt được những bước đột phá trong thị giác máy tính, chẳng hạn như nhận dạng khuôn mặt và tìm kiếm hình ảnh.

Để xây dựng ImageNet, gần 50.000 người dán nhãn dữ liệu từ 167 quốc gia trên thế giới đã làm việc cùng nhau trong hai năm rưỡi, tất cả đều đến từ nền tảng cung cấp dịch vụ đám đông Mechanical Turk.

Yêu cầu dán nhãn rất đơn giản, công việc phổ biến của MTurk là phân biệt màu sắc của bức ảnh, hoặc phân loại các con vật xuất hiện trong ảnh, hoặc sử dụng các hộp để đóng khung các đối tượng đã chọn và dán nhãn tên của chúng: đây là bánh, đây là ô tô, Đó là một đám mây và vân vân.

Đồ thị/Số nguyên Thông minh

200.000 công nhân bán thời gian trên nền tảng này được phân bổ ở Châu Phi và Đông Nam Á, nơi có chi phí lao động thấp và thậm chí còn hình thành một "làng chú thích dữ liệu" đặc trưng. Dữ liệu họ đánh dấu hỗ trợ việc khám phá AI của các công ty công nghệ.

Ở Trung Quốc, hàng triệu người chú thích được phân phối ở các thành phố cấp hai và cấp ba ở Quý Châu, Sơn Tây, Sơn Đông, Hà Nam và các tỉnh khác, dần dần thâm nhập vào các quận có chi phí lao động thấp hơn. Họ dựa vào các nền tảng cung cấp dịch vụ đám đông trực tuyến hoặc tham gia các công ty ghi nhãn dữ liệu ngoại tuyến và các cơ sở ghi nhãn. **

Nội dung chú thích được chia thành văn bản, hình ảnh và giọng nói theo ngữ cảnh, tương ứng với các chức năng giúp máy học chữ, nhận dạng hình ảnh và nghe âm thanh.

Các dự án chú thích ban đầu tập trung vào các công ty Internet, chủ yếu là chú thích bằng giọng nói và văn bản. Giờ đây, nó đang chuyển sang các công ty tự lái để gắn nhãn cảnh 3D thu được bằng cách quét lidar, chẳng hạn như ghi nhãn đám mây điểm; hoặc nhiều hướng ghi nhãn văn bản và giọng nói dọc hơn: để giúp các công ty giáo dục cung cấp dữ liệu ghi nhãn phụ trợ giảng dạy cho các mô hình lớn; hoặc cho các tổ chức y tế Mô hình lớn cung cấp dữ liệu y tế đối chiếu.

Khi AI bước vào kỷ nguyên 2.0, ChatGPT đã khiến các nhà đầu tư, doanh nhân và doanh nhân kinh ngạc, kỳ vọng của mọi người về AI không chỉ là nhận diện thông tin văn bản, giọng nói, hình ảnh một cách cứng nhắc. Mọi người cũng hy vọng rằng AI có thể thực sự hiểu được mối liên hệ giữa những thứ giống như con người, nhận ra những khác biệt và cảm xúc tinh tế đằng sau hành động, đồng thời chủ động phân biệt và thu thập thông tin.

Ví dụ, hãy để chiếc xe tự lái phân biệt một chiếc túi nhựa rỗng trước mặt nó, thay vì một viên đá có màu sắc và kích thước tương tự; hãy để camera bên cạnh bể bơi không còn chỉ ghi lại những gì xảy ra bên bể bơi, mà hãy hiểu những gì xảy ra bên bể bơi. đã xảy ra, và khi ai đó chết đuối Cảnh báo.

Những điều này vẫn cần dựa vào chú thích dữ liệu và đưa ra các yêu cầu cao hơn cho chú thích - dọc hơn, chính xác hơn và tiết kiệm hơn.

Sự bùng nổ của thị trường nhãn mác cũng bắt đầu từ đây.

2. "Có quá nhiều đơn đặt hàng để theo kịp"

Rất khó để có dữ liệu giải thích trực tiếp sự gia tăng nhu cầu đối với các chú thích mới, nhưng không khó để đánh giá. Bởi vì chỉ riêng trong quý đầu tiên của năm 2023, Trung Quốc đã có thêm 170.000 công ty trí tuệ nhân tạo và miễn là công ty sử dụng AI thì nhất định sẽ có nhu cầu dán nhãn dữ liệu.

Nhu cầu nhanh chóng lan sang thị trường ghi nhãn dữ liệu. Trong thanh bài đăng nơi các học viên chú thích dữ liệu thu thập, có thể làm mới hơn chục bài đăng tuyển dụng dự án mỗi ngày, bao gồm nhưng không giới hạn ở chú thích văn bản, đánh giá chủ đề, chú thích video bán hàng bằng máy bay không người lái, thanh phát hiện 2D, đám mây điểm 3D, v.v. các mục cho video chuyển văn bản thành hình ảnh.

Một nhà dán nhãn dữ liệu đã làm việc trong ngành nhiều năm đã nhận thấy rằng các dự án dán nhãn xe không người lái năm nay đã tăng lên và mô hình kinh doanh quy mô lớn trong lĩnh vực dọc do sự bùng nổ của AI2.0 đã chia nhỏ các dự án dán nhãn văn bản ban đầu đang suy giảm thành các bài hát khác nhau. , cũng làm tăng nhu cầu ghi nhãn dữ liệu thích hợp.

Được thúc đẩy bởi nhu cầu, Daiyan không phải là người duy nhất thành lập một nhóm mới để đào vàng. Zhang Wei đến từ Dongying, tỉnh Sơn Đông cũng bắt đầu cống hiến hết mình cho việc dán nhãn dữ liệu vào cuối năm ngoái và phát triển thành một nhóm nhỏ gồm hơn chục người trong nửa năm. Dựa vào các khoản trợ cấp và hỗ trợ từ chính quyền địa phương, công ty của Zhang Wei không chỉ có văn phòng miễn phí mà chính phủ còn giúp chuyển các nguồn lực từ Bên A.

Có rất nhiều đơn đặt hàng dự án, từ dự án ban đầu hơn 100.000 nhân dân tệ đến đơn hàng mới nhất 400.000 nhân dân tệ, nhiệm vụ giao hàng gấp khiến Zhang Wei tích cực tìm kiếm công nhân dán nhãn hơn: vài ngày trước, Zhang Wei đã mua thêm 6 máy tính chỉ trong một ngày.

Tại Trịnh Châu, Hà Nam, một nền tảng cung cấp dịch vụ cộng đồng cho chú thích dữ liệu đang chuyển đến một tòa nhà văn phòng hai tầng có sức chứa 100 người. Họ viết định vị của công ty trên bảng hiệu ở cửa và trong văn phòng: "Cơ sở nghiên cứu và phát triển dữ liệu lớn trí tuệ nhân tạo AI" "làm sạch dữ liệu nhiều lần là để AI của bạn thông minh hơn".

"Có quá nhiều đơn đặt hàng cho dự án dán nhãn được thực hiện." Người phụ trách nói.

Lễ di dời công ty dán nhãn dữ liệu

Nguồn ảnh/do người được phỏng vấn cung cấp

Tiền nóng cũng đã vào túi các công ty dán nhãn từ lâu. Theo dữ liệu, giá cổ phiếu của Haiti AAC, công ty hàng đầu, đã tăng tới 4 lần từ tháng 3 đến tháng 5 năm nay.

Theo 36 Krypton News, kể từ đầu năm nay, hơn chục nền tảng ghi nhãn dữ liệu từ vòng B trở về trước đã cùng nhau mở ra mức định giá cao với mức tăng gần 100%. Kể từ nửa cuối năm ngoái, các công ty dán nhãn tự động đã liên tiếp nhận được nguồn tài chính mới.

Vào tháng 9 năm 2022, Borden Intelligence đã nhận được khoản tài trợ 10 triệu nhân dân tệ; vào tháng 12, Stardust Data đã hoàn thành khoản tài trợ vòng A trị giá 50 triệu nhân dân tệ. Đã bốn năm rưỡi kể từ lần tài trợ cuối cùng vào tháng 6 năm 2018.

Vào tháng 4 năm 2023, công ty giải pháp ghi nhãn dữ liệu "Kaiwang Data" đã nhận được một vòng tài trợ chiến lược mới; vào tháng 6, công ty dữ liệu AI "Integer Intelligence" đã nhận được hàng chục triệu vòng tài trợ Pre A.

Họ tràn đầy nhiệt huyết tung các khẩu hiệu thay thế việc dán nhãn thủ công: "Tái thiết lập sản xuất nhãn dữ liệu", "Dây chuyền sản xuất tự động + nhân lực quy mô lớn", "Phá bỏ chế độ dán nhãn thủ công".

Rõ ràng, thị trường vốn cũng đang chú ý trở lại lĩnh vực mới nổi này.

3. Âm lượng lớn hơn và chặt chẽ hơn

Chuỗi ghi nhãn dữ liệu bao gồm ba phần.

Thượng nguồn: các công ty ghi nhãn dữ liệu với 1 ~ 150 nhân viên, những người phân phối trực tuyến và các hội thảo nhỏ.

Midstream: Các nhà cung cấp dịch vụ dữ liệu, một là nền tảng cung cấp dịch vụ cộng đồng trung gian đảm nhận thượng nguồn và hạ nguồn, hai là các doanh nghiệp chọn xây dựng cơ sở ghi nhãn của riêng mình để đầu tư ổn định trong ngành.

Hạ nguồn: Các công ty công nghệ, công ty công nghiệp, công ty trí tuệ nhân tạo và đơn vị nghiên cứu khoa học. Các công ty Internet chiếm ưu thế vào khoảng năm 2018, và giờ đây chúng được chuyển giao cho các công ty ô tô và công ty lái xe tự hành.

Ngành này thường áp dụng mô hình hợp đồng phụ, nghĩa là công ty bên thứ nhất đưa ra giá thầu và nhà cung cấp dịch vụ bên thứ ba tham gia đấu thầu. có thể được hưởng quyền lựa chọn nhiệm vụ ưu tiên và nhiều mệnh lệnh hơn.

Yêu cầu của doanh nghiệp đối với các nhà cung cấp cốt lõi là phải có đội ngũ giao hàng ít nhất 30 người, kinh nghiệm giao hàng thành thục, thiết lập hệ thống đào tạo và khả năng kiểm soát chất lượng và số lượng giao hàng. Một nhóm sản xuất ổn định cuối cùng sẽ dẫn đến báo giá thấp khiến công ty trở nên cạnh tranh hơn.

Tuy nhiên, lợi thế về giá thấp do đội ngũ quản lý và kiểm soát mang lại đã bị phá vỡ. "Cuộc đấu thầu năm nay rất khốc liệt!" Một nhà cung cấp dịch vụ nói với "Jiazi Guangnian", "Chúng tôi đặt giá thầu 200 nhân dân tệ cho một dự án và một số người đặt giá thầu 80 nhân dân tệ một ngày."

Cuối cùng, dự án đã thuộc về đội có giá thầu thấp nhất, nhưng cuối cùng nó lại thuộc về đội trưởng thành hơn. “Bên A chuyển lại cho chúng tôi khi họ không thể hoàn thành nó, nhưng giá không thể tăng được nữa.”

Bởi vì nhóm trực tuyến của Daiyan không liên hệ trực tiếp với Bên A. Chính vì vậy, tình trạng tấm ốp đa cấp, giá cả hỗn loạn trên thị trường khiến họ cảm thấy bị áp lực.

Ghi nhãn dữ liệu là một ngành dựa trên tài nguyên và ai có thể nhận được sự hợp tác với Bên A sẽ có lợi thế. Dai Yan tiết lộ, sau khi đăng ký thành lập công ty, một số cá nhân đã khai man rằng họ có đội ngũ chuyên nghiệp 40-50 người và tham gia đấu thầu với giá rất thấp, sau khi giành được dự án, họ chia thành 4-5 cổ phiếu và phân phát. họ chia thành các nhóm khác nhau. Nhóm được chia nhỏ hơn và hoa hồng được thu theo từng lớp. Người trung gian kiếm được phần chênh lệch và giá sản phẩm được phân phối cho công nhân dán nhãn dữ liệu ngày càng thấp hơn. **

Miễn là có ai đó nhấc chiếc đĩa lên, nó sẽ tiếp tục xoắn ốc đi xuống.

Một bảng giá do "Jiazi Guangnian" thu được cho thấy rằng từ ghi nhãn 2D đến ghi nhãn đám mây điểm laser 3D, đơn giá của các mặt hàng ghi nhãn thường là 0,5 đến 1,5 nhân dân tệ cho mỗi khung hình. Dai Yan đã từng nhận được giá một khung với chiết khấu 50%, "ít nhất bốn hoặc năm tay đã được chuyển nhượng."

** Việc áp dụng đơn giá trực tiếp dẫn đến việc giảm lương của nhân viên dán nhãn. **Đội ngũ của Daiyanhe là toàn thời gian bán thời gian. Hầu hết các thành viên trong nhóm là các bà mẹ, sinh viên đại học, người làm việc tự do và học sinh trung học dạy nghề. Họ làm việc 6 giờ một ngày. Duy trì trạng thái này, Daiyan sẽ có thu nhập hàng tháng từ 4 đến 5 nghìn nhân dân tệ trong thời gian xảy ra dịch bệnh vào năm 2022.

“Nếu bạn có máy tính và điện, bạn có thể vận hành nó.” Đây là một cụm từ hấp dẫn phổ biến trong các áp phích tuyển dụng dán nhãn dữ liệu. Trước đây, đây từng là lợi thế đáng kể nhất của ngành ghi nhãn dữ liệu. Nhưng ngày nay lợi thế này đã khiến toàn bộ ngành rơi vào cuộc cách mạng. Bây giờ thu nhập hàng tháng của Daiyan chỉ là 2-3 nghìn nhân dân tệ.

Trong khi thu nhập giảm, khối lượng công việc thì không. Ngược lại, công việc ghi nhãn dữ liệu phức tạp và chi tiết hơn.

Những người thực hành chú thích dữ liệu lâu năm bỏ lỡ thị trường chú thích trong thời đại Internet: giá của một khung hình cao gấp ba lần và số lượng mục lớn. Một nhóm 60-70 người có thể kiếm được thu nhập hàng tháng là 300.000 nhân dân tệ. “Bây giờ thị trường tràn ngập các dự án có giá trị đầu ra (giá trị do một người tạo ra mỗi ngày) dưới 100 nhân dân tệ, trước đây là hàng trăm đô la một ngày.” Một học viên cho biết.

Vào thời điểm đó, hoạt động của dự án rất đơn giản và không có yêu cầu, chẳng hạn như đánh dấu cảnh 2D cho chiếc xe không người lái, và khi vẽ khung cho chiếc xe trong ảnh, miễn là có thể đóng khung thì không có yêu cầu. .

**Nhưng bây giờ thì khác, "Sự phù hợp" là tiêu chí chấp nhận quan trọng nhất của Bên A. ** "Năm ngoái, sai số yêu cầu là 5-7 mm, năm nay sẽ là 3-5 mm, sai số yêu cầu càng ngày càng nhỏ." Dai Yan nói.

Học giả trí tuệ nhân tạo Wu Enda đã nhiều lần nhấn mạnh rằng giá trị của trí tuệ nhân tạo chỉ có thể được phát hành với dữ liệu chất lượng cao được dán nhãn, dữ liệu chất lượng càng cao thì trí tuệ nhân tạo càng phát triển nhanh.

Trong dữ liệu được dán nhãn của phương tiện không người lái, nó được biểu thị bằng mức độ phù hợp giữa khung hình chữ nhật và đối tượng được đánh dấu, mức độ phù hợp càng cao thì độ chính xác của thuật toán càng cao và thuật toán có thể điều khiển phương tiện càng chính xác .

Các mục chú thích văn bản có chất lượng cao thể hiện ở mức độ hiểu đúng ngữ nghĩa và tỷ lệ trả lời đúng câu hỏi. Tỷ lệ chính xác càng cao, mô hình lớn được đào tạo càng thông minh.

Bàn tay lành nghề có thể đảm bảo cung cấp dữ liệu nhanh và tốt. Daiyan đã từng yêu cầu một người mới tham gia kiểm tra xem các bài toán do ChatGPT hoàn thành có đầy đủ hay không, logic có chính xác hay không và liệu học sinh tiểu học có thể hiểu ngôn ngữ hay không. 7.500 dữ liệu được đánh dấu bởi người mới đã được Bên A yêu cầu làm lại vì tỷ lệ chính xác quá thấp, Dai Yan và các đồng nghiệp của anh ấy đã mất hơn mười ngày để sửa nó.

Ghi nhãn dữ liệu ngày càng không phải là một công việc không có ngưỡng. Việc tạo chú thích bằng giọng nói phức tạp, y tế, pháp lý, tài chính và tập dữ liệu chuyên nghiệp khác yêu cầu các chuyên gia có kiến thức dự trữ về chủ đề để thực hiện chú thích chuyên nghiệp.

Dai Yan tin rằng, lấy dự án xe không người lái làm ví dụ, người mới phải mất 3 tháng để thành thạo việc dán nhãn 2D và 4 đến 6 tháng để thành thạo việc dán nhãn 3D.

Loại bài tập này đề cập đến việc rèn luyện độ chính xác của việc vẽ khung, sử dụng chuột để vẽ một khung hình chữ nhật trên trang nhãn của máy tính trong một lần, có thể bao phủ chính xác đối tượng được đánh dấu, không giẫm lên đường kẻ, không bỏ sót điểm và thậm chí liền mạch.

Các chuyên gia chú thích hình/dữ liệu chỉ ra các vấn đề trong chú thích

Chỉ là khi máy móc bắt đầu tự học và thay con người gán nhãn cho máy móc, liệu kỹ năng mà con người bỏ thời gian đào tạo có còn ý nghĩa?

4. Khủng hoảng thay thế

Dai Yan nhận ra rằng AI đang đến gần, và đó là trong dự án chú thích hình ảnh mà anh ấy đã thực hiện cách đây không lâu.

Đây là một dự án cũ mà Daiyan đã thực hiện trong hai năm - nhận dạng bản đồ. Người dán nhãn dữ liệu cần nhận dạng văn bản trong ảnh và in nó ra, giá 8 xu một mảnh. Dữ liệu được đánh dấu thay mặt cho phần mở rộng được đưa vào mô hình nhận dạng hình ảnh. Mô hình hiện đã thành thạo trong việc nhận dạng văn bản trong hình ảnh. Công việc ghi nhãn của Daiyan bắt đầu được giảm bớt để sửa đổi và xem xét. Độ khó đã giảm và đơn giá được đánh dấu cũng đã giảm.

** Trí tuệ nhân tạo do con người huấn luyện với việc ghi nhãn đang thay thế công việc ghi nhãn của con người. **Trong báo cáo khảo sát của Đại học Zurich, qua đo lường thực tế, các nhà nghiên cứu nhận thấy khả năng xử lý của ChatGPT trong 15 tác vụ gắn nhãn cao hơn so với các Crowdsourcer. **Thanh tiến trình nhúng mô hình lớn vào nền tảng cung cấp dịch vụ cộng đồng cũng đã được tăng tốc. **Nghiên cứu tiếp theo của Viện Công nghệ Liên bang ở Lausanne đã phát hiện ra rằng hơn 30% người chú thích có nguồn lực từ cộng đồng đã sử dụng các mô hình lớn khi xử lý chú thích văn bản.

AI chắc chắn tiết kiệm thời gian và nhân công hơn so với lao động thủ công: các nhà nghiên cứu cho biết đơn giá của ChatGPT chỉ tương đương 1/20 của MTurk.

Daiyan cũng chuẩn bị sẵn sàng rằng lĩnh vực kinh doanh này sẽ bị thay thế bởi "AI hoàn hảo hơn" bất cứ lúc nào. Anh ấy đặt cược tương lai vào những nhãn hiệu xe tự lái yêu cầu nhiều kỹ năng hơn.

Nhưng việc dán nhãn lái xe tự trị cũng đang bị AI xâm chiếm. So với phương pháp vẽ khung thủ công, ghi nhãn tự động chỉ yêu cầu mô hình lớn tích hợp sẵn, sau khi cài đặt tham số, khung hình chữ nhật yêu cầu ghi nhãn thủ công ban đầu sẽ được tạo tự động. Vấn đề duy nhất hiện tại là khung hình chữ nhật được tạo ra có vấn đề về chất lượng như giẫm lên dây và độ khít thấp, cần phải kiểm tra thủ công từng cái một.

Sự cải thiện về hiệu quả đã khiến các công ty xe hơi ngạc nhiên. Lý tưởng nhất là sử dụng mô hình lớn 2.0 để hiệu chỉnh tự động, hiệu quả gấp 1000 lần so với con người; Tesla đã tích cực thúc đẩy tiến độ dán nhãn tự động, chẳng hạn như hủy 200 video dán nhãn Tesla vào tháng 6 năm 2022 để cải thiện hệ thống hỗ trợ nhân viên Mỹ, bởi vì Tesla khả năng ghi nhãn tự động đã được cải thiện rất nhiều, ghi nhãn 10.000 video dưới 60 giây, chỉ cần một mô hình lớn chạy trong một tuần, thay vì ghi nhãn thủ công trong vài tháng.

Lin Qunshu, người sáng lập công ty dữ liệu AI Integer Intelligence, cho biết ngày càng nhiều công ty ô tô và công ty AIGC sử dụng các sản phẩm mô hình quy mô lớn để dán nhãn tự động và doanh thu của họ đang tăng lên đáng kể. Động thái mới nhất của họ là thành lập chi nhánh nghiên cứu và phát triển tại Singapore.

**Tuy nhiên, các nhà cung cấp dịch vụ bên thứ ba không quá lạc quan về sự phát triển của ghi nhãn tự động. **Người quản lý dự án của một nền tảng cung cấp dịch vụ cộng đồng ở Hà Nam cho biết rằng việc ghi nhãn tự động không thể thay thế hơn 60% yêu cầu ghi nhãn và chỉ có thể được sử dụng như một công cụ ghi nhãn phụ trợ để xử lý dữ liệu đơn lẻ hoặc dữ liệu cụ thể và cải thiện hiệu quả của con người.

Người quản lý sản phẩm của một công ty ghi nhãn dữ liệu khác tin rằng việc ghi nhãn tự động chỉ có thể lọc dữ liệu cơ bản đơn giản và không thể xác định chính xác các đối tượng từ các cảnh phức tạp và gây tranh cãi như con người. Đây cũng là lý do tại sao thị trường ghi nhãn dữ liệu vẫn bị thống trị bởi dữ liệu ghi nhãn lái xe tự trị.

Tuy nhiên, mọi người đều đồng ý rằng việc ghi nhãn dữ liệu trong tương lai sẽ chuyển từ nhân lực sang công nghệ.

Nói tóm lại, hoặc bị đồng nghiệp "bóp chết", hoặc bị công nghệ "bóp chết". Nhưng chắc chắn không thể ngồi yên và các công ty bên thứ ba đánh dấu dữ liệu đang tìm lối thoát trong tương lai.

Kế hoạch của Daiyan là theo kịp thị trường, luôn cảnh giác, sa thải nhân viên bất cứ lúc nào, đồng thời phát triển theo hướng công cụ dán nhãn tự động. Người sáng lập nền tảng cung cấp dịch vụ cộng đồng cho biết khi giao tiếp với các đồng nghiệp của mình rằng trong tương lai, chúng ta không nên dồn nhân lực mà phải có khả năng nghiên cứu và phát triển.

Còn cá nhân thì sao? Con đường sự nghiệp được lưu hành trong ngành là người mới bắt đầu ghi nhãn-người ghi nhãn có kinh nghiệm-quản trị viên / quản lý dự án ghi nhãn-nhà phân tích dữ liệu của công ty bên A, và cuối cùng được thăng chức với mức lương hàng chục nghìn đô la hàng tháng.

Không ai trong số những người dán nhãn dữ liệu mà Dai Yan biết sẽ đi theo hướng này. Họ hoặc ở lại hoặc bỏ việc. Trường hợp tốt nhất là xây dựng đội dán nhãn của riêng họ như Dai Yan đã làm, nhưng anh ấy không cảm thấy dễ dàng hơn chút nào.

Một mặt, nhu cầu dự án tăng lên do xu hướng AI mang lại, mặt khác, đấu thầu hỗn loạn hơn, giá trị sản lượng bình quân đầu người thấp hơn và AI đang phát triển nhanh chóng. Hai cảm xúc đan xen vào nhau, AI sẽ mang đến những cơ hội vô hạn, và AI cũng sẽ loại bỏ "chúng ta".

(Theo yêu cầu của người được phỏng vấn, các tên trong bài đều là bút danh)

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)