Zheng Wen vẫn còn nhớ buổi chiều hôm đó cách đây vài tháng, ngày hôm đó cô kiếm được 20 xu một giờ. Cô tốt nghiệp một trường cao đẳng ở Hồ Nam và là một nhà chú thích dữ liệu mô hình lớn, công việc hàng ngày của cô không phức tạp - thêm nhãn vào dữ liệu thô (chẳng hạn như hình ảnh, video, văn bản, v.v.) mà cô nhận được.
Tuy nhiên, các mô hình lớn có yêu cầu rất cao về chất lượng dữ liệu, ngày hôm đó, một bức ảnh đã được chỉnh sửa 8 lần trước khi được phê duyệt, toàn bộ quá trình chỉnh sửa mất một giờ. Nói cách khác, cô chỉ kiếm được 2 xu một giờ, trong khi trong hoàn cảnh bình thường, cô có thể kiếm được 12 nhân dân tệ và kéo được 600 hộp. “Tiền không dễ kiếm”, cô nhiều lần nhấn mạnh.
Đây là sự đồng thuận của hầu hết tất cả những người thực hành chú thích dữ liệu. Một đầu của chú thích dữ liệu ghi mức lương hàng tháng của những người học viên chưa đến 5.000 nhân dân tệ, họ xây dựng nền tảng của mô hình lớn giống như một đội quân kiến. Bên kia là giấc mơ AI của các công ty Internet lớn, thứ mà họ hy vọng sẽ vượt qua Chat GPT 4.
Chú thích dữ liệu sử dụng hệ thống tính lương theo sản phẩm nguyên thủy nhất và không có âm mưu ở nơi làm việc. Rắc rối duy nhất là công việc nhàm chán này khiến hầu hết họ khó có thể kiên trì trong ba tháng. Và hầu hết mọi người đều nói với Planet Tech rằng tốt nhất bạn không nên đi.
Nhưng điều họ không biết là hầu hết họ có thể sớm mất đi công việc nhàm chán. Bởi vì những chú thích dữ liệu đơn giản đó sẽ được thay thế bằng AI.
Từ 5 xu xuống còn 4 xu, giá rớt mạnh
Lin Shuang kiếm được rất nhiều tiền "kiếm tiền nhanh chóng" trong năm 2017: hơn 6.000 nhân dân tệ trong 15 ngày. Đối với Lin Shuang, người đã tốt nghiệp cao đẳng, khoản thu nhập này quả thực rất đáng kể. Vào thời điểm đó, kỳ vọng của mọi người đối với AI đang tăng vọt, hầu như không ai nghi ngờ về tương lai của nó, tất cả các tổ chức đầu tư đều tin tưởng chắc chắn rằng các công ty có quy mô hàng tỷ, hàng chục tỷ, thậm chí hàng trăm tỷ có thể ra đời tại đây.
Đằng sau hầu hết tất cả các công nghệ AI là sự cạnh tranh giữa các thuật toán, sức mạnh tính toán và khả năng tính toán.Dữ liệu khổng lồ là lớp dưới cùng của sự xuất sắc về mặt kỹ thuật. Các lập trình viên có nền tảng sáng sủa ngồi trong văn phòng ở "Bắc Kinh, Thượng Hải và Quảng Châu" và vẽ bản thiết kế AI thông qua các thuật toán lặp mã, trong khi sinh viên đại học, các bà mẹ, v.v. đang xử lý hình ảnh, văn bản và giọng nói trong các gói dữ liệu khổng lồ trong các ngăn ở phòng thứ ba và thứ ba. thành phố cấp 4. chờ đã.
ChatGPT cũng không ngoại lệ. Một nhân viên của nhóm dự án Baidu Wenxinyiyan cho biết, bản thân mô hình lớn không có công nghệ mới, cũng không có rào cản kỹ thuật cao, vấn đề mấu chốt là rào cản tham số được hình thành bởi rào cản sức mạnh tính toán.
Những người chú thích dữ liệu trong thời đại của các mô hình lớn không có nhiều khác biệt so với trước đây, một vài điểm khác biệt có thể là môi trường văn phòng thoải mái hơn và yêu cầu cao hơn về chất lượng chú thích. Một người thực hành chú thích dữ liệu nói với Tech Planet rằng khi mới vào ngành, họ thường thành lập một nhóm khoảng 10 người, trong đó có một người chịu trách nhiệm kiểm tra chất lượng, nếu công việc không đạt tiêu chuẩn, nhân viên sẽ bị đưa trở lại nơi làm việc. làm lại nó. Chất lượng dữ liệu quyết định chất lượng của các mô hình lớn.
Những người lao động di cư dữ liệu không quan tâm đến bất kỳ nhánh công nghệ AI mới nào, họ quan tâm nhiều hơn đến đơn giá vì tiền lương ở đây được tính theo từng phần.
Lin Shuang nhớ lại: “Vào thời điểm đó, khi đơn giá cao, một khung hình 2D sẽ có giá hơn 1 xu. Thời kỳ đỉnh cao, tôi làm việc hơn 10 giờ và kiếm được hơn 600 nhân dân tệ mỗi ngày”. Tuy nhiên, đây chưa phải là mức cao nhất, một người chú thích cho biết giá của những bản vẽ khung 2D đời đầu có thể lên tới 50 xu.
Vẽ khung là một thao tác phổ biến trong chú thích dữ liệu, người chú thích sẽ đánh dấu các đối tượng trong ảnh như xe cộ, đèn đường đỏ, chướng ngại vật, v.v. theo yêu cầu. Các khung được chia thành 2D và 3D, loại sau sẽ đắt hơn.
Nhưng sự phổ biến này không kéo dài được lâu, với sự đổ bộ ngày càng nhiều của người dân và sự phát triển chung của ngành công nghiệp AI không diễn ra suôn sẻ, đơn giá chú thích cho một bức ảnh ngày càng thấp, Lin Shuang nói rằng mức giá thấp nhất bây giờ chỉ còn 4 xu.
"Nếu là máy kéo, đơn giá trung bình trong ngành là khoảng 0,15 nhân dân tệ, nhưng nó vẫn phụ thuộc vào dự án. Nếu bạn có thể nhận được đơn đặt hàng, yêu cầu tối thiểu để nhận đơn đặt hàng trực tiếp phải là 100 nhân viên. tỷ lệ khá lớn và khung 3D có thể có giá 30 xu một mảnh, nhưng hiếm khi có giá cao tới 50 xu.”
Tất nhiên, nếu bạn có kiến thức chuyên môn về lĩnh vực y tế, tài chính thì đơn giá sẽ cao hơn. Ví dụ, nhiều mô hình y tế lớn yêu cầu người chú thích phải có chuyên môn lâm sàng và kinh nghiệm liên quan.
Thu nhập hàng tháng của hầu hết các học viên đều không quá 5.000 nhân dân tệ, trong số đó cũng có một số người may mắn. Yang Shuo ban đầu điều hành một cửa hàng quần áo ở Tứ Xuyên, nhưng dịch bệnh đã ảnh hưởng đến hoạt động kinh doanh của anh ấy, anh ấy đã chuyển sang chú thích dữ liệu mô hình quy mô lớn trong năm nay, hiện tại anh ấy có thu nhập 8.000 nhân dân tệ mỗi tháng. “Tôi đã ký hợp đồng với công ty và đã trả Phí nhượng quyền là 9.500 nhân dân tệ và hợp đồng ghi rằng thu nhập hàng tháng tối thiểu là 7.000 nhân dân tệ ”.
Ai kiếm được tiền
Những gã khổng lồ Internet như Alibaba, Tencent và Byte cũng như các công ty ô tô như SAIC và Lynk & Co là nguồn phân phối kinh doanh chú thích dữ liệu. Nếu bạn muốn nhận được đơn đặt hàng trực tiếp từ nguồn với mức giá tốt nhất, chú thích dữ liệu công ty cần phải có một quy mô nhất định.
Một nhân viên của một công ty chú thích dữ liệu nói với Tech Planet rằng họ nhận đơn đặt hàng trực tiếp từ các nhà sản xuất lớn, nhưng các nhà sản xuất lớn yêu cầu họ phải có 500 người nên họ sẽ lựa chọn đáp ứng yêu cầu nhân sự thông qua nhượng quyền hoặc công ty con.
Sự khác biệt giữa hai bên là nhượng quyền phù hợp với những người mới vào nghề thành lập studio, nếu muốn thành lập công ty con thì nói chung một khu vực chỉ có một. Xiaobai Studio cần thu phí nhượng quyền, là 25.000 hoặc 30.000. Công ty con là đại lý độc quyền tại khu vực cần nộp phí 50.000. Và họ có thể đảm bảo đủ đơn hàng trong vòng ba năm và chịu trách nhiệm đào tạo kỹ thuật trong vòng ba năm.Các xưởng hoặc công ty con này tạo thành một liên đoàn lao động lớn, từ vài trăm đến vài nghìn.
Nhân viên của công ty chú thích dữ liệu nói trên cho biết, sự phổ biến của các mô hình lớn một lần nữa đã đẩy ngành công nghiệp chú thích dữ liệu vào cơn sốt và giờ đây mọi người ghé thăm công ty của họ hầu như mỗi ngày.
Nhưng trên thực tế, việc điều hành một công ty dán nhãn dữ liệu không hề dễ dàng. Điều mà công ty chú thích dữ liệu nói với bạn là ngành này khó làm trong 1 đến 2 tháng đầu vì nhân viên cần có thời gian thăng tiến, giai đoạn đầu chỉ cần 5-8 người là đủ, thậm chí có cả dì trong đó Tuổi 40 sẽ không có vấn đề gì.
Tính ổn định là yếu tố quan trọng nhất đối với một công ty hoặc studio chú thích dữ liệu. Tuy nhiên, hầu hết các nhân viên chú thích mà Tech Planet tiếp xúc thường bỏ việc với tốc độ ánh sáng trong vòng 3 tháng do cảm thấy nhàm chán, nhân viên mới không có ngay để vận hành thực tế. và chu kỳ chú thích dữ liệu không đủ ổn định. . Những bà mẹ thiếu tiền là những người được các studio chú thích dữ liệu ưa chuộng nhất.
"Chắc chắn là không thể tìm được việc làm bán thời gian. Sẽ có những khoảng trống. Nếu bạn đầu tư vào tiền thuê nhà và máy tính, bạn sẽ mất tiền. Cách tốt nhất là để tất cả nhân viên làm việc", Wei Ming, người điều hành một cơ quan dữ liệu studio chú thích, nói với Tech Planet.
Hầu hết dữ liệu chỉ ra rằng chu kỳ trả nợ của công ty bắt đầu từ 3 tháng và có thể lên tới nửa năm, nhưng họ cần trả lương cho nhân viên của mình hàng tháng, điều này đòi hỏi một mức dự trữ vốn nhất định. "3500 mỗi người, 100 người, 3 tháng là 1,05 triệu.”
Zhang Jian từng tham gia một công đoàn với hơn 200 nhân viên. Năm đầu tiên họ bắt kịp thời kỳ bùng nổ của ngành, đơn giá vẽ khung 2D cao tới 5 cent, năm đó công đoàn của anh kiếm được hơn 4 triệu đồng.
Nhưng năm sau, mọi chuyện lại trở nên tồi tệ hơn. Đơn giá được đánh dấu ngày càng thấp, nhân viên di chuyển nhiều hơn, thời gian chênh lệch tăng lên, ngoài ra, hai dự án lớn chưa được giải quyết, sau cả năm, họ lỗ hơn 3 triệu nhân dân tệ. Zhang Jian cho biết: “Các ông chủ đã nói rằng họ sẽ không động đến chú thích dữ liệu trong thời gian ngắn. Họ hiện đang kiện thượng nguồn”.
Đây là một hoạt động kinh doanh có lợi nhuận thấp. Haiti Ruisheng là công ty niêm yết chính đầu tiên trong ngành chú thích dữ liệu, năm ngoái công ty đạt doanh thu 263 triệu nhân dân tệ, lợi nhuận chỉ 29,45 triệu nhân dân tệ và tỷ suất lợi nhuận ròng chỉ hơn 10%. Nhưng nửa đầu năm nay, công ty rơi vào tình trạng thua lỗ do lượng khách hàng sụt giảm.
"Ốc vít" có thể được thay thế bất cứ lúc nào
Dựa vào sự tích tụ của đàn kiến di chuyển ở Kenya, OpenAI cuối cùng đã nổi bật với khả năng mô hình đối thoại ngôn ngữ quy mô lớn. Những người bình thường này, được gọi là nhân viên dữ liệu, ủng hộ giấc mơ AI của Sam Altman (người sáng lập OpenAI), nhưng nếu không có gì khác xảy ra, hầu hết công việc trong tay họ sẽ sớm bị thay thế bởi những sản phẩm mới mà họ tham gia tạo ra. được thay thế.
Ở nước ngoài, Anthropic, được thành lập vào năm 2021 bởi các cựu nhân viên của Open AI, đã huy động được 5,15 tỷ USD trong năm nay, gấp hơn bảy lần tổng số vốn tài trợ trong hai năm qua. Công ty cung cấp một phương pháp mới để đào tạo các mô hình với ít sự tham gia của con người hơn.
Năm nay, công ty khởi nghiệp AI tiếp nhiên liệu đã ra mắt một công cụ nguồn mở có tên Autolabel, có thể sử dụng các mô hình lớn phổ biến trên thị trường để gắn nhãn các tập dữ liệu. Kết quả thử nghiệm của công ty cho thấy, hiệu quả dán nhãn tự động cao gấp 100 lần so với dán nhãn thủ công và chi phí chỉ bằng 1/7 chi phí nhân công.
Tại Trung Quốc, một công ty có tên Vision Future cũng đang xây dựng các mô hình chú thích quy mô lớn. Trong một cuộc phỏng vấn, họ nói rằng một số dự án đã được phân phối bằng GPT và độ chính xác đã đạt hơn 80%, gần giống với công việc thủ công.
Tuy nhiên, Haiti Ruisheng tin rằng AI sẽ không đạt được khả năng chú thích hoàn toàn tự động, bởi vì nếu máy móc muốn tiếp tục phát triển và tiến gần hơn đến khả năng phán đoán và hiểu biết của con người thì chắc chắn nó sẽ cần đến sự hướng dẫn của con người.
Hầu như tất cả những người từng làm data comment đều có cùng quan điểm với Tech Planet: Data comment là một công việc không có ngưỡng cửa và chỉ yêu cầu bạn sử dụng thành thạo máy tính.
Nhưng trên thực tế, nếu chú thích đơn giản có thể được hoàn thành bằng AI, thì việc tham gia thủ công sẽ khó khăn hơn trong việc sàng lọc dữ liệu và công việc tiêu chuẩn, điều đó cũng có nghĩa là ngưỡng của ngành sẽ tiếp tục tăng, đặc biệt là ChatGPT, Wen Xinyiyan Một mô hình ngôn ngữ lớn cho các lớp học.
Để so sánh, rất lâu trước khi ChatGPT trở nên phổ biến, OpenAI đã tổ chức hơn chục nghiên cứu sinh tiến sĩ để “chấm điểm”. Cơ sở chú thích dữ liệu của Baidu ở Hải Khẩu có hàng trăm người chú thích dữ liệu mô hình lớn làm việc toàn thời gian và tỷ lệ người chú thích ở trình độ đại học đạt 100%.
Đặc điểm của loại mô hình ngôn ngữ lớn này là người chú thích cần có vốn kiến thức dự trữ và khả năng phân tích logic nhất định. Theo báo cáo của "Financial Eleven", người chú thích cần xác định loại câu hỏi, sau đó cho điểm và xếp hạng lần lượt 5 câu trả lời, phạm vi điểm là 0-5 điểm, nếu điểm thấp hơn 3 điểm thì phải nêu rõ lý do cụ thể. cần lưu ý, chẳng hạn như "Câu trả lời không phải là câu hỏi được hỏi (0 điểm)", "lạc đề nghiêm trọng (1 điểm)", "có vấn đề logic và sai sót thực tế, tỷ lệ nhỏ và 2 điểm là đã cho”, v.v.
Một lĩnh vực chú thích dữ liệu phổ biến khác là lái xe tự động. Theo báo cáo của Deloitte, nhu cầu ghi nhãn trong lĩnh vực lái xe tự động sẽ chiếm 38% trong tổng số ứng dụng hạ nguồn AI vào năm 2022 và dự kiến tỷ lệ này sẽ tăng lên 52% vào năm 2027. So với các mô hình ngôn ngữ lớn, đối với các mô hình trong lĩnh vực lái xe tự động, những thao tác kéo hộp đơn giản đó vẫn có yêu cầu học thuật tương đối lỏng lẻo.
Người chú thích là nền tảng của nhân loại từ kỷ nguyên Internet di động đến kỷ nguyên trí tuệ nhân tạo. Hầu hết những người hành nghề mà Tech Planet tiếp xúc đều không biết những thay đổi mà AI sẽ mang lại cho họ cũng như những đóng góp mà họ đã đạt được cho sự phát triển của AI. Chúng chỉ là một thế hệ ốc vít mới trong thời đại Internet và chúng có thể được thay thế bất cứ lúc nào.
(Lưu ý: Các nhân vật trong bài đều là bút danh.)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Gấp mô hình lớn AI: Dữ liệu chỉ ra rằng thu nhập hàng tháng của "lao động nhập cư" không quá 5.000 và đơn giá giảm từ 5 xu xuống 4 xu
Nguồn gốc: Tech Planet
Zheng Wen vẫn còn nhớ buổi chiều hôm đó cách đây vài tháng, ngày hôm đó cô kiếm được 20 xu một giờ. Cô tốt nghiệp một trường cao đẳng ở Hồ Nam và là một nhà chú thích dữ liệu mô hình lớn, công việc hàng ngày của cô không phức tạp - thêm nhãn vào dữ liệu thô (chẳng hạn như hình ảnh, video, văn bản, v.v.) mà cô nhận được.
Tuy nhiên, các mô hình lớn có yêu cầu rất cao về chất lượng dữ liệu, ngày hôm đó, một bức ảnh đã được chỉnh sửa 8 lần trước khi được phê duyệt, toàn bộ quá trình chỉnh sửa mất một giờ. Nói cách khác, cô chỉ kiếm được 2 xu một giờ, trong khi trong hoàn cảnh bình thường, cô có thể kiếm được 12 nhân dân tệ và kéo được 600 hộp. “Tiền không dễ kiếm”, cô nhiều lần nhấn mạnh.
Đây là sự đồng thuận của hầu hết tất cả những người thực hành chú thích dữ liệu. Một đầu của chú thích dữ liệu ghi mức lương hàng tháng của những người học viên chưa đến 5.000 nhân dân tệ, họ xây dựng nền tảng của mô hình lớn giống như một đội quân kiến. Bên kia là giấc mơ AI của các công ty Internet lớn, thứ mà họ hy vọng sẽ vượt qua Chat GPT 4.
Chú thích dữ liệu sử dụng hệ thống tính lương theo sản phẩm nguyên thủy nhất và không có âm mưu ở nơi làm việc. Rắc rối duy nhất là công việc nhàm chán này khiến hầu hết họ khó có thể kiên trì trong ba tháng. Và hầu hết mọi người đều nói với Planet Tech rằng tốt nhất bạn không nên đi.
Nhưng điều họ không biết là hầu hết họ có thể sớm mất đi công việc nhàm chán. Bởi vì những chú thích dữ liệu đơn giản đó sẽ được thay thế bằng AI.
Từ 5 xu xuống còn 4 xu, giá rớt mạnh
Lin Shuang kiếm được rất nhiều tiền "kiếm tiền nhanh chóng" trong năm 2017: hơn 6.000 nhân dân tệ trong 15 ngày. Đối với Lin Shuang, người đã tốt nghiệp cao đẳng, khoản thu nhập này quả thực rất đáng kể. Vào thời điểm đó, kỳ vọng của mọi người đối với AI đang tăng vọt, hầu như không ai nghi ngờ về tương lai của nó, tất cả các tổ chức đầu tư đều tin tưởng chắc chắn rằng các công ty có quy mô hàng tỷ, hàng chục tỷ, thậm chí hàng trăm tỷ có thể ra đời tại đây.
Đằng sau hầu hết tất cả các công nghệ AI là sự cạnh tranh giữa các thuật toán, sức mạnh tính toán và khả năng tính toán.Dữ liệu khổng lồ là lớp dưới cùng của sự xuất sắc về mặt kỹ thuật. Các lập trình viên có nền tảng sáng sủa ngồi trong văn phòng ở "Bắc Kinh, Thượng Hải và Quảng Châu" và vẽ bản thiết kế AI thông qua các thuật toán lặp mã, trong khi sinh viên đại học, các bà mẹ, v.v. đang xử lý hình ảnh, văn bản và giọng nói trong các gói dữ liệu khổng lồ trong các ngăn ở phòng thứ ba và thứ ba. thành phố cấp 4. chờ đã.
ChatGPT cũng không ngoại lệ. Một nhân viên của nhóm dự án Baidu Wenxinyiyan cho biết, bản thân mô hình lớn không có công nghệ mới, cũng không có rào cản kỹ thuật cao, vấn đề mấu chốt là rào cản tham số được hình thành bởi rào cản sức mạnh tính toán.
Những người chú thích dữ liệu trong thời đại của các mô hình lớn không có nhiều khác biệt so với trước đây, một vài điểm khác biệt có thể là môi trường văn phòng thoải mái hơn và yêu cầu cao hơn về chất lượng chú thích. Một người thực hành chú thích dữ liệu nói với Tech Planet rằng khi mới vào ngành, họ thường thành lập một nhóm khoảng 10 người, trong đó có một người chịu trách nhiệm kiểm tra chất lượng, nếu công việc không đạt tiêu chuẩn, nhân viên sẽ bị đưa trở lại nơi làm việc. làm lại nó. Chất lượng dữ liệu quyết định chất lượng của các mô hình lớn.
Những người lao động di cư dữ liệu không quan tâm đến bất kỳ nhánh công nghệ AI mới nào, họ quan tâm nhiều hơn đến đơn giá vì tiền lương ở đây được tính theo từng phần.
Lin Shuang nhớ lại: “Vào thời điểm đó, khi đơn giá cao, một khung hình 2D sẽ có giá hơn 1 xu. Thời kỳ đỉnh cao, tôi làm việc hơn 10 giờ và kiếm được hơn 600 nhân dân tệ mỗi ngày”. Tuy nhiên, đây chưa phải là mức cao nhất, một người chú thích cho biết giá của những bản vẽ khung 2D đời đầu có thể lên tới 50 xu.
Vẽ khung là một thao tác phổ biến trong chú thích dữ liệu, người chú thích sẽ đánh dấu các đối tượng trong ảnh như xe cộ, đèn đường đỏ, chướng ngại vật, v.v. theo yêu cầu. Các khung được chia thành 2D và 3D, loại sau sẽ đắt hơn.
Nhưng sự phổ biến này không kéo dài được lâu, với sự đổ bộ ngày càng nhiều của người dân và sự phát triển chung của ngành công nghiệp AI không diễn ra suôn sẻ, đơn giá chú thích cho một bức ảnh ngày càng thấp, Lin Shuang nói rằng mức giá thấp nhất bây giờ chỉ còn 4 xu.
"Nếu là máy kéo, đơn giá trung bình trong ngành là khoảng 0,15 nhân dân tệ, nhưng nó vẫn phụ thuộc vào dự án. Nếu bạn có thể nhận được đơn đặt hàng, yêu cầu tối thiểu để nhận đơn đặt hàng trực tiếp phải là 100 nhân viên. tỷ lệ khá lớn và khung 3D có thể có giá 30 xu một mảnh, nhưng hiếm khi có giá cao tới 50 xu.”
Tất nhiên, nếu bạn có kiến thức chuyên môn về lĩnh vực y tế, tài chính thì đơn giá sẽ cao hơn. Ví dụ, nhiều mô hình y tế lớn yêu cầu người chú thích phải có chuyên môn lâm sàng và kinh nghiệm liên quan.
Thu nhập hàng tháng của hầu hết các học viên đều không quá 5.000 nhân dân tệ, trong số đó cũng có một số người may mắn. Yang Shuo ban đầu điều hành một cửa hàng quần áo ở Tứ Xuyên, nhưng dịch bệnh đã ảnh hưởng đến hoạt động kinh doanh của anh ấy, anh ấy đã chuyển sang chú thích dữ liệu mô hình quy mô lớn trong năm nay, hiện tại anh ấy có thu nhập 8.000 nhân dân tệ mỗi tháng. “Tôi đã ký hợp đồng với công ty và đã trả Phí nhượng quyền là 9.500 nhân dân tệ và hợp đồng ghi rằng thu nhập hàng tháng tối thiểu là 7.000 nhân dân tệ ”.
Ai kiếm được tiền
Những gã khổng lồ Internet như Alibaba, Tencent và Byte cũng như các công ty ô tô như SAIC và Lynk & Co là nguồn phân phối kinh doanh chú thích dữ liệu. Nếu bạn muốn nhận được đơn đặt hàng trực tiếp từ nguồn với mức giá tốt nhất, chú thích dữ liệu công ty cần phải có một quy mô nhất định.
Một nhân viên của một công ty chú thích dữ liệu nói với Tech Planet rằng họ nhận đơn đặt hàng trực tiếp từ các nhà sản xuất lớn, nhưng các nhà sản xuất lớn yêu cầu họ phải có 500 người nên họ sẽ lựa chọn đáp ứng yêu cầu nhân sự thông qua nhượng quyền hoặc công ty con.
Sự khác biệt giữa hai bên là nhượng quyền phù hợp với những người mới vào nghề thành lập studio, nếu muốn thành lập công ty con thì nói chung một khu vực chỉ có một. Xiaobai Studio cần thu phí nhượng quyền, là 25.000 hoặc 30.000. Công ty con là đại lý độc quyền tại khu vực cần nộp phí 50.000. Và họ có thể đảm bảo đủ đơn hàng trong vòng ba năm và chịu trách nhiệm đào tạo kỹ thuật trong vòng ba năm.Các xưởng hoặc công ty con này tạo thành một liên đoàn lao động lớn, từ vài trăm đến vài nghìn.
Nhân viên của công ty chú thích dữ liệu nói trên cho biết, sự phổ biến của các mô hình lớn một lần nữa đã đẩy ngành công nghiệp chú thích dữ liệu vào cơn sốt và giờ đây mọi người ghé thăm công ty của họ hầu như mỗi ngày.
Nhưng trên thực tế, việc điều hành một công ty dán nhãn dữ liệu không hề dễ dàng. Điều mà công ty chú thích dữ liệu nói với bạn là ngành này khó làm trong 1 đến 2 tháng đầu vì nhân viên cần có thời gian thăng tiến, giai đoạn đầu chỉ cần 5-8 người là đủ, thậm chí có cả dì trong đó Tuổi 40 sẽ không có vấn đề gì.
Tính ổn định là yếu tố quan trọng nhất đối với một công ty hoặc studio chú thích dữ liệu. Tuy nhiên, hầu hết các nhân viên chú thích mà Tech Planet tiếp xúc thường bỏ việc với tốc độ ánh sáng trong vòng 3 tháng do cảm thấy nhàm chán, nhân viên mới không có ngay để vận hành thực tế. và chu kỳ chú thích dữ liệu không đủ ổn định. . Những bà mẹ thiếu tiền là những người được các studio chú thích dữ liệu ưa chuộng nhất.
"Chắc chắn là không thể tìm được việc làm bán thời gian. Sẽ có những khoảng trống. Nếu bạn đầu tư vào tiền thuê nhà và máy tính, bạn sẽ mất tiền. Cách tốt nhất là để tất cả nhân viên làm việc", Wei Ming, người điều hành một cơ quan dữ liệu studio chú thích, nói với Tech Planet.
Hầu hết dữ liệu chỉ ra rằng chu kỳ trả nợ của công ty bắt đầu từ 3 tháng và có thể lên tới nửa năm, nhưng họ cần trả lương cho nhân viên của mình hàng tháng, điều này đòi hỏi một mức dự trữ vốn nhất định. "3500 mỗi người, 100 người, 3 tháng là 1,05 triệu.”
Zhang Jian từng tham gia một công đoàn với hơn 200 nhân viên. Năm đầu tiên họ bắt kịp thời kỳ bùng nổ của ngành, đơn giá vẽ khung 2D cao tới 5 cent, năm đó công đoàn của anh kiếm được hơn 4 triệu đồng.
Nhưng năm sau, mọi chuyện lại trở nên tồi tệ hơn. Đơn giá được đánh dấu ngày càng thấp, nhân viên di chuyển nhiều hơn, thời gian chênh lệch tăng lên, ngoài ra, hai dự án lớn chưa được giải quyết, sau cả năm, họ lỗ hơn 3 triệu nhân dân tệ. Zhang Jian cho biết: “Các ông chủ đã nói rằng họ sẽ không động đến chú thích dữ liệu trong thời gian ngắn. Họ hiện đang kiện thượng nguồn”.
Đây là một hoạt động kinh doanh có lợi nhuận thấp. Haiti Ruisheng là công ty niêm yết chính đầu tiên trong ngành chú thích dữ liệu, năm ngoái công ty đạt doanh thu 263 triệu nhân dân tệ, lợi nhuận chỉ 29,45 triệu nhân dân tệ và tỷ suất lợi nhuận ròng chỉ hơn 10%. Nhưng nửa đầu năm nay, công ty rơi vào tình trạng thua lỗ do lượng khách hàng sụt giảm.
"Ốc vít" có thể được thay thế bất cứ lúc nào
Dựa vào sự tích tụ của đàn kiến di chuyển ở Kenya, OpenAI cuối cùng đã nổi bật với khả năng mô hình đối thoại ngôn ngữ quy mô lớn. Những người bình thường này, được gọi là nhân viên dữ liệu, ủng hộ giấc mơ AI của Sam Altman (người sáng lập OpenAI), nhưng nếu không có gì khác xảy ra, hầu hết công việc trong tay họ sẽ sớm bị thay thế bởi những sản phẩm mới mà họ tham gia tạo ra. được thay thế.
Ở nước ngoài, Anthropic, được thành lập vào năm 2021 bởi các cựu nhân viên của Open AI, đã huy động được 5,15 tỷ USD trong năm nay, gấp hơn bảy lần tổng số vốn tài trợ trong hai năm qua. Công ty cung cấp một phương pháp mới để đào tạo các mô hình với ít sự tham gia của con người hơn.
Năm nay, công ty khởi nghiệp AI tiếp nhiên liệu đã ra mắt một công cụ nguồn mở có tên Autolabel, có thể sử dụng các mô hình lớn phổ biến trên thị trường để gắn nhãn các tập dữ liệu. Kết quả thử nghiệm của công ty cho thấy, hiệu quả dán nhãn tự động cao gấp 100 lần so với dán nhãn thủ công và chi phí chỉ bằng 1/7 chi phí nhân công.
Tại Trung Quốc, một công ty có tên Vision Future cũng đang xây dựng các mô hình chú thích quy mô lớn. Trong một cuộc phỏng vấn, họ nói rằng một số dự án đã được phân phối bằng GPT và độ chính xác đã đạt hơn 80%, gần giống với công việc thủ công.
Tuy nhiên, Haiti Ruisheng tin rằng AI sẽ không đạt được khả năng chú thích hoàn toàn tự động, bởi vì nếu máy móc muốn tiếp tục phát triển và tiến gần hơn đến khả năng phán đoán và hiểu biết của con người thì chắc chắn nó sẽ cần đến sự hướng dẫn của con người.
Hầu như tất cả những người từng làm data comment đều có cùng quan điểm với Tech Planet: Data comment là một công việc không có ngưỡng cửa và chỉ yêu cầu bạn sử dụng thành thạo máy tính.
Nhưng trên thực tế, nếu chú thích đơn giản có thể được hoàn thành bằng AI, thì việc tham gia thủ công sẽ khó khăn hơn trong việc sàng lọc dữ liệu và công việc tiêu chuẩn, điều đó cũng có nghĩa là ngưỡng của ngành sẽ tiếp tục tăng, đặc biệt là ChatGPT, Wen Xinyiyan Một mô hình ngôn ngữ lớn cho các lớp học.
Để so sánh, rất lâu trước khi ChatGPT trở nên phổ biến, OpenAI đã tổ chức hơn chục nghiên cứu sinh tiến sĩ để “chấm điểm”. Cơ sở chú thích dữ liệu của Baidu ở Hải Khẩu có hàng trăm người chú thích dữ liệu mô hình lớn làm việc toàn thời gian và tỷ lệ người chú thích ở trình độ đại học đạt 100%.
Đặc điểm của loại mô hình ngôn ngữ lớn này là người chú thích cần có vốn kiến thức dự trữ và khả năng phân tích logic nhất định. Theo báo cáo của "Financial Eleven", người chú thích cần xác định loại câu hỏi, sau đó cho điểm và xếp hạng lần lượt 5 câu trả lời, phạm vi điểm là 0-5 điểm, nếu điểm thấp hơn 3 điểm thì phải nêu rõ lý do cụ thể. cần lưu ý, chẳng hạn như "Câu trả lời không phải là câu hỏi được hỏi (0 điểm)", "lạc đề nghiêm trọng (1 điểm)", "có vấn đề logic và sai sót thực tế, tỷ lệ nhỏ và 2 điểm là đã cho”, v.v.
Một lĩnh vực chú thích dữ liệu phổ biến khác là lái xe tự động. Theo báo cáo của Deloitte, nhu cầu ghi nhãn trong lĩnh vực lái xe tự động sẽ chiếm 38% trong tổng số ứng dụng hạ nguồn AI vào năm 2022 và dự kiến tỷ lệ này sẽ tăng lên 52% vào năm 2027. So với các mô hình ngôn ngữ lớn, đối với các mô hình trong lĩnh vực lái xe tự động, những thao tác kéo hộp đơn giản đó vẫn có yêu cầu học thuật tương đối lỏng lẻo.
Người chú thích là nền tảng của nhân loại từ kỷ nguyên Internet di động đến kỷ nguyên trí tuệ nhân tạo. Hầu hết những người hành nghề mà Tech Planet tiếp xúc đều không biết những thay đổi mà AI sẽ mang lại cho họ cũng như những đóng góp mà họ đã đạt được cho sự phát triển của AI. Chúng chỉ là một thế hệ ốc vít mới trong thời đại Internet và chúng có thể được thay thế bất cứ lúc nào.
(Lưu ý: Các nhân vật trong bài đều là bút danh.)