Trình chú thích dữ liệu bị mắc kẹt trong các mô hình lớn

Văn bản gốc: 36氪

Nguồn hình ảnh: Được tạo bởi AI không giới hạn

Xiaoyan, người làm công việc chú thích dữ liệu trong một công ty Internet lớn, thường cảm thấy bị cô lập trong công ty.

Trạm làm việc của Xiaoyan nằm cạnh trạm làm việc của các nhà quản lý sản phẩm và lập trình viên, họ có thể được hưởng những lợi ích giống nhau: cùng huy hiệu làm việc, máy tính Apple, họ có thể đến phòng tập thể dục hoặc lên khoang vũ trụ để ngủ bất cứ lúc nào.

Nhưng Xiaoyan có thể nhận ra rằng với tư cách là người chú thích dữ liệu, cô và các đồng nghiệp khác thuộc về “hai thế giới”.

Mặc dù chúng ta là một đội, nhưng trong cuộc họp buổi sáng hàng ngày sẽ không có người gọi điện cho người chú thích, cho nên Tiêu Ngôn chỉ có thể lén lút quan sát ngoài cửa. Có lần, có người mang đến một chiếc xe đẩy đèn bàn, nguyên mẫu của sản phẩm AI mà nhóm đang nghiên cứu, các lập trình viên tụ tập xung quanh nó, rất phấn khích và cầm nó trên tay để chơi. Những người chú thích ngồi tại bàn làm việc của họ và thực hiện công việc riêng của họ mà không gặp bất kỳ sự cố nào. “Họ không biết rằng sản phẩm được tạo ra dựa trên dữ liệu được dán nhãn.”

Khi Xiaoyan gia nhập công ty, công ty của Xiaoyan đang phát triển một sản phẩm AI giáo dục, sản phẩm này yêu cầu dán nhãn một lượng lớn dữ liệu để đào tạo AI. Công ty đã mua một núi sách câu hỏi ôn tập cho các trường tiểu học và trung học, công việc của Xiaoyan là chụp ảnh từng câu hỏi, sau đó vẽ các ô và đánh dấu các câu hỏi này trên máy tính.

Cũng làm việc cho AI, các lập trình viên nhận thức rõ ràng giá trị công việc của mình và tận hưởng niềm vui do sự tiến bộ không ngừng của các thuật toán mang lại, nhưng ít người chú thích cảm thấy rằng chính sức lao động của họ đã tạo ra AI.

Sự tiến bộ của trí tuệ nhân tạo không thể tách rời việc chú thích dữ liệu. Sự phát triển của xe tự lái trong những năm gần đây đã thúc đẩy thị trường chú thích dữ liệu. Theo báo cáo của Deloitte, nhu cầu ghi nhãn trong lĩnh vực lái xe tự động sẽ chiếm 38% trong tổng số ứng dụng hạ nguồn AI vào năm 2022 và dự kiến tỷ lệ này sẽ tăng lên 52% vào năm 2027.

Sự gia tăng của các mô hình lớn trong năm nay đã tiếp thêm nhiên liệu cho ngành chú thích dữ liệu. Một số lượng lớn đơn đặt hàng dựa trên các kịch bản đào tạo mô hình lớn đang đổ về phía các công ty chú thích dữ liệu. Có vẻ như ngành kinh doanh chú thích dữ liệu nhàm chán một lần nữa đã được tiếp thêm sức sống .

Một số công ty công nghệ còn tiến xa hơn và đang cố gắng sử dụng AI để tự động tổng hợp dữ liệu phục vụ đào tạo AI. Dữ liệu tổng hợp dựa trên một lượng nhỏ dữ liệu thực, được AI tạo ra vô hạn và không yêu cầu ghi nhãn, thay vì dựa vào việc ghi nhãn thủ công. Trong lĩnh vực lái xe tự động, dữ liệu tổng hợp có thể bao gồm một số điều kiện đường xá khắc nghiệt, chẳng hạn như người đi bộ đột ngột lao xuống đường.

Trong trí tưởng tượng của họ, dữ liệu tổng hợp sẽ thay thế chú thích thủ công trong tương lai. Việc dán nhãn cho những công ty không có công nghệ, chỉ dựa vào nhân lực sẽ dần bị loại bỏ. Một dữ liệu cho thấy 70% dữ liệu cơ bản được sử dụng cho trí tuệ nhân tạo ở nước ngoài là dữ liệu tổng hợp và đường dẫn này đang được xác minh.

Những điều trên không phải là tin tốt đối với số lượng lớn người chú thích dữ liệu. Tuy nhiên, một số người chú thích được 36Kr liên hệ vẫn không biết ChatGPT là gì và họ phản ứng như thể họ mới nghe đến thuật ngữ này lần đầu tiên.

Xiaoyan cho biết, kẻ gắn thẻ là một cái đuôi có thể bị cắt đứt bất cứ lúc nào. Hồi hộp duy nhất là khi con dao sẽ rơi hoàn toàn.

Người chú thích đào tạo máy móc có cảm giác giống máy móc hơn

Xiaohe học chuyên ngành tiếng Anh và thực tập tại một nhà máy lớn trong năm cuối cấp. Ngày đầu tiên đi làm, văn phòng của cô nằm trong một tòa nhà văn phòng, rộng rãi và sạch sẽ, hoàn toàn phù hợp với trí tưởng tượng của cô về một công ty Internet. Không mất nhiều thời gian để cô nhận ra rằng nội dung công việc mà cô được biết trong buổi phỏng vấn – “sắp xếp và phân loại dữ liệu giọng nói của công ty” – thực chất là chú thích dữ liệu.

Sau đó, Xiaohe thừa nhận nếu biết đây mới là thời điểm bắt đầu làm việc cho AI, cô đã rời đi ngay lập tức.

Nhóm có 6 thực tập sinh đều là sinh viên khoa ngoại ngữ của một trường đại học danh tiếng. Một trưởng nhóm nữ phân công nhiệm vụ hàng ngày. Đôi khi là một loạt các ký hiệu ngữ âm tiếng Anh và nhiệm vụ của Xiaohe là phân biệt cách phát âm của người Anh với cách phát âm của người Mỹ, đôi khi là Excel, hãy nhấp vào và bạn sẽ thấy dữ liệu ở khắp mọi nơi. Nếu bạn kéo xuống, có hơn 10.000 mục .

"Cảm giác giống như đang leo núi vậy." Tiêu Hà nói.

“Dự án” tôi thực hiện nhiều nhất là chú giải bằng miệng cho học sinh cấp 2. Người chú thích thường nói về công việc như các dự án, hết dự án này đến dự án khác. Xiaohe nghe 200 bản ghi âm với giọng mạnh mỗi ngày, mỗi bản kéo dài hai phút. Nếu bạn nghe một câu hỏi chung chung, điểm 1; nếu bạn nghe một câu hỏi đặc biệt, điểm 2; nếu bạn không nghe thấy, điểm 0. Để tránh bị rò rỉ, anh chỉ có thể sử dụng tai nghe có dây trong văn phòng, tai Xiaohe bị đau và anh cảm thấy “không tự chủ được cáu kỉnh”.

Cô thường nghe thấy những lời chửi bới được sử dụng trong các đoạn ghi âm. Một số trẻ không nói được vài từ trước khi bắt đầu chửi bới. Một lần khác, trong một dự án điều hướng bản đồ, có người không khỏi chửi rủa trong đoạn ghi âm. "Tôi không biết tại sao có người lại tức giận như vậy."

Tiêu Hà nói không thể quá coi trọng, chỉ có thể đánh dấu đoạn ghi âm này là "vô nghĩa", sau đó lật trang tiếp theo nghe tiếp.

**"Giống như một cái máy", hầu hết mọi người chú thích đều tự mô tả mình theo cách này. **Chú thích là điều hiển nhiên. Một người chú thích ở Sơn Đông cho biết dự án khó khăn nhất mà anh từng thực hiện là chú thích dấu vân tay. Cô ấy nhận được một loạt dấu vân tay từ một người mà cô ấy không biết (một số dấu vân tay vẫn còn mờ), và cô ấy cần phải kéo khung hình dọc theo các cạnh của dấu vân tay từng chút một. “Sau khi về nhà vào ngày hôm đó, tôi có thể nhìn thấy dấu vân tay trên mắt khi nhắm mắt lại.”

Nhiều dự án yêu cầu người chú thích phải duy trì tính bảo mật nghiêm ngặt, nhưng người chú thích không quan tâm dự án đó dùng để làm gì. Trong quá trình làm việc, người gắn thẻ phải giao điện thoại di động của mình và cho vào túi treo trên tường. Họ sẽ chỉ được phép lấy lại điện thoại nếu nhận được cuộc gọi.

Hầu hết những người chú thích đều trải qua quá trình từ chưa quen đến thành thạo, từ mới lạ đến nhàm chán. Giai đoạn đầu của dự án là thú vị nhất, khi đó quy định ghi nhãn vẫn chưa hoàn thiện, họ thường gặp phải những lĩnh vực gây tranh cãi và sẽ thảo luận, thậm chí tranh cãi với nhau, không khí rất sôi nổi. Ở giai đoạn giữa và cuối, các quy tắc gần như đã được hoàn thiện, chỉ còn lại lao động lặp đi lặp lại và máy móc, con người sẽ rơi vào cảm giác vô nghĩa.

**Một người chú thích cho biết đó là một "công việc thiếu suy nghĩ". **

Tại Phúc Châu, Giang Tây, học sinh trường dạy nghề địa phương đang thực hiện chú thích dữ liệu; Nguồn: ảnh IC

Jia Wenjuan, giáo sư tại Đại học Thượng Hải, đã thực hiện nghiên cứu thực địa về chú thích dữ liệu. Cô tin rằng chú thích dữ liệu không phải là lao động trí óc hay thể chất mà là lao động nhận thức. "Những gì mọi người bán là nhận thức của chính họ." Điều hài hước đen tối là chúng ta muốn máy móc trở nên giống con người hơn, nhưng đồng thời chúng ta cũng làm cho con người giống máy móc hơn. Nói cách khác, hãy gạt lẽ thường sang một bên và suy nghĩ như một con robot. **

Và một khi người chú thích bắt đầu nghĩ "Tại sao tôi phải làm điều này", điều đó có nghĩa là anh ta sắp từ chức.

Zheng Wei là ông chủ của một công ty chú thích dữ liệu, ông thẳng thắn nói rằng ông không thể giữ chân được người. Lúc tốt nhất, công ty có ít hơn 20 người. Nhân viên mới thường chỉ làm việc được nửa tháng, nhiều người đến làm ngày đầu tiên và về ngay ngày hôm sau. Anh không còn cách nào khác đành phải tiếp tục hạ thấp yêu cầu tuyển dụng, cuối cùng anh cảm thấy "Không phải mình chọn người mà là người khác đang chọn mình".

Anh ta không biết làm thế nào để giữ chân những người đã rời đi, "Mọi chuyện sẽ ngày càng tốt hơn nếu bạn ở lại đây. Bản thân tôi thực sự cũng không tin vào điều này" Ủy viên Zheng nói với 36 Krypton. Sự tiêu hao nhân viên cuối cùng đã khiến công ty choáng ngợp và khi chỉ còn lại hai người chú thích, anh quyết định giải tán nhóm. Không lâu sau, ChatGPT đã tạo ra một làn sóng AI mới.

Sự gia tăng của các mô hình lớn là điều tốt cho việc chú thích dữ liệu, nhưng nó cũng tăng cường sự phát triển của nhóm chú thích **. **

Về việc nhận việc, Xiaodai cho biết, 80-90% dự án chấm điểm trên thị trường hiện nay có đơn giá rất thấp, “vì có quá nhiều nhà thầu phụ ở giữa” và “tất cả đều muốn kiếm lời trên giá thành”. sự khác biệt và không thực sự muốn thực hiện công việc." . Anh ấy đã làm việc với tư cách là người chú thích trên nền tảng cung cấp dịch vụ cộng đồng trong hai năm và bắt đầu công việc kinh doanh của riêng mình trong năm nay để thành lập nhóm chú thích của riêng mình.

Chú thích dữ liệu không mang lại nhiều lợi nhuận. Lấy bản vẽ khung 2D của xe tự hành làm ví dụ, giá gửi đơn đặt hàng của một công ty lớn là 10 xu và đội dán nhãn đảm nhận công việc có giá 8 xu cho mỗi người. "Hiện tại giảm xuống còn 5, 6 điểm." Tiểu Đại nói. Anh ta tính toán một tài khoản, nếu dưới 8 điểm thì chỉ có thể thua lỗ.

Để tồn tại, Xiao Dai dành phần lớn thời gian của mình để tìm kiếm các dự án và lang thang trên nhiều nền tảng và quán bar khác nhau. Các dự án là thật và giả, hầu hết đều không đáng tin cậy, đại lý thua lỗ, có dự án 8 tháng chờ đợi mà tiền vẫn chưa về.

Sau đó, lần đầu tiên anh ấy làm công việc chú thích bán thời gian, và chỉ sau khi đấu thầu và giải quyết thử nghiệm không có vấn đề gì, anh ấy mới để nhóm đảm nhận công việc. Có lần tôi nghe nói sàn sẽ tung ra một loạt dự án vào lúc 3 giờ đêm nên anh ấy đặt báo thức trước để lấy đơn hàng.

**Mất nhân sự, đơn giá thấp và thu tiền thanh toán không ổn định giống như những khối u, kéo hầu hết các công ty nhỏ trong ngành này xuống. **

Không có người chú thích nào mà không coi thường công việc này, họ không thể kiếm tiền, không nhìn thấy không gian thăng tiến và cơ hội phát triển, họ rơi vào tình trạng chán nản và mất mát kéo dài.

Trong khi viết bài viết này, hầu hết những người chú thích được 36Kr liên hệ đều đã từ chức. Một cô gái cho biết cô đã làm việc được hai tháng và lương chưa đến 3.000 nhân dân tệ.

Chú thích nội bộ: Tỷ lệ có bằng cử nhân 100%

Trước đây, ngưỡng chú thích dữ liệu rất thấp. Ở Sơn Đông, Sơn Tây, Hà Nam, Quý Châu và những nơi khác, nhiều công ty chú thích dữ liệu đã tuyển dụng một lượng lớn lao động giá rẻ. Phổ biến nhất là các bà mẹ, người khuyết tật, học sinh dạy nghề, chỉ cần nắm vững các thao tác cơ bản trên máy tính là có thể gia nhập ngành này.

Trong thời đại của các mô hình lớn, việc xáo trộn và loại bỏ chú thích dữ liệu đang diễn ra một cách âm thầm giữa các ứng cử viên.

Các nhà nghiên cứu nhận thấy rằng chất lượng dữ liệu huấn luyện có tác động rất lớn đến hiệu suất của mô hình. So với lượng dữ liệu, với chất lượng dữ liệu càng cao thì hiệu quả cải tiến của mô hình càng rõ ràng. Để kiểm soát chất lượng dữ liệu, một số công ty AI đã thành lập nhóm dán nhãn của riêng mình, bước đầu tiên là nâng ngưỡng gia nhập ngành.

Điều rõ ràng nhất là trình độ học vấn của những người chú thích đang bắt đầu tăng lên.

Vào tháng 4 năm nay, một nhà sản xuất mô hình quy mô lớn hàng đầu đã thành lập cơ sở chú thích dữ liệu và lứa người chú thích đầu tiên được tuyển dụng ** có tỷ lệ tốt nghiệp cử nhân là 100%. **Người phụ trách công ty giải thích rằng dữ liệu mô hình lớn bao gồm nhiều kiến thức và tiêu chí đánh giá phức tạp, điều này kiểm tra rất nhiều khả năng hiểu ngôn ngữ và khả năng suy luận logic của người chú thích.

Tiểu Vương vừa mới tốt nghiệp đại học, khi về quê tìm việc, vô tình nhìn thấy cơ sở ghi nhãn dữ liệu này đang tuyển dụng. Thế là anh ấy đã tham gia cuộc phỏng vấn và đã vượt qua thành công. Căn cứ đã gửi cho anh một tài liệu huấn luyện 300.000 từ, chỉ khi vượt qua kỳ thi huấn luyện anh mới có thể chính thức đảm nhận chức vụ.

Người chú thích làm việc với các câu hỏi mỗi ngày. Những người mới đến được hỏi 40 câu hỏi mỗi ngày, trong khi những người có kinh nghiệm được hỏi 70-80 câu hỏi. Hệ thống phụ trợ phân phối câu hỏi đến mọi người, hầu hết là bản ghi cuộc trò chuyện giữa người dùng thực và mô hình lớn. Câu hỏi của người dùng đến từ khắp nơi trên thế giới và thậm chí còn kỳ lạ hơn: Chiếc điện thoại nào trong ba chiếc điện thoại di động này tốt hơn? Trứng nào tốt hơn, hay gashapon? Tiêu chí của người thành công là gì? Tại sao Lin Daiyu lại chiến đấu với Bone Demon?

Một mô hình lớn sẽ có nhiều câu trả lời, công việc của Xiao Wang là đọc từng câu trả lời, chọn ra lỗi và cho điểm từng câu một theo chất lượng, 5 điểm là điểm tuyệt đối, 1 điểm là thấp nhất và câu trả lời dưới 3 điểm cần phải chia thành các loại lỗi. Nếu trả lời không đúng yêu cầu sẽ cho điểm thấp nhất, nếu gặp câu hỏi nhạy cảm sẽ không cho điểm và coi là “khác”.

Sắp xếp, cho điểm và đánh giá, các bước chú thích hơi phức tạp này chính xác là những gì được gọi là RLHF (Học tăng cường từ phản hồi của con người, nghĩa là học tăng cường từ phản hồi của con người). Mục đích là liên tục điều chỉnh các mô hình lớn phù hợp với các giá trị và cách thức của con người của suy nghĩ. Tiện dụng hơn. OpenAI đã sử dụng RLHF trong quá trình đào tạo ChatGPT và đạt được kết quả đáng ghi nhận.

So với việc ghi nhãn dữ liệu trong quá khứ, quy tắc ghi nhãn cho các mô hình lớn mang tính chủ quan hơn. Khi một kỹ sư thuật toán phỏng vấn người chú thích, anh ta sẽ hỏi người đối diện câu hỏi này: "Nếu bạn là lãnh đạo doanh nghiệp và phải đối mặt với bốn loại nhân viên: Tôn Ngộ Không, Trư Bát Giới, Đường Tăng và Sa Tăng, bạn thích ai hơn? Thuê?"

Không có câu trả lời tiêu chuẩn, ông nói. **Loại câu hỏi này nhằm kiểm tra xem người chú thích có khả năng tư duy logic hay không. **

Nhu cầu về nhân tài của ngành đã trở nên cấp thiết. Một công ty khởi nghiệp có tên Kaiwang Data đang hợp tác với các trường đại học để đào tạo một số lượng lớn sinh viên đại học chú thích. Giám đốc điều hành Yu Xu cho biết công ty đã xây dựng "Học viện dữ liệu Kaywang" vào năm ngoái và đã đào tạo hơn 1.500 sinh viên tại 50 trường học để tham gia chú thích dữ liệu.

Khi Xiao Wang chấm điểm các câu trả lời của mô hình lớn, anh ấy thường cần thực hiện một số kiểm tra thực tế và khối lượng công việc hoàn toàn phụ thuộc vào may mắn. Có lần tôi gặp một câu hỏi: BMW 3 Series hay Mercedes-Benz C Series cái nào tốt hơn? Mô hình lớn lần lượt liệt kê 40 thông số của hai xe và mỗi thông số cần được Xiao Wang kiểm tra. Câu hỏi đó khiến anh mất nửa giờ.

Làm chú thích một hồi, Tiểu Vương phát hiện điểm của mình hiếm khi vượt quá 3 điểm, "Phản hồi của AI không đủ khiến tôi cảm thấy rất hài lòng hoặc xuất sắc." Anh nhớ rằng có một câu hỏi là "Nếu tai nghe Bluetooth bị hỏng, tôi nên đến nha sĩ hay nhà sản xuất tai nghe?" Đó rõ ràng là một câu hỏi câu cá, nhưng câu trả lời của AI khiến mắt anh sáng lên. nha sĩ để sửa chữa, không phải đến bệnh viện."

Tiểu Vương hài lòng với công việc này. Lương cơ bản hàng tháng của anh ấy là 1.800 nhân dân tệ, tiền thưởng đi học hoàn hảo là 200 nhân dân tệ và trợ cấp nhà ở 200 nhân dân tệ, tính đến hiệu quả công việc, anh ấy có thể nhận được 4.000 nhân dân tệ một tháng. Ông cho biết thu nhập được coi là trên mức trung bình ở khu vực địa phương. Anh cũng vén tóc lên, hai người ngồi ở bàn làm việc liền kề.

Có khoảng 20 sinh viên đại học đang đào tạo cùng lúc với Xiao Wang, trong vòng hai ngày, họ gần như đã đi hết, chỉ còn lại hai hoặc ba người.

Nhưng chúng ta không cần phải lo lắng về công ty, ở đây sẽ không bao giờ thiếu sinh viên đại học. Một CTO đã tiết lộ sự thật cho 36Kr: Hãy đi xem tình hình việc làm hiện tại của sinh viên đại học.

Thứ tôi muốn loại bỏ nhất là chú thích của con người chứ không phải AI

Phải thừa nhận rằng có rất nhiều báo cáo về việc chú thích dữ liệu, mọi người đều đồng thuận rằng công việc này là “dây chuyền lắp ráp của Internet”, lâu dài khó thực hiện và chú thích thủ công đó cuối cùng sẽ được thay thế bởi AI.

Trong tháng vừa qua, chúng tôi đã dành nhiều thời gian để trao đổi với các kỹ sư thuật toán và các công ty AI. Mặc dù sự đồng thuận trên vẫn chưa được làm mới nhưng có thể mơ hồ cảm nhận được rằng thứ muốn loại bỏ sức lao động của con người nhất có thể không phải là AI. Trước khi AI thực sự có thể hành động, những người đã làm chủ được công nghệ tiên tiến nhất đã giơ lưỡi hái của mình lên.

Trong thế giới công nghệ, tầm quan trọng của dữ liệu không thể bị phóng đại. Kỹ sư thuật toán Xiao Duan cho rằng nếu một doanh nghiệp AI không có dữ liệu được dán nhãn thì dù thuật toán họ viết có tốt đến đâu thì nó cũng sẽ bị vỡ vụn. Dữ liệu được dán nhãn càng nhiều thì càng tốt. Thu thập tất cả len của người gắn thẻ là một công việc kinh doanh có lợi nhuận chắc chắn.

Đôi khi, thuật toán có thể hoàn thành dữ liệu mà người chú thích mất bốn hoặc năm ngày để hoàn thành trong một giờ. Tiêu Duẩn làm việc cho một công ty Internet lớn, bộ phận có đủ ngân sách và có vài người chú thích toàn thời gian. Ông nói: "Chúng tôi cố gắng không để người chú thích nhàn rỗi. Lãnh đạo sẽ đọc báo cáo hàng tuần. Nếu họ cảm thấy không có nhiều nhiệm vụ thì chúng tôi giao thêm nhiệm vụ cho họ".

Một người chú thích nói với 36Kr rằng mặc dù các lập trình viên làm việc với anh ta nói rằng mọi loại công việc đều có giá trị nhưng họ vẫn vô tình bộc lộ dấu vết khinh thường. "Đương nhiên, nhóm người này bản thân đều là người có thiên hướng công nghệ." Người chú thích tự an ủi.

Công nghệ đang phát triển nhanh hơn nhiều so với mọi người mong đợi, trong thời đại của các mô hình lớn, chất lượng dữ liệu sẽ ảnh hưởng trực tiếp đến hiệu suất của mô hình. **Hiểu được điều này, một số công ty AI đã nói lời tạm biệt với những người gia công chú thích dữ liệu mà không hề do dự.

CTO của một công ty AI cho biết: “Chất lượng dữ liệu chúng tôi nhận được kém đến mức về cơ bản là vô dụng”. Hoạt động kinh doanh cốt lõi của họ là video do AI tạo ra và họ đã phát triển một mô hình tự phát triển có thể tạo ra số lượng video sản phẩm thương mại điện tử không giới hạn. Để đào tạo mô hình, họ đặc biệt tuyển dụng 50 sinh viên đại học để chú thích dữ liệu.

Sinh viên đại học cũng khó được tin cậy khi nói đến các lĩnh vực chuyên môn như chăm sóc y tế, tài chính và máy tính. Ngoài việc xây dựng cơ sở ghi nhãn của riêng mình, một công ty Internet lớn trong nước còn trả tiền cho các chuyên gia để dán nhãn. Mặc dù tỷ lệ chuyên gia trong ngành chú thích vẫn còn ít nhưng vai trò của họ khá rõ ràng. Ví dụ, điều yên tâm nhất là để lại câu hỏi về việc tạm dừng thanh toán an sinh xã hội cho các chuyên gia quen thuộc với các tài liệu của chính phủ.

Một bí mật mở là rất lâu trước khi ChatGPT trở nên phổ biến, OpenAI đã tổ chức hơn chục nghiên cứu sinh tiến sĩ để “chấm điểm”. Trong 8 năm, OpenAI đã chi 1 tỷ USD chỉ để đào tạo mô hình.

Vào tháng 5 năm nay, một công ty dữ liệu của Hoa Kỳ đã bắt đầu tuyển dụng các chuyên gia trong các lĩnh vực cụ thể. Việc trả lương cho những người chú thích cao cấp này không còn là một món hời nữa, ví dụ, mức lương mỗi giờ cho việc dán nhãn dữ liệu pháp lý là 45 đô la Mỹ, và mức lương mỗi giờ cho thơ là 25 đô la Mỹ.

Tuy nhiên, trong mắt một số công ty AI, dù là công nhân cổ xanh hay công nhân cổ trắng, họ đều muốn tiết kiệm chi phí. Khi giao tiếp với các công ty này, 36 Krypton thường xuyên nghe thấy một từ: giảm chi phí và tăng hiệu quả.

Phương pháp phổ biến nhất là sử dụng AI để chú thích tự động. Một công ty dữ liệu cho biết tỷ lệ chú thích tự động đã đạt hơn 70%.

Kỹ sư thuật toán Xiao Li và các đồng nghiệp của ông đang thực hiện nhiều nỗ lực tiên tiến hơn: ** Chỉ cần một phần nhỏ dữ liệu thực được sử dụng làm mô hình, thông qua công nghệ AI tổng quát và một loạt thuật toán, dữ liệu đào tạo chất lượng cao có thể được tổng hợp. Nói cách khác, không cần ai cả. **

"Giá dữ liệu tổng hợp của chúng tôi rẻ hơn một chút so với chú thích thủ công." Xiao Li nói.

Dữ liệu tổng hợp hiện chủ yếu được sử dụng trong lĩnh vực lái xe tự động và robot. Xiao Li cho biết khi ChatGPT ra mắt, anh nhận ra rằng dữ liệu chú thích có thể không hoạt động và cuối cùng dữ liệu tổng hợp sẽ phải được sử dụng. Người sáng lập OpenAI Sam Altman cũng có quan điểm tương tự: "Dữ liệu tổng hợp là cách hiệu quả nhất để giải quyết tình trạng thiếu dữ liệu mô hình lớn".

Công ty khởi nghiệp Light Wheel Intelligence chủ yếu sản xuất dữ liệu tổng hợp trong lĩnh vực lái xe tự động và robot. Giám đốc điều hành Xie Chen cho biết: "Kết quả cuối cùng của việc ghi nhãn tự động là không ghi nhãn. Hầu hết các công ty ghi nhãn không nhìn thấy điều đó về lâu dài".

Xie Chen đề cập với 36Kr rằng một đồng nghiệp trong nhóm trước đây đã thực hiện chú thích tự động tại một OEM và đã chinh phục được chú thích 4D-BEV phức tạp hơn. Đây là công cụ chú thích hàng đầu trong ngành sử dụng thời gian làm vĩ độ thứ tư cho chú thích trong không gian 3D nhằm cải thiện hiệu suất của hệ thống lái tự động. Năm nay hắn quyết định từ bỏ tự động chú thích, chủ động đi tìm Tạ Thần, cuối cùng gia nhập Nimbus Intelligence.

Đồng nghiệp này là Xiao Li. Anh ấy nói rằng sự xuất hiện của Generative AI từng khiến anh ấy rất lo lắng, nhưng sau khi nhìn thấy dữ liệu tổng hợp, anh ấy lại trở nên hào hứng.

Một trong những mục tiêu công việc của anh ấy là "thay thế (gắn nhãn) người trong ngành này", nhưng anh ấy xấu hổ khi nói chắc chắn rằng: "Có thể là trong thời gian ngắn, có thể là một hoặc hai năm".

Cuối cùng, hãy quay trở lại thế giới của những người chú thích. Sự lo lắng do sự phát triển nhanh chóng của công nghệ gần như không thể thấy được ở đây. Chỉ có những phiền toái tầm thường, lặp đi lặp lại và một số tưởng tượng ngây thơ.

Sinh viên đại học Xiao Wang vẫn đang đào tạo những người mẫu lớn ở quê nhà. Khi chúng tôi trò chuyện gần đây, anh ấy nói rằng công việc này là cơ hội để bước vào lĩnh vực trí tuệ nhân tạo. Con đường thăng tiến mà công ty đặt ra cho họ là từ người chú thích đến người kiểm tra chất lượng, người đào tạo, người giám sát và cuối cùng là người quản lý dự án. Mục tiêu của Xiao Wang là trở thành giám sát viên và sau đó chuyển đổi công việc sang vị trí gần với AI hơn. Cụ thể nó là gì thì anh vẫn chưa biết.

So với Xiao Wang đầy tham vọng, hầu hết những người chú thích đều ít quan tâm đến AI. Một cô gái giải thích: “Tôi không chú ý nhiều đến công nghệ cao”, cô ấy đã chấm điểm được hai năm và đã là nhân viên cấp cao, gần đây cô ấy đã được thăng chức làm thanh tra chất lượng. Đối với cô, công việc chú thích rất đơn giản và ổn định, “không có ma sát về tinh thần” và thỉnh thoảng cô có thể bắt được cá. Trong năm nay, khi AI đang khuấy động thế giới công nghệ, cuộc sống của cô lại êm đềm như nước.

Một trong số ít thay đổi là việc bổ sung bot đàm thoại vào các công cụ chú thích do công ty cung cấp. Công ty thông báo với mọi người rằng nếu gặp bất kỳ câu hỏi nào không hiểu trong quá trình chú thích, bạn chỉ cần hỏi trực tiếp robot để tiết kiệm thời gian. Hiệu quả đã được cải thiện nhanh chóng, cô nói với 36 Krypton rằng trước đây cô có thể làm tới năm hoặc sáu trăm hộp một ngày, nhưng bây giờ cô có thể làm được hơn bảy trăm hộp.

“Cảm ơn robot,” cô nói. Chưa ai nói với cô rằng nó được gọi là ChatGPT.

(Theo yêu cầu của người được phỏng vấn, một số nhân vật trong bài viết có bút danh. Tác giả 36Kr Anita Deng cũng đóng góp cho bài viết.)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)