Thực tập sinh theo cơn sốt người mẫu lớn: 985 bình quân đầu người? Nhưng “dán nhãn” ở nhà máy lớn

Nguồn: Jiazi Quảng Niên

Tác giả: Chu Nhạc

Vào ngày đầu tiên thực tập chính thức, Chen Xi cảm thấy mình có thể đã bị "lừa".

Chen Xi, một sinh viên tốt nghiệp tương lai vừa hoàn thành luận án tốt nghiệp ở trường, đã sẵn sàng tìm việc gì đó để làm cho bản thân. Sau khi nộp vài bản hồ sơ, cô sớm được mời vào vị trí biên tập trí tuệ nhân tạo (hướng dịch) của một công ty Internet lớn trong nước.

Bản mô tả công việc có nội dung:

  1. Cung cấp kho dữ liệu chất lượng cao cho máy học trí tuệ nhân tạo và nhân rộng các lần lặp lại đào tạo mô hình;

  2. Trao đổi với nhóm kỹ thuật về các yêu cầu, cung cấp dữ liệu chất lượng cao và chất lượng đúng thời hạn và chịu trách nhiệm về chất lượng của kết quả chỉnh sửa.

Đối với Chen Xi, người không biết nhiều về đào tạo người mẫu, đây có vẻ là một đợt thực tập khá tốt.

Cuộc phỏng vấn của Chenxi là về lĩnh vực dịch thuật, rất phù hợp với chuyên ngành tiếng Anh của cô. Đầu năm, ChatGPT trở nên phổ biến ở Trung Quốc và Chenxi có thói quen sử dụng các sản phẩm AI hàng ngày, điều này phù hợp với sở thích của cô Ngoài ra, cô sẽ có cơ hội tham gia vào các lĩnh vực công nghệ mới nổi, sự phát triển công nghiệp là điều hiếm có đối với sinh viên ngành giáo dục khai phóng, tất nhiên, sức hút lớn nhất đến từ công ty Internet lớn này. Trong vài năm qua, công ty đã thu hút thành công vô số sinh viên trẻ. Ở một góc độ nào đó, tên của một công ty lớn trong sơ yếu lý lịch cũng đủ để trở thành biểu tượng cho năng lực của bản thân.

Tuy nhiên, ngoài mô tả công việc đơn giản trên trang tuyển dụng, Chen Xi không nhận được thêm bất kỳ thông tin nào về đợt thực tập này từ người phỏng vấn.

"Lý do lúc đó tôi cảm thấy bị lừa là vì về cơ bản bộ phận nhân sự tập trung vào các vấn đề liên quan đến dịch thuật trong cuộc phỏng vấn." Sau khi trả lời một số câu hỏi dịch thuật trong cuộc phỏng vấn, Chen Xi đã thành công nhận được lời đề nghị. Cho đến khi bắt đầu đi làm, cô vẫn nghĩ đó là công việc phiên dịch.

Chen Xi không phải là người duy nhất cảm thấy bị "lừa dối".

Là một trong những biên tập viên trí tuệ nhân tạo thực tập sớm nhất, Yang Xiaoyun cũng đến nhà máy lớn này vào cuối tháng Hai. Người phỏng vấn cho rằng đây là công việc đòi hỏi khả năng cao như nắm bắt thông tin, tóm tắt ngôn ngữ và soạn thảo văn bản.

Sau khi thực sự bắt tay vào làm, cô nhận ra: “Công việc mà HR mô tả và công việc thực tế là hai việc hoàn toàn khác nhau. Dù hào nhoáng đến đâu thì thực chất đó cũng là một công việc ‘chấm điểm’”.

Ngày nay, cơn sốt trí tuệ nhân tạo đã dẫn đến sự ra đời của các chatbot trông như thật và giả, cũng như phần mềm vẽ có thể tạo ra các bức tranh chỉ bằng những lời nhắc đơn giản. Sự xuất hiện ở cấp độ hiện tượng của các mô hình lớn đã thu hút nhiều sự chú ý làm cơ sở cho việc huấn luyện các mô hình lớn, chú thích dữ liệu là một phần không thể thiếu trong liên kết dữ liệu.

Năm 2007, Li Feifei, khi đó là trợ lý giáo sư tại Khoa Khoa học Máy tính tại Đại học Princeton, đã bắt đầu một dự án có tên ImageNet, với hy vọng mở rộng dữ liệu có thể được sử dụng để đào tạo các thuật toán AI.

Để cung cấp càng nhiều ví dụ trực quan càng tốt cho mỗi từ, gần 50.000 công nhân trên nền tảng cung cấp dịch vụ cộng đồng của Amazon Mechanical Turk đã dành hai năm rưỡi để dán nhãn cho các đồ vật trong ảnh, chẳng hạn như bóng bay, dâu tây, v.v., tổng cộng 3,2 triệu bức ảnh. . Những công nhân này đến từ 167 quốc gia trên thế giới và hầu hết làm việc ở những khu vực có chi phí lao động thấp.

Một cuộc điều tra của tạp chí Time cho thấy để giảm bạo lực, phân biệt giới tính và phân biệt chủng tộc trong bộ dữ liệu ChatGPT, OpenAI đã sử dụng những người lao động Kenya kiếm được ít hơn 2 USD một giờ. "Bloomberg" đưa tin chatbot AI của Google Bard được đào tạo bởi hàng nghìn nhân viên hợp đồng, những người chỉ có 3 phút để xem xét và chú thích các câu trả lời của Bard.

Trong một thời gian dài trước đây, chú thích dữ liệu không đòi hỏi yêu cầu cao về nhận thức ngôn ngữ và hình ảnh. Trong thời đại của các mô hình lớn, chú thích dữ liệu đã chuyển từ hình ảnh sang ngôn ngữ, đòi hỏi khắt khe và theo chiều dọc hơn, đòi hỏi kiến thức chuyên môn trong các lĩnh vực cụ thể và kỹ năng ngôn ngữ thông thạo.

Nhưng đối với những người chú thích dữ liệu thông thường, đó vẫn là một công việc đòi hỏi công nghệ thấp và thường xuyên phải lặp đi lặp lại.

Cũng giống như những sinh viên “lừa” từ các trường danh tiếng vào các nhà máy lớn để thực tập, họ không thể giải thích rõ ràng mục đích công việc của mình là gì và giá trị của nó là gì. Họ thường chỉ hiểu một cách mơ hồ để “đào tạo những mô hình lớn”.

Các thực tập sinh biên tập trí tuệ nhân tạo do Chen Xi và Yang Xiaoyun đại diện ra đời từ nhu cầu đào tạo những người mẫu lớn. Những mô hình quy mô lớn phổ biến này cho phép các thực tập sinh bước vào với sự tò mò và khao khát, đồng thời họ cũng cảm nhận được sự hỗn loạn thực sự và thiếu giá trị đằng sau chúng.

1. Khi sinh viên đại học tràn vào chú thích dữ liệu mô hình lớn

**Mọi người thường nghĩ rằng người chú thích dữ liệu là nhóm người có trình độ học vấn thấp và lớn tuổi sống ở các thành phố cấp ba và cấp bốn. Trên thực tế, đây quả thực là tình trạng hiện tại của các nhà chú giải dữ liệu trong nước trước đây. **

Theo “Tiêu chuẩn kỹ năng nghề quốc gia dành cho giảng viên trí tuệ nhân tạo” do Bộ Nhân lực và An sinh xã hội ban hành năm 2021, trình độ học vấn phổ thông của giảng viên trí tuệ nhân tạo là tốt nghiệp trung học cơ sở (hoặc tương đương). Chúng có thể nằm rải rác ở những khu vực có các doanh nghiệp sử dụng nhiều lao động truyền thống, chẳng hạn như Hà Bắc, Hà Nam, Sơn Đông và Sơn Tây, hoặc thậm chí ở những vùng núi xa xôi hơn, nơi chú thích dữ liệu là một dự án thí điểm nhằm xóa đói giảm nghèo.

**Nhưng những thay đổi đã xảy ra với sự xuất hiện của các mô hình lớn. **

Điều khiến Yang Xiaoyun chán nản thực ra là công việc chú thích dữ liệu được thực hiện để đào tạo các mô hình lớn.

Sau khi đào tạo và đánh giá đơn giản, Yang Xiaoyun được phân công vào nhóm chỉnh sửa bản sao. **Công việc hàng ngày của cô là trả lời các câu hỏi trong ngân hàng câu hỏi, mục đích là tối ưu hóa quá trình huấn luyện các mô hình lớn bằng cách viết thủ công các câu trả lời của người chú thích. **

**Các bước trả lời câu hỏi đều được kiểm soát chặt chẽ. **Lấy trò chơi "Genshin Impact" làm ví dụ, nếu bạn nhận được câu hỏi "Thánh tích của Yelan là gì?", Yang Xiaoyun cần chia câu trả lời thành nhiều đoạn: Đầu tiên, Yelan là gì? Thứ hai, thánh tích là gì? Thánh tích của Yelan cuối cùng phù hợp với cái gì?

Thu thập thông tin trên công cụ tìm kiếm được chỉ định, hoàn thành việc chỉnh sửa câu trả lời và cuối cùng gửi nó dưới dạng Markdown.

Ngoài những câu hỏi đơn giản, dễ trả lời, Yang Xiaoyun dành phần lớn thời gian cho những lĩnh vực chuyên môn mà anh hoàn toàn xa lạ như khu kinh tế, khu pháp lý, v.v.

Rõ ràng, điều này hoàn toàn khác với công việc chú thích dữ liệu trước đây. **

Trước khi xuất hiện các mô hình lớn, các kịch bản chú thích dữ liệu thường là những nhà máy có hàng trăm người, mỗi người có một máy tính và chỉ có âm thanh của chuột và bàn phím. Và trong suốt 8 tiếng làm việc của mình, họ chỉ làm một việc đơn giản và lặp đi lặp lại: đóng khung các phương tiện cơ giới, phương tiện không có động cơ, người đi bộ và đèn giao thông (phát hiện mục tiêu) trong các bức tranh khác nhau; hoặc gạch dưới chủ đề của một đoạn văn, Vị ngữ, đối tượng (phân đoạn ngữ nghĩa).

Các hộp vẽ hình ảnh, video cũng như phân đoạn văn bản theo ngữ nghĩa này đều đang xử lý dữ liệu hiện có và bản thân người chú thích dữ liệu không cần đưa ra "kết luận sáng tạo". Nhưng đây không phải là trường hợp chú thích dữ liệu của các mô hình lớn. Ngoài việc xử lý dữ liệu hiện có, người chú thích dữ liệu còn cần trả lời các câu hỏi và đưa ra kết luận chính xác. **

Theo "Báo cáo nghiên cứu xu hướng đầu tư và phân tích chuyên sâu về hiện trạng ngành chú thích dữ liệu của Trung Quốc (2023-2030)" do Trung tâm dữ liệu Guanyan Tianxia phát hành vào năm 2023, trước khi phát hành ChatGPT, chú thích dữ liệu đào tạo AI chủ yếu dựa trên về giọng nói, thị giác máy tính và ngôn ngữ tự nhiên. Nhu cầu xử lý (NLP) chưa đến 15%.

Khi chatbot ChatGPT trở thành một ứng dụng phi thường của AIGC, nhu cầu về các tác vụ chú thích văn bản chất lượng cao như phán đoán cảm xúc, khả năng hiểu và thậm chí cả khả năng lý luận ngày càng tăng.

"Mức độ phức tạp của các dự án (mô hình lớn) đã trở nên cao hơn trước và yêu cầu về nhân sự tương đối khác nhau." Người phụ trách Bộ phận Sản phẩm Dữ liệu Stardust nói với "Jiazi Light Year", "Nhận dạng và chú thích một phần thông tin hình ảnh đối với lái xe tự hành, vốn là công việc thể chất nhiều hơn, cần phải đào tạo một số nhân viên. Sau khi họ học cách kéo hộp, thành thạo các phím tắt và thành thạo một số kỹ năng, họ có thể nhanh chóng trở nên thành thạo. ** Nhưng những gì các mô hình lớn cần là một sự hoàn chỉnh và có cấu trúc, một hệ thống dữ liệu đa dạng và bao gồm tất cả, yêu cầu bốn lớp dữ liệu để hỗ trợ xây dựng và cải tiến mô hình. Những dữ liệu này liên quan đến đào tạo trước, SFT (Tinh chỉnh có giám sát), RLHF (Học tăng cường dựa trên phản hồi của con người, Học tăng cường từ phản hồi của con người), triển khai tư nhân hóa, v.v. Để đáp ứng nhu cầu của các ngành khác nhau, chúng tôi đã phát hành giải pháp kim tự tháp dữ liệu mô hình lớn COSMO; nó có đơn giản không? Thay vì đọc hiểu và chỉnh sửa văn bản, nó cho phép bạn tạo câu hỏi và câu trả lời cũng như tạo nội dung.**”

Jia Yuhang, tổng giám đốc dữ liệu đo lường đám mây, chia dữ liệu huấn luyện của mô hình lớn nhất thành ba giai đoạn: dữ liệu cơ bản, dữ liệu cảnh và tối ưu hóa dữ liệu cảnh. **Ông đã so sánh ba giai đoạn này với quá trình học tập.

"Chú thích dữ liệu cơ bản như vẽ hộp tương đối đơn giản. Bạn có thể thành thạo thao tác máy tính và học nó ngay lập tức; dữ liệu cảnh là dữ liệu trong một trường cụ thể cần thiết cho nghiên cứu và phát triển có mục tiêu trong các liên kết cụ thể. Bạn cần học kiến thức lĩnh vực liên quan để đạt được chú thích. yêu cầu; đến giai đoạn thứ ba, dựa trên sự lặp lại và tối ưu hóa liên tục trong quá trình đưa vào sử dụng, các yêu cầu về kỹ năng và kiến thức lĩnh vực sẽ được tinh chỉnh hơn." Jia Yuhang nói.

Theo nhu cầu công việc như vậy, ngày càng có nhiều công ty mô hình lớn có nhu cầu về người chú thích dữ liệu, trước đây cũng đã thay đổi từ trình độ học vấn thấp sang trình độ học vấn cao và nhu cầu này ngày càng tăng.

Trên các nền tảng tìm việc làm chính thống trong nước hiện đang tuyển dụng nhiều vị trí chú thích dữ liệu cho các mô hình lớn. Những vị trí này yêu cầu người chú thích phải có bằng cử nhân trở lên. Baidu trước đây đã tuyên bố rằng cơ sở chú thích dữ liệu mô hình lớn của họ ở Hải Khẩu có hàng trăm người chú thích dữ liệu và tỷ lệ sinh viên đại học đã đạt 100%.

Nguồn ảnh: BOSS Zhipin & Maimai

**2. Chú thích dữ liệu mô hình lớn **

Nói chung, việc huấn luyện một mô hình lớn đòi hỏi ba bước sau:

Nguồn: OpenAI "Giới thiệu ChatGPT"

Đằng sau những nhiệm vụ lặp đi lặp lại này thực ra là hiện thực hóa công nghệ "Học tăng cường từ phản hồi của con người". Cải tiến lớn nhất của GPT-3.5 đến từ điều này. Mấu chốt là sự tham gia của con người (Người ghi nhãn), tức là những người chú thích dữ liệu này.

Từ ba bước trên của RLHF, bước một và bước hai tương đối quan trọng hơn vì chúng xác định mức chất lượng dữ liệu cần thiết để huấn luyện mô hình khen thưởng. Các thực tập sinh chú thích dữ liệu trong hai bước này cũng được chia thành hai nhóm cốt lõi: “nhóm chỉnh sửa” và “nhóm sắp xếp”. **

Công việc của nhóm biên tập là trả lời các câu hỏi trong ngân hàng câu hỏi, còn công việc của nhóm phân loại là xếp hạng các câu trả lời được tạo ra (bao gồm cả câu trả lời mẫu và câu trả lời được tạo giả tạo).

Ding Xiaoyu tham gia biên tập bản sao vào tháng 7. Ding Xiaoyu, cũng học chuyên ngành tiếng Anh, và Chen Xi, đang mong chờ một công việc dịch thuật có thể nâng cao trình độ chuyên môn của họ, nhưng công việc của cô thực sự không liên quan đến tiếng Anh.

So với khi Yang Xiaoyun thực tập vào tháng 2, nhóm biên tập bản sao mà Ding Xiaoyu phải đối mặt đã trở nên chia nhỏ hơn, mỗi thực tập sinh phải chọn một hướng dọc, chẳng hạn như giải trí, vật lý, chính trị, v.v., và yêu cầu trả lời cũng ngày càng nhiều hơn chi tiết.

Đối với câu hỏi trắc nghiệm về thơ cổ, bạn không chỉ giải thích đáp án mà trước tiên hãy giới thiệu loại câu hỏi, sau đó là bản dịch và bối cảnh của bài thơ, cuối cùng là phân tích xem mỗi phương án trả lời có đúng hay không. điều này là để so sánh với GPT-4 tháng 3 do OpenAI phát hành vào ngày 14.

"Bạn phải tham khảo câu trả lời của nó, nhưng nó không thể giống với câu trả lời của nó, và nó phải tốt hơn câu trả lời của nó." Đinh Tiểu Ngọc bất lực.

Chenxi được chỉ định vào nhóm phân loại, trong đó nhiều câu trả lời cho các câu hỏi được sắp xếp hàng ngày để xác định ưu và nhược điểm của các câu trả lời khác nhau.

Kết quả xếp hạng cần được lượng hóa rõ ràng. Cô ấy cần đánh giá các câu trả lời từ các góc độ khác nhau như tính hữu ích, tính xác thực, mức độ liên quan, độ an toàn, v.v. và viết ra lý do. Điều này cho phép máy móc tiến gần hơn đến những câu trả lời mà con người mong đợi.

**Chen Xi thấy mình đôi khi phải lựa chọn giữa nhiều câu trả lời tồi. Và khi tất cả các câu trả lời đều tệ, cô ấy được yêu cầu tự viết một câu trả lời hay hơn. **

Ding Xiaoyu của nhóm biên tập còn phải đối mặt với những yêu cầu khắt khe hơn. Mỗi câu trả lời sẽ phải trải qua hai vòng xem xét trước khi đủ điều kiện để được đưa ra. Tin nhắn đầu tiên đến từ trưởng nhóm: “Sau khi hoàn thành một số câu hỏi, chúng tôi sẽ họp rà soát để cùng nhau tìm ra những sai sót cho đến khi trưởng nhóm hài lòng với những thay đổi.” Tin nhắn thứ hai đến từ trụ sở chính, và không phải vậy. cho đến khi trụ sở chính đã thông qua việc xem xét.

Có lần, do lỗi định dạng nên hầu hết các câu trả lời của Ding Xiaoyu đều bị đánh giá là sai hoàn toàn. "Điều chỉnh thứ tự có thể là đủ, nhưng họ không quan tâm nội dung câu trả lời của bạn sai hay hình thức có vấn đề, chỉ là tất cả đều sai."

Điều khiến Ding Xiaoyu càng thêm đau lòng là trưởng nhóm đã trực tiếp tuyên bố rằng nếu cô lại mắc nhiều lỗi như vậy, cô có thể bị sa thải.

**Chú thích dữ liệu cho các mô hình lớn là một công việc hoàn toàn hướng tới kết quả. Dù bạn có bỏ bao nhiêu công sức vào quá trình đó, chỉ cần kết quả không tốt thì mọi nỗ lực trước đó sẽ hoàn toàn bị phủ nhận. **

Nhưng vấn đề ở chỗ, dù là kết quả trả lời đầu ra của nhóm biên tập hay việc sắp xếp đáp án theo nhóm sắp xếp thì đó là một công việc rất chủ quan. Các thực tập sinh chú thích dữ liệu rất khó kiểm soát xem một câu trả lời là tốt hay xấu; các thực tập sinh khác nhau thường đưa ra các câu trả lời khác nhau cho cùng một câu hỏi.

**Để giải quyết vấn đề này, một trong những nhiệm vụ mà nhóm chú thích dữ liệu mô hình lớn phải thực hiện hàng ngày là tổ chức một “cuộc họp kiểm toán” – hay còn gọi là “Cuộc họp đua xe” trong nội bộ công ty. Mục đích là để điều chỉnh trả lời chuẩn và căn chỉnh đáp án, mọi người đều hiểu và mọi ý kiến góp ý đều căn chỉnh. **

Tuy nhiên, để đạt được sự liên kết thực sự là khá khó khăn. Điều này cũng giống như việc chấm điểm kỳ thi tuyển sinh đại học, những người khác nhau sẽ được giao những câu hỏi giống nhau, nếu điểm số không nhất quán thì phải liên tục điều chỉnh cho đến khi đạt được điểm thống nhất.

Trong ấn tượng của Chen Xi, mỗi ngày họ dành hai hoặc ba giờ cho các cuộc họp. Đến cuối cuộc họp, giải pháp đơn giản và thô sơ nhất thường được đưa ra, thiểu số tuân theo đa số, bà mô tả đó là "tạo ra giá trị mà không có giá trị".

Tuy nhiên, so với việc mọi người cùng ngồi lại để căn chỉnh các tiêu chuẩn trả lời một cách “giả tạo”, một vấn đề rắc rối hơn là: các tiêu chuẩn ** không được căn chỉnh một cách giả tạo một lần và mãi mãi mà phải được điều chỉnh liên tục dựa trên phản hồi từ đầu ra của mô hình. **

Việc đầu tiên khi đi làm hàng ngày, Yang Xiaoyun cần xác nhận xem ngày hôm đó có ban hành tiêu chuẩn chú thích mới hay không, từ khung câu trả lời, chia đoạn, cho đến lựa chọn công cụ tìm kiếm, các định dạng như dấu cách và dấu chấm câu. Nhưng ** tiêu chuẩn liên tục thay đổi. **Một khi phát hiện dữ liệu đã cung cấp không hoạt động trên máy, các tiêu chuẩn cần được xây dựng lại và mọi vấn đề sẽ được lật ngược và viết lại.

“Giống như dệt vải. Chúng ta nên dệt hạt ngang hay hạt dọc? Nên dệt nút vừng hay nút lúa mì? Nhưng dù là nút nào thì cũng chỉ có thể cho vào chương trình và chạy. Nếu thấy không chạy được ra ngoài, bạn phải thay đổi một phương pháp." Yang Xiaoyun giải thích cho "Jiazi Guannian". Đằng sau phép ẩn dụ này là nếu câu trả lời mà chú thích dữ liệu đưa ra có thể không đạt được hiệu quả như mong đợi trong quá trình đào tạo mô hình khen thưởng thì tiêu chuẩn phải được điều chỉnh.

Việc thay đổi tiêu chuẩn đồng nghĩa với kết luận của cuộc họp căn chỉnh lần trước không có giá trị và phải căn chỉnh lại các tiêu chuẩn.

"Dư thừa và hiệu quả, nói chuyện vô nghĩa mỗi ngày rất hiệu quả." Yang Xiaoyun phàn nàn.

3. Học sinh giỏi bị các nhà máy lớn bóc lột

Một mặt, có những cuộc họp họp bất tận được tổ chức hàng ngày, mặt khác, có những tiêu chuẩn dữ liệu có thể thay đổi bất cứ lúc nào. Nhiều sinh viên hàng đầu, như Chen Xi, những người bị thu hút bởi những biển hiệu sáng chói của các nhà máy lớn, đã mất đi nhiệt huyết ban đầu do mâu thuẫn nội bộ và cuối cùng đã chọn cách rời đi.

**Đặc điểm chung của những thực tập sinh này là có trình độ học vấn cao. Yêu cầu tuyển dụng là bằng cử nhân trở lên, nhưng nhiều thực tập sinh có bằng thạc sĩ. **

Nhiều người trong số họ được giáo dục bởi các đại học hàng đầu ở Trung Quốc và thậm chí cả thế giới. Yang Xiaoyun được bao quanh bởi các sinh viên từ Đại học Bắc Kinh và Đại học Hoàng gia Luân Đôn, và các thực tập sinh bên cạnh máy trạm của Chenxi đến từ Đại học Nankai và Đại học Khoa học và Công nghệ Điện tử Trung Quốc; Ding Xiaoyu đã được thông báo rõ ràng trong quá trình đào tạo rằng trình độ học vấn của thực tập sinh đã được trình chiếu. "Anh ấy (người phỏng vấn) nói rằng những sinh viên đại học có trình độ học vấn cao như chúng tôi có thể học mọi thứ nhanh chóng và bắt đầu dễ dàng."

**Quản lý một nhóm người thông minh chưa bao giờ là dễ dàng. Bởi vì những người này có thể dễ dàng khám phá ra bản chất công việc của họ từ những hành động lặp đi lặp lại, rồi đặt câu hỏi liệu công việc này có thực sự có giá trị đối với tương lai của họ hay không. **

Ding Xiaoyu mô tả công việc của mình là "ít có giá trị và rất hao tổn nội tâm."

Khi đến nơi làm việc của mình vào mỗi buổi sáng, cô ấy mở màn hình hiển thị và sổ ghi chép, dùng sổ ghi chép để kiểm tra các quy tắc trong khi viết câu trả lời trên màn hình hiển thị, Ding Xiaoyu có thể cảm nhận rõ ràng rằng các quy tắc và quy trình chi tiết khiến cô ấy dần mất đi không gian để suy nghĩ, và cô ấy Kỷ luật trở thành một cỗ máy. “Nếu bạn không học được điều gì đó và không có năng lượng để học những thứ khác, bạn sẽ dần mất đi động lực học tập và sự nhiệt tình khi làm những việc khác.”

Ding Xiaoyu cũng đã từng làm việc trong nhóm giải mẫn cảm, nhưng công việc thực tế không có mối liên hệ cơ bản nào với từ "giải mẫn cảm." Anh ấy chỉ sử dụng các chatbot khác nhau và các sản phẩm beta nội bộ của công ty để trả lời các câu hỏi giống nhau, đồng thời so sánh và chấm điểm các câu trả lời. Chỉ làm việc được vài ngày, cô được chuyển sang nhóm hiệu đính văn bản, việc cô phải làm là sửa các lỗi xảy ra khi chuyển đổi định dạng PDF sang định dạng Word, chủ yếu là lỗi chính tả và dấu chấm câu. Trong một quá trình mà cô mô tả là "gần như hỏng", cô đã hoàn thành 25 trang nhiệm vụ sửa lỗi liên quan đến y tế mỗi ngày.

Trong quá trình phỏng vấn, người phỏng vấn hỏi Ding Xiaoyu liệu anh có thể chấp nhận một công việc nhàm chán và lặp đi lặp lại hay không. "Câu trả lời của tôi lúc đó là chấp nhận được. Tôi nghĩ tất cả câu trả lời của ứng viên đều có thể chấp nhận được." Bởi vì anh chỉ có một kinh nghiệm thực tập khi còn là sinh viên, và với mong muốn tích lũy thêm nhiều cơ hội thực tập và trải nghiệm ở các công ty lớn, kể cả với nghi ngờ, Ding Xiaoyu vẫn chọn gia nhập công ty.

Chỉ trong hai tháng, Ding Xiaoyu đã được coi là người kiên trì đến cùng trong số các thực tập sinh cùng thời. Cô đã chứng kiến nhiều thực tập sinh đến với hoài bão lớn rồi ra về với cái đầu cúi gằm.

Nhà nhân chủng học David Graeber định nghĩa những công việc nhảm nhí là những công việc không có ý nghĩa hay mục đích. Những công việc cần được loại bỏ bằng máy móc tự động hóa vẫn tiếp tục tồn tại do cách tân, để làm hài lòng cấp trên và để lấp đầy những sơ hở của hệ thống. . Chú thích dữ liệu giống như một biến thể của những công việc nhảm nhí thường được cho là đã được thay thế bởi máy móc nhưng vẫn yêu cầu con người thực hiện.

Khi cơn sốt trí tuệ nhân tạo ập đến, người ta thường kỳ vọng AI có thể thay thế con người trong việc hoàn thành những công việc lặp đi lặp lại và nhàm chán, từ đó giúp con người có nhiều thời gian và năng lượng hơn để theo đuổi những công việc sáng tạo và thỏa mãn hơn.

Nhưng cũng có thể trí tuệ nhân tạo, giống như các công nghệ tiết kiệm sức lao động trước đây như điện thoại, máy đánh chữ, khắc phục được nỗi đau của việc truyền tải thông tin và chữ viết, nhưng cũng tạo ra một lượng lớn giao tiếp và giấy tờ cần đến trí tuệ nhân tạo mới để thực hiện. nó Quản lý như lễ tân, thư ký. AI có thể không thay thế con người nhưng nó sẽ tạo ra những công việc tẻ nhạt, nhàm chán và cô lập hơn.

**Ngoài việc không thể được công nhận giá trị công việc của mình, mức lương họ nhận được có thể không cho phép những sinh viên hàng đầu này đạt được "sự công nhận về giá". **

Theo "Jiazi Guannian", những dữ liệu này cho thấy mức lương của thực tập sinh không cao. Nếu họ ở thành phố hạng nhất, mức lương của hầu hết thực tập sinh trí tuệ nhân tạo là 150 nhân dân tệ/ngày, có phụ cấp phòng và căng tin miễn phí; nếu họ ở thành phố hạng hai, chỉ còn lại 100 nhân dân tệ/ngày, và tiền phòng cũng giảm đi một phần ba. 2. Tiền ăn bổ sung 20 tệ thay thế bữa ăn miễn phí.

Giống như Ding Xiaoyu thực tập ở thành phố hạng hai, vì văn phòng nằm ở trung tâm thành phố và khu vực thịnh vượng nên một bữa ăn mang đi có thể dễ dàng vượt quá tiêu chuẩn trợ cấp bữa ăn 20 nhân dân tệ và về cơ bản là phải hoàn trả tiền lương thực tập.

Bởi vì hầu hết họ chỉ là những người chú thích cơ bản để đào tạo các mô hình lớn nên họ có thể được phân công thống nhất vào các vị trí không liên quan gì đến chuyên môn của họ, họ cũng có thể được điều chuyển sang các bộ phận khác nhau bất cứ lúc nào và được yêu cầu bắt đầu nhanh chóng sau một thời gian ngắn. đào tạo.

**Ding Xiaoyu mô tả họ là những nhóm thực tập sinh bị các nhà máy lớn lợi dụng. **

Chen Xi cảm thấy rõ ràng rằng cô không phải là người duy nhất cảm thấy có khoảng cách giữa kỳ vọng và công việc thực tế. “Nói thẳng ra, tôi cảm thấy công việc này không phù hợp với mình. Đôi lúc trò chuyện, tôi sẽ phát hiện những thực tập sinh khác có thể có 985 bằng cử nhân, có người từ nước ngoài trở về với bằng thạc sĩ. Khoảng cách giữa họ cũng rất lớn.” , rất lớn."

Yang Xiaoyun bày tỏ điều đó một cách trực tiếp hơn: "Có thể đó là một phép ẩn dụ không phù hợp. Mẹ tôi học cấp ba nên có thể làm công việc này."

**4. "Chúng tôi thực chất là công nhân dây chuyền lắp ráp" **

Trên thực tế, chính phủ tuyển dụng những sinh viên hàng đầu để làm một số công việc công nghệ thấp và trả lương cực thấp, đây cũng là phản ánh khách quan về sự hỗn loạn của thị trường trong giai đoạn đầu phát triển chú thích dữ liệu mô hình lớn. **Đối với các công ty chú thích dữ liệu, ở giai đoạn phát triển của các mô hình lớn hiện nay, chú thích dữ liệu vẫn chưa hình thành một tiêu chuẩn thống nhất và chưa có yêu cầu cụ thể đối với người chú thích.

Người phụ trách Bộ phận Sản phẩm Dữ liệu Stardust cho biết: “Khi các khả năng cơ bản của mô hình lớn được hoàn thiện và quá trình phát triển bắt đầu trở nên theo chiều dọc và phức tạp hơn, các nhiệm vụ sẽ dần thay đổi, đòi hỏi các công cụ và nhân sự phải được cập nhật và lặp lại. Tuy nhiên, các mô hình lớn vẫn đang trong giai đoạn phát triển ban đầu và nhu cầu thị trường đối với người chú thích thay đổi tùy theo nhiệm vụ.So với các dự án CV (Thị giác máy tính), người chú thích NLP (Xử lý ngôn ngữ tự nhiên) có yêu cầu cao hơn về khả năng hiểu, The yêu cầu về thuật ngữ chuyên môn và kiến thức về lĩnh vực cao hơn, đồng thời phải cung cấp kho tài liệu chính xác và đáng tin cậy.”

Người phụ trách cho biết các vấn đề mà các mô hình lớn đặt ra đối với việc chú thích dữ liệu được phản ánh nhiều hơn ở thiết kế cấp cao nhất. Đối với mỗi tác vụ chú thích dữ liệu, cách hiểu nhu cầu kịch bản ứng dụng của khách hàng, thiết kế một bộ giải pháp như lựa chọn dữ liệu, thiết kế phân phối dữ liệu và thiết kế quy trình có thể được triển khai hiệu quả và với chi phí thấp cũng như cách cải thiện hiệu quả và khả năng của các công cụ nền tảng là chìa khóa Một thách thức lớn hơn.

Điều này phụ thuộc vào sự tham gia của các chuyên gia miền dọc với tư cách là người chú thích cấp cao, đưa chuyên môn và kinh nghiệm về miền vào thiết kế giải pháp và thậm chí tham gia vào quá trình lặp lại để kiểm tra chất lượng dữ liệu.

Zhang Ziqian, người đứng đầu hoạt động tại nhà cung cấp giải pháp dữ liệu Besai Technology, thẳng thắn cho biết hiện tại, về mặt đào tạo các mô hình quy mô lớn, không có sự khác biệt rõ ràng về độ khó công việc và mức lương theo giờ giữa những người chú thích cơ bản và những người chú thích trước đây đã tham gia lựa chọn khung hình. . **Khi tinh chỉnh các mô hình lớn và tạo ra các giải pháp theo lĩnh vực dọc cho khách hàng, vấn đề lớn nhất là làm thế nào để xây dựng được bộ dữ liệu chất lượng cao, đòi hỏi phải có các chuyên gia gán nhãn trong các lĩnh vực chuyên môn như CNTT, y học, tài chính. Sự khan hiếm.

OpenAI đã đầu tư cho hàng chục nghiên cứu sinh tiến sĩ vào việc hướng dẫn và đánh giá chú thích dữ liệu, đồng thời thuê ngoài chú thích dữ liệu cơ bản cho các công ty chú thích dữ liệu, nằm rải rác ở các khu vực thu nhập thấp như Châu Phi và Ấn Độ. **Người thực sự tạo ra sự khác biệt chính là những người chú giải cao cấp, những người chỉ chiếm tỷ lệ nhỏ. **

Bằng cách so sánh mô tả công việc của những người chú thích được Baidu tuyển dụng tại trụ sở Bắc Kinh và cơ sở chú thích dữ liệu Hải Khẩu, chúng ta có thể thấy rằng họ cũng dành cho việc đào tạo các mô hình lớn. một người chú thích dữ liệu cơ bản. , cả hai có mức lương rất khác nhau.

Nguồn ảnh: BOSS tuyển trực tiếp

** Nói cách khác, những người chú thích cấp cao hơn thực sự là những nhân tài chủ chốt trong việc đào tạo mô hình lớn, công việc của họ mang tính kỹ thuật và giá trị hơn, giá nhân công cũng cao hơn. **

**Ngược lại, ngay cả khi những thực tập sinh từ các trường danh tiếng này đến đào tạo các mô hình lớn thì ở giai đoạn này, về cơ bản họ vẫn giống như những người chú thích dữ liệu ngày xưa. **

**Thực tập sinh thường nói đùa với nhau rằng họ không làm việc trong một nhà máy lớn mà ở Internet Foxconn, và họ là công nhân trên dây chuyền lắp ráp. Họ không thể biết kết quả công việc của mình cuối cùng sẽ dẫn đến đâu, cũng như không thể tạo ra chuỗi ý nghĩa theo chiều ngang với những người xung quanh. **

Trò đùa "Internet Foxconn" này không chỉ đề cập đến công việc của những thực tập sinh này mà còn đề cập đến khối lượng công việc và mô hình quản lý gần như ngang bằng với dây chuyền lắp ráp của nhà máy.

Khối lượng công việc mà thực tập sinh phải hoàn thành hàng ngày có ranh giới đỏ về hiệu quả con người được quy định. Đối với Yang Xiaoyun, cô cần chấm 32 câu hỏi mỗi ngày, nếu không đạt vạch đỏ, cô phải báo cáo lý do hoặc làm thêm giờ để hoàn thành. Điều kiện tiên quyết để hoàn thành công việc là các tiêu chuẩn thay đổi liên tục của Hiệp hội Lazi và việc thu thập thông tin liên tục.

Để hoàn thành quá trình đào tạo mô hình nhanh nhất có thể, nhóm chú thích phải đối mặt với áp lực quản lý cao. Nhóm của Yang Xiaoyun không được phép nói chuyện trong giờ làm việc, cái giá của một vài cuộc nói chuyện nhỏ có thể sẽ bị cộng thêm vào khối lượng công việc, nếu không hoàn thành công việc, bạn sẽ bị nhắc nhở trong nhóm một cách điên cuồng. Kể cả khi bạn bị bệnh cũng phải hỏi để nghỉ phép, bạn có thể bị gián đoạn bởi một cuộc gọi khẩn cấp từ nhân viên thường trực của bạn.

Ngoài ra, để đảm bảo dữ liệu không bị rò rỉ, việc trao đổi chú thích dữ liệu giữa các nhóm bị nghiêm cấm. Ngay cả khi các thực tập sinh từ các nhóm khác nhau được bố trí ở gần nhau, họ cũng không thể thảo luận về nội dung công việc. Không ai trong số những thực tập sinh này biết có bao nhiêu nhóm được chia nhỏ trong nhãn dữ liệu của công ty và có bao nhiêu thực tập sinh. Một nhóm có thể có 10, 40, 50, 60 người hoặc hàng trăm người ở mỗi tầng.

Dưới vạch đỏ hiệu quả con người áp lực cao, Yang Xiaoyun chỉ có thể tạm thời “vui vẻ” khi gặp phải những câu hỏi bị cấm. Vì nội dung liên quan đến bạo lực, khiêu dâm, máu me phải bị xóa trực tiếp nhưng vẫn được tính vào hạng mục công việc cá nhân. "Nó tương đương với việc siết chặt một con vít xấu. Bạn sẽ chỉ hạnh phúc khi không phải siết chặt con vít đó." Trong quá trình phân công lao động vào buổi sáng, các thực tập sinh thậm chí còn tranh giành nhau để lấy những vật dụng bị cấm.

Sau khi Yang Xiaoyun tan làm sớm, cô thường đến thăm Khoảnh khắc của những thực tập sinh vẫn đang họp mặt ở công ty lúc 10 giờ tối, thậm chí là 12 giờ. Cũng có thực tập sinh gửi tin nhắn cho cô, khóc lóc nhưng vì đã thuê nhà không còn đường để đi nên nếu không kiên trì đồng nghĩa với việc sẽ lãng phí hết tiền thuê nhà.

5. Ở đây sẽ không bao giờ thiếu người

Nhưng không phải những người không kiên trì.

Li Zhuxi là một trong những thực tập sinh hiếm hoi có kinh nghiệm chú thích dữ liệu. Cô học ngôn ngữ học nhận thức, giải thích rằng hướng kết hợp ngôn ngữ học với thần kinh học, quan sát hình ảnh não bộ, trong đó có thiết lập giao diện não-máy tính, có mối liên hệ nhất định với trí tuệ nhân tạo.

Trước khi đến nhà máy lớn này, cô đã từng làm chú thích dữ liệu cho các mô hình ngôn ngữ lớn ở một nhà máy lớn khác, đó là trước khi ra mắt ChatGPT. Trong ấn tượng của Li Zhuxi, sau khi ChatGPT ra khỏi vòng tròn, các công việc thực tập chú thích dữ liệu tương tự mọc lên như nấm sau mưa.

Cô đã hoàn thành xuất sắc kỳ thực tập kéo dài ba tháng, mặc dù cô mô tả đây là một công việc "tương đối máy móc và không mấy khó khăn". Li Zhuxi mô tả rằng anh chú ý nhiều hơn đến kinh nghiệm: "Tôi không mong đợi công việc này thú vị. Trải nghiệm nó vẫn rất tốt. Tôi không chỉ có được kinh nghiệm thực tập trong một nhà máy lớn mà còn được trải nghiệm văn hóa doanh nghiệp độc đáo ở đây." "

Đối với Zhao Shuo, một sinh viên nghệ thuật tự do đến từ một trường học ở Shuangfei, vị trí thực tập biên tập trí tuệ nhân tạo trong một nhà máy lớn là lựa chọn cấp cao của anh.

Khi tìm kiếm một kỳ thực tập mùa hè, anh ấy thực sự thích vị trí điều hành trong viện nghiên cứu, viện nghiên cứu là một tổ chức công cộng và có đội ngũ nhân viên, điều này rất hấp dẫn Zhao Shuo. phản hồi nó có thể cung cấp cho tôi." . Nhưng cuối cùng, viện không chọn sinh viên năm nhất Zhao Shuo mà tuyển một sinh viên cấp cao hơn.

Có những người còn "xoăn" hơn.

Trong mắt Zhao Shuo, một số thực tập sinh sẽ làm việc đặc biệt chăm chỉ và đảm nhận nhiều nhiệm vụ hơn để tìm kiếm cơ hội trở thành nhân viên chính thức. Thái độ nghiêm túc, siêng năng sẽ chiếm được thiện cảm của những nhân viên toàn thời gian, “Lãnh đạo thường có những trao đổi nhất định với họ và cũng sẽ cấp cho họ một số ủy quyền quản lý để quản lý thực tập sinh”.

Công ty thậm chí còn tuyển chọn những thực tập sinh có thành tích xuất sắc hàng tuần và đăng ảnh của họ lên tường để ghi nhận, nhưng không nhất thiết phải có tiền thưởng khuyến khích, và ngành nghề kinh doanh của Zhao Shuo cũng không có.

Jia Yuhang, tổng giám đốc của Yunmei Data, nói với Jiaziguangnian rằng có hai con đường thăng tiến chính cho người chú thích dữ liệu: một là con đường chuyên gia. Sau khi nắm vững các kỹ năng liên quan trong các lĩnh vực dọc cụ thể, người chú thích cấp dưới có thể dần dần trở thành chuyên gia chú thích cấp cao. ;Thứ hai là con đường quản lý, trở thành người quản lý dự án.

Nhưng Triệu Thạc sẽ không lựa chọn ở lại. Sau một năm học cao học, Zhao Shuo nhận ra rõ ràng rằng kỳ vọng của anh đối với công việc tương lai đã giảm xuống. Cảm nhận được sự thay đổi ngày càng tăng của môi trường chung và quan sát sự không hài lòng của những sinh viên chọn việc làm sau khi tốt nghiệp, những công việc “cao cấp, phức tạp” và “không thể thay thế” được mong đợi trước đây của Zhao Shuo dần dần được thay thế bằng một công việc ổn định. Là một sinh viên nghệ thuật tự do, anh lo lắng rằng mình vẫn chưa thành thạo những kỹ năng không thể thay thế và hy vọng tìm được một công việc được quản lý trong cơ sở.

Khi trò chuyện, các thực tập sinh sẽ than thở với nhau rằng công việc họ đang làm có thể sẽ sớm bị thay thế bởi máy móc và việc cung cấp dữ liệu thủ công sẽ không còn cần thiết nữa.

Đối với Jia Yuhang, tổng giám đốc Dữ liệu đo lường đám mây, mối lo ngại tương tự không tồn tại. Với việc sản xuất hàng loạt các thuật toán thực tế và nâng cao khả năng khép kín của dữ liệu, tổng lượng dữ liệu được dán nhãn và lượng ghi nhãn dữ liệu thủ công vẫn tăng lên hàng năm. Trước đây là chú thích thủ công 100% nhưng hiện nay đã có một tỷ lệ nhất định là chú thích thủ công, chú thích tự động và xác minh thủ công. Trong tương lai, tỷ lệ ghi nhãn tự động có thể ngày càng lớn hơn. Tuy nhiên, mặc dù tỷ lệ chú thích thủ công đang giảm dần nhưng với sự phát triển dần dần của ngành trí tuệ nhân tạo và lượng dữ liệu ngày càng tăng, lượng chú thích thủ công sẽ tiếp tục tăng.

Sau khi nghỉ việc sớm, Yang Xiaoyun đã tìm được một công việc thực tập lập kế hoạch trò chơi mà cô thích. Không khí làm việc ở đó thoải mái và cô cảm thấy bổ ích hơn. Chỉnh sửa trí tuệ nhân tạo là một trải nghiệm thực tập "đen đủi" đối với cô. Đối với Đinh Tiểu Vũ mà nói, đó là một quá trình vỡ mộng, cho dù đi thực tập ở một nhà máy lớn mà cô hằng mong đợi, cô vẫn sẽ phải đối mặt với vô số công việc nhàm chán, cô cảm thấy điều này có thể là do năng lực của cô không mạnh. đủ hoặc có quá ít cơ hội để trải nghiệm. .

Nhưng ở đó sẽ không bao giờ thiếu người.

Yang Xiaoyun nghe nói rằng sau khi cô rời đi, đội đã mở rộng từ hàng chục lên hàng trăm trong vòng một tháng. Ding Xiaoyu phát hiện ra rằng cứ 10 ngày lại có một đợt thực tập sinh mới đến, mỗi đợt gồm hai mươi hoặc ba mươi người.

“Bạn có thể bỏ đi và chửi rủa và nói với cả thế giới rằng công việc của bạn tệ đến mức nào, nhưng sẽ có một lượng lớn người mới đến thay thế vị trí của bạn.”

*Theo yêu cầu của người được phỏng vấn, các nhân vật Chen Xi, Yang Xiaoyun, Ding Xiaoyu, Li Zhuxi và Zhao Shuo trong bài viết đều là bút danh.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)