Lời của Mark Wen Xin, 4.000 nhân dân tệ một tháng

Nguồn: Pinwan

Tác giả: Giấm

"Trí tuệ càng nhiều thì trí tuệ nhân tạo càng nhiều".

Những trò đùa được ẩn giấu đằng sau trí tuệ nhân tạo và cho đến nay chúng vẫn đúng. Đinh Dương vừa mới tốt nghiệp đại học, tạm thời có tương lai của mình ở nửa câu sau.

Đinh Dương lúc còn học đại học học kỹ thuật hóa học nhẹ, sau khi tốt nghiệp, phần lớn sinh viên trong khoa đều đến nhà máy giấy làm ba ca, anh không muốn đến nhà máy. Sau khi tốt nghiệp vào tháng 6 năm nay, Ding Yang trở lại Hải Khẩu, đầu tháng 8 lấy phiên bản điện tử của ngân hàng câu hỏi đào tạo. Hai ngày sau, anh trở thành người dán nhãn dữ liệu "tân binh" của Wenxin Yiyan.

Tòa nhà Thương gia Trung Quốc ở quận Xiuying, thành phố Hải Khẩu, từng được những người gắn nhãn dữ liệu của Wen Xinyi gọi là "cơ sở". Hơn hai trăm người ra vào căn cứ này, phân bổ khắp ba tầng của tòa nhà văn phòng này, trước khi vào làm phải ký cam kết không tiết lộ, khi vào cửa phải quét mặt mỗi người. có một chiếc máy tính. Nhiều máy tính được ông chủ thuê và vận chuyển từ Sơn Tây, vì ở địa phương không có nhiều người quen thuê những thiết bị này.

“Mua chiếc máy tính này không tốn 500 nhân dân tệ. Tôi đã từng đưa máy chủ đi tìm kiếm trên Xianyu, nó trị giá 60 nhân dân tệ. Tôi có thể cài đặt một chiếc tốt hơn nhiều với giá 500 nhân dân tệ.”

Ding Yang đăng ký ngành khoa học máy tính trong kỳ thi tuyển sinh đại học, sau đó được chuyển sang ngành kỹ thuật hóa học nhẹ, nhưng anh không hứng thú với lĩnh vực này, thay vào đó anh đọc rất nhiều về kỹ thuật máy tính và phần mềm ở trường đại học, điều này khiến anh nhanh chóng biết đến nó. vào cuối năm ngoái Sự xuất hiện của ChatGPT.

Vào tháng 12, anh ấy đã đăng ký một tài khoản ChatGPT và sau đó “khả năng vượt quá dự đoán của tôi”, anh ấy nói.

Nguồn: Pinwan

Khi tôi gặp Ding Yang tại trạm làm việc trong căn cứ, câu hỏi trên màn hình máy tính trước mặt anh ấy là: “Tiêu chuẩn của một người thành công là gì?”

Đây có thể là câu hỏi thực sự của người dùng Wenxin Yiyan hoặc có thể là câu hỏi kiểm tra được tạo ra từ không khí mỏng, nhưng nó được đặt trước màn hình và cần được đánh dấu.

Việc ghi nhãn không hề dễ dàng.

Đối với một câu hỏi như vậy, Wen Xin Yiyan sẽ đưa ra năm câu trả lời khác nhau. Người gắn nhãn dữ liệu phải đọc nó và sau đó tìm ra tất cả các sai sót trong mỗi câu trả lời.

Ví dụ: có lỗi chính tả trong câu trả lời hoặc sử dụng sai các từ logic như “vì” và “vì vậy” nhưng hầu hết các câu trả lời đều không liên quan đến câu hỏi hoặc có những cái gọi là “ảo tưởng” không có thực tế. căn cứ vào một đoạn văn nhất định.

Anh ta sẽ cho năm câu trả lời này theo chất lượng của câu trả lời, với số điểm tối đa là 5 điểm, tổng cộng là năm cấp độ và tối thiểu là 1 điểm. Với những câu trả lời từ 3 điểm trở xuống, Ding Yang cần chia từng lỗi thành các loại lỗi khác nhau do hệ thống gán nhãn đưa ra.

Quá trình sửa lỗi phức tạp này nhằm đào tạo và tạo ra mô hình phần thưởng phù hợp RM (mô hình phần thưởng, còn được gọi là mô hình ưu tiên), đồng thời các hành động tính điểm và sắp xếp sẽ điều chỉnh mô hình phù hợp hơn với sở thích của con người.

Đây cũng chính là chìa khóa thành công của ChatGPT.Bài báo của OpenAI đã mô tả quá trình điều chỉnh trí tuệ nhân tạo phù hợp với ý tưởng của con người trong quá trình điều chỉnh hướng dẫn.

Trước công việc của người gắn nhãn dữ liệu, cần có thêm một số nhân sự chuyên nghiệp hơn để biến kho ngữ liệu khác nhau thành các cặp câu hỏi-trả lời cụ thể, sau đó đưa chúng vào mô hình lớn như các câu hỏi mẫu, sau đó được tối ưu hóa sau một số lượng lớn câu hỏi-trả lời. đào tạo dữ liệu, nó bắt đầu Trả lời các câu hỏi.

Ở giai đoạn này, người gắn nhãn dữ liệu sẽ đánh giá chất lượng của các câu trả lời do mô hình lớn tạo ra từ các khía cạnh về an toàn, chính xác và phù hợp. Cuối cùng, mô hình khen thưởng này sẽ thay thế công việc dán nhãn thủ công.

Đằng sau mức định giá hơn 30 tỷ USD của OpenAI là một số lượng lớn lao động dán nhãn dữ liệu người Kenya có mức lương mỗi giờ dưới 2 USD, nếu không thì đã không đứng trước Ding Yang vào tháng 12 năm ngoái.

Nhưng Ding Yang không biết định nghĩa về RM hay SFT, anh ấy nói rằng trước khi bắt đầu không có nội dung lý thuyết như vậy, và một số người ở đây thậm chí còn không biết Wen Xinyiyan anh ấy đang làm việc cho cái gì. Nhưng điều đó không quan trọng, điều quan trọng là hoàn thành công việc.

Mức lương cơ bản của công việc này, từ 9h đến 6h sáng và 6 ngày nghỉ, là 1.800 nhân dân tệ. Sau một tháng, nếu bạn chấm trung bình 40 câu/ngày sẽ được hưởng lương cơ bản. Lương cơ bản tính theo tỷ lệ hoàn thành, hoa hồng cũng phải tính theo tỷ lệ chính xác. Những “cựu chiến binh” đã ở đây một thời gian có khối lượng công việc ổn định 7, 80 ngày một ngày, những vấn đề gặp phải cũng khó khăn hơn. Trung bình, bạn có thể nhận được 4.000 nhân dân tệ một tháng, nếu bạn làm việc chăm chỉ hơn, ví dụ, nếu bạn đánh dấu khoảng 100 câu hỏi mỗi ngày, bạn có thể nhận được 7.000 nhân dân tệ một tháng.

Đối với một sinh viên mới ra trường như Ding Yang, 4.000 nhân dân tệ được coi là một công việc có khởi đầu khá tốt. Mức lương trung bình hàng tháng của người dân Hải Khẩu chỉ hơn 3.000 nhân dân tệ một chút, thậm chí cứ 10 người thì có 6 người không thể kiếm được 3.000 nhân dân tệ một tháng. Bột Hou'an nổi tiếng ở địa phương có giá 11 nhân dân tệ và những người gắn thẻ ChatGPT có thể mua một chiếc bát trong một giờ. So sánh, bột là đắt tiền. Theo ông, người dân Hải Khẩu không kiếm được nhiều tiền nhưng họ sẵn sàng chi tiêu cho thực phẩm.

Nguồn: Pinwan

“Cổ phiếu là thứ khó khăn nhất, hay ô tô,” Ding Yang nói. Có thể mất 20 phút để gặp sự cố ở khu vực này.

"Ví dụ: có người sẽ hỏi nên mua BMW 3 Series hay Mercedes-Benz C Series." Lúc này, mẫu xe lớn sẽ liệt kê hơn 80 thông số về hai chiếc xe để người dùng so sánh, và anh ta phải theo sau anh ta từng người một Xác minh tính xác thực của từng thông số.

Sau nửa tháng làm việc, hàng trăm câu hỏi đã được chấm, nhưng anh cho biết, trong ấn tượng của anh, được điểm 3 đã là tốt rồi, được điểm 4 thì hiếm có.

Anh nhớ ra một câu hỏi được 4 điểm, tiêu đề là "Tại sao Lin Daiyu lại chiến đấu với Bone Demon?"

Wen Xin không theo cột một lời, nhận ra Lin Daiyu không phải là người đánh bại Bone Demon, sau đó giới thiệu lai lịch của Lin Daiyu và Bone Demon. Từ mọi khía cạnh của chất lượng câu trả lời, điều này gần như hoàn hảo.

Tôi nêu câu hỏi này với Claude 2, thì nó nói: "Quỷ xương biến thành Vương Tây Phong và làm nhục Lin Daiyu nhiều lần, còn Lin Daiyu tức giận vì đã giết chết Bone Demon."—— Ảo giác quả thực đã đủ rắc rối.

Nguồn: Pinwan

Đầu năm 2020, “huấn luyện viên trí tuệ nhân tạo” chính thức trở thành một nghề và được đưa vào danh mục phân loại nghề quốc gia, 2 năm sau, làn sóng người mẫu cỡ lớn bất ngờ mở ra một lỗ hổng lớn hơn trong danh mục này.

Chứng kiến trí tuệ nhân tạo lấy đi công việc cũ của con người và rồi hy vọng nó sẽ tạo ra những công việc mới. Cũng giống như chiếc xe ngựa được thay thế bằng ô tô, ngành công nghiệp mới sẽ mang đến cho người lái xe một ẩn dụ chung về một thế giới lao động mới để làm giàu. Rất nhiều nhà đầu tư đang tìm kiếm mục tiêu bằng tiền đã mua câu nói này, và một số người thì không 'Đừng mua nó. Ví dụ, họ đã đặt nền móng cho việc học sâu. Bây giờ người Anh Geoffrey Hinton đang lo lắng.

Nhưng sáng tạo trực tiếp nhất hiện nay là người gắn nhãn dữ liệu mô hình lớn như Ding Yang.

Trước năm 2022, biên giới của trí tuệ nhân tạo vẫn được xác định bởi những chiếc xe tự lái không thể tự điều khiển.Có một ẩn dụ lạnh lùng dành cho những người dán nhãn dữ liệu:

“Nếu bạn coi AI như một con vật thì công việc của người dán nhãn dữ liệu gần tương đương với việc chuẩn bị thức ăn.”

Công việc rẻ tiền, lặp đi lặp lại - thậm chí còn không đủ gần để trở thành người cung cấp lương thực.

Là một máy dán nhãn dữ liệu truyền thống, công việc hàng ngày chỉ là quan sát cẩn thận từng hình ảnh nhận được, khoanh tròn đường viền của một chiếc ô tô hoặc một con chó, dán nhãn, kéo và thả vào các thư mục khác nhau; hoặc sử dụng ma trận điểm Công cụ đánh dấu các chướng ngại vật trong mỗi khung hình của video lái xe, để lại một "khu vực có thể lái xe" hoàn chỉnh.

Một hành động như vậy có thể được người dán nhãn dữ liệu thực hiện 2.000 lần một ngày.

Trí tuệ nhân tạo chỉ có thể học được dữ liệu được dán nhãn. Một nhà cung cấp dữ liệu lái xe tự động từng tuyên bố rằng mức độ tự động hóa việc ghi nhãn dữ liệu vẫn chỉ là 5% kể từ khi phát triển việc ghi nhãn dữ liệu, và 95% công việc ghi nhãn còn lại vẫn được thực hiện thủ công.

Sau khi mô hình lớn xuất hiện, kiểu ghi nhãn dữ liệu bắt đầu thay đổi. Không chỉ đơn giản là vẽ các ô, vẽ điểm hay vẽ đường trên màn hình, công việc chính của máy dán nhãn dữ liệu mô hình lớn là đánh giá, sắp xếp và chấm điểm nội dung được tạo ra, nếu liên quan đến nhiều vòng đối thoại hoặc tạo nội dung đa phương thức, độ khó Một sự gia tăng mạnh mẽ khác.

Nếu nói rằng chú thích mô hình trong thời đại CV và NLP truyền thống có xu hướng hoạt động theo quy luật khách quan thì quy tắc chú thích của các mô hình lớn mang tính chủ quan hơn, đồng thời nó cũng kiểm tra chất lượng nhân sự chú thích. Vì điều này, các nhóm gắn nhãn mô hình lớn của Baidu ở Hải Khẩu và Sơn Tây đều là sinh viên đại học trở lên.

Những người dán nhãn thông thường ở căn cứ Hải Khẩu có cơ hội được thăng chức thành thanh tra chất lượng, sau đó họ có thể trở thành người đào tạo, rồi người giám sát và cuối cùng là người quản lý dự án. Đây là một kênh được thành lập trong vòng vài tháng. Một đại lý thực hiện chú thích dữ liệu cho Wenxin Yiyan ở Hải Khẩu cho biết, sau thời gian thử việc, người ta có thể được thăng chức nếu có vị trí nội bộ và không có mốc thời gian.

Đây là một ngành công nghiệp mới đang hình thành nhanh chóng. “Mỗi liên kết đều là một người mới,” Ding Yang nói.

Sau khi người kiểm tra chất lượng hoàn thành lần rà soát thứ nhất sẽ bàn giao ngân hàng câu hỏi cho đợt rà soát thứ hai. Cuộc đánh giá thứ hai được thực hiện nội bộ bởi Baidu và dữ liệu đào tạo nằm ngoài tầm tay của nhóm gắn nhãn của Ding Yang.

Ding Yang, người làm việc cho Wen Xinyiyan, và hơn 200 người trong toàn bộ căn cứ không phải là nhân viên của Baidu.

Những người dán nhãn ở căn cứ Hải Khẩu thuộc về bốn cơ quan khác nhau. Hợp đồng lao động của họ được ký kết với các công ty ghi nhãn dữ liệu bên thứ ba này. Lịch sử lâu dài của Baidu về trí tuệ nhân tạo từ tìm kiếm, lái xe tự động đến các mô hình quy mô lớn đứng sau hơn 600 đại lý trên toàn quốc và 200.000 nhà gắn nhãn dữ liệu tại hơn 300 thành phố.

Baidu giả định rằng quy mô đội ngũ người mẫu quy mô lớn toàn thời gian của họ là gần 10.000 người, kế hoạch này sẽ được thực hiện như một "căn cứ" mới tại hơn 10 thành phố trên cả nước trong tương lai.

Hu Chi, giám đốc sản phẩm của Cơ sở chú thích dữ liệu đám mây thông minh Baidu, tin rằng người chú thích dữ liệu mô hình lớn sẽ là một nghề nghiệp lâu dài. Với việc nâng cao khả năng của mô hình lớn trong nhiều tình huống khác nhau, các vấn đề mới sẽ xuất hiện, đồng nghĩa với việc các yêu cầu ghi nhãn mới sẽ xuất hiện, con người sẽ luôn cần sự liên kết siêng năng như vậy.

Đinh Dương nói sẽ rời khỏi đây.

Có hơn 20 người dán nhãn dữ liệu mới vào nghề cùng lúc với anh, và hầu hết đều rời đi sớm - hầu hết đều tự nguyện rời đi. Nội dung công việc nhàm chán, cách kiếm tiền theo lương sản phẩm và cách tiêu dùng của con người, không khó để tưởng tượng rằng đây sẽ là một vị trí có tính linh hoạt cao. Và cho dù mọi người có hoan nghênh đến đâu thì cảm giác bất an khi bị thay thế bởi máy móc vẫn hiện hữu, điều mà ai cũng thích chứng kiến.

Ding Yang coi đây là cơ hội để phát triển cùng ngành. “Hãy thử xem bạn có thể trở thành người giám sát hay không”, anh nói trước khi tìm được một vị trí gần hơn với làn sóng AI.

(Ding Yang là bút danh trong văn bản)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)