Bất bình đẳng trong mô hình AI: Đào tạo tiếng Trung đắt gấp đôi tiếng Anh!

2023-08-03 05:55:41

Nguồn: Ifanr

Tác giả: Mặc Sùng Vũ

Gần đây, người dùng X (trước đây là Twitter) @Dylan Patel đã trình bày một nghiên cứu từ Đại học Oxford: Bằng cách nghiên cứu ngôn ngữ của GPT-4 và hầu hết các LLM phổ biến khác, nghiên cứu đã phát hiện ra rằng chi phí suy luận của LLM (Mô hình ngôn ngữ lớn) là rất khác nhau. to lớn.

Trong số đó, tiếng Anh đầu vào và đầu ra rẻ hơn nhiều so với các ngôn ngữ khác, chi phí của tiếng Trung giản thể gấp khoảng 2 lần tiếng Anh, chi phí của tiếng Tây Ban Nha gấp 1,5 lần tiếng Anh và chi phí của tiếng Miến Điện Shan gấp 15 lần tiếng Anh. .

Nguyên tắc này có thể bắt nguồn từ một bài báo được xuất bản bởi Đại học Oxford trên arXiv vào tháng 5 năm nay.

Lexical là quá trình chuyển đổi văn bản ngôn ngữ tự nhiên thành một chuỗi các mã thông báo, đây là bước đầu tiên trong mô hình ngôn ngữ xử lý văn bản. Trong tính toán chi phí điện toán LLM, càng nhiều mã thông báo, chi phí điện toán càng cao.

Không còn nghi ngờ gì nữa, trong xu hướng thương mại hóa AI tổng quát, chi phí sức mạnh tính toán cũng sẽ được tính cho người dùng, nhiều dịch vụ AI hiện tại được tính phí theo số lượng từ cần xử lý.

Bài báo chỉ ra rằng sau khi phân tích 17 phương pháp bổ đề, các nhà nghiên cứu phát hiện ra rằng độ dài của cùng một văn bản được chuyển đổi thành các chuỗi bổ đề trong các ngôn ngữ khác nhau.

Ví dụ: theo mã thông báo GPT3 của OpenAI, nếu bạn mã hóa "tình yêu của bạn", thì chỉ cần hai mã thông báo bằng tiếng Anh, trong khi cần có tám mã thông báo bằng tiếng Trung giản thể. Mặc dù văn bản tiếng Trung giản thể chỉ có 4 ký tự và văn bản tiếng Anh có 14 ký tự.

Từ những bức ảnh do người dùng X @Dylan Patel tiết lộ, cũng có thể thấy bằng trực giác rằng phải mất 17 mã thông báo (token) để LLM xử lý một câu tiếng Anh và 198 mã thông báo (token) để LLM xử lý một câu tiếng Miến Điện với đồng nghĩa. Điều này có nghĩa là tiếng Miến Điện sẽ đắt hơn 11 lần để xử lý so với tiếng Anh.

Có rất nhiều tình huống tương tự. Trang web của Aleksandar Petrov cung cấp nhiều biểu tượng và dữ liệu liên quan. Bạn bè quan tâm có thể nhấp vào "Enter để xem sự khác biệt giữa các ngôn ngữ.

Ngoài ra còn có một trang tương tự trên trang web chính thức của OpenAI, giải thích cách API bổ sung từ vựng cho một đoạn văn bản và hiển thị tổng số mã thông báo trong văn bản. Trang web chính thức cũng đề cập rằng một bổ đề thường tương ứng với khoảng 4 ký tự trong một văn bản tiếng Anh và 100 bổ đề tương đương với khoảng 75 từ.

Nhờ độ dài ngắn của các chuỗi từ vựng tiếng Anh, tiếng Anh là người chiến thắng lớn nhất về hiệu quả chi phí của việc đào tạo trước trí tuệ nhân tạo tổng quát, bỏ xa những người sử dụng ngôn ngữ khác, gián tiếp tạo ra một tình huống không công bằng.

Trong số những thứ khác, sự khác biệt về độ dài chuỗi mã thông báo này có thể dẫn đến độ trễ xử lý không công bằng (một số ngôn ngữ mất nhiều thời gian hơn để xử lý cùng một nội dung) và mô hình hóa không công bằng của các phụ thuộc chuỗi dài (một số ngôn ngữ chỉ có thể xử lý văn bản ngắn hơn).

Nói một cách đơn giản, người dùng một số ngôn ngữ nhất định phải trả chi phí cao hơn, bị chậm trễ hơn và đạt hiệu suất kém hơn, do đó làm giảm khả năng tiếp cận công bằng của họ với các cơ hội công nghệ ngôn ngữ, điều này gián tiếp dẫn đến việc người dùng nói tiếng Anh và AI hình thành sự phân chia giữa phần còn lại của việc sử dụng ngôn ngữ của thế giới.

Chỉ tính riêng chi phí đầu ra, chi phí của tiếng Trung giản thể cao gấp đôi tiếng Anh. Với sự phát triển chuyên sâu của lĩnh vực AI, tiếng Trung giản thể vốn luôn "đi một bước" rõ ràng là không thân thiện. Dưới sự cân bằng của các yếu tố chồng chất như chi phí, các quốc gia không nói tiếng Anh cũng đang cố gắng phát triển các mô hình ngôn ngữ bản địa của riêng họ.

Lấy Trung Quốc làm ví dụ, với tư cách là một trong những người khổng lồ trong nước đầu tiên khám phá AI, vào ngày 20 tháng 3 năm 2023, Baidu đã chính thức ra mắt AI tổng hợp Wenxin Yiyan.

Sau đó, hàng loạt mô hình quy mô lớn xuất sắc, chẳng hạn như mô hình quy mô lớn Tongyi Qianwen của Alibaba và mô hình quy mô lớn Pangu của Huawei, lần lượt xuất hiện.

Trong số đó, mô hình lớn NLP trong mô hình lớn Pangu của Huawei là mô hình lớn đầu tiên của Trung Quốc với 100 tỷ tham số, có 110 tỷ tham số dày đặc và được đào tạo với 40TB dữ liệu khổng lồ.

Như Phó Tổng thư ký Liên hợp quốc Amina Mohamed từng cảnh báo tại Đại hội đồng Liên hợp quốc, nếu cộng đồng quốc tế không hành động dứt khoát, khoảng cách số sẽ trở thành "bộ mặt mới của bất bình đẳng".

Tương tự như vậy, với sự phát triển nhanh chóng của AI tạo ra, khoảng cách AI có thể sẽ trở thành một vòng mới của "những khuôn mặt bất bình đẳng mới" đáng được chú ý.

May mắn thay, những gã khổng lồ công nghệ trong nước thường "ghê tởm" đã hành động.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
Gate 2025 Q2 Report Released
4k Phổ biến
Gate Derivatives Volume Hits New High
6k Phổ biến
CPI Data Incoming
3k Phổ biến
4Join Gate VIP to Win MacBook
29k Phổ biến
5MicroStrategy Buys More Bitcoin
496 Phổ biến
6BTC Hits New High
95k Phổ biến
7My Gate Moments
27k Phổ biến
8VIP Exclusive Airdrop Carnival
26k Phổ biến
9Fed June Meeting Minutes
7k Phổ biến
10Gate Alpha Trading Share
14k Phổ biến

Ghim

sơ đồ trang web