Việc sử dụng các công cụ AI như ChatGPT ngày càng trở nên phổ biến. Khi tương tác với AI, chúng tôi biết rằng sự khác biệt trong các từ nhắc đầu vào sẽ ảnh hưởng đến kết quả đầu ra. Sau đó, nếu các từ gợi ý có cùng nghĩa được diễn đạt bằng các ngôn ngữ khác nhau thì kết quả có khác biệt lớn không? Ngoài ra, đầu vào và đầu ra của các từ gợi ý được liên kết trực tiếp với khối lượng tính toán đằng sau mô hình. Vì vậy, liệu có sự khác biệt tự nhiên hay “sự bất công” về sản lượng AI và mức tiêu hao chi phí giữa các ngôn ngữ khác nhau? Sự “bất công” này xảy ra như thế nào?
Người ta hiểu rằng từ nhắc nhở không thực sự tương ứng với văn bản mà tương ứng với một mã thông báo. Sau khi nhận được các từ gợi ý do người dùng nhập vào, mô hình sẽ chuyển đổi dữ liệu đầu vào thành danh sách token để xử lý và dự đoán, đồng thời chuyển đổi các token được dự đoán thành các từ mà chúng ta thấy ở đầu ra. Nghĩa là, mã thông báo là đơn vị cơ bản để các mô hình ngôn ngữ xử lý và tạo văn bản hoặc mã. Có thể lưu ý rằng mỗi nhà sản xuất sẽ khai báo bối cảnh về số lượng mã thông báo mà mô hình của họ hỗ trợ, thay vì số lượng từ hoặc ký tự tiếng Trung được hỗ trợ.
Các yếu tố ảnh hưởng đến việc tính Token
Trước hết, mã thông báo không tương ứng với một từ tiếng Anh hoặc ký tự tiếng Trung và không có mối quan hệ chuyển đổi cụ thể giữa mã thông báo và từ. Ví dụ: theo công cụ tính toán token do OpenAI phát hành, từ hamburger được phân tách thành ham, bur và ger, tổng cộng có 3 token. Ngoài ra, nếu cùng một từ có cấu trúc khác nhau trong hai câu thì sẽ được ghi dưới dạng số token khác nhau.
Cách tính mã thông báo cụ thể chủ yếu phụ thuộc vào phương pháp mã thông báo được nhà sản xuất sử dụng. Mã thông báo là quá trình phân tách văn bản đầu vào và đầu ra thành các mã thông báo có thể được xử lý bằng mô hình ngôn ngữ. Quá trình này giúp mô hình xử lý các ngôn ngữ, từ vựng và định dạng khác nhau. Đằng sau ChatGPT là một phương thức mã hóa được gọi là "Mã hóa cặp byte" (BPE).
Hiện tại, số lượng mã thông báo mà một từ được phân tách thành có liên quan đến cách phát âm và cấu trúc của nó trong câu. Và sự khác biệt về tính toán giữa các ngôn ngữ khác nhau dường như rất lớn.
Lấy "hamburger" tiếng Trung tương ứng với "hamburger" làm ví dụ, ba ký tự tiếng Trung này được tính là 8 mã thông báo, tức là chúng được chia thành 8 phần.
Nguồn: ảnh chụp màn hình trang web chính thức của OpenAI
Lấy một đoạn văn khác để so sánh sự “không công bằng” trong cách tính token tiếng Trung và tiếng Anh.
Sau đây là một câu từ trang web chính thức của OpenAI: Bạn có thể sử dụng công cụ bên dưới để hiểu cách một đoạn văn bản sẽ được API mã hóa và tổng số mã thông báo trong đoạn văn bản đó. Câu này có tổng cộng 33 mã thông báo.
Nguồn: ảnh chụp màn hình trang web chính thức của OpenAI
Tiếng Trung tương ứng là: Bạn có thể sử dụng công cụ bên dưới để hiểu cách API mã hóa một đoạn văn bản và tổng số mã thông báo trong đoạn văn bản. Tổng cộng có 76 token.
Nguồn: ảnh chụp màn hình trang web chính thức của OpenAI
##Tiếng Trung và tiếng Anh đương nhiên là "không công bằng" trong AI
Có thể thấy số lượng token tiếng Trung có cùng nghĩa nhiều hơn gấp đôi so với tiếng Anh. Sự “không công bằng” giữa tiếng Trung và tiếng Anh trong đào tạo và lý luận có thể là do một từ trong tiếng Trung thường có thể diễn đạt nhiều nghĩa, cấu tạo ngôn ngữ tương đối linh hoạt, tiếng Trung còn có nội hàm văn hóa sâu sắc và ý nghĩa ngữ cảnh phong phú, tức là rất quan trọng Nó làm tăng đáng kể tính mơ hồ và khó xử lý của ngôn ngữ, tiếng Anh có cấu trúc ngữ pháp tương đối đơn giản, khiến tiếng Anh dễ xử lý và hiểu hơn tiếng Trung trong một số nhiệm vụ ngôn ngữ tự nhiên.
Người Trung Quốc cần xử lý nhiều mã thông báo hơn và mô hình này tiêu tốn nhiều bộ nhớ và tài nguyên máy tính hơn, và tất nhiên chi phí càng lớn.
Đồng thời, mặc dù ChatGPT có thể nhận dạng nhiều ngôn ngữ trong đó có tiếng Trung nhưng hầu hết các bộ dữ liệu mà nó sử dụng để đào tạo đều là văn bản tiếng Anh, khi xử lý các ngôn ngữ không phải tiếng Anh, nó có thể gặp phải những thách thức về cấu trúc và ngữ pháp ngôn ngữ, điều này sẽ ảnh hưởng đến hiệu ứng đầu ra. Một bài viết gần đây có tiêu đề "Các mô hình ngôn ngữ đa ngôn ngữ có hoạt động tốt hơn bằng tiếng Anh không?" "Bài báo (Các mô hình ngôn ngữ đa ngôn ngữ có suy nghĩ tốt hơn bằng tiếng Anh không?) đề cập rằng khi ngôn ngữ không phải tiếng Anh được dịch sang tiếng Anh, kết quả đầu ra sẽ tốt hơn kết quả của việc sử dụng trực tiếp ngôn ngữ không phải tiếng Anh làm từ gợi ý.
Đối với người dùng Trung Quốc, có vẻ như việc dịch tiếng Trung sang tiếng Anh trước rồi tương tác với AI dường như hiệu quả và tiết kiệm chi phí hơn. Xét cho cùng, việc sử dụng API mô hình GPT-4 của OpenAI tốn ít nhất 0,03 USD cho mỗi 1.000 mã thông báo đầu vào.
Do sự phức tạp của ngôn ngữ Trung Quốc, các mô hình AI có thể phải đối mặt với những thách thức trong việc sử dụng dữ liệu tiếng Trung để đào tạo và lý luận chính xác, đồng thời làm tăng khó khăn trong việc áp dụng và duy trì các mô hình Trung Quốc. Đồng thời, đối với các công ty phát triển mô hình lớn, việc sản xuất mô hình lớn của Trung Quốc có thể phải chịu chi phí lớn hơn vì cần thêm nguồn lực.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Các mẫu lớn của Trung Quốc đắt hơn của Anh, liệu điều này có thực sự được quyết định bởi các nguyên tắc cơ bản của AI?
Nguồn: Sức mạnh công nghệ tương lai
Tác giả: Li Xinshuai
Việc sử dụng các công cụ AI như ChatGPT ngày càng trở nên phổ biến. Khi tương tác với AI, chúng tôi biết rằng sự khác biệt trong các từ nhắc đầu vào sẽ ảnh hưởng đến kết quả đầu ra. Sau đó, nếu các từ gợi ý có cùng nghĩa được diễn đạt bằng các ngôn ngữ khác nhau thì kết quả có khác biệt lớn không? Ngoài ra, đầu vào và đầu ra của các từ gợi ý được liên kết trực tiếp với khối lượng tính toán đằng sau mô hình. Vì vậy, liệu có sự khác biệt tự nhiên hay “sự bất công” về sản lượng AI và mức tiêu hao chi phí giữa các ngôn ngữ khác nhau? Sự “bất công” này xảy ra như thế nào?
Người ta hiểu rằng từ nhắc nhở không thực sự tương ứng với văn bản mà tương ứng với một mã thông báo. Sau khi nhận được các từ gợi ý do người dùng nhập vào, mô hình sẽ chuyển đổi dữ liệu đầu vào thành danh sách token để xử lý và dự đoán, đồng thời chuyển đổi các token được dự đoán thành các từ mà chúng ta thấy ở đầu ra. Nghĩa là, mã thông báo là đơn vị cơ bản để các mô hình ngôn ngữ xử lý và tạo văn bản hoặc mã. Có thể lưu ý rằng mỗi nhà sản xuất sẽ khai báo bối cảnh về số lượng mã thông báo mà mô hình của họ hỗ trợ, thay vì số lượng từ hoặc ký tự tiếng Trung được hỗ trợ.
Các yếu tố ảnh hưởng đến việc tính Token
Trước hết, mã thông báo không tương ứng với một từ tiếng Anh hoặc ký tự tiếng Trung và không có mối quan hệ chuyển đổi cụ thể giữa mã thông báo và từ. Ví dụ: theo công cụ tính toán token do OpenAI phát hành, từ hamburger được phân tách thành ham, bur và ger, tổng cộng có 3 token. Ngoài ra, nếu cùng một từ có cấu trúc khác nhau trong hai câu thì sẽ được ghi dưới dạng số token khác nhau.
Cách tính mã thông báo cụ thể chủ yếu phụ thuộc vào phương pháp mã thông báo được nhà sản xuất sử dụng. Mã thông báo là quá trình phân tách văn bản đầu vào và đầu ra thành các mã thông báo có thể được xử lý bằng mô hình ngôn ngữ. Quá trình này giúp mô hình xử lý các ngôn ngữ, từ vựng và định dạng khác nhau. Đằng sau ChatGPT là một phương thức mã hóa được gọi là "Mã hóa cặp byte" (BPE).
Hiện tại, số lượng mã thông báo mà một từ được phân tách thành có liên quan đến cách phát âm và cấu trúc của nó trong câu. Và sự khác biệt về tính toán giữa các ngôn ngữ khác nhau dường như rất lớn.
Lấy "hamburger" tiếng Trung tương ứng với "hamburger" làm ví dụ, ba ký tự tiếng Trung này được tính là 8 mã thông báo, tức là chúng được chia thành 8 phần.
Lấy một đoạn văn khác để so sánh sự “không công bằng” trong cách tính token tiếng Trung và tiếng Anh.
Sau đây là một câu từ trang web chính thức của OpenAI: Bạn có thể sử dụng công cụ bên dưới để hiểu cách một đoạn văn bản sẽ được API mã hóa và tổng số mã thông báo trong đoạn văn bản đó. Câu này có tổng cộng 33 mã thông báo.
Tiếng Trung tương ứng là: Bạn có thể sử dụng công cụ bên dưới để hiểu cách API mã hóa một đoạn văn bản và tổng số mã thông báo trong đoạn văn bản. Tổng cộng có 76 token.
##Tiếng Trung và tiếng Anh đương nhiên là "không công bằng" trong AI
Có thể thấy số lượng token tiếng Trung có cùng nghĩa nhiều hơn gấp đôi so với tiếng Anh. Sự “không công bằng” giữa tiếng Trung và tiếng Anh trong đào tạo và lý luận có thể là do một từ trong tiếng Trung thường có thể diễn đạt nhiều nghĩa, cấu tạo ngôn ngữ tương đối linh hoạt, tiếng Trung còn có nội hàm văn hóa sâu sắc và ý nghĩa ngữ cảnh phong phú, tức là rất quan trọng Nó làm tăng đáng kể tính mơ hồ và khó xử lý của ngôn ngữ, tiếng Anh có cấu trúc ngữ pháp tương đối đơn giản, khiến tiếng Anh dễ xử lý và hiểu hơn tiếng Trung trong một số nhiệm vụ ngôn ngữ tự nhiên.
Người Trung Quốc cần xử lý nhiều mã thông báo hơn và mô hình này tiêu tốn nhiều bộ nhớ và tài nguyên máy tính hơn, và tất nhiên chi phí càng lớn.
Đồng thời, mặc dù ChatGPT có thể nhận dạng nhiều ngôn ngữ trong đó có tiếng Trung nhưng hầu hết các bộ dữ liệu mà nó sử dụng để đào tạo đều là văn bản tiếng Anh, khi xử lý các ngôn ngữ không phải tiếng Anh, nó có thể gặp phải những thách thức về cấu trúc và ngữ pháp ngôn ngữ, điều này sẽ ảnh hưởng đến hiệu ứng đầu ra. Một bài viết gần đây có tiêu đề "Các mô hình ngôn ngữ đa ngôn ngữ có hoạt động tốt hơn bằng tiếng Anh không?" "Bài báo (Các mô hình ngôn ngữ đa ngôn ngữ có suy nghĩ tốt hơn bằng tiếng Anh không?) đề cập rằng khi ngôn ngữ không phải tiếng Anh được dịch sang tiếng Anh, kết quả đầu ra sẽ tốt hơn kết quả của việc sử dụng trực tiếp ngôn ngữ không phải tiếng Anh làm từ gợi ý.
Đối với người dùng Trung Quốc, có vẻ như việc dịch tiếng Trung sang tiếng Anh trước rồi tương tác với AI dường như hiệu quả và tiết kiệm chi phí hơn. Xét cho cùng, việc sử dụng API mô hình GPT-4 của OpenAI tốn ít nhất 0,03 USD cho mỗi 1.000 mã thông báo đầu vào.
Do sự phức tạp của ngôn ngữ Trung Quốc, các mô hình AI có thể phải đối mặt với những thách thức trong việc sử dụng dữ liệu tiếng Trung để đào tạo và lý luận chính xác, đồng thời làm tăng khó khăn trong việc áp dụng và duy trì các mô hình Trung Quốc. Đồng thời, đối với các công ty phát triển mô hình lớn, việc sản xuất mô hình lớn của Trung Quốc có thể phải chịu chi phí lớn hơn vì cần thêm nguồn lực.