Người trong cuộc GPT-4 bị rò rỉ, thông số khổng lồ 1,8 nghìn tỷ, đào tạo mã thông báo 13 nghìn tỷ, đã chi 63 triệu đô la Mỹ

2023-07-11 06:18:15

Nguồn: "Xinzhiyuan" (ID: AI_era)

Vừa rồi, GPT-4 của OpenAI lại được "mã nguồn mở" bởi những người trong ngành một lần nữa!

Chúng bao gồm các thông số và thông tin rất cụ thể như kiến trúc của GPT-4, cơ sở hạ tầng đào tạo và suy luận, khối lượng tham số, tập dữ liệu đào tạo, số mã thông báo, chi phí và Tổ hợp chuyên gia (MoE).

Đặc biệt, đằng sau các dự án khác nhau, OpenAI có trọng lượng như thế nào. Và làm thế nào để vượt qua nút cổ chai lớn nhất trong suy luận mô hình lớn.

Ai đã làm một tiết lộ nặng nề như vậy đến từ?

Tác giả của bài báo là hai cộng tác viên của SemiAnalysis tên là Dylan Patel và Gerald Wong.

Điều đáng nói là Dylan Patel cũng là một trong những tác giả của vụ rò rỉ tài liệu nội bộ của Google (“Chúng tôi không có hào, và OpenAI cũng vậy”), vụ việc trước đây đã gây náo động trong ngành.

Giám đốc điều hành DeepMind Hassabis gần đây đã xác nhận tính xác thực của các tài liệu bị rò rỉ từ các kỹ sư của Google trong một cuộc phỏng vấn với phương tiện truyền thông nước ngoài The Verge.

Có thể thấy rằng Dylan Patel thực sự có một số kênh đặc biệt, điều này khiến cho tiết lộ ngày nay trở nên chân thực hơn một chút.

Li Zhifei, CEO của Đi ra ngoài để hỏi, cũng có bài phát biểu

Nhiều công ty có thể tạo GPT-4

Theo ý kiến của tác giả bài báo nóng hổi, lý do OpenAI không mở không phải để đảm bảo loài người không bị AI hủy diệt mà vì những thứ họ tạo ra có thể tái tạo được.

Ông thậm chí còn dự đoán rằng trong tương lai, tất cả các công ty Internet lớn hoặc công ty khởi nghiệp AI ở Trung Quốc và Hoa Kỳ sẽ có thể xây dựng một mô hình giống như GPT-4 hoặc thậm chí vượt qua GPT-4.

Nhưng ông cũng thừa nhận rằng GPT-4 là một kiệt tác tuyệt vời của OpenAI. Nó cô đọng thiết kế khéo léo của kỹ sư, cấu trúc phức tạp và nhiều sự đánh đổi kỹ thuật khéo léo khác nhau.

Con hào bền vững nhất của OpenAI là họ có phản hồi từ người dùng thực, những tài năng kỹ thuật hàng đầu trong ngành và vị trí dẫn đầu liên tục do lợi thế của người đi đầu mang lại.

Khung mô hình

Đầu tiên, tác giả đưa tin cho rằng GPT-4 chứa tổng cộng 1,8 nghìn tỷ tham số trong 120 lớp, trong khi GPT-3 chỉ có khoảng 175 tỷ tham số.

Nói cách khác, quy mô của GPT-4 gấp hơn 10 lần so với GPT-3.

Trước đây, trên Internet đã nói rằng tham số của GPT-4 là 1 nghìn tỷ, có vẻ như bị đánh giá thấp so với tình hình thực tế.

Để giữ chi phí hợp lý, OpenAI áp dụng mô hình MoE để xây dựng.

Cụ thể, GPT-4 có 16 mô hình chuyên gia với khoảng 111 tỷ tham số cho mỗi chuyên gia MLP. Trong số đó, hai mô hình chuyên gia được sử dụng để truyền về phía trước.

Mặc dù có rất nhiều cuộc thảo luận trong tài liệu về các thuật toán nâng cao để chọn chuyên gia mà mỗi mã thông báo trỏ đến, người ta nói rằng thuật toán được OpenAI sử dụng cho GPT-4 thực sự rất đơn giản.

Ngoài ra, có khoảng 55 tỷ tham số trong mô hình, được sử dụng để chia sẻ cơ chế chú ý.

Trong mỗi lý do lan truyền về phía trước (tạo mã thông báo), GPT-4 chỉ cần sử dụng khoảng 280 tỷ tham số và 560TFLOP.

Điều này hoàn toàn trái ngược với nhiều mô hình hoàn toàn dày đặc yêu cầu khoảng 1,8 nghìn tỷ tham số và 3700 TFLOP cho mỗi lần chuyển tiếp.

Thành phần của tập dữ liệu

OpenAI đã đào tạo GPT-4 với 13 nghìn tỷ mã thông báo.

Tập dữ liệu này không chỉ chứa 13 nghìn tỷ mã thông báo mà do không có mã thông báo chất lượng cao nên tập dữ liệu này còn chứa nhiều kỷ nguyên.

Bên trong Scale AI và bộ dữ liệu, hàng triệu dòng dữ liệu tinh chỉnh hướng dẫn cũng được bao gồm.

Tuy nhiên, tác giả tiết lộ nói rằng họ không tìm thấy nhiều thông tin về các dữ liệu RLHF này.

Độ dài bối cảnh trong giai đoạn tiền đào tạo đạt 8K (phần tiếp theo) và phiên bản 32k được tinh chỉnh dựa trên phiên bản 8K được đào tạo trước.

Kích thước lô tăng dần trong vài ngày trong cụm và kích thước lô cuối cùng được OpenAI sử dụng là 60 triệu.

Tất nhiên, đây là "chỉ" kích thước của mô hình chuyên gia ở mức 7,5 triệu mã thông báo mỗi mã, vì không phải mọi mô hình chuyên gia sẽ thấy tất cả các mã thông báo.

Chiến lược song song

Chiến lược song song rất quan trọng đối với A100GPU.

OpenAI sử dụng cơ chế song song tensor 8 chiều, vì NVLink chỉ hỗ trợ rất nhiều.

Nhưng ngoài ra, tác giả của tin tức nóng hổi đã nghe nói rằng OpenAI sử dụng 15 đường ống song song.

Về lý thuyết, 15 đường ống là hơi nhiều khi xem xét thời gian truyền dữ liệu và tính toán.

Nhưng vì giới hạn của dung lượng bộ nhớ, nên rất nhiều đường ống có ý nghĩa.

Khi hoàn toàn theo đường ống và tensor-parallel, tham số FP16 là khoảng 30GB cho mỗi GPU.

Nhưng một khi bộ đệm KV và chi phí được thêm vào, nếu hầu hết các GPU được OpenAI sử dụng là A100 40GB, thì về mặt lý thuyết, kiến trúc như vậy sẽ có ý nghĩa.

Có thể OpenAI đang sử dụng ZeRo Giai đoạn 1 và có thể đang sử dụng FSDP cấp khối hoặc tính song song dữ liệu được chia sẻ kết hợp.

Tại sao họ không sử dụng mô hình đầy đủ của FSDP? Có lẽ là do chi phí truyền thông cao.

Mặc dù OpenAI có mạng tốc độ cao giữa hầu hết các nút, nhưng nó không bao phủ tất cả các nút.

Trong số đó, ít nhất một số cụm sẽ có băng thông kết nối thấp hơn nhiều so với các cụm khác.

Tuy nhiên, tác giả nói rằng ông không hiểu lắm về cách OpenAI tránh việc tạo ra "bong bóng khổng lồ" trong mỗi đợt theo quy trình song song cao như vậy.

Chi phí đào tạo

OpenAI đào tạo GPT-4 với khoảng 2,15e25 FLOPS, được đào tạo trên khoảng 25.000 A100 trong 90 đến 100 ngày và tỷ lệ sử dụng là từ 32% đến 36%.

Tỷ lệ sử dụng cực kỳ thấp này một phần là do số lượng lỗi cao, yêu cầu bắt đầu lại quá trình đào tạo từ các điểm kiểm tra trước đó. Chẳng hạn như chi phí bong bóng đã đề cập ở trên.

Chi phí đào tạo lãng phí trong trường hợp này là cực kỳ cao.

Một lý do khác là việc giảm tất cả trong số rất nhiều GPU là rất tốn kém.

Sơ đồ này giả định rằng việc không thể kết hợp từng thao tác, băng thông bộ nhớ theo yêu cầu của cơ chế chú ý và chi phí phần cứng tương đương với việc đọc tham số dẫn đến sự thiếu hiệu quả. Trên thực tế, ngay cả với một thư viện được tối ưu hóa như thư viện FasterTransformer của Nvidia, tổng chi phí có thể còn lớn hơn

Tác giả của báo cáo nghi ngờ rằng nếu cụm này thực sự là một nhóm các cụm nhỏ hơn có kết nối mạng yếu hơn, thì tốc độ kết nối không chặn (non-block) giữa các phần khác nhau của cụm là 800G/1.6T, nhưng các phần này tốc độ kết nối giữa chúng chỉ là 200G/400G.

Nếu chi phí của điện toán đám mây OpenAI là khoảng 1 USD/A100 giờ, thì trong những điều kiện như vậy, chi phí đào tạo là khoảng 63 triệu USD.

Điều này không bao gồm tất cả các thử nghiệm, đào tạo không thành công và các chi phí khác, chẳng hạn như thu thập dữ liệu, RLHF, chi phí con người, v.v.

Nếu tính đến các yếu tố vừa nêu, chi phí thực tế còn cao hơn nhiều.

Ngoài ra, điều này phải dựa trên tiền đề là những người khác có thể mua chip/mạng/trung tâm dữ liệu, chịu chi phí vốn để xây dựng các hệ thống này và cho OpenAI thuê chúng.

Nhưng ngày nay, ở mức 2 USD/H100 giờ, quá trình đào tạo trước có thể được thực hiện trên khoảng 8.192 chiếc H100 chỉ trong 55 ngày với chi phí 21,5 triệu USD.

Hình trên cho thấy số lượng tham số và mã thông báo cho một số mô hình nâng cao có sẵn công khai. Đường trong hình là các quan sát theo tỷ lệ Chinchilla của Google DeepMind (các thanh lỗi lớn hơn được làm nhẵn), mỗi điểm trên đường hiển thị FLOPS lý thuyết cần thiết để đào tạo mô hình với tham số và số lượng mã thông báo đó

Tuy nhiên, tác giả báo cáo cho biết đến cuối năm nay, ít nhất 9 công ty sẽ có cụm H100 vượt quy mô nói trên.

Mặc dù không phải tất cả các công ty này sẽ sử dụng tất cả chúng để đào tạo mô hình riêng lẻ, nhưng nếu có, họ sẽ có các mô hình lớn hơn GPT-4.

Ví dụ: Meta sẽ có hơn 100.000 H100 vào cuối năm nay, nhưng một phần đáng kể trong số đó sẽ được phân phối trong trung tâm dữ liệu của riêng nó để suy luận.

Nhưng cụm đơn lẻ lớn nhất của nó vẫn sẽ vượt quá 25.000 H100.

Nói tóm lại, vào cuối năm nay, nhiều công ty sẽ có đủ tài nguyên máy tính để đào tạo các mô hình cỡ GPT-4.

Bảng này là chi phí tối ưu về mặt lý thuyết để đào tạo một mô hình trên Nvidia A100, không tính đến nhân lực cần thiết, công cụ ML Ops, thu thập/tiền xử lý dữ liệu, khôi phục lỗi, ví dụ học tập một lần/một vài lần, suy luận, v.v., nhiều các bộ phận Chi phí của

Đánh đổi trong Mô hình Chuyên gia Hỗn hợp

MoE (Mô hình chuyên gia hỗn hợp) là một cách tuyệt vời để giảm số lượng tham số trong quá trình suy luận, đồng thời tăng chúng.

Nhưng điều này là cần thiết để mỗi mã thông báo đào tạo mã hóa thêm thông tin, vì rất khó để có đủ mã thông báo chất lượng cao.

Nếu OpenAI thực sự muốn theo đuổi hiệu suất tốt nhất, họ cần đào tạo gấp đôi số mã thông báo để đạt được điều đó.

Điều đó đang được nói, OpenAI đã thực hiện khá nhiều sự đánh đổi.

Ví dụ: xử lý MoE trong quá trình suy luận là rất khó vì mọi phần của mô hình không được sử dụng ở mỗi lần tạo mã thông báo.

Điều này có nghĩa là một số bộ phận có thể không hoạt động trong khi các bộ phận khác đang hoạt động.

Tình trạng này có thể làm giảm đáng kể thời gian sử dụng khi phục vụ người dùng.

Các nhà nghiên cứu đã chỉ ra rằng việc sử dụng 64-128 mô hình chuyên gia mang lại hồ sơ tổn thất tốt hơn so với sử dụng 16 mô hình chuyên gia, nhưng đây chỉ là nghiên cứu.

Có nhiều lý do cho việc sử dụng tương đối ít mô hình chuyên gia.Một trong những lý do khiến OpenAI chọn 16 chuyên gia là vì nhiều mô hình chuyên gia khó khái quát hóa trên nhiều nhiệm vụ.

Nó cũng khó đạt được sự hội tụ với các mô hình chuyên gia hơn.

Trong một quy trình đào tạo khổng lồ như vậy, OpenAI đã chọn cách thận trọng hơn về số lượng mô hình chuyên gia.

Hơn nữa, việc sử dụng ít mô hình chuyên gia hơn cũng giúp ích cho cơ sở hạ tầng suy luận của họ. Có nhiều sự đánh đổi và đánh đổi khó khăn khác nhau khi chuyển sang kiến trúc suy luận mô hình chuyên gia kết hợp.

Tác giả của tin tức nóng hổi bắt đầu với cuộc thảo luận về sự đánh đổi cơ bản của lý luận LLM, sau đó thảo luận về các vấn đề mà OpenAI gặp phải và các lựa chọn mà họ đưa ra.

Lý do đánh đổi

Nhân tiện, trước khi giới thiệu sự cân bằng suy luận, sau khi nói chuyện với tất cả các công ty LLM, người tố giác đã phát hiện ra rằng thư viện suy luận FasterTransformer của NVIDIA rất tệ và TensorRT thậm chí còn hơn thế.

Điều này có nghĩa là nếu Nvidia không sửa đổi, mọi người sẽ cần tạo giải pháp của riêng họ từ đầu.

Có ba sự đánh đổi chính khi lập luận về các mô hình ngôn ngữ lớn, thứ nguyên kích thước lô (số lượng người dùng được xử lý đồng thời) và số lượng chip được sử dụng, như sau:

1. Trì hoãn

Mô hình phải phản hồi trong một độ trễ hợp lý. Không ai muốn đợi vài giây trong ứng dụng trò chuyện trước khi bắt đầu nhận đầu ra. Thời gian xử lý để điền trước (mã thông báo đầu vào) và giải mã (mã thông báo đầu ra) khác nhau.

2. Thông lượng

Mô hình phải xuất ra một số lượng mã thông báo nhất định mỗi giây. Con người cần khoảng 30 mã thông báo mỗi giây. Đối với nhiều trường hợp sử dụng khác, cả thông lượng thấp hơn và cao hơn đều được chấp nhận.

3. Tỷ lệ sử dụng

Phần cứng chạy mô hình phải đạt được tỷ lệ sử dụng cao, nếu không chi phí sẽ rất cao. Mặc dù độ trễ cao hơn và thông lượng thấp hơn có thể được sử dụng để kết hợp nhiều yêu cầu của người dùng hơn với nhau nhằm đạt được mức sử dụng cao hơn, nhưng điều đó cũng làm tăng độ khó.

Chìa khóa để lý luận LLM là cân bằng hai điểm băng thông bộ nhớ và tính toán.

Yêu cầu băng thông lý thuyết của LLM: Có thể giả định rằng kích thước mô hình tối đa có thể chạy trên iPhone 14 là ~1 tỷ tham số FP16 hoặc ~4 tỷ tham số int4. Đây là giới hạn cơ bản của LLM dựa trên điện thoại thông minh. mô hình sẽ không được thông qua

Nói một cách đơn giản, mỗi tham số phải được đọc và có 2 FLOP được liên kết với nó.

Do đó, tỷ lệ của hầu hết các chip (H100 SXM chỉ có băng thông bộ nhớ 3TB/giây, nhưng FP8 có 2.000 TFLOP/giây) hoàn toàn không cân bằng khi suy luận với kích thước lô là 1.

Nếu chỉ có một người dùng (kích thước lô 1), băng thông bộ nhớ cần thiết để đọc từng tham số mỗi khi mã thông báo được tạo sẽ chi phối thời gian suy luận, trong khi thời gian tính toán hầu như không đáng kể.

Để mở rộng hiệu quả các mô hình ngôn ngữ lớn cho nhiều người dùng, kích thước lô phải lớn hơn 1. Nhiều người dùng chia sẻ chi phí đọc thông số. Ví dụ: với kích thước lô là 256/512, bạn có thể nhận được 512 FLOP/s hoặc 1024 FLOP/s trên mỗi byte bộ nhớ được đọc.

Tỷ lệ này gần với sự cân bằng của H100 giữa băng thông bộ nhớ và FLOPS. Điều này giúp đạt được mức sử dụng cao hơn nhưng phải trả giá bằng độ trễ cao hơn.

Dung lượng bộ nhớ được nhiều người coi là nút cổ chai lớn đối với suy luận LLM, vì các mô hình lớn yêu cầu nhiều chip để suy luận và dung lượng bộ nhớ cao hơn có nghĩa là chúng có thể phù hợp với ít chip hơn.

Tuy nhiên, thực sự tốt hơn là sử dụng nhiều chip hơn để độ trễ thấp hơn, thông lượng được tăng lên và kích thước lô lớn hơn có thể được sử dụng để sử dụng cao hơn.

Cơ sở hạ tầng và cân bằng suy luận GPT-4

Như đã đề cập ở trên, rất khó để suy luận GPT-4. Nhưng trở thành một bản mod MoE lại đưa ra một loạt khó khăn mới.

Mỗi chuyển tiếp tạo mã thông báo có thể được định tuyến đến một nhóm chuyên gia khác nhau. Điều này đặt ra vấn đề về sự đánh đổi giữa thông lượng, độ trễ và mức sử dụng ở các kích thước lô lớn hơn.

OpenAI's GPT-4 có 16 chuyên gia và mỗi chuyển tiếp sẽ chuyển tuyến tới 2 trong số họ.

Điều này có nghĩa là nếu kích thước lô là 8, thì mỗi lần đọc thông số của chuyên gia chỉ có thể có kích thước lô là 1.

Tồi tệ hơn, điều này có thể có nghĩa là một chuyên gia có kích thước lô là 8 trong khi các chuyên gia khác có kích thước lô là 4, 1 hoặc 0.

Đối với mỗi mã thông báo được tạo, thuật toán định tuyến sẽ gửi chuyển tiếp theo các hướng khác nhau, khiến độ trễ giữa mã thông báo và kích thước lô chuyên gia thay đổi đáng kể.

Cơ sở hạ tầng suy luận là một trong những lý do chính khiến OpenAI chọn số lượng chuyên gia ít hơn. Nếu họ chọn nhiều chuyên gia hơn, băng thông bộ nhớ sẽ trở thành nút cổ chai cho suy luận.

Cụm suy luận của OpenAI thường có thể đạt kích thước lô 4k+, nghĩa là ngay cả khi có sự cân bằng tải tốt nhất giữa các chuyên gia, quy mô lô của các chuyên gia chỉ khoảng 500 hoặc hơn. Điều này đòi hỏi một lượng sử dụng rất lớn để đạt được.

Theo người tố giác, chúng tôi được biết rằng OpenAI thực hiện suy luận trên một cụm gồm 128 GPU. Họ có nhiều cụm trong số này trên nhiều trung tâm dữ liệu và vị trí địa lý.

Suy luận sử dụng song song 8 chiều tensor và 16 chiều đường ống song song. Mỗi nút bao gồm 8 GPU chỉ có khoảng 130B thông số, tức là dưới 30GB cho mỗi GPU theo FP16 và dưới 15GB theo FP8/int8.

Điều này cho phép chạy suy luận trên A100 40GB miễn là kích thước bộ đệm KV cho tất cả các lô không quá lớn.

Các lớp chứa các chuyên gia khác nhau trên các nút khác nhau không được phân chia vì điều đó sẽ khiến lưu lượng mạng quá bất thường và việc tính toán lại bộ đệm KV giữa mỗi lần tạo mã thông báo sẽ quá tốn kém.

Đối với các phần mở rộng mô hình MoE trong tương lai và định tuyến có điều kiện, khó khăn lớn nhất là cách xử lý định tuyến của bộ đệm KV.

Mô hình có 120 lớp, vì vậy chúng có thể được phân phối đơn giản cho 15 nút khác nhau, nhưng vì nút đầu tiên cần thực hiện tải và nhúng dữ liệu nên nên đặt ít lớp hơn trên nút chính của cụm suy luận.

Ngoài ra, có một số tin đồn về "giải mã suy đoán" (theo sau), điều này cũng giải thích tại sao masternode cần chứa ít lớp hơn.

Chi phí suy luận

So với mẫu Davinchi với 175 tỷ thông số, GPT-4 đắt gấp 3 lần mặc dù thông số feed-forward chỉ tăng 1,6 lần.

Điều này chủ yếu là do GPT-4 yêu cầu cụm lớn hơn và đạt được mức sử dụng thấp hơn.

Các tác giả tin rằng chi phí suy ra độ dài chuỗi 8k của GPT-4 trên 128 A100 là 0,0049 USD trên 1.000 mã thông báo, trong khi chi phí suy ra độ dài chuỗi 8k của GPT-4 trên 128 H100 là 0,0021 USD trên 1.000 mã thông báo.

Lưu ý rằng điều này giả định mức sử dụng khá cao và giữ cho kích thước lô cao.

Nhưng rõ ràng là OpenAI đôi khi không được sử dụng đúng mức.

Về vấn đề này, tác giả đã đưa ra giả thuyết rằng OpenAI sẽ tắt cụm trong giờ thấp điểm, cấu hình lại các nút, tiếp tục đào tạo các mô hình thử nghiệm nhỏ hơn và thử nhiều công nghệ mới khác nhau để giảm chi phí suy luận.

Nếu OpenAI không làm như vậy, việc sử dụng chúng sẽ thấp hơn và chi phí của chúng sẽ tăng hơn gấp đôi.

Chú ý nhiều truy vấn

Ngoài ra, OpenAI cũng đang sử dụng Chú ý đa truy vấn (MQA).

Địa chỉ giấy tờ:

Nói tóm lại, chỉ cần một đầu chú ý và dung lượng bộ nhớ của bộ đệm KV có thể giảm đáng kể.

Mặc dù vậy, GPT-4 với độ dài 32k chắc chắn không thể chạy trên A100 40GB và có giới hạn trên đối với kích thước lô tối đa là 8k.

Xử lý hàng loạt liên tục

OpenAI triển khai kích thước lô thay đổi và xử lý lô liên tục.

Làm như vậy cho phép một số mức độ trễ tối đa và tối ưu hóa chi phí suy luận.

Giải mã đầu cơ

Nó đã được tiết lộ rằng OpenAI đã sử dụng "giải mã suy đoán" trong quá trình suy luận của GPT-4, quá trình này vẫn có độ không chắc chắn 100%.

Sự thay đổi về độ trễ từ mã thông báo này sang mã thông báo khác và sự khác biệt khi thực hiện các tác vụ truy xuất đơn giản so với các tác vụ phức tạp hơn dường như cho thấy điều này là có thể, mặc dù vẫn còn quá nhiều biến số để chắc chắn.

Tại đây, người tố giác đã thực hiện các sửa đổi/thêm thích hợp một số chi tiết để giải thích văn bản trong nghiên cứu "Tăng tốc suy luận LLM với giải mã suy đoán theo giai đoạn" của DeepMind.

Thường có hai giai đoạn để sử dụng LLM.

Đầu tiên là điền trước, trong đó văn bản gợi ý được đưa vào mô hình để tạo bộ đệm KV và tỷ lệ chênh lệch nhật ký (phân phối xác suất của các đầu ra mã thông báo có thể có) của đầu ra đầu tiên. Quá trình này thường nhanh vì toàn bộ văn bản nhắc có thể được xử lý song song.

Giai đoạn thứ hai là giải mã. Chọn một mã thông báo từ tỷ lệ cược nhật ký của đầu ra và đưa nó vào mô hình, điều này sẽ tạo ra tỷ lệ cược nhật ký của mã thông báo tiếp theo. Lặp lại quy trình này cho đến khi số lượng mã thông báo mong muốn được tạo.

Vì quá trình giải mã phải diễn ra tuần tự, mỗi lần các trọng số cần được truyền qua đơn vị tính toán để tạo ra một mã thông báo duy nhất. Vì vậy, giai đoạn thứ hai này rất chuyên sâu về tính toán (tức là tính toán FLOP/byte băng thông bộ nhớ) khi chạy theo lô nhỏ. Do đó, giải mã thường là phần tốn kém nhất của quá trình tạo tự hồi quy.

Đây là lý do tại sao mã thông báo đầu vào rẻ hơn nhiều so với mã thông báo đầu ra trong lệnh gọi API của OpenAI.

Ý tưởng cơ bản của "giải mã đầu cơ" là sử dụng mô hình dự thảo nhỏ hơn, nhanh hơn để giải mã trước nhiều mã thông báo, sau đó đưa chúng vào mô hình dự đoán theo đợt.

Nếu dự đoán của mô hình dự thảo là chính xác, tức là mô hình lớn hơn đồng ý với những dự đoán đó, nhiều mã thông báo có thể được giải mã bằng một đợt duy nhất, giúp tiết kiệm rất nhiều băng thông bộ nhớ và thời gian.

Tuy nhiên, nếu mô hình lớn hơn từ chối mã thông báo được dự đoán bởi mô hình dự thảo, lô còn lại sẽ bị loại bỏ và thuật toán tự nhiên trở lại giải mã từng mã thông báo tiêu chuẩn.

"Giải mã suy đoán" cũng có thể đi kèm với sơ đồ lấy mẫu từ chối để lấy mẫu từ phân phối ban đầu. Điều đáng chú ý là điều này chỉ hữu ích trong cài đặt lô nhỏ trong đó băng thông là nút cổ chai.

Giải mã suy đoán, giao dịch tính toán để lấy băng thông, là một mục tiêu kỹ thuật hiệu suất hấp dẫn vì hai lý do chính:

Đầu tiên, nó không làm giảm chất lượng mô hình. Thứ hai, các cải tiến hiệu suất mà nó mang lại thường trực giao với các phương pháp khác, vì hiệu suất của chúng đến từ việc chuyển đổi "thực thi tuần tự" thành "thực thi song song".

Phương pháp suy luận hiện tại là một chuỗi các dự đoán lô riêng biệt. Tuy nhiên, cách tiếp cận này không mở rộng tốt cho các đợt lớn hoặc sắp xếp mô hình dự thảo thấp.

Theo trực giác, xác suất của hai mô hình đồng ý về các chuỗi mã thông báo dài liền kề nhau là thấp theo cấp số nhân, ngụ ý rằng lợi nhuận từ giải mã đầu cơ giảm nhanh khi mật độ số học tăng lên.

Người tố cáo tin rằng nếu OpenAI sử dụng "giải mã đầu cơ", thì họ chỉ có thể sử dụng nó theo trình tự khoảng 4 mã thông báo.

Bên cạnh đó, toàn bộ âm mưu về việc thiến OpenAI, dẫn đến GPT-4 chất lượng thấp hơn, có thể đơn giản là do họ đưa các mô hình dự đoán của mình vào các chuỗi có xác suất thấp từ các mô hình "giải mã suy đoán".

Người ta cũng suy đoán rằng Bard cũng sử dụng "giải mã suy đoán" vì Google đợi toàn bộ chuỗi được tạo đầy đủ trước khi gửi cho người dùng, nhưng theo ý kiến của người tố giác, suy đoán này hoàn toàn không chính xác.

Trực quan đa phương thức

Khả năng đa phương thức trực quan là phần kém ấn tượng nhất của GPT-4, ít nhất là so với nghiên cứu hàng đầu.

Tất nhiên, chưa có ai thương mại hóa kết quả nghiên cứu LLM đa phương thức.

Người tố giác nói rằng nó là một bộ mã hóa hình ảnh độc lập với bộ mã hóa văn bản, cũng như sự chú ý chéo, kiến trúc tương tự như Flamingo và nhiều tham số hơn đã được thêm vào GPT-4 1.8T.

Khả năng đa phương thức của GPT-4 được tinh chỉnh với khoảng 2 nghìn tỷ mã thông báo sau khi đào tạo trước văn bản.

Người ta nói rằng trên mô hình trực quan, OpenAI ban đầu hy vọng sẽ đào tạo từ đầu, nhưng do chưa đủ trưởng thành nên nó không còn lựa chọn nào khác ngoài việc tinh chỉnh từ mô hình đào tạo văn bản.

Và mô hình thế hệ tiếp theo GPT-5, mô hình đào tạo sẽ đào tạo mô hình tầm nhìn từ đầu và có thể tạo hình ảnh và thậm chí tạo âm thanh.

Một trong những mục đích chính của khả năng trực quan này là cho phép các tác nhân tự động đọc các trang web và sao chép hình ảnh, video.

Điều đáng nói là dữ liệu được OpenAI sử dụng để đào tạo các mô hình đa phương thức bao gồm: "dữ liệu chung" (LaTeX/text), ảnh chụp màn hình trang web, video YouTube (khung lấy mẫu và chạy Whisper để lấy phụ đề).

Một sự thật thú vị về việc tối ưu hóa quá mức LLM là các mô hình trực quan có chi phí IO khác với các mô hình văn bản. Trong mô hình trực quan, IO tải dữ liệu gấp khoảng 150 lần so với mô hình văn bản.

Chi phí IO của mô hình trực quan thấp

Mỗi mã thông báo trong mô hình trực quan là 600 byte và văn bản là 4 byte/mã thông báo.

Vì vậy, điều này đòi hỏi rất nhiều công việc về nén hình ảnh. Điều này cực kỳ quan trọng đối với các nhà cung cấp phần cứng vì họ đang tối ưu hóa phần cứng trong 2-3 năm tới xung quanh các trường hợp và tỷ lệ sử dụng LLM.

Họ có thể thấy mình đang ở trong một thế giới mà mỗi kiểu máy đều có khả năng hình ảnh và âm thanh mạnh mẽ.

Họ có thể thấy mình kém phù hợp với kiến trúc.

Nói chung, kiến trúc chắc chắn sẽ vượt qua các mô hình dày đặc được đơn giản hóa dựa trên văn bản và các mô hình MoE mà chúng ta thấy ngày nay.

Người giới thiệu

Xem bản gốc

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
GT 2025 Q2 Burn Completed
13k Phổ biến
Michael Saylor Hints at Buying BTC
10k Phổ biến
BTC
30453k Phổ biến
4contentstar
10720k Phổ biến
5NADA
11186k Phổ biến
6BOME
11565k Phổ biến
7BTC
30453k Phổ biến
8SMILE
9062k Phổ biến
9比特币
13442k Phổ biến

Ghim

sơ đồ trang web