Chi tiết đào tạo GPT-4 của OpenAI về "không đề cập đến cái chết" đã được phát hành, đây là cách giải thích của tôi

2023-07-17 05:58:58

Nguồn Gốc: thiểu số

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Đó là một buổi sáng bình thường vài ngày trước. Tôi đang chuyển gạch hàng ngày, và đột nhiên đủ loại thông tin tràn vào: "Nhanh lên, cấu trúc mô hình GPT-4 đã bị rò rỉ, và mô hình lớn sản xuất trong nước sẽ lại vượt qua nó!"

Bật mạng xã hội lên xem, không cần nói tiếng Anh, người trong nước đã lên mạng rồi, tôi thực sự bị thuyết phục bởi tốc độ này. Tuy nhiên, khi tôi truy tìm nguồn gốc và xem mức độ tin cậy của thông tin, tôi đột nhiên cảm thấy rằng mình đã lang thang ra khỏi vòng công nghệ từ vòng giải trí.

Trước tình trạng hiện tại của Internet nơi "Tin tức giả" đang bay khắp bầu trời, điều đầu tiên tôi làm sau khi xem tin tức này là truy tìm nguồn gốc.

▍Thông tin chi tiết

Điểm khởi đầu cho quá trình khai thác thông tin của tôi là một chuỗi tweet được chia sẻ trên Hacker News được trích xuất qua Thread Reader (được lưu trữ vào ngày 11 tháng 7). Bấm để mở nó ra, và có hai câu:

Rò rỉ thông tin chi tiết về GPT-4. Nó đã kết thúc.

Đẳng cấp của bữa tiệc tít này không thua kém gì ở Trung Quốc.

Như chúng ta đã biết, OpenAI đã phá vỡ cam kết mở khi phát hành GPT-4, không tiết lộ bất kỳ chi tiết trọng lượng hay kỹ thuật nào và đã bị ngành công nghiệp chỉ trích rất nhiều. Đây có lẽ là lý do tại sao blogger sử dụng It is over cuống để tạo hiệu ứng kịch tính của việc "đảo ngược cốt truyện".

Nhìn lại nội dung, đó là chi tiết đào tạo GPT-4 kín tiếng của OpenAI. Thông tin này đã có rất nhiều suy đoán, nhưng chính thức không tiết lộ, khi đề cập đến thì rất mơ hồ (nguyên văn tương đối mù mịt, dùng nhiều từ viết tắt và biệt ngữ, một số sẽ giải thích sau) :

Số lượng tham số mô hình: 1,8 nghìn tỷ, lớn hơn khoảng 10 lần so với GPT-3.5 (175 tỷ).
Độ sâu lớp mô hình: 120 lớp.
Kiến trúc mô hình: Mô hình chuyên gia hỗn hợp (MoE, xem phần giải thích bên dưới), tổng cộng có 16 "chuyên gia", mỗi "chuyên gia" có 111 tỷ tham số. Mỗi lượt suy luận chuyển tiếp (tạo đầu ra mã thông báo) sẽ chọn hai chuyên gia.
Dữ liệu đào tạo: Tổng cộng có 13T (13 nghìn tỷ) dữ liệu mã thông báo. Dữ liệu văn bản được đào tạo lại 2 lần và dữ liệu mã được đào tạo lại 4 lần. Dữ liệu này thực sự rất quan trọng và sẽ được phân tích chi tiết sau.
Chiến lược song song: song song tensor 8 chiều + song song đường ống 16 chiều. Có nhiều cụm GPU được đặt tại các trung tâm dữ liệu khác nhau đào tạo đồng thời, mỗi cụm có 128 GPU.
Bối cảnh trước khi đào tạo: 8K. Phiên bản 32K được tinh chỉnh từ 8K.
Chi phí đào tạo: Đào tạo liên tục trong 90 đến 100 ngày trên khoảng 25.000 A100 với tốc độ khoảng 2,15-25 lần thất bại. Với 1 đô la cho mỗi giờ A100, nó sẽ có giá khoảng 63 triệu đô la. (Có thể được thực hiện hôm nay trong khoảng 55 ngày bằng cách sử dụng khoảng 8192 chiếc H100 với chi phí ước tính là 21,5 triệu USD.)

Câu hỏi đặt ra là, làm thế nào mà thông tin này xuất hiện, và nó có đáng tin cậy không?

Theo dõi cây nho để chạm vào "quả dưa", và tôi đã tìm thấy người đăng loạt tweet này - Yam Peleg.

Mặc dù tôi không theo dõi tài khoản của ông già này, nhưng tôi đã đọc các bài viết trước đây của ông ấy. Anh ấy là CEO của một "công ty khởi nghiệp" ở Israel (nhưng nó đã thành lập được 15 năm và gọi nó là công ty khởi nghiệp có lẽ không phù hợp), tôi có kinh nghiệm kỹ thuật phong phú và hiểu các mô hình ngôn ngữ lớn. Tôi đã thử để đảo ngược trình thông dịch mã crack GPT-4 và ChatGPT. Vào tháng 6 năm nay, khi các thành viên OpenAI đến thăm Israel, Peleg cũng đã đến tham gia thảo luận và giao tiếp, đồng thời chụp một bức ảnh với CEO Sam Altman.

Đọc bài của lão này, tôi không khỏi nghĩ đến Tom, một sĩ quan liên lạc sinh viên mà tôi đã gặp ở Israel, người có thể khiến bạn sôi máu nếu bạn nói bất cứ điều gì.

Từ trái qua: Sam Altman, Yam Peleg (Nguồn: @Yampeleg)

Xem xét rằng ông già này đã nghiên cứu về OpenAI và biết rất nhiều người trong OpenAI, vì vậy nếu ông ấy có được một số thông tin nội bộ, tôi nghĩ độ tin cậy thực sự khá cao.

Nhưng khi tôi định nghiên cứu kỹ các bài viết của anh ấy vào ban đêm, tôi đột nhiên phát hiện ra rằng anh ấy đã xóa tất cả các bài viết trước đó. Lúc đầu, tôi nghĩ rằng mình đã được OpenAI bảo vệ, nhưng tôi rất vui vì đã giữ được tệp. Sau khi xem xét kỹ hơn, tôi thấy rằng không phải do OpenAI yêu cầu xóa mà do anh ấy cũng đã báo cáo nó từ cột thanh toán và bị khiếu nại vi phạm bản quyền.

Nguồn ban đầu của điều này là một chuyên mục Substack có tên là SemiAnalysis. Trước đó, họ đã xuất bản một bài báo có tựa đề Kiến trúc, cơ sở hạ tầng, tập dữ liệu đào tạo, chi phí, tầm nhìn, MoE của GPT-4, đằng sau một bức tường phí.

Sau khi kiểm tra, tôi phát hiện ra:

SemiAnalysis là một công ty tư vấn và nghiên cứu chất bán dẫn tập trung vào chuỗi cung ứng chất bán dẫn từ nguyên liệu hóa chất đến nhà máy để thiết kế IP và chiến lược. Công ty được thành lập bởi Dylan Patel, một nhà phân tích và kỹ sư có nhiều năm kinh nghiệm trong ngành công nghiệp bán dẫn. Patel đã đảm nhiệm các vai trò khác nhau, từ kỹ sư thiết kế đến giám đốc tiếp thị tại Intel, AMD, Qualcomm, v.v. Đội ngũ của SemiAnalysis cũng bao gồm một số nhà phân tích và tư vấn bán dẫn chuyên nghiệp. Mỗi người đều có các lĩnh vực chuyên môn khác nhau, chẳng hạn như AI, điện toán đám mây, mạng, lưu trữ, xe điện, tần số vô tuyến, Internet vạn vật, v.v. Họ cung cấp cho khách hàng các dịch vụ tư vấn và phân tích chuỗi cung ứng chất bán dẫn toàn diện từ nguyên liệu hóa học thô cho đến thiết kế IP và chiến lược.

Trước đó, SemiAnalysis cũng đã đăng tải một bài báo tiết lộ rằng các kỹ sư của Google đã nói trong thông tin liên lạc nội bộ rằng "Chúng tôi không có Moat, và cả OpenAI cũng không" (We Have No Moat, And both Does OpenAI), điều này đã gây ra rất nhiều cuộc thảo luận. Bài viết này sau đó đã được xác nhận là đúng.

Từ quan điểm này, Anh Dylan Patel thực sự có thể có một số người trong cuộc và độ tin cậy của thông tin họ đưa ra vẫn có thể chấp nhận được.

Về lý do tại sao họ rất háo hức yêu cầu Anh Yam xóa các tweet - bởi vì những "thông tin nội bộ" này thực sự có giá trị và đăng ký các bài báo trả phí của SemiAnalysis có giá 500 đô la một năm. Đăng ký phiên bản ưu tú của Brother Yam có giá 1.000 đô la.

▍Phân tích thẻ

Theo thông tin chi tiết này, ý kiến của tôi là tin đồn này vẫn có độ tin cậy nhất định. Sau đây là một số phân tích của tôi dựa trên thông tin này, mà tôi đề xuất để thảo luận.

Sự cạnh tranh cho các mô hình riêng tư sẽ tập trung vào tính song song

Theo tin đồn này, nếu bạn muốn đào tạo một đối thủ GPT-4, ước tính sử dụng khoảng 8.192 chip H100, với mức giá 2 đô la mỗi giờ, quá trình đào tạo trước có thể hoàn thành trong khoảng 55 ngày và chi phí là khoảng 21,5 triệu USD (150 triệu RMB).

Chi phí này thực sự không quá lớn đối với thị trường LLM đầy sóng gió hiện nay. Các cầu thủ lớn trong nước hiện tại có thể dễ dàng thực hiện một số buổi đào tạo. Vì vậy, thành thật mà nói, lần này, có thể thực sự không khoe khoang về điểm chuẩn GPT-4 trong thời gian nửa năm với các khả năng của mô hình (ít nhất là tỷ lệ tham số).

Nếu chi phí đào tạo không phải là một vấn đề, dữ liệu đào tạo sẽ là một vấn đề? Tôi cũng không nghĩ vậy. Có tin đồn rằng dữ liệu đào tạo của GPT-4 có tổng cộng 13T (13 nghìn tỷ) mã thông báo. Để so sánh, cả bộ dữ liệu công khai CommonCrawl và RefinedWeb đều có mã thông báo 5T. Có tin đồn rằng phần còn lại đến từ Twitter, Reddit và YouTube; một số vụ kiện cũng cho rằng OpenAI đã sử dụng dữ liệu vi phạm bản quyền từ "thư viện bóng tối" như LibGen và SciHub.

Vì vậy, tôi nghĩ rằng quy mô của dữ liệu này không phải là không thể đạt được, hơn nữa bản thân đất nước này đã tích lũy rất nhiều tài nguyên của Trung Quốc, vì vậy dữ liệu đào tạo không phải là vấn đề lớn.

Đối với các vấn đề khác như đào tạo trước, tinh chỉnh và mã hóa và giải mã tiếng Trung, trên thực tế, không có quá nhiều bí mật kỹ thuật và các phương pháp tương đối cởi mở. Nếu có đủ nguồn lực, nó sẽ được giải quyết trong nửa năm.

Vì vậy, ngưỡng cuối cùng còn lại là song song. Trên thực tế, một lượng lớn không gian đã được sử dụng trong tin đồn này để giới thiệu nội dung có liên quan và trình độ chuyên môn vẫn tương đối cao, tôi chỉ có thể đưa ra một số lời giải thích hời hợt ở đây.

Nói một cách đại khái, cái gọi là vấn đề song song là bạn có một mô hình lớn, làm thế nào để nhiều người nhất có thể sử dụng nó cùng lúc với chi phí thấp nhất. Điều này liên quan đến rất nhiều vấn đề thiết kế chuyên nghiệp, trong trường hợp tài nguyên máy tính cố định, làm thế nào để phân bổ tài nguyên máy tính trong các liên kết khác nhau? Làm thế nào để xử lý đồng thời? Làm thế nào để quản lý bộ nhớ?

Khả năng xử lý song song trực tiếp xác định trải nghiệm người dùng. Hiện tại, ChatGPT và API dựa trên GPT-3.5 tương đối mượt mà, rất mạnh mẽ. Mọi người ở đây có thể nói rằng các LLM nội địa khác hoặc Claude mà tôi đã trải nghiệm nhanh hơn GPT-3.5. Tuy nhiên, mọi người đều không cân nhắc đến mức độ sử dụng, GPT-3.5 có hiệu suất như vậy trong điều kiện đồng thời cao như vậy.

Do đó, các khả năng song song có thể trở thành một trong những điểm cạnh tranh chính của các đối thủ OpenAI khác nhau.

GPT-5 tập trung vào đa phương thức

Như đã đề cập trước đó, có tin đồn rằng GPT-4 là một mô hình "hỗn hợp các chuyên gia" (MoE) bao gồm 16 mô hình chuyên gia. Dưới đây là giải thích ngắn gọn về "trộn chuyên gia" là gì, đề cập đến việc chia "vấn đề" của người dùng thành nhiều vấn đề phụ và mỗi vấn đề phụ được chuyển giao cho một mô hình nhỏ hơn (nghĩa là "chuyên gia") để giải quyết, sau đó thông qua một "Mô hình định tuyến" được chọn và kết hợp, sau đó xuất cho người dùng.

Tin đồn tiếp tục cho rằng mỗi "chuyên gia" của GPT-4 có 111 tỷ tham số - tương đương với GPT-3 (điều này phù hợp với tham số GPT-4 mà Sam Altman đã nói trước đó thậm chí còn nhỏ hơn GPT-3.5), trong đó có 55 tỷ Tham số được chia sẻ. Mỗi lượt suy luận chuyển tiếp (tạo đầu ra mã thông báo) sử dụng hai "chuyên gia", tiêu thụ hiệu quả khoảng 280 tỷ tham số. Con số này nhỏ hơn đáng kể so với con số cần thiết khi không có MoE, và nó cũng giống với dự đoán của nhiều học giả trong giai đoạn đầu.

Điều đáng chú ý là các tin đồn chỉ ra rằng dữ liệu văn bản và mã được sử dụng để đào tạo GPT-4 được sử dụng lại. Kết hợp với lựa chọn sử dụng khung MoE, cá nhân tôi đoán: hoặc dữ liệu văn bản chất lượng cao có thể dễ dàng thu được hiện tại đã gần cạn kiệt hoặc việc cải thiện hiệu suất LLM bằng cách tăng lượng dữ liệu không giới hạn đã rất giới hạn.

Tuy nhiên, bất kể tình huống như thế nào, nếu GPT-5 muốn có một bước đột phá lớn về hiệu suất, thì nó phải có thể sử dụng hết lượng lớn dữ liệu video, hình ảnh và âm thanh hiện có, nói cách khác, đó là một " mô hình đa phương thức".

Vấn đề là, theo tin đồn này, tính đa phương thức trực quan hiện tại của OpenAI không có nhiều thứ để cung cấp. Nó là một bộ mã hóa hình ảnh độc lập sử dụng văn bản làm đầu vào cho đào tạo trước và sau đó sử dụng khoảng 2 nghìn tỷ Mã thông báo để tinh chỉnh. Phương pháp đào tạo này rõ ràng là không thể tận dụng hết dữ liệu video, hình ảnh và âm thanh hiện có.

Do đó, OpenAI luôn nhấn mạnh rằng GPT-5 chưa được đào tạo và xác suất là có thật. Trước khi đào tạo GPT-5, họ phải tìm một kiến trúc mô hình đa phương thức tốt hơn để mô hình có thể tận dụng tối đa dữ liệu âm thanh và video. Chỉ bằng cách có thể sử dụng những dữ liệu đào tạo chất lượng cao này, GPT-5 mới có thể đạt được sự cải thiện đủ về năng lực. (Đồng thời, nếu GPT-5 thực sự có thể sử dụng đầy đủ những dữ liệu âm thanh và video này, thì bất kể đó là "Cơ thể siêu trí tuệ" được đề xuất gần đây của AGI hay OpenAI, có vẻ như điều đó không còn xa nữa.)

OpenAI có thể đã cố tình tung tin đồn này

Suy luận này hoàn toàn là suy đoán cá nhân. Sự thật là không đủ, chỉ cần có một cái nhìn.

Theo hiểu biết của tôi, OpenAI nhận thức rõ rằng con hào của GPT-4 không sâu; trong cơn sốt ngày nay, không khó để các đối thủ bắt kịp. Và như đã phân tích ở trên, cấu trúc mô hình đa phương thức quy mô lớn hiện tại của họ chưa nên hoàn thiện, lúc này nếu những tay chơi mới lao lên và bứt phá từ đa phương thức thì khả năng OpenAI bị vượt qua đường cong cũng rất cao .

Vì vậy, đây có thể là kế hoạch của OpenAI nhằm làm chậm cuộc chiến - Tôi sẽ tiết lộ một số thông tin về GPT-4 cho bạn, hãy để những người chơi đầu tiên thực hiện công việc tái hiện GPT-4 và đi trên con đường mà OpenAI đã đi.

Nếu trong quá trình này, OpenAI đã đặt nền móng cho việc đào tạo GPT-5 và hoàn thành nghiên cứu sơ bộ về mô hình ngôn ngữ lớn đa phương thức, thì ngay cả khi GPT-4 bị các mô hình ngôn ngữ lớn khác vượt qua, OpenAI cũng sẽ không hoảng sợ. Cá nhân tôi nghĩ rằng đa phương thức có thể là thế hệ cuối cùng có sự tham gia của con người và AGI có thể là lực lượng chính trong quá trình phát triển và tiến hóa mô hình trong tương lai. Nói cách khác, nếu bạn giành chiến thắng lần này, bạn có thể giành chiến thắng cho đến cuối cùng.

Xem bản gốc

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
Pump.Fun Debuts on Gate
22 Phổ biến
Join Gate VIP to Win MacBook
28k Phổ biến
Trump Tariff Hikes
14k Phổ biến
4HK Stablecoin Rules
11k Phổ biến
5Truth Social Crypto ETF
957 Phổ biến
6Gate Square Writing Contest Phase 1
5k Phổ biến
7Altcoin ETF Watch
4k Phổ biến
8Gate Alpha Trading Share
11k Phổ biến
9Dr.Han Joins Gate Square
45k Phổ biến
10Gate Square Creator Spark Program
152k Phổ biến

Ghim

sơ đồ trang web