Chính xác thì GPT-3 đã phát triển thành GPT-4 như thế nào?
Bytes đã cho OpenAI tất cả các mô hình lớn một hoạt động "mở hộp".
Kết quả thực sự đã tìm ra vai trò và tác động cụ thể của một số công nghệ chính đối với sự phát triển của GPT-4.
Giống như những gì:
SFT là yếu tố thúc đẩy sự phát triển của GPT sớm
Những người đóng góp lớn nhất cho khả năng mã hóa của GPT là SFT và RLHF
Thêm dữ liệu mã vào đào tạo trước giúp cải thiện khả năng của các phiên bản GPT tiếp theo trong ** tất cả các khía cạnh **, đặc biệt là suy luận ...
Sau khi khởi nghiệp, AI Li Mu vốn rất bận rộn cũng xuất hiện trong mắt công chúng sau một thời gian dài và khen ngợi nghiên cứu này.
Cư dân mạng thậm chí còn khen ngợi:
Đây là tác phẩm đầu tiên cho đến nay mở hộp hoàn toàn tất cả các mô hình OpenAI, tôn trọng.
Ngoài một số khám phá mới, nó cũng xác nhận một số phỏng đoán hiện có:
Ví dụ, GPT-4 không báo động về việc trở nên ngu ngốc và đánh giá này cho thấy có một "hiện tượng bập bênh" rõ ràng trên con đường tiến hóa GPT, đó là một số khả năng tăng lên và một số khác suy giảm trong quá trình tiến hóa của mô hình.
Điều này trùng khớp với cảm xúc trước đó của cư dân mạng.
Như chính tác giả nói:
Công trình này có thể cung cấp những hiểu biết có giá trị về con đường tiến hóa từ GPT-3 đến GPT-4.
Nói cách khác, thông qua nó, chúng ta có thể có được cái nhìn thoáng qua về "con đường thành công" của mô hình GPT và cung cấp kinh nghiệm hiệu quả cho công việc xây dựng mô hình quy mô lớn tiếp theo.
Vì vậy, chính xác những gì nó "mở", chúng ta hãy nhìn vào giấy.
**Khám phá sự phát triển của GPT-3 thành GPT-4 **
Sơ đồ tiến hóa đầu tiên được các tác giả tóm tắt dựa trên thông tin có sẵn công khai.
Như bạn có thể thấy, nó đánh dấu những công nghệ mà mỗi mô hình trung gian đã trải qua (chẳng hạn như tinh chỉnh mã, SFT / FeedME, v.v.) đã phát triển từ GPT-3 ban đầu lên 3.5 và bây giờ là 4.
Từ davinci đến gpt-4-0613, byte đã kiểm tra tất cả 7 khả năng chính của mỗi thế hệ GPT, chẳng hạn như toán học, mã hóa và lý luận.
### **1. SFT: Yếu tố thúc đẩy sự tiến hóa GPT sớm **
Đầu tiên, trong gia đình GPT-3, davinci ban đầu (GPT-3) đã phát triển thành text-davinci-001 bằng cách giám sát việc tinh chỉnh SFT và biến thể của nó, FeedME.
Điều này giúp sau này tăng hiệu suất trên hầu hết tất cả các tác vụ:
Một đại diện trực quan hơn được hiển thị trong hình dưới đây ("fandom" là văn bản phát triển-davinci-001).
GPT sau đó chuyển sang sê-ri 3.5, trong đó mã cơ bản nhất-davinci002 phát triển thành văn bản-davinci-002 bằng cách sử dụng cùng một công nghệ.
Tuy nhiên, hiệu quả của hoạt động tiến hóa này thực sự không lớn, và hiệu suất của GPT chỉ được cải thiện một vài lần, và nhiều hơn không tăng mà giảm.
Ở đây, các tác giả dẫn đến kết luận đầu tiên của họ, cụ thể là:
SFT chỉ hoạt động trên các mô hình cơ sở yếu hơn và ít ảnh hưởng đến các mô hình mạnh hơn.
Một hiện tượng tương tự có thể được nhìn thấy trong các mô hình nguồn mở (bài đánh giá này cũng đã thử nghiệm Llama1 và 2, PaLM2-L, Claude 2, v.v.):
Ngoài Llama-65B ban đầu, SFT đã cố gắng cải thiện hiệu suất của nó trên điểm chuẩn MMLU, nhưng tất cả các Llama2-70B sử dụng cải tiến SFT chỉ cho thấy những cải tiến nhỏ trên Bảng xếp hạng LLM mở.
Tóm tắt: Trong giai đoạn GPT3, công nghệ SFT đóng một vai trò quan trọng trong sự phát triển của mô hình.
** 2, RLHF và SFT: Những người đóng góp vào việc cải thiện khả năng mã hóa **
Sau loạt GPT3.5, bắt đầu từ text-davinci-002, OpenAI bắt đầu giới thiệu một công nghệ mới dựa trên thuật toán PPO RLHF, dẫn đến text-davinci-003.
Tại thời điểm này, hiệu suất của nó trên hầu hết các điểm chuẩn ngang bằng hoặc kém hơn một chút so với người tiền nhiệm của nó, cho thấy hiệu quả không đặc biệt rõ ràng (và điều tương tự cũng đúng với các mô hình nguồn mở).
Với một ngoại lệ: nhiệm vụ mã hóa, tăng gần 30 điểm.
Gợi nhớ đến code-davinci002 trước đây sử dụng công nghệ SFT để phát triển thành text-davinci-002, khiến hiệu suất tổng thể giảm, tác vụ mã hóa không bị ảnh hưởng, nhưng điểm số tăng lên ——
Các tác giả đã quyết định ** xác minh ảnh hưởng của SFT và RLHF đối với khả năng mã hóa của các mô hình lớn **.
Tại đây, họ đã đo các điểm số như pass@1 (xác suất 1 lần vượt qua 1 mẫu) pass@100 (xác suất 100 lần vượt qua 100 mẫu) của nhiều thế hệ mô hình GPT.
Do đó, mô hình sử dụng công nghệ SFT và RLHF cho thấy sự cải thiện đáng kể về pass@1 và giảm nhẹ pass@100 so với mô hình cơ sở.
Điều này có nghĩa là gì?
Tác giả giải thích:
pass@100 mô tả khả năng mã hóa nội tại của mô hình, trong khi pass@1 đại diện cho khả năng mã hóa một lần, không có lỗi của mô hình.
pass@100 giảm nhẹ cho thấy SFT và RLHF vẫn có cái gọi là thuế căn chỉnh đối với các tác vụ mã hóa, giống như bất kỳ nhiệm vụ nào khác.
Tuy nhiên, SFT và RLHF đã có thể học các khả năng pass@1 pass@100, tức là biến đổi các khả năng nội tại (nhưng đòi hỏi nhiều lần thử) thành mã hóa một lần và nhiều lần, không có lỗi, dẫn đến sự gia tăng đáng kể về pass@1.
Nhìn vào kết quả một cách cẩn thận, chúng ta có thể thấy rằng gpt-3.5-turbo-0301 cải thiện đáng kể pass@1 thông qua SFT và RLHF, đây là tin tốt cho việc tối ưu hóa hiệu suất của các mô hình nhỏ.
Và đó không phải là tất cả, vì trước đây các tác giả đã quan sát thấy rằng GPT-4 có thể giải quyết vấn đề sau nhiều lần thử một số nhiệm vụ suy luận phức tạp.
Kết hợp với những quan sát trên, họ tóm tắt nó như sau:
LLM vẫn có thể sử dụng SFT và RLHF để liên tục chuyển đổi khả năng nội tại của chúng (nhưng chúng đòi hỏi nhiều lần thử) thành khả năng giải quyết vấn đề một lần, tiếp cận giới hạn trên của khả năng của LLM.
Hàm ý là GPT-4 có thể còn mạnh hơn.
3. Mã được thêm vào phần tiền đào tạo, đây là mã hữu ích nhất để suy luận
Trên con đường phát triển của GPT4, 2 mẫu xe đặc biệt cũng đã xuất hiện:
mã-cushman-001 (Codex-12B) 和mã-davinci-002。
Trước đây là nỗ lực đầu tiên của OpenAI để đào tạo một mô hình sử dụng dữ liệu mã và mặc dù quy mô nhỏ, nó cũng đã đạt được khả năng mã tốt.
Thứ hai là mô hình cơ sở của GPT3.5, là kết quả của việc đào tạo với mã RLHF + trên cơ sở GPT3, nghĩa là đào tạo trước khi kết hợp văn bản và mã.
Có thể thấy rằng nó vượt trội hơn rất nhiều GPT-3 (không chỉ về khả năng mã hóa), và thậm chí còn vượt trội hơn GPT-3.5-turbo-0613 trong một số nhiệm vụ suy luận (như BBH).
Các tác giả tuyên bố:
Điều này cho thấy việc bổ sung dữ liệu mã vào đào tạo trước có thể cải thiện toàn diện khả năng của LLM, đặc biệt là suy luận.
4, hiện tượng "bập bênh"
Bằng cách so sánh các mô hình API OpenAI từ tháng 3/2023 và tháng 6/2023, chúng ta thực sự có thể thấy hiện tượng này:
So với gpt-3.5-turbo-0301, gpt-3.5-turbo-0613 nâng cấp hoạt động tốt trên Human (53.9 -> 80.0), nhưng giảm đáng kể trên MATH (32.0 -> 15.0).
GPT-4-0613 vượt trội hơn GPT-4-0314 (78.7 -> 87.2) khi DROP, nhưng cũng giảm mạnh (82.2 -> 68.7) trên MGSM.
Theo các tác giả:
"Hiện tượng bập bênh" có thể trở thành một trở ngại trên con đường đến AGI cho LLM, bởi vì AGI nhấn mạnh "trí thông minh chung" và đòi hỏi hiệu suất tuyệt vời trên tất cả các nhiệm vụ, đòi hỏi các mô hình không được "thiên vị".
Tại đây, họ cũng kêu gọi cộng đồng quan tâm đến vấn đề này và cùng nhau thúc đẩy nghiên cứu về sự phát triển cân bằng của các mô hình lớn.
** Giúp các học viên mô hình lớn tìm ra con đường của họ **
Tất cả những phát hiện trên đều dựa trên GPT-Fathom -
Byte gần đây đã đề xuất một công cụ đánh giá mô hình lớn.
Có lẽ, mọi người phải có câu hỏi:
Đã có rất nhiều bảng xếp hạng mô hình lớn và các công cụ đánh giá, vậy tại sao lại đưa ra một cách tiếp cận mới?
Theo các tác giả, so với các phương pháp đánh giá hiện có, thang đo GPT-Fathom đồng đều hơn và kết quả có thể tái tạo.
Những người thực hành mô hình lớn có thể sử dụng nó để làm rõ khoảng cách giữa họ và mô hình hàng đầu, để cải thiện sản phẩm của họ một cách có mục tiêu.
Cụ thể, GPT-Fathom chủ yếu giải quyết ba thiếu sót của các phương pháp đánh giá mô hình lớn khác:
Tiêu chí cài đặt không nhất quán: Không có tiêu chuẩn thống nhất về việc có nên sử dụng các cài đặt như chuỗi suy nghĩ (CoT), cỡ mẫu, v.v. và phương pháp đánh giá câu trả lời hay không
** Mô hình không đầy đủ và thu thập nhiệm vụ **: Khả năng kiểm tra sự chú ý không toàn diện và thiếu tập trung vào các mô hình trước đó
Thiếu nghiên cứu về độ nhạy của mô hình
Để phản ánh trực quan hơn các đặc điểm của GPT-Fatham, tác giả so sánh một số danh sách cụ thể hiện có, có thể được tóm tắt trong bảng sau:
Trong số đó, đánh giá độ nhạy đã tìm thấy những vấn đề mà các tiêu chuẩn thử nghiệm trước đó không xác định được.
So với GPT, các mô hình khác rất nhạy cảm với các từ nhắc nhở và một thay đổi nhỏ sẽ dẫn đến đầu ra hoàn toàn khác, cho thấy vẫn còn một khoảng cách lớn giữa độ bền của các mô hình khác và GPT.
Ví dụ: trên bộ dữ liệu TriviaQA, một thay đổi nhỏ trong từ nhắc nhở đã làm giảm điểm số của Llama 2-70B xuống một phần tư, trong khi các mô hình dòng GPT không thay đổi đáng kể.
Ngoài ra, các yếu tố như CoT, kích thước mẫu và phương sai lấy mẫu cũng được bao gồm trong thử nghiệm độ nhạy.
Trong tương lai, các tác giả có kế hoạch tiếp tục mở rộng GPT-Fathom từ ba chiều: loại năng lực, bộ dữ liệu thử nghiệm và mô hình, đồng thời sẽ hỗ trợ đánh giá đối thoại nhiều vòng, đa phương thức và các khả năng khác, cũng như tăng cường thử nghiệm nhiều bộ dữ liệu và mô hình.
Hai đồng tác giả của GPT-Fatham là Yuyu Zhang, một nhà nghiên cứu trong Nhóm nghiên cứu máy học ứng dụng của Byte và Shen Zheng, một thực tập sinh.
Shen Zheng là sinh viên thạc sĩ tại Đại học Illinois tại Urbana-Champaign (UIUC).
Ngoài ra, bốn nhà nghiên cứu, bao gồm Yijie Zhu từ Bytes, và Giáo sư Kevin Chen-Chuan Chang từ UIUC cũng tham gia vào nghiên cứu.
Địa chỉ:
Liên kết tham khảo:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Byte "mở hộp" tất cả các mô hình lớn của OpenAI, tiết lộ con đường tiến hóa từ GPT-3 sang GPT-4! thổi bay Lý Mục ra ngoài
Nguồn bài viết: qubits
Chính xác thì GPT-3 đã phát triển thành GPT-4 như thế nào?
Bytes đã cho OpenAI tất cả các mô hình lớn một hoạt động "mở hộp".
Kết quả thực sự đã tìm ra vai trò và tác động cụ thể của một số công nghệ chính đối với sự phát triển của GPT-4.
Sau khi khởi nghiệp, AI Li Mu vốn rất bận rộn cũng xuất hiện trong mắt công chúng sau một thời gian dài và khen ngợi nghiên cứu này.
Ví dụ, GPT-4 không báo động về việc trở nên ngu ngốc và đánh giá này cho thấy có một "hiện tượng bập bênh" rõ ràng trên con đường tiến hóa GPT, đó là một số khả năng tăng lên và một số khác suy giảm trong quá trình tiến hóa của mô hình.
Điều này trùng khớp với cảm xúc trước đó của cư dân mạng.
Nói cách khác, thông qua nó, chúng ta có thể có được cái nhìn thoáng qua về "con đường thành công" của mô hình GPT và cung cấp kinh nghiệm hiệu quả cho công việc xây dựng mô hình quy mô lớn tiếp theo.
Vì vậy, chính xác những gì nó "mở", chúng ta hãy nhìn vào giấy.
**Khám phá sự phát triển của GPT-3 thành GPT-4 **
Sơ đồ tiến hóa đầu tiên được các tác giả tóm tắt dựa trên thông tin có sẵn công khai.
Như bạn có thể thấy, nó đánh dấu những công nghệ mà mỗi mô hình trung gian đã trải qua (chẳng hạn như tinh chỉnh mã, SFT / FeedME, v.v.) đã phát triển từ GPT-3 ban đầu lên 3.5 và bây giờ là 4.
Từ davinci đến gpt-4-0613, byte đã kiểm tra tất cả 7 khả năng chính của mỗi thế hệ GPT, chẳng hạn như toán học, mã hóa và lý luận.
Đầu tiên, trong gia đình GPT-3, davinci ban đầu (GPT-3) đã phát triển thành text-davinci-001 bằng cách giám sát việc tinh chỉnh SFT và biến thể của nó, FeedME.
Điều này giúp sau này tăng hiệu suất trên hầu hết tất cả các tác vụ:
Tuy nhiên, hiệu quả của hoạt động tiến hóa này thực sự không lớn, và hiệu suất của GPT chỉ được cải thiện một vài lần, và nhiều hơn không tăng mà giảm.
SFT chỉ hoạt động trên các mô hình cơ sở yếu hơn và ít ảnh hưởng đến các mô hình mạnh hơn.
Một hiện tượng tương tự có thể được nhìn thấy trong các mô hình nguồn mở (bài đánh giá này cũng đã thử nghiệm Llama1 và 2, PaLM2-L, Claude 2, v.v.):
Ngoài Llama-65B ban đầu, SFT đã cố gắng cải thiện hiệu suất của nó trên điểm chuẩn MMLU, nhưng tất cả các Llama2-70B sử dụng cải tiến SFT chỉ cho thấy những cải tiến nhỏ trên Bảng xếp hạng LLM mở.
Tóm tắt: Trong giai đoạn GPT3, công nghệ SFT đóng một vai trò quan trọng trong sự phát triển của mô hình.
** 2, RLHF và SFT: Những người đóng góp vào việc cải thiện khả năng mã hóa **
Sau loạt GPT3.5, bắt đầu từ text-davinci-002, OpenAI bắt đầu giới thiệu một công nghệ mới dựa trên thuật toán PPO RLHF, dẫn đến text-davinci-003.
Tại thời điểm này, hiệu suất của nó trên hầu hết các điểm chuẩn ngang bằng hoặc kém hơn một chút so với người tiền nhiệm của nó, cho thấy hiệu quả không đặc biệt rõ ràng (và điều tương tự cũng đúng với các mô hình nguồn mở).
Với một ngoại lệ: nhiệm vụ mã hóa, tăng gần 30 điểm.
Tại đây, họ đã đo các điểm số như pass@1 (xác suất 1 lần vượt qua 1 mẫu) pass@100 (xác suất 100 lần vượt qua 100 mẫu) của nhiều thế hệ mô hình GPT.
Điều này có nghĩa là gì?
Tác giả giải thích:
pass@100 mô tả khả năng mã hóa nội tại của mô hình, trong khi pass@1 đại diện cho khả năng mã hóa một lần, không có lỗi của mô hình.
pass@100 giảm nhẹ cho thấy SFT và RLHF vẫn có cái gọi là thuế căn chỉnh đối với các tác vụ mã hóa, giống như bất kỳ nhiệm vụ nào khác.
Tuy nhiên, SFT và RLHF đã có thể học các khả năng pass@1 pass@100, tức là biến đổi các khả năng nội tại (nhưng đòi hỏi nhiều lần thử) thành mã hóa một lần và nhiều lần, không có lỗi, dẫn đến sự gia tăng đáng kể về pass@1.
Nhìn vào kết quả một cách cẩn thận, chúng ta có thể thấy rằng gpt-3.5-turbo-0301 cải thiện đáng kể pass@1 thông qua SFT và RLHF, đây là tin tốt cho việc tối ưu hóa hiệu suất của các mô hình nhỏ.
Kết hợp với những quan sát trên, họ tóm tắt nó như sau:
LLM vẫn có thể sử dụng SFT và RLHF để liên tục chuyển đổi khả năng nội tại của chúng (nhưng chúng đòi hỏi nhiều lần thử) thành khả năng giải quyết vấn đề một lần, tiếp cận giới hạn trên của khả năng của LLM.
Hàm ý là GPT-4 có thể còn mạnh hơn.
3. Mã được thêm vào phần tiền đào tạo, đây là mã hữu ích nhất để suy luận
Trên con đường phát triển của GPT4, 2 mẫu xe đặc biệt cũng đã xuất hiện:
mã-cushman-001 (Codex-12B) 和mã-davinci-002。
Trước đây là nỗ lực đầu tiên của OpenAI để đào tạo một mô hình sử dụng dữ liệu mã và mặc dù quy mô nhỏ, nó cũng đã đạt được khả năng mã tốt.
Thứ hai là mô hình cơ sở của GPT3.5, là kết quả của việc đào tạo với mã RLHF + trên cơ sở GPT3, nghĩa là đào tạo trước khi kết hợp văn bản và mã.
Có thể thấy rằng nó vượt trội hơn rất nhiều GPT-3 (không chỉ về khả năng mã hóa), và thậm chí còn vượt trội hơn GPT-3.5-turbo-0613 trong một số nhiệm vụ suy luận (như BBH).
Điều này cho thấy việc bổ sung dữ liệu mã vào đào tạo trước có thể cải thiện toàn diện khả năng của LLM, đặc biệt là suy luận.
4, hiện tượng "bập bênh"
Bằng cách so sánh các mô hình API OpenAI từ tháng 3/2023 và tháng 6/2023, chúng ta thực sự có thể thấy hiện tượng này:
So với gpt-3.5-turbo-0301, gpt-3.5-turbo-0613 nâng cấp hoạt động tốt trên Human (53.9 -> 80.0), nhưng giảm đáng kể trên MATH (32.0 -> 15.0).
GPT-4-0613 vượt trội hơn GPT-4-0314 (78.7 -> 87.2) khi DROP, nhưng cũng giảm mạnh (82.2 -> 68.7) trên MGSM.
Theo các tác giả:
"Hiện tượng bập bênh" có thể trở thành một trở ngại trên con đường đến AGI cho LLM, bởi vì AGI nhấn mạnh "trí thông minh chung" và đòi hỏi hiệu suất tuyệt vời trên tất cả các nhiệm vụ, đòi hỏi các mô hình không được "thiên vị".
Tại đây, họ cũng kêu gọi cộng đồng quan tâm đến vấn đề này và cùng nhau thúc đẩy nghiên cứu về sự phát triển cân bằng của các mô hình lớn.
** Giúp các học viên mô hình lớn tìm ra con đường của họ **
Tất cả những phát hiện trên đều dựa trên GPT-Fathom -
Byte gần đây đã đề xuất một công cụ đánh giá mô hình lớn.
Có lẽ, mọi người phải có câu hỏi:
Đã có rất nhiều bảng xếp hạng mô hình lớn và các công cụ đánh giá, vậy tại sao lại đưa ra một cách tiếp cận mới?
Theo các tác giả, so với các phương pháp đánh giá hiện có, thang đo GPT-Fathom đồng đều hơn và kết quả có thể tái tạo.
Những người thực hành mô hình lớn có thể sử dụng nó để làm rõ khoảng cách giữa họ và mô hình hàng đầu, để cải thiện sản phẩm của họ một cách có mục tiêu.
Cụ thể, GPT-Fathom chủ yếu giải quyết ba thiếu sót của các phương pháp đánh giá mô hình lớn khác:
Tiêu chí cài đặt không nhất quán: Không có tiêu chuẩn thống nhất về việc có nên sử dụng các cài đặt như chuỗi suy nghĩ (CoT), cỡ mẫu, v.v. và phương pháp đánh giá câu trả lời hay không ** Mô hình không đầy đủ và thu thập nhiệm vụ **: Khả năng kiểm tra sự chú ý không toàn diện và thiếu tập trung vào các mô hình trước đó Thiếu nghiên cứu về độ nhạy của mô hình
Để phản ánh trực quan hơn các đặc điểm của GPT-Fatham, tác giả so sánh một số danh sách cụ thể hiện có, có thể được tóm tắt trong bảng sau:
So với GPT, các mô hình khác rất nhạy cảm với các từ nhắc nhở và một thay đổi nhỏ sẽ dẫn đến đầu ra hoàn toàn khác, cho thấy vẫn còn một khoảng cách lớn giữa độ bền của các mô hình khác và GPT.
Ví dụ: trên bộ dữ liệu TriviaQA, một thay đổi nhỏ trong từ nhắc nhở đã làm giảm điểm số của Llama 2-70B xuống một phần tư, trong khi các mô hình dòng GPT không thay đổi đáng kể.
Trong tương lai, các tác giả có kế hoạch tiếp tục mở rộng GPT-Fathom từ ba chiều: loại năng lực, bộ dữ liệu thử nghiệm và mô hình, đồng thời sẽ hỗ trợ đánh giá đối thoại nhiều vòng, đa phương thức và các khả năng khác, cũng như tăng cường thử nghiệm nhiều bộ dữ liệu và mô hình.
Hai đồng tác giả của GPT-Fatham là Yuyu Zhang, một nhà nghiên cứu trong Nhóm nghiên cứu máy học ứng dụng của Byte và Shen Zheng, một thực tập sinh.
Shen Zheng là sinh viên thạc sĩ tại Đại học Illinois tại Urbana-Champaign (UIUC).
Ngoài ra, bốn nhà nghiên cứu, bao gồm Yijie Zhu từ Bytes, và Giáo sư Kevin Chen-Chuan Chang từ UIUC cũng tham gia vào nghiên cứu.
Địa chỉ:
Liên kết tham khảo: