Ảnh chụp màn hình bài báo của Microsoft cho thấy GPT-3.5 chỉ có 20 tỷ thông số? Vòng tròn AI đã bị sốc, và cư dân mạng hét lên rằng điều đó thật thái quá!

Question

Nguồn gốc: New Zhiyuan![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-305182ec3b-dd1a6f-69ad2a) Nguồn hình ảnh: Được tạo bởi Unbounded AIGPT-3.5 chỉ có 20 tỷ thông số?Hôm nay, vòng tròn mô hình lớn đã bị nổ tung bởi một ảnh chụp màn hình trong bài báo của Microsoft, điều gì đang xảy ra?Chỉ vài ngày trước, Microsoft đã xuất bản một bài báo về arXiv, trong đó đề xuất một mô hình khuếch tán quy mô nhỏ chỉ với 75 triệu tham số - CodeFusion.Về hiệu suất, 75 triệu thông số của CodeFusion có thể so sánh với mẫu 350M-175B hiện đại về các chỉ số chính xác hàng đầu.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-acfed1ccb0-dd1a6f-69ad2a) Địa chỉ:Công việc của bài báo này rất thú vị, nhưng điều thu hút sự chú ý đặc biệt của mọi người là -Khi tác giả so sánh ChatGPT (gpt-3.5-turbo), số lượng thông số danh nghĩa chỉ là 20B!![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e997f2dfa9-dd1a6f-69ad2a) Trước đó, mọi người đều đoán về số lượng thông số GPT-3.5 là 175 tỷ, tương đương với mức giảm gần mười lần!![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f9a57eb606-dd1a6f-69ad2a) Theo tiết lộ của bài báo này, cư dân mạng cũng đã vào Wikipedia để cập nhật sự ra đời của GPT-3.5 và trực tiếp thay đổi kích thước thông số thành 20B.Ngay khi tin tức được đưa ra, nó đã trực tiếp xuất hiện trên hot search của Zhihu, và cư dân mạng bùng nổ.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1151c7af0f-dd1a6f-69ad2a) Một số người nói, nhanh chóng quay lại và lấy ra bài đăng trên blog chưng cất mô hình trước đây của tôi để xem xét và xem xét.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0c8dc90491-dd1a6f-69ad2a) ## **Đó là "oolong" hay "fact"? **Ngay sau khi tiết lộ của cư dân mạng được tiết lộ, chúng ngay lập tức làm dấy lên những cuộc thảo luận sôi nổi.Cho đến nay, hơn 680.000 người đã đến xem.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-03822c6176-dd1a6f-69ad2a) Người anh em nói rằng một số tác giả của bài báo cũng đang sử dụng Twitter và ước tính sẽ không lâu nữa họ sẽ giải thích trực tiếp.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ae81eab0f0-dd1a6f-69ad2a) Còn về "20B" bí ẩn này, cư dân mạng cũng có nhiều ý kiến khác nhau.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a431a67d4a-dd1a6f-69ad2a) Một số suy đoán rằng đây rất có thể là một sai lầm của tác giả. Ví dụ, ban đầu nó là 120B, hoặc 200B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-68d7626a77-dd1a6f-69ad2a) Kết hợp với các đánh giá khác nhau trong thực tế, thực sự có nhiều mô hình nhỏ có thể đạt được kết quả tương tự như ChatGPT, chẳng hạn như Mistral-7B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-41a9ceb875-dd1a6f-69ad2a) Có lẽ, đây cũng là một khẳng định phụ rằng GPT-3.5 thực sự không lớn.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-507e9e6fc9-dd1a6f-69ad2a) Nhiều cư dân mạng cũng cho rằng thông số của 20B có thể chính xác, và họ đã thở dài:"Thật không thể tưởng tượng nổi! Cả Falcon-180B và Llama2-70B đều không thể đánh bại mẫu 20B".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-031d17ddca-dd1a6f-69ad2a) Một số cư dân mạng cũng tin rằng GPT-3.5-Turbo là phiên bản tinh chỉnh của GPT-3.5.Và sự "rò rỉ" các thông số này chỉ xác nhận những tin đồn rằng GPT-3.5-Turbo không tốt bằng GPT-3.5 cũ.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2e40bddc14-dd1a6f-69ad2a) Tuy nhiên, theo tài liệu chính thức của OpenAI, ngoại trừ text-davinci và code-davinci, không còn được sử dụng, tất cả các thành viên của gia đình GPT-3.5 đều dựa trên gpt-3.5-turbo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-60557d480b-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf126d0a67-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e05153a7a7-dd1a6f-69ad2a) ## **Microsoft phát hành CodeFusion**Bài báo của Microsoft, tiết lộ rằng GPT3.5 chỉ có các tham số 20B, muốn giới thiệu một mô hình khuếch tán để tạo mã.Các nhà nghiên cứu đã đánh giá CodeFusion, một mô hình cho nhiệm vụ tạo mã cho ngôn ngữ tự nhiên cho các quy tắc định dạng có điều kiện (CF) Bash, Python và Microsoft Excel.Các thí nghiệm đã chỉ ra rằng CodeFusion (chỉ có 75 triệu thông số) có thể so sánh với LLM hiện đại (thông số 350M-175B) về độ chính xác hàng đầu, và có tỷ lệ hiệu suất và thông số tuyệt vời về độ chính xác top 3 và top 5.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-28bac32ec5-dd1a6f-69ad2a) **Kiến trúc mô hình**CODEFUSION ĐƯỢC SỬ DỤNG CHO CÁC TÁC VỤ TẠO MÃ VÀ ĐÀO TẠO CỦA NÓ ĐƯỢC CHIA THÀNH HAI GIAI ĐOẠN, GIAI ĐOẠN ĐẦU TIÊN LÀ ĐÀO TẠO TRƯỚC KHÔNG GIÁM SÁT VÀ GIAI ĐOẠN THỨ HAI ĐƯỢC GIÁM SÁT TINH CHỈNH.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-236bb1a5ff-dd1a6f-69ad2a) TRONG GIAI ĐOẠN ĐẦU TIÊN, CODEFUSION SỬ DỤNG CÁC ĐOẠN MÃ KHÔNG ĐƯỢC GẮN NHÃN ĐỂ ĐÀO TẠO BỘ KHỬ NHIỄU VÀ BỘ GIẢI MÃ. Nó cũng sử dụng một lớp nhúng có thể đào tạo, L, để nhúng các đoạn mã vào các không gian liền kề.TRONG GIAI ĐOẠN THỨ HAI, CODEFUSION THỰC HIỆN TINH CHỈNH CÓ GIÁM SÁT, SỬ DỤNG DỮ LIỆU TỪ CÁC CẶP MÃ VĂN BẢN. Ở giai đoạn này, bộ mã hóa, bộ khử nhiễu và bộ giải mã đều được điều chỉnh để thực hiện tác vụ tốt hơn.NGOÀI RA, CODEFUSION DỰA TRÊN NGHIÊN CỨU TRƯỚC ĐÂY VỀ KHUẾCH TÁN VĂN BẢN ĐỂ HỢP NHẤT BIỂU DIỄN ẨN D TỪ BỘ GIẢI MÃ VÀO MÔ HÌNH. Điều này là để cải thiện hiệu suất của mô hình. Trong quá trình đào tạo, trong các bước khác nhau, mô hình giới thiệu một số nhiễu và sau đó tính toán chức năng mất mát để đảm bảo rằng đoạn mã được tạo phù hợp hơn với tiêu chuẩn dự kiến.TÓM LẠI, CODEFUSION LÀ MỘT MÔ HÌNH NHỎ THỰC HIỆN CÔNG VIỆC TẠO MÃ VÀ LIÊN TỤC CẢI THIỆN HIỆU SUẤT CỦA NÓ THÔNG QUA HAI GIAI ĐOẠN ĐÀO TẠO VÀ NHẬP TIẾNG ỒN. Mô hình này được lấy cảm hứng từ nghiên cứu khuếch tán văn bản và cải thiện chức năng mất bằng cách hợp nhất biểu diễn ẩn của bộ giải mã để tạo ra các đoạn mã chất lượng cao tốt hơn.## **Kết quả đánh giá**Bảng sau đây tóm tắt hiệu suất của mô hình CODEFUSION và từng mô hình đường cơ sở ở cài đặt top 1, top 3 và top 5.Trong top 1, hiệu suất của CODEFUSION có thể so sánh với, và trong một số trường hợp thậm chí còn tốt hơn, đặc biệt là trong các tác vụ Python, trong đó chỉ GPT-3 (175B) hoạt động tốt hơn một chút so với CODEFUSION (75M). Tuy nhiên, xét về top 3 và top 5, CODEFUSION vượt trội hơn đáng kể so với tất cả các mô hình cơ sở.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2f73f1df62-dd1a6f-69ad2a) Bảng dưới đây cho thấy kết quả đa dạng trung bình của CODEFUSION và các mô hình tự hồi quy (bao gồm T5, CodeT5, StarCoder, CodeGen và GPT-3) trên mỗi nhiệm vụ điểm chuẩn và kiểm tra kết quả được tạo ra bởi 5 thế hệ đầu tiên của mỗi mô hình.SO VỚI CÁC MÔ HÌNH TỰ HỒI QUY, CODEFUSION TẠO RA KẾT QUẢ ĐA DẠNG HƠN VÀ HOẠT ĐỘNG TỐT HƠN.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1289d29ab6-dd1a6f-69ad2a) Trong thí nghiệm cắt bỏ, các tác giả đã dừng quá trình khử nhiễu và tạo ra một đoạn mã về trạng thái hiện tại trong phạm vi thời gian bước t ∈ [0, T]. Chuẩn hóa khoảng cách chỉnh sửa chuỗi được sử dụng để đo lường kết quả thu được cho mỗi bước thời gian (theo gia số của mỗi 100 bước).CÁCH TIẾP CẬN NÀY GIÚP TÓM TẮT VÀ CHỨNG MINH TIẾN TRÌNH TỪNG BƯỚC CỦA MÔ HÌNH CODEFUSION, NHƯ THỂ HIỆN TRONG HÌNH DƯỚI ĐÂY.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-59696a2139-dd1a6f-69ad2a) Đã nói tất cả những điều đó, chính xác số lượng tham số trong GPT-3.5 là bao nhiêu? Kết nối kỹ thuật và kết nối khác giữa GPT-4 và GPT-3.5 là gì?GPT-3.5 là một tập hợp các mô hình chuyên gia nhỏ hay một mô hình tổng quát? Nó được chắt lọc bởi một mô hình lớn hơn hay được đào tạo trên một dữ liệu lớn hơn?Câu trả lời cho những câu hỏi này sẽ chỉ được tiết lộ khi chúng thực sự là nguồn mở.Tài nguyên: