OpenAI đã đăng ký nhãn hiệu GPT-5, khi nào nó sẽ được phát hành? Nó sẽ mang lại những khả năng mới nào?

Question

Nguồn ban đầu: Phòng thí nghiệm đổi mới AGI

Nguồn hình ảnh: Được tạo bởi Unbounded AI‌

Vào ngày 1 tháng 8, OpenAI đã chính thức gửi đơn đăng ký nhãn hiệu cho "GPT-5", bao gồm các nội dung sau:

Phần mềm tạo ra lời nói và văn bản của con người một cách giả tạo
Chuyển đổi tập tin dữ liệu âm thanh thành văn bản
Nhận dạng giọng nói và giọng nói
Xử lý ngôn ngữ và lời nói dựa trên máy học

Theo tài liệu đăng ký nhãn hiệu của GPT-5, nhãn hiệu GPT-5 bao hàm chức năng của AI để tạo giọng nói và văn bản, đồng thời có thể chuyển đổi tệp âm thanh thành văn bản, nhận dạng âm thanh và giọng nói, đồng thời sử dụng công nghệ máy học để xử lý ngôn ngữ và giọng nói .

Điều này có thể có nghĩa là GPT-5 sẽ hỗ trợ khả năng thoại, mang đến cho người dùng trải nghiệm xử lý văn bản và giọng nói tiên tiến và hiệu quả hơn, đồng thời nâng cao hơn nữa khả năng đa phương thức.

Khi nào GPT-5 sắp ra mắt?

Khi GPT-4 được phát hành vào tháng 3 năm 2023, OpenAI dự kiến sẽ phát hành mô hình thế hệ tiếp theo vào tháng 12 năm 2023. Người đồng sáng lập Runway, Siqi Chen trước đây đã tuyên bố rằng tôi được thông báo rằng GPT5 dự kiến sẽ hoàn thành khóa đào tạo vào tháng 12 năm nay và Openai hy vọng nó có thể đạt được trí tuệ nhân tạo chung (AGI). Điều đó có nghĩa là tất cả chúng ta sẽ tranh cãi gay gắt về việc liệu nó có thực sự là AGI hay không.

Tuy nhiên, khi được hỏi tại một sự kiện của MIT vào tháng 4 liệu OpenAI có đang đào tạo GPT-5 hay không, Giám đốc điều hành OpenAI Sam Altman cho biết "chúng tôi sẽ không và sẽ không trong một thời gian." Trong một cuộc phỏng vấn vào tháng 6 năm nay, người sáng lập kiêm Giám đốc điều hành OpenAI Sam Altman cho biết khi được hỏi GPT-5 đã ra mắt cái gì, tôi cũng rất tò mò, chúng tôi không có câu trả lời, chúng tôi sẽ không có GPT-5 sớm, chúng tôi phải tăng cường bảo mật. phần của nó.

Tuy nhiên, một số người tin rằng OpenAI có thể ra mắt GPT-4.5, phiên bản trung gian giữa GPT-4 và GPT-5, giống như GPT-3.5, vào tháng 10 năm 2023. GPT-4.5 được cho là cuối cùng sẽ mang lại khả năng đa phương thức, khả năng phân tích hình ảnh và văn bản. OpenAI đã công bố và trình diễn các khả năng đa phương thức của GPT-4 vào đầu tháng 3 năm 2023 trong buổi phát trực tiếp dành cho nhà phát triển GPT-4. Giờ đây, Microsoft đã phát hành các khả năng đa phương thức của GPT-4 trong Bing Chat. Có vẻ như bản cập nhật lớn tiếp theo cho GPT-4 sắp ra mắt.

Ngoài ra, OpenAI hiện còn rất nhiều việc phải làm trên mô hình GPT-4 trước khi bắt tay vào làm trên GPT-5. Hiện tại, thời gian suy luận của GPT-4 rất dài và khá tốn kém để chạy. Vẫn khó truy cập API GPT-4. Ngoài ra, OpenAI gần đây đã mở quyền truy cập vào các plugin ChatGPT và trình thông dịch mã vẫn đang trong giai đoạn thử nghiệm. Trình duyệt Internet đã bị xóa khỏi GPT-4 vì nó hiển thị nội dung từ các trang web trả phí.

Mặc dù GPT-4 rất mạnh, nhưng tôi nghĩ OpenAI nhận ra rằng hiệu quả tính toán là một trong những yếu tố chính để vận hành mô hình một cách bền vững. Thêm các tính năng và khả năng mới, đồng thời bạn có thể xử lý các cơ sở hạ tầng lớn hơn trong khi vẫn đảm bảo rằng tất cả các trạm kiểm soát đều hoạt động ổn định. Vì vậy, theo một dự đoán hoang dã, GPT-5 có thể sẽ được phát hành vào năm 2024 nếu chúng tôi cho rằng không có rào cản pháp lý nào từ các cơ quan chính phủ.

Dự đoán: Các tính năng và chức năng của GPT-5

Giảm ảo giác

Chủ đề nóng trong ngành là GPT-5 sẽ nhận ra AGI (trí tuệ nhân tạo). Trong số những thứ khác, GPT-5 sẽ giảm thời gian suy luận, cải thiện hiệu quả, giảm ảo giác, v.v. Hãy bắt đầu với ảo giác, một trong những lý do chính khiến hầu hết người dùng không tin tưởng lắm vào các mô hình AI.

Theo OpenAI, điểm GPT-4 cao hơn 40% so với GPT-3.5 khi đánh giá thực tế về thiết kế đối thủ nội bộ trên tất cả chín hạng mục. GPT-4 hiện có ít khả năng phản hồi hơn 82% đối với nội dung không chính xác và không được phép. Nó rất gần với điểm số 80% trong các bài kiểm tra độ chính xác giữa các danh mục. Đây là một bước nhảy khổng lồ chống lại ảo tưởng.

Giờ đây, OpenAI dự kiến sẽ giảm ảo giác xuống dưới 10% trong GPT-5, điều này sẽ rất quan trọng để làm cho các mô hình LLM trở nên đáng tin cậy.

Mô hình tính toán hiệu quả

Chúng tôi đã biết rằng GPT-4 tốn kém để chạy (0,03 đô la cho mỗi 1K mã thông báo) và mất nhiều thời gian hơn để suy luận. Và mẫu GPT-3.5-turbo cũ rẻ hơn 15 lần so với GPT-4 (0,002 USD cho mỗi mã thông báo 1K). Theo một báo cáo gần đây của SemiAnalysis, GPT-4 không phải là một mô hình dày đặc mà dựa trên kiến trúc "hỗn hợp các chuyên gia". Điều này có nghĩa là GPT-4 sử dụng 16 mô hình khác nhau cho các nhiệm vụ khác nhau, với 1,8 nghìn tỷ tham số.

Với cơ sở hạ tầng lớn như vậy, chi phí vận hành và bảo trì mô hình GPT-4 trở nên rất tốn kém.

Trên thực tế, nhiều mô hình lớn mới đã bắt đầu theo đuổi "nhỏ và tinh tế", để các mô hình lớn có ít thông số nhất có thể chứ không phải nhiều hơn.

Trong cách giải thích gần đây về mô hình Google PaLM 2, các tham số của PaLM 2 khá nhỏ nhưng hiệu suất rất nhanh.

Mô hình AI đa giác quan

Mặc dù GPT-4 được tuyên bố là mô hình AI đa phương thức, nhưng nó chỉ xử lý hai loại dữ liệu là hình ảnh và văn bản. Với GPT-5, OpenAI có thể tiến một bước dài tới tính đa phương thức thực sự. Nó cũng có thể xử lý văn bản, âm thanh, hình ảnh, video, dữ liệu độ sâu và nhiệt độ. Nó sẽ có thể kết nối các luồng dữ liệu từ các phương thức khác nhau để tạo ra các không gian nhúng.

trí nhớ dài hạn

Với việc phát hành GPT-4, OpenAI mang đến độ dài ngữ cảnh tối đa là 32 nghìn mã thông báo với chi phí 0,06 đô la cho mỗi 1 nghìn mã thông báo. Chúng tôi đã nhanh chóng nhận thấy sự thay đổi từ mã thông báo 4K tiêu chuẩn sang 32K chỉ trong vài tháng. Gần đây, Anthropic đã tăng cửa sổ ngữ cảnh của chatbot AI Claude của mình từ 9K mã thông báo lên 100K mã thông báo. Dự kiến, GPT-5 có thể hỗ trợ bộ nhớ dài hạn thông qua độ dài ngữ cảnh lớn hơn.

Điều này giúp làm cho các nhân vật AI và bạn bè ghi nhớ các nhân vật và ký ức của bạn trong nhiều năm tới. Bên cạnh đó, bạn cũng có thể tải sách và thư viện tài liệu văn bản trong một cửa sổ ngữ cảnh duy nhất. Nhiều ứng dụng AI mới có thể xuất hiện nhờ sự hỗ trợ của bộ nhớ dài hạn và GPT-5 có thể biến điều này thành hiện thực.

Bạn nghĩ khi nào GPT-5 sẽ được phát hành và nó sẽ mang đến những đổi mới đột phá nào?

Người giới thiệu:

Xem bản gốc