Vừa rồi, Baichuan Intelligent Baichuan2-192K đã được phát hành, với thời gian bối cảnh dài nhất trên thế giới! Sau khi đọc "Vấn đề ba cơ thể" cùng một lúc, tôi đã giành được 7 SOTA

2023-10-30 08:07:35

Nguồn bài: New Zhiyuan

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Cửa sổ bối cảnh dài nhất thế giới là đây! Hôm nay, Baichuan Intelligent đã phát hành mô hình lớn Baichuan2-192K, với chiều dài cửa sổ ngữ cảnh lên tới 192K (350.000 ký tự Trung Quốc), gấp 4,4 lần so với Claude 2 và 14 lần so với GPT-4!

Một chuẩn mực mới trong lĩnh vực cửa sổ bối cảnh dài, tại đây!

Hôm nay, Baichuan Intelligent đã chính thức cho ra mắt mẫu xe lớn có cửa sổ bối cảnh dài nhất thế giới - Baichuan2-192K.

Không giống như mô hình trước đó, chiều dài cửa sổ ngữ cảnh của mô hình này cao tới 192K, tương đương với khoảng 350.000 ký tự Trung Quốc.

Cụ thể hơn, Baichuan2-192K có thể xử lý các ký tự Trung Quốc gấp 14 lần so với GPT-4 (ngữ cảnh 32K, khoảng 25.000 từ) và Claude 2 (ngữ cảnh 100K, khoảng 80.000 từ) và có thể đọc một bản sao của "Vấn đề ba cơ thể" trong một lần ngồi.

Bản ghi cửa sổ ngữ cảnh mà Claude đã lưu giữ trong một thời gian dài đã được làm mới hôm nay

Ném phần đầu tiên của bài toán ba thân "Ngày xửa ngày xưa trên trái đất" vào đó, Baichuan2-192K nhai một chút, và ngay lập tức biết rõ toàn bộ câu chuyện.

Con số trên bức ảnh thứ 36 trong bộ đếm ngược mà Vương Miểu nhìn thấy là gì? Trả lời: 1194:16:37. Anh ấy đang sử dụng mẫu máy ảnh nào? A: Leica M2. Anh ấy và Dashi đã uống tổng cộng bao nhiêu lần? Trả lời: Hai lần.

Nhìn vào "Khu rừng hắc ám" thứ hai, Baichuan2-192K không chỉ trả lời ngay rằng Tổ chức ba cơ thể Trái đất đã thành lập hai căn cứ Hồng ngạn, và "Giọt nước" được làm bằng vật liệu có tương tác mạnh.

Hơn nữa, ngay cả những câu hỏi không phổ biến mà "Bài toán ba thân và học giả mười cấp" có thể không trả lời được, Baichuan2-192K cũng thông thạo đáp án, và rất dễ trả lời.

Ai có nhiều lần xuất hiện nhất trong tên của họ? Trả lời: Luo Ji.

Có thể nói, khi cửa sổ ngữ cảnh được mở rộng lên 350.000 từ, trải nghiệm sử dụng mô hình lớn dường như đã bất ngờ mở ra một thế giới mới!

Bối cảnh dài nhất thế giới, dẫn dắt Claude 2 trên bảng

Mô hình lớn, những gì sẽ bị mắc kẹt ở cổ?

Lấy ChatGPT làm ví dụ, mặc dù khả năng của nó rất đáng kinh ngạc, nhưng mô hình "toàn năng" này có một hạn chế không thể tránh khỏi - nó chỉ hỗ trợ tối đa 32K token (25.000 ký tự Trung Quốc) trong ngữ cảnh. Các ngành nghề như luật sư, nhà phân tích, v.v., cần phải đối phó với các văn bản mất nhiều thời gian hơn thế.

Một cửa sổ ngữ cảnh lớn hơn cho phép mô hình có được thông tin ngữ nghĩa phong phú hơn từ đầu vào và thậm chí trực tiếp thực hiện Hỏi & Đáp và xử lý thông tin dựa trên sự hiểu biết toàn văn bản.

Do đó, mô hình không chỉ có thể nắm bắt tốt hơn sự liên quan của bối cảnh, loại bỏ sự mơ hồ mà còn tạo ra nội dung chính xác hơn, giảm bớt vấn đề "ảo ảnh" và cải thiện hiệu suất. Hơn nữa, với sự ban phước của bối cảnh dài, nó cũng có thể được kết hợp sâu sắc với các cảnh dọc hơn, và thực sự đóng một vai trò trong công việc, cuộc sống và học tập của mọi người.

Mới đây, kỳ lân Thung lũng Silicon Anthropic đã nhận được khoản đầu tư 4 tỷ USD từ Amazon và 2 tỷ USD đầu tư từ Google. Sự ưu ái của hai gã khổng lồ tất nhiên liên quan đến vị trí hàng đầu của Claude trong công nghệ năng lực lâu dài.

Lần này, mô hình cửa sổ dài Baichuan-192K do Baichuan Intelligence phát hành vượt xa Claude 2-100K về độ dài của cửa sổ ngữ cảnh, và cũng đã đạt được vị trí dẫn đầu toàn diện trong việc đánh giá nhiều khía cạnh như chất lượng tạo văn bản, hiểu ngữ cảnh và khả năng Hỏi &Đáp.

10 đánh giá có thẩm quyền, 7 SOTA

Long là danh sách do Đại học California, Berkeley và các trường đại học khác công bố để đánh giá các mô hình cửa sổ dài, chủ yếu đo lường khả năng ghi nhớ và hiểu nội dung của các cửa sổ dài.

Về mặt hiểu ngữ cảnh, Baichuan2-192K vượt xa các mô hình khác trong danh sách đánh giá hiểu văn bản cửa sổ dài có thẩm quyền và vẫn có thể duy trì hiệu suất rất mạnh sau thời lượng cửa sổ hơn 100K.

Ngược lại, hiệu ứng tổng thể giảm rất nặng sau khi chiều dài cửa sổ Claude 2 vượt quá 80K.

Ngoài ra, Baichuan2-192K cũng thực hiện tốt 10 bộ đánh giá Hỏi & Đáp văn bản dài tiếng Trung và tiếng Anh, chẳng hạn như Dureader, NarrativeQA, LSHT và TriviaQA.

Trong số đó, 7 đạt được SOTA, vượt trội hơn đáng kể so với các mô hình cửa sổ dài khác.

Sự nhầm lẫn là một tiêu chí rất quan trọng khi nói đến chất lượng tạo văn bản.

Có thể hiểu đơn giản rằng khi một tài liệu chất lượng cao phù hợp với thói quen ngôn ngữ tự nhiên của con người được sử dụng làm bộ kiểm thử, xác suất mô hình sẽ tạo ra phiên bản tiếng Trung của bộ thử nghiệm càng cao, sự nhầm lẫn của mô hình càng nhỏ và mô hình càng tốt.

Theo kết quả thử nghiệm của "Language Modeling Benchmark Dataset PG-19" do DeepMind phát hành, mức độ nhầm lẫn của Baichuan2-192K là tuyệt vời ở giai đoạn ban đầu và khả năng mô hình hóa trình tự của Baichuan2-192K tiếp tục được cải thiện khi chiều dài cửa sổ mở rộng.

### ** Tối ưu hóa chung các thuật toán kỹ thuật, cải thiện đồng bộ hiệu suất độ dài **

Trong khi bối cảnh dài có thể cải thiện hiệu suất mô hình, cửa sổ dài cũng có nghĩa là nhiều sức mạnh tính toán hơn và nhiều bộ nhớ video hơn.

Hiện nay, thực tế phổ biến trong ngành là trượt cửa sổ, giảm lấy mẫu, thu nhỏ mô hình, v.v.

Tuy nhiên, những cách tiếp cận này đều hy sinh các khía cạnh khác của mô hình ở các mức độ khác nhau.

Để giải quyết vấn đề này, Baichuan2-192K đạt được sự cân bằng giữa chiều dài cửa sổ và hiệu suất mô hình thông qua việc tối ưu hóa cực độ các thuật toán và kỹ thuật, đồng thời đạt được sự cải thiện đồng thời về chiều dài cửa sổ và hiệu suất mô hình.

Trước hết, về mặt thuật toán, Baichuan Intelligent đề xuất sơ đồ ngoại suy cho mã hóa vị trí động RoPE và ALiBi, có thể thực hiện các mức độ nội suy động mặt nạ chú ý khác nhau cho mã hóa vị trí ALiBi có độ dài khác nhau, có thể nâng cao khả năng mô hình hóa của mô hình để dựa vào các chuỗi dài trong khi vẫn đảm bảo độ phân giải.

Thứ hai, về mặt kỹ thuật, trên cơ sở khung đào tạo phân tán tự phát triển, Baichuan Intelligence tích hợp hầu hết tất cả các công nghệ tối ưu hóa tiên tiến trên thị trường, bao gồm song song tensor, song song luồng, song song chuỗi, tính toán lại và Giảm tải, và đã tạo ra một bộ sơ đồ phân tán song song 4D toàn diện, có thể tự động tìm ra chiến lược phân tán phù hợp nhất theo tình huống tải cụ thể của mô hình, giúp giảm đáng kể sự chiếm dụng bộ nhớ trong quá trình đào tạo và suy luận cửa sổ dài.

Thử nghiệm nội bộ chính thức được mở và trải nghiệm trực tiếp được phát hành

Bây giờ, Baichuan2-192K đã chính thức bắt đầu bản beta kín!

Baichuan2-192K đã được kết nối với các ứng dụng và doanh nghiệp của riêng mình thông qua các cuộc gọi API, và bây giờ các phương tiện truyền thông tài chính, các công ty luật và các tổ chức khác đã đạt được sự hợp tác với Baichuan Intelligence.

Có thể hình dung rằng với việc áp dụng các khả năng bối cảnh dài hàng đầu thế giới của Baichuan2-192K cho các kịch bản cụ thể như truyền thông, tài chính và luật, chắc chắn nó sẽ mở rộng một không gian rộng hơn để thực hiện các mô hình lớn.

Thông qua API, Baichuan2-192K có thể được tích hợp hiệu quả vào các cảnh dọc hơn và tích hợp sâu với chúng.

Trước đây, những tài liệu có nội dung đồ sộ thường trở thành ngọn núi mà chúng ta không thể vượt qua trong công việc và học tập.

Với Baichuan2-192K, hàng trăm trang tài liệu có thể được xử lý và phân tích cùng một lúc, và thông tin quan trọng có thể được trích xuất và phân tích.

Cho dù đó là một bản tóm tắt / đánh giá tài liệu dài, một bài báo hoặc báo cáo dài, hoặc một công cụ hỗ trợ lập trình phức tạp, Baichuan2-192K sẽ cung cấp một sự thúc đẩy rất lớn.

Đối với các nhà quản lý quỹ, nó có thể giúp tóm tắt và giải thích báo cáo tài chính, phân tích rủi ro và cơ hội của công ty.

Đối với luật sư, nó có thể giúp xác định rủi ro trong nhiều văn bản pháp lý, xem xét hợp đồng và văn bản pháp lý.

Đối với các nhà phát triển, nó có thể giúp đọc hàng trăm trang tài liệu phát triển và trả lời các câu hỏi kỹ thuật.

Kể từ đó, phần lớn các nhà nghiên cứu khoa học cũng đã có một công cụ nghiên cứu khoa học và họ có thể nhanh chóng duyệt qua một số lượng lớn các bài báo và tóm tắt những tiến bộ tiên tiến mới nhất.

Trên hết, một bối cảnh dài hơn thậm chí còn có tiềm năng lớn hơn.

Các ứng dụng đại lý và đa phương thức là những điểm nóng nghiên cứu biên giới trong ngành công nghiệp hiện tại. Với khả năng ngữ cảnh dài hơn, các mô hình lớn có thể xử lý và hiểu rõ hơn các đầu vào đa phương thức phức tạp, cho phép học chuyển giao tốt hơn.

Độ dài bối cảnh, chiến trường dành cho binh lính

Có thể nói, chiều dài cửa sổ ngữ cảnh là một trong những công nghệ cốt lõi của các mô hình lớn.

Bây giờ, nhiều nhóm đang bắt đầu với "đầu vào văn bản dài" để xây dựng khả năng cạnh tranh khác biệt của mô hình cơ sở. Nếu số lượng tham số xác định mức độ phức tạp của mô hình lớn, độ dài của cửa sổ ngữ cảnh sẽ xác định mức độ "bộ nhớ" mà mô hình lớn có.

Sam Altman từng nói rằng chúng tôi nghĩ rằng chúng tôi muốn có một chiếc ô tô bay, không phải 140/280 ký tự, nhưng thực tế chúng tôi muốn 32.000 mã thông báo.

Trong và ngoài nước, nghiên cứu và sản phẩm để mở rộng cửa sổ bối cảnh có thể được mô tả là vô tận.

Vào tháng 5 năm nay, GPT-4, có bối cảnh 32K, đã gây ra một cuộc thảo luận sôi nổi.

Vào thời điểm đó, cư dân mạng đã mở khóa phiên bản này đã ca ngợi GPT-4 32K là nhà quản lý sản phẩm tốt nhất thế giới.

Ngay sau đó, công ty khởi nghiệp Anthropic đã thông báo rằng Claude đã có thể hỗ trợ độ dài mã thông báo ngữ cảnh là 100K, tương đương khoảng 75.000 từ.

Nói cách khác, sau khi một người trung bình đã đọc cùng một lượng nội dung trong khoảng 5 giờ, họ phải dành nhiều thời gian hơn để tiêu hóa, ghi nhớ và phân tích. Đối với Claude, chỉ mất chưa đầy 1 phút.

Trong cộng đồng nguồn mở, Meta cũng đã đề xuất một phương pháp có thể mở rộng hiệu quả khả năng ngữ cảnh, có thể làm cho cửa sổ ngữ cảnh của mô hình cơ bản đạt 32.768 mã thông báo và đã đạt được những cải tiến đáng kể về hiệu suất trong các tác vụ phát hiện ngữ cảnh tổng hợp và mô hình hóa ngôn ngữ khác nhau.

Kết quả cho thấy mô hình với các thông số 70B đã đạt được hiệu suất vượt trội gpt-3.5-turbo-16K trong các tác vụ bối cảnh dài khác nhau.

Địa chỉ:

Phương pháp LongLoRA được đề xuất bởi các nhà nghiên cứu từ các nhóm Hồng Kông, Trung Quốc và MIT có thể mở rộng độ dài văn bản của mô hình 7B lên 100k mã thông báo và độ dài văn bản của mô hình 70B lên 32k mã thông báo chỉ với hai dòng mã và máy A100 8 thẻ.

Địa chỉ:

Các nhà nghiên cứu từ DeepPavlov, AIRI và Viện Khoa học Toán học London đã sử dụng phương pháp Biến đổi bộ nhớ tái phát (RMT) để tăng độ dài ngữ cảnh hiệu quả của BERT lên "2 triệu mã thông báo chưa từng có" và duy trì độ chính xác truy xuất bộ nhớ cao.

Tuy nhiên, trong khi RMT có thể mở rộng đến độ dài chuỗi gần như vô hạn mà không làm tăng mức tiêu thụ bộ nhớ, vẫn còn vấn đề phân rã bộ nhớ trong RNN và thời gian suy luận dài hơn.

Địa chỉ:

Hiện tại, độ dài cửa sổ ngữ cảnh của LLM chủ yếu nằm trong khoảng 4.000-100.000 mã thông báo và nó tiếp tục phát triển.

Thông qua nghiên cứu nhiều mặt về cửa sổ bối cảnh trong ngành công nghiệp AI và học viện, nó cho thấy tầm quan trọng của nó đối với LLM.

Và lần này, mô hình lớn trong nước đã mở ra khoảnh khắc nổi bật lịch sử của cửa sổ bối cảnh dài nhất.

Cửa sổ bối cảnh 192K, làm mới kỷ lục ngành, không chỉ đại diện cho một bước đột phá khác trong công nghệ mô hình quy mô lớn của Baichuan Intelligence, mà còn là một cột mốc quan trọng khác trong sự phát triển của mô hình quy mô lớn. Điều này chắc chắn sẽ mang lại một cú sốc mới cho việc cải cách hình thức sản phẩm.

Được thành lập vào tháng 4/2023, Baichuan Intelligent đã liên tiếp phát hành bốn mẫu lớn thương mại mã nguồn mở và miễn phí Baichuan-7B/13B và Baichuan2-7B/13B chỉ trong 6 tháng, cũng như hai mẫu lớn mã nguồn đóng Baichuan-53B và Baichuan2-53B.

Theo cách này, về cơ bản nó là một LLM vào ngày đầu tiên của tháng Giêng.

Bây giờ, với việc phát hành Baichuan2-192K, công nghệ cửa sổ bối cảnh dài mô hình lớn cũng sẽ hoàn toàn bước vào kỷ nguyên Trung Quốc!

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích

Phần thưởng
1
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1Gate ETH Staking APY 5%
3k Phổ biến
2Show My Alpha Points
24k Phổ biến
3SOL Futures Reach New High
6k Phổ biến
4ETH ETF Sees 12 Weeks of Inflows
4k Phổ biến
5Crypto Market Rebound
172k Phổ biến

Ghim

sơ đồ trang web

Vừa rồi, Baichuan Intelligent Baichuan2-192K đã được phát hành, với thời gian bối cảnh dài nhất trên thế giới! Sau khi đọc "Vấn đề ba cơ thể" cùng một lúc, tôi đã giành được 7 SOTA

** Bối cảnh dài nhất thế giới, dẫn dắt Claude 2 trên bảng**

** 10 đánh giá có thẩm quyền, 7 SOTA **

**Thử nghiệm nội bộ chính thức được mở và trải nghiệm trực tiếp được phát hành **

Độ dài bối cảnh, chiến trường dành cho binh lính

Bối cảnh dài nhất thế giới, dẫn dắt Claude 2 trên bảng

10 đánh giá có thẩm quyền, 7 SOTA

Thử nghiệm nội bộ chính thức được mở và trải nghiệm trực tiếp được phát hành