Nguồn ảnh: Tạo bởi công cụ Unbounded AI, mô hình chung (game CG)
Độ dài ngữ cảnh từng là một trong những hạn chế lớn nhất của GPT-3. GPT-3 chỉ có thể chấp nhận tối đa 4000 mã thông báo (3000 từ, 6 trang), nếu không sẽ báo lỗi. Do đó, để xử lý các tài liệu dài và lời nhắc (), cần phải giới thiệu các kỹ thuật truy xuất khác như LangChain. Tuy nhiên, MosaicML (đã được Databricks mua lại với giá khoảng 1,3 tỷ USD) đã mở ngữ cảnh MPT-7B vào đầu tháng 5 với độ dài 84.000 mã thông báo (63.000 từ, 126 trang), giúp mở rộng đáng kể phạm vi văn bản có thể được xử lý. , Mô hình Claude do Anthronpic phát triển có độ dài ngữ cảnh được mở rộng tới 100.000 mã thông báo.
MPT-7B được đào tạo từ đầu bằng cách sử dụng 1 nghìn tỷ mã thông báo văn bản và mã làm dữ liệu đào tạo. So với các mô hình tương tự khác (chẳng hạn như Pythia và OpenLLaMA sử dụng 300 tỷ mã thông báo, StableLM sử dụng 800 tỷ mã thông báo), dữ liệu đào tạo của MPT-7B lớn hơn và chất lượng của nó tương đương với LLaMA-7B. Mô hình được đào tạo trên nền tảng MosaicML, sử dụng 440 GPU và quá trình đào tạo kéo dài 9,5 ngày mà không có sự can thiệp của con người với chi phí khoảng 200.000 USD. Không giống như các mô hình mở khác, MPT-7B được cấp phép sử dụng thương mại và được tối ưu hóa để đào tạo và suy luận nhanh với FlashAttention và FasterTransformer.
(Hiệu suất MPT-7B trong các nhiệm vụ học tập không bắn)
MosaicML cũng đã phát hành ba mẫu MPT-7B-Instruct, MPT-7B-Chat, MPT-7B-StoryWriter-65k+ dựa trên MPT-7B cơ sở để tinh chỉnh.
Mô hình được tinh chỉnh trên dolly_hhrlhf. Tập dữ liệu dolly_hhrlhf được xây dựng dựa trên tập dữ liệu "dolly-5k".
Mô hình được tinh chỉnh trên bộ dữ liệu ShareGPT-Vicuna, HC3, Alpaca, Hữu ích và Vô hại và Evol-Instruct.
Bộ dữ liệu tinh chỉnh cho mô hình này là một tập hợp con đã lọc của các tiểu thuyết trong sách3 với độ dài ngữ cảnh là 65k. Mặc dù kích thước được quảng cáo là 65 nghìn mã thông báo, nhưng nhóm đã có thể nhận được phản hồi là 84 nghìn mã thông báo khi chạy trên GPU A100-80GB của một nút. Công nghệ chính đằng sau điều này là ALiBi. The Great Gatsby ban đầu chỉ có khoảng 68 nghìn mã thông báo, vì vậy nhóm đã sử dụng mô hình MPT-7B-StoryWriter-65k+ để tạo phần kết mới cho cuốn tiểu thuyết.
Ngoài các điểm kiểm tra mô hình, nhóm đã mã nguồn mở toàn bộ cơ sở mã để đào tạo trước, tinh chỉnh và đánh giá MPT thông qua Xưởng đúc MosaicML LLM mới của họ. Bảng trên được tạo bằng khung đánh giá học tập theo ngữ cảnh trong LLM Foundry.
Nhà khoa học trưởng của MosaicML, Jonathan Frankle và Nhà khoa học nghiên cứu Abhinav Venigalla là những người đứng đầu MPT-7B, chỉ đạo toàn bộ quá trình đào tạo của MPT-7B. Trong podcast mới nhất của Latent Space, Alessio, đối tác chính của Swyx và Decibel Partners đã thảo luận với họ về sự đổi mới của quy trình đào tạo MPT-7B và giải thích lý do tại sao sự kết hợp bộ dữ liệu LLM là một nghệ thuật quan trọng và bí ẩn. Ngoài ra, một số điểm chuẩn trắc nghiệm truyền thống có thể không hữu ích lắm cho công nghệ đang được xây dựng và họ cũng sẽ khám phá những lý do đằng sau điều này.
(Nội dung dưới đây được OneFlow tổng hợp và phát hành sau khi được ủy quyền, nguồn: https://
Xây dựng mô hình MPT-7B
**Swyx: Tại sao bạn lại phát triển MPT-7B? **
Abhinav: Dự án MPT-7B mất khoảng 6-12 tháng. Chúng tôi đã bắt đầu nghiên cứu các mô hình ngôn ngữ vào mùa hè năm ngoái và xuất bản một bài đăng trên blog phân tích các mô hình ngôn ngữ và nhận thấy rằng chi phí đào tạo thực sự có thể thấp hơn nhiều so với mọi người nghĩ. Cũng kể từ đó, lấy cảm hứng từ mô hình LLaMA do Meta AI phát hành và nhiều công trình nguồn mở khác, chúng tôi bắt đầu tạo ra một mô hình thực sự tốt với 7 tỷ tham số, đó là nguồn gốc của MPT.
Alessio: Bạn đã nói trong một trong các podcast: Mosaic không có kế hoạch xây dựng và tung ra các mô hình. Nhưng cuối cùng thì bạn vẫn cho ra mắt mô hình đó, điều gì đã khiến bạn thay đổi quyết định?
Jonathan: Tôi nghĩ có một số yếu tố: Chúng tôi vẫn thiếu một mô hình hạng nhất. Không giống như OpenAI, nơi hoạt động kinh doanh của chúng tôi xoay quanh việc khách hàng tạo ra các mô hình của riêng họ, chúng tôi chủ yếu cung cấp cho họ các công cụ và để các công cụ đó hoạt động hiệu quả, trước tiên chúng tôi phải tạo các mô hình của riêng mình.
Rõ ràng là nếu khách hàng của chúng tôi có thể làm được những điều tuyệt vời thì chúng tôi cũng có thể làm được những điều tuyệt vời. Tôi đã có rất nhiều người trên Twitter đặt câu hỏi về tính xác thực của những con số mà Mosaic đưa ra, như Ross Whiteman nói: "Hãy xem kết quả thực tế", tôi sẽ nói: "Ross, bạn nghĩ những con số này hoạt động như thế nào ?" Chúng tôi đã phát triển mô hình này trong 9,5 ngày với chi phí 200.000 đô la, vì vậy bạn cũng có thể làm được.
**Swyx: **Tham khảo dữ liệu bạn công bố năm ngoái, ước tính ban đầu rằng chi phí đào tạo GPT-3 là dưới 450.000 đô la, sau đó giảm xuống còn 100.000 đô la; chi phí Khuếch tán ổn định cũng giảm từ 160.000 đô la đến dưới 50.000 đô la.
Jonathan: Tôi vẫn rất thận trọng về con số 100.000 USD. Nó vẫn chưa đến, nhưng chúng tôi đang đi theo hướng đó và đó là một thách thức lớn đối với Abhi.
Swyx: Có ba biến thể của mẫu MPT-7B, một trong số đó đạt được SOTA về độ dài ngữ cảnh, quy trình đào tạo cho những mẫu này là gì?
Abhinav: Mô hình cơ bản của chúng tôi là bản tái tạo của LLaMA-7B, với 7 tỷ tham số và dữ liệu đào tạo gồm 1 nghìn tỷ mã thông báo, cung cấp điểm khởi đầu đào tạo hiệu quả cho mô hình tinh chỉnh mà không cần can thiệp quá mức. Việc tinh chỉnh mô hình cũng rất thú vị, chẳng hạn như MPT-7B-StoryWriter-65k+ có thể dùng để viết truyện, độ dài cửa sổ ngữ cảnh là 65.000 và còn có thể viết tiếp dựa trên nội dung đã biết.
Tất nhiên, đây chỉ là một trong những hướng chúng tôi nghĩ ra, bạn có thể sử dụng mô hình Cơ sở MPT-7B để xây dựng các mô hình tùy chỉnh cho phù hợp với các nhu cầu khác nhau, chẳng hạn như mô hình mã ngữ cảnh dài hoặc mô hình ngôn ngữ cụ thể. Vì vậy, dựa trên mô hình cơ bản, ba biến thể đã được tạo ra, MPT-7B-Hướng dẫn, MPT-7B-Trò chuyện và MPT-7B-StoryWriter-65k+, lần lượt được sử dụng để làm theo các hướng dẫn ngắn, đối thoại trò chuyện và viết truyện.
Alessio: Làm cách nào để bạn quyết định số lượng mã thông báo và tham số sẽ sử dụng khi đào tạo mô hình? 7 tỷ và 3 tỷ tham số mô hình dường như là hai con số kỳ diệu đang thịnh hành hiện nay.
Abhinav: Đối với các mô hình đào tạo, luật chia tỷ lệ có thể cho bạn biết cách sử dụng tài nguyên máy tính đào tạo hiệu quả nhất. Ví dụ: nếu ngân sách là 200.000 đô la Mỹ, thì theo quy luật quy mô, chương trình đào tạo hiệu quả nhất có thể được đưa ra.
Trong số đó, định luật mà chúng ta thường tuân theo nhất là định luật Chinchilla. Đối với mô hình MPT-7B và các biến thể liên quan của nó, các luật này không được tuân thủ nghiêm ngặt, vì chúng tôi muốn đảm bảo rằng mô hình phù hợp với mục đích sử dụng cá nhân và có hiệu suất suy luận tốt, do đó, nó đã được đào tạo quá mức, vượt quá Điểm Chinchilla (tham khảo dữ liệu mức được đo bằng mã thông báo). Một số người trên mạng gọi đùa những mô hình này là Llongboi vì thời gian đào tạo của chúng khá dài, lấy mô hình 7B làm ví dụ, Điểm Chinchilla có thể là 140 tỷ mã thông báo, nhưng chúng tôi thực sự đã đào tạo 1 nghìn tỷ mã thông báo, vì vậy thời gian đào tạo là gần 7 lâu hơn bình thường gấp nhiều lần.
**Swyx: Có phải Llongboi đang đề cập đến một phương pháp đào tạo? **
Jonathan: Llongboi chỉ là một trò đùa của người trong cuộc, đề cập đến một phương pháp đào tạo sử dụng nhiều mã thông báo hơn so với quy định của luật Chinchilla. Có thể thấy Llongboi có hai chữ "L" ở đầu, dùng để tri ân LLaMA. Giám đốc điều hành của chúng tôi đã từng công khai tên này trên Twitter, gọi người mẫu là "Llongboi". Đôi khi tôi thực sự muốn lấy mật khẩu twitter của anh ấy để nó không bị lộ sớm, nhưng bây giờ cả thế giới đều biết tên.
Về kiến trúc, ALiBi, ngữ cảnh
**Alessio:**Chú ý chớp nhoáng và Biến hình nhanh hơn là hai yếu tố cốt lõi trong việc xây dựng mô hình của bạn. Ưu điểm của chúng là gì?
**Abhinav:**Chú ý chớp nhoáng là cách triển khai chú ý đầy đủ nhanh hơn, do phòng thí nghiệm Nghiên cứu Hazy của Stanford phát triển. Chúng tôi đã tích hợp Chú ý nhanh vào thư viện của mình vào tháng 9 năm ngoái và nó đã đóng một vai trò quan trọng trong tốc độ đào tạo và suy luận. So với các mô hình Hugging Face khác, mô hình này rất đặc biệt, nó có thể chuyển đổi giữa Chú ý chung bằng đèn pin và Chú ý bằng đèn flash được thiết kế đặc biệt cho GPU, giúp tốc độ đào tạo của mô hình tăng khoảng 2 lần và tốc độ suy luận tăng 50%. -100%.
**Swyx: Điều gì thúc đẩy bạn chọn mã hóa vị trí ALiBi? **
Abhinav: Chúng tôi đã kết hợp mã hóa vị trí ALiBi, Chú ý nhanh và ổn định đào tạo theo một cách thú vị. ALiBi có thể loại bỏ nhu cầu nhúng vị trí trong mô hình. Trước đây, nếu mã thông báo có vị trí 1, thì bạn cần thêm một vị trí nhúng cụ thể và không thể vượt quá vị trí tối đa (thường là 2000). Nhưng với ALiBi, vấn đề này đã được giải quyết. Chúng ta chỉ cần thêm một độ lệch (bias) vào Bản đồ chú ý, nó giống như một độ dốc, và nếu cần một phạm vi vị trí dài hơn để suy luận, nó sẽ mở rộng độ dốc này thành một số vị trí dài hơn. Cách tiếp cận này hoạt động vì độ dốc liên tục và có thể được giải thích.
Thật thú vị, thông qua Flash Attention, mô hình tiết kiệm rất nhiều bộ nhớ và cải thiện hiệu suất, vì vậy chúng tôi đã bắt đầu thực hiện các thử nghiệm hiệu suất trên các mô hình có ngữ cảnh rất dài (lên tới 65k) vào năm ngoái, đồng thời, rất khó thực hiện đào tạo ổn định. Sau đó, chúng tôi đã cố gắng tích hợp ALiBi vào mô hình và tính ổn định của mô hình đã được cải thiện đáng kể. Giờ đây, chúng tôi có thể đào tạo ổn định các mô hình viết truyện trên các ngữ cảnh rất dài và đảm bảo việc sử dụng chúng một cách hiệu quả.
Jonathan: Độ dài ngữ cảnh về mặt kỹ thuật là không giới hạn. Miễn là có đủ bộ nhớ, cuộc đối thoại có thể tiếp tục vô thời hạn. Chúng tôi tin rằng con số dài nhất mà mô hình có thể xử lý là 84K, đây là độ dài ngữ cảnh dài nhất mà con người có thể xử lý thoải mái trong thực tế. Nhưng chúng tôi cũng đã thử độ dài ngữ cảnh vượt quá 84K trong thực tế và chúng tôi có thể xử lý độ dài ngữ cảnh dài hơn.
**Swyx:**Ví dụ: chúng ta có thể nhập tiểu thuyết "The Great Gatsby" vào mô hình, sau đó để mô hình tiếp tục viết tiểu thuyết dựa trên văn bản đã nhập và cuối cùng mô hình xuất ra nội dung khá thú vị.
Jonathan: Có rất nhiều phiên bản thực sự hay về phần cuối của câu chuyện trong Mosaic. Một phiên bản mô tả đám tang của Gatsby, Nick bắt đầu nói chuyện với hồn ma của Gatsby, cha của Gatsby cũng xuất hiện, sau đó anh và Tom xuất hiện tại đồn cảnh sát. Phiên bản này nhấn mạnh nhiều vào cốt truyện, mô tả những gì xảy ra tiếp theo. Ngoài ra, nhiều phiên bản có kết thúc rất Fitzgerald-esque, và chúng được viết rất đẹp. Vì vậy, thật thú vị khi thấy rằng mô hình dường như đang xử lý đầu vào và tạo ra đầu ra có ý nghĩa. Chúng ta có thể làm được rất nhiều với độ dài ngữ cảnh này.
Alessio: Bộ nhớ bắt đầu trở thành một trong những hạn chế của mô hình, vậy nên chọn kích thước tham số và độ dài ngữ cảnh như thế nào?
Jonathan: Gần đây, nghiên cứu về ngữ cảnh dài được nhiều người quan tâm và hàng loạt bài báo liên quan ra đời. Tuy nhiên, những bài báo này không hoàn toàn chính xác và ở một mức độ nào đó, đặc biệt là đối với các cơ chế chú ý, chúng so sánh các cơ chế chú ý không bậc hai (như chú ý gần đúng, phân cấp) với chú ý bậc hai rõ ràng và chính xác. . Tôi đang lạc quan về các phương pháp gần đúng, vì vậy rất nóng lòng muốn tìm hiểu những bài báo này.
Viết và đọc báo đã dạy cho tôi một bài học quan trọng về việc không tin vào bất kỳ dữ liệu nào cho đến khi bạn tự mình làm điều đó. Tại Mosaic, chúng tôi đã nhiều lần thất vọng về việc triển khai vì các bài báo ban đầu có vẻ hứa hẹn, chỉ sau khi triển khai mới nhận ra rằng các bài báo đó đã thao túng dữ liệu. Do đó, tôi luôn hoài nghi về dữ liệu và không tin tưởng vào bất kỳ kết quả nào cho đến khi chúng được triển khai lại và xác thực. Nhìn chung, việc thực hành đã được đền đáp và nhiều khi lý thuyết không hoạt động hiệu quả trong thực tế như mong đợi.
Tính năng của MPT-7B
**Swyx: Các tính năng cụ thể của MPT-7B là gì? **
Abhinav: Tôi sẽ chia phần này thành hai phần, phần đầu tiên là sự ổn định của quá trình đào tạo. Câu hỏi này có thể được chia thành ba phần. Đầu tiên, mô hình cần tránh mất đột biến trong quá trình đào tạo, đây là tuyến phòng thủ đầu tiên của chúng tôi. Theo tôi, các đợt mất mát không phải là vấn đề lớn ở quy mô đào tạo 7 tỷ tham số. Tuy nhiên, tránh tăng đột biến mất mát trở nên khó khăn khi thời gian đào tạo tăng lên. Chúng tôi đã dành nhiều thời gian để tìm ra cách điều chỉnh các phương thức khởi tạo, trình tối ưu hóa, kiến trúc, v.v. để ngăn ngừa tổn thất tăng đột biến. Ngay cả trong quá trình tu luyện, nếu chúng ta nhìn kỹ, vẫn có thể tìm thấy một số đỉnh núi nhỏ không liên tục, nhưng những đỉnh núi này sẽ trở lại bình thường trong vòng vài trăm bước, đây là một hiện tượng rất kỳ diệu, có thể giúp chúng ta tự nhiên phục hồi tổn thất đỉnh cao.
Chủ nghĩa quyết định và các chiến lược phục hồi thông minh là tuyến phòng thủ thứ hai của chúng tôi. Trong trường hợp xảy ra lỗi nghiêm trọng, chúng tôi sẽ có thể nhanh chóng tiếp tục đào tạo, áp dụng một số biện pháp can thiệp trong một vài đợt trước khi xảy ra lỗi. Đối với các vấn đề có thể xảy ra, chúng tôi đã thực hiện nhiều bước chuẩn bị khác nhau. Tuy nhiên, trong quá trình huấn luyện MPT-7B, chúng tôi hoàn toàn không sử dụng các biện pháp dự phòng này, đây phải nói là một loại may mắn.
Cơ sở hạ tầng đào tạo phù hợp là tuyến phòng thủ thứ ba. Nếu chúng tôi cố gắng đào tạo mô hình trên hàng trăm GPU, thường sẽ xảy ra lỗi phần cứng. Ví dụ: khi đào tạo một mô hình trong một cụm lớn với 512 GPU, quá trình đào tạo sẽ thất bại gần như hai ngày một lần, lý do thất bại có thể là do lỗi mạng.
Thông thường, mọi người thành lập các nhóm trực 24/7 để giải quyết những lỗi này. Khi xảy ra lỗi, nhóm cố gắng kiểm tra cụm, xóa các nút bị hỏng, khởi động lại, v.v., đây là một công việc rất tẻ nhạt. Chúng tôi đã từng dành nhiều tháng để kiểm tra lỗi theo cách thủ công, nhưng giờ đây chúng tôi đã xây dựng một nền tảng để tự động hóa mọi nút trong quy trình đào tạo mô hình.
Khi có sự cố với quá trình chạy mô hình, hệ thống giám sát tự động của chúng tôi sẽ dừng công việc, kiểm tra và kiểm tra các nút bị hỏng rồi khởi động lại. Do khả năng phục hồi nhanh chóng và xác định của phần mềm của chúng tôi, mô hình tiếp tục chạy tốt. Do đó, đôi khi chúng ta có thể thấy trong nhật ký mô hình rằng sau khi một mô hình bị lỗi lúc 2 giờ sáng, mô hình đó sẽ được sao lưu và chạy trong vòng vài phút mà không cần sự can thiệp thủ công của thành viên nhóm.
Jonathan: Làm được điều này thực sự không dễ dàng, nếu như mô hình vài tháng trước xảy ra lỗi phần cứng, các thành viên trong nhóm sẽ phải dậy từ hai giờ sáng để kiểm tra nguyên nhân. lỗi nút và khởi động lại công việc. Trước đây, ngay cả ở quy mô đào tạo 7 tỷ tham số, chúng tôi thường gặp phải các đột biến mất dữ liệu nghiêm trọng và những vấn đề này ảnh hưởng nghiêm trọng đến quá trình đào tạo mô hình.
Chúng tôi hiện đã giải quyết những vấn đề này thông qua các cải tiến gia tăng. Như Abhinav đã nói, giờ đây chúng ta có thể ngồi trong văn phòng trong khi đào tạo nhiều người mẫu mà không lo mô hình bị lỗi và làm gián đoạn quá trình đào tạo.
Lựa chọn và lặp lại dữ liệu và những thách thức đánh giá của LLM
**Swyx: Lựa chọn dữ liệu là trọng tâm của bạn, bạn có thể mở rộng về nó không? **
Jonathan: Abhi suýt giết tôi khi tôi cố sử dụng toàn bộ GPU để xử lý dữ liệu thay vì thực sự huấn luyện mô hình. Chúng tôi biết rằng đào tạo một mô hình đòi hỏi rất nhiều dữ liệu, nhưng cũng có nhiều điều không chắc chắn.
Một là loại nguồn dữ liệu khác nhau nào là quan trọng và hai là tầm quan trọng của việc sao chép. Trong số đó, câu hỏi về sự trùng lặp có thể được chia nhỏ thành sự đánh đổi về chất lượng và số lượng. Giả sử tôi có 10 tỷ dữ liệu từ vựng tốt nhất trên thế giới, tốt hơn là đào tạo lại nó hàng trăm lần hay tốt hơn là sử dụng 1 nghìn tỷ dữ liệu từ vựng cập nhật, chất lượng thấp? Tất nhiên, có thể có một điểm thỏa hiệp, nhưng làm thế nào để xác định dữ liệu chất lượng cao cũng là một vấn đề và vẫn chưa có câu trả lời rõ ràng. Nếu tôi quay trở lại học viện bây giờ, tôi chắc chắn sẽ viết một bài báo về nó, bởi vì tôi chưa biết gì về nó.
Swyx: Cho đến nay tôi chưa thấy bất kỳ tài liệu nghiên cứu nào về vấn đề này.
Jonathan: Câu hỏi trọng tâm của nghiên cứu luận án là "nên sử dụng loại kết hợp tập dữ liệu nào".
Trong quá trình tạo ra mô hình, tôi quay trở lại Trường Luật Georgetown, nơi tôi giảng dạy, và ngồi lại với một nhóm sinh viên luật để thảo luận về nó. Tôi cung cấp cho họ tập dữ liệu chất lượng cao, cách trộn dữ liệu và số lượng mã thông báo họ có, đồng thời để họ tạo tập dữ liệu tốt nhất cho mô hình của họ.
Họ không biết gì về LLM ngoài việc dữ liệu đầu vào ảnh hưởng đến hành vi. Tôi yêu cầu họ tạo ra một sản phẩm kết hợp bao gồm tất cả các sự đánh đổi khác nhau. Lúc đầu, có thể cần một lượng lớn kho ngữ liệu tiếng Anh, có thể lấy qua Internet, nếu bạn muốn biến nó thành mô hình đa ngôn ngữ, thì kho ngữ liệu tiếng Anh sẽ giảm đi rất nhiều; ngoài ra, có nên đưa mã vào Nó.
Một số người nghĩ rằng mã có thể làm cho mô hình hoạt động tốt hơn trong suy luận logic, nhưng tôi chưa bao giờ thấy bất kỳ bằng chứng nào hỗ trợ ý tưởng này. Mặc dù chúng tôi thực sự đã phát triển một mô hình mã xuất sắc, nhưng liệu mô hình mã đó có thể dẫn đến khả năng suy luận chuỗi tư duy tốt hơn hay không thì cần phải nghiên cứu thêm.
Một phiên bản của GPT-3 được cho là đã được đào tạo từ tiểu thuyết "Mật mã Da Vinci", vì vậy một số người nghĩ rằng điều này có thể hữu ích, nhưng không có bằng chứng; () sẽ giúp ích cho việc đào tạo người mẫu, nhưng cũng có thiếu bằng chứng.
Do đó, chúng tôi đã thử nghiệm với nhiều cách kết hợp dữ liệu khác nhau và nhận thấy rằng một số cách kết hợp dữ liệu hoạt động tốt hơn hoặc tệ hơn những cách kết hợp khác. Ví dụ: "The Pile" là một hỗn hợp dữ liệu rất ổn định, nhưng theo số liệu đánh giá, có những hỗn hợp dữ liệu khác tốt hơn. Tiếp theo tôi cũng sẽ đề cập đến vấn đề đánh giá, điều này rất quan trọng.
Mô hình T5 ban đầu được đào tạo trên tập dữ liệu C4, mô hình này hoạt động rất tốt. Những người khác, bao gồm Stella Beaterman của EleutherAI, đã đề cập đến điều này khi tôi tweet về nó. Trong bài báo gốc về mô hình T5, phương pháp tiền xử lý cho tập dữ liệu C4 có vẻ kỳ lạ và các tác giả đã xóa mọi thứ có chứa từ "Java" khỏi tập dữ liệu vì họ không muốn có các cảnh báo liên quan đến Java. Ngoài ra, họ đã loại bỏ việc đưa vào các dấu ngoặc nhọn vì họ không muốn đưa vào Java.
Họ đã xem xét một danh sách các từ xấu và xóa nội dung chứa các từ xấu. Tuy nhiên, danh sách những từ xấu thực sự bao gồm một số từ không thực sự xấu, chẳng hạn như "gay". Nhưng nhờ quá trình làm sạch này, tập dữ liệu thu được dường như là vô song. Từ thời điểm này, chúng tôi không biết gì về dữ liệu.
Thực ra chúng tôi cũng sử dụng một bộ dữ liệu là MC4, MC4 và C4 đều có tiền xử lý giống nhau, nhưng bổ sung thêm phần gọi web (web call), nhưng so với C4 thì phần tiếng Anh của MC4 kém hơn rất nhiều, không rõ nguyên nhân.
Đối với điều này, tôi đặt ra hai tiêu chí:
Trước hết, phần tiếng Anh ít nhất phải bằng MC4. So với các bộ dữ liệu có sẵn khác, phần tiếng Anh của MC4 tốt hơn. Thứ hai, hãy tận dụng sự đa dạng của dữ liệu và đảm bảo tập dữ liệu bao gồm những thứ như mã, bài báo khoa học và Wikipedia, bởi vì mọi người sẽ sử dụng mô hình cho nhiều nhiệm vụ khác nhau.
Nhưng tôi nghĩ, quan trọng nhất là mô hình chỉ tốt khi thước đo đánh giá. Abhi có thể không đồng ý về điểm này. Chúng tôi không biết cách đánh giá chính xác các mô hình tổng quát khi chúng được yêu cầu thực hiện các nhiệm vụ cụ thể. Trong một số trường hợp, chúng ta phải thừa nhận rằng những đánh giá của chính chúng ta thậm chí không đo lường được những gì chúng ta thực sự quan tâm, vì vậy chúng ta chỉ có thể đưa ra những lựa chọn hợp lý.
Swyx: Bạn có nghĩ rằng các phương pháp đánh giá như MMLU (Hiểu ngôn ngữ đa nhiệm lớn) và BIG-bench không đủ thuyết phục?
Jonathan: Những phương pháp này chắc chắn thực hiện hai loại nhiệm vụ. Một là nhiệm vụ trắc nghiệm, chứa một câu trả lời đúng, cho phép mô hình tạo ra các tùy chọn như A, B, C hoặc D, sau đó chọn câu trả lời mà mô hình có nhiều khả năng tạo ra nhất bằng cách tính toán độ phức tạp của mỗi câu trả lời có thể. Nhưng thay vì yêu cầu người mẫu thực hiện các câu hỏi trắc nghiệm, chúng tôi thực hiện loại nhiệm vụ tổng quát mở thứ hai, chẳng hạn như tóm tắt. So sánh bằng cách sử dụng các số liệu như BLEU và ROUGE là không đủ chính xác, có rất nhiều bản tóm tắt trên giấy tuyệt vời và các phương pháp tạo mở. Ngược lại, thủ công là một tiêu chuẩn đánh giá đáng tin cậy hơn, nhưng việc đánh giá thủ công rất tốn thời gian và công sức, không thể so sánh với mô hình trong thời gian thực, điều này có thể xảy ra trong tương lai.
Abhinav: Chúng tôi có một nhóm đánh giá tuyệt vời đang giúp chúng tôi xây dựng các chỉ số mới.
Jonathan: Nhưng LLM rất khó đánh giá và tôi không nghĩ bất kỳ chỉ số nào trong số này thực sự phản ánh những gì chúng ta mong đợi từ một mô hình trong thực tế.
Giảm chi phí, tăng hiệu quả đào tạo người mẫu
Swyx: Bây giờ người ta phải mất từ ba đến mười ngày để đào tạo một người mẫu, bạn muốn rút ngắn thời gian đó trong bao lâu?
Abhinav: Năm nay có lẽ là một trong những năm thú vị nhất về cải thiện hiệu quả đào tạo mô hình thô. Năm nay, cả phần cứng và phần mềm đều được nâng cấp tương ứng, đầu tiên là H100 phần cứng thế hệ mới của Nvidia, chỉ riêng phần cứng này đã có thể cải thiện hiệu suất ít nhất hai lần. Thứ hai, có một định dạng số dấu phẩy động mới FP8, có thể đạt được sự cải thiện hiệu suất tương tự khi được sử dụng một mình.
Một vài năm trước, chúng tôi bắt đầu sử dụng độ chính xác 32-bit và sau đó Nvidia giới thiệu độ chính xác 16-bit. Sau vài năm phát triển, chúng tôi đã dần dần thành thạo các kỹ năng đào tạo 16-bit do các yêu cầu liên tục cải tiến.
Với FP8 năm nay, chúng tôi có thể tăng gấp đôi thông lượng, nghĩa là chúng tôi có thể tăng gấp ba chi phí. Đồng thời, chúng tôi đã bắt đầu lập hồ sơ đào tạo LLM bằng cách sử dụng FP8 trên H100 và tiến độ đã diễn ra nhanh chóng. Vì vậy, chỉ bằng cách cải thiện phần cứng, chúng ta có thể giảm chi phí rất nhiều.
Ngoài ra, có nhiều nghiên cứu về ứng dụng kiến trúc. Chúng tôi đang khám phá các cách để giới thiệu một số độ thưa thớt, nhưng không hoàn toàn là độ thưa thớt ngẫu nhiên. Có một cơ chế cổng hoặc cách kiến trúc theo phong cách MoE để đạt được điều này không?
Mục tiêu ban đầu của chúng tôi là giảm chi phí đào tạo mẫu GPT-J từ 500.000 đô la xuống còn 100.000 đô la và nếu chúng tôi có thể đạt được mục tiêu đó vào cuối năm thì đó sẽ là một thành tích tuyệt vời.
Jonathan: Ý tưởng này không phải là lâu đài trên không. Mặc dù chưa đạt được giai đoạn đó, nhưng mục tiêu này có thể sẽ đạt được vào năm 2023.
Thống kê về chi phí đào tạo và suy luận là khan hiếm. David Patterson của Google đã xuất bản một bài đăng trên blog thảo luận về việc sử dụng năng lượng của Google cho máy học. Sau khi phân tích chi tiết, trong ba năm qua, Google đã dành 3/5 nguồn lực của mình cho suy luận và 2/5 cho đào tạo. Trên đây là dữ liệu của Google, họ cung cấp mô hình cho hàng tỷ người dùng.
Google có lẽ là nơi có tải suy luận lớn nhất thế giới. Và đó chỉ là phân bổ nguồn lực cho đào tạo, với suy luận chiếm 3/5 và đào tạo chiếm 2/5. Phần cứng có thể đắt hơn và cấu trúc mạng của phần cứng có thể phức tạp hơn, vì vậy quá trình đào tạo và lập luận có thể bị chia đôi. Trên đây là tỷ lệ phân bổ của Google, nhưng đối với các công ty khác, đào tạo có thể chiếm trọng số cao hơn.
Tầm quan trọng của tính mở đối với nghiên cứu AI
Alessio: Chi phí đào tạo trước đây rất đắt đỏ khiến chúng tôi không thể tiến hành đủ thử nghiệm, vì vậy có nhiều vấn đề trong việc lựa chọn tập dữ liệu, v.v.
Jonathan: Ở trường trung học, tôi từng ghen tị với bạn bè vì họ có GPU còn tôi thì không có GPU trên máy tính xách tay, vì vậy tôi không thể đào tạo bất kỳ người mẫu nào. Tôi đã mơ về việc trúng xổ số để có thể sở hữu một GPU K80.
Trong sâu thẳm, tôi vẫn là sinh viên khoa học háo hức đó. Tôi thực sự tin rằng nếu chúng ta muốn nghiên cứu khoa học và thực sự hiểu các hệ thống này, làm thế nào để chúng hoạt động tốt, hiểu các yếu tố về hành vi, độ an toàn và độ tin cậy của chúng, chúng ta phải giảm chi phí đào tạo để chúng ta thực sự làm khoa học. nghiên cứu. Lấy thí nghiệm sinh học làm ví dụ, nơi chúng ta cần thực hiện nhiều thí nghiệm và nuôi cấy tế bào để đảm bảo thuốc hoạt động, rất nhiều nghiên cứu khoa học là cần thiết trước khi chúng ta thực sự hiểu điều gì đó.
**Abhinav:**MosaicML có nhiều khách hàng đang cố gắng đào tạo người mẫu, vì vậy công ty có động cơ dành nhiều nguồn lực và thời gian cho nghiên cứu khoa học. Chỉ khi thực sự hiểu cách đào tạo người mẫu, chúng ta mới có thể giúp được nhiều người hơn. Vì vậy, đối với chúng tôi, quá trình tổng hợp này là rất quan trọng.
Tôi nhớ đã có một bài báo từ Google trước đó đã điều tra kích thước lô hoặc thứ gì đó. Bài báo này có thể tiêu tốn hàng triệu đô la, và nó mang lại lợi ích to lớn cho toàn thể cộng đồng. Bây giờ, tất cả chúng ta có thể học hỏi từ nó và tiết kiệm tiền mà không phải phá sản. Vì vậy, đối với Mosaic, thông qua nghiên cứu thử nghiệm, chúng tôi đã có được những hiểu biết sâu sắc về dữ liệu, kiến trúc tiền đào tạo, v.v., đó là lý do tại sao khách hàng chọn chúng tôi.
Jonathan: Tính cởi mở rất quan trọng đối với cộng đồng AI. Theo một nghĩa nào đó, chúng tôi không có lý do gì để đóng cửa. Chúng tôi kiếm thu nhập bằng cách giúp khách hàng đào tạo người mẫu. Chúng tôi không mất gì khi chia sẻ kết quả với cộng đồng. Sau cùng, chúng tôi phải kiếm thu nhập thông qua các mô hình tùy chỉnh và cơ sở hạ tầng tuyệt vời. Và kết hợp những khía cạnh này lại với nhau là lý do tại sao chúng tôi đặt tên cho công ty của mình là MosaicML.
Chúng tôi luôn giữ thái độ cởi mở và sẽ không che giấu những kết quả mà mình đã đạt được. Nhưng bây giờ, tôi thấy rằng chúng tôi đã trở thành một trong những phòng thí nghiệm mã nguồn mở lớn nhất trong ngành, đó là một sự thật đáng buồn, bởi vì MosaicML không phải là lớn về mặt toàn ngành, chúng tôi chỉ có khoảng 15 nhà nghiên cứu, nhiều người khác Các phòng thí nghiệm đã đóng cửa và không còn công khai nhiều nội dung nữa. Tuy nhiên, MosaicML sẽ tiếp tục giao tiếp và chia sẻ với cộng đồng, đồng thời cố gắng hết sức để trở thành người tiên phong trong lĩnh vực nghiên cứu mở. Mặc dù quy mô và khối lượng nghiên cứu của chúng tôi không thể sánh bằng quy mô và khối lượng nghiên cứu của một phòng thí nghiệm lớn, nhưng chúng tôi sẽ tiếp tục chia sẻ những gì chúng tôi học được với nỗ lực tạo ra các nguồn tài nguyên cho cộng đồng.
Khi tôi thảo luận về hệ sinh thái AI với các nhà hoạch định chính sách, một mối quan tâm chung luôn xuất hiện: rằng sự thiếu cởi mở sẽ cản trở tốc độ đổi mới. Tôi đã nhấn mạnh vấn đề này trong nhiều năm, nhưng cuối cùng nó cũng trở thành hiện thực. Tôi ủng hộ nguồn mở, nhưng tôi không nghĩ mọi người sẽ chia sẻ công việc của họ. Chúng tôi đã từng coi nguồn mở là điều hiển nhiên, nhưng điều đó không còn đúng nữa.
Tôi nghĩ rằng nó sẽ làm chậm sự phát triển của chúng tôi. Trong nhiều trường hợp, có một nền văn hóa nguyên khối trong mỗi phòng thí nghiệm và giao tiếp là một động lực quan trọng cho tiến bộ khoa học. Do đó, nguồn mở không chỉ không thể thiếu trong cộng đồng nguồn mở và giới học thuật, mà còn rất quan trọng đối với sự tiến bộ của công nghệ. Chúng tôi cần một cộng đồng nghiên cứu nguồn mở sôi động.
Xu hướng tương lai
Swyx: Bạn đã đề cập rằng nhiều thứ không tồn tại lâu và dễ bị thay thế, nhưng Transformer vẫn ở đây.
Jonathan: Người máy biến hình sẽ luôn tồn tại. Mạng thần kinh chuyển đổi (CNN) vẫn đang được sử dụng cho đến ngày nay và Visual Transformers đã không thay thế chúng. Hãy nhìn vào mạng thần kinh hồi quy (RNN), đã tồn tại hàng thập kỷ nhưng vẫn đang hoạt động trong nhiều lĩnh vực. Kết quả là, việc thực hiện cải tiến cơ sở hạ tầng lớn là khó khăn.
Abhinav: Tôi nghĩ rằng đặt cược của bạn phụ thuộc rất nhiều vào những gì được định nghĩa là sự chú ý. Nếu một thao tác như phép nhân ma trận QK được thay thế bằng một phương pháp tương tự, điều này sẽ có ảnh hưởng gì đến kết quả?
Jonathan: Trong phân tích cuối cùng, đây chỉ là một mạng chuyển tiếp được kết nối đầy đủ, Transformer với cơ chế chú ý đơn giản. Vì vậy, mọi thứ có thể thay đổi, nhưng chúng tôi vẫn tiếp tục sử dụng Transformer như Ashish Vaswani (tác giả Transformer) đã hình dung cách đây 6 năm, và có lẽ sẽ tiếp tục như vậy trong tương lai.
Abhinav: Tôi nghĩ nó sẽ trở nên giống với MLP (Multilayer Perceptron), đây là lựa chọn duy nhất chúng tôi có vào lúc này, vì hiện tại kiến trúc đã được đơn giản hóa rất nhiều, chỉ còn lại một số lớp tuyến tính, các kết nối còn lại, Chú ý , phép toán nhân dấu chấm.
Jonathan: Giả định của bạn là kiến trúc sẽ trở nên đơn giản hơn, nhưng thực tế có thể ngược lại và kiến trúc có thể trở nên phức tạp hơn.
Swyx: Bạn nghĩ gì về cuộc tranh luận gần đây về "hiện tượng mới nổi"?
Abhinav: Tôi đã xem các bài báo tương tự và đây có thể chỉ là sản phẩm phụ của các kỹ thuật đánh giá như chia tỷ lệ nhật ký, số liệu đánh giá và những gì chúng tôi đang làm hiện nay là chia lưới chính xác, tức là các phán đoán nhị phân nghiêm ngặt, tức là phân loại kết quả là đúng hay sai, mà không tính đến sự khác biệt tuần tự chi tiết hơn.
Tuy nhiên, tương tự như quan điểm của Jonathan về đánh giá, chúng tôi cũng gặp vấn đề với sự đa dạng của các thước đo đánh giá: khi chúng tôi phát hành các mô hình này, thậm chí là mô hình trò chuyện, mô hình lệnh, mọi người thường sử dụng nó cho nhiều nhiệm vụ khác nhau. Chúng ta khó có thể đo lường và đánh giá chính xác từng khía cạnh trước đó và thậm chí ở quy mô 7 tỷ, các mô hình này vẫn hoạt động kém trên một số tác vụ MMLU rất khó. Đôi khi họ đạt điểm cao hơn cơ hội ngẫu nhiên một chút, đặc biệt là khi giải quyết các nhiệm vụ rất khó khăn.
Do đó, một số vấn đề này có thể hữu ích hơn đối với chúng tôi khi chúng tôi theo đuổi các mô hình chất lượng cao hơn. Tuy nhiên, chúng tôi đã phát triển MPT-7B hơi mù quáng vì chúng tôi không hiểu đầy đủ về cách hoạt động cuối cùng của mô hình. Nó chỉ có thể được phát triển dựa trên một tập hợp nhỏ các tác vụ suy luận nhận thức phổ biến và hiệu suất được đánh giá bằng cách so sánh các chỉ số này với các mô hình nguồn mở khác.
Alessio: Tôi nghĩ đào tạo và suy luận nhanh là một trong những mục tiêu, vì vậy cần có sự đánh đổi giữa việc giải quyết các nhiệm vụ khó nhất và nhanh chóng trong các nhiệm vụ khác.
Abhinav: Vâng. Ngay cả ở quy mô 7 tỷ dữ liệu, mọi người sẽ cố gắng chạy nó trên CPU ở nhà hoặc cố gắng chuyển nó sang điện thoại di động của họ, chủ yếu là do các ứng dụng quy mô nhỏ sẽ thúc đẩy mọi người áp dụng công nghệ này và đây là một xu hướng quan trọng tại khoảnh khắc.
Alessio: Một số thứ trong AI đang phát triển nhanh hơn nhiều so với dự kiến?
Jonathan: Tôi nhớ khi GPT-2 ra mắt, tôi không hào hứng lắm, nhưng lúc đó nó đã có 1,5 tỷ thông số. Khi các mô hình tăng kích thước, hiệu suất của chúng không thể tiếp tục cải thiện. Sau đó, GPT-3 xuất hiện và tôi chỉ nghĩ rằng nó tốt hơn một chút trong việc tạo văn bản, nhưng tôi đã sai hết lần này đến lần khác. Mở rộng quy mô mô hình có thể tạo ra các mô hình rất hữu ích bằng cách dự đoán mã thông báo tiếp theo.
Công bằng mà nói, hầu hết chúng ta đều sai về điều này, vì vậy chúng ta cũng không thể tự trách mình được. Nếu không, Google, Facebook và Microsoft Research đã tung ra những siêu mô hình ngôn ngữ sát thủ từ rất lâu trước khi tôi có cơ hội hành động. Tôi đã đánh cược một cách kỳ lạ nhưng hóa ra lại đúng: Các mô hình khuếch tán, mặc dù hơi ngớ ngẩn, nhưng lại tạo ra những hình ảnh đẹp đến kinh ngạc.
Abhinav: Về chatbot trên quy mô lớn, tôi nghĩ sẽ còn rất lâu nữa hàng trăm triệu người mới có những cuộc trò chuyện lớn với các mô hình AI. Với rất nhiều công ty khởi nghiệp và doanh nghiệp hiện không chỉ sử dụng ChatGPT mà còn các dự án khác như tạo nhân vật, thật ngạc nhiên là có bao nhiêu người đang thực sự tạo ra các kết nối cảm xúc với các mô hình AI này. Tôi không nghĩ mình đã dự đoán được điều đó vào tháng 9 hoặc tháng 10 năm ngoái. Điểm uốn xảy ra trong sáu tháng qua thực sự bất ngờ.
Swyx: Bạn nghĩ chúng sẽ được dùng để làm gì, chẳng hạn như hỗ trợ tinh thần?
Abhinav: Một số là để hỗ trợ tinh thần, hoặc chỉ là bạn bè. Cô đơn và các vấn đề sức khỏe tâm thần là một chủ đề nóng. Nếu bạn truy cập các subreddits của những cộng đồng đó, mọi người đang nói và nghĩ về những người bạn AI của họ và những nhân vật này, nó giống như một điều gì đó ngoài khoa học viễn tưởng và tôi không bao giờ mong đợi điều đó xảy ra.
Swyx: Đâu là vấn đề thú vị nhất chưa được giải quyết trong AI?
Abhinav: Tôi quan tâm đến việc chúng ta có thể đi bao xa về độ chính xác và những thứ như BF16/FP16.
Tôi tự hỏi liệu những vấn đề này có trở nên dễ giải quyết hơn khi kích thước của mô hình tăng lên hay không. Các bài báo liên quan cho thấy rằng lượng tử hóa và cắt tỉa có thể trở nên dễ dàng hơn khi quy mô tăng lên. Vì vậy, như một hệ quả tự nhiên của việc mở rộng quy mô trong vài năm tới, chúng tôi có thể chuyển sang sử dụng trọng số bốn bit hoặc hai bit hoặc thậm chí là nhị phân.
Jonathan: Tôi muốn xem một cách khác mà chúng tôi có thể đạt được một mô hình nhỏ như thế nào và chúng tôi có thể phát triển một mô hình có hiệu suất tương đương hiệu quả như thế nào. Đây là câu hỏi mà tôi đã nghiên cứu trong suốt quá trình học Tiến sĩ của mình, và theo một nghĩa nào đó, ở Mosaic cũng vậy. OpenAI đã chỉ cho chúng ta một con đường dẫn đến khả năng đáng kinh ngạc này, đó là mở rộng quy mô. Nhưng tôi hy vọng đây không phải là cách duy nhất. Tôi hy vọng có nhiều cách khác để đạt được điều này, thông qua các phương pháp lập mô hình tốt hơn, các thuật toán tốt hơn, v.v.
Mặc dù tôi không phải là người hâm mộ khoa học thần kinh, nhưng theo một nghĩa nào đó, sự tồn tại của chúng ta và bộ não của chúng ta chứng minh rằng ít nhất có một cách khác để đạt được khả năng đáng kinh ngạc này mà không cần hàng nghìn tỷ thông số hoặc thậm chí là những thông số thiên văn. Vì vậy, tôi thực sự tò mò chúng ta có thể đạt được một mô hình nhỏ như thế nào? Có đường dẫn nào khác đến những khả năng này mà không phải đi theo đường dẫn hiện tại không? Hy vọng tìm thấy câu trả lời trong Mosaic, nếu nó tồn tại.
Swyx: Chính xác, một trong những điều tôi quan tâm nhất là thực tế là bộ não con người chỉ tiêu thụ 30 watt điện và mô hình này cách xa con số đó hàng bậc.
Abhinav: Tôi không nghĩ có cách nào để đạt được điều này chỉ với một GPU hoặc các công cụ khác.
Alessio: Hiện có rất nhiều thông tin đang diễn ra, chẳng hạn như mọi người nên nghĩ thế nào về trí tuệ nhân tạo? Họ nên tập trung vào điều gì?
Jonathan: Bình tĩnh. Một số người quá coi trọng sự cường điệu; những người khác lại rất bi quan, phản ứng mạnh mẽ với nó hoặc phủ nhận nó ở một mức độ nào đó. Hãy giữ bình tĩnh và biết rằng chúng tôi đã tạo ra một công cụ rất hữu ích.
Nhưng chúng ta vẫn chưa xây dựng được trí thông minh chung, và cá nhân chúng ta, chúng ta còn chưa đạt được mục tiêu đó. Vì vậy, điều quan trọng là phải hòa bình và tuân theo khoa học, và đó là điều mà Mosaic AI phấn đấu. Chúng tôi cố gắng tập trung vào những thứ hữu ích cho con người, hy vọng tạo ra một thế giới tốt đẹp hơn. Chúng tôi sẽ cố gắng hết sức, nhưng quan trọng nhất, chúng tôi sẽ tuân theo khoa học, được hướng dẫn bởi dữ liệu và đạt được mục tiêu này thông qua kết quả thực tế chứ không phải lời hoa mỹ.
Abhinav: Tôi nghĩ không gì bằng thực hiện nghiên cứu trong một cộng đồng mở. Trong cộng đồng, không chỉ một số lượng lớn người chú ý đến mô hình của bạn mà thậm chí còn đưa ra ý kiến của họ về các vấn đề của mô hình và cách cải thiện nó. Loại nghiên cứu mở này sẽ là con đường phía trước, vừa để giữ an toàn cho các mô hình của chúng ta, vừa để đi sâu vào tác động và hậu quả trong thế giới thực của các mô hình AI này.
Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Bối cảnh vô hạn cho các mô hình lớn và nghệ thuật bố cục tập dữ liệu
Nguồn | Không gian Tiềm ẩn
Biên dịch OneFlow
Bản dịch|Giả Xuyên, Dương Đình, Vạn Tử Lâm
Độ dài ngữ cảnh từng là một trong những hạn chế lớn nhất của GPT-3. GPT-3 chỉ có thể chấp nhận tối đa 4000 mã thông báo (3000 từ, 6 trang), nếu không sẽ báo lỗi. Do đó, để xử lý các tài liệu dài và lời nhắc (), cần phải giới thiệu các kỹ thuật truy xuất khác như LangChain. Tuy nhiên, MosaicML (đã được Databricks mua lại với giá khoảng 1,3 tỷ USD) đã mở ngữ cảnh MPT-7B vào đầu tháng 5 với độ dài 84.000 mã thông báo (63.000 từ, 126 trang), giúp mở rộng đáng kể phạm vi văn bản có thể được xử lý. , Mô hình Claude do Anthronpic phát triển có độ dài ngữ cảnh được mở rộng tới 100.000 mã thông báo.
MosaicML cũng đã phát hành ba mẫu MPT-7B-Instruct, MPT-7B-Chat, MPT-7B-StoryWriter-65k+ dựa trên MPT-7B cơ sở để tinh chỉnh.
Mô hình được tinh chỉnh trên dolly_hhrlhf. Tập dữ liệu dolly_hhrlhf được xây dựng dựa trên tập dữ liệu "dolly-5k".
Mô hình được tinh chỉnh trên bộ dữ liệu ShareGPT-Vicuna, HC3, Alpaca, Hữu ích và Vô hại và Evol-Instruct.
Bộ dữ liệu tinh chỉnh cho mô hình này là một tập hợp con đã lọc của các tiểu thuyết trong sách3 với độ dài ngữ cảnh là 65k. Mặc dù kích thước được quảng cáo là 65 nghìn mã thông báo, nhưng nhóm đã có thể nhận được phản hồi là 84 nghìn mã thông báo khi chạy trên GPU A100-80GB của một nút. Công nghệ chính đằng sau điều này là ALiBi. The Great Gatsby ban đầu chỉ có khoảng 68 nghìn mã thông báo, vì vậy nhóm đã sử dụng mô hình MPT-7B-StoryWriter-65k+ để tạo phần kết mới cho cuốn tiểu thuyết.
Nhà khoa học trưởng của MosaicML, Jonathan Frankle và Nhà khoa học nghiên cứu Abhinav Venigalla là những người đứng đầu MPT-7B, chỉ đạo toàn bộ quá trình đào tạo của MPT-7B. Trong podcast mới nhất của Latent Space, Alessio, đối tác chính của Swyx và Decibel Partners đã thảo luận với họ về sự đổi mới của quy trình đào tạo MPT-7B và giải thích lý do tại sao sự kết hợp bộ dữ liệu LLM là một nghệ thuật quan trọng và bí ẩn. Ngoài ra, một số điểm chuẩn trắc nghiệm truyền thống có thể không hữu ích lắm cho công nghệ đang được xây dựng và họ cũng sẽ khám phá những lý do đằng sau điều này.
(Nội dung dưới đây được OneFlow tổng hợp và phát hành sau khi được ủy quyền, nguồn: https://
Xây dựng mô hình MPT-7B
**Swyx: Tại sao bạn lại phát triển MPT-7B? **
Abhinav: Dự án MPT-7B mất khoảng 6-12 tháng. Chúng tôi đã bắt đầu nghiên cứu các mô hình ngôn ngữ vào mùa hè năm ngoái và xuất bản một bài đăng trên blog phân tích các mô hình ngôn ngữ và nhận thấy rằng chi phí đào tạo thực sự có thể thấp hơn nhiều so với mọi người nghĩ. Cũng kể từ đó, lấy cảm hứng từ mô hình LLaMA do Meta AI phát hành và nhiều công trình nguồn mở khác, chúng tôi bắt đầu tạo ra một mô hình thực sự tốt với 7 tỷ tham số, đó là nguồn gốc của MPT.
Alessio: Bạn đã nói trong một trong các podcast: Mosaic không có kế hoạch xây dựng và tung ra các mô hình. Nhưng cuối cùng thì bạn vẫn cho ra mắt mô hình đó, điều gì đã khiến bạn thay đổi quyết định?
Jonathan: Tôi nghĩ có một số yếu tố: Chúng tôi vẫn thiếu một mô hình hạng nhất. Không giống như OpenAI, nơi hoạt động kinh doanh của chúng tôi xoay quanh việc khách hàng tạo ra các mô hình của riêng họ, chúng tôi chủ yếu cung cấp cho họ các công cụ và để các công cụ đó hoạt động hiệu quả, trước tiên chúng tôi phải tạo các mô hình của riêng mình.
Rõ ràng là nếu khách hàng của chúng tôi có thể làm được những điều tuyệt vời thì chúng tôi cũng có thể làm được những điều tuyệt vời. Tôi đã có rất nhiều người trên Twitter đặt câu hỏi về tính xác thực của những con số mà Mosaic đưa ra, như Ross Whiteman nói: "Hãy xem kết quả thực tế", tôi sẽ nói: "Ross, bạn nghĩ những con số này hoạt động như thế nào ?" Chúng tôi đã phát triển mô hình này trong 9,5 ngày với chi phí 200.000 đô la, vì vậy bạn cũng có thể làm được.
**Swyx: **Tham khảo dữ liệu bạn công bố năm ngoái, ước tính ban đầu rằng chi phí đào tạo GPT-3 là dưới 450.000 đô la, sau đó giảm xuống còn 100.000 đô la; chi phí Khuếch tán ổn định cũng giảm từ 160.000 đô la đến dưới 50.000 đô la.
Jonathan: Tôi vẫn rất thận trọng về con số 100.000 USD. Nó vẫn chưa đến, nhưng chúng tôi đang đi theo hướng đó và đó là một thách thức lớn đối với Abhi.
Swyx: Có ba biến thể của mẫu MPT-7B, một trong số đó đạt được SOTA về độ dài ngữ cảnh, quy trình đào tạo cho những mẫu này là gì?
Abhinav: Mô hình cơ bản của chúng tôi là bản tái tạo của LLaMA-7B, với 7 tỷ tham số và dữ liệu đào tạo gồm 1 nghìn tỷ mã thông báo, cung cấp điểm khởi đầu đào tạo hiệu quả cho mô hình tinh chỉnh mà không cần can thiệp quá mức. Việc tinh chỉnh mô hình cũng rất thú vị, chẳng hạn như MPT-7B-StoryWriter-65k+ có thể dùng để viết truyện, độ dài cửa sổ ngữ cảnh là 65.000 và còn có thể viết tiếp dựa trên nội dung đã biết.
Tất nhiên, đây chỉ là một trong những hướng chúng tôi nghĩ ra, bạn có thể sử dụng mô hình Cơ sở MPT-7B để xây dựng các mô hình tùy chỉnh cho phù hợp với các nhu cầu khác nhau, chẳng hạn như mô hình mã ngữ cảnh dài hoặc mô hình ngôn ngữ cụ thể. Vì vậy, dựa trên mô hình cơ bản, ba biến thể đã được tạo ra, MPT-7B-Hướng dẫn, MPT-7B-Trò chuyện và MPT-7B-StoryWriter-65k+, lần lượt được sử dụng để làm theo các hướng dẫn ngắn, đối thoại trò chuyện và viết truyện.
Alessio: Làm cách nào để bạn quyết định số lượng mã thông báo và tham số sẽ sử dụng khi đào tạo mô hình? 7 tỷ và 3 tỷ tham số mô hình dường như là hai con số kỳ diệu đang thịnh hành hiện nay.
Abhinav: Đối với các mô hình đào tạo, luật chia tỷ lệ có thể cho bạn biết cách sử dụng tài nguyên máy tính đào tạo hiệu quả nhất. Ví dụ: nếu ngân sách là 200.000 đô la Mỹ, thì theo quy luật quy mô, chương trình đào tạo hiệu quả nhất có thể được đưa ra.
Trong số đó, định luật mà chúng ta thường tuân theo nhất là định luật Chinchilla. Đối với mô hình MPT-7B và các biến thể liên quan của nó, các luật này không được tuân thủ nghiêm ngặt, vì chúng tôi muốn đảm bảo rằng mô hình phù hợp với mục đích sử dụng cá nhân và có hiệu suất suy luận tốt, do đó, nó đã được đào tạo quá mức, vượt quá Điểm Chinchilla (tham khảo dữ liệu mức được đo bằng mã thông báo). Một số người trên mạng gọi đùa những mô hình này là Llongboi vì thời gian đào tạo của chúng khá dài, lấy mô hình 7B làm ví dụ, Điểm Chinchilla có thể là 140 tỷ mã thông báo, nhưng chúng tôi thực sự đã đào tạo 1 nghìn tỷ mã thông báo, vì vậy thời gian đào tạo là gần 7 lâu hơn bình thường gấp nhiều lần.
**Swyx: Có phải Llongboi đang đề cập đến một phương pháp đào tạo? **
Jonathan: Llongboi chỉ là một trò đùa của người trong cuộc, đề cập đến một phương pháp đào tạo sử dụng nhiều mã thông báo hơn so với quy định của luật Chinchilla. Có thể thấy Llongboi có hai chữ "L" ở đầu, dùng để tri ân LLaMA. Giám đốc điều hành của chúng tôi đã từng công khai tên này trên Twitter, gọi người mẫu là "Llongboi". Đôi khi tôi thực sự muốn lấy mật khẩu twitter của anh ấy để nó không bị lộ sớm, nhưng bây giờ cả thế giới đều biết tên.
Về kiến trúc, ALiBi, ngữ cảnh
**Alessio:**Chú ý chớp nhoáng và Biến hình nhanh hơn là hai yếu tố cốt lõi trong việc xây dựng mô hình của bạn. Ưu điểm của chúng là gì?
**Abhinav:**Chú ý chớp nhoáng là cách triển khai chú ý đầy đủ nhanh hơn, do phòng thí nghiệm Nghiên cứu Hazy của Stanford phát triển. Chúng tôi đã tích hợp Chú ý nhanh vào thư viện của mình vào tháng 9 năm ngoái và nó đã đóng một vai trò quan trọng trong tốc độ đào tạo và suy luận. So với các mô hình Hugging Face khác, mô hình này rất đặc biệt, nó có thể chuyển đổi giữa Chú ý chung bằng đèn pin và Chú ý bằng đèn flash được thiết kế đặc biệt cho GPU, giúp tốc độ đào tạo của mô hình tăng khoảng 2 lần và tốc độ suy luận tăng 50%. -100%.
**Swyx: Điều gì thúc đẩy bạn chọn mã hóa vị trí ALiBi? **
Abhinav: Chúng tôi đã kết hợp mã hóa vị trí ALiBi, Chú ý nhanh và ổn định đào tạo theo một cách thú vị. ALiBi có thể loại bỏ nhu cầu nhúng vị trí trong mô hình. Trước đây, nếu mã thông báo có vị trí 1, thì bạn cần thêm một vị trí nhúng cụ thể và không thể vượt quá vị trí tối đa (thường là 2000). Nhưng với ALiBi, vấn đề này đã được giải quyết. Chúng ta chỉ cần thêm một độ lệch (bias) vào Bản đồ chú ý, nó giống như một độ dốc, và nếu cần một phạm vi vị trí dài hơn để suy luận, nó sẽ mở rộng độ dốc này thành một số vị trí dài hơn. Cách tiếp cận này hoạt động vì độ dốc liên tục và có thể được giải thích.
Thật thú vị, thông qua Flash Attention, mô hình tiết kiệm rất nhiều bộ nhớ và cải thiện hiệu suất, vì vậy chúng tôi đã bắt đầu thực hiện các thử nghiệm hiệu suất trên các mô hình có ngữ cảnh rất dài (lên tới 65k) vào năm ngoái, đồng thời, rất khó thực hiện đào tạo ổn định. Sau đó, chúng tôi đã cố gắng tích hợp ALiBi vào mô hình và tính ổn định của mô hình đã được cải thiện đáng kể. Giờ đây, chúng tôi có thể đào tạo ổn định các mô hình viết truyện trên các ngữ cảnh rất dài và đảm bảo việc sử dụng chúng một cách hiệu quả.
Jonathan: Độ dài ngữ cảnh về mặt kỹ thuật là không giới hạn. Miễn là có đủ bộ nhớ, cuộc đối thoại có thể tiếp tục vô thời hạn. Chúng tôi tin rằng con số dài nhất mà mô hình có thể xử lý là 84K, đây là độ dài ngữ cảnh dài nhất mà con người có thể xử lý thoải mái trong thực tế. Nhưng chúng tôi cũng đã thử độ dài ngữ cảnh vượt quá 84K trong thực tế và chúng tôi có thể xử lý độ dài ngữ cảnh dài hơn.
**Swyx:**Ví dụ: chúng ta có thể nhập tiểu thuyết "The Great Gatsby" vào mô hình, sau đó để mô hình tiếp tục viết tiểu thuyết dựa trên văn bản đã nhập và cuối cùng mô hình xuất ra nội dung khá thú vị.
Jonathan: Có rất nhiều phiên bản thực sự hay về phần cuối của câu chuyện trong Mosaic. Một phiên bản mô tả đám tang của Gatsby, Nick bắt đầu nói chuyện với hồn ma của Gatsby, cha của Gatsby cũng xuất hiện, sau đó anh và Tom xuất hiện tại đồn cảnh sát. Phiên bản này nhấn mạnh nhiều vào cốt truyện, mô tả những gì xảy ra tiếp theo. Ngoài ra, nhiều phiên bản có kết thúc rất Fitzgerald-esque, và chúng được viết rất đẹp. Vì vậy, thật thú vị khi thấy rằng mô hình dường như đang xử lý đầu vào và tạo ra đầu ra có ý nghĩa. Chúng ta có thể làm được rất nhiều với độ dài ngữ cảnh này.
Alessio: Bộ nhớ bắt đầu trở thành một trong những hạn chế của mô hình, vậy nên chọn kích thước tham số và độ dài ngữ cảnh như thế nào?
Jonathan: Gần đây, nghiên cứu về ngữ cảnh dài được nhiều người quan tâm và hàng loạt bài báo liên quan ra đời. Tuy nhiên, những bài báo này không hoàn toàn chính xác và ở một mức độ nào đó, đặc biệt là đối với các cơ chế chú ý, chúng so sánh các cơ chế chú ý không bậc hai (như chú ý gần đúng, phân cấp) với chú ý bậc hai rõ ràng và chính xác. . Tôi đang lạc quan về các phương pháp gần đúng, vì vậy rất nóng lòng muốn tìm hiểu những bài báo này.
Viết và đọc báo đã dạy cho tôi một bài học quan trọng về việc không tin vào bất kỳ dữ liệu nào cho đến khi bạn tự mình làm điều đó. Tại Mosaic, chúng tôi đã nhiều lần thất vọng về việc triển khai vì các bài báo ban đầu có vẻ hứa hẹn, chỉ sau khi triển khai mới nhận ra rằng các bài báo đó đã thao túng dữ liệu. Do đó, tôi luôn hoài nghi về dữ liệu và không tin tưởng vào bất kỳ kết quả nào cho đến khi chúng được triển khai lại và xác thực. Nhìn chung, việc thực hành đã được đền đáp và nhiều khi lý thuyết không hoạt động hiệu quả trong thực tế như mong đợi.
Tính năng của MPT-7B
**Swyx: Các tính năng cụ thể của MPT-7B là gì? **
Abhinav: Tôi sẽ chia phần này thành hai phần, phần đầu tiên là sự ổn định của quá trình đào tạo. Câu hỏi này có thể được chia thành ba phần. Đầu tiên, mô hình cần tránh mất đột biến trong quá trình đào tạo, đây là tuyến phòng thủ đầu tiên của chúng tôi. Theo tôi, các đợt mất mát không phải là vấn đề lớn ở quy mô đào tạo 7 tỷ tham số. Tuy nhiên, tránh tăng đột biến mất mát trở nên khó khăn khi thời gian đào tạo tăng lên. Chúng tôi đã dành nhiều thời gian để tìm ra cách điều chỉnh các phương thức khởi tạo, trình tối ưu hóa, kiến trúc, v.v. để ngăn ngừa tổn thất tăng đột biến. Ngay cả trong quá trình tu luyện, nếu chúng ta nhìn kỹ, vẫn có thể tìm thấy một số đỉnh núi nhỏ không liên tục, nhưng những đỉnh núi này sẽ trở lại bình thường trong vòng vài trăm bước, đây là một hiện tượng rất kỳ diệu, có thể giúp chúng ta tự nhiên phục hồi tổn thất đỉnh cao.
Chủ nghĩa quyết định và các chiến lược phục hồi thông minh là tuyến phòng thủ thứ hai của chúng tôi. Trong trường hợp xảy ra lỗi nghiêm trọng, chúng tôi sẽ có thể nhanh chóng tiếp tục đào tạo, áp dụng một số biện pháp can thiệp trong một vài đợt trước khi xảy ra lỗi. Đối với các vấn đề có thể xảy ra, chúng tôi đã thực hiện nhiều bước chuẩn bị khác nhau. Tuy nhiên, trong quá trình huấn luyện MPT-7B, chúng tôi hoàn toàn không sử dụng các biện pháp dự phòng này, đây phải nói là một loại may mắn.
Cơ sở hạ tầng đào tạo phù hợp là tuyến phòng thủ thứ ba. Nếu chúng tôi cố gắng đào tạo mô hình trên hàng trăm GPU, thường sẽ xảy ra lỗi phần cứng. Ví dụ: khi đào tạo một mô hình trong một cụm lớn với 512 GPU, quá trình đào tạo sẽ thất bại gần như hai ngày một lần, lý do thất bại có thể là do lỗi mạng.
Thông thường, mọi người thành lập các nhóm trực 24/7 để giải quyết những lỗi này. Khi xảy ra lỗi, nhóm cố gắng kiểm tra cụm, xóa các nút bị hỏng, khởi động lại, v.v., đây là một công việc rất tẻ nhạt. Chúng tôi đã từng dành nhiều tháng để kiểm tra lỗi theo cách thủ công, nhưng giờ đây chúng tôi đã xây dựng một nền tảng để tự động hóa mọi nút trong quy trình đào tạo mô hình.
Khi có sự cố với quá trình chạy mô hình, hệ thống giám sát tự động của chúng tôi sẽ dừng công việc, kiểm tra và kiểm tra các nút bị hỏng rồi khởi động lại. Do khả năng phục hồi nhanh chóng và xác định của phần mềm của chúng tôi, mô hình tiếp tục chạy tốt. Do đó, đôi khi chúng ta có thể thấy trong nhật ký mô hình rằng sau khi một mô hình bị lỗi lúc 2 giờ sáng, mô hình đó sẽ được sao lưu và chạy trong vòng vài phút mà không cần sự can thiệp thủ công của thành viên nhóm.
Jonathan: Làm được điều này thực sự không dễ dàng, nếu như mô hình vài tháng trước xảy ra lỗi phần cứng, các thành viên trong nhóm sẽ phải dậy từ hai giờ sáng để kiểm tra nguyên nhân. lỗi nút và khởi động lại công việc. Trước đây, ngay cả ở quy mô đào tạo 7 tỷ tham số, chúng tôi thường gặp phải các đột biến mất dữ liệu nghiêm trọng và những vấn đề này ảnh hưởng nghiêm trọng đến quá trình đào tạo mô hình.
Chúng tôi hiện đã giải quyết những vấn đề này thông qua các cải tiến gia tăng. Như Abhinav đã nói, giờ đây chúng ta có thể ngồi trong văn phòng trong khi đào tạo nhiều người mẫu mà không lo mô hình bị lỗi và làm gián đoạn quá trình đào tạo.
Lựa chọn và lặp lại dữ liệu và những thách thức đánh giá của LLM
**Swyx: Lựa chọn dữ liệu là trọng tâm của bạn, bạn có thể mở rộng về nó không? **
Jonathan: Abhi suýt giết tôi khi tôi cố sử dụng toàn bộ GPU để xử lý dữ liệu thay vì thực sự huấn luyện mô hình. Chúng tôi biết rằng đào tạo một mô hình đòi hỏi rất nhiều dữ liệu, nhưng cũng có nhiều điều không chắc chắn.
Một là loại nguồn dữ liệu khác nhau nào là quan trọng và hai là tầm quan trọng của việc sao chép. Trong số đó, câu hỏi về sự trùng lặp có thể được chia nhỏ thành sự đánh đổi về chất lượng và số lượng. Giả sử tôi có 10 tỷ dữ liệu từ vựng tốt nhất trên thế giới, tốt hơn là đào tạo lại nó hàng trăm lần hay tốt hơn là sử dụng 1 nghìn tỷ dữ liệu từ vựng cập nhật, chất lượng thấp? Tất nhiên, có thể có một điểm thỏa hiệp, nhưng làm thế nào để xác định dữ liệu chất lượng cao cũng là một vấn đề và vẫn chưa có câu trả lời rõ ràng. Nếu tôi quay trở lại học viện bây giờ, tôi chắc chắn sẽ viết một bài báo về nó, bởi vì tôi chưa biết gì về nó.
Swyx: Cho đến nay tôi chưa thấy bất kỳ tài liệu nghiên cứu nào về vấn đề này.
Jonathan: Câu hỏi trọng tâm của nghiên cứu luận án là "nên sử dụng loại kết hợp tập dữ liệu nào".
Trong quá trình tạo ra mô hình, tôi quay trở lại Trường Luật Georgetown, nơi tôi giảng dạy, và ngồi lại với một nhóm sinh viên luật để thảo luận về nó. Tôi cung cấp cho họ tập dữ liệu chất lượng cao, cách trộn dữ liệu và số lượng mã thông báo họ có, đồng thời để họ tạo tập dữ liệu tốt nhất cho mô hình của họ.
Họ không biết gì về LLM ngoài việc dữ liệu đầu vào ảnh hưởng đến hành vi. Tôi yêu cầu họ tạo ra một sản phẩm kết hợp bao gồm tất cả các sự đánh đổi khác nhau. Lúc đầu, có thể cần một lượng lớn kho ngữ liệu tiếng Anh, có thể lấy qua Internet, nếu bạn muốn biến nó thành mô hình đa ngôn ngữ, thì kho ngữ liệu tiếng Anh sẽ giảm đi rất nhiều; ngoài ra, có nên đưa mã vào Nó.
Một số người nghĩ rằng mã có thể làm cho mô hình hoạt động tốt hơn trong suy luận logic, nhưng tôi chưa bao giờ thấy bất kỳ bằng chứng nào hỗ trợ ý tưởng này. Mặc dù chúng tôi thực sự đã phát triển một mô hình mã xuất sắc, nhưng liệu mô hình mã đó có thể dẫn đến khả năng suy luận chuỗi tư duy tốt hơn hay không thì cần phải nghiên cứu thêm.
Một phiên bản của GPT-3 được cho là đã được đào tạo từ tiểu thuyết "Mật mã Da Vinci", vì vậy một số người nghĩ rằng điều này có thể hữu ích, nhưng không có bằng chứng; () sẽ giúp ích cho việc đào tạo người mẫu, nhưng cũng có thiếu bằng chứng.
Do đó, chúng tôi đã thử nghiệm với nhiều cách kết hợp dữ liệu khác nhau và nhận thấy rằng một số cách kết hợp dữ liệu hoạt động tốt hơn hoặc tệ hơn những cách kết hợp khác. Ví dụ: "The Pile" là một hỗn hợp dữ liệu rất ổn định, nhưng theo số liệu đánh giá, có những hỗn hợp dữ liệu khác tốt hơn. Tiếp theo tôi cũng sẽ đề cập đến vấn đề đánh giá, điều này rất quan trọng.
Mô hình T5 ban đầu được đào tạo trên tập dữ liệu C4, mô hình này hoạt động rất tốt. Những người khác, bao gồm Stella Beaterman của EleutherAI, đã đề cập đến điều này khi tôi tweet về nó. Trong bài báo gốc về mô hình T5, phương pháp tiền xử lý cho tập dữ liệu C4 có vẻ kỳ lạ và các tác giả đã xóa mọi thứ có chứa từ "Java" khỏi tập dữ liệu vì họ không muốn có các cảnh báo liên quan đến Java. Ngoài ra, họ đã loại bỏ việc đưa vào các dấu ngoặc nhọn vì họ không muốn đưa vào Java.
Họ đã xem xét một danh sách các từ xấu và xóa nội dung chứa các từ xấu. Tuy nhiên, danh sách những từ xấu thực sự bao gồm một số từ không thực sự xấu, chẳng hạn như "gay". Nhưng nhờ quá trình làm sạch này, tập dữ liệu thu được dường như là vô song. Từ thời điểm này, chúng tôi không biết gì về dữ liệu.
Thực ra chúng tôi cũng sử dụng một bộ dữ liệu là MC4, MC4 và C4 đều có tiền xử lý giống nhau, nhưng bổ sung thêm phần gọi web (web call), nhưng so với C4 thì phần tiếng Anh của MC4 kém hơn rất nhiều, không rõ nguyên nhân.
Đối với điều này, tôi đặt ra hai tiêu chí:
Trước hết, phần tiếng Anh ít nhất phải bằng MC4. So với các bộ dữ liệu có sẵn khác, phần tiếng Anh của MC4 tốt hơn. Thứ hai, hãy tận dụng sự đa dạng của dữ liệu và đảm bảo tập dữ liệu bao gồm những thứ như mã, bài báo khoa học và Wikipedia, bởi vì mọi người sẽ sử dụng mô hình cho nhiều nhiệm vụ khác nhau.
Nhưng tôi nghĩ, quan trọng nhất là mô hình chỉ tốt khi thước đo đánh giá. Abhi có thể không đồng ý về điểm này. Chúng tôi không biết cách đánh giá chính xác các mô hình tổng quát khi chúng được yêu cầu thực hiện các nhiệm vụ cụ thể. Trong một số trường hợp, chúng ta phải thừa nhận rằng những đánh giá của chính chúng ta thậm chí không đo lường được những gì chúng ta thực sự quan tâm, vì vậy chúng ta chỉ có thể đưa ra những lựa chọn hợp lý.
Swyx: Bạn có nghĩ rằng các phương pháp đánh giá như MMLU (Hiểu ngôn ngữ đa nhiệm lớn) và BIG-bench không đủ thuyết phục?
Jonathan: Những phương pháp này chắc chắn thực hiện hai loại nhiệm vụ. Một là nhiệm vụ trắc nghiệm, chứa một câu trả lời đúng, cho phép mô hình tạo ra các tùy chọn như A, B, C hoặc D, sau đó chọn câu trả lời mà mô hình có nhiều khả năng tạo ra nhất bằng cách tính toán độ phức tạp của mỗi câu trả lời có thể. Nhưng thay vì yêu cầu người mẫu thực hiện các câu hỏi trắc nghiệm, chúng tôi thực hiện loại nhiệm vụ tổng quát mở thứ hai, chẳng hạn như tóm tắt. So sánh bằng cách sử dụng các số liệu như BLEU và ROUGE là không đủ chính xác, có rất nhiều bản tóm tắt trên giấy tuyệt vời và các phương pháp tạo mở. Ngược lại, thủ công là một tiêu chuẩn đánh giá đáng tin cậy hơn, nhưng việc đánh giá thủ công rất tốn thời gian và công sức, không thể so sánh với mô hình trong thời gian thực, điều này có thể xảy ra trong tương lai.
Abhinav: Chúng tôi có một nhóm đánh giá tuyệt vời đang giúp chúng tôi xây dựng các chỉ số mới.
Jonathan: Nhưng LLM rất khó đánh giá và tôi không nghĩ bất kỳ chỉ số nào trong số này thực sự phản ánh những gì chúng ta mong đợi từ một mô hình trong thực tế.
Giảm chi phí, tăng hiệu quả đào tạo người mẫu
Swyx: Bây giờ người ta phải mất từ ba đến mười ngày để đào tạo một người mẫu, bạn muốn rút ngắn thời gian đó trong bao lâu?
Abhinav: Năm nay có lẽ là một trong những năm thú vị nhất về cải thiện hiệu quả đào tạo mô hình thô. Năm nay, cả phần cứng và phần mềm đều được nâng cấp tương ứng, đầu tiên là H100 phần cứng thế hệ mới của Nvidia, chỉ riêng phần cứng này đã có thể cải thiện hiệu suất ít nhất hai lần. Thứ hai, có một định dạng số dấu phẩy động mới FP8, có thể đạt được sự cải thiện hiệu suất tương tự khi được sử dụng một mình.
Một vài năm trước, chúng tôi bắt đầu sử dụng độ chính xác 32-bit và sau đó Nvidia giới thiệu độ chính xác 16-bit. Sau vài năm phát triển, chúng tôi đã dần dần thành thạo các kỹ năng đào tạo 16-bit do các yêu cầu liên tục cải tiến.
Với FP8 năm nay, chúng tôi có thể tăng gấp đôi thông lượng, nghĩa là chúng tôi có thể tăng gấp ba chi phí. Đồng thời, chúng tôi đã bắt đầu lập hồ sơ đào tạo LLM bằng cách sử dụng FP8 trên H100 và tiến độ đã diễn ra nhanh chóng. Vì vậy, chỉ bằng cách cải thiện phần cứng, chúng ta có thể giảm chi phí rất nhiều.
Ngoài ra, có nhiều nghiên cứu về ứng dụng kiến trúc. Chúng tôi đang khám phá các cách để giới thiệu một số độ thưa thớt, nhưng không hoàn toàn là độ thưa thớt ngẫu nhiên. Có một cơ chế cổng hoặc cách kiến trúc theo phong cách MoE để đạt được điều này không?
Mục tiêu ban đầu của chúng tôi là giảm chi phí đào tạo mẫu GPT-J từ 500.000 đô la xuống còn 100.000 đô la và nếu chúng tôi có thể đạt được mục tiêu đó vào cuối năm thì đó sẽ là một thành tích tuyệt vời.
Jonathan: Ý tưởng này không phải là lâu đài trên không. Mặc dù chưa đạt được giai đoạn đó, nhưng mục tiêu này có thể sẽ đạt được vào năm 2023.
Thống kê về chi phí đào tạo và suy luận là khan hiếm. David Patterson của Google đã xuất bản một bài đăng trên blog thảo luận về việc sử dụng năng lượng của Google cho máy học. Sau khi phân tích chi tiết, trong ba năm qua, Google đã dành 3/5 nguồn lực của mình cho suy luận và 2/5 cho đào tạo. Trên đây là dữ liệu của Google, họ cung cấp mô hình cho hàng tỷ người dùng.
Google có lẽ là nơi có tải suy luận lớn nhất thế giới. Và đó chỉ là phân bổ nguồn lực cho đào tạo, với suy luận chiếm 3/5 và đào tạo chiếm 2/5. Phần cứng có thể đắt hơn và cấu trúc mạng của phần cứng có thể phức tạp hơn, vì vậy quá trình đào tạo và lập luận có thể bị chia đôi. Trên đây là tỷ lệ phân bổ của Google, nhưng đối với các công ty khác, đào tạo có thể chiếm trọng số cao hơn.
Tầm quan trọng của tính mở đối với nghiên cứu AI
Alessio: Chi phí đào tạo trước đây rất đắt đỏ khiến chúng tôi không thể tiến hành đủ thử nghiệm, vì vậy có nhiều vấn đề trong việc lựa chọn tập dữ liệu, v.v.
Jonathan: Ở trường trung học, tôi từng ghen tị với bạn bè vì họ có GPU còn tôi thì không có GPU trên máy tính xách tay, vì vậy tôi không thể đào tạo bất kỳ người mẫu nào. Tôi đã mơ về việc trúng xổ số để có thể sở hữu một GPU K80.
Trong sâu thẳm, tôi vẫn là sinh viên khoa học háo hức đó. Tôi thực sự tin rằng nếu chúng ta muốn nghiên cứu khoa học và thực sự hiểu các hệ thống này, làm thế nào để chúng hoạt động tốt, hiểu các yếu tố về hành vi, độ an toàn và độ tin cậy của chúng, chúng ta phải giảm chi phí đào tạo để chúng ta thực sự làm khoa học. nghiên cứu. Lấy thí nghiệm sinh học làm ví dụ, nơi chúng ta cần thực hiện nhiều thí nghiệm và nuôi cấy tế bào để đảm bảo thuốc hoạt động, rất nhiều nghiên cứu khoa học là cần thiết trước khi chúng ta thực sự hiểu điều gì đó.
**Abhinav:**MosaicML có nhiều khách hàng đang cố gắng đào tạo người mẫu, vì vậy công ty có động cơ dành nhiều nguồn lực và thời gian cho nghiên cứu khoa học. Chỉ khi thực sự hiểu cách đào tạo người mẫu, chúng ta mới có thể giúp được nhiều người hơn. Vì vậy, đối với chúng tôi, quá trình tổng hợp này là rất quan trọng.
Tôi nhớ đã có một bài báo từ Google trước đó đã điều tra kích thước lô hoặc thứ gì đó. Bài báo này có thể tiêu tốn hàng triệu đô la, và nó mang lại lợi ích to lớn cho toàn thể cộng đồng. Bây giờ, tất cả chúng ta có thể học hỏi từ nó và tiết kiệm tiền mà không phải phá sản. Vì vậy, đối với Mosaic, thông qua nghiên cứu thử nghiệm, chúng tôi đã có được những hiểu biết sâu sắc về dữ liệu, kiến trúc tiền đào tạo, v.v., đó là lý do tại sao khách hàng chọn chúng tôi.
Jonathan: Tính cởi mở rất quan trọng đối với cộng đồng AI. Theo một nghĩa nào đó, chúng tôi không có lý do gì để đóng cửa. Chúng tôi kiếm thu nhập bằng cách giúp khách hàng đào tạo người mẫu. Chúng tôi không mất gì khi chia sẻ kết quả với cộng đồng. Sau cùng, chúng tôi phải kiếm thu nhập thông qua các mô hình tùy chỉnh và cơ sở hạ tầng tuyệt vời. Và kết hợp những khía cạnh này lại với nhau là lý do tại sao chúng tôi đặt tên cho công ty của mình là MosaicML.
Chúng tôi luôn giữ thái độ cởi mở và sẽ không che giấu những kết quả mà mình đã đạt được. Nhưng bây giờ, tôi thấy rằng chúng tôi đã trở thành một trong những phòng thí nghiệm mã nguồn mở lớn nhất trong ngành, đó là một sự thật đáng buồn, bởi vì MosaicML không phải là lớn về mặt toàn ngành, chúng tôi chỉ có khoảng 15 nhà nghiên cứu, nhiều người khác Các phòng thí nghiệm đã đóng cửa và không còn công khai nhiều nội dung nữa. Tuy nhiên, MosaicML sẽ tiếp tục giao tiếp và chia sẻ với cộng đồng, đồng thời cố gắng hết sức để trở thành người tiên phong trong lĩnh vực nghiên cứu mở. Mặc dù quy mô và khối lượng nghiên cứu của chúng tôi không thể sánh bằng quy mô và khối lượng nghiên cứu của một phòng thí nghiệm lớn, nhưng chúng tôi sẽ tiếp tục chia sẻ những gì chúng tôi học được với nỗ lực tạo ra các nguồn tài nguyên cho cộng đồng.
Khi tôi thảo luận về hệ sinh thái AI với các nhà hoạch định chính sách, một mối quan tâm chung luôn xuất hiện: rằng sự thiếu cởi mở sẽ cản trở tốc độ đổi mới. Tôi đã nhấn mạnh vấn đề này trong nhiều năm, nhưng cuối cùng nó cũng trở thành hiện thực. Tôi ủng hộ nguồn mở, nhưng tôi không nghĩ mọi người sẽ chia sẻ công việc của họ. Chúng tôi đã từng coi nguồn mở là điều hiển nhiên, nhưng điều đó không còn đúng nữa.
Tôi nghĩ rằng nó sẽ làm chậm sự phát triển của chúng tôi. Trong nhiều trường hợp, có một nền văn hóa nguyên khối trong mỗi phòng thí nghiệm và giao tiếp là một động lực quan trọng cho tiến bộ khoa học. Do đó, nguồn mở không chỉ không thể thiếu trong cộng đồng nguồn mở và giới học thuật, mà còn rất quan trọng đối với sự tiến bộ của công nghệ. Chúng tôi cần một cộng đồng nghiên cứu nguồn mở sôi động.
Xu hướng tương lai
Swyx: Bạn đã đề cập rằng nhiều thứ không tồn tại lâu và dễ bị thay thế, nhưng Transformer vẫn ở đây.
Jonathan: Người máy biến hình sẽ luôn tồn tại. Mạng thần kinh chuyển đổi (CNN) vẫn đang được sử dụng cho đến ngày nay và Visual Transformers đã không thay thế chúng. Hãy nhìn vào mạng thần kinh hồi quy (RNN), đã tồn tại hàng thập kỷ nhưng vẫn đang hoạt động trong nhiều lĩnh vực. Kết quả là, việc thực hiện cải tiến cơ sở hạ tầng lớn là khó khăn.
Abhinav: Tôi nghĩ rằng đặt cược của bạn phụ thuộc rất nhiều vào những gì được định nghĩa là sự chú ý. Nếu một thao tác như phép nhân ma trận QK được thay thế bằng một phương pháp tương tự, điều này sẽ có ảnh hưởng gì đến kết quả?
Jonathan: Trong phân tích cuối cùng, đây chỉ là một mạng chuyển tiếp được kết nối đầy đủ, Transformer với cơ chế chú ý đơn giản. Vì vậy, mọi thứ có thể thay đổi, nhưng chúng tôi vẫn tiếp tục sử dụng Transformer như Ashish Vaswani (tác giả Transformer) đã hình dung cách đây 6 năm, và có lẽ sẽ tiếp tục như vậy trong tương lai.
Abhinav: Tôi nghĩ nó sẽ trở nên giống với MLP (Multilayer Perceptron), đây là lựa chọn duy nhất chúng tôi có vào lúc này, vì hiện tại kiến trúc đã được đơn giản hóa rất nhiều, chỉ còn lại một số lớp tuyến tính, các kết nối còn lại, Chú ý , phép toán nhân dấu chấm.
Jonathan: Giả định của bạn là kiến trúc sẽ trở nên đơn giản hơn, nhưng thực tế có thể ngược lại và kiến trúc có thể trở nên phức tạp hơn.
Swyx: Bạn nghĩ gì về cuộc tranh luận gần đây về "hiện tượng mới nổi"?
Abhinav: Tôi đã xem các bài báo tương tự và đây có thể chỉ là sản phẩm phụ của các kỹ thuật đánh giá như chia tỷ lệ nhật ký, số liệu đánh giá và những gì chúng tôi đang làm hiện nay là chia lưới chính xác, tức là các phán đoán nhị phân nghiêm ngặt, tức là phân loại kết quả là đúng hay sai, mà không tính đến sự khác biệt tuần tự chi tiết hơn.
Tuy nhiên, tương tự như quan điểm của Jonathan về đánh giá, chúng tôi cũng gặp vấn đề với sự đa dạng của các thước đo đánh giá: khi chúng tôi phát hành các mô hình này, thậm chí là mô hình trò chuyện, mô hình lệnh, mọi người thường sử dụng nó cho nhiều nhiệm vụ khác nhau. Chúng ta khó có thể đo lường và đánh giá chính xác từng khía cạnh trước đó và thậm chí ở quy mô 7 tỷ, các mô hình này vẫn hoạt động kém trên một số tác vụ MMLU rất khó. Đôi khi họ đạt điểm cao hơn cơ hội ngẫu nhiên một chút, đặc biệt là khi giải quyết các nhiệm vụ rất khó khăn.
Do đó, một số vấn đề này có thể hữu ích hơn đối với chúng tôi khi chúng tôi theo đuổi các mô hình chất lượng cao hơn. Tuy nhiên, chúng tôi đã phát triển MPT-7B hơi mù quáng vì chúng tôi không hiểu đầy đủ về cách hoạt động cuối cùng của mô hình. Nó chỉ có thể được phát triển dựa trên một tập hợp nhỏ các tác vụ suy luận nhận thức phổ biến và hiệu suất được đánh giá bằng cách so sánh các chỉ số này với các mô hình nguồn mở khác.
Alessio: Tôi nghĩ đào tạo và suy luận nhanh là một trong những mục tiêu, vì vậy cần có sự đánh đổi giữa việc giải quyết các nhiệm vụ khó nhất và nhanh chóng trong các nhiệm vụ khác.
Abhinav: Vâng. Ngay cả ở quy mô 7 tỷ dữ liệu, mọi người sẽ cố gắng chạy nó trên CPU ở nhà hoặc cố gắng chuyển nó sang điện thoại di động của họ, chủ yếu là do các ứng dụng quy mô nhỏ sẽ thúc đẩy mọi người áp dụng công nghệ này và đây là một xu hướng quan trọng tại khoảnh khắc.
Alessio: Một số thứ trong AI đang phát triển nhanh hơn nhiều so với dự kiến?
Jonathan: Tôi nhớ khi GPT-2 ra mắt, tôi không hào hứng lắm, nhưng lúc đó nó đã có 1,5 tỷ thông số. Khi các mô hình tăng kích thước, hiệu suất của chúng không thể tiếp tục cải thiện. Sau đó, GPT-3 xuất hiện và tôi chỉ nghĩ rằng nó tốt hơn một chút trong việc tạo văn bản, nhưng tôi đã sai hết lần này đến lần khác. Mở rộng quy mô mô hình có thể tạo ra các mô hình rất hữu ích bằng cách dự đoán mã thông báo tiếp theo.
Công bằng mà nói, hầu hết chúng ta đều sai về điều này, vì vậy chúng ta cũng không thể tự trách mình được. Nếu không, Google, Facebook và Microsoft Research đã tung ra những siêu mô hình ngôn ngữ sát thủ từ rất lâu trước khi tôi có cơ hội hành động. Tôi đã đánh cược một cách kỳ lạ nhưng hóa ra lại đúng: Các mô hình khuếch tán, mặc dù hơi ngớ ngẩn, nhưng lại tạo ra những hình ảnh đẹp đến kinh ngạc.
Abhinav: Về chatbot trên quy mô lớn, tôi nghĩ sẽ còn rất lâu nữa hàng trăm triệu người mới có những cuộc trò chuyện lớn với các mô hình AI. Với rất nhiều công ty khởi nghiệp và doanh nghiệp hiện không chỉ sử dụng ChatGPT mà còn các dự án khác như tạo nhân vật, thật ngạc nhiên là có bao nhiêu người đang thực sự tạo ra các kết nối cảm xúc với các mô hình AI này. Tôi không nghĩ mình đã dự đoán được điều đó vào tháng 9 hoặc tháng 10 năm ngoái. Điểm uốn xảy ra trong sáu tháng qua thực sự bất ngờ.
Swyx: Bạn nghĩ chúng sẽ được dùng để làm gì, chẳng hạn như hỗ trợ tinh thần?
Abhinav: Một số là để hỗ trợ tinh thần, hoặc chỉ là bạn bè. Cô đơn và các vấn đề sức khỏe tâm thần là một chủ đề nóng. Nếu bạn truy cập các subreddits của những cộng đồng đó, mọi người đang nói và nghĩ về những người bạn AI của họ và những nhân vật này, nó giống như một điều gì đó ngoài khoa học viễn tưởng và tôi không bao giờ mong đợi điều đó xảy ra.
Swyx: Đâu là vấn đề thú vị nhất chưa được giải quyết trong AI?
Abhinav: Tôi quan tâm đến việc chúng ta có thể đi bao xa về độ chính xác và những thứ như BF16/FP16.
Tôi tự hỏi liệu những vấn đề này có trở nên dễ giải quyết hơn khi kích thước của mô hình tăng lên hay không. Các bài báo liên quan cho thấy rằng lượng tử hóa và cắt tỉa có thể trở nên dễ dàng hơn khi quy mô tăng lên. Vì vậy, như một hệ quả tự nhiên của việc mở rộng quy mô trong vài năm tới, chúng tôi có thể chuyển sang sử dụng trọng số bốn bit hoặc hai bit hoặc thậm chí là nhị phân.
Jonathan: Tôi muốn xem một cách khác mà chúng tôi có thể đạt được một mô hình nhỏ như thế nào và chúng tôi có thể phát triển một mô hình có hiệu suất tương đương hiệu quả như thế nào. Đây là câu hỏi mà tôi đã nghiên cứu trong suốt quá trình học Tiến sĩ của mình, và theo một nghĩa nào đó, ở Mosaic cũng vậy. OpenAI đã chỉ cho chúng ta một con đường dẫn đến khả năng đáng kinh ngạc này, đó là mở rộng quy mô. Nhưng tôi hy vọng đây không phải là cách duy nhất. Tôi hy vọng có nhiều cách khác để đạt được điều này, thông qua các phương pháp lập mô hình tốt hơn, các thuật toán tốt hơn, v.v.
Mặc dù tôi không phải là người hâm mộ khoa học thần kinh, nhưng theo một nghĩa nào đó, sự tồn tại của chúng ta và bộ não của chúng ta chứng minh rằng ít nhất có một cách khác để đạt được khả năng đáng kinh ngạc này mà không cần hàng nghìn tỷ thông số hoặc thậm chí là những thông số thiên văn. Vì vậy, tôi thực sự tò mò chúng ta có thể đạt được một mô hình nhỏ như thế nào? Có đường dẫn nào khác đến những khả năng này mà không phải đi theo đường dẫn hiện tại không? Hy vọng tìm thấy câu trả lời trong Mosaic, nếu nó tồn tại.
Swyx: Chính xác, một trong những điều tôi quan tâm nhất là thực tế là bộ não con người chỉ tiêu thụ 30 watt điện và mô hình này cách xa con số đó hàng bậc.
Abhinav: Tôi không nghĩ có cách nào để đạt được điều này chỉ với một GPU hoặc các công cụ khác.
Alessio: Hiện có rất nhiều thông tin đang diễn ra, chẳng hạn như mọi người nên nghĩ thế nào về trí tuệ nhân tạo? Họ nên tập trung vào điều gì?
Jonathan: Bình tĩnh. Một số người quá coi trọng sự cường điệu; những người khác lại rất bi quan, phản ứng mạnh mẽ với nó hoặc phủ nhận nó ở một mức độ nào đó. Hãy giữ bình tĩnh và biết rằng chúng tôi đã tạo ra một công cụ rất hữu ích.
Nhưng chúng ta vẫn chưa xây dựng được trí thông minh chung, và cá nhân chúng ta, chúng ta còn chưa đạt được mục tiêu đó. Vì vậy, điều quan trọng là phải hòa bình và tuân theo khoa học, và đó là điều mà Mosaic AI phấn đấu. Chúng tôi cố gắng tập trung vào những thứ hữu ích cho con người, hy vọng tạo ra một thế giới tốt đẹp hơn. Chúng tôi sẽ cố gắng hết sức, nhưng quan trọng nhất, chúng tôi sẽ tuân theo khoa học, được hướng dẫn bởi dữ liệu và đạt được mục tiêu này thông qua kết quả thực tế chứ không phải lời hoa mỹ.
Abhinav: Tôi nghĩ không gì bằng thực hiện nghiên cứu trong một cộng đồng mở. Trong cộng đồng, không chỉ một số lượng lớn người chú ý đến mô hình của bạn mà thậm chí còn đưa ra ý kiến của họ về các vấn đề của mô hình và cách cải thiện nó. Loại nghiên cứu mở này sẽ là con đường phía trước, vừa để giữ an toàn cho các mô hình của chúng ta, vừa để đi sâu vào tác động và hậu quả trong thế giới thực của các mô hình AI này.