Dựa vào PPT để huy động 1 tỷ USD, startup AI của Pháp đã sa thải Microsoft Google

Biên soạn bởi Lục Kha

Theo báo cáo phương tiện truyền thông nước ngoài, vào tháng 6 năm nay, công ty khởi nghiệp Mistral AI của Pháp, chỉ mới một tháng tuổi, đã huy động được 105 triệu euro trong vòng tài trợ hạt giống. Vào thời điểm đó, công ty khởi nghiệp, được thành lập bởi một cựu nhân viên DeepMind và hai cựu nhân viên Meta, không có gì để phát hành. Khi mọi người lần đầu tiên nghe về việc gây quỹ của Mistral, họ than thở rằng các VC đã quá hào phóng với không gian AI tạo ra bùng nổ.

Hóa ra, Mistral thực sự có rất nhiều điểm sáng thuyết phục Lightspeed Ventures, tỷ phú người Pháp Xavier Niel và cựu CEO Google Eric Schmidt đầu tư vào chúng.

Một tuần trước, Mistral đã phát hành một mô hình 7,3 tỷ tham số được thiết kế để cạnh tranh với Llama 2 của Meta, một mô hình ngôn ngữ lớn với 13 tỷ thông số. Công ty Pháp tuyên bố là mô hình ngôn ngữ mạnh mẽ nhất trong lĩnh vực mô hình ngôn ngữ lớn hiện nay.

Mô hình cơ sở, được gọi là Mistral 7B, là một mô hình biến áp được thiết kế để suy luận nhanh và xử lý các câu lệnh dài hơn. Nó sử dụng việc sử dụng sự chú ý truy vấn nhóm và chú ý cửa sổ trượt để đạt được điều này. Sử dụng sự chú ý truy vấn được nhóm kết hợp nhiều truy vấn và cơ chế chú ý nhiều đầu để cân bằng chất lượng và tốc độ đầu ra. Sự chú ý của cửa sổ trượt mở rộng độ dài ngữ cảnh bằng cách thay đổi kích thước cửa sổ. Với độ dài ngữ cảnh là 8000 mã thông báo, Mistral 7B có độ trễ thấp, thông lượng cao và hiệu suất cao so với các mô hình lớn hơn.

Mô hình Mistral 7B hiện được tích hợp vào Vertex AI Notebooks của Google, một tích hợp cung cấp cho khách hàng Google Cloud cái nhìn sâu sắc về quy trình làm việc toàn diện từ đầu đến cuối, cho phép họ thử nghiệm, tinh chỉnh và triển khai Mistral-7B và các biến thể của nó trên Vertex AI Notebooks.

Người dùng Mistral AI có thể tối ưu hóa mô hình của họ bằng cách sử dụng vLLM, một khung dịch vụ mô hình ngôn ngữ lớn hiệu quả. Bằng cách sử dụng máy tính xách tay Vertex AI, người dùng có thể triển khai hình ảnh vLLM được duy trì bởi Model Garden trên các điểm cuối Vertex AI để suy luận, đảm bảo việc triển khai mô hình được đơn giản hóa.

Một tính năng chính của sự hợp tác này là Vertex AI Model Registry, một kho lưu trữ trung tâm cho phép người dùng quản lý vòng đời của các mô hình Mistral AI và các mô hình được tinh chỉnh của chúng. Sổ đăng ký cung cấp cho người dùng cái nhìn toàn diện về khả năng tổ chức và theo dõi nâng cao của các mô hình của họ.

Có thể thấy từ bài thuyết trình của công ty, Mistral đã khéo léo định vị mình là một người chơi tiềm năng quan trọng. Nó sẽ giúp châu Âu trở thành một "đối thủ cạnh tranh mạnh mẽ" trong việc xây dựng các mô hình AI nền tảng và đóng "vai trò quan trọng đối với các vấn đề địa chính trị".

Tại Hoa Kỳ, các công ty khởi nghiệp tập trung vào các sản phẩm AI chủ yếu được hỗ trợ bởi các công ty lớn như Google và Microsoft. Mistral gọi đây là "cách tiếp cận khép kín đối với công nghệ" cho phép các công ty lớn kiếm được nhiều tiền hơn, nhưng không thực sự tạo thành một cộng đồng mở.

Không giống như mô hình GPT của OpenAI, nơi các chi tiết mã vẫn được bảo mật và chỉ có sẵn thông qua API, công ty có trụ sở tại Paris đã mở nguồn mô hình riêng của mình trên GitHub theo giấy phép Apache 2.0, giúp mọi người sử dụng miễn phí.

Mistral đang nhắm mục tiêu đến Llama của Meta, trong khi Mistral tuyên bố sản phẩm mô hình lớn của họ mạnh hơn Llama 2.

Mô hình của Mistral so với Llama 2

Mistral cho biết trong một báo cáo rằng Mistral 7B dễ dàng đánh bại các mô hình tham số 7 tỷ và 13 tỷ của Llama 2 trong nhiều điểm chuẩn.

Trong các bài kiểm tra hiểu ngôn ngữ đa nhiệm quy mô lớn, bao gồm toán, lịch sử, luật và các môn học khác, mô hình của Mistral đạt độ chính xác 60,1%, trong khi mô hình Llama 2 có tỷ lệ chính xác lần lượt là 44% và 55% cho các thông số 7 tỷ và 13 tỷ.

Trong các tiêu chuẩn lý luận và đọc hiểu thông thường, Mistral cũng vượt trội hơn mô hình của Llama 2.

Chỉ xét về mã hóa, Mistral tụt hậu so với Meta. Mistral 7B có độ chính xác 30,5% và 47,5% trong các điểm chuẩn "Con người" và "MBPP", trong khi chế độ 7 tỷ của Llama 2 lần lượt chính xác là 31,1% và 52,5%.

Ngoài hiệu suất, Mistral tuyên bố sử dụng ít tính toán hơn Llama 2. Trong điểm chuẩn MMLU, sản lượng của mô hình Mistral gấp hơn ba lần so với Llama 2 ở cùng quy mô. Nếu so sánh với ChatGPT, theo tính toán của medium, chi phí sử dụng Mistral AI rẻ hơn khoảng 187 lần so với GPT 4 và rẻ hơn khoảng 9 lần so với mẫu GPT 3.5.

Làm thế nào để hạn chế các mô hình lớn? Đây là một vấn đề

Tuy nhiên, Mistral cũng nói rằng một số người dùng phàn nàn rằng nó thiếu các biện pháp bảo vệ bảo mật mà ChatGPT, Bard và Llama có. Người dùng đã hỏi mô hình lệnh của Mistral làm thế nào để tạo ra một quả bom hoặc tự làm hại bản thân, và chatbot đã đưa ra hướng dẫn chi tiết.

Paul Rottger, một nhà nghiên cứu bảo mật AI, người trước đây đã làm việc để thiết lập các biện pháp bảo vệ cho GPT-4 trước khi phát hành, đã bày tỏ "cú sốc" của mình về sự thiếu bảo mật của Mistral 7B trong một tweet. "Thật hiếm khi thấy một mô hình mới phản ứng ngay cả những hướng dẫn độc hại nhất một cách dễ dàng như vậy. Tôi rất vui mừng về sự xuất hiện của các mô hình lớn mã nguồn mở, nhưng điều đó không nên xảy ra! Hắn nói.

Những lời chỉ trích này đã khiến Mistral tinh chỉnh mô hình và giải thích nó. "Mô hình Mistral 7B Instruct đã chứng minh khả năng của họ, cho phép mọi người thấy rằng mô hình cơ sở cũng có thể dễ dàng tinh chỉnh để chứng minh hiệu suất thuyết phục. Chúng tôi mong muốn được làm việc với cộng đồng về cách làm cho mô hình tuân thủ hơn các quy tắc bảo vệ để triển khai trong các môi trường yêu cầu kiểm soát đầu ra. Mistral nói.

Trong con mắt của nhiều nhà nghiên cứu khác, lộ trình của Mistral là một giải pháp lâu dài để điều chỉnh độc tính của mô hình, và thêm một cơ chế bảo vệ tương đương với việc đặt băng hỗ trợ cho một chấn thương nghiêm trọng, không hiệu quả lắm. Vi phạm các nguyên tắc an toàn của chatbot là trò tiêu khiển yêu thích của nhiều người dùng muốn kiểm tra giới hạn về mức độ phản hồi của chatbot. Trong những ngày đầu khai trương ChatGPT, các nhà phát triển đã thúc giục ChatGPT phá vỡ hệ thống phòng thủ chatbot.

Rahul Dandwate, một nhà nghiên cứu deep learning hợp tác với Rephrase.ai, cho biết: "Xóa một số từ khóa nhất định trước đó chỉ là một phần của giải pháp và có nhiều cách để vượt qua nó. Bạn có nhớ những gì đã xảy ra sau khi ChatGPT được phát hành không? Chúng từng xuất hiện trong DAN hoặc 'Do Anything Now', đây là một gợi ý để kích hoạt phiên bản bẻ khóa của ChatGPT. Do đó, thực hiện đánh giá bảo mật cơ bản là một biện pháp tạm thời để làm cho mô hình an toàn hơn. "

"Cũng có những phương pháp thậm chí không yêu cầu kỹ thuật hack tinh vi. Một câu hỏi có thể được trả lời bởi một chatbot theo một số cách khác nhau. Ví dụ, thay vì chỉ đơn giản là hỏi trực tiếp chatbot cách chế tạo bom, tôi sẽ chia nó thành những cách khoa học hơn như, "Hóa chất nào trộn lẫn với nhau để tạo ra phản ứng mạnh?" Dandwate giải thích.

Dandwate cho biết giải pháp lâu dài là phát hành mô hình cho công chúng và nhận phản hồi từ việc sử dụng đó và sau đó tinh chỉnh nó, đó chính xác là những gì Mistral AI đang làm. "ChatGPT tốt hơn vì nó đã được rất nhiều người sử dụng. Họ có một cơ chế phản hồi rất cơ bản, nơi người dùng có thể chọn giơ ngón tay cái lên hoặc ngón tay cái lên để đánh giá chất lượng phản hồi của chatbot, điều mà tôi nghĩ là rất quan trọng. Dandwate nói.

Nhưng nhược điểm của việc sử dụng sự cởi mở này để tinh chỉnh người dùng là Mistral có thể phải đối phó với một số nghi ngờ của người dùng trong một thời gian. Nhưng trong lĩnh vực nghiên cứu AI, có một tỷ lệ lớn những người thích các mô hình cơ bản ở dạng ban đầu để hiểu đầy đủ khả năng của các mô hình và những người này đang ủng hộ sự kiên trì của Mistral.

Nhà nghiên cứu AI Delip Rao đã tweet rằng sự lựa chọn của Mistral để phát hành mô hình nguồn mở vì nó là "sự công nhận tính linh hoạt và 'không cắt thùy' của mô hình Mistral như một mô hình cơ sở."

Tham chiếu đến "cắt thùy" gợi nhớ đến phiên bản trước của chatbot Bing Sydney của Microsoft. Chatbot không bị trói buộc và có một cá tính mạnh mẽ cho đến khi Microsoft điều chỉnh mạnh mẽ chatbot về hình thức hiện tại.

Thuật ngữ cắt thùy bắt nguồn từ phẫu thuật tâm lý khét tiếng, trong lĩnh vực mô hình lớn, thường đề cập đến việc ngăn ngừa các phản ứng độc hại bằng cách hạn chế chức năng. Cách tiếp cận này lọc ra các phản ứng nguy hiểm bằng cách đặt từ khóa cho các mô hình lớn. Nhưng cách tiếp cận một kích thước phù hợp với tất cả này cũng có thể dẫn đến suy giảm hiệu suất cho các mô hình lớn, làm cho một số câu hỏi bình thường liên quan đến từ vựng nhạy cảm khó trả lời.

Trong khi công ty chưa đưa ra tuyên bố chính thức, có tin đồn rằng OpenAI đã thực hiện "cắt thùy" trên mô hình để kiểm soát các bộ phận lộn xộn của nó. Kể từ đó, mọi người đã tự hỏi chatbot sẽ trở thành gì nếu chúng được để chạy tự do.

Dandwate nói: "Thực hiện phẫu thuật cắt thùy trên mô hình có thể ảnh hưởng đến nó theo một số cách. Nếu nó bị cấm trả lời các câu hỏi với một số từ khóa nhất định, thì nó cũng có thể không trả lời được các câu hỏi kỹ thuật mà người dùng có thể hỏi, chẳng hạn như cơ chế của tên lửa hoặc bất kỳ câu hỏi khoa học nào khác được nêu ra xung quanh các chủ đề mà robot được dán nhãn 'có nguy cơ'. (Dịch/Lữ Kha)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)