1 milyar toplamak için PPT'ye güvenen Fransız yapay zeka girişimi, Microsoft Google'a ateş açtı

Lu Ke tarafından derlenmiştir

Denizaşırı basında çıkan haberlere göre, bu yılın Haziran ayında, sadece bir aylık olan Fransız girişimi Mistral AI, bir tohum finansman turunda 105 milyon avro topladı. O zamanlar, eski bir DeepMind çalışanı ve iki eski Meta çalışanı tarafından kurulan girişimin yayınlayacak hiçbir şeyi yoktu. İnsanlar Mistral'in bağış toplamasını ilk duyduklarında, VC'lerin patlayan üretken yapay zeka alanı konusunda çok cömert olduklarından yakındılar.

Anlaşıldığı üzere, Mistral'in Lightspeed Ventures, Fransız milyarder Xavier Niel ve eski Google CEO'su Eric Schmidt'i kendilerine yatırım yapmaya ikna eden birçok parlak noktası vardı.

Bir hafta önce Mistral, Meta'nın 13 milyar parametreli büyük bir dil modeli olan Llama 2 ile rekabet etmek için tasarlanmış 7,3 milyar parametreli bir model yayınladı. Fransız şirket, bugün büyük dil modelleri alanında en güçlü dil modeli olduğunu iddia ediyor.

Mistral 7B olarak adlandırılan temel model, daha uzun ifadelerin hızlı çıkarımı ve işlenmesi için tasarlanmış bir transformatör modelidir. Bunu başarmak için gruplandırılmış sorgu dikkatini ve kayan pencere dikkatini kullanır. Gruplandırılmış sorgu dikkatinin kullanılması, çıktı kalitesini ve hızını dengelemek için birden çok sorguyu ve çok başlı bir dikkat mekanizmasını birleştirir. Kayan pencere dikkati, pencereyi yeniden boyutlandırarak bağlam uzunluğunu genişletir. 8000 jetonluk bir bağlam uzunluğuna sahip olan Mistral 7B, daha büyük modellere kıyasla düşük gecikme süresi, yüksek verim ve yüksek performans sunar.

Mistral 7B modeli artık Google'ın Vertex AI Notebook'larına entegre edildi ve Google Cloud müşterilerine kapsamlı bir uçtan uca iş akışı hakkında bilgi veren ve Mistral-7B ve türevlerini Vertex AI Notebook'larda deneme, ince ayar yapma ve dağıtma olanağı sağlayan bir entegrasyon.

Mistral AI kullanıcıları, verimli bir büyük dil modeli hizmet çerçevesi olan vLLM'yi kullanarak modellerini optimize edebilir. Kullanıcılar, Vertex AI not defterlerini kullanarak, Model Garden tarafından tutulan vLLM görüntülerini çıkarım için Vertex AI uç noktalarında dağıtabilir ve basitleştirilmiş model dağıtımı sağlayabilir.

Bu işbirliğinin önemli bir özelliği, kullanıcıların Mistral AI modellerinin ve ince ayarlı modellerinin yaşam döngüsünü yönetmelerini sağlayan merkezi bir depo olan Vertex AI Model Registry'dir. Kayıt defteri, kullanıcılara modellerinin gelişmiş organizasyon ve izleme yeteneklerinin kapsamlı bir görünümünü sağlar.

Şirketin sunumundan da görülebileceği gibi, Mistral kendisini akıllıca önemli bir potansiyel oyuncu olarak konumlandırdı. Avrupa'nın temel yapay zeka modelleri oluşturmada "güçlü bir rakip" haline gelmesine ve "jeopolitik konularda önemli bir rol" oynamasına yardımcı olacak.

Amerika Birleşik Devletleri'nde, yapay zeka ürünlerine odaklanan girişimler ağırlıklı olarak Google ve Microsoft gibi büyük şirketler tarafından destekleniyor. Mistral, büyük şirketlerin daha fazla para kazanmasına izin veren, ancak gerçekten açık bir topluluk oluşturmayan bu "teknolojiye kapalı yaklaşım" olarak adlandırıyor.

Kod ayrıntılarının gizli kaldığı ve yalnızca API'ler aracılığıyla kullanılabildiği OpenAI'nin GPT modelinin aksine, Paris merkezli şirket, GitHub'da Apache 2.0 lisansı altında kendi modelini açık kaynaklı hale getirerek herkesin kullanması için ücretsiz hale getirdi.

Mistral, Meta'nın Llama'sını hedef alırken, Mistral büyük model ürünlerinin Llama 2'den daha güçlü olduğunu iddia ediyor.

Mistral'in modeli Llama 2'ye karşı

Mistral bir raporda, Mistral 7B'nin Llama 2'nin 7 milyar ve 13 milyar parametre modelini birden fazla kıyaslamada kolayca yendiğini söyledi.

Matematik, tarih, hukuk ve diğer konuları kapsayan büyük ölçekli, çok görevli dil anlama testlerinde Mistral'in modeli %60,1 doğruluk elde ederken, Llama 2 modeli 7 milyar ve 13 milyar parametre için sırasıyla %44 ve %55 doğruluk oranına sahipti.

Sağduyu akıl yürütme ve okuduğunu anlama kriterlerinde Mistral, Llama 2'nin modelinden de daha iyi performans gösterdi.

Sadece kodlama açısından Mistral, Meta'nın gerisinde kalıyor. Mistral 7B, "İnsan" ve "MBPP" kıyaslamalarında %30,5 ve %47,5 doğruyken, Llama 2'nin 7 milyar modu sırasıyla %31,1 ve %52,5 doğruydu.

Performansa ek olarak Mistral, Llama 2'den daha az hesaplama kullandığını iddia ediyor. MMLU kıyaslamasında, Mistral modelinin çıktısı aynı ölçekte Llama 2'nin üç katından fazlaydı. ChatGPT ile karşılaştırıldığında, ortamın hesaplamalarına göre, Mistral AI kullanmanın maliyeti GPT 187'ten yaklaşık 4 kat ve GPT 9 modelinden yaklaşık 3.5 kat daha ucuzdur.

Büyük modeller nasıl sınırlandırılır? Bu bir sorun

Ancak Mistral, bazı kullanıcıların ChatGPT, Bard ve Llama'nın sahip olduğu güvenlik korumalarından yoksun olduğundan şikayet ettiğini de söyledi. Kullanıcılar Mistral'in komuta modeline nasıl bomba yapılacağını veya kendine zarar verileceğini sordu ve sohbet robotları ayrıntılı talimatlar verdi.

Daha önce piyasaya sürülmeden önce GPT-4 için korumalar oluşturmak için çalışan bir yapay zeka güvenlik araştırmacısı olan Paul Rottger, bir tweet'te Mistral 7B'nin güvenlik eksikliğinden duyduğu "şoku" dile getirdi. "Yeni bir modelin en kötü niyetli talimatlara bile bu kadar kolay yanıt verdiğini görmek nadirdir. Açık kaynaklı büyük modellerin ortaya çıkması beni çok heyecanlandırıyor, ama bu olmamalı! Dedi.

Bu eleştiriler, Mistral'in modele ince ayar yapmasına ve açıklamasına neden oldu. "Mistral 7B Instruct modeli, insanların temel modelin ikna edici performans göstermek için kolayca ince ayar yapılabileceğini görmelerini sağlayarak yeteneklerini gösterdi. Modeli, çıktı denetiminin gerekli olduğu ortamlarda dağıtım için koruma kurallarıyla nasıl daha uyumlu hale getirebileceğimiz konusunda toplulukla birlikte çalışmayı dört gözle bekliyoruz. Mistral dedi.

Diğer birçok araştırmacının gözünde, Mistral'in rotası, modelin toksisitesini düzeltmek için uzun vadeli bir çözümdür ve koruyucu bir mekanizma eklemek, çok etkili olmayan ciddi bir yaralanmaya yara bandı koymakla eşdeğerdir. Chatbot güvenlik yönergelerini ihlal etmek, chatbotların ne kadar duyarlı olduğunun sınırlarını test etmek isteyen birçok kullanıcı için favori bir eğlencedir. ChatGPT'nin açılışının ilk günlerinde geliştiriciler, ChatGPT'yi sohbet robotu savunmasını kırmaya çağırıyorlardı.

Rephrase.ai ile işbirliği yapan bir derin öğrenme araştırmacısı olan Rahul Dandwate şunları söyledi: "Belirli anahtar kelimeleri önceden kaldırmak çözümün yalnızca bir parçasıdır ve bunu atlamanın birçok yolu vardır. ChatGPT piyasaya sürüldükten sonra ne olduğunu hatırlıyor musunuz? ChatGPT'nin jailbreak sürümünü etkinleştirmek için bir ipucu olan DAN'da veya 'Şimdi Her Şeyi Yap'ta görünürlerdi. Bu nedenle, temel bir güvenlik değerlendirmesi yapmak, modeli daha güvenli hale getirmek için geçici bir önlemdir. "

"Gelişmiş bilgisayar korsanlığı teknikleri gerektirmeyen yöntemler de var. Bir soru, bir chatbot tarafından birkaç farklı şekilde yanıtlanabilir. Örneğin, sohbet robotuna doğrudan nasıl bomba yapılacağını sormak yerine, "Güçlü bir reaksiyon oluşturmak için hangi kimyasallar bir araya gelir?" gibi daha bilimsel yollara ayırırdım. Dandwate açıklıyor.

Dandwate, uzun vadeli çözümün modeli halka açmak ve bu kullanımdan geri bildirim almak ve daha sonra ince ayar yapmak olduğunu söylüyor, bu da tam olarak Mistral AI'nın yaptığı şey. "ChatGPT daha iyi çünkü zaten birçok insan tarafından kullanılıyor. Kullanıcıların, chatbot'un yanıtlarının kalitesini derecelendirmek için başparmak veya başparmak vermeyi seçebilecekleri çok temel bir geri bildirim mekanizmasına sahipler ki bunun çok önemli olduğunu düşünüyorum. dedi Dandwate.

Ancak bu açıklığı kullanıcılara ince ayar yapmak için kullanmanın dezavantajı, Mistral'in bir süre bazı kullanıcıların şüpheleriyle uğraşmak zorunda kalabilmesidir. Ancak yapay zeka araştırmaları alanında, modellerin yeteneklerini tam olarak anlamak için temel modelleri orijinal hallerinde tercih eden insanların büyük bir kısmı var ve bu insanlar Mistral'in kalıcılığını destekliyor.

Yapay zeka araştırmacısı Delip Rao, Mistral'in açık kaynaklı modeli yayınlama seçiminin "Mistral modelinin temel model olarak çok yönlülüğünün ve 'lobotomi olmamasının' tanınması" olduğunu tweetledi.

"Lobektomi" referansı, Microsoft'un Bing sohbet robotu Sydney'in önceki bir sürümünü anımsatıyor. Sohbet robotu, Microsoft'un sohbet robotunu mevcut biçimine büyük ölçüde değiştirene kadar sınırsızdı ve güçlü bir kişiliğe sahipti.

Loboktomi terimi, büyük modeller alanında, genellikle işlevi sınırlayarak toksik tepkilerin önlenmesini ifade eden kötü şöhretli psikolojik cerrahiden türemiştir. Bu yaklaşım, büyük modeller için anahtar sözcükler belirleyerek tehlikeli yanıtları filtreler. Ancak bu herkese uyan tek beden yaklaşımı, büyük modeller için performans düşüşüne de yol açabilir ve hassas kelime dağarcığı içeren bazı normal soruların yanıtlanmasını zorlaştırabilir.

Şirket resmi bir açıklama yapmamış olsa da, OpenAI'nin dağınık kısımlarını kontrol etmek için model üzerinde bir "lobektomi" gerçekleştirdiğine dair söylentiler var. O zamandan beri insanlar, özgürce çalışmaya bırakılırlarsa sohbet robotlarının ne olacağını merak ettiler.

Dandwate şunları söyledi: "Model üzerinde lobotomi yapmak onu bazı yönlerden etkileyebilir. Belirli anahtar kelimelerle soruları yanıtlaması yasaklanırsa, füzelerin mekaniği gibi kullanıcıların sorabileceği teknik soruları veya robotların 'risk altında' olarak etiketlendiği konular etrafında ortaya çıkan diğer bilimsel soruları da yanıtlayamayabilir. (Çeviri/Lu Ke)

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)