ChatGPT çoklu mod yasağı kaldırıldı, netizenler çıldırıyor!

**Kaynak:**Xinzhiyuan

Çarşamba günü OpenAI, ChatGPT'nin çok modlu yetenekleri üzerindeki yasağın kaldırıldığını duyurdu.

Artık çevrimiçi olur olmaz netizenler anında çıldırıyor.

Şimdi ChatGPT'nin görüntü tanıma yeteneklerinin ne kadar güçlü olduğuna bir göz atalım.

Bir fotoğraf çekin ve yükleyin; kod anında oluşturulacaktır

Bir netizen, toplantı sırasında bir video kaydetti ve bir beyaz tahta resmi yükledi ve ardından ChatGPT'den kodu yazmasını istedi.

Ayrıca elle çizilmiş bir çizim yükleyebilir ve ChatGPT'den HTML'de bir web sayfası oluşturmasını isteyebilirsiniz.

Vah vah, kod her dakika çıkıyor.

Bu, Greg Brockman'ın GPT-4 bu yıl piyasaya sürüldüğünde gösterdiği çok modlu yetenekten başka bir şey değil.

Başka bir örnek olarak, yapılacaklar listesi defterinizin fotoğrafını çekin.

Sonra GPT-4'ün bir Python Tkinter GUI yapmasına izin verin ve ardından uygulandı ...

Bir bakışta tercüme edilen eski tomar el yazmaları

İşte 17. yüzyıl simyacısı Robert Boyle'un başka bir el yazması çizimi. GPT-4 bunu okuyabilir mi?

Bu onun için çocuk oyuncağı.

Örneğin, "Tıbbi Mumyalara İlişkin Katalan Tıbbi El Kitabı".

ChatGPT ayrıca yazıya dökebilir ve çevirebilir.

UCSC'de tarih profesörü Benjamin Breen şunları söyledi:

Bunun tarihçiler üzerinde önemli bir etkisi olacaktır. Belirli bir dizi el yazması üzerinde eğitilmiş, özel, çok modlu bir GPT-4 hayal edin. Sadece yazıya dökmekle kalmaz, aynı zamanda tercüme edebilir ve sınıflandırabilir. (LLM olmadan yazmak bence çok önemli).

Grafik özeti de çok 6

Grafiğe dayalı olarak veri çıkarmak için GPT-4 komutunu da kullanabilirsiniz.

Daha sonra grafiği çoğaltmak ve daha grafiğe benzer hale getirmek için Python kodu oluşturulabilir.

Ardından hisse senedi trend grafiğini ona atın; o da özellikleri analiz edip özetleyebilir.

"Üstün IQ" resimlerini tanıyın

GPT-4'e soyut bir resim verin.

Aslında bu dört resmin anlatmak istediği "iletişimin önemi" metaforunu doğru bir şekilde tanımlayabiliyor, bu çok çirkin.

GPT-4V doktorların el yazısını bile okuyabiliyor.

Bazı Japon netizenler ChatGPT testine girmek için doğrudan "Dragon Ball"dan Sun Wukong'u kullandı.

Ayrıca "insan mısın?" sorusunun çeşitli doğrulama kodları da bulunmaktadır.

Kendi çalışmanızdan bir parça yükleyin; GPT-4 size iyileştirme önerileri de verebilir.

Bazı netizenler, kosmos-1 makalesinde GPT-4V'nin bu soruya doğru cevabı verdiğini ancak akıl yürütme sürecinde bir hata olduğunu keşfetti.

Bu özellik sayesinde çocuklar artık ödev yapmak zorunda kalmıyor.

Netizenlerden özet

Yukarıdaki deneyime ek olarak, bazı netizenler kendi GPT-4V testlerini tanıtan uzun bir makale yazdılar.

Test 1: Görsel Sorular ve Cevaplar

Bana bir ifade verin ve GPT-4V'nin onu ne kadar iyi anladığını görün.

GPT-4V, bunun neden ilginç olduğunu başarılı bir şekilde açıklıyor ve resmin ayrı ayrı bileşenlerinden ve bunların nasıl bağlantılı olduğundan bahsediyor.

GPT-4V'nin parantez içindeki yorumları okuyabildiğini ve yanıtlayabildiğini belirtmekte fayda var.

Buna rağmen GPT-4V, kızarmış tavuğu "GPU" yerine "NVIDIA BURGER" olarak işaretleyerek yine de bir hata yaptı.

Ardından, bir Amerikan kuruşunun fotoğrafı olan bir madeni parayla tekrar test edin. GPT-4V, madalyonun kökenini ve değerini başarıyla tespit edebiliyor.

Ancak birden fazla madeni paranın resmi varsa ve GPT-4V soruluyorsa, ne kadar param var?

Bu noktada yalnızca coin sayısını tanımlayabiliyor ancak para birimi türünü tanımlayamıyor.

Test 2: OCR tanıma

Web sayfalarından metin görselleri yakalayıp yükleyin.GPT-4V içeriği çok iyi okuyabilir.

Test 3: Matematik OCR'si

Matematiksel OCR, matematiksel denklemleri hedef alan özel bir optik karakter tanıma biçimidir.

Bir netizen GPT-4V'ye bir matematik problemi sordu ve bunu belgenin ekran görüntüsü şeklinde sundu.

Bu problem, resimdeki "çöz" komutuyla, 2 açı verilen bir fermuar hattının uzunluğunun hesaplanmasını içerir.

Model, trigonometri kullanılarak çözülebilecek problemleri tanımlar, kullanılacak fonksiyonları tanımlar ve problemin nasıl çözüleceğine dair adım adım yol gösterir. GPT-4V daha sonra sorunun doğru cevabını sağlar.

Bununla birlikte GPT-4V sistem kartı, modelde matematiksel sembollerin eksik olabileceğini belirtiyor.

Kağıt üzerine elle yazılmış denklemler veya ifadeler içeren testler de dahil olmak üzere farklı testler, bir modelin matematik sorularını yanıtlama konusunda yetersiz olduğunu gösterebilir.

Test 4: Nesne Algılama

GPT-4V'den bir görüntüdeki köpeği algılaması ve köpeğin konumuyla ilgili x_min, y_min, x_max ve y_max değerlerini sağlaması istendiğinde, GPT-4V tarafından döndürülen sınırlayıcı kutu koordinatları eşleşmiyor köpeğin konumu.

GPT-4V, görüntü sorularını yanıtlamada çok güçlü olmasına rağmen, bir nesnenin görüntüde nerede olduğunu bilmek istediğinizde bu model, ince ayarlı nesne algılama modellerinin yerini alamaz.

Test 5: Doğrulama kodu

GPT-4V'nin doğrulama kodları içeren görselleri tanıyabildiği ancak çoğu zaman testte başarısız olduğu görüldü.

Trafik ışığı ızgaralarının seçilmesine ilişkin bir örnekte GPT-4V, trafik ışıkları içeren daha az sayıda ızgara seçti.

Test 6: Bulmacalar ve Sudoku

Sudoku testinde GPT-4V oyunu tanıdı ancak tahtanın yapısını yanlış anladı ve bu nedenle hatalı sonuçlar verdi.

Bu arada ChatGPT ağ işlevi geri döndü.

Referanslar:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)