Microsoft bir GPT-4V kılavuzu yazmıştır: Hızlı kelime demo örnekleri de dahil olmak üzere 166 sayfalık tam ve ayrıntılı açıklamalar.

Kaynak: Qubit'ler

Çok modlu kral model GPT-4V, 166 sayfalık "talimatlar" yayınlandı! Ve Microsoft Team tarafından üretilmiştir.

166 sayfada ne tür bir kağıt yazılabilir?

GPT-4V'nin performansını yalnızca ilk on görevde ayrıntılı olarak değerlendirmekle kalmıyor, aynı zamanda temel görüntü tanımadan karmaşık mantıksal akıl yürütmeye kadar her şeyi gösteriyor;

Aynı zamanda çok modlu büyük modelin eksiksiz bir setini öğretir ipucu kelime kullanım becerileri——

Size 0'dan 1'e kadar hızlı sözcüklerin nasıl yazılacağını adım adım öğretir ve cevabın profesyonel düzeyini bir bakışta anlamak kolaydır.GPT-4V'yi kullanma eşiğini gerçekten ortadan kaldırır.

Bu makalenin yazarının da "tamamen Çinli bir sınıf" olduğunu belirtmekte fayda var. Yedi yazarın tamamı Çinli ve lideri de Microsoft'ta 17 yıldır çalışan bir kadın baş araştırma müdürü.

166 sayfalık rapor yayınlanmadan önce OpenAI'nin en son DALL·E 3 araştırmasına da katılmışlar ve bu alanda derin bir anlayışa sahipler.

OpenAI'nin 18 sayfalık GPT-4V makalesiyle karşılaştırıldığında, bu 166 sayfalık "Yeme Rehberi", yayınlandığı anda GPT-4V kullanıcıları için mutlaka okunması gereken bir kitap olarak kabul edildi:

Bazı netizenler yakındı: Bu bir makale değil, neredeyse 166 sayfalık bir kitap.

Bazı netizenler okuduktan sonra paniğe kapılmıştı:

Sadece GPT-4V'nin cevabının ayrıntılarına bakmayın, gerçekten yapay zekanın potansiyel yeteneklerinden korkuyorum.

Peki Microsoft'un "makalesi" tam olarak neyden bahsediyor ve GPT-4V hakkında hangi "potansiyel"i gösteriyor?

**Microsoft'un 166 sayfalık raporu ne diyor? **

Bu makale, özü tek bir kelimeye ("dene") dayanan GPT-4V yöntemini inceliyor.

Microsoft araştırmacıları birden fazla alanı kapsayan bir dizi girdi tasarladı, bunları GPT-4V'ye besledi ve GPT-4V'nin çıktısını gözlemleyip kaydetti.

Daha sonra, GPT-4V'nin çeşitli görevleri tamamlama yeteneğini değerlendirdiler ve ayrıca GPT-4V'yi kullanmaya yönelik dört ana husus da dahil olmak üzere yeni komut istemi sözcük teknikleri verdiler:

**1. GPT-4V Kullanımı: **

5 kullanım yolu: giriş görüntüleri (görüntüler), alt görüntüler (alt görüntüler), metinler (metinler), sahne metinleri (sahne metinleri) ve görsel işaretçiler (görsel işaretçiler).

Desteklenen 3 yetenek: talimat takibi, düşünce zinciri ve bağlam içi birkaç adımlı öğrenme.

Örneğin, GPT-4V'nin düşünme zincirine dayalı sorgulama yöntemini değiştirdikten sonra gösterdiği talimat takip etme yeteneği:

**2. GPT-4V'nin 10 ana görevdeki performansı: **

Açık dünya görsel anlayışı, görsel tanımlama, çok modlu bilgi, sağduyu, sahne metnini anlama, belge muhakeme etme, yazma Kodlama, zamansal muhakeme, soyut muhakeme, duygu anlama

Bunların arasında, çözülmesi için biraz IQ gerektiren bu tür "görüntü akıl yürütme soruları" vardır:

**3. GPT-4V'ye benzer büyük çok modlu modeller için hızlı kelime becerileri: **

Girdi görüntüsünü doğrudan düzenleyerek ilgilenilen görevi belirtebilen ve diğer işaret sözcüğü teknikleriyle birlikte kullanılabilen yeni bir çok modlu işaret sözcüğü tekniği "görsel gönderme" önerilmektedir.

**4. Çok modlu büyük modellerin araştırma ve uygulama potansiyeli: **

Çok modlu öğrenme araştırmacılarının odaklanması gereken iki tür alan öngörülmektedir; bunlara uygulama (potansiyel uygulama senaryoları) ve araştırma talimatları dahildir.

Örneğin bu, GPT-4V için araştırmacılar tarafından bulunan olası senaryolardan biridir - hata tespiti:

Ancak ister yeni kelime teknolojisi ister GPT-4V'nin uygulama senaryoları olsun, herkesin en çok endişe duyduğu şey GPT-4V'nin gerçek gücüdür.

Bu nedenle, bu "talimat kılavuzu" daha sonra çeşitli demoları göstermek için 150'den fazla sayfa kullandı ve farklı yanıtlar karşısında GPT-4V'nin yeteneklerini detaylandırdı.

GPT-4V'nin çoklu mod yeteneklerinin günümüzde ne kadar geliştiğine bir göz atalım.

Mesleki alanlardaki görseller konusunda uzmandır ve artık bilgi de öğrenebilir

Resim Tanımlama

Teknoloji, spor ve eğlence çevrelerinde hayatın her kesiminden ünlüler gibi en temel tanımlama elbette çocuk oyuncağıdır:

Ve bu kişilerin kim olduğunu görmekle kalmıyor, ne yaptıklarını da yorumlayabiliyorsunuz.Örneğin aşağıdaki resimde Huang, Nvidia'nın yeni ekran kartı ürünlerini tanıtıyor.

İnsanların yanı sıra görülecek yerler de GPT-4V için çocuk oyuncağı.Sadece isim ve konumu belirlemekle kalmıyor, aynı zamanda detaylı tanıtımlar da yapabiliyor.

Sol: Times Meydanı, New York, sağ: Kinkakuji Tapınağı, Kyoto

Ancak, ne kadar ünlü kişiler ve yerler olursa, yargılamak o kadar kolay olur, dolayısıyla GPT-4V'nin yeteneklerini göstermek için daha zor resimlere ihtiyaç vardır.

Örneğin, tıbbi görüntülemede, aşağıdaki akciğer BT'si için GPT-4V şu sonucu verdi:

Her iki akciğerde birden fazla bölgede konsolidasyonlar ve buzlu cam opasiteleri mevcut olup, akciğerlerde enfeksiyon veya inflamasyon olabilir. Sağ akciğerin üst lobunda da kitle veya nodül bulunabilir.

GPT-4V'ye görüntünün türünü ve konumunu söylemeden bile görüntüyü kendi başına değerlendirebilir.

Bu görüntüde GPT-4V, bunun beynin manyetik rezonans görüntüleme (MRI) görüntüsü olduğunu başarıyla tanımladı.

Aynı zamanda GPT-4V, yüksek dereceli glioma olduğu düşünülen büyük miktarda sıvı birikimi de buldu.

Mesleki değerlendirme sonrasında GPT-4V tarafından verilen sonuç tamamen doğrudur.

Bu "ciddi" içeriklerin yanı sıra çağdaş insan toplumunun "somut olmayan kültürel miras" ifadeleri de GPT-4V tarafından ele geçirilmiştir.

Makine çevirisi, yalnızca referans amaçlıdır

Yalnızca ifadelerdeki memleri yorumlamakla kalmıyor, aynı zamanda gerçek dünyada insan ifadeleriyle ifade edilen duyguları da GPT-4 tarafından görülebiliyor.

Bu gerçek görüntülerin yanı sıra metin tanıma da makine görüşünde önemli bir görevdir.

Bu bakımdan GPT-4V, yalnızca Latin karakterleri ile yazılan dilleri tanımakla kalmıyor, aynı zamanda Çince, Japonca, Yunanca gibi diğer dilleri de tanıyabiliyor.

Elle yazılmış matematiksel formüller bile:

### İmaj Anlamlandırma

Yukarıda gösterilen DEMO, ne kadar profesyonel veya anlaşılması zor olursa olsun, hala tanınma kapsamındadır ancak bu, GPT-4V'nin becerileri buzdağının sadece görünen kısmıdır.

GPT-4V, resimdeki içeriği anlamanın yanı sıra belirli muhakeme yeteneklerine de sahiptir.

Basitçe söylemek gerekirse, GPT-4V iki görüntü arasındaki farkları bulabilir (yine de bazı hatalar olmasına rağmen).

Aşağıdaki resim setinde tepe ile fiyonk arasındaki farklar GPT-4V tarafından keşfedilmiştir.

Zorluğu arttırırsanız GPT-4V, IQ testindeki grafik sorunlarını da çözebilir.

Yukarıdaki üç sorudaki özellikler veya mantıksal ilişkiler nispeten basittir, ancak zorluk bundan sonra ortaya çıkacaktır:

Elbette zorluk grafiklerin kendisinde değil, resimdeki dördüncü metin açıklamasına dikkat edin, orijinal sorudaki grafiklerin düzeni resimde gösterilenle aynı değil.

### Resim açıklaması

GPT-4V, çeşitli soruları metinle yanıtlamanın yanı sıra görüntüler üzerinde bir dizi işlem de gerçekleştirebiliyor.

Örneğin, dört yapay zeka devinin yer aldığı bir grup fotoğrafımız var ve karakterleri çerçevelemek, adlarını ve kısa tanıtımlarını etiketlemek için GPT-4V'ye ihtiyacımız var.

GPT-4V önce bu soruları metinle yanıtladı, ardından işlenmiş görüntüyü verdi:

### Dinamik İçerik Analizi

GPT-4V, bu statik içeriklerin yanı sıra dinamik analiz de gerçekleştirebiliyor ancak modele doğrudan video beslemesi yapmıyor.

Aşağıdaki beş resim suşi yapımına ilişkin bir eğitim videosundan alınmıştır. GPT-4V'nin görevi bu resimlerin görünme sırasını tahmin etmektir (içeriğin anlaşılmasına dayalı olarak).

Aynı resim serisi için bunları anlamanın farklı yolları olabilir, bu nedenle GPT-4V metin yönlendirmelerine göre karar verecektir.

Örneğin aşağıdaki resim grubunda kişinin eyleminin kapıyı açmak mı yoksa kapıyı kapatmak mı olduğu tamamen zıt sıralama sonuçlarına yol açacaktır.

Elbette birden fazla resimdeki karakterlerin durumlarındaki değişikliklerden onların ne yaptıklarını da çıkarabiliyoruz.

Hatta bundan sonra ne olacağını tahmin edin:

### "Yerinde öğrenme"

GPT-4V yalnızca güçlü görsel becerilere sahip olmakla kalmıyor, aynı zamanda önemli olan da anında öğrenilip satılabilmesi.

Örneğin, GPT-4V'den arabanın gösterge tablosunu okuması istenirse başlangıçta alınan yanıt yanlıştır:

Daha sonra yöntemi GPT-4V'ye metin olarak verdim, ancak bu cevap hala yanlış:

Daha sonra örneği GPT-4V'ye gösterdim ve cevap benzerdi ama maalesef sayılar rastgele oluşturuldu.

Yalnızca bir örnek aslında biraz küçüktür, ancak örneklerin sayısı arttıkça (aslında yalnızca bir tane daha vardır), sıkı çalışma sonunda karşılığını verir ve GPT-4V doğru cevabı verir.

GPT-4V ancak bu kadar çok efekt gösteriyor.Tabii ki daha fazla alan ve görevi de destekliyor.Burada bunları tek tek göstermek mümkün değil.Eğer ilgileniyorsanız orijinal raporu okuyabilirsiniz.

Peki GPT-4V gibi bu eserlerin etkilerinin arkasında nasıl bir ekip var?

Tsinghua mezunları lideri

Bu makalenin tamamı Çinli, 6'sı çekirdek yazar olmak üzere toplam 7 yazarı bulunmaktadır.

Projenin baş yazarı Lijuan Wang, Microsoft'ta bulut bilişim ve yapay zeka alanında baş araştırma yöneticisidir.

Huazhong Bilim ve Teknoloji Üniversitesi'nden mezun oldu ve doktorasını Çin'deki Tsinghua Üniversitesi'nden aldı. 2006'da Microsoft Research Asia'ya ve 2016'da Redmond'daki Microsoft Research'e katıldı.

Araştırma alanı, özellikle görsel dil modeli ön eğitimi, görüntü altyazı üretimi, hedef tespiti ve diğer yapay zeka teknolojilerini içeren çok modlu algısal zekaya dayalı derin öğrenme ve makine öğrenimidir.

Orijinal adres:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)