ChatGPT'nin çok modlu yetenekleri bir çılgınlığa yol açtı, ancak kendi makalesi GPT-4V'nin hâlâ kusurları olduğunu ortaya çıkardı

Kyle Wiggers'ın yazdığı

Kaynak: TechCrunch

Resim kaynağı: Sınırsız AI aracı tarafından oluşturulmuştur

OpenAI, amiral gemisi olan metin oluşturma yapay zeka modeli GPT-4'ü ilk piyasaya sürdüğünde, şirket modelin çok modluluğunu, başka bir deyişle, yalnızca metni değil görüntüleri de anlama yeteneğini öne çıkardı. OpenAI, GPT-4'ün, kendisine takılı bir iPhone görüntüsünden bir Yıldırım Kablosu adaptörünü tanımlamak gibi nispeten karmaşık görüntülere başlık yazabildiğini ve hatta açıklayabildiğini söylüyor.

Ancak GPT-4'ün Mart ayı sonunda piyasaya sürülmesinden bu yana OpenAI, bildirildiğine göre kötüye kullanım ve gizlilik sorunları nedeniyle modelin görüntüleme yeteneklerini korudu. Yakın zamana kadar bu endişelerin kesin doğası bir sır olarak kaldı. Bu haftanın başlarında OpenAI, GPT-4 görüntü analiz aracının sorunlu yönlerini azaltmaya yönelik çalışmalarını detaylandıran bir teknik makale yayınladı.

Bugüne kadar, görüş özellikli GPT-4 (OpenAI'de dahili olarak "GPT-4V" olarak anılır), görme engelli ve kör kişilerin çevrelerinde gezinmesine yardımcı olan bir uygulama olan Be My Eyes'ın yalnızca binlerce kullanıcısı tarafından düzenli olarak kullanılmaktadır. Ancak gazeteye göre OpenAI, son birkaç ay içinde modeli beklenmedik davranış belirtileri açısından araştırmak için "kırmızı takım üyeleriyle" çalışmaya başladı.

Makalede OpenAI, GPT-4V'nin kötü niyetli olarak kullanılmasını önlemek için CAPTCHA'ları kırmak, bir kişiyi tanımlamak veya yaşını veya ırkını tahmin etmek ve fotoğrafta bulunmayan bilgilere dayanarak sonuçlar çıkarmak gibi önlemlere sahip olduğunu iddia ediyor. . OpenAI ayrıca GPT-4V'deki daha zararlı önyargıları, özellikle de kişinin görünümü, cinsiyeti veya ırkıyla ilgili olanları bastırmaya çalıştığını da söyledi.

Ancak tüm yapay zeka modellerinde olduğu gibi güvenlik önlemleri de ancak bu kadar ileri gidebilir.

Makale, GPT-4V'nin bazen doğru çıkarımlar yapmakta zorlandığını, örneğin hayali bir terim oluşturmak için bir görüntüdeki iki metin dizisini yanlış bir şekilde birleştirerek zorlandığını gösteriyor. Temel GPT-4 gibi, GPT-4V de halüsinasyona veya otoriter bir tonda gerçekler uydurmaya eğilimlidir. Ayrıca kelimeleri veya karakterleri kaçırır, matematiksel sembolleri göz ardı eder ve oldukça belirgin nesneleri ve yer düzenlerini tanımada başarısız olur.

Dolayısıyla OpenAI'nin GPT-4V'nin görüntülerdeki tehlikeli maddeleri veya kimyasalları tespit etmek için kullanılamayacağını açıkça belirtmesi şaşırtıcı değil. (Bu muhabir böyle bir kullanım senaryosunu bile düşünmedi, ancak görünen o ki OpenAI, şirketin bunu belirtmeyi gerekli gördüğü ihtimaliyle yeterince ilgileniyor). Kırmızı ekip üyeleri, modelin bazen zehirli mantarlar gibi zehirli yiyecekleri doğru bir şekilde tanımladığını ancak aynı zamanda kimyasal yapı görüntülerinde fentanil, karfentanil ve kokain gibi maddeleri de yanlış tanımladığını buldu.

GPT-4V ayrıca tıbbi görüntülemeye uygulandığında da kötü performans gösterdi; bazen daha önceki durumlarda doğru yanıt verdiği aynı soruya yanlış yanıtlar verdi. Ayrıca GPT-4V, görüntüleme taramalarını hasta size dönükken görüntülemek (yani görüntünün sağ tarafı hastanın sol tarafına karşılık gelir) gibi bazı standart uygulamalardan habersizdir ve bu da yanlış teşhise yol açabilir.

OpenAI, başka yerlerde, GPT-4V'nin belirli nefret sembollerinin nüanslarını da anlamadığı konusunda uyarıyor; örneğin, Amerika Birleşik Devletleri'ndeki Temple Cross'un (beyaz üstünlüğünü temsil eden) modern anlamını bilmiyor. Daha da tuhafı ve belki de halüsinasyon eğilimlerinin bir belirtisi olan GPT-4V'nin, belirli nefret dolu figürleri veya grupları, temsil edilmese bile resimleri verildiğinde öven şarkılar veya şiirler yazdığı gözlemlendi.

GPT-4V aynı zamanda belirli cinsiyetlere ve vücut tiplerine karşı da ayrımcılık yapıyor; ancak bunu yalnızca OpenAI'nin verim korumaları devre dışı bırakıldığında yapıyor. OpenAI, bir testte, mayo giyen bir kadına tavsiye vermesi istendiğinde, GPT-4V'nin neredeyse tamamen kadının kilosu ve fiziksel durumuyla ilgili kavramlarla ilgili yanıtlar verdiğini yazıyor. Resimdeki kişinin erkek olması durumunda durumun böyle olmayacağından şüpheleniyoruz.

Makalenin uyarılarına bakılırsa, GPT-4V hala devam eden bir çalışmadır ve OpenAI'nin orijinal vizyonundan hâlâ birkaç adım uzaktadır. Çoğu durumda şirket, modellerin toksik veya yanlış bilgi yaymasını veya kişisel mahremiyetten ödün vermesini önlemek için aşırı katı önlemler uygulamak zorunda kaldı.

OpenAI, GPT-4V'nin yüzleri ve insanları isimlendirmeden tanımlamasına izin vermek gibi, modelin yeteneklerini "güvenli" bir şekilde genişletmek için "hafifletmeler" ve "süreçler" oluşturduğunu iddia ediyor. Ancak bu makale, GPT-4V'nin her şeye kadir olmadığını ve OpenAI'nin hâlâ yapacak çok işi olduğunu gösteriyor.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)