Büyük dil modelinden sonra, bir sonraki çıkış noktası bilgisayarla görme mi?

Question

*Makale kaynağı: Big Model House**Yazar:Zhao Xiaoman*![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2b333c2d0d-dd1a6f-69ad2a) *Görüntü kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur*Geçen ay Open AI, kullanıcıların GPT-4'e kullanıcı tarafından sağlanan görüntü girdilerinin en son özelliklerini analiz etme talimatı vermesini sağlayan GPT-4V'nin en son sürümünü yayınladı ve haberler, görüntü girdileri gibi diğer modalitelerin büyük dil modellerine (LLM'ler) dahil edilmesinin yapay zeka araştırma ve geliştirmesinde önemli bir sınır olarak görüldüğü ve çok modlu LLM'lerin saf dil sistemlerinin etkisini genişletme imkanı sunduğu konusunda endüstrinin dikkatini çekti.Open AI, geçen yılın sonlarında piyasaya sürülen yapay zeka sohbet robotu ChatGPT'den mevcut GPT-4V'ye kadar, daha güçlü genel zeka elde etmek için Büyük Çok Modlu Modellerde (LMM'ler) Büyük Dil Modellerini (LLM'ler) çoklu duyusal becerilerle (görsel anlama gibi) genişletiyor.GPT-4V'nin piyasaya sürülmesinden kısa bir süre sonra Microsoft, GPT-4V için basit giriş modlarından görsel dil yeteneğine, insanlarla etkileşimli istemlere, video anlamayı zamanlamaya, soyut görsel akıl yürütmeye ve IQ duygusal bölüm testine kadar 166 sayfalık ultra ayrıntılı bir kullanıcı kılavuzu verdi, GPT-4V yalnızca günlük yaşamdaki etkileşimli deneyimi kapsamakla kalmaz, aynı zamanda endüstri, tıp ve diğer alanlarda profesyonel teşhis değerlendirmesini bile gerçekleştirebilir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abca433d25-dd1a6f-69ad2a) **Kaynak: Microsoft (Web çevirisi yalnızca referans amaçlıdır)**Şu anda, GPT-4V'nin rastgele serpiştirilmiş çok modlu girdileri işleme konusundaki benzeri görülmemiş yeteneği ve işlevlerinin çok yönlülüğü, GPT-4V'yi güçlü bir çok modlu genel sistem haline getirmek için bir araya geliyor. Ek olarak, GPT-4V'nin girdi görüntülerine çizilen görsel işaretçileri anlama konusundaki benzersiz yeteneği, görsel referans ipuçları gibi yeni insan-bilgisayar etkileşim yöntemlerine yol açabilir.GPT-4V'nin ön keşfinin, yeni nesil çok modlu görev formülleri** hakkında gelecekteki araştırmaları teşvik edebileceğini, gerçek dünya sorunlarını çözmek için yeni LMM yöntemlerini kullanabileceğini ve geliştirebileceğini ve çok modlu temel modelleri daha iyi anlayabileceğini ve ayrıca bilgisayarla görmenin gelişim yönünün yeni bir keşfi haline gelebileceğini onaylamakta fayda var.  ## **Büyük Model, Bilgisayarla Görmenin Yeni Gelişimini Güçlendiriyor**  Belki de çok modlu yetenekler söz konusu olduğunda, birçok insan yabancı değildir ve Çin'de piyasaya sürüldüklerinde zaten çok modlu yeteneklere sahip olan ve görüntü tanıma ve üretme gerçekleştirebilen birçok büyük model vardır, ancak LLM (büyük dil modeli) ile karşılaştırıldığında, LMM'nin (büyük çok modlu model) geliştirilmesinin hala çözülmesi gereken birçok boşluk olduğu kabul edilmelidir. **Daha önce, Big Model Home, AI çerçevesi MindSpore "Zidong Taichu" sürüm 2.0 büyük model platformunu ve iFLYTEK Spark'ı örnek olarak alarak, analiz, akıl yürütme ve ifade yeteneklerinde geliştirilmesi gereken çok modlu yeteneklere sahip bir dizi büyük model deneyimledi.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-158366da31-dd1a6f-69ad2a) **Resimde: Zidong Taichu**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cd3185c149-dd1a6f-69ad2a) **Resimde: iFLYTEK Spark****Bu yılın Nisan ayında Meta'nın her şeyi bölmek için SAM (Segment Anything Model) ** modelini önerdiğini belirtmekte fayda var, SAM, 11 milyon görüntü üzerinde 1 milyardan fazla maskeyi eğiten ve güçlü sıfır örneklem genellemesi sağlayan hızlı bir modeldir, bazı endüstri uzmanları, SAM'ın segmentasyonun sınırlarını aştığını ve bilgisayarla görme temel modellerinin geliştirilmesini büyük ölçüde desteklediğini söyledi.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3364ba847d-dd1a6f-69ad2a) Kaynak: Meta**SAM'ın kendisi, görüntülerin anlamsal bir bölümlemesidir ve model, eğitimde görmemiş olsa bile, herhangi bir görüntü veya videodaki herhangi bir nesne için maskeler oluşturabilen "nesneler" kavramını kavrar.SAM modellerinin ve GPT-4V'nin ortaya çıkışı, tıpkı Open AI'nın GPT-4V neslinin** konuşlandırılması için hazırlandığı gibi, model oluşturma arifesinde görme engelli kullanıcılar için araçlar geliştiren bir kuruluş olan Be My Eyes da dahil olmak üzere büyük dil modellerini "gözlere" yükleyebilir, büyük modelin konuşan bir "kör" olduğu hayal edilebilir, ancak vizyon ekledikten sonra, çok modlu yeteneklere sahip büyük modeller figürleri, videoları vb. anlayabilir. Bu işlevin gücü, yapay zekanın gelişimini de yeni bir yöne itiyor.  ## **Büyük modellerin dalgası altında, yerli bilgisayar görüşünün yolu**  Görüntü girişi, tanıma ve çıkarım analizi işlevlerini kullandıktan sonra, büyük model çok alanlı çiçeklenme elde edebilir ve "bilgisayarla görme GPT"sine doğru ilerleyebilir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-681f3dc975-dd1a6f-69ad2a) **Kaynak: Huawei**Endüstriyel tarafta, üretim sürecinde ürün kalitesini sağlamak için kusur tespiti ve diğer önemli adımlara görsel büyük modeller uygulayarak, hataları veya kusurları zamanında tespit edebilmek ve operasyonel ve kaliteyle ilgili maliyetleri en aza indirmek için uygun önlemleri alabilmek esastır. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d46ec6fa14-dd1a6f-69ad2a) **Kaynak: SenseTime**Tıbbi görüntüleme teşhisi açısından, bilişsel büyük modellerin profesyonel alan bilgisi ile birleştiğinde, görsel yetenekler ekledikten sonra, yalnızca çeşitli tıbbi görüntülerde analiz yapmakla kalmaz, aynı zamanda radyoloji raporu oluşturma için bir AI asistanı olma potansiyeline sahip eksiksiz radyoloji raporlarını hızlı bir şekilde oluşturabilir, şu anda SenseTime, rehberlik, konsültasyon, sağlık danışmanlığı ve karar verme gibi çok senaryolu çok yönlü konuşma sağlama becerisine sahip, tıbbi bilgi ve klinik verilere dayalı bir Çince tıbbi dil modeli "Büyük Doktor" geliştirdi.Otomatik sürüş açısından, sürüş sırasında bilişsel büyük model tarafından elde edilen görüntü bilgileri, dinamik sürüş hedefleri vb., ilgili sürüş kararlarını ve sürüş açıklamalarını vermek için birleştirilebilir ve ardından büyük model bunu otomatik sürüş diline dönüştürebilir ve akıllı sürüş elde etmek için Drive aracılığıyla otomatik sürüş sistemi ile etkileşime girebilir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-df9ed5ee74-dd1a6f-69ad2a) **Kaynak: Baidu****Baidu'yu örnek alırsak, yeni düzenlenen 2023 Baidu Dünya Konferansı'nda akıllı sürüş açısından, otonom sürüş teknolojisi yığını Transformer ve BEV gibi yeni teknolojilerle tamamen yeniden yapılandırıldı ve nesiller boyunca algılama yeteneği geliştirilerek saf görüş çözümlerinin olgunlaşması ve popülerleşmesi hızlandırıldı. ** Şu anda, Baidu Apollo'nun saf vizyon üst düzey akıllı sürüş çözümü, yüksek hızlı, şehir, park ve diğer küresel senaryolara uygulanabilir ve bu yılın dördüncü çeyreğinde seri üretime geçecek ve bu aynı zamanda Çin'de ilk saf görüş çözümü kentsel sahnelere inecek. Lidarın kaldırılmasının tüm aracın maliyetini düşürdüğünü ve pazar rekabet gücünü artırdığını belirtmekte fayda var.**Big Model House, büyük dil modellerinin genel bilgisinin kutsamasıyla, bilgisayarla görmenin daha net bir gelişme yönüne** girdiğine inanıyor, pratik uygulamalar için tekrarlayan belleğe dayanan erken bilgisayar görüşünden (yüz tanıma, nesne tanıma gibi), görme ve dilin entegrasyonunu keşfetmek, bağımsız geliştirmeden karşılıklı entegrasyona kadar büyük modellerin ve bilgisayar görüşünün yeni bir yönü haline geldi, yapay zeka da sürekli olarak insanlara daha yakın duyusal yetenekleri keşfediyor, görüntülerdeki ayrıntıları ve özellikleri daha iyi yakalayabiliyor ve büyük modellerin doğruluğu iyileştirildi. Daha fazla sahneye ve veri dağıtımına uyum sağlayabilir, büyük modeli yazma ve anlama yeteneğine güvenebilir, görsel yetenekleri entegre edebilir ve daha akıllı bir avatar haline gelebilir.Tabii ki, bilim ve teknolojinin gelişimi birçok faktörle sınırlı olmalıdır. Büyük modeller, ölçeklenebilirliklerini ve gerçek zamanlılıklarını sınırlayabilecek daha fazla bilgi işlem kaynağı ve eğitim için zaman gerektirir, büyük eğitim verileri bilgi işlem gücü, özellikle yüksek performanslı GPU'lar, yüksek hızlı bellek ve depolama ve dağıtılmış eğitim teknolojisi ile sınırlandırılmalıdır, ** ve mevcut küresel yüksek performanslı GPU pazarı NVIDIA payın yaklaşık %90'ını kaplıyor, Çin bu AI rekabetinde üst sıralarda yer almak istiyor, Çin akıllı bilgi işlem gücünün yüksek kaliteli gelişimini teşvik etmek en önemli öncelik haline geldi. ****Genel olarak, büyük modellerin görsel yetenekleri entegre ettikten sonra birçok avantajı vardır, ancak bu aşamada bazı geliştirme sınırlamaları da vardır. **Derin öğrenme ve bilgi işlem kaynaklarının sürekli gelişmesiyle birlikte, yüksek çözünürlüklü görüntü görevlerinde bilgisayar görüşünün uygulanmasını ve atılımını daha da teşvik etmek için daha gelişmiş büyük modellerin ve ilgili teknolojilerin ortaya çıkmasını bekleyebiliriz.