SenseTime'ın büyük model düzeninin önünde duran "Consultation 2.0" evrimi

2023-07-10 08:05:29

Devasa bir yapay zeka yeni altyapı dalgası yaşıyoruz.

Altı ay içinde, büyük ölçekli model, küçük ölçekli bir fikir birliğinden hızla yayıldı. CITIC tarafından yayınlanan rapora göre, bugüne kadar piyasaya sürülen 1 milyardan fazla parametre modeline sahip büyük ölçekli model sayısı 80'e yakın olup, bunların yarısı işletmelerden, yarısı bilimsel araştırma kurumlarından gelmektedir.

Yerli büyük ölçekli model ekolojinin kademeli olarak oluşum sürecinde, OpenAI arayışından da vazgeçmeye ve yavaş yavaş kendi yolunu bulmaya başladı. Büyük modellerin başarısını ölçmek için kullanılan standart da zorlu köprüler ve zorlu atların parametre rekabetinden gerçek problem çözmeye doğru değişti.

SenseTime, "SenseNova" adlı büyük ölçekli model sistemini bu yılın Nisan ayında ilk kez duyurdu ve kendi geliştirdiği Çin büyük ölçekli dil modeli "SenseChat" dahil olmak üzere bir dizi büyük ölçekli AI modeli ve uygulaması yayınladı. Geçenlerde Dünya Yapay Zeka Konferansında SenseTime, "Daily New SenseNova Büyük Model" sisteminin ilk büyük yinelemesini duyurdu. Büyük dil modeli "müzakere", sürüm 2.0'a yükseltildi.

Daha güçlü. Tüm SenseTime büyük ölçekli model yerleştirme sisteminde, rolü giderek daha belirgin hale geliyor.

Daha güçlü "Müzakere 2.0"

"Danışmanlık 2.0"ın yetenek gelişimini görsel olarak nasıl yansıtabilirim? SenseTime'ın başkanı ve CEO'su Xu Li, Lao Tzu ve Konfüçyüs arasında var olmayan bir diyalog sergiledi.

"Danışma 2.0"ın cevabı "Tao" etrafında döner. Konfüçyüs, Lao Tzu'ya sordu.Lao Tzu aydınlanmış olmasına rağmen Konfüçyüs ile konuşamadı, bu yüzden öylece çekip gitti. Bu sahnede gerçekleştirilen diyalog pürüzsüz ve akıcıdır. "Tartışma 2.0" metnine bir şaka bile ekledi:

Konfüçyüs şöyle dedi: "Ustanın adını duydum ve bugün sizinle tanışmak gerçekten büyük bir şans!"

Lao Tzu gülümseyerek dedi ki: "Hayır, ben seninle aynı yolda yürüyorum, 'üç hayat' nasıl oluyor?"

Ve soruya göre, diyalogun tamamı klasik Çince olarak görünüyor. Ve kafa karışıklığını önlemek için "Consultation 2.0", cevabın ilk cümlesinde "bu sadece bir kurgu ve gerçek bir tarih kaydı olarak görülmemelidir" öncülünü de belirtti.

"Danışma 1.0" ilk kez piyasaya sürüldüğünde, yerinde yapılan tanıtım, mükemmel çok yönlü diyaloğu ve insan-makine birlikte yaratma yeteneklerini gösterdi. Üç ay sonra, "Danışma 2.0" bilgi bilgilerinin doğruluğu, mantıksal muhakeme yeteneği, bağlamı anlama yeteneği ve yaratıcılıkta daha fazla iyileştirme yaptı.

Örneğin, seyahat planlaması yapmak için "Danışma 2.0" kullanın ve bir tablo yapmasını söyleyin:

Veya "kız arkadaşlar haklıdır" ile ilgili şeyi test edin:

Sadece kız arkadaşları anlamakla kalmaz, aynı zamanda "Tartışma 2.0" biraz ironi veya yin ve yang tonunu da okuyabilir:

Son üç ayda "Consultation 2.0"a ne oldu, aslında sadece birkaç sınavın sonuçlarına bakın. Dünya çapındaki üç yetkili büyük dil modeli değerlendirme ölçütünün (MMLU, AGI, C-) değerlendirme sonuçlarında, "Consultation 2.0" performansı ChatGPT'yi geçti.

Ek olarak, bazı kişiler Lao Tzu ve Konfüçyüs arasındaki diyaloğun tanıtım fotoğraflarında "Shangshang 2.0"ın XL ve S versiyonlarının bölünmüş ekran gösterimine sahip olduğunu fark etmiş olabilir.Müşterilerin kullanması için farklı parametrelere ve boyutlara sahip birçok büyük model vardır. seçin ve en küçük parametrelere sahip model versiyonu, mobil terminallerde bile çalışabilir.

Dil açısından "Consultation 2.0", Arapça ve Kantonca gibi yeni diller ekledi. Basitleştirilmiş Çince, Geleneksel Çince ve İngilizce ile diğer diller arasındaki etkileşimi destekleyin. "Consultation 2.0"ın süper uzun metin desteği de 2k'den 32k'ya çıkarılarak içeriğin daha iyi anlaşılması sağlandı.

SenseTime gibi ToB odaklı büyük ölçekli model üreticileri için, büyük modelin kendisinin kalitesi yalnızca başlangıç noktasıdır. istikrarlı yinelemeli bir süreç ve buna adım adım yaklaşın Asıl acı verici nokta, kazananın belirleneceği yerdir.

Açık Bilgi Bankası Füzyon Yetenekleri

SenseTime, süper anlayış, diyalog, muhakeme ve diğer yeteneklere sahip bir "Danışma 2.0" eğittikten sonra, kurumsal müşteriler de birikmiş kurumsal bilgilerini, büyük modeli kendi şirketlerine iyi hizmet edebilecek bir "profesyonel yetenek" haline getirmek için kullanabilirler.

Bu mühendislik problemlerinin verimli bir şekilde nasıl çözüleceği çok önemlidir.

SenseTime tarafından başlatılan "Consultation 2.0", bir bilgi tabanı entegrasyon arabirimi ekledi ve kuruluşların temel büyük modelin yinelemeli yükseltmelerini beklemeden hızlı bir şekilde profesyonel bilgi ve yetenekler elde etmelerini sağladı. Bilgi tabanı entegre edildikten sonra, modelin bilgiyi güncelleme ve anlama yeteneği geliştirilebilir ve bilginin hızlı anlaşılması ve edinilmesi güçlendirilebilir.Aynı zamanda, müşteri eğitim modellerinin maliyeti büyük ölçüde azaltılacaktır.

SenseTime'ın kurucu ortağı ve baş bilim adamı Wang Xiaogang, "Bilgi tabanıyla, bu alandaki ilgili bilgiyi modelimizin kendisine girmeden özetlemek nispeten basit ve uygundur" ve bilgi daha doğru olduğu için , halüsinasyon sorununu da çözmüştür.

Üretkenlik Aracı Olarak Dijital İnsan

"Consultation 2.0"ın kapsamlı yükseltmesiyle aynı zamanda, AIGC platformunun "SenseNova Büyük Model" sistemindeki yetenekleri sürekli olarak gelişiyor ve dil büyük model yeteneklerinin entegrasyonundan sonra, birdirbir gelişme sağlandı.

Örneğin, yukarıda bahsedilen Wenshengtu oluşturma platformu "Miaohua" bu sefer 3.0 sürümüne yükseltildi, model parametreleri 7 milyar mertebesine çıkarıldı ve oluşturulan resimlerin detayları profesyonel fotoğrafçılık seviyesine ulaştı. İstemli sözcüklerin baş ağrısına gelince, "Tartışma 2.0", "Miahua 3.0"a istem sözcüklerini otomatik olarak genişletme yeteneği sağlar. Bu, kullanıcıların ayrıntılı bir görüntü sonucu elde etmek için yalnızca birkaç basit istem sözcüğüne ihtiyaç duyduğu anlamına gelir.

Dijital insanlar alanında, SenseTime'ın dijital insan video oluşturma platformu "Ruying" de sürüm 2.0'a yükseltildi. "Ruying 2.0"ın ses ve ağız akıcılığı %30'dan fazla arttı ve 4K video gerçekleştirilebiliyor. . Basın toplantısında ekonomist Ren Zeping, Usta Yancan ve Xu Li'nin dijital insan görüntüleri ortaya çıktı ve etki yeterince gerçekçiydi.

Büyük modelin iniş sahnesinde dijital insan çok önemli bir taşıma yöntemidir.Son zamanlarda çok popüler olan dijital insan canlı yayını tipik bir sahnedir. Kısa videolar da dahil olmak üzere canlı yayın, "Ruying 2.0"ın üç aylık dahili ve herkese açık testi sırasında müşteriler için en odaklanılan sahnelerden biridir.

SenseTime'ın Dijital Eğlence Departmanı genel müdürü Luan Qing, AIGC çerçevesinde "Tartışma 2.0"ın kısa video canlı yayınlar için metin yazarlığı ve senaryo oluşturmayı üstlenebileceğini söyledi. Ve "Ronin 2.0"ın iletişimdeki trende nasıl ayak uydurabileceği, "Consultation 2.0"ın en son kısa video külliyatını öğrenmek için geniş dil modeli yeteneğine de bağlıdır.

Kısa video ve canlı yayın sahnelerinin yanı sıra "Ronin 2.0" hayatın her alanına girişini hızlandırıyor.

Örneğin, sigorta sektöründe, her sigorta uzmanının müşteriler için yeni ürünler veya diğer kişiselleştirilmiş hizmet odaklı içerik çıktılarını tanıtma ihtiyacı vardır. "Ruying 2.0", müşterilerin doğum günlerinde veya belirli servet yönetimi ürünleri piyasaya sürüldüğünde sigorta uzmanlarının yerini alabilir. Kişiselleştirilmiş içerik ve hizmetler; eğitim sektöründe, "Roning 2.0", en iyi yerel mesleki eğitim platformlarındaki öğretmenlere, video üretimi için şirket içi ihtiyaçları karşılayacak eğitim materyalleri üretmelerinde yardımcı olmaya başladı.

Luan Qing, "Dijital İnsan, bir kuruluşta tipik bir verimlilik aracıdır." dedi.

Bir AIGC oluşturma platformu olarak Ronin, gelecekte video oluşturma alanında derinleşmeye devam edecek.Luan Qing, bunun içerik oluşturmanın metinden, resimlerden videolara boyutsal bir değişim geçirmesinden kaynaklandığına inanıyor.

Multimodal'e Doğru

Resimler ve video bilgileri, gerçek dünyada dil bilgisini çok aşan büyük bir orana sahip olduğundan, gerçek dünyayı anlama ihtiyacı, temel büyük ölçekli modelin geleceğini, ilk kez görülen çok modluluğa doğru hareket ettirecektir. "Danışma 2.0" İpucu aracılığıyla.

Metne ek olarak, "Consultation 2.0" resim ve video içeriğini analiz etme yeteneğine sahiptir.

Örneğin, yukarıdaki şekilde gösterildiği gibi, "Danışma 2.0", dağınık bir masa fotoğrafındaki belirli nesneleri tanımlayabilir ve "ateşlendiğinde ne yaparsın?" sorusuna yanıt vermek için her nesnenin özelliklerini birleştirebilir. açık sorular veya bir menü fotoğrafı gördükten sonra, kullanıcıların sınırlı bir fiyat aralığında alakart seçenekler sunmasına yardımcı olun.

AI alanına başlangıçta bilgisayarla görme araştırmalarından giren ve bir AI dalgasını geçen SenseTime, bu büyük model dalgasının gerçek bir fırsat olacağına daha çok inanıyor.

Mevcut büyük ölçekli model araştırması, trafo ağ mimarisine dayanmaktadır. "SenseTime, 2019'dan beri büyük ölçekli model araştırması yapıyor. O zamanlar, vizyon oluşturmanın yolu buydu." SenseTime'ın kurucu ortağı ve baş bilim adamı Wang Xiaogang'a göre, bazı görsel standartlar ve doğal dil standartları kademeli olarak geliştiriliyor. "Multimodal bir yönde geliştiğimizde, dil ve vizyon daha derin bir bütünleşmeye başlar, bu da bu alanda nispeten güçlü bir birikimi ve yeteneği yansıtır."

Otonom sürüş ve robotik gibi bir dizi alanda olduğu gibi gerçek hayatta karşılaştığımız birçok uygulama senaryosu multimodaliteye uygulanmalıdır. Wang Xiaogang, "Ancak, çok modlu verileri ve bazı görevleri elde etmek genellikle kolay değildir ve derin bir endüstri birikimi gerektirir. Bu aynı zamanda SenseTime'ın avantajıdır." diye tanıttı Wang Xiaogang.

SenseTime'ın "Daily New SenseNova Large Model" sistemi, bu yılki Dünya Yapay Zeka Konferansı'nda ilk kez halka sunulmasından üç ay sonra tamamen yükseltildi ve kurumsal kullanıcılara açıldı. Aynı zamanda, birçok kişi Shangtang'ın Şangay Yapay Zeka Laboratuvarı ile birlikte bilim adamlarının çok modlu büyük ölçekli bir modelini yayınladığını fark etmemiştir. Gelecekte, SenseTime'ın çok modlu yolun anahtarını bulmada liderliği alıp alamayacağını dört gözle beklemeye değer.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
GT 2025 Q2 Burn Completed
13k Popularity
Michael Saylor Hints at Buying BTC
10k Popularity
BTC
30453k Popularity
4contentstar
10720k Popularity
5NADA
11186k Popularity
6BOME
11565k Popularity
7BTC
30453k Popularity
8SMILE
9062k Popularity
9比特币
13442k Popularity

sitemap