Wayve tarafından başlatılan LINGO-1, otonom sürüşe keyif katıyor! Bu arabanın nasıl kullanılacağını kendi kendine açıklıyor, geniş bir dil modeli, artık bir kara kutu değil.
Buluşundan bu yana otonom sürüşle ilgili en endişe verici şey, insanın aklından neler geçtiğini bilememesidir.
Bugünden itibaren gerçekten düşüncelerini "dile getirebilecek" mi?
Wayve yakın zamanda, büyük dil modellerini ve otonom sürüşü derinden bütünleştiren, görsel dil eylemi büyük modellerine (VLAM'ler) dayanan büyük bir otonom sürüş etkileşim modeli olan LINGO-1'i piyasaya sürdü.
Özellikle, LINGO-1 oldukça kişiselleştirilmiş olduğu söylenebilecek bir video dili modeli eğitmiştir; önünde olup biten sahne hakkında yorum yapabilir!
-Ne yapıyorsun? -Trafikte dikkatli geçiyorum çünkü yol koşulları şu anda karmaşık.
-Bundan sonra ne yapacaksınız? -Sola döneceğim.
-Eldeki senaryodaki potansiyel riskler nelerdir? - trafik ışıkları, bisikletçiler, karşıdan karşıya geçen yayalar
Akıllı sürüş sistemi hakkındaki tüm şüphelerinizi size net bir şekilde anlatacaktır.
S: Neden durdu? Cevap: Çünkü artık kırmızı ışıktır.
LINGO-1, çeşitli görsel ve dil verileri üzerinde eğitildikten sonra yalnızca algı, karşı olgular, planlama, akıl yürütme ve dikkat gibi görsel soru yanıtlama (VQA) görevlerini yerine getirmekle kalmaz, aynı zamanda sürüş davranışını ve akıl yürütmeyi de tanımlar.
Yani sürüş kararlarını etkileyen faktörleri LINGO-1'e sorular sorarak anlayabiliriz.
Netizenler şöyle yakındı: "Uçtan uca kara kutu bu şekilde açıldı. Bu, GPT döneminde tek kelimeyle bir mucize. Otonom sürüş sistemi, gerçek fiziksel dünyayla etkileşim kurma konusunda ileriye doğru büyük bir adım attı."
Somutlaştırılmış yapay zekanın sınırlarını zorladığımızda, vizyon-konuşma-eylem modelinin büyük bir etkiye sahip olacağı düşünülebilir, çünkü dil, kendi kendine sürüş modellerini yorumlama ve eğitme şeklimizi geliştirmek için yeni bir paradigma sağlar.
**Sürücüsüz arabaya iltifat mı geldi? **
LINGO-1'in benzersiz özelliği, modelin çevresel algı, eylem kararı verme ve insan benzeri sahne yorumlaması arasında bağlantı kurmasına olanak tanıyan, sürüş sahnelerinin sözlü yorum verileri üzerinde eğitim verecek bir insan uzmanının tanıtılmasıdır.
Bu sayede otonom sürüş sisteminin kararlarını ve eylemlerini doğal dil etkileşimi yoluyla yorumlayabiliyor.
NVIDIA'nın kıdemli yapay zeka bilimcisi Jim Fan heyecanla şunları söyledi: Bu, otonom sürüş alanında son zamanlarda okuduğum en ilginç çalışma!
Geçmişte, otomatik sürüş "algı -> sürüş işlemi" idi ancak gelecekte otomatik sürüş, "algı -> sözel akıl yürütme -> eylem" olan akıl yürütme adımını da ekledi.
Bu yeni açık akıl yürütme adımının avantajları nelerdir? Jim Fan şöyle açıklıyor——
Yorumlanabilirlik: Sürüş modeli artık gizemli bir kara kutu değil.
Karşıolgusal senaryolar: Eğitim verilerinde yer almayan senaryoları hayal edebilir ve bunların nasıl doğru şekilde ele alınabileceğine dair sebepleri ortaya koyabilir.
Uzun kuyruklu programlama: Sürüşte çok sayıda uç senaryo vardır ve tüm senaryolar için iyi veri kapsamı sağlamak imkansızdır. Uzmanlar, bir vakayı "nöroprogramlamak" için binlerce örnek toplamak yerine, az sayıda örneği açıklamak için istemler () yazabilir ve böylece belirli veya karmaşık senaryoların nasıl ele alınacağı konusunda sisteme rehberlik edebilir.
Sadece bu da değil, LINGO-1 aynı zamanda her ikisi de yapay zeka ajanı olan MineDojo ve Düşünce Klonlama gibi oyun yapay zekası alanındaki bazı araştırmalarla da yakından ilişkilidir.
İlki, inceleme metnini Minecraft video pikselleriyle ilişkilendiren bir ödül modelini öğrenebilir. İkincisi, "piksel-> dil-> eylem döngüsü" bağlantılarının tamamını gerçekleştirebilir.
LINGO-1——Açık Döngülü Anlatıcı
Kendi açıklamam
Model neye dikkat ediyor? ne yapıyorsun? Artık bu bir sır değil.
LINGO-1 size yolun her adımında ne yaptığını net bir şekilde açıklayacaktır.
Örneğin yol kenarına park etmiş bir aracı sollamak isterse -
LINGO-1: Yavaş trafikten dolayı sollama yapıyorum.
LINGO-1: Park etmiş bir arabanın yanından geçiyorum.
LINGO-1: Hızlanıyorum çünkü önümdeki yol açık.
Bir yaya geçidine yaklaşırken ——
LINGO-1: Hızımı koruyorum, yol hâlâ açık. LINGO-1: Şimdi fren yapıp yavaşlıyoruz. LINGO-1: Yaya geçidinde durun. LINGO-1: Durduğum yerden hızlanıyorum. LINGO-1: Hız yapıyorum çünkü yol açık.
Bir kavşaktan sola dönerken——
LINGO-1: Öndeki araba da durduğu için hareketsiz kaldım. LINGO-1: Öndeki araba uzaklaştığı için hızlanıyorum. LINGO-1: Kavşakta durmak için frene basıyorum. LINGO-1: Yol açık olduğu için ilerliyorum. LINGO-1: Sola dönüşü tamamlayın ve rotayı takip edin.
### Görsel Soru Yanıtlaması (VQA)
LINGO-1 kendini açıklamanın yanı sıra sorularınızı da yanıtlayarak sahneyi anlama ve akıl yürütme yeteneklerini değerlendirmemize olanak tanır.
Mesela LINGO-1'e sorarsanız bu kavşakta nelere dikkat etmelisiniz?
"Ömümdeki ışığa, önümdeki bisikletliye, karşıdan karşıya geçen yayaya dikkat etmeliyim" diyor.
LINGO-1'e sorun, şu anda hava nasıl? Sürüşe nasıl bir etkisi olacak?
Şöyle diyecek: "Yağmurlu bir gün ve araç kullanırken son derece dikkatli olmam gerekiyor çünkü yol yüzeyi kaygan ve yağmurlu günlerde görüş mesafesi düşüyor."
LINGO-1, bisikletle yan yana güvenli bir şekilde nasıl bisiklet sürersiniz?
Şöyle diyecek: "Bisikletlilere mesafe koymam ve gerektiğinde durmam gerekiyor. Bu potansiyel bir tehlike. Ayrıca yol kenarına park eden araçlara da dikkat etmem gerekiyor."
### Anahtar: Yorum veri kümesini yönlendirme
LINGO-1'i geliştirmenin anahtarı ölçeklenebilir ve çeşitli bir veri seti oluşturmaktı. Bu veri seti, görseller, dil ve eylem verileri de dahil olmak üzere Birleşik Krallık'ta araç kullanırken profesyonel sürücülerin yorumlarını içerir.
Bu bize sürücü kursundaki hocalardan araba sürmeyi öğrenirken ara sıra aşağıdaki gibi yorum ve açıklamalar yaparak araç kullanırken neden bu şekilde davrandıklarını açıklayarak öğrencilerin çıkarımlar yapmalarını sağlayan sahneyi hatırlatıyor. .
Öndeki araç/trafik ışığı değişti, lütfen yavaşlayın - Şerit değiştirme zamanı geldi - Hızlanabilirsiniz, azami hız sınırını aşmamaya dikkat edin - Dikkat! Diğer araçlar yola girdi/kavşakta durdu - Döner kavşaklara dikkat edin ve ileride yol işaretleri verin - İleride park etmiş araçlar/trafik ışıkları/okullar var - Sonraki araçlar şerit değiştiriyor/park etmiş araçları solluyor - Bisikletçiler/yayalar yolda bekliyor yaya geçidi
Yukarıdaki cümleler, duyusal görüntüler ve altta yatan sürüş eylemleri zaman içinde senkronize edildiğinde, araştırmacılar çeşitli görevlere yönelik modelleri eğitmek için kullanılabilecek zengin bir görsel-dil-eylem veri seti elde edecekler.
Görsel Dil-Eylem Modeli (VLAM)
Yüksek Lisans'ın yükselişinden sonra, birçok görsel dil modeli (VLM), Yüksek Lisans'ın muhakeme yeteneklerini görüntüler ve videolarla birleştirir.
Wayve ayrıca üç tür bilgi (görüntü, sürüş verileri ve dil) içeren Vizyon-Dil-Eylem Modelini (VLAM) başlattı.
Geçmişte robot eğitimlerinde (özellikle otonom sürüş alanında) doğal dil nadiren kullanılıyordu.
Doğal dil de eklenirse temel sürüş modellerini daha güçlü yorumlayıp eğitmemize olanak tanıyacak, bu yeni modelin etkisi çok büyük olacak.
Sürüş senaryolarındaki çeşitli nedensel faktörleri açıklamak için dil kullanılarak modelin eğitim hızı hızlandırılabilir ve yeni senaryolara genişletilebilir.
Ve modele sorular sorabildiğimiz için, modelin ne anladığını, ne kadar iyi akıl yürütebildiğini ve karar verebildiğini bilebiliriz.
Otonom sürüş sistemi artık gizemli bir kara kutu değil, araç kullanırken zaman zaman şunu sorabiliriz: Ne düşünüyorsun?
Bu durum şüphesiz halkın otonom sürüşe olan güvenini artıracaktır.
Ayrıca, az sayıda eğitim örneği olmasına rağmen, doğal dilin hızlı öğrenme yeteneği, modelin yeni görevleri hızlı ve verimli bir şekilde öğrenmesine ve yeni senaryolara uyum sağlamasına olanak tanır.
Örneğin modele "bu davranış yanlıştır" demek için doğal dili kullandığımız sürece otonom sürüş sisteminin yanlış davranışını düzeltebiliriz.
Artık uçtan uca otonom sürüşe yönelik temel bir model oluşturmak için belki de yalnızca doğal dile ihtiyaç var!
Doğruluk %60
Bu süre zarfında ekip, model mimarisini ve eğitim veri kümesini geliştiriyor.
LINGO-1'in performansının başlangıca göre iki katına çıktığını grafikten görmek zor değil.
Şu anda LINGO-1'in doğruluğu insan seviyesinin %60'ına ulaştı.
Açıkçası, doğal dilin kullanıma sunulması otonom sürüş teknolojisinde birçok açıdan devrim yaratabilir.
Uçtan uca modellerin yorumlanabilirliğini geliştirin
Makine öğrenimi modellerinin yorumlanabilirliğinin olmayışı her zaman araştırmaların odak noktası olmuştur.
Doğal dili temel alan etkileşimli bir arayüz oluşturarak kullanıcılar doğrudan soru sorabilir ve yapay zekanın bu soruları yanıtlamasına izin verebilir, böylece modelin sahneyi nasıl anladığı ve nasıl karar verdiğine dair derinlemesine bir anlayış elde edebilir.
Yolcular ve sürücüsüz araçlar arasındaki bu benzersiz diyalog, şeffaflığı artırabilir ve bu sistemlerin anlaşılmasını ve bunlara güvenilmesini kolaylaştırabilir.
Aynı zamanda doğal dil, modelin insan geri bildirimlerine uyum sağlama ve onlardan öğrenme yeteneğini de geliştirir.
Bir eğitmenin direksiyon başında öğrenciye rehberlik etmesi gibi, düzeltici talimatlar ve kullanıcı geri bildirimleri, modelin anlayışını ve karar verme sürecini zaman içinde geliştirir.
Daha iyi planlama ve akıl yürütme, gelişmiş sürüş performansı
Otonom sürüş performansını etkileyen iki ana faktör vardır:
Dil modellerinin çeşitli giriş modu senaryolarını doğru şekilde yorumlama yeteneği
Modelin orta düzey akıl yürütmeyi etkili alt düzey planlamaya dönüştürme becerisi
Bu bağlamda ekip, LINGO'nun doğal dil, muhakeme ve planlama yetenekleri aracılığıyla kapalı döngü sürüş modelini geliştirmeye çalışıyor.
Wayve LINGO-1 kapalı döngü otonom sürüş modeli
Yeni senaryoların veya uzun vadeli senaryoların verimli şekilde öğrenilmesi
Genellikle bir resim bin kelimeye bedeldir.
Ancak bir modeli eğitirken, bir parça metin bin resme bedeldir.
Artık yayalar için yavaşlayan binlerce araba örneğine sahip olmak yerine, modele yavaşlamayı öğretmek ve bu durumda nasıl davranması gerektiğini öğrenmek için kısa bir metin açıklamasıyla birlikte yalnızca birkaç örneğe ihtiyacımız var.
Biliyorsunuz otonom sürüşün en önemli kısımlarından biri nedensel akıl yürütmedir, bu da sistemin olay yerindeki unsurlar ve davranışlar arasındaki ilişkiyi anlamasını sağlar.
İyi performans gösteren bir VLAM, sistemin yaya geçitlerinde bekleyen yayaları "Geçmeyin" trafik sinyalleriyle bağlamasına olanak tanır. Bu, sınırlı veriye sahip zorlu senaryolarda son derece anlamlıdır.
Buna ek olarak, LLM halihazırda İnternet veri setlerinden insan davranışları hakkında büyük miktarda bilgiye sahiptir; dolayısıyla nesneleri tanımlama, trafik düzenlemeleri ve ağaçlar, mağazalar, evler, topları kovalayan köpekler ve araba sürme işlemleri gibi kavramları anlayabilir. Okulların önüne park edilen otobüsler fark yaratıyor.
VLAM'in grafik verilerinin daha geniş bilgi kodlaması sayesinde otonom sürüş daha gelişmiş ve daha güvenli hale gelecek.
Sınırlamalar
Elbette LINGO-1'in de bazı sınırlamaları var.
Genelleme
LINGO-1, Londra'nın merkezinde sürüş deneyimi ve İnternet ölçeğinde metin üzerine eğitim almıştır.
Dünyanın her yerindeki sürüş kültürlerini öğrenmiş olmama rağmen şu anda en iyi olduğum şey İngiliz trafik yasalarını yorumlamaktır.
Aynı zamanda diğer ülkelerdeki sürüş deneyimlerinden de ders almayı gerektirir.
Halüsinasyon
Halüsinasyonlar büyük dil modellerinde iyi bilinen bir sorundur ve LINGO-1 de bir istisna değildir.
Ancak sıradan LLM ile karşılaştırıldığında LINGO-1'in bir avantajı vardır: vizyon, dil ve eyleme dayalı olduğu için daha fazla denetim kaynağına sahiptir ve dünyayı daha iyi anlayabilir.
Bağlam
Video verilerinin genellikle resim veya metin veri kümelerinden çok daha büyük olması nedeniyle video derin öğrenmesi zordur.
Video tabanlı çok modlu dil modelleri, karmaşık dinamik sürüş senaryoları hakkında akıl yürütmek amacıyla birçok video karesini yerleştirebilmek için özellikle uzun bağlam uzunlukları gerektirir.
Kapalı döngü muhakemesi
Wayve şu anda modelin yorumlanabilirliği üzerinde çalışıyor ancak sonuçta LLM'nin muhakeme yetenekleri insan sürüşünü gerçekten etkileyebilecek.
Araştırmacılar gelecekte LINGO-1'i otonom araçlarda çalıştırabilecek kapalı döngü bir mimari geliştiriyorlar.
Netizen Tartışması
Netizenler de bunu çok heyecan verici buldu.
"İlginç bir şekilde, dil modelinin sürüşün kendisini etkilemek yerine sürüş kontrol modelinin direksiyon, frenleme ve gaz kelebeği tahminlerini kelimelerle yorumladığını düşünüyorum çünkü doğal dil gerekli hassasiyeti kaybedecektir."
"Bu yaklaşımla AGI'ye çok yaklaşıyoruz."
"Bunu dünya modeline dil eklemek olarak düşünebilirsiniz. Neden daha önce hiç denenmediğini anlamıyorum, çünkü bir aracıyı iletişim kurması için eğitme fikri herkesin düşünebileceği bir şey gibi görünüyor."
"Saf algısal eylemden metinsel akıl yürütmeye geçiş, oyunun kurallarını değiştiriyor! Bana göre bu, otonom sürüşün eksik parçası çünkü yorumlanabilirliği teknik olmayan bir şekilde mümkün kılıyor."
Şu anda robot eğitimi ve doğal dilin entegrasyonu henüz başlangıç aşamasındadır.
LINGO-1, temel sürüş modellerinin öğrenilmesini ve yorumlanabilirliğini geliştirmek için doğal dilin kullanılması konusunda resmi olarak önemli bir adım attı.
Gelecekte, yapay zekanın önümüzdeki yol koşullarını söylemesini istemek için yalnızca basit metin komutlarını kullanmamız gerektiğini veya yapay zekanın farklı bölgelerin trafik düzenlemelerini öğrenmesine izin vereceğimizi hayal edin.Bu sahne çok heyecan verici!
Bu nedenle doğal dil, daha güvenli ve daha güvenilir otonom araçların geliştirilmesinde büyük bir potansiyele sahiptir.
Referanslar:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Büyük model aslında otonom sürüşle donatılmış ve yapay zeka, nasıl sürüldüğünü açıklayacak!
Kaynak: Xinzhiyuan
Buluşundan bu yana otonom sürüşle ilgili en endişe verici şey, insanın aklından neler geçtiğini bilememesidir.
Bugünden itibaren gerçekten düşüncelerini "dile getirebilecek" mi?
Wayve yakın zamanda, büyük dil modellerini ve otonom sürüşü derinden bütünleştiren, görsel dil eylemi büyük modellerine (VLAM'ler) dayanan büyük bir otonom sürüş etkileşim modeli olan LINGO-1'i piyasaya sürdü.
Akıllı sürüş sistemi hakkındaki tüm şüphelerinizi size net bir şekilde anlatacaktır.
LINGO-1, çeşitli görsel ve dil verileri üzerinde eğitildikten sonra yalnızca algı, karşı olgular, planlama, akıl yürütme ve dikkat gibi görsel soru yanıtlama (VQA) görevlerini yerine getirmekle kalmaz, aynı zamanda sürüş davranışını ve akıl yürütmeyi de tanımlar.
Yani sürüş kararlarını etkileyen faktörleri LINGO-1'e sorular sorarak anlayabiliriz.
Somutlaştırılmış yapay zekanın sınırlarını zorladığımızda, vizyon-konuşma-eylem modelinin büyük bir etkiye sahip olacağı düşünülebilir, çünkü dil, kendi kendine sürüş modellerini yorumlama ve eğitme şeklimizi geliştirmek için yeni bir paradigma sağlar.
**Sürücüsüz arabaya iltifat mı geldi? **
LINGO-1'in benzersiz özelliği, modelin çevresel algı, eylem kararı verme ve insan benzeri sahne yorumlaması arasında bağlantı kurmasına olanak tanıyan, sürüş sahnelerinin sözlü yorum verileri üzerinde eğitim verecek bir insan uzmanının tanıtılmasıdır.
NVIDIA'nın kıdemli yapay zeka bilimcisi Jim Fan heyecanla şunları söyledi: Bu, otonom sürüş alanında son zamanlarda okuduğum en ilginç çalışma!
Bu yeni açık akıl yürütme adımının avantajları nelerdir? Jim Fan şöyle açıklıyor——
Sadece bu da değil, LINGO-1 aynı zamanda her ikisi de yapay zeka ajanı olan MineDojo ve Düşünce Klonlama gibi oyun yapay zekası alanındaki bazı araştırmalarla da yakından ilişkilidir.
İlki, inceleme metnini Minecraft video pikselleriyle ilişkilendiren bir ödül modelini öğrenebilir. İkincisi, "piksel-> dil-> eylem döngüsü" bağlantılarının tamamını gerçekleştirebilir.
LINGO-1——Açık Döngülü Anlatıcı
Kendi açıklamam
Model neye dikkat ediyor? ne yapıyorsun? Artık bu bir sır değil.
LINGO-1 size yolun her adımında ne yaptığını net bir şekilde açıklayacaktır.
LINGO-1 kendini açıklamanın yanı sıra sorularınızı da yanıtlayarak sahneyi anlama ve akıl yürütme yeteneklerini değerlendirmemize olanak tanır.
"Ömümdeki ışığa, önümdeki bisikletliye, karşıdan karşıya geçen yayaya dikkat etmeliyim" diyor.
Şöyle diyecek: "Yağmurlu bir gün ve araç kullanırken son derece dikkatli olmam gerekiyor çünkü yol yüzeyi kaygan ve yağmurlu günlerde görüş mesafesi düşüyor."
Şöyle diyecek: "Bisikletlilere mesafe koymam ve gerektiğinde durmam gerekiyor. Bu potansiyel bir tehlike. Ayrıca yol kenarına park eden araçlara da dikkat etmem gerekiyor."
LINGO-1'i geliştirmenin anahtarı ölçeklenebilir ve çeşitli bir veri seti oluşturmaktı. Bu veri seti, görseller, dil ve eylem verileri de dahil olmak üzere Birleşik Krallık'ta araç kullanırken profesyonel sürücülerin yorumlarını içerir.
Bu bize sürücü kursundaki hocalardan araba sürmeyi öğrenirken ara sıra aşağıdaki gibi yorum ve açıklamalar yaparak araç kullanırken neden bu şekilde davrandıklarını açıklayarak öğrencilerin çıkarımlar yapmalarını sağlayan sahneyi hatırlatıyor. .
Yukarıdaki cümleler, duyusal görüntüler ve altta yatan sürüş eylemleri zaman içinde senkronize edildiğinde, araştırmacılar çeşitli görevlere yönelik modelleri eğitmek için kullanılabilecek zengin bir görsel-dil-eylem veri seti elde edecekler.
Görsel Dil-Eylem Modeli (VLAM)
Yüksek Lisans'ın yükselişinden sonra, birçok görsel dil modeli (VLM), Yüksek Lisans'ın muhakeme yeteneklerini görüntüler ve videolarla birleştirir.
Wayve ayrıca üç tür bilgi (görüntü, sürüş verileri ve dil) içeren Vizyon-Dil-Eylem Modelini (VLAM) başlattı.
Geçmişte robot eğitimlerinde (özellikle otonom sürüş alanında) doğal dil nadiren kullanılıyordu.
Doğal dil de eklenirse temel sürüş modellerini daha güçlü yorumlayıp eğitmemize olanak tanıyacak, bu yeni modelin etkisi çok büyük olacak.
Sürüş senaryolarındaki çeşitli nedensel faktörleri açıklamak için dil kullanılarak modelin eğitim hızı hızlandırılabilir ve yeni senaryolara genişletilebilir.
Ve modele sorular sorabildiğimiz için, modelin ne anladığını, ne kadar iyi akıl yürütebildiğini ve karar verebildiğini bilebiliriz.
Otonom sürüş sistemi artık gizemli bir kara kutu değil, araç kullanırken zaman zaman şunu sorabiliriz: Ne düşünüyorsun?
Bu durum şüphesiz halkın otonom sürüşe olan güvenini artıracaktır.
Ayrıca, az sayıda eğitim örneği olmasına rağmen, doğal dilin hızlı öğrenme yeteneği, modelin yeni görevleri hızlı ve verimli bir şekilde öğrenmesine ve yeni senaryolara uyum sağlamasına olanak tanır.
Örneğin modele "bu davranış yanlıştır" demek için doğal dili kullandığımız sürece otonom sürüş sisteminin yanlış davranışını düzeltebiliriz.
Artık uçtan uca otonom sürüşe yönelik temel bir model oluşturmak için belki de yalnızca doğal dile ihtiyaç var!
Doğruluk %60
Bu süre zarfında ekip, model mimarisini ve eğitim veri kümesini geliştiriyor.
LINGO-1'in performansının başlangıca göre iki katına çıktığını grafikten görmek zor değil.
Şu anda LINGO-1'in doğruluğu insan seviyesinin %60'ına ulaştı.
Uçtan uca modellerin yorumlanabilirliğini geliştirin
Makine öğrenimi modellerinin yorumlanabilirliğinin olmayışı her zaman araştırmaların odak noktası olmuştur.
Doğal dili temel alan etkileşimli bir arayüz oluşturarak kullanıcılar doğrudan soru sorabilir ve yapay zekanın bu soruları yanıtlamasına izin verebilir, böylece modelin sahneyi nasıl anladığı ve nasıl karar verdiğine dair derinlemesine bir anlayış elde edebilir.
Yolcular ve sürücüsüz araçlar arasındaki bu benzersiz diyalog, şeffaflığı artırabilir ve bu sistemlerin anlaşılmasını ve bunlara güvenilmesini kolaylaştırabilir.
Aynı zamanda doğal dil, modelin insan geri bildirimlerine uyum sağlama ve onlardan öğrenme yeteneğini de geliştirir.
Bir eğitmenin direksiyon başında öğrenciye rehberlik etmesi gibi, düzeltici talimatlar ve kullanıcı geri bildirimleri, modelin anlayışını ve karar verme sürecini zaman içinde geliştirir.
Daha iyi planlama ve akıl yürütme, gelişmiş sürüş performansı
Otonom sürüş performansını etkileyen iki ana faktör vardır:
Dil modellerinin çeşitli giriş modu senaryolarını doğru şekilde yorumlama yeteneği
Modelin orta düzey akıl yürütmeyi etkili alt düzey planlamaya dönüştürme becerisi
Bu bağlamda ekip, LINGO'nun doğal dil, muhakeme ve planlama yetenekleri aracılığıyla kapalı döngü sürüş modelini geliştirmeye çalışıyor.
Yeni senaryoların veya uzun vadeli senaryoların verimli şekilde öğrenilmesi
Genellikle bir resim bin kelimeye bedeldir.
Ancak bir modeli eğitirken, bir parça metin bin resme bedeldir.
Artık yayalar için yavaşlayan binlerce araba örneğine sahip olmak yerine, modele yavaşlamayı öğretmek ve bu durumda nasıl davranması gerektiğini öğrenmek için kısa bir metin açıklamasıyla birlikte yalnızca birkaç örneğe ihtiyacımız var.
Biliyorsunuz otonom sürüşün en önemli kısımlarından biri nedensel akıl yürütmedir, bu da sistemin olay yerindeki unsurlar ve davranışlar arasındaki ilişkiyi anlamasını sağlar.
İyi performans gösteren bir VLAM, sistemin yaya geçitlerinde bekleyen yayaları "Geçmeyin" trafik sinyalleriyle bağlamasına olanak tanır. Bu, sınırlı veriye sahip zorlu senaryolarda son derece anlamlıdır.
Buna ek olarak, LLM halihazırda İnternet veri setlerinden insan davranışları hakkında büyük miktarda bilgiye sahiptir; dolayısıyla nesneleri tanımlama, trafik düzenlemeleri ve ağaçlar, mağazalar, evler, topları kovalayan köpekler ve araba sürme işlemleri gibi kavramları anlayabilir. Okulların önüne park edilen otobüsler fark yaratıyor.
VLAM'in grafik verilerinin daha geniş bilgi kodlaması sayesinde otonom sürüş daha gelişmiş ve daha güvenli hale gelecek.
Sınırlamalar
Elbette LINGO-1'in de bazı sınırlamaları var.
Genelleme
LINGO-1, Londra'nın merkezinde sürüş deneyimi ve İnternet ölçeğinde metin üzerine eğitim almıştır.
Dünyanın her yerindeki sürüş kültürlerini öğrenmiş olmama rağmen şu anda en iyi olduğum şey İngiliz trafik yasalarını yorumlamaktır.
Aynı zamanda diğer ülkelerdeki sürüş deneyimlerinden de ders almayı gerektirir.
Halüsinasyon
Halüsinasyonlar büyük dil modellerinde iyi bilinen bir sorundur ve LINGO-1 de bir istisna değildir.
Ancak sıradan LLM ile karşılaştırıldığında LINGO-1'in bir avantajı vardır: vizyon, dil ve eyleme dayalı olduğu için daha fazla denetim kaynağına sahiptir ve dünyayı daha iyi anlayabilir.
Bağlam
Video verilerinin genellikle resim veya metin veri kümelerinden çok daha büyük olması nedeniyle video derin öğrenmesi zordur.
Video tabanlı çok modlu dil modelleri, karmaşık dinamik sürüş senaryoları hakkında akıl yürütmek amacıyla birçok video karesini yerleştirebilmek için özellikle uzun bağlam uzunlukları gerektirir.
Kapalı döngü muhakemesi
Wayve şu anda modelin yorumlanabilirliği üzerinde çalışıyor ancak sonuçta LLM'nin muhakeme yetenekleri insan sürüşünü gerçekten etkileyebilecek.
Araştırmacılar gelecekte LINGO-1'i otonom araçlarda çalıştırabilecek kapalı döngü bir mimari geliştiriyorlar.
Netizen Tartışması
Netizenler de bunu çok heyecan verici buldu.
"İlginç bir şekilde, dil modelinin sürüşün kendisini etkilemek yerine sürüş kontrol modelinin direksiyon, frenleme ve gaz kelebeği tahminlerini kelimelerle yorumladığını düşünüyorum çünkü doğal dil gerekli hassasiyeti kaybedecektir."
"Bunu dünya modeline dil eklemek olarak düşünebilirsiniz. Neden daha önce hiç denenmediğini anlamıyorum, çünkü bir aracıyı iletişim kurması için eğitme fikri herkesin düşünebileceği bir şey gibi görünüyor."
LINGO-1, temel sürüş modellerinin öğrenilmesini ve yorumlanabilirliğini geliştirmek için doğal dilin kullanılması konusunda resmi olarak önemli bir adım attı.
Gelecekte, yapay zekanın önümüzdeki yol koşullarını söylemesini istemek için yalnızca basit metin komutlarını kullanmamız gerektiğini veya yapay zekanın farklı bölgelerin trafik düzenlemelerini öğrenmesine izin vereceğimizi hayal edin.Bu sahne çok heyecan verici!
Bu nedenle doğal dil, daha güvenli ve daha güvenilir otonom araçların geliştirilmesinde büyük bir potansiyele sahiptir.
Referanslar: