GPT-3'ün doğuşundan bu yana, üretken yapay zeka, şaşırtıcı performansı ve geniş uygulama senaryoları ile yapay zeka alanında patlayıcı bir dönüm noktası başlattı ve teknoloji devleri gruplar halinde yapay zeka yoluna atlamaya başladı. Bununla birlikte, büyük dil modeli (LLM) eğitiminin ve çıkarımının çalışması çok fazla bilgi işlem gücü gerektirir ve modelin yinelemeli olarak yükseltilmesiyle bilgi işlem gücü talebi ve maliyeti katlanarak artar. GPT-2 ve GPT-3'ü örnek alırsak, GPT-2 ve GPT-3 arasındaki parametre sayısı farkı 1.166 kattır (GPT-2 için 150 milyon parametre ve GPT-3 için 175 milyar parametre) ve GPT-3'ün maliyeti, GPT-2'nin 200 katı olan o zamanki genel GPU bulutunun fiyat modeline göre 12 milyon dolara kadar ulaşabilir. Fiili kullanım sürecinde, kullanıcının her sorusunun çıkarılması ve hesaplanması gerekiyor, bu yılın başındaki 13 milyon tekil kullanıcının durumuna göre, karşılık gelen çip talebi 30.000 adetten fazla A100GPU. İlk maliyet daha sonra şaşırtıcı bir şekilde 800 milyon dolar olacak ve model çıkarımı için günde tahmini 700.000 dolar olacak.
Yetersiz bilgi işlem gücü ve yüksek maliyetler tüm AI endüstrisi için bir sorun haline geldi, ancak aynı sorun blok zinciri endüstrisini de rahatsız ediyor gibi görünüyor. Bir yandan, Bitcoin'in dördüncü yarılanması ve ETF'lerin geçişi geliyor ve gelecekte fiyat yükseldikçe, madencilerin bilgi işlem donanımına olan talebi kaçınılmaz olarak önemli ölçüde artacak. Öte yandan, "Sıfır Bilgi Kanıtı" (ZKP) teknolojisi patlama yaşıyor ve Vitalik, ZK'nın önümüzdeki on yılda blok zinciri alanı üzerindeki etkisinin blok zincirinin kendisi kadar önemli olacağını defalarca vurguladı. Bu teknolojinin geleceği blok zinciri endüstrisi tarafından merakla beklense de, ZK, karmaşık hesaplama süreci nedeniyle AI gibi kanıtlar oluşturma sürecinde çok fazla bilgi işlem gücü ve zaman tüketir.
Öngörülebilir gelecekte, bilgi işlem gücü sıkıntısı kaçınılmaz hale gelecek, bu nedenle merkezi olmayan bilgi işlem gücü pazarı iyi bir iş olacak mı?
Merkezi Olmayan Hesaplama Piyasasının Tanımı
Merkezi olmayan bilgi işlem gücü piyasası aslında temelde merkezi olmayan bulut bilişim yoluna eşdeğerdir, ancak merkezi olmayan bulut bilişim ile karşılaştırıldığında, kişisel olarak bu terimin daha sonra bahsedilen yeni projeleri tanımlamak için daha uygun olacağını düşünüyorum. Merkezi olmayan bilgi işlem gücü piyasası, DePIN'in (merkezi olmayan fiziksel altyapı ağı) bir alt kümesine ait olmalıdır ve amacı, token teşvikleri yoluyla açık bir bilgi işlem gücü pazarı oluşturmaktır, böylece atıl bilgi işlem kaynaklarına sahip herkes, esas olarak B-son kullanıcı ve geliştirici topluluğuna hizmet eden bu pazarda kaynaklarını sağlayabilir. Merkezi olmayan GPU'lara dayalı bir işleme çözümleri ağı olan Render Network ve bulut bilişim için dağıtılmış bir eşler arası pazar yeri olan Akash Network gibi iyi bilinen projeler bu yola aittir.
Aşağıdakiler, temel kavramla başlayacak ve daha sonra yolun altındaki üç gelişmekte olan pazarı tartışacaktır: AGI bilgi işlem gücü pazarı, Bitcoin bilgi işlem gücü pazarı ve ZK donanım hızlandırma pazarındaki AGI bilgi işlem gücü pazarı ve son ikisi "Potansiyel Yol Önizlemesi: Merkezi Olmayan Bilgi İşlem Güç Piyasası (Bölüm II)" bölümünde tartışılacaktır.
Hashrate'e genel bakış
Bilgi işlem gücü kavramının kökeni, bilgisayarların icadına kadar uzanabilir, orijinal bilgisayar, bilgi işlem görevlerini tamamlamak için mekanik bir cihazdı ve bilgi işlem gücü, mekanik bir cihazın bilgi işlem gücünü ifade eder. Bilgisayar teknolojisinin gelişmesiyle birlikte, bilgi işlem gücü kavramı da gelişmiştir ve artık bilgi işlem gücü genellikle bilgisayar donanımının (CPU, GPU, FPGA, vb.) ve yazılımın (işletim sistemi, derleyici, uygulama vb.) birlikte çalışabilme yeteneğini ifade eder.
Tanım
Bilgi işlem gücü, bir bilgisayarın veya başka bir bilgi işlem aygıtının işleyebileceği veri miktarını veya belirli bir süre içinde tamamlanabilecek bilgi işlem görevlerinin sayısını ifade eder. Hashrate genellikle bir bilgisayarın veya başka bir bilgi işlem cihazının performansını tanımlamak için kullanılır ve bir bilgi işlem cihazının işlem gücünün önemli bir ölçüsüdür.
Metrikler
Bilgi işlem gücü, bilgi işlem hızı, bilgi işlem enerji tüketimi, bilgi işlem doğruluğu ve paralellik gibi çeşitli şekillerde ölçülebilir. Bilgisayar alanında, yaygın olarak kullanılan bilgi işlem gücü ölçümleri arasında FLOPS (saniye başına kayan nokta işlemleri), IPS (saniye başına talimat), TPS (saniye başına işlem) vb. bulunur.
FLOPS (Saniye Başına Kayan Nokta İşlemleri), bir bilgisayarın kayan nokta işlemlerini (kesinlik ve yuvarlama hataları gibi konuları dikkate alarak ondalık noktalı sayılar üzerinde matematiksel işlemler) işleme yeteneğini ifade eder ve bir bilgisayarın saniyede kaç kayan nokta işlemi tamamlayabileceğini ölçer. FLOPS, bir bilgisayarın yüksek performanslı bilgi işlem gücünün bir ölçüsüdür ve diğerlerinin yanı sıra süper bilgisayarların, yüksek performanslı bilgi işlem sunucularının ve grafik işleme birimlerinin (GPU'lar) bilgi işlem gücünü ölçmek için yaygın olarak kullanılır. Örneğin, bir bilgisayar sisteminin FLOPS'u 1 TFLOPS'a (saniyede 1 trilyon kayan nokta işlemi) sahiptir, bu da saniyede 1 trilyon kayan nokta işlemini tamamlayabileceği anlamına gelir.
IPS (Saniye Başına Talimat), bir bilgisayarın talimatları işleme hızını ifade eder ve bir bilgisayarın saniyede kaç talimat yürütebildiğini ölçer. IPS, bir bilgisayarın tek komutlu performansının bir ölçüsüdür ve genellikle bir merkezi işlem biriminin (CPU) vb. performansını ölçmek için kullanılır. Örneğin, IPS'si 3 GHz olan (saniyede 300 milyon talimat yürütebilen) bir CPU, saniyede 300 milyon talimat yürütebileceği anlamına gelir.
TPS (Saniye Başına İşlem Sayısı), bir bilgisayarın işlemleri işleme yeteneğini ifade eder ve bir bilgisayarın saniyede kaç işlem tamamlayabileceğini ölçer. Genellikle bir veritabanı sunucusunun performansını ölçmek için kullanılır. Örneğin, TPS'si 1000 olan bir veritabanı sunucusu, saniyede 1000 veritabanı işlemi gerçekleştirebileceği anlamına gelir.
Ayrıca, belirli uygulama senaryoları için çıkarım hızı, görüntü işleme hızı ve konuşma tanıma doğruluğu gibi bazı bilgi işlem gücü göstergeleri vardır.
Hashrate türü
GPU bilgi işlem gücü, bir grafik işlem biriminin bilgi işlem gücünü ifade eder. CPU'dan (Merkezi İşlem Birimi) farklı olarak GPU, görüntüler ve videolar gibi grafik verilerini işlemek için özel olarak tasarlanmış bir donanım parçasıdır ve aynı anda çok sayıda kayan nokta işlemi gerçekleştirebilen çok sayıda işlem birimine ve verimli paralel bilgi işlem gücüne sahiptir. GPU'lar başlangıçta oyun grafiklerinin işlenmesi için kullanıldığından, karmaşık grafik işlemlerini desteklemek için genellikle CPU'lardan daha yüksek saat frekanslarına ve daha fazla bellek bant genişliğine sahiptirler.
CPU ve GPU Arasındaki Fark
Mimari: CPU'ların ve GPU'ların bilgi işlem mimarisi farklıdır. CPU'lar tipik olarak, her biri çeşitli farklı işlemleri gerçekleştirebilen genel amaçlı bir işlemci olan bir veya daha fazla çekirdeğe sahiptir. GPU'lar ise görüntü işleme ile ilgili işlemleri gerçekleştirmeye adanmış çok sayıda Akış İşlemcisine ve Gölgelendiriciye sahiptir.
Paralel bilgi işlem: GPU'lar genellikle daha yüksek paralel bilgi işlem özelliklerine sahiptir. CPU'lar sınırlı sayıda çekirdeğe sahiptir ve çekirdek başına yalnızca bir talimat yürütebilir, ancak GPU'lar aynı anda birden fazla talimat ve işlem yürütebilen binlerce akış işlemcisine sahip olabilir. Sonuç olarak, GPU'lar genellikle çok fazla paralel bilgi işlem gerektiren makine öğrenimi ve derin öğrenme gibi paralel bilgi işlem görevlerini gerçekleştirmek için CPU'lardan daha uygundur.
Programlama: GPU programlama, CPU'lardan daha karmaşıktır ve GPU'ların paralel bilgi işlem gücünden yararlanmak için belirli programlama dillerinin (CUDA veya OpenCL gibi) kullanılmasını ve belirli programlama tekniklerinin kullanılmasını gerektirir. Buna karşılık, CPU'ların programlanması daha kolaydır ve yaygın programlama dillerini ve programlama araçlarını kullanabilir.
Bilgi işlem gücünün önemi
Sanayi Devrimi çağında petrol, her sektöre nüfuz eden dünyanın kanıydı. Bilgi işlem gücü blok zincirinde ve yaklaşan AI çağında, bilgi işlem gücü dünyanın "dijital yağı" olacak. Büyük şirketlerin yapay zeka çipleri için çılgınca acele etmesinden ve Nvidia stoklarının bir trilyonu aştığı gerçeğinden, Çin'deki üst düzey çiplerin ABD tarafından yakın zamanda ablukaya alınmasına, bilgi işlem gücünün boyutuna, çip alanına ve hatta GPU bulutunu yasaklama planına kadar, önemi aşikardır ve bilgi işlem gücü önümüzdeki çağda bir meta olacaktır.
Yapay Zeka (AI), insan zekasını simüle etmek, genişletmek ve genişletmek için teoriler, yöntemler, teknolojiler ve uygulama sistemlerini inceleyen ve geliştiren yeni bir teknik bilimdir. 20. yüzyılın ellili ve altmışlı yıllarında ortaya çıktı ve yarım yüzyıldan fazla bir evrimden sonra, üç sembolizm, bağlantıcılık ve aktör dalgasının iç içe geçmiş gelişimini yaşadı. Üretken yapay zekanın daha spesifik bir tanımı, çeşitli farklı görev ve alanlarda insanlara benzer veya onlardan daha üstün zeka gerçekleştirebilen geniş bir anlayışa sahip bir yapay zeka sistemi olan Yapay Genel Zekadır (AGI). AGI'nin temel olarak üç unsurdan oluşması gerekir: derin öğrenme (DL), büyük veri ve büyük ölçekli bilgi işlem gücü.
Derin öğrenme
Derin öğrenme, makine öğreniminin (ML) bir alt alanıdır ve derin öğrenme algoritmaları, insan beyninden sonra modellenen sinir ağlarıdır. Örneğin, insan beyni, bilgiyi öğrenmek ve işlemek için birlikte çalışan birbirine bağlı milyonlarca nöron içerir. Benzer şekilde, derin öğrenme sinir ağları (veya yapay sinir ağları), bir bilgisayarın içinde birlikte çalışan birden çok yapay nöron katmanından oluşur. Yapay nöronlar, verileri işlemek için matematiksel hesaplamalar kullanan düğüm adı verilen yazılım modülleridir. Yapay sinir ağları, karmaşık sorunları çözmek için bu düğümleri kullanan derin öğrenme algoritmalarıdır.
Sinir ağları giriş katmanlarına, gizli katmanlara ve çıktı katmanlarına ayrılabilir ve parametreler farklı katmanlar arasında bağlanır.
Giriş Katmanı: Giriş katmanı, sinir ağının ilk katmanıdır ve harici girdi verilerini almaktan sorumludur. Giriş katmanının her nöronu, girdi verilerinin bir özelliğine karşılık gelir. Örneğin, görüntü verilerini işlerken, her nöron görüntünün bir piksel değerine karşılık gelebilir;
Gizli Katmanlar: Giriş katmanı, verileri işler ve sinir ağındaki daha uzak katmanlara iletir. Bu gizli katmanlar, bilgiyi farklı düzeylerde işler ve yeni bilgiler alındıkça davranışlarını ayarlar. Derin öğrenme ağları, sorunları birçok farklı açıdan analiz etmek için kullanılabilecek yüzlerce gizli katmana sahiptir. Örneğin, size sınıflandırılması gereken bilinmeyen bir hayvanın görüntüsü verilirse, bunu zaten bildiğiniz bir hayvanla karşılaştırabilirsiniz. Örneğin, kulakların şekli, bacak sayısı ve göz bebeklerinin büyüklüğü ne tür bir hayvan olduğunu belirleyebilir. Derin sinir ağlarındaki gizli katmanlar da aynı şekilde çalışır. Bir derin öğrenme algoritması bir hayvan görüntüsünü sınıflandırmaya çalışırsa, gizli katmanlarının her biri hayvanın farklı özelliklerini işler ve onu doğru bir şekilde sınıflandırmaya çalışır;
Çıktı Katmanı: Çıktı katmanı, sinir ağının son katmanıdır ve ağın çıktısını oluşturmaktan sorumludur. Çıktı katmanındaki her nöron, olası bir çıktı sınıfını veya değerini temsil eder. Örneğin, bir sınıflandırma probleminde, her bir çıktı katmanı nöronu bir kategoriye karşılık gelebilirken, bir regresyon probleminde, çıktı katmanı, değeri tahmin edilen sonucu temsil eden yalnızca bir nörona sahip olabilir;
Parametreler: Bir sinir ağında, farklı katmanlar arasındaki bağlantılar, ağın kalıpları doğru bir şekilde tanımlamasını ve verilerde tahminlerde bulunmasını sağlamak için eğitim sırasında optimize edilen Ağırlıklar ve Önyargılar parametreleriyle temsil edilir. Parametrelerdeki artış, bir sinir ağının model kapasitesini, yani modelin verilerdeki karmaşık kalıpları öğrenme ve temsil etme yeteneğini artırabilir. Bununla birlikte, parametrelerdeki artış, bilgi işlem gücüne olan talebi artıracaktır.
Büyük Veri
Etkili bir şekilde eğitmek için, sinir ağları genellikle çeşitli, yüksek kaliteli ve çoklu kaynaklara sahip büyük miktarda veriye ihtiyaç duyar. Makine öğrenimi modellerinin eğitimi ve doğrulanması için temel oluşturur. Makine öğrenimi modelleri, büyük verileri analiz ederek, tahminler veya sınıflandırmalar yapmak için verilerdeki kalıpları ve ilişkileri öğrenebilir.
Muazzam bilgi işlem gücü
Sinir ağının çok katmanlı karmaşık yapısı, çok sayıda parametre, büyük veri işleme ihtiyacı, yinelemeli eğitim yöntemi (eğitim aşamasında, modelin tekrar tekrar yinelenmesi gerekir ve her katmanın ileri yayılımı ve geri yayılımı, aktivasyon fonksiyonunun hesaplanması, kayıp fonksiyonunun hesaplanması, gradyanın hesaplanması ve ağırlığın güncellenmesi dahil olmak üzere eğitim süreci sırasında hesaplanmalıdır), yüksek hassasiyetli hesaplama ihtiyacı, paralel hesaplama yeteneği, optimizasyon ve düzenleme teknolojisi ve model değerlendirme ve doğrulama süreci, bunların tümü yüksek bilgi işlem gücü talebine yol açar. AGI'nin büyük ölçekli bilgi işlem gücü gereksinimleri her yıl yaklaşık 10 kat artmaktadır. Şimdiye kadar, en son model GPT-4 1.8 trilyon parametre, 60 milyon ABD dolarından fazla tek bir eğitim maliyeti içeriyor ve gereken bilgi işlem gücü 2.15e25 FLOPS'tur (21.500 trilyon kayan nokta hesaplaması). Bir sonraki model eğitimi için bilgi işlem gücüne olan talep hala artıyor ve yeni modeller de artıyor.
AI Bilişim Ekonomisi
Gelecekteki pazar büyüklüğü
En güvenilir tahminlere göre, IDC (International Data Corporation) ve Inspur Information ve Tsinghua Üniversitesi Küresel Endüstri Araştırma Enstitüsü tarafından ortaklaşa derlenen "2022-2023 Küresel Bilgi İşlem Gücü Endeksi Değerlendirme Raporu", Küresel yapay zeka bilgi işlem pazar büyüklüğü 2022'de 19,50 milyar dolardan 2026'da 34,66 milyar dolara çıkacak ve üretken yapay zeka bilgi işlem pazar büyüklüğü 2022'de 820 milyon dolardan 2026'da 10,99 milyar dolara çıkacak. Üretken yapay zeka bilgi işlem, genel yapay zeka bilgi işlem pazarının %4,2'sinden %31,7'sine çıkacak.
AI GPU'ların üretimi NVILA tarafından tekelleştirildi ve son derece pahalılar (en son H100 çip başına 40.000 dolara satıldı) ve GPU'lar piyasaya sürülür sürülmez Silikon Vadisi devleri tarafından yakalandı ve bu cihazlardan bazıları kendi yeni modellerini eğitmek için kullanılıyor. Diğer kısım, sunucular, GPU'lar ve TPU'lar gibi çok sayıda bilgi işlem kaynağına hakim olan Google, Amazon ve Microsoft'un bulut bilişim platformları gibi bulut platformları aracılığıyla yapay zeka geliştiricilerine kiralanır. Bilgi işlem gücü, devler tarafından tekelleştirilen yeni bir kaynak haline geldi ve yapay zeka ile ilgili çok sayıda geliştirici, işaretleme olmadan özel bir GPU bile satın alamıyor ve en son ekipmanı kullanmak için geliştiricilerin AWS veya Microsoft bulut sunucuları kiralaması gerekiyor. Mali rapora göre, AWS'nin bulut hizmetleri %61 brüt kar marjına sahipken, Microsoft %72 gibi daha yüksek bir brüt kar marjına sahipken, bu işletme son derece yüksek karlara sahip.
Peki bu merkezi otoriteyi ve kontrolü kabul etmek ve bilgi işlem kaynakları için kar ücretinin %72'sini ödemek zorunda mıyız? Web2'yi tekeline alan devler bir sonraki dönemde tekel olacak mı?
Merkezi olmayan AGI bilgi işlem gücü sorunu
Antitröst söz konusu olduğunda, ademi merkeziyetçilik genellikle en uygun çözümdür ve mevcut projelerden, DePIN'deki depolama projeleri ve RDNR gibi boşta GPU'lar aracılığıyla yapay zekanın ihtiyaç duyduğu büyük ölçekli bilgi işlem gücünü elde etmek için protokolü kullanabilir miyiz? Cevap hayır, ejderhaları öldürmeye giden yol o kadar basit değil, ilk projeler AGI bilgi işlem gücü için özel olarak tasarlanmamıştır, uygulanabilir değildir ve bilgi işlem gücünün zincirde en az aşağıdaki beş zorlukla karşılaşması gerekir:
İşin doğrulanması: Gerçekten güvene dayalı olmayan bir bilgi işlem ağı oluşturmak ve katılımcılara finansal teşvikler sağlamak için ağın, derin öğrenme hesaplama işinin gerçekten gerçekleştirildiğini doğrulamanın bir yolu olmalıdır. Bu sorunun temelinde, derin öğrenme modellerinin devlet bağımlılığı var; Derin öğrenme modelinde, her katmanın girdisi önceki katmanın çıktısına bağlıdır. Bu, modelinizdeki tüm katmanları dikkate almadan yalnızca bir katmanı doğrulayamayacağınız anlamına gelir. Her katmanın hesaplamaları, kendisinden önceki tüm katmanların sonuçlarını temel alır. Bu nedenle, belirli bir noktada (örneğin belirli bir katmanda) yapılan işi doğrulamak için, modelin başlangıcından o belirli noktaya kadar tüm çalışmaların yapılması gerekir;
Pazar: Gelişmekte olan bir pazar olarak, AI bilgi işlem gücü pazarı, soğuk başlatma sorunları gibi arz ve talep ikilemlerine tabidir ve pazarın başarılı bir şekilde büyüyebilmesi için arz ve talep likiditesinin en baştan kabaca eşleştirilmesi gerekir. Potansiyel hash gücü arzını yakalamak için, katılımcılara hash kaynakları karşılığında açık ödüller sunulmalıdır. Pazarın, yapılan hesaplama işini takip etmek ve ilgili ücretleri sağlayıcılara zamanında ödemek için bir mekanizmaya ihtiyacı vardır. Geleneksel pazarlarda aracılar, minimum ödemeleri belirleyerek operasyonel maliyetleri düşürürken yönetim ve işe alım gibi görevleri yerine getirir. Ancak, bu yaklaşım pazarı ölçeklendirirken daha maliyetlidir. Arzın yalnızca küçük bir kısmı ekonomik olarak etkin bir şekilde ele geçirilebilir, bu da piyasanın yalnızca sınırlı bir arzı yakalayıp sürdürebildiği ve daha fazla büyüyemeyeceği bir eşik denge durumuna yol açar;
Kesinti Problemi: Kesinti problemi, hesaplama teorisinde, belirli bir hesaplama görevinin sonlu bir sürede tamamlanıp tamamlanmayacağının veya asla durmayacağının değerlendirilmesini içeren temel bir problemdir. Bu problem çözülemez, yani tüm hesaplama görevlerinin sınırlı bir süre içinde durup durmayacağını tahmin edebilecek evrensel bir algoritma yoktur. Örneğin, Ethereum'da akıllı sözleşme yürütme benzer bir kesinti süresiyle karşı karşıyadır. yani, bir akıllı sözleşmenin yürütülmesi için ne kadar bilgi işlem kaynağına ihtiyaç duyulacağını veya makul bir sürede tamamlanıp tamamlanmayacağını önceden belirlemek imkansızdır;
(Derin öğrenme bağlamında, modeller ve çerçeveler statik grafik yapımından dinamik yapı ve yürütmeye geçeceği için bu sorun daha karmaşık olacaktır.) )
Gizlilik: Gizlilik bilincinin tasarımı ve geliştirilmesi proje ekibi için bir zorunluluktur. Herkese açık veri kümeleri üzerinde büyük miktarda makine öğrenimi araştırması gerçekleştirilebilse de, modellerin performansını artırmak ve bunları belirli uygulamalara uyarlamak için genellikle özel kullanıcı verileri üzerinde modellerin ince ayarı yapılması gerekir. Bu ince ayar süreci, kişisel verilerin işlenmesini içerebilir ve bu nedenle Gizlilik Kalkanı'nın gerekliliklerini dikkate alması gerekir;
Paralelleştirme: Bu, mevcut projelerin fizibilitesinde önemli bir faktördür, derin öğrenme modelleri genellikle tescilli mimarilere ve son derece düşük gecikme süresine sahip büyük donanım kümelerinde paralel olarak eğitilirken, dağıtılmış bilgi işlem ağlarındaki GPU'lar gecikmeyi sağlamak için sık veri alışverişi gerektirir ve en düşük performanslı GPU'larla sınırlıdır. Güvenilmez ve güvenilmez bilgi işlem güç kaynakları söz konusu olduğunda, heterojen paralelleştirmenin nasıl yapılacağı çözülmesi gereken bir sorundur ve mevcut uygulanabilir yöntem, artık yüksek paralelleştirme özelliklerine sahip olan Anahtar Transformatörleri gibi transformatör modelleri aracılığıyla paralelleştirme elde etmektir.
Çözüm: Merkezi olmayan AGI bilgi işlem gücü pazarındaki mevcut girişim hala erken aşamada olsa da, merkezi olmayan ağın fikir birliği tasarımını ve merkezi olmayan bilgi işlem ağının uygulama sürecini model eğitimi ve çıkarımında ön olarak çözen iki proje var. Aşağıdakiler, merkezi olmayan AGI bilgi işlem gücü pazarının tasarım yöntemlerini ve sorunlarını analiz etmek için Gensyn ve Together'ı örnek olarak alacaktır.
Gensyn, henüz inşa aşamasında olan ve merkezi olmayan derin öğrenme hesaplamanın çoklu zorluklarını çözmeyi ve bugün derin öğrenmenin maliyetini azaltmayı amaçlayan AGI bilgi işlem gücü için bir pazar yeridir. Gensyn, esasen, hesaplama için boşta kalan GPU cihazları karşılığında akıllı sözleşmeler aracılığıyla çözücüleri (Çözücüler) doğrudan ödüllendiren ve makine öğrenimi görevlerini yerine getiren Polkadot ağına dayalı bir Katman 1 proof-of-stake protokolüdür.
Yukarıdaki soruya geri dönersek, gerçekten güvene dayalı olmayan bir bilgi işlem ağı oluşturmanın özü, yapılan makine öğrenimi çalışmasını doğrulamaktır. Bu, karmaşıklık teorisi, oyun teorisi, kriptografi ve optimizasyonun kesiştiği noktada bir denge bulunmasını gerektiren oldukça karmaşık bir problemdir.
Gensyn, çözücünün tamamladığı makine öğrenimi görevinin sonuçlarını gönderdiği basit bir çözüm önerir. Bu sonuçların doğru olduğunu doğrulamak için başka bir bağımsız doğrulayıcı aynı işi tekrar yapmaya çalışır. Bu yöntem, tek bir çoğaltma olarak adlandırılabilir, çünkü yalnızca bir doğrulayıcı yeniden yürütülür. Bu, orijinal çalışmanın doğruluğunu doğrulamak için yalnızca bir ek çaba olduğu anlamına gelir. Ancak, işi doğrulayan kişi asıl işi talep eden kişi değilse, güven sorunu devam eder. Çünkü doğrulayıcıların kendileri dürüst olmayabilir ve çalışmalarının doğrulanması gerekir. Bu, çalışmayı doğrulayan kişi orijinal çalışmanın talep eden kişisi değilse, çalışmasını doğrulamak için başka bir doğrulayıcıya ihtiyaç duyulması gibi potansiyel bir soruna yol açar. Ancak bu yeni doğrulayıcıya da güvenilmeyebilir, bu nedenle çalışmalarını doğrulamak için sonsuza kadar devam edebilecek ve sonsuz bir replikasyon zinciri oluşturabilecek başka bir doğrulayıcıya ihtiyaç vardır. Burada üç temel kavramı tanıtmamız ve sonsuz zincir problemini çözmek için dört rollü bir katılımcı sistem oluşturmak için bunları iç içe geçirmemiz gerekiyor.
Olasılıksal Öğrenmenin Kanıtı: Yapılan işin sertifikasını oluşturmak için gradyan tabanlı bir optimizasyon işleminin meta verilerini kullanın. Belirli aşamaları çoğaltarak, işin zamanlandığı gibi tamamlandığından emin olmak için bu sertifikaları hızlı bir şekilde doğrulayabilirsiniz.
Grafik tabanlı nokta belirleme protokolü: Çok ayrıntılı, grafik tabanlı bir zirve protokolünün yanı sıra çapraz değerlendiricilerin tutarlı bir şekilde yürütülmesini kullanır. Bu, tutarlılığı sağlamak için doğrulama çabalarının yeniden çalıştırılmasına ve karşılaştırılmasına ve nihayetinde blok zincirinin kendisi tarafından onaylanmasına olanak tanır.
Truebit tarzı teşvik oyunları: Mali açıdan sağlam her katılımcının dürüst davranmasını ve amaçlanan görevleri yerine getirmesini sağlayan teşvik oyunları oluşturmak için stake etme ve eğik çizgi kullanın.
Katılımcı sistemi, taahhütçüler, çözücüler, doğrulayıcılar ve ihbarcılardan oluşur.
Gönderenler:
Gönderen sistemin son kullanıcısıdır, hesaplanacak görevleri sağlar ve tamamlanan iş birimleri için ödeme yapar;
Solvers:
Çözücü, sistemin birincil çalışanıdır, model eğitimi gerçekleştirir ve doğrulayıcılar tarafından kontrol edilen kanıtlar oluşturur;
Doğrulayıcılar:
Doğrulayıcı, deterministik olmayan eğitim sürecini deterministik doğrusal hesaplamaya bağlamanın, çözücünün ispatının bir kısmını çoğaltmanın ve mesafeyi beklenen eşiğe karşılaştırmanın anahtarıdır;
İhbarcılar:
İhbarcılar, doğrulayıcıların çalışmalarını kontrol eden ve kazançlı bonus ödemeleri umuduyla meydan okumalar yapan son savunma hattıdır.
Sistem çalışıyor
Protokol, dört ana katılımcı rolünü kapsayan sekiz aşamadan oluşacak ve görev tesliminden nihai doğrulamaya kadar tüm süreci tamamlamak için kullanılacak bir oyun sisteminde çalışacak şekilde tasarlanmıştır.
Görev Teslimi: Bir görev üç özel bilgi parçasından oluşur:
Görevleri ve hiperparametreleri tanımlayan meta veriler;
Bir model ikili (veya temel şema);
Herkese açık, önceden işlenmiş eğitim verileri.
Görevi göndermek için, gönderen görevin ayrıntılarını makine tarafından okunabilir bir biçimde belirtir ve model ikili dosyası (veya makine tarafından okunabilir şema) ve önceden işlenmiş eğitim verilerinin genel olarak erişilebilir bir konumu ile birlikte zincire gönderir. Açığa çıkan veriler, AWS S3 gibi basit bir nesne deposunda veya IPFS, Arweave ya da Subspace gibi merkezi olmayan bir depolama alanında depolanabilir.
Profil Oluşturma: Analiz süreci, kanıtı doğrulamayı öğrenmek için bir temel mesafe eşiği belirler. Doğrulayıcı, analiz görevini periyodik olarak kazıyacak ve öğrenme kanıtı karşılaştırması için bir varyasyon eşiği oluşturacaktır. Eşikler oluşturmak için doğrulayıcılar, farklı rastgele tohumlar kullanarak, kendi kanıtlarını oluşturup kontrol ederek eğitimin bir bölümünü deterministik olarak çalıştıracak ve yeniden çalıştıracaktır. Bu işlem sırasında doğrulayıcı, çözümü doğrulamak için belirleyici olmayan bir çaba olarak kullanılabilecek genel bir beklenen mesafe eşiği belirler.
Eğitim: Analizden sonra görev, genel bir görev havuzuna gider (Ethereum'un Mempool'una benzer). Görevi yürütmek için bir çözücü seçin ve görevi görev havuzundan kaldırın. Çözücü, gönderen tarafından gönderilen meta verilerin yanı sıra sağlanan model ve eğitim verilerine göre görevi gerçekleştirir. Eğitim görevini gerçekleştirirken, çözücü ayrıca doğrulayıcının aşağıdaki optimizasyon adımlarını mümkün olduğunca doğru bir şekilde çoğaltabilmesi için eğitim sürecindeki meta verileri (parametreler dahil) periyodik olarak kontrol ederek ve depolayarak bir öğrenme kanıtı oluşturur.
Prova oluşturma: Çözücü, ağırlık güncellemeleri oluşturmak için kullanılan örnekleri tanımlamak için model ağırlıklarını veya güncellemelerini ve ilgili dizini eğitim veri kümesiyle birlikte düzenli aralıklarla depolar. Kontrol noktası frekansı, daha fazla güvence sağlamak veya depolama alanından tasarruf etmek için ayarlanabilir. Prova "istiflenebilir", yani prova, ağırlıkları başlatmak için kullanılan ağırlıkların rastgele dağılımıyla başlayabilir veya kendi provaları kullanılarak oluşturulan önceden eğitilmiş ağırlıklarla başlayabilir. Bu, protokolün daha spesifik görevler için ince ayar yapılabilen bir dizi kanıtlanmış, önceden eğitilmiş temel model (yani temel modeller) oluşturmasını sağlar.
Kanıtın doğrulanması: Görev tamamlandıktan sonra, çözücü görevi zincire kaydeder ve doğrulayıcının erişmesi için öğrenme kanıtını herkesin erişebileceği bir yerde görüntüler. Doğrulayıcı, doğrulama görevini ortak görev havuzundan çeker ve kanıtın bir bölümünü yeniden çalıştırmak ve mesafe hesaplamasını gerçekleştirmek için hesaplama çalışması gerçekleştirir. Zincir (analiz aşamasında hesaplanan eşiklerle birlikte) daha sonra doğrulamanın kanıtla eşleşip eşleşmediğini belirlemek için elde edilen mesafeyi kullanır.
Grafik tabanlı nokta atışı meydan okuması: Öğrenme kanıtını doğruladıktan sonra, ihbarcı, doğrulamanın kendisinin doğru bir şekilde gerçekleştirilip gerçekleştirilmediğini kontrol etmek için doğrulayıcının çalışmasını kopyalayabilir. Bir ihbarcı, doğrulamanın yanlışlıkla (kötü niyetli veya kötü niyetli olmayan) yapıldığına inanıyorsa, bir ödül almak için sözleşme nisabına itiraz edebilir. Bu ödül, çözücülerden ve doğrulayıcılardan (gerçekten pozitif olması durumunda) veya piyango kasası ödül havuzundan (yanlış pozitif olması durumunda) para yatırma işlemlerinden gelebilir ve tahkim zincirin kendisi kullanılarak gerçekleştirilir. İhbarcılar (kendi durumlarında, doğrulayıcılar) yalnızca uygun tazminat almayı beklerlerse çalışmayı doğrulayacak ve ardından itiraz edeceklerdir. Pratikte bu, ihbarcıların, diğer faaliyetlere sahip ihbarcıların sayısına bağlı olarak ağa katılmaları ve ayrılmalarının beklendiği anlamına gelir (yani, canlı para yatırma ve meydan okumalarla). Bu nedenle, herhangi bir ihbarcı için beklenen varsayılan strateji, daha az sayıda başka ihbarcı olduğunda ağa katılmak, para yatırmak, rastgele aktif bir görev seçmek ve doğrulama sürecini başlatmaktır. İlk görev bittikten sonra, başka bir rastgele aktif görev alacaklar ve ihbarcıların sayısı belirlenen ödeme eşiğini aşana kadar tekrarlayacaklar ve ardından durum tekrar tersine dönene kadar ağdan ayrılacaklar (veya daha büyük olasılıkla, ağdaki başka bir role geçecekler - doğrulayıcı veya çözücü - donanım yeteneklerine bağlı olarak).
Sözleşme tahkimi: Bir doğrulayıcıya bir ihbarcı tarafından itiraz edildiğinde, ihtilaflı eylemin veya girdinin nerede olduğunu bulmak için zincirle bir sürece girerler ve son olarak zincir nihai temel işlemi gerçekleştirir ve itirazın haklı olup olmadığını belirler. İhbarcıyı dürüst ve güvenilir tutmak ve doğrulayıcıların ikileminin üstesinden gelmek için, burada düzenli zorunlu hatalar ve ikramiye ödemeleri sunulmaktadır.
Uzlaşma: Uzlaşma sürecinde, katılımcılara olasılık ve kesinlik kontrollerinin sonucuna göre ödeme yapılır. Önceki doğrulamaların ve zorlukların sonuçlarına bağlı olarak, farklı senaryolar için farklı ödemeler olacaktır. İşin doğru yapıldığı ve tüm kontrollerden geçtiği kabul edilirse, çözüm sağlayıcı ve doğrulayıcı alınan aksiyona göre ödüllendirilir.
Projenin kısa bir incelemesi
Gensyn, doğrulama katmanı ve teşvik katmanı üzerinde, ağdaki ayrışma noktalarını bularak hatayı hızlı bir şekilde tespit edebilen harika bir oyun sistemi tasarladı, ancak mevcut sistemde hala eksik olan birçok detay var. Örneğin, eşik çok yüksek olmadan ödüllerin ve cezaların makul olmasını sağlamak için parametreler nasıl belirlenir? Oyun, aşırı durum ile çözücünün bilgi işlem gücü arasındaki farkı dikkate aldı mı? Teknik incelemenin mevcut sürümünde heterojen paralel operasyonun ayrıntılı bir açıklaması yoktur ve Gensyn'in uygulanmasının hala zor ve uzun olduğu görülmektedir.
Together.ai
Together, büyük modellerin açık kaynağına odaklanan ve herkesin yapay zekaya her yerden erişebileceğini ve kullanabileceğini umarak merkezi olmayan yapay zeka bilgi işlem çözümlerine kendini adamış bir şirkettir. Açıkça söylemek gerekirse, Together bir blok zinciri projesi değildir, ancak proje, merkezi olmayan AGI bilgi işlem ağındaki gecikme sorununu önceden çözmüştür. Bu nedenle, aşağıdaki makale yalnızca Together'ın çözümünü analiz eder ve projeyi değerlendirmez.
Merkezi olmayan bir ağ bir veri merkezinden 100 kat daha yavaş olduğunda büyük modeller nasıl eğitilebilir ve çıkarılabilir?
Ademi merkeziyetçilik kaldırılırsa ağa katılan GPU cihazlarının dağılımının nasıl görüneceğini hayal edelim. Bu cihazlar farklı kıtalarda, farklı şehirlerde dağıtılacak ve birbirine bağlı olmaları gerekecek ve bağlantının gecikmesi ve bant genişliği değişecektir. Aşağıdaki şekilde gösterildiği gibi, Kuzey Amerika, Avrupa ve Asya'ya dağıtılan cihazlarla, cihazlar arasında değişen bant genişliği ve gecikme süresiyle dağıtılmış bir senaryonun simülasyonu yapılmıştır. Peki seri bağlamak için ne yapılması gerekiyor?
Dağıtılmış eğitim bilgi işlem modellemesi: Aşağıdaki şekil, birden fazla cihazda temel model eğitimini göstermektedir ve iletişim türleri açısından üç iletişim türü vardır: İleri Etkinleştirme, Geri Gradyan ve Yanal İletişim.
İletişim bant genişliği ve gecikme süresi ile birlikte, iki paralellik biçiminin dikkate alınması gerekir: çoklu cihaz durumundaki üç iletişim türüne karşılık gelen boru hattı paralelliği ve veri paralelliği:
Boru hattı paralelliğinde, modelin tüm katmanları, her cihazın birden fazla transformatör bloğu gibi sürekli bir katman dizisi olan bir fazı işlediği aşamalara ayrılır; İleri geçişte aktivasyon bir sonraki aşamaya geçerken, geri geçişte aktivasyonun gradyanı bir önceki aşamaya geçirilir.
Veri paralelliğinde, cihaz farklı mikrogrupların gradyanlarını bağımsız olarak hesaplar, ancak bu gradyanları senkronize etmek için iletişim kurar.
Zamanlama Optimizasyonu:
Merkezi olmayan bir ortamda, eğitim süreci genellikle iletişimle sınırlıdır. Zamanlama algoritmaları genellikle daha yüksek bağlantı hızlarına sahip cihazlara büyük miktarda iletişim gerektiren görevler atar ve görevler arasındaki bağımlılıklar ve ağın heterojenliği göz önüne alındığında, önce belirli bir zamanlama stratejisinin maliyetinin modellenmesi gerekir. Temel modeli eğitmenin karmaşık iletişim maliyetini yakalamak için, Together yeni bir formül önerir ve maliyet modelini grafik teorisi aracılığıyla iki seviyeye ayırır:
Grafik teorisi, grafiklerin (ağların) doğasını ve yapısını inceleyen bir matematik dalıdır. Bir grafik, köşelerden (düğümler) ve kenarlardan (düğümleri birbirine bağlayan çizgiler) oluşur. Grafik teorisinin temel amacı, grafiklerin bağlanabilirliği, grafiklerin renkleri, grafiklerdeki yolların ve döngülerin doğası gibi grafiklerin çeşitli özelliklerini incelemektir.
İlk seviye dengeli bir grafik bölümüdür (grafiğin köşe kümesini eşit veya yaklaşık olarak eşit boyutlarda birkaç alt kümeye bölerken, alt kümeler arasındaki kenar sayısını en aza indirir. Bu segmentasyonda, her alt küme bir bölümü temsil eder ve veri paralelliğinin iletişim maliyetine karşılık gelen bölümler arasındaki kenarlar en aza indirilerek iletişim maliyeti azaltılır.
İkinci seviye, ortak grafik eşleştirme ve gezgin satıcı problemidir (ortak grafik eşleştirme ve gezgin satıcı problemi, grafik eşleştirme ve gezgin satıcı problemlerinin unsurlarını birleştiren kombinatoryal bir optimizasyon problemidir. Grafik eşleştirme sorunu, grafikte bir eşleşme bulmaktır, böylece bir tür maliyet en aza indirilir veya en üst düzeye çıkarılır. Gezgin satıcı problemi, grafikteki tüm düğümlere giden en kısa yolu bulmaktır), boru hattı paralelliğinin iletişim maliyetine karşılık gelir.
Yukarıdaki şekil, sürecin şematik bir diyagramıdır, çünkü gerçek uygulama süreci bazı karmaşık hesaplama formüllerini içerir. Anlaşılmasını kolaylaştırmak için, aşağıda şemadaki süreç meslekten olmayanların terimleriyle açıklanacaktır ve ayrıntılı uygulama sürecine, Together resmi web sitesindeki belgelerde kendiniz danışabilirsiniz.
N cihazlı D ayarlı bir cihaz olduğunu ve aralarındaki iletişimin belirsiz bir gecikmeye (A-matrisi) ve bant genişliğine (B-matrisi) sahip olduğunu varsayalım. D cihaz setine bağlı olarak, önce dengeli bir grafik segmentasyonu oluştururuz. Her bölme veya cihaz grubundaki cihaz sayısı yaklaşık olarak eşittir ve hepsi aynı işlem hattı aşamalarını işler. Bu, veriler paralel hale getirildiğinde, cihaz gruplarının benzer miktarda iş gerçekleştirmesini sağlar. (Veri paralelliği, birden fazla cihazın aynı görevi gerçekleştirmesidir, ardışık düzen aşamaları ise cihazların belirli bir sırada farklı görev adımlarını gerçekleştirdiği zamandır). İletişimin gecikmesine ve bant genişliğine bağlı olarak, cihaz grupları arasında veri aktarımının "maliyeti" formüller aracılığıyla hesaplanabilir. Her dengeli cihaz grubu, her düğümün boru hattının bir aşamasını temsil ettiği ve kenarların iki aşama arasındaki iletişimin maliyetini temsil ettiği tam bağlantılı bir kaba grafik oluşturmak için birleştirilir. İletişim maliyetlerini en aza indirmek için, hangi cihaz gruplarının birlikte çalışması gerektiğini belirlemek için bir eşleştirme algoritması kullanılır.
Daha fazla optimizasyon için sorun, tüm cihazlar arasında veri aktarımı için en uygun yolu bulmak için açık döngülü bir gezgin satıcı sorunu (açık döngü, yolun kaynağına geri dönmeye gerek olmadığı anlamına gelir) olarak da modellenebilir. Son olarak, Together, iletişim maliyetlerini en aza indirmek ve eğitim verimini en üst düzeye çıkarmak amacıyla belirli bir maliyet modeli için en uygun tahsis stratejisini bulmak için yenilikçi zamanlama algoritmasını kullanır. Gerçek ölçümlere göre, bu zamanlama optimizasyonu altında ağ 100 kat daha yavaş olsa bile, uçtan uca eğitim verimi yalnızca yaklaşık 1,7 ila 2,3 kat daha yavaştır.
İletişim sıkıştırmasının optimizasyonu için Together, AQ-SGD algoritmasını tanıtır (ayrıntılı hesaplama işlemi için lütfen Garantili Aktivasyon Sıkıştırmasını Kullanarak Yavaş Ağlar Üzerinden Dil Modellerinde İnce Ayar makalesine bakın). AQ-SGD algoritması, düşük hızlı ağlarda boru hattı paralel eğitiminin iletişim verimliliği sorununu çözmek için tasarlanmış yeni bir aktif sıkıştırma teknolojisidir. Etkinlik değerini doğrudan sıkıştırmanın önceki yöntemlerinden farklı olarak, AQ-SGD, aynı eğitim örneğinin etkinlik değerindeki değişiklikleri farklı dönemlerde sıkıştırmaya odaklanır ve bu benzersiz yöntem, ilginç bir "kendi kendini yürüten" dinamik sunar ve algoritmanın performansının, eğitim stabilize oldukça kademeli olarak iyileşmesi beklenir. Titiz teorik analizden sonra, AQ-SGD algoritması, belirli teknik koşullar altında iyi bir yakınsama oranına ve sınırlı hata ile niceleme fonksiyonuna sahip olduğunu kanıtlar. Algoritma, etkin değeri depolamak için daha fazla bellek ve SSD gerektirmesine rağmen, ek uçtan uca çalışma zamanı yükü eklemeden verimli bir şekilde uygulanabilir. Dizi sınıflandırması ve dil modelleme veri kümeleri üzerinde kapsamlı deneysel doğrulama sayesinde AQ-SGD, yakınsama performansından ödün vermeden etkinlik değerlerini 2-4 bite sıkıştırabilir. Ek olarak, AQ-SGD, "uçtan uca iletişim sıkıştırması" elde etmek için son teknoloji gradyan sıkıştırma algoritmalarıyla da entegre edilebilir, yani model gradyanları, ileri aktivite değerleri ve ters gradyanlar dahil olmak üzere tüm makineler arasındaki veri alışverişi düşük hassasiyetle sıkıştırılır, böylece dağıtılmış eğitimin iletişim verimliliğini büyük ölçüde artırır. Merkezi bir bilgi işlem ağının (ör. 10 Gb/sn) sıkıştırma olmadan uçtan uca eğitim performansıyla karşılaştırıldığında, şu anda yalnızca %31 daha yavaştır. Zamanlama optimizasyonu verileriyle birleştiğinde, merkezi bilgi işlem güç ağından hala belirli bir boşluk olmasına rağmen, gelecekte yetişmek için nispeten büyük bir umut var.
Sonuç
AI dalgasının getirdiği temettü döneminde, AGI bilgi işlem gücü pazarı, şüphesiz birçok bilgi işlem gücü pazarı arasında en büyük potansiyele ve en çok talebe sahip pazardır. Bununla birlikte, geliştirme zorluğu, donanım gereksinimleri ve sermaye gereksinimleri de en yüksektir. Yukarıdaki iki projeyle birleştiğinde, AGI bilgi işlem gücü pazarının uygulanmasından hala belirli bir mesafe var ve gerçek merkezi olmayan ağ, bulut devleriyle rekabet etmek için yeterli olmayan ideal durumdan çok daha karmaşık. Bu makalenin yazıldığı sırada, emekleme aşamasında (PPT aşaması) olan bazı projelerin, daha az zor olan çıkarım aşamasına veya daha pratik girişimler olan küçük modellerin eğitimine odaklanmak gibi bazı yeni giriş noktalarını keşfetmeye başladığı da gözlemlendi.
Birçok zorlukla karşı karşıya olmasına rağmen, uzun vadede AGI bilgi işlem gücünün ademi merkeziyetçiliğinin ve izinsiz öneminin birkaç merkezi devde yoğunlaşmaması önemlidir. Çünkü insanlığın, bırakın pahalı "üyelik aidatları" ödemeyi, yeni bir "din"e ya da yeni bir "papa"ya ihtiyacı yoktur.
bibliyografya
1.Gensyn Litepaper:
2.NeurIPS 2022: Merkezi Olmayan Eğitim için İletişim Darboğazlarının Üstesinden Gelmek:
Garantili Aktivasyon Sıkıştırmasını Kullanarak Yavaş Ağlar Üzerinden Dil Modellerinde İnce Ayar Yapma:
Makine Öğrenimi Hesaplama Protokolü ve geleceğimiz:
5.Microsoft:Kazanç Açıklaması FY23 Q2:
AI biletleri için yarışın: BAT ve Byte Meituan GPU için yarışıyor:
IDC: 2022-2023 Küresel Bilgi İşlem Gücü Endeksi Değerlendirme Raporu:
Guosheng Menkul Kıymetler büyük model eğitim tahmini:
Bilginin Kanatları: Bilgi işlem gücü ve yapay zeka arasındaki ilişki nedir? :
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Potansiyel Yol Önizlemesi: Merkezi Olmayan Bilgi İşlem Güç Piyasası (Bölüm I)
Zeke, YBB Capital tarafından
Giriş
GPT-3'ün doğuşundan bu yana, üretken yapay zeka, şaşırtıcı performansı ve geniş uygulama senaryoları ile yapay zeka alanında patlayıcı bir dönüm noktası başlattı ve teknoloji devleri gruplar halinde yapay zeka yoluna atlamaya başladı. Bununla birlikte, büyük dil modeli (LLM) eğitiminin ve çıkarımının çalışması çok fazla bilgi işlem gücü gerektirir ve modelin yinelemeli olarak yükseltilmesiyle bilgi işlem gücü talebi ve maliyeti katlanarak artar. GPT-2 ve GPT-3'ü örnek alırsak, GPT-2 ve GPT-3 arasındaki parametre sayısı farkı 1.166 kattır (GPT-2 için 150 milyon parametre ve GPT-3 için 175 milyar parametre) ve GPT-3'ün maliyeti, GPT-2'nin 200 katı olan o zamanki genel GPU bulutunun fiyat modeline göre 12 milyon dolara kadar ulaşabilir. Fiili kullanım sürecinde, kullanıcının her sorusunun çıkarılması ve hesaplanması gerekiyor, bu yılın başındaki 13 milyon tekil kullanıcının durumuna göre, karşılık gelen çip talebi 30.000 adetten fazla A100GPU. İlk maliyet daha sonra şaşırtıcı bir şekilde 800 milyon dolar olacak ve model çıkarımı için günde tahmini 700.000 dolar olacak.
Yetersiz bilgi işlem gücü ve yüksek maliyetler tüm AI endüstrisi için bir sorun haline geldi, ancak aynı sorun blok zinciri endüstrisini de rahatsız ediyor gibi görünüyor. Bir yandan, Bitcoin'in dördüncü yarılanması ve ETF'lerin geçişi geliyor ve gelecekte fiyat yükseldikçe, madencilerin bilgi işlem donanımına olan talebi kaçınılmaz olarak önemli ölçüde artacak. Öte yandan, "Sıfır Bilgi Kanıtı" (ZKP) teknolojisi patlama yaşıyor ve Vitalik, ZK'nın önümüzdeki on yılda blok zinciri alanı üzerindeki etkisinin blok zincirinin kendisi kadar önemli olacağını defalarca vurguladı. Bu teknolojinin geleceği blok zinciri endüstrisi tarafından merakla beklense de, ZK, karmaşık hesaplama süreci nedeniyle AI gibi kanıtlar oluşturma sürecinde çok fazla bilgi işlem gücü ve zaman tüketir.
Öngörülebilir gelecekte, bilgi işlem gücü sıkıntısı kaçınılmaz hale gelecek, bu nedenle merkezi olmayan bilgi işlem gücü pazarı iyi bir iş olacak mı?
Merkezi Olmayan Hesaplama Piyasasının Tanımı
Merkezi olmayan bilgi işlem gücü piyasası aslında temelde merkezi olmayan bulut bilişim yoluna eşdeğerdir, ancak merkezi olmayan bulut bilişim ile karşılaştırıldığında, kişisel olarak bu terimin daha sonra bahsedilen yeni projeleri tanımlamak için daha uygun olacağını düşünüyorum. Merkezi olmayan bilgi işlem gücü piyasası, DePIN'in (merkezi olmayan fiziksel altyapı ağı) bir alt kümesine ait olmalıdır ve amacı, token teşvikleri yoluyla açık bir bilgi işlem gücü pazarı oluşturmaktır, böylece atıl bilgi işlem kaynaklarına sahip herkes, esas olarak B-son kullanıcı ve geliştirici topluluğuna hizmet eden bu pazarda kaynaklarını sağlayabilir. Merkezi olmayan GPU'lara dayalı bir işleme çözümleri ağı olan Render Network ve bulut bilişim için dağıtılmış bir eşler arası pazar yeri olan Akash Network gibi iyi bilinen projeler bu yola aittir.
Aşağıdakiler, temel kavramla başlayacak ve daha sonra yolun altındaki üç gelişmekte olan pazarı tartışacaktır: AGI bilgi işlem gücü pazarı, Bitcoin bilgi işlem gücü pazarı ve ZK donanım hızlandırma pazarındaki AGI bilgi işlem gücü pazarı ve son ikisi "Potansiyel Yol Önizlemesi: Merkezi Olmayan Bilgi İşlem Güç Piyasası (Bölüm II)" bölümünde tartışılacaktır.
Hashrate'e genel bakış
Bilgi işlem gücü kavramının kökeni, bilgisayarların icadına kadar uzanabilir, orijinal bilgisayar, bilgi işlem görevlerini tamamlamak için mekanik bir cihazdı ve bilgi işlem gücü, mekanik bir cihazın bilgi işlem gücünü ifade eder. Bilgisayar teknolojisinin gelişmesiyle birlikte, bilgi işlem gücü kavramı da gelişmiştir ve artık bilgi işlem gücü genellikle bilgisayar donanımının (CPU, GPU, FPGA, vb.) ve yazılımın (işletim sistemi, derleyici, uygulama vb.) birlikte çalışabilme yeteneğini ifade eder.
Tanım
Bilgi işlem gücü, bir bilgisayarın veya başka bir bilgi işlem aygıtının işleyebileceği veri miktarını veya belirli bir süre içinde tamamlanabilecek bilgi işlem görevlerinin sayısını ifade eder. Hashrate genellikle bir bilgisayarın veya başka bir bilgi işlem cihazının performansını tanımlamak için kullanılır ve bir bilgi işlem cihazının işlem gücünün önemli bir ölçüsüdür.
Metrikler
Bilgi işlem gücü, bilgi işlem hızı, bilgi işlem enerji tüketimi, bilgi işlem doğruluğu ve paralellik gibi çeşitli şekillerde ölçülebilir. Bilgisayar alanında, yaygın olarak kullanılan bilgi işlem gücü ölçümleri arasında FLOPS (saniye başına kayan nokta işlemleri), IPS (saniye başına talimat), TPS (saniye başına işlem) vb. bulunur.
FLOPS (Saniye Başına Kayan Nokta İşlemleri), bir bilgisayarın kayan nokta işlemlerini (kesinlik ve yuvarlama hataları gibi konuları dikkate alarak ondalık noktalı sayılar üzerinde matematiksel işlemler) işleme yeteneğini ifade eder ve bir bilgisayarın saniyede kaç kayan nokta işlemi tamamlayabileceğini ölçer. FLOPS, bir bilgisayarın yüksek performanslı bilgi işlem gücünün bir ölçüsüdür ve diğerlerinin yanı sıra süper bilgisayarların, yüksek performanslı bilgi işlem sunucularının ve grafik işleme birimlerinin (GPU'lar) bilgi işlem gücünü ölçmek için yaygın olarak kullanılır. Örneğin, bir bilgisayar sisteminin FLOPS'u 1 TFLOPS'a (saniyede 1 trilyon kayan nokta işlemi) sahiptir, bu da saniyede 1 trilyon kayan nokta işlemini tamamlayabileceği anlamına gelir.
IPS (Saniye Başına Talimat), bir bilgisayarın talimatları işleme hızını ifade eder ve bir bilgisayarın saniyede kaç talimat yürütebildiğini ölçer. IPS, bir bilgisayarın tek komutlu performansının bir ölçüsüdür ve genellikle bir merkezi işlem biriminin (CPU) vb. performansını ölçmek için kullanılır. Örneğin, IPS'si 3 GHz olan (saniyede 300 milyon talimat yürütebilen) bir CPU, saniyede 300 milyon talimat yürütebileceği anlamına gelir.
TPS (Saniye Başına İşlem Sayısı), bir bilgisayarın işlemleri işleme yeteneğini ifade eder ve bir bilgisayarın saniyede kaç işlem tamamlayabileceğini ölçer. Genellikle bir veritabanı sunucusunun performansını ölçmek için kullanılır. Örneğin, TPS'si 1000 olan bir veritabanı sunucusu, saniyede 1000 veritabanı işlemi gerçekleştirebileceği anlamına gelir.
Ayrıca, belirli uygulama senaryoları için çıkarım hızı, görüntü işleme hızı ve konuşma tanıma doğruluğu gibi bazı bilgi işlem gücü göstergeleri vardır.
Hashrate türü
GPU bilgi işlem gücü, bir grafik işlem biriminin bilgi işlem gücünü ifade eder. CPU'dan (Merkezi İşlem Birimi) farklı olarak GPU, görüntüler ve videolar gibi grafik verilerini işlemek için özel olarak tasarlanmış bir donanım parçasıdır ve aynı anda çok sayıda kayan nokta işlemi gerçekleştirebilen çok sayıda işlem birimine ve verimli paralel bilgi işlem gücüne sahiptir. GPU'lar başlangıçta oyun grafiklerinin işlenmesi için kullanıldığından, karmaşık grafik işlemlerini desteklemek için genellikle CPU'lardan daha yüksek saat frekanslarına ve daha fazla bellek bant genişliğine sahiptirler.
CPU ve GPU Arasındaki Fark
Mimari: CPU'ların ve GPU'ların bilgi işlem mimarisi farklıdır. CPU'lar tipik olarak, her biri çeşitli farklı işlemleri gerçekleştirebilen genel amaçlı bir işlemci olan bir veya daha fazla çekirdeğe sahiptir. GPU'lar ise görüntü işleme ile ilgili işlemleri gerçekleştirmeye adanmış çok sayıda Akış İşlemcisine ve Gölgelendiriciye sahiptir.
Paralel bilgi işlem: GPU'lar genellikle daha yüksek paralel bilgi işlem özelliklerine sahiptir. CPU'lar sınırlı sayıda çekirdeğe sahiptir ve çekirdek başına yalnızca bir talimat yürütebilir, ancak GPU'lar aynı anda birden fazla talimat ve işlem yürütebilen binlerce akış işlemcisine sahip olabilir. Sonuç olarak, GPU'lar genellikle çok fazla paralel bilgi işlem gerektiren makine öğrenimi ve derin öğrenme gibi paralel bilgi işlem görevlerini gerçekleştirmek için CPU'lardan daha uygundur.
Programlama: GPU programlama, CPU'lardan daha karmaşıktır ve GPU'ların paralel bilgi işlem gücünden yararlanmak için belirli programlama dillerinin (CUDA veya OpenCL gibi) kullanılmasını ve belirli programlama tekniklerinin kullanılmasını gerektirir. Buna karşılık, CPU'ların programlanması daha kolaydır ve yaygın programlama dillerini ve programlama araçlarını kullanabilir.
Bilgi işlem gücünün önemi
Sanayi Devrimi çağında petrol, her sektöre nüfuz eden dünyanın kanıydı. Bilgi işlem gücü blok zincirinde ve yaklaşan AI çağında, bilgi işlem gücü dünyanın "dijital yağı" olacak. Büyük şirketlerin yapay zeka çipleri için çılgınca acele etmesinden ve Nvidia stoklarının bir trilyonu aştığı gerçeğinden, Çin'deki üst düzey çiplerin ABD tarafından yakın zamanda ablukaya alınmasına, bilgi işlem gücünün boyutuna, çip alanına ve hatta GPU bulutunu yasaklama planına kadar, önemi aşikardır ve bilgi işlem gücü önümüzdeki çağda bir meta olacaktır.
! Potansiyel Parça Önizlemesi: Merkezi Olmayan Bilgi İşlem Güç Piyasası (Bölüm I)
Yapay Genel Zekaya Genel Bakış
Yapay Zeka (AI), insan zekasını simüle etmek, genişletmek ve genişletmek için teoriler, yöntemler, teknolojiler ve uygulama sistemlerini inceleyen ve geliştiren yeni bir teknik bilimdir. 20. yüzyılın ellili ve altmışlı yıllarında ortaya çıktı ve yarım yüzyıldan fazla bir evrimden sonra, üç sembolizm, bağlantıcılık ve aktör dalgasının iç içe geçmiş gelişimini yaşadı. Üretken yapay zekanın daha spesifik bir tanımı, çeşitli farklı görev ve alanlarda insanlara benzer veya onlardan daha üstün zeka gerçekleştirebilen geniş bir anlayışa sahip bir yapay zeka sistemi olan Yapay Genel Zekadır (AGI). AGI'nin temel olarak üç unsurdan oluşması gerekir: derin öğrenme (DL), büyük veri ve büyük ölçekli bilgi işlem gücü.
Derin öğrenme
Derin öğrenme, makine öğreniminin (ML) bir alt alanıdır ve derin öğrenme algoritmaları, insan beyninden sonra modellenen sinir ağlarıdır. Örneğin, insan beyni, bilgiyi öğrenmek ve işlemek için birlikte çalışan birbirine bağlı milyonlarca nöron içerir. Benzer şekilde, derin öğrenme sinir ağları (veya yapay sinir ağları), bir bilgisayarın içinde birlikte çalışan birden çok yapay nöron katmanından oluşur. Yapay nöronlar, verileri işlemek için matematiksel hesaplamalar kullanan düğüm adı verilen yazılım modülleridir. Yapay sinir ağları, karmaşık sorunları çözmek için bu düğümleri kullanan derin öğrenme algoritmalarıdır.
! Potansiyel Parça Önizlemesi: Merkezi Olmayan Bilgi İşlem Güç Piyasası (Bölüm I)
Sinir ağları giriş katmanlarına, gizli katmanlara ve çıktı katmanlarına ayrılabilir ve parametreler farklı katmanlar arasında bağlanır.
Giriş Katmanı: Giriş katmanı, sinir ağının ilk katmanıdır ve harici girdi verilerini almaktan sorumludur. Giriş katmanının her nöronu, girdi verilerinin bir özelliğine karşılık gelir. Örneğin, görüntü verilerini işlerken, her nöron görüntünün bir piksel değerine karşılık gelebilir;
Gizli Katmanlar: Giriş katmanı, verileri işler ve sinir ağındaki daha uzak katmanlara iletir. Bu gizli katmanlar, bilgiyi farklı düzeylerde işler ve yeni bilgiler alındıkça davranışlarını ayarlar. Derin öğrenme ağları, sorunları birçok farklı açıdan analiz etmek için kullanılabilecek yüzlerce gizli katmana sahiptir. Örneğin, size sınıflandırılması gereken bilinmeyen bir hayvanın görüntüsü verilirse, bunu zaten bildiğiniz bir hayvanla karşılaştırabilirsiniz. Örneğin, kulakların şekli, bacak sayısı ve göz bebeklerinin büyüklüğü ne tür bir hayvan olduğunu belirleyebilir. Derin sinir ağlarındaki gizli katmanlar da aynı şekilde çalışır. Bir derin öğrenme algoritması bir hayvan görüntüsünü sınıflandırmaya çalışırsa, gizli katmanlarının her biri hayvanın farklı özelliklerini işler ve onu doğru bir şekilde sınıflandırmaya çalışır;
Çıktı Katmanı: Çıktı katmanı, sinir ağının son katmanıdır ve ağın çıktısını oluşturmaktan sorumludur. Çıktı katmanındaki her nöron, olası bir çıktı sınıfını veya değerini temsil eder. Örneğin, bir sınıflandırma probleminde, her bir çıktı katmanı nöronu bir kategoriye karşılık gelebilirken, bir regresyon probleminde, çıktı katmanı, değeri tahmin edilen sonucu temsil eden yalnızca bir nörona sahip olabilir;
Parametreler: Bir sinir ağında, farklı katmanlar arasındaki bağlantılar, ağın kalıpları doğru bir şekilde tanımlamasını ve verilerde tahminlerde bulunmasını sağlamak için eğitim sırasında optimize edilen Ağırlıklar ve Önyargılar parametreleriyle temsil edilir. Parametrelerdeki artış, bir sinir ağının model kapasitesini, yani modelin verilerdeki karmaşık kalıpları öğrenme ve temsil etme yeteneğini artırabilir. Bununla birlikte, parametrelerdeki artış, bilgi işlem gücüne olan talebi artıracaktır.
Büyük Veri
Etkili bir şekilde eğitmek için, sinir ağları genellikle çeşitli, yüksek kaliteli ve çoklu kaynaklara sahip büyük miktarda veriye ihtiyaç duyar. Makine öğrenimi modellerinin eğitimi ve doğrulanması için temel oluşturur. Makine öğrenimi modelleri, büyük verileri analiz ederek, tahminler veya sınıflandırmalar yapmak için verilerdeki kalıpları ve ilişkileri öğrenebilir.
Muazzam bilgi işlem gücü
Sinir ağının çok katmanlı karmaşık yapısı, çok sayıda parametre, büyük veri işleme ihtiyacı, yinelemeli eğitim yöntemi (eğitim aşamasında, modelin tekrar tekrar yinelenmesi gerekir ve her katmanın ileri yayılımı ve geri yayılımı, aktivasyon fonksiyonunun hesaplanması, kayıp fonksiyonunun hesaplanması, gradyanın hesaplanması ve ağırlığın güncellenmesi dahil olmak üzere eğitim süreci sırasında hesaplanmalıdır), yüksek hassasiyetli hesaplama ihtiyacı, paralel hesaplama yeteneği, optimizasyon ve düzenleme teknolojisi ve model değerlendirme ve doğrulama süreci, bunların tümü yüksek bilgi işlem gücü talebine yol açar. AGI'nin büyük ölçekli bilgi işlem gücü gereksinimleri her yıl yaklaşık 10 kat artmaktadır. Şimdiye kadar, en son model GPT-4 1.8 trilyon parametre, 60 milyon ABD dolarından fazla tek bir eğitim maliyeti içeriyor ve gereken bilgi işlem gücü 2.15e25 FLOPS'tur (21.500 trilyon kayan nokta hesaplaması). Bir sonraki model eğitimi için bilgi işlem gücüne olan talep hala artıyor ve yeni modeller de artıyor.
AI Bilişim Ekonomisi
Gelecekteki pazar büyüklüğü
En güvenilir tahminlere göre, IDC (International Data Corporation) ve Inspur Information ve Tsinghua Üniversitesi Küresel Endüstri Araştırma Enstitüsü tarafından ortaklaşa derlenen "2022-2023 Küresel Bilgi İşlem Gücü Endeksi Değerlendirme Raporu", Küresel yapay zeka bilgi işlem pazar büyüklüğü 2022'de 19,50 milyar dolardan 2026'da 34,66 milyar dolara çıkacak ve üretken yapay zeka bilgi işlem pazar büyüklüğü 2022'de 820 milyon dolardan 2026'da 10,99 milyar dolara çıkacak. Üretken yapay zeka bilgi işlem, genel yapay zeka bilgi işlem pazarının %4,2'sinden %31,7'sine çıkacak.
! Potansiyel Parça Önizlemesi: Merkezi Olmayan Bilgi İşlem Güç Piyasası (Bölüm I)
Bilgi işlem gücü ekonomik tekel
AI GPU'ların üretimi NVILA tarafından tekelleştirildi ve son derece pahalılar (en son H100 çip başına 40.000 dolara satıldı) ve GPU'lar piyasaya sürülür sürülmez Silikon Vadisi devleri tarafından yakalandı ve bu cihazlardan bazıları kendi yeni modellerini eğitmek için kullanılıyor. Diğer kısım, sunucular, GPU'lar ve TPU'lar gibi çok sayıda bilgi işlem kaynağına hakim olan Google, Amazon ve Microsoft'un bulut bilişim platformları gibi bulut platformları aracılığıyla yapay zeka geliştiricilerine kiralanır. Bilgi işlem gücü, devler tarafından tekelleştirilen yeni bir kaynak haline geldi ve yapay zeka ile ilgili çok sayıda geliştirici, işaretleme olmadan özel bir GPU bile satın alamıyor ve en son ekipmanı kullanmak için geliştiricilerin AWS veya Microsoft bulut sunucuları kiralaması gerekiyor. Mali rapora göre, AWS'nin bulut hizmetleri %61 brüt kar marjına sahipken, Microsoft %72 gibi daha yüksek bir brüt kar marjına sahipken, bu işletme son derece yüksek karlara sahip.
! Potansiyel Parça Önizlemesi: Merkezi Olmayan Bilgi İşlem Güç Piyasası (Bölüm I)
Peki bu merkezi otoriteyi ve kontrolü kabul etmek ve bilgi işlem kaynakları için kar ücretinin %72'sini ödemek zorunda mıyız? Web2'yi tekeline alan devler bir sonraki dönemde tekel olacak mı?
Merkezi olmayan AGI bilgi işlem gücü sorunu
Antitröst söz konusu olduğunda, ademi merkeziyetçilik genellikle en uygun çözümdür ve mevcut projelerden, DePIN'deki depolama projeleri ve RDNR gibi boşta GPU'lar aracılığıyla yapay zekanın ihtiyaç duyduğu büyük ölçekli bilgi işlem gücünü elde etmek için protokolü kullanabilir miyiz? Cevap hayır, ejderhaları öldürmeye giden yol o kadar basit değil, ilk projeler AGI bilgi işlem gücü için özel olarak tasarlanmamıştır, uygulanabilir değildir ve bilgi işlem gücünün zincirde en az aşağıdaki beş zorlukla karşılaşması gerekir:
İşin doğrulanması: Gerçekten güvene dayalı olmayan bir bilgi işlem ağı oluşturmak ve katılımcılara finansal teşvikler sağlamak için ağın, derin öğrenme hesaplama işinin gerçekten gerçekleştirildiğini doğrulamanın bir yolu olmalıdır. Bu sorunun temelinde, derin öğrenme modellerinin devlet bağımlılığı var; Derin öğrenme modelinde, her katmanın girdisi önceki katmanın çıktısına bağlıdır. Bu, modelinizdeki tüm katmanları dikkate almadan yalnızca bir katmanı doğrulayamayacağınız anlamına gelir. Her katmanın hesaplamaları, kendisinden önceki tüm katmanların sonuçlarını temel alır. Bu nedenle, belirli bir noktada (örneğin belirli bir katmanda) yapılan işi doğrulamak için, modelin başlangıcından o belirli noktaya kadar tüm çalışmaların yapılması gerekir;
Pazar: Gelişmekte olan bir pazar olarak, AI bilgi işlem gücü pazarı, soğuk başlatma sorunları gibi arz ve talep ikilemlerine tabidir ve pazarın başarılı bir şekilde büyüyebilmesi için arz ve talep likiditesinin en baştan kabaca eşleştirilmesi gerekir. Potansiyel hash gücü arzını yakalamak için, katılımcılara hash kaynakları karşılığında açık ödüller sunulmalıdır. Pazarın, yapılan hesaplama işini takip etmek ve ilgili ücretleri sağlayıcılara zamanında ödemek için bir mekanizmaya ihtiyacı vardır. Geleneksel pazarlarda aracılar, minimum ödemeleri belirleyerek operasyonel maliyetleri düşürürken yönetim ve işe alım gibi görevleri yerine getirir. Ancak, bu yaklaşım pazarı ölçeklendirirken daha maliyetlidir. Arzın yalnızca küçük bir kısmı ekonomik olarak etkin bir şekilde ele geçirilebilir, bu da piyasanın yalnızca sınırlı bir arzı yakalayıp sürdürebildiği ve daha fazla büyüyemeyeceği bir eşik denge durumuna yol açar;
Kesinti Problemi: Kesinti problemi, hesaplama teorisinde, belirli bir hesaplama görevinin sonlu bir sürede tamamlanıp tamamlanmayacağının veya asla durmayacağının değerlendirilmesini içeren temel bir problemdir. Bu problem çözülemez, yani tüm hesaplama görevlerinin sınırlı bir süre içinde durup durmayacağını tahmin edebilecek evrensel bir algoritma yoktur. Örneğin, Ethereum'da akıllı sözleşme yürütme benzer bir kesinti süresiyle karşı karşıyadır. yani, bir akıllı sözleşmenin yürütülmesi için ne kadar bilgi işlem kaynağına ihtiyaç duyulacağını veya makul bir sürede tamamlanıp tamamlanmayacağını önceden belirlemek imkansızdır;
(Derin öğrenme bağlamında, modeller ve çerçeveler statik grafik yapımından dinamik yapı ve yürütmeye geçeceği için bu sorun daha karmaşık olacaktır.) )
Gizlilik: Gizlilik bilincinin tasarımı ve geliştirilmesi proje ekibi için bir zorunluluktur. Herkese açık veri kümeleri üzerinde büyük miktarda makine öğrenimi araştırması gerçekleştirilebilse de, modellerin performansını artırmak ve bunları belirli uygulamalara uyarlamak için genellikle özel kullanıcı verileri üzerinde modellerin ince ayarı yapılması gerekir. Bu ince ayar süreci, kişisel verilerin işlenmesini içerebilir ve bu nedenle Gizlilik Kalkanı'nın gerekliliklerini dikkate alması gerekir;
Paralelleştirme: Bu, mevcut projelerin fizibilitesinde önemli bir faktördür, derin öğrenme modelleri genellikle tescilli mimarilere ve son derece düşük gecikme süresine sahip büyük donanım kümelerinde paralel olarak eğitilirken, dağıtılmış bilgi işlem ağlarındaki GPU'lar gecikmeyi sağlamak için sık veri alışverişi gerektirir ve en düşük performanslı GPU'larla sınırlıdır. Güvenilmez ve güvenilmez bilgi işlem güç kaynakları söz konusu olduğunda, heterojen paralelleştirmenin nasıl yapılacağı çözülmesi gereken bir sorundur ve mevcut uygulanabilir yöntem, artık yüksek paralelleştirme özelliklerine sahip olan Anahtar Transformatörleri gibi transformatör modelleri aracılığıyla paralelleştirme elde etmektir.
Çözüm: Merkezi olmayan AGI bilgi işlem gücü pazarındaki mevcut girişim hala erken aşamada olsa da, merkezi olmayan ağın fikir birliği tasarımını ve merkezi olmayan bilgi işlem ağının uygulama sürecini model eğitimi ve çıkarımında ön olarak çözen iki proje var. Aşağıdakiler, merkezi olmayan AGI bilgi işlem gücü pazarının tasarım yöntemlerini ve sorunlarını analiz etmek için Gensyn ve Together'ı örnek olarak alacaktır.
Birleşme
! Potansiyel Parça Önizlemesi: Merkezi Olmayan Bilgi İşlem Güç Piyasası (Bölüm I)
Gensyn, henüz inşa aşamasında olan ve merkezi olmayan derin öğrenme hesaplamanın çoklu zorluklarını çözmeyi ve bugün derin öğrenmenin maliyetini azaltmayı amaçlayan AGI bilgi işlem gücü için bir pazar yeridir. Gensyn, esasen, hesaplama için boşta kalan GPU cihazları karşılığında akıllı sözleşmeler aracılığıyla çözücüleri (Çözücüler) doğrudan ödüllendiren ve makine öğrenimi görevlerini yerine getiren Polkadot ağına dayalı bir Katman 1 proof-of-stake protokolüdür.
Yukarıdaki soruya geri dönersek, gerçekten güvene dayalı olmayan bir bilgi işlem ağı oluşturmanın özü, yapılan makine öğrenimi çalışmasını doğrulamaktır. Bu, karmaşıklık teorisi, oyun teorisi, kriptografi ve optimizasyonun kesiştiği noktada bir denge bulunmasını gerektiren oldukça karmaşık bir problemdir.
Gensyn, çözücünün tamamladığı makine öğrenimi görevinin sonuçlarını gönderdiği basit bir çözüm önerir. Bu sonuçların doğru olduğunu doğrulamak için başka bir bağımsız doğrulayıcı aynı işi tekrar yapmaya çalışır. Bu yöntem, tek bir çoğaltma olarak adlandırılabilir, çünkü yalnızca bir doğrulayıcı yeniden yürütülür. Bu, orijinal çalışmanın doğruluğunu doğrulamak için yalnızca bir ek çaba olduğu anlamına gelir. Ancak, işi doğrulayan kişi asıl işi talep eden kişi değilse, güven sorunu devam eder. Çünkü doğrulayıcıların kendileri dürüst olmayabilir ve çalışmalarının doğrulanması gerekir. Bu, çalışmayı doğrulayan kişi orijinal çalışmanın talep eden kişisi değilse, çalışmasını doğrulamak için başka bir doğrulayıcıya ihtiyaç duyulması gibi potansiyel bir soruna yol açar. Ancak bu yeni doğrulayıcıya da güvenilmeyebilir, bu nedenle çalışmalarını doğrulamak için sonsuza kadar devam edebilecek ve sonsuz bir replikasyon zinciri oluşturabilecek başka bir doğrulayıcıya ihtiyaç vardır. Burada üç temel kavramı tanıtmamız ve sonsuz zincir problemini çözmek için dört rollü bir katılımcı sistem oluşturmak için bunları iç içe geçirmemiz gerekiyor.
Olasılıksal Öğrenmenin Kanıtı: Yapılan işin sertifikasını oluşturmak için gradyan tabanlı bir optimizasyon işleminin meta verilerini kullanın. Belirli aşamaları çoğaltarak, işin zamanlandığı gibi tamamlandığından emin olmak için bu sertifikaları hızlı bir şekilde doğrulayabilirsiniz.
Grafik tabanlı nokta belirleme protokolü: Çok ayrıntılı, grafik tabanlı bir zirve protokolünün yanı sıra çapraz değerlendiricilerin tutarlı bir şekilde yürütülmesini kullanır. Bu, tutarlılığı sağlamak için doğrulama çabalarının yeniden çalıştırılmasına ve karşılaştırılmasına ve nihayetinde blok zincirinin kendisi tarafından onaylanmasına olanak tanır.
Truebit tarzı teşvik oyunları: Mali açıdan sağlam her katılımcının dürüst davranmasını ve amaçlanan görevleri yerine getirmesini sağlayan teşvik oyunları oluşturmak için stake etme ve eğik çizgi kullanın.
Katılımcı sistemi, taahhütçüler, çözücüler, doğrulayıcılar ve ihbarcılardan oluşur.
Gönderenler:
Gönderen sistemin son kullanıcısıdır, hesaplanacak görevleri sağlar ve tamamlanan iş birimleri için ödeme yapar;
Solvers:
Çözücü, sistemin birincil çalışanıdır, model eğitimi gerçekleştirir ve doğrulayıcılar tarafından kontrol edilen kanıtlar oluşturur;
Doğrulayıcılar:
Doğrulayıcı, deterministik olmayan eğitim sürecini deterministik doğrusal hesaplamaya bağlamanın, çözücünün ispatının bir kısmını çoğaltmanın ve mesafeyi beklenen eşiğe karşılaştırmanın anahtarıdır;
İhbarcılar:
İhbarcılar, doğrulayıcıların çalışmalarını kontrol eden ve kazançlı bonus ödemeleri umuduyla meydan okumalar yapan son savunma hattıdır.
Sistem çalışıyor
Protokol, dört ana katılımcı rolünü kapsayan sekiz aşamadan oluşacak ve görev tesliminden nihai doğrulamaya kadar tüm süreci tamamlamak için kullanılacak bir oyun sisteminde çalışacak şekilde tasarlanmıştır.
Görevi göndermek için, gönderen görevin ayrıntılarını makine tarafından okunabilir bir biçimde belirtir ve model ikili dosyası (veya makine tarafından okunabilir şema) ve önceden işlenmiş eğitim verilerinin genel olarak erişilebilir bir konumu ile birlikte zincire gönderir. Açığa çıkan veriler, AWS S3 gibi basit bir nesne deposunda veya IPFS, Arweave ya da Subspace gibi merkezi olmayan bir depolama alanında depolanabilir.
Profil Oluşturma: Analiz süreci, kanıtı doğrulamayı öğrenmek için bir temel mesafe eşiği belirler. Doğrulayıcı, analiz görevini periyodik olarak kazıyacak ve öğrenme kanıtı karşılaştırması için bir varyasyon eşiği oluşturacaktır. Eşikler oluşturmak için doğrulayıcılar, farklı rastgele tohumlar kullanarak, kendi kanıtlarını oluşturup kontrol ederek eğitimin bir bölümünü deterministik olarak çalıştıracak ve yeniden çalıştıracaktır. Bu işlem sırasında doğrulayıcı, çözümü doğrulamak için belirleyici olmayan bir çaba olarak kullanılabilecek genel bir beklenen mesafe eşiği belirler.
Eğitim: Analizden sonra görev, genel bir görev havuzuna gider (Ethereum'un Mempool'una benzer). Görevi yürütmek için bir çözücü seçin ve görevi görev havuzundan kaldırın. Çözücü, gönderen tarafından gönderilen meta verilerin yanı sıra sağlanan model ve eğitim verilerine göre görevi gerçekleştirir. Eğitim görevini gerçekleştirirken, çözücü ayrıca doğrulayıcının aşağıdaki optimizasyon adımlarını mümkün olduğunca doğru bir şekilde çoğaltabilmesi için eğitim sürecindeki meta verileri (parametreler dahil) periyodik olarak kontrol ederek ve depolayarak bir öğrenme kanıtı oluşturur.
Prova oluşturma: Çözücü, ağırlık güncellemeleri oluşturmak için kullanılan örnekleri tanımlamak için model ağırlıklarını veya güncellemelerini ve ilgili dizini eğitim veri kümesiyle birlikte düzenli aralıklarla depolar. Kontrol noktası frekansı, daha fazla güvence sağlamak veya depolama alanından tasarruf etmek için ayarlanabilir. Prova "istiflenebilir", yani prova, ağırlıkları başlatmak için kullanılan ağırlıkların rastgele dağılımıyla başlayabilir veya kendi provaları kullanılarak oluşturulan önceden eğitilmiş ağırlıklarla başlayabilir. Bu, protokolün daha spesifik görevler için ince ayar yapılabilen bir dizi kanıtlanmış, önceden eğitilmiş temel model (yani temel modeller) oluşturmasını sağlar.
Kanıtın doğrulanması: Görev tamamlandıktan sonra, çözücü görevi zincire kaydeder ve doğrulayıcının erişmesi için öğrenme kanıtını herkesin erişebileceği bir yerde görüntüler. Doğrulayıcı, doğrulama görevini ortak görev havuzundan çeker ve kanıtın bir bölümünü yeniden çalıştırmak ve mesafe hesaplamasını gerçekleştirmek için hesaplama çalışması gerçekleştirir. Zincir (analiz aşamasında hesaplanan eşiklerle birlikte) daha sonra doğrulamanın kanıtla eşleşip eşleşmediğini belirlemek için elde edilen mesafeyi kullanır.
Grafik tabanlı nokta atışı meydan okuması: Öğrenme kanıtını doğruladıktan sonra, ihbarcı, doğrulamanın kendisinin doğru bir şekilde gerçekleştirilip gerçekleştirilmediğini kontrol etmek için doğrulayıcının çalışmasını kopyalayabilir. Bir ihbarcı, doğrulamanın yanlışlıkla (kötü niyetli veya kötü niyetli olmayan) yapıldığına inanıyorsa, bir ödül almak için sözleşme nisabına itiraz edebilir. Bu ödül, çözücülerden ve doğrulayıcılardan (gerçekten pozitif olması durumunda) veya piyango kasası ödül havuzundan (yanlış pozitif olması durumunda) para yatırma işlemlerinden gelebilir ve tahkim zincirin kendisi kullanılarak gerçekleştirilir. İhbarcılar (kendi durumlarında, doğrulayıcılar) yalnızca uygun tazminat almayı beklerlerse çalışmayı doğrulayacak ve ardından itiraz edeceklerdir. Pratikte bu, ihbarcıların, diğer faaliyetlere sahip ihbarcıların sayısına bağlı olarak ağa katılmaları ve ayrılmalarının beklendiği anlamına gelir (yani, canlı para yatırma ve meydan okumalarla). Bu nedenle, herhangi bir ihbarcı için beklenen varsayılan strateji, daha az sayıda başka ihbarcı olduğunda ağa katılmak, para yatırmak, rastgele aktif bir görev seçmek ve doğrulama sürecini başlatmaktır. İlk görev bittikten sonra, başka bir rastgele aktif görev alacaklar ve ihbarcıların sayısı belirlenen ödeme eşiğini aşana kadar tekrarlayacaklar ve ardından durum tekrar tersine dönene kadar ağdan ayrılacaklar (veya daha büyük olasılıkla, ağdaki başka bir role geçecekler - doğrulayıcı veya çözücü - donanım yeteneklerine bağlı olarak).
Sözleşme tahkimi: Bir doğrulayıcıya bir ihbarcı tarafından itiraz edildiğinde, ihtilaflı eylemin veya girdinin nerede olduğunu bulmak için zincirle bir sürece girerler ve son olarak zincir nihai temel işlemi gerçekleştirir ve itirazın haklı olup olmadığını belirler. İhbarcıyı dürüst ve güvenilir tutmak ve doğrulayıcıların ikileminin üstesinden gelmek için, burada düzenli zorunlu hatalar ve ikramiye ödemeleri sunulmaktadır.
Uzlaşma: Uzlaşma sürecinde, katılımcılara olasılık ve kesinlik kontrollerinin sonucuna göre ödeme yapılır. Önceki doğrulamaların ve zorlukların sonuçlarına bağlı olarak, farklı senaryolar için farklı ödemeler olacaktır. İşin doğru yapıldığı ve tüm kontrollerden geçtiği kabul edilirse, çözüm sağlayıcı ve doğrulayıcı alınan aksiyona göre ödüllendirilir.
Projenin kısa bir incelemesi
Gensyn, doğrulama katmanı ve teşvik katmanı üzerinde, ağdaki ayrışma noktalarını bularak hatayı hızlı bir şekilde tespit edebilen harika bir oyun sistemi tasarladı, ancak mevcut sistemde hala eksik olan birçok detay var. Örneğin, eşik çok yüksek olmadan ödüllerin ve cezaların makul olmasını sağlamak için parametreler nasıl belirlenir? Oyun, aşırı durum ile çözücünün bilgi işlem gücü arasındaki farkı dikkate aldı mı? Teknik incelemenin mevcut sürümünde heterojen paralel operasyonun ayrıntılı bir açıklaması yoktur ve Gensyn'in uygulanmasının hala zor ve uzun olduğu görülmektedir.
Together.ai
Together, büyük modellerin açık kaynağına odaklanan ve herkesin yapay zekaya her yerden erişebileceğini ve kullanabileceğini umarak merkezi olmayan yapay zeka bilgi işlem çözümlerine kendini adamış bir şirkettir. Açıkça söylemek gerekirse, Together bir blok zinciri projesi değildir, ancak proje, merkezi olmayan AGI bilgi işlem ağındaki gecikme sorununu önceden çözmüştür. Bu nedenle, aşağıdaki makale yalnızca Together'ın çözümünü analiz eder ve projeyi değerlendirmez.
Merkezi olmayan bir ağ bir veri merkezinden 100 kat daha yavaş olduğunda büyük modeller nasıl eğitilebilir ve çıkarılabilir?
Ademi merkeziyetçilik kaldırılırsa ağa katılan GPU cihazlarının dağılımının nasıl görüneceğini hayal edelim. Bu cihazlar farklı kıtalarda, farklı şehirlerde dağıtılacak ve birbirine bağlı olmaları gerekecek ve bağlantının gecikmesi ve bant genişliği değişecektir. Aşağıdaki şekilde gösterildiği gibi, Kuzey Amerika, Avrupa ve Asya'ya dağıtılan cihazlarla, cihazlar arasında değişen bant genişliği ve gecikme süresiyle dağıtılmış bir senaryonun simülasyonu yapılmıştır. Peki seri bağlamak için ne yapılması gerekiyor?
! Potansiyel Parça Önizlemesi: Merkezi Olmayan Bilgi İşlem Güç Piyasası (Bölüm I)
Dağıtılmış eğitim bilgi işlem modellemesi: Aşağıdaki şekil, birden fazla cihazda temel model eğitimini göstermektedir ve iletişim türleri açısından üç iletişim türü vardır: İleri Etkinleştirme, Geri Gradyan ve Yanal İletişim.
! Potansiyel Parça Önizlemesi: Merkezi Olmayan Bilgi İşlem Güç Piyasası (Bölüm I)
İletişim bant genişliği ve gecikme süresi ile birlikte, iki paralellik biçiminin dikkate alınması gerekir: çoklu cihaz durumundaki üç iletişim türüne karşılık gelen boru hattı paralelliği ve veri paralelliği:
Boru hattı paralelliğinde, modelin tüm katmanları, her cihazın birden fazla transformatör bloğu gibi sürekli bir katman dizisi olan bir fazı işlediği aşamalara ayrılır; İleri geçişte aktivasyon bir sonraki aşamaya geçerken, geri geçişte aktivasyonun gradyanı bir önceki aşamaya geçirilir.
Veri paralelliğinde, cihaz farklı mikrogrupların gradyanlarını bağımsız olarak hesaplar, ancak bu gradyanları senkronize etmek için iletişim kurar.
Zamanlama Optimizasyonu:
Merkezi olmayan bir ortamda, eğitim süreci genellikle iletişimle sınırlıdır. Zamanlama algoritmaları genellikle daha yüksek bağlantı hızlarına sahip cihazlara büyük miktarda iletişim gerektiren görevler atar ve görevler arasındaki bağımlılıklar ve ağın heterojenliği göz önüne alındığında, önce belirli bir zamanlama stratejisinin maliyetinin modellenmesi gerekir. Temel modeli eğitmenin karmaşık iletişim maliyetini yakalamak için, Together yeni bir formül önerir ve maliyet modelini grafik teorisi aracılığıyla iki seviyeye ayırır:
! Potansiyel Parça Önizlemesi: Merkezi Olmayan Bilgi İşlem Güç Piyasası (Bölüm I)
Yukarıdaki şekil, sürecin şematik bir diyagramıdır, çünkü gerçek uygulama süreci bazı karmaşık hesaplama formüllerini içerir. Anlaşılmasını kolaylaştırmak için, aşağıda şemadaki süreç meslekten olmayanların terimleriyle açıklanacaktır ve ayrıntılı uygulama sürecine, Together resmi web sitesindeki belgelerde kendiniz danışabilirsiniz.
N cihazlı D ayarlı bir cihaz olduğunu ve aralarındaki iletişimin belirsiz bir gecikmeye (A-matrisi) ve bant genişliğine (B-matrisi) sahip olduğunu varsayalım. D cihaz setine bağlı olarak, önce dengeli bir grafik segmentasyonu oluştururuz. Her bölme veya cihaz grubundaki cihaz sayısı yaklaşık olarak eşittir ve hepsi aynı işlem hattı aşamalarını işler. Bu, veriler paralel hale getirildiğinde, cihaz gruplarının benzer miktarda iş gerçekleştirmesini sağlar. (Veri paralelliği, birden fazla cihazın aynı görevi gerçekleştirmesidir, ardışık düzen aşamaları ise cihazların belirli bir sırada farklı görev adımlarını gerçekleştirdiği zamandır). İletişimin gecikmesine ve bant genişliğine bağlı olarak, cihaz grupları arasında veri aktarımının "maliyeti" formüller aracılığıyla hesaplanabilir. Her dengeli cihaz grubu, her düğümün boru hattının bir aşamasını temsil ettiği ve kenarların iki aşama arasındaki iletişimin maliyetini temsil ettiği tam bağlantılı bir kaba grafik oluşturmak için birleştirilir. İletişim maliyetlerini en aza indirmek için, hangi cihaz gruplarının birlikte çalışması gerektiğini belirlemek için bir eşleştirme algoritması kullanılır.
Daha fazla optimizasyon için sorun, tüm cihazlar arasında veri aktarımı için en uygun yolu bulmak için açık döngülü bir gezgin satıcı sorunu (açık döngü, yolun kaynağına geri dönmeye gerek olmadığı anlamına gelir) olarak da modellenebilir. Son olarak, Together, iletişim maliyetlerini en aza indirmek ve eğitim verimini en üst düzeye çıkarmak amacıyla belirli bir maliyet modeli için en uygun tahsis stratejisini bulmak için yenilikçi zamanlama algoritmasını kullanır. Gerçek ölçümlere göre, bu zamanlama optimizasyonu altında ağ 100 kat daha yavaş olsa bile, uçtan uca eğitim verimi yalnızca yaklaşık 1,7 ila 2,3 kat daha yavaştır.
İletişim Sıkıştırma Optimizasyonu:
! Potansiyel Parça Önizlemesi: Merkezi Olmayan Bilgi İşlem Güç Piyasası (Bölüm I)
İletişim sıkıştırmasının optimizasyonu için Together, AQ-SGD algoritmasını tanıtır (ayrıntılı hesaplama işlemi için lütfen Garantili Aktivasyon Sıkıştırmasını Kullanarak Yavaş Ağlar Üzerinden Dil Modellerinde İnce Ayar makalesine bakın). AQ-SGD algoritması, düşük hızlı ağlarda boru hattı paralel eğitiminin iletişim verimliliği sorununu çözmek için tasarlanmış yeni bir aktif sıkıştırma teknolojisidir. Etkinlik değerini doğrudan sıkıştırmanın önceki yöntemlerinden farklı olarak, AQ-SGD, aynı eğitim örneğinin etkinlik değerindeki değişiklikleri farklı dönemlerde sıkıştırmaya odaklanır ve bu benzersiz yöntem, ilginç bir "kendi kendini yürüten" dinamik sunar ve algoritmanın performansının, eğitim stabilize oldukça kademeli olarak iyileşmesi beklenir. Titiz teorik analizden sonra, AQ-SGD algoritması, belirli teknik koşullar altında iyi bir yakınsama oranına ve sınırlı hata ile niceleme fonksiyonuna sahip olduğunu kanıtlar. Algoritma, etkin değeri depolamak için daha fazla bellek ve SSD gerektirmesine rağmen, ek uçtan uca çalışma zamanı yükü eklemeden verimli bir şekilde uygulanabilir. Dizi sınıflandırması ve dil modelleme veri kümeleri üzerinde kapsamlı deneysel doğrulama sayesinde AQ-SGD, yakınsama performansından ödün vermeden etkinlik değerlerini 2-4 bite sıkıştırabilir. Ek olarak, AQ-SGD, "uçtan uca iletişim sıkıştırması" elde etmek için son teknoloji gradyan sıkıştırma algoritmalarıyla da entegre edilebilir, yani model gradyanları, ileri aktivite değerleri ve ters gradyanlar dahil olmak üzere tüm makineler arasındaki veri alışverişi düşük hassasiyetle sıkıştırılır, böylece dağıtılmış eğitimin iletişim verimliliğini büyük ölçüde artırır. Merkezi bir bilgi işlem ağının (ör. 10 Gb/sn) sıkıştırma olmadan uçtan uca eğitim performansıyla karşılaştırıldığında, şu anda yalnızca %31 daha yavaştır. Zamanlama optimizasyonu verileriyle birleştiğinde, merkezi bilgi işlem güç ağından hala belirli bir boşluk olmasına rağmen, gelecekte yetişmek için nispeten büyük bir umut var.
Sonuç
AI dalgasının getirdiği temettü döneminde, AGI bilgi işlem gücü pazarı, şüphesiz birçok bilgi işlem gücü pazarı arasında en büyük potansiyele ve en çok talebe sahip pazardır. Bununla birlikte, geliştirme zorluğu, donanım gereksinimleri ve sermaye gereksinimleri de en yüksektir. Yukarıdaki iki projeyle birleştiğinde, AGI bilgi işlem gücü pazarının uygulanmasından hala belirli bir mesafe var ve gerçek merkezi olmayan ağ, bulut devleriyle rekabet etmek için yeterli olmayan ideal durumdan çok daha karmaşık. Bu makalenin yazıldığı sırada, emekleme aşamasında (PPT aşaması) olan bazı projelerin, daha az zor olan çıkarım aşamasına veya daha pratik girişimler olan küçük modellerin eğitimine odaklanmak gibi bazı yeni giriş noktalarını keşfetmeye başladığı da gözlemlendi.
Birçok zorlukla karşı karşıya olmasına rağmen, uzun vadede AGI bilgi işlem gücünün ademi merkeziyetçiliğinin ve izinsiz öneminin birkaç merkezi devde yoğunlaşmaması önemlidir. Çünkü insanlığın, bırakın pahalı "üyelik aidatları" ödemeyi, yeni bir "din"e ya da yeni bir "papa"ya ihtiyacı yoktur.
bibliyografya
1.Gensyn Litepaper:
2.NeurIPS 2022: Merkezi Olmayan Eğitim için İletişim Darboğazlarının Üstesinden Gelmek:
Garantili Aktivasyon Sıkıştırmasını Kullanarak Yavaş Ağlar Üzerinden Dil Modellerinde İnce Ayar Yapma:
Makine Öğrenimi Hesaplama Protokolü ve geleceğimiz:
5.Microsoft:Kazanç Açıklaması FY23 Q2:
AI biletleri için yarışın: BAT ve Byte Meituan GPU için yarışıyor:
IDC: 2022-2023 Küresel Bilgi İşlem Gücü Endeksi Değerlendirme Raporu:
Guosheng Menkul Kıymetler büyük model eğitim tahmini:
Bilginin Kanatları: Bilgi işlem gücü ve yapay zeka arasındaki ilişki nedir? :