GPT-4 adalah model campuran dari 8x220 miliar parameter? Gosip ini menggila hari ini

Question

Sumber: Jantung Mesin> George Hotz: Kecuali Apple, alasan mengapa sebagian besar perusahaan menyimpan rahasia bukanlah untuk menyembunyikan beberapa teknologi hitam, tetapi untuk menyembunyikan beberapa hal yang "tidak begitu keren".“Volume parameter GPT-4 setinggi 100 triliun.” Saya yakin banyak orang masih ingat berita “berat” yang menggesek layar awal tahun ini dan grafik yang tersebar viral.![](https://img.gateio.im/social/moments-bab2147faf-c6ea22b629-dd1a6f-62a40f) Namun segera, CEO OpenAI Sam Altman keluar untuk membantah rumor tersebut, membenarkan bahwa ini adalah berita palsu, dan berkata, "Rumor tentang GPT-4 itu konyol. Saya bahkan tidak tahu dari mana asalnya."Faktanya, banyak orang percaya dan menyebarkan rumor tersebut karena komunitas AI telah meningkatkan ukuran parameter model AI dalam beberapa tahun terakhir. Switch Transformer yang dirilis Google pada Januari 2021 menaikkan parameter model besar AI menjadi 1,6 triliun. Sejak itu, banyak institusi secara berturut-turut meluncurkan model besar triliunan parameter mereka sendiri. Berdasarkan hal ini, orang memiliki banyak alasan untuk percaya bahwa GPT-4 akan menjadi model yang sangat besar dengan triliunan parameter, dan 100 triliun parameter bukanlah hal yang mustahil.Meskipun rumor Sam Altman membantu kami menghilangkan jawaban yang salah, tim OpenAI di belakangnya telah bungkam tentang parameter sebenarnya dari GPT-4, dan bahkan laporan teknis resmi GPT-4 tidak mengungkapkan informasi apa pun.Sampai saat ini, misteri ini diduga ditembus oleh "hacker jenius" George Hotz.George Hotz terkenal karena memecahkan iPhone pada usia 17 tahun dan meretas Sony PS3 pada usia 21 tahun. Saat ini ia adalah bos sebuah perusahaan (comma.ai) yang mengembangkan sistem bantuan mengemudi otomatis.Dia baru-baru ini diwawancarai oleh podcast teknologi AI bernama Latent Space. Dalam wawancara tersebut, dia berbicara tentang GPT-4, mengatakan bahwa GPT-4 sebenarnya adalah model hybrid. Secara khusus, ini menggunakan sistem ansambel dari 8 model pakar, masing-masing dengan 220 miliar parameter (sedikit lebih banyak dari 175 miliar parameter GPT-3), dan model ini telah dilatih pada data yang berbeda dan pelatihan distribusi tugas.![](https://img.gateio.im/social/moments-bab2147faf-7913ab5955-dd1a6f-62a40f) Setelah podcast ini disiarkan, pencipta PyTorch Soumith Chintala mengatakan bahwa dia sepertinya telah mendengar "rumor" yang sama, dan banyak orang mungkin pernah mendengarnya, tetapi hanya George Hotz yang mengatakannya di depan umum.![](https://img.gateio.im/social/moments-bab2147faf-e857d562e9-dd1a6f-62a40f) "Model hybrid adalah model yang Anda pertimbangkan saat Anda berada di ujung tali," canda George Hotz. "Model hybrid muncul karena Anda tidak dapat membuat model lebih besar dari 220 miliar parameter. Mereka ingin modelnya menjadi lebih baik , tetapi jika hanya Waktu pelatihan lebih lama, dan efeknya berkurang. Oleh karena itu, mereka mengadopsi delapan model ahli untuk meningkatkan kinerja.” Mengenai cara kerja model hybrid ini, George Hotz tidak menjelaskan lebih lanjut.![](https://img.gateio.im/social/moments-bab2147faf-20616686e1-dd1a6f-62a40f) Mengapa OpenAI begitu merahasiakan hal ini? George Hotz percaya bahwa, kecuali Apple, alasan mengapa sebagian besar perusahaan merahasiakannya bukanlah untuk menyembunyikan beberapa teknologi hitam, tetapi untuk menyembunyikan beberapa hal yang "tidak terlalu keren", dan tidak ingin orang lain tahu bahwa "selama Anda membelanjakan 8 kali uang, Anda bisa mendapatkan model ini".Mengenai tren masa depan, dia percaya bahwa orang akan melatih model yang lebih kecil dan meningkatkan performa melalui penyempurnaan jangka panjang dan menemukan berbagai trik. Dia menyebutkan bahwa dibandingkan dengan masa lalu, efek pelatihan telah meningkat secara signifikan, meskipun sumber daya komputasi tidak berubah, yang menunjukkan bahwa peningkatan metode pelatihan telah memainkan peran besar.Saat ini, "breaking news" George Hotz tentang GPT-4 telah tersebar luas di Twitter.![](https://img.gateio.im/social/moments-bab2147faf-195a7471f0-dd1a6f-62a40f) Seseorang terinspirasi olehnya dan mengaku melatih ansambel LLaMA melawan GPT-4.![](https://img.gateio.im/social/moments-bab2147faf-caf5535cca-dd1a6f-62a40f) Dikatakan juga, jika, seperti yang dikatakan George Hotz, GPT-4 adalah model hybrid yang terdiri dari 8 model ahli dengan 220 miliar parameter, sulit membayangkan betapa mahal alasan di baliknya.![](https://img.gateio.im/social/moments-bab2147faf-f62695f724-dd1a6f-62a40f) Perlu diketahui bahwa karena George Hotz tidak menyebutkan sumbernya, saat ini kami tidak dapat menilai apakah pernyataan di atas benar.