Detail pelatihan GPT-4 OpenAI tentang "belum lagi kematian" telah dirilis, ini interpretasi saya

2023-07-17 05:58:58

Sumber Asli: Minoritas

Sumber gambar: Dihasilkan oleh AI Tak Terbatas

Itu adalah pagi yang biasa beberapa hari yang lalu. Saya sedang memindahkan batu bata setiap hari, dan tiba-tiba segala macam informasi membanjiri: "Cepatlah, struktur model GPT-4 telah bocor, dan model besar yang diproduksi di dalam negeri akan melampauinya lagi!"

Nyalakan media sosial dan lihat, oke, Anda tidak perlu berbicara bahasa Inggris, dan orang-orang domestik sudah online, saya sangat yakin dengan kecepatan ini. Namun, ketika saya menelusuri sumbernya dan melihat seberapa andal informasi tersebut, tiba-tiba saya merasa bahwa saya telah keluar dari lingkaran teknologi dari lingkaran hiburan.

Mengingat keadaan Internet saat ini di mana "Berita Palsu" bertebaran di langit, hal pertama yang saya lakukan setelah melihat berita ini adalah melacak sumbernya.

▍Masuk dan keluar

Titik awal untuk penambangan informasi saya adalah utas tweet yang dibagikan di Berita Peretas yang diekstraksi melalui Pembaca Utas (diarsipkan 11 Juli). Klik untuk membukanya, dan ada dua kalimat:

Detail GPT-4 bocor. Sudah berakhir.

Level pesta tajuk ini tidak kalah dengan di China.

Seperti yang kita semua tahu, OpenAI melanggar komitmennya untuk membuka saat merilis GPT-4, tidak mengungkapkan bobot atau detail teknis apa pun, dan dikritik secara luas oleh industri. Ini mungkin mengapa blogger menggunakan It is over stalk untuk membuat efek dramatis "pembalikan plot".

Melihat kontennya lagi, ini adalah detail pelatihan GPT-4 OpenAI yang bungkam. Ada banyak spekulasi tentang informasi ini, tetapi pejabat itu tidak mengungkapkannya, ketika disebutkan sangat kabur (teks aslinya relatif tidak jelas, menggunakan banyak singkatan dan jargon, beberapa akan dijelaskan nanti) :

Jumlah parameter model: 1,8 triliun, sekitar 10 kali lebih besar dari GPT-3.5 (175 miliar).
Kedalaman Lapisan Model: 120 lapisan.
Model Architecture: Mixed Expert Model (MoE, lihat di bawah untuk penjelasan), total 16 "ahli", masing-masing dengan 111 miliar parameter. Setiap penerusan inferensi (menghasilkan output token) memilih dua pakar.
Data pelatihan: Total 13T (13 triliun) data token. Data teks dilatih ulang 2 kali, dan data kode dilatih ulang 4 kali. Data ini sebenarnya sangat penting dan akan dianalisis secara detail nanti.
Strategi paralel: paralelisme tensor 8 arah + paralelisme pipeline 16 arah. Ada beberapa cluster GPU yang terletak di pusat data berbeda yang berlatih secara bersamaan, setiap cluster memiliki 128 GPU.
Konteks pra-pelatihan: 8K. Versi 32K disempurnakan dari 8K.
Biaya pelatihan: Pelatihan berkelanjutan selama 90 hingga 100 hari dengan sekitar 25.000 A100 dengan kecepatan sekitar 2,15e25 kegagalan. Dengan $1 per A100 jam, biayanya sekitar $63 juta. (Dapat dilakukan hari ini dalam waktu sekitar 55 hari menggunakan sekitar 8192 H100 dengan perkiraan biaya $21,5 juta.)

Pertanyaannya adalah, bagaimana informasi ini muncul, dan apakah dapat dipercaya?

Ikuti pohon anggur untuk menyentuh "melon", dan saya menemukan penerbit rangkaian tweet ini - Yam Peleg.

Walaupun saya belum follow akun pak tua ini, saya sudah membaca artikel-artikelnya sebelumnya. Dia adalah CEO dari "perusahaan pemula" di Israel (tetapi telah berdiri selama 15 tahun, dan mungkin tidak tepat untuk menyebutnya sebagai perusahaan pemula); Saya memiliki pengalaman teknik yang kaya dan memahami model bahasa yang besar. Saya telah mencoba untuk membalikkan crack GPT-4 dan penerjemah kode ChatGPT. Pada bulan Juni tahun ini, ketika anggota OpenAI mengunjungi Israel, Peleg juga ikut berpartisipasi dalam diskusi dan komunikasi, serta berfoto dengan CEO Sam Altman.

Membaca artikel lelaki tua ini, mau tidak mau saya memikirkan Tom, seorang petugas penghubung siswa yang saya temui di Israel, yang dapat membuat darah Anda mendidih jika Anda mengatakan sesuatu.

Dari kiri: Sam Altman, Yam Peleg (Sumber: @Yampeleg)

Mengingat orang tua ini telah meneliti OpenAI dan mengenal banyak orang di dalam OpenAI, jadi jika dia mendapatkan beberapa informasi internal, menurut saya kredibilitasnya sebenarnya cukup tinggi.

Tetapi ketika saya hendak mempelajari postingannya dengan hati-hati di malam hari, tiba-tiba saya menemukan bahwa dia telah menghapus semua postingan sebelumnya. Awalnya, saya pikir saya dilindungi oleh OpenAI, tetapi saya senang karena saya menyimpan file tersebut. Setelah melihat lebih dekat, saya menemukan bahwa itu bukan karena OpenAI meminta penghapusan, tetapi karena dia juga melaporkannya dari kolom pembayaran dan mengeluhkan pelanggaran hak cipta.

Sumber aslinya adalah kolom Substack yang disebut SemiAnalysis.Mereka menerbitkan artikel berjudul GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE sebelumnya, di balik paywall.

Setelah memeriksanya, saya menemukan:

SemiAnalysis adalah perusahaan penelitian dan konsultasi semikonduktor butik yang berfokus pada rantai pasokan semikonduktor dari bahan baku kimia hingga hebat hingga merancang IP dan strategi. Perusahaan ini didirikan oleh Dylan Patel, seorang analis dan insinyur dengan pengalaman bertahun-tahun di industri semikonduktor. Patel telah memegang berbagai peran mulai dari insinyur desain hingga manajer pemasaran di Intel, AMD, Qualcomm, dan lainnya. Tim SemiAnalysis juga mencakup sejumlah analis dan konsultan semikonduktor profesional. Mereka masing-masing memiliki bidang keahlian yang berbeda, seperti AI, komputasi awan, jaringan, penyimpanan, kendaraan listrik, frekuensi radio, Internet of Things, dll. Mereka memberi pelanggan analisis rantai pasokan semikonduktor yang komprehensif dan layanan konsultasi mulai dari bahan baku kimia hingga fabrikasi untuk merancang IP dan strategi.

Sebelumnya, SemiAnalysis juga menerbitkan sebuah artikel yang mengungkapkan bahwa para insinyur Google mengatakan dalam komunikasi internal bahwa "Kami Tidak Memiliki Parit, Dan Juga OpenAI" (Kami Tidak Memiliki Parit, Dan Juga Tidak OpenAI), yang menyebabkan banyak diskusi. Artikel ini kemudian dikonfirmasi kebenarannya.

Dari segi ini, Saudara Dylan Patel mungkin memang memiliki beberapa orang dalam, dan kredibilitas informasi yang mereka berikan harus tetap dapat diterima.

Adapun mengapa mereka sangat ingin agar Brother Yam menghapus tweet - karena "informasi orang dalam" ini memang berharga, dan berlangganan artikel berbayar SemiAnalysis berharga $500 setahun. Berlangganan Brother Yam ke versi elite berharga $1.000.

▍Analisis Kartu

Menurut seluk beluk ini, menurut saya rumor ini masih memiliki tingkat kredibilitas tertentu. Berikut ini adalah beberapa analisis saya berdasarkan informasi ini, yang saya usulkan untuk didiskusikan.

Persaingan untuk model privat akan berfokus pada paralelisme

Menurut rumor ini, jika Anda ingin melatih pesaing GPT-4, diperkirakan menggunakan sekitar 8.192 chip H100, dengan harga $2 per jam, pra-pelatihan dapat diselesaikan dalam waktu sekitar 55 hari, dan biayanya adalah sekitar $21,5 juta (150 juta RMB).

Biaya ini sebenarnya tidak terlalu besar untuk pasar LLM yang bergejolak saat ini. Para pemain besar domestik saat ini dapat dengan mudah melakukan beberapa sesi latihan. Jadi, sejujurnya kali ini, mungkin benar-benar tidak menyombongkan benchmark GPT-4 dalam waktu setengah tahun dengan kemampuan model (setidaknya skala parameter).

Jika biaya pelatihan tidak menjadi masalah, apakah data pelatihan akan menjadi masalah? Saya rasa tidak juga. Dikabarkan bahwa data pelatihan GPT-4 memiliki total 13T (13 triliun) token. Sebagai perbandingan, kumpulan data publik CommonCrawl dan RefinedWeb memiliki token 5T. Dikabarkan bahwa sisanya berasal dari Twitter, Reddit, dan YouTube; beberapa tuntutan hukum juga mengklaim bahwa OpenAI menggunakan data bajakan dari "perpustakaan bayangan" seperti LibGen dan SciHub.

Oleh karena itu, menurut saya skala data ini tidak dapat dicapai, selain itu, negara itu sendiri telah mengumpulkan banyak sumber daya Tiongkok, sehingga data pelatihan seharusnya tidak menjadi masalah besar.

Untuk masalah lain seperti pre-training, fine-tuning, dan Chinese encoding and decoding, ternyata tidak terlalu banyak rahasia teknis, dan metodenya relatif terbuka. Dengan sumber daya yang cukup, itu harus diselesaikan dalam setengah tahun.

Jadi, ambang terakhir yang tersisa adalah paralelisme. Nyatanya, sejumlah besar ruang telah digunakan dalam rumor ini untuk memperkenalkan konten yang relevan, dan tingkat profesionalnya masih relatif tinggi, saya hanya bisa memberikan beberapa penjelasan dangkal di sini.

Secara kasar, yang disebut masalah paralel adalah Anda memiliki model besar, bagaimana membiarkan kebanyakan orang menggunakannya pada saat yang sama dengan biaya terendah. Ini melibatkan banyak masalah desain profesional Dalam kasus sumber daya komputasi tetap, bagaimana cara mengalokasikan sumber daya komputasi di tautan yang berbeda? Bagaimana menangani konkurensi? Bagaimana cara mengelola memori?

Kemampuan pemrosesan paralel secara langsung menentukan pengalaman pengguna. Saat ini, ChatGPT dan API berbasis GPT-3.5 relatif lancar, yang sangat bertenaga. Semua orang di sini mungkin mengatakan bahwa LLM domestik lain atau Claude yang saya alami lebih cepat daripada GPT-3.5. Namun, semua orang tidak mempertimbangkan besarnya penggunaan. GPT-3.5 memiliki kinerja seperti itu di bawah konkurensi yang tinggi. Jika pabrikan lain tidak dapat menandingi kemampuan OpenAI, mereka tidak akan dapat merebut pasar OpenAI.

Oleh karena itu, kapabilitas paralel dapat menjadi salah satu poin kunci persaingan untuk berbagai pesaing OpenAI.

GPT-5 berfokus pada multimodality

Seperti disebutkan sebelumnya, dikabarkan bahwa GPT-4 adalah model "campuran ahli" (MoE) yang terdiri dari 16 model ahli. Berikut adalah penjelasan singkat tentang apa itu "pencampuran ahli", yang mengacu pada membagi "masalah" pengguna menjadi beberapa sub-masalah, dan setiap sub-masalah diserahkan ke model yang lebih kecil (yaitu, "ahli") untuk memecahkan, dan kemudian melalui "model routing" dipilih dan digabungkan, dan kemudian output ke pengguna.

Desas-desus selanjutnya mengklaim bahwa setiap "ahli" GPT-4 memiliki 111 miliar parameter setara dengan GPT-3 (ini konsisten dengan parameter GPT-4 yang dikatakan Sam Altman sebelumnya bahkan lebih kecil dari GPT-3.5), di antaranya ada 55 miliar Parameter dibagikan. Setiap lintasan inferensi maju (menghasilkan output token) menggunakan dua "pakar", yang secara efektif menghabiskan sekitar 280 miliar parameter. Angka ini secara signifikan lebih kecil dari jumlah yang dibutuhkan tanpa KLH, dan ini juga mirip dengan prediksi banyak sarjana di tahap awal.

Perlu dicatat bahwa rumor menunjukkan bahwa teks dan data kode yang digunakan untuk pelatihan GPT-4 digunakan kembali. Dikombinasikan dengan pilihan untuk menggunakan kerangka kerja MoE, saya pribadi menebak: baik data teks berkualitas tinggi yang dapat dengan mudah diperoleh saat ini hampir habis, atau peningkatan kinerja LLM dengan menambah jumlah data tanpa batas sudah sangat terbatas.

Namun, apa pun situasinya, jika GPT-5 ingin memiliki terobosan kinerja yang besar, ia harus dapat memanfaatkan sepenuhnya data video, gambar, dan audio dalam jumlah besar yang ada, dengan kata lain, itu adalah " model multimodal".

Masalahnya adalah, menurut rumor ini, multimodalitas visual OpenAI saat ini tidak memiliki banyak hal untuk ditawarkan. Ini adalah encoder visual independen yang menggunakan teks sebagai input untuk pra-pelatihan dan kemudian menggunakan sekitar 2 triliun Token untuk penyempurnaan. Metode pelatihan ini jelas tidak dapat memanfaatkan sepenuhnya data video, gambar, dan audio yang ada.

Oleh karena itu, OpenAI selalu menekankan bahwa GPT-5 belum dilatih, dan kemungkinannya benar. Sebelum melatih GPT-5, mereka harus menemukan arsitektur model multimodal yang lebih baik sehingga model tersebut dapat memanfaatkan sepenuhnya data audio dan video. Hanya dengan dapat menggunakan data pelatihan berkualitas tinggi ini, GPT-5 dapat memperoleh peningkatan kapasitas yang memadai. (Pada saat yang sama, jika GPT-5 benar-benar dapat memanfaatkan sepenuhnya data audio dan video ini, maka apakah itu "Badan Kecerdasan Super" yang baru-baru ini diusulkan oleh AGI atau OpenAI, tampaknya tidak terlalu jauh.)

OpenAI mungkin sengaja merilis rumor ini

Kesimpulan ini murni spekulasi pribadi. Fakta saja tidak cukup, lihat saja.

Pemahaman saya adalah bahwa OpenAI sangat menyadari bahwa parit GPT-4 tidak dalam, dalam kegilaan saat ini, tidak sulit bagi pesaing untuk mengejar ketinggalan. Dan seperti yang dianalisis di atas, struktur model skala besar multi-modal mereka saat ini tidak boleh diselesaikan.Pada saat ini, jika pemain baru muncul dan menerobos dari multi-modal, kemungkinan OpenAI disusul oleh kurva juga sangat tinggi .

Jadi, ini mungkin rencana OpenAI untuk memperlambat perang - saya akan mengungkapkan beberapa informasi GPT-4 kepada Anda, biarkan pemain kepala terlebih dahulu melakukan pekerjaan pemeragaan ulang GPT-4, dan berjalan di jalan yang telah dilalui OpenAI. .

Jika selama proses ini, OpenAI telah meletakkan dasar untuk pelatihan GPT-5 dan menyelesaikan penelitian pendahuluan model besar multi-modal, bahkan jika GPT-4 telah dilampaui oleh model bahasa besar lainnya, OpenAI tidak akan panik. Secara pribadi, menurut saya multimodalitas kemungkinan akan menjadi generasi terakhir dari keterlibatan manusia, dan AGI mungkin menjadi kekuatan utama dalam pengembangan dan evolusi model di masa depan. Dengan kata lain, jika Anda menang kali ini, Anda mungkin menang sampai akhir.

Lihat Asli

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
Pump.Fun Debuts on Gate
22 Popularitas
Join Gate VIP to Win MacBook
28k Popularitas
Trump Tariff Hikes
13k Popularitas
4HK Stablecoin Rules
2k Popularitas
5Truth Social Crypto ETF
778 Popularitas
6Gate Square Writing Contest Phase 1
5k Popularitas
7Altcoin ETF Watch
4k Popularitas
8Gate Alpha Trading Share
11k Popularitas
9Dr.Han Joins Gate Square
45k Popularitas
10Gate Square Creator Spark Program
152k Popularitas

Sematkan

peta situs