Pada tanggal 19 Juli, Meta mengumumkan rilis resmi model bahasa besar Llama2 di situs resminya. Ini adalah versi terbaru dari model bahasa besar Meta dan model bahasa besar komersial open source pertama Meta. Pada saat yang sama, Microsoft Azure juga mengumumkan bahwa akan bekerjasama dengan Llama2 secara mendalam.
Menurut data resmi Meta, Llama 2 telah meningkatkan data pelatihannya sebesar 40% dibandingkan dengan generasi sebelumnya, termasuk 3 versi parameter 7 miliar, 13 miliar, dan 70 miliar. Model pra-pelatihan Llama 2 telah dilatih pada 2 triliun token dengan panjang konteks dua kali lipat dari Llama 1, dan model yang disetel dengan baik telah dilatih pada lebih dari 1 juta anotasi manusia.
Performanya dikatakan sebanding dengan GPT-3.5, dan juga dikenal sebagai model besar open source terbaik. Begitu beritanya dirilis, media dan industri bahkan memberikan kesimpulan bahwa komersialisasi open source Llama2 akan mengubah lanskap persaingan di bidang model besar. Seberapa besar dampak dari kejadian ini? Apa dampaknya bagi industri? Kami mengundang dua orang di industri untuk mengobrol. Salah satunya adalah Zhou Songtao, wakil manajer umum Pusat R&D Produk Leo Group Digital Technology Co., Ltd.. Dia memimpin tim untuk hampir mengevaluasi sebagian besar model besar arus utama di rumah dan di luar negeri, yang lainnya Adalah Nyonya Jiao Juan, Presiden Institut Penelitian Kosmik Anxinyuan, yang telah mengamati secara mendalam ekologi industri teknologi di dalam dan luar negeri selama bertahun-tahun.
Berikut ini adalah sudut pandang utama dari keduanya:
① Llama2 mempertimbangkan parameter model, konsumsi waktu, konsumsi daya komputasi, dan aspek lainnya secara komprehensif Dibandingkan dengan GPT-3.5, ia percaya diri.
② Kecerdasan buatan generatif akan membawa perubahan yang mengguncang dunia ke seluruh sistem open source.
③ Di masa mendatang, open source dan closed source pasti akan saling berayun, dan pola permainan dan kompetisi timbal balik akan terbentuk di bidang ini dalam waktu yang cukup lama.
④ Sumber terbuka komersial Llama2 tidak serta merta mengurangi biaya bagi pengusaha untuk menggunakan model besar, tetapi dapat menyebabkan penyedia layanan model besar memulai perang harga, yang merupakan kabar baik bagi pengguna dan pengusaha.
⑤ Persaingan raksasa luar negeri di bidang AI tidak lagi sesederhana pengembangan kurva kedua. Persaingannya sengit dan menentukan, bahkan sedikit menyelamatkan nyawa. Alasan di baliknya patut untuk direnungkan.
Berikut ini adalah pilihan konten percakapan:
**Teknologi Tencent: Dari perspektif praktisi atau aplikator industri, bagaimana cara mengevaluasi model besar? **
Zhou Songtao: MMLU adalah kerangka evaluasi model berskala besar yang paling banyak digunakan di dunia. Kerangka ini mempertimbangkan pengetahuan dan kemampuan komprehensif dari 57 disiplin ilmu, dari humaniora hingga ilmu sosial hingga sains dan teknik. Sebagian besar evaluasi kami didasarkan pada kerangka ini. Tetapi industri kami adalah industri periklanan, berdasarkan atribut industri periklanan, kami akan menambahkan beberapa item evaluasi lainnya.
Kami juga mengatakan pada rapat manajemen grup bahwa fokus industri periklanan bukanlah kreativitas, tetapi kontrol. Hasil yang dihasilkan harus 100% konsisten dengan pengiklan, kinerja produk, penampilan, logo, dll. Hanya setelah reduksi ini tercapai barulah ada ruang untuk divergensi dan imajinasi. Jadi kami akan melakukan tes terpisah untuk mengontrol halusinasi model besar. Namun, sebagian besar model bahasa besar dan model difusi untuk pembuatan citra di pasar sulit untuk sepenuhnya memenuhi kebutuhan pengiklan. Setelah model besar untuk keperluan umum dirilis, jalan masih panjang sebelum sepenuhnya dikomersialkan.
Selain itu, hal terpenting yang kami pertimbangkan adalah masalah biaya: model sumber tertutup memiliki sistem kuotasi langsung, dan kami biasanya mengukur biaya ribuan Token. Untuk model open source, ada lebih banyak tautan yang harus diukur dan dihitung, mulai dari penerapan hingga penyempurnaan hingga penalaran online terakhir, berapa banyak daya komputasi yang dikonsumsi, dan berapa biaya pengembangan dan biaya data yang diinvestasikan untuk mempertahankan open source. model sumber.
Umpan balik kualitas model besar ditambah perkiraan biaya dapat membentuk evaluasi model. Dalam kalimat sederhana, Semakin tinggi kinerja biaya, semakin populer.
Jiao Juan: Dari sudut pandang kami, yang lebih penting adalah bagaimana mendefinisikan beberapa persyaratan vertikal. Karena dalam skala global, tidak peduli apakah itu perusahaan teknologi keras atau perusahaan Internet, mungkin tidak terlalu banyak perusahaan yang benar-benar mampu menentukan persyaratan, sehingga proposisi ini dapat diubah menjadi——**Dapatkah skala besar perusahaan model sendiri menetapkan beberapa persyaratan vertikal Jika tidak, dapatkah kita bekerja dengan mitra ekologis untuk mengeksplorasi arah kategori vertikal yang lebih baik. Tentunya akan lebih baik jika perusahaan tertentu dapat memiliki akumulasi data sendiri dan mengalami akumulasi ke arah tertentu. Ini adalah perspektif kami, dari perspektif menerapkan dan mendefinisikan kebutuhan industri yang tersegmentasi secara vertikal.
**Teknologi Tencent: Dapatkah Llama2 benar-benar mengungguli atau menyamai GPT-3.5 dalam hal kinerja? **
Zhou Songtao: Model besar untuk Llama2 masih dalam evaluasi, dan akan memakan waktu sekitar 2 minggu. Namun dari studi makalah kami dan beberapa evaluasi sederhana yang telah dilakukan sejauh ini, kami dapat membuat beberapa perbandingan umum.
Ada beberapa perbedaan antara tahap pra-pelatihan dan model asli GPT, dan perubahan ini belum pernah dilakukan oleh perusahaan model lain sebelumnya. Yang pertama adalah mengubah mekanisme perhatian multi-kepala Transformer tradisional menjadi mekanisme kelompok pecahan pada tahap pra-pelatihan. Ini sedikit mirip atau meniru teknologi sharding yang kami gunakan saat kami melakukan pemrosesan data besar dan pemrosesan data paralel berskala besar. Kelompokkan sejumlah besar permintaan (permintaan) yang dibutuhkan oleh perhatian ke dalam kelompok, dan tempatkan setiap kelompok ke dalam unit pelatihan, sehingga efisiensi dan kecepatan paralelisme secara teoritis akan sangat meningkat. Saya pikir bagian ini adalah perubahan baru yang dibuat oleh Meta berdasarkan pengalaman pemrosesan paralel skala besar sebelumnya.
Berdasarkan perubahan ini, saya pikir mereka secara teoritis berkali-kali lebih tinggi daripada model besar yang ada dalam hal kebutuhan daya komputasi dan konsumsi waktu. Saya memperkirakan Llama2 akan dimulai pada bulan Januari menurut pernyataan mereka, dihitung menurut waktu rilis, seharusnya lebih pendek dari waktu pra-pelatihan Llama1 karena memiliki jumlah parameter yang lebih banyak daripada Llama1. Dengan cara ini, kemungkinan siklus beberapa putaran pelatihan dikompresi. Ini terkait erat dengan GQA yang disebutkan di koran. Pada titik ini seharusnya melebihi GPT4 Meskipun kami tidak mengetahui jumlah spesifik GPT-4, menurut spekulasi pihak luar, GPT-4 jauh lebih tinggi daripada GPT-3 dan GPT-3.5.
Untuk GQA, saat ini kami merasa bahwa **metode pemrosesan GQA memang dapat meningkatkan kecepatan pelatihan bagi pengguna dengan kartu daya komputasi yang memadai, terutama sumber daya komputasi paralel GPU. **Namun, pengujian dan tinjauan sejawat menemukan bahwa fungsi ini memiliki persyaratan tinggi pada ukuran kumpulan daya komputasi dan perangkat keras. Untuk alasan yang sudah diketahui umum, pengembang di China daratan hanya memiliki sedikit sumber daya komputasi paralel GPU berskala besar, jadi **GQA mungkin berdampak negatif pada kita. **
Selain itu, poin kedua adalah pada tahap penyesuaian, kita tahu bahwa sistem GPT telah melakukan pemrosesan data berlapis selama normalisasi, yang membuat hasil pelatihan data menjadi sangat akurat, tetapi juga menghabiskan banyak daya komputasi. Tetapi Llama2 menggunakan solusi yang berbeda, yaitu menambahkan koefisien bobot berdasarkan pemrosesan berlapis, yang sangat membantu untuk meningkatkan efisiensi dan menjaga akurasi, dan juga membantu menghemat daya komputasi. Kedua poin ini merupakan optimalisasi yang dilakukan selama fase pra-pelatihan. **
Selain itu, makalah tersebut juga menyebutkan bahwa posisi Embedding Llama1 adalah tetap dan tidak dapat diubah. Tapi di Llama2, ini bisa disesuaikan secara dinamis, yang juga merupakan titik terang. Kami juga sangat tertarik dengan hal ini, dan ingin mengetahui efek praktis seperti apa yang dapat dihasilkannya.
Selain itu, Llama2 jelas menyerap beberapa pengalaman teknik dari seri Llama1 dan GPT, yaitu, pengalaman sukses di tahap RHLF telah digunakan kembali, dan itu harus ditingkatkan secara signifikan.
Yang terakhir adalah parameter rasio, yang saya lihat sejauh ini adalah parameter yang diungkapkan di situs resminya. Ada lebih dari 1 juta parameter termasuk umpan balik yang ditingkatkan secara artifisial, dan bagian yang disetel dengan baik mencapai lebih dari 100.000. Jika dia berani melepaskan parameter ini, berarti Meta memiliki kepercayaan diri untuk mempertimbangkan secara komprehensif parameter model, konsumsi waktu, dan konsumsi daya komputasi.
**Teknologi Tencent: Mengapa ambang batas untuk sumber terbuka komersial ditetapkan tidak lebih dari 700 juta pengguna aktif bulanan? **
Jiao Juan: Hanya bercanda, menurut saya peraturan ini "sangat terbuka"——Meta telah memainkan kartu yang cemerlang, karena tidak dapat mencegah orang lain untuk meneliti, lalu lepaskan. Intinya, ini adalah hasil dari permainan internal. Indikator keuangan Meta belum terlalu bagus sejak awal tahun 2021, sehingga mencari kurva pertumbuhan kedua. Pada Oktober 2021, Meta mengubah namanya menjadi Semua di Metaverse, tetapi tidak melihat peningkatan yang berarti. Ini meluncurkan model besar saat ini, yang dapat diintegrasikan dengan perangkat kerasnya sendiri. Itu setara dengan memainkan kartu terang, membutuhkan perangkat keras, perangkat lunak, dan sistem operasi, berharap mendapat tempat sendiri di era AI, tetapi pada saat yang sama sebagai open source, tidak mau terlalu menguntungkan pesaing. Seperti yang Anda lihat, 700 juta produk aktif bulanan termasuk YouTube 2,5 miliar, Apple 1,8 miliar, Microsoft 1,4 miliar, Samsung 1 miliar, LinkedIn 900 juta, Snapchat 750 juta, dll.
**Teknologi Tencent: Apa perbedaan penting antara open source komersial dan lisensi penelitian? Apa dampak yang mungkin ada pada ekosistem open source? **
Zhou Songtao: Setelah pecahnya model bahasa besar, masalah open source juga menjadi sangat rumit, setiap orang telah membuat banyak penyesuaian terhadap definisi open source dan aturan ini. Ini akan melibatkan Anda membuka sumber algoritme itu sendiri, penelitian data sumber terbuka, dan sebagainya. Untuk penilaian sumber terbuka keseluruhan dari model bahasa baru atau model generatif: pertama, tergantung pada apakah kode algoritmenya adalah sumber terbuka, dan kemudian apakah set nomor pelatihannya akan menjadi sumber terbuka. Yang ketiga didasarkan pada algoritma open source.Jika saya melakukan fine-tuning atau pemrosesan lainnya, kendala seperti apa yang akan dimiliki kebijakan otorisasi Anda. Yang keempat adalah menggunakan hasil inferensi model Anda, apakah sisi model memiliki kontrol. Kami biasanya menilai dari arah ini apakah "sumber terbuka" dari model ini benar-benar bernilai aplikasi bagi kami.
Mengenai penelitian open source dan open source komersial, saya ingat contoh paling umum adalah Stability AI perusahaan. Saya ingat bahwa dua minggu sebelum LLama2 open source, StabilityAI versi XL juga dirilis, yaitu hanya penelitian yang diizinkan open source, dan jelas diatur bahwa model dapat digunakan. Lakukan penelitian dengan data, misalnya jika Anda seorang peneliti atau milik universitas tertentu, tetapi jika Anda menggunakan model ini untuk komersialisasi, itu sepenuhnya dilarang, dan Anda perlu mengajukan otorisasi secara terpisah untuk menggunakannya.
Otorisasi open source model besar, menurut saya, telah banyak berubah dari logika open source asli. Tautan dan proses diatur dengan sangat hati-hati. Ada kemungkinan bahwa kecerdasan buatan generatif akan membawa perubahan yang mengguncang dunia ke seluruh open sistem sumber. **
**Teknologi Tencent: Dampak apa yang akan ditimbulkan oleh open source komersial Llama2 pada lanskap kompetisi model besar? **
Jiao Juan: Dalam persaingan raksasa luar negeri, ada gaya, yaitu membuat produk dan layanan mereka dapat dikenali, jadi Meta disebut Metaverse, dan Apple harus disebut New Universe. Jika yang lain menutup sumbernya, saya akan menempati sumber terbuka . Open source di masa lalu mungkin dilakukan oleh para geek dengan rasa kebebasan, dan pemikirannya relatif sederhana. Tetapi sekarang badan bisnis sebesar itu memimpin masalah ini, ini lebih tentang kepentingan komersial.
Zhou Songtao: Menurut saya, tiga elemen lanskap kompetitif dari sistem kecerdasan buatan generatif—daya komputasi, algoritme, dan model—tidak berubah. Faktanya, model hanya menyumbang sepertiga dari faktor kompetitif. Jika model diubah, model hanya dapat berubah sepertiga atau sedikit lebih dari sepertiga. Saya perkirakan lebih optimis, dan mungkin mencapai sekitar 45%. **
Pola di dalam dan luar negeri masih belum sama, dan pola di tingkat algoritma asing lebih terlihat. Data asing pada dasarnya dibersihkan dan divektorisasi, kumpulan data pelatihan sudah cukup, dan keunggulan kompetitif dalam hal data tidak jelas, kecuali jika Anda memiliki data eksklusif untuk industri tertentu. Kekuatan komputasi bukanlah tempat di mana raksasa asing dapat memperlebar celah. Raksasa sebenarnya memiliki kekuatan untuk memperebutkan daya komputasi.
Pertama-tama, perusahaan domestik dengan algoritma dasar inti sebenarnya sangat terbatas; kedua, tingkat pembersihan dan vektorisasi data domestik sebenarnya tidak tinggi. Pada masa-masa awal, jika sebuah perusahaan menginvestasikan banyak daya dalam pemrosesan data terstruktur, itu sebenarnya dapat menutupi kekurangan daya komputasi dan algoritme. Ketiga, negara tersebut sebenarnya kekurangan daya komputasi dalam jangka pendek. Oleh karena itu, dampak open source LLama2 pada lanskap domestik saat ini tidak mudah dinilai.
Selain itu, di luar negeri, Google adalah pelopor nyata dalam seluruh kecerdasan buatan generatif, dan kemudian hampir menjadi martir. Itu karena makalah sumber dari seluruh kecerdasan buatan generatif adalah "Perhatian adalah yang Anda butuhkan", dan kemudian termasuk model open source paling awal T5 sebenarnya adalah Google. Google dulu bangga dengan kerumunan. Tanpa diduga, kuda hitam, OpenAI, kemudian terbunuh.GPT-1 dan GPT-2 paling awal adalah open source, dan GPT-3 adalah closed source setelah open source. Ketika OpenAI memasuki pasar, open source adalah arus utama dari seluruh kecerdasan buatan generatif.
OpenAI menemukan Microsoft saat ini, dan juga memiliki daya komputasi yang sangat mahal, menjadi pesaing kuat Google. Mulai tahun 2022, pasar kecerdasan buatan generatif akan mulai memasuki sistem sumber tertutup. OpenAI menguasai algoritme, menambahkan daya komputasi dan data Microsoft, dan menutup sumber produk, dan produk tersebut menjadi hit tingkat fenomena, dan baik Microsoft maupun OpenAI mendapat manfaat darinya. Saya pikir ketika Meta pertama kali memutuskan untuk memasuki bidang ini, diperkirakan telah mempelajari dengan cermat sejarah pengembangan dari awal.Sekarang OpenAI telah mundur dari bidang open source ke closed source, maka saya akan menggunakan metode open source untuk mengalahkan sihirmu lagi.
Sebelumnya, Meta juga melihat vitalitas beberapa perusahaan kecil setelah open source, khususnya Stability AI.Perusahaan ini tidak memiliki pondasi yang dalam, perusahaan ini masih memiliki banyak kontroversi.
Saya ingat Llama1 mengumumkan open source-nya pada bulan Maret, pada saat itu juga mengatakan bahwa itu adalah "tidak sengaja open source", lalu Stability AI juga mengatakan bahwa saya tidak sengaja membocorkan kodenya, jadi itu juga open source. Jalur keseluruhannya adalah Google meletakkan nada open source, dan kemudian OpenAI dan Microsoft mengubahnya kembali menjadi sistem closed source, dan kemudian Meta dan Stability AI memasukkannya ke open source lagi. Saya pikir di masa depan, **Buka sumber Dan sumber tertutup harus saling berayun, dan pola permainan dan persaingan timbal balik akan terbentuk di bidang ini untuk waktu yang lama. **
**Teknologi Tencent: Apakah Meta open source Llama2 pilihan terakhir atau pilihan strategis yang aktif? **
Jiao Juan: Itu harus menjadi pilihan strategis yang aktif, karena tiga pesaing utama di bidang AR, Meta, Microsoft, dan Google, telah bertarung selama lebih dari sepuluh tahun. Meta dengan cepat meluncurkan LLama2, setidaknya lebih cepat dari Google. Pilihan open source dan closed source tidak akan menghilangkan beberapa tuntutan kepentingan yang esensial, jadi menurut saya mungkin tidak terlalu berarti untuk sepenuhnya mengubah pola persaingan. Kedua, situasi dalam negeri berbeda, sehingga pola persaingan dalam negeri perlu dicermati kembali.
Apakah itu open source atau closed source, ini pada dasarnya adalah pilihan strategis antara perusahaan-perusahaan ini di seluruh dunia dalam menghadapi peluang baru yang besar. Saat berupaya menata bagian depan, saya juga berharap dapat menangkap pedalaman Bier sebanyak mungkin. Persaingan raksasa luar negeri tidak lagi sesederhana mengembangkan kurva pertumbuhan kedua atau ke-N. Persaingannya sengit dan menentukan, bahkan sedikit menyelamatkan nyawa.
Saya pikir ini yang paling layak untuk didiskusikan semua orang: Lingkungan atau latar belakang seperti apa yang melatarbelakangi tindakan mereka, sehingga mereka harus melakukannya dengan cara yang begitu menentukan, seperti perlombaan senjata.
Ada juga beberapa hal penting yang terjadi baru-baru ini. Perusahaan X-AI Musk didirikan. Ia ingin memahami kembali dunia fisik yang sebenarnya. Semua raksasa menatap realisasi nyata AGI. Peta ini semakin besar dan besar. Namun, dunia bisnis baru dan lanskap bisnis baru selalu membutuhkan beberapa aplikasi dan produk populer baru untuk mendorongnya. Mungkin sulit untuk mencapainya di tahun 2023. Kita bisa menaruh harapan di tahun 2024, mungkin kacamata MR Apple akan menjadi peluang baru.
**Teknologi Tencent: Kami juga melihat bahwa dua raksasa luar negeri lainnya, Musk dan Apple, tidak mengumumkan kemajuan mereka di bidang model berskala besar. Apa pendapat Anda tentang ini? **
Jiao Juan: Mereka hanya menahan untuk saat ini, dan yang pasti apa yang mereka luncurkan pasti tidak akan disebut model besar. Saya pikir kita bisa fokus pada tingkat berikutnya, kecerdasan yang diwujudkan. Ke arah ini, Musk paling tidak khawatir. Keuntungan terbesar Apple terletak pada kombinasi perangkat lunak dan perangkat keras.
Zhou Songtao: Kami telah mengujinya sendiri secara kasar, dan chip **M2 dapat bersaing dengan kartu Nvidia dalam hal daya komputasi floating-point. ** Apple dapat mengambil integrasi perangkat lunak dan perangkat keras, yang sebenarnya berada di luar lanskap persaingan model besar saat ini.
Kecerdasan yang terkandung, menurut saya, mungkin menjadi tonggak baru dalam pengembangan kecerdasan buatan umum di masa depan, karena begitu Anda memiliki kemampuan penalaran yang kuat, itu pasti akan diperluas ke dunia fisik, dan titik inti mengendalikan dunia fisik. adalah menanamkannya di dalam tubuh Atau tertanam di sensor di dunia fisik, maka ini adalah sistem yang menjadi kecerdasan yang diwujudkan. Seperti yang baru saja dikatakan Tuan Zhou, ini telah berubah menjadi serangkaian perusahaan Musk.
Saat kami menggabungkan perangkat lunak dan perangkat keras bersama-sama untuk melihat keseluruhan kecerdasan buatan umum, Anda akan menemukan bahwa lanskap persaingan telah berubah lagi. Bukan lagi Google, Meta, dan AI terbuka yang bersaing, tetapi mungkin Ada lebih banyak perusahaan perangkat keras yang bergabung di dalam.
**Teknologi Tencent: Sumber terbuka komersial Llama2, apakah mungkin untuk mengurangi biaya memulai model skala besar? **
Zhou Songtao: Saya tidak yakin tentang ini sekarang, karena meskipun menghemat biaya sewa API, Anda akan menemukan bahwa potongan harga besar OpenAI pada 15 Juni hampir 10%, jadi model sumber tertutup juga memperebutkan harga perang. Sebaliknya, jika model open source digunakan, berapa biaya perangkat keras, biaya daya komputasi, dan biaya data yang diperlukan? Biaya tersembunyi sulit diperkirakan. Sederhananya dari sumber terbuka LLama2, menurut saya ini belum tentu merupakan jalur hemat biaya untuk berwirausaha.
Mengenai biaya penalaran, saat ini kami mengukur dan menggabungkan artikel evaluasi penguji asing, dan menemukan bahwa untuk beberapa jenis tugas penalaran tertentu, seperti klasifikasi atau alur kerja langchain, efisiensi penalaran dan konsumsi waktu Llama2 berkurang, tetapi untuk jenis lainnya tugas, **Jika dibandingkan dengan versi snapshot GPT-3.5-turbo-0615, belum tentu lebih murah (hanya dalam hal konsumsi daya komputasi inferensi); **Versi asli saat ini sangat lancar dan akurat dalam memahami Cina, tetapi ekspresi Cina hampir 0, ** Jadi pengusaha Cina yang ingin menggunakan Llama2 sepenuhnya harus menghabiskan banyak uang untuk menyelesaikan penyesuaian atau panduan ekspresi Cina, atau menunggu komunitas open source untuk menyediakan ekspresi Cina versi... Biaya ini tidak rendah. **
Selain itu, sumber terbuka komersial **Llama2 memang dapat menyebabkan penyedia layanan skala besar memulai perang harga, yang merupakan kabar baik bagi pengguna dan pengusaha. **
Jiao Juan: Terus terang, saya masih menantikan beberapa model industri atau model vertikal di China. Saya pribadi memilih beberapa perusahaan yang menjanjikan, yang dicirikan oleh kinerja yang solid di industri ini dan pengalaman dalam akumulasi data berkelanjutan dan konstruksi platform. Selain itu, menurut saya babak ini bukan soal mahal atau tidaknya tiket, tapi mahal atau tidaknya Anda, semua orang menghadapi transformasi.
Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Di belakang model open source komersial Meta yang paling kuat: kompetisi raksasa yang menyelamatkan jiwa, Musk dan Apple menemukan cara lain
Teks: Guo Xiaojing, Teknologi Tencent
Pada tanggal 19 Juli, Meta mengumumkan rilis resmi model bahasa besar Llama2 di situs resminya. Ini adalah versi terbaru dari model bahasa besar Meta dan model bahasa besar komersial open source pertama Meta. Pada saat yang sama, Microsoft Azure juga mengumumkan bahwa akan bekerjasama dengan Llama2 secara mendalam.
Menurut data resmi Meta, Llama 2 telah meningkatkan data pelatihannya sebesar 40% dibandingkan dengan generasi sebelumnya, termasuk 3 versi parameter 7 miliar, 13 miliar, dan 70 miliar. Model pra-pelatihan Llama 2 telah dilatih pada 2 triliun token dengan panjang konteks dua kali lipat dari Llama 1, dan model yang disetel dengan baik telah dilatih pada lebih dari 1 juta anotasi manusia.
Performanya dikatakan sebanding dengan GPT-3.5, dan juga dikenal sebagai model besar open source terbaik. Begitu beritanya dirilis, media dan industri bahkan memberikan kesimpulan bahwa komersialisasi open source Llama2 akan mengubah lanskap persaingan di bidang model besar. Seberapa besar dampak dari kejadian ini? Apa dampaknya bagi industri? Kami mengundang dua orang di industri untuk mengobrol. Salah satunya adalah Zhou Songtao, wakil manajer umum Pusat R&D Produk Leo Group Digital Technology Co., Ltd.. Dia memimpin tim untuk hampir mengevaluasi sebagian besar model besar arus utama di rumah dan di luar negeri, yang lainnya Adalah Nyonya Jiao Juan, Presiden Institut Penelitian Kosmik Anxinyuan, yang telah mengamati secara mendalam ekologi industri teknologi di dalam dan luar negeri selama bertahun-tahun.
Berikut ini adalah sudut pandang utama dari keduanya:
① Llama2 mempertimbangkan parameter model, konsumsi waktu, konsumsi daya komputasi, dan aspek lainnya secara komprehensif Dibandingkan dengan GPT-3.5, ia percaya diri.
② Kecerdasan buatan generatif akan membawa perubahan yang mengguncang dunia ke seluruh sistem open source.
③ Di masa mendatang, open source dan closed source pasti akan saling berayun, dan pola permainan dan kompetisi timbal balik akan terbentuk di bidang ini dalam waktu yang cukup lama.
④ Sumber terbuka komersial Llama2 tidak serta merta mengurangi biaya bagi pengusaha untuk menggunakan model besar, tetapi dapat menyebabkan penyedia layanan model besar memulai perang harga, yang merupakan kabar baik bagi pengguna dan pengusaha.
⑤ Persaingan raksasa luar negeri di bidang AI tidak lagi sesederhana pengembangan kurva kedua. Persaingannya sengit dan menentukan, bahkan sedikit menyelamatkan nyawa. Alasan di baliknya patut untuk direnungkan.
Berikut ini adalah pilihan konten percakapan:
**Teknologi Tencent: Dari perspektif praktisi atau aplikator industri, bagaimana cara mengevaluasi model besar? **
Zhou Songtao: MMLU adalah kerangka evaluasi model berskala besar yang paling banyak digunakan di dunia. Kerangka ini mempertimbangkan pengetahuan dan kemampuan komprehensif dari 57 disiplin ilmu, dari humaniora hingga ilmu sosial hingga sains dan teknik. Sebagian besar evaluasi kami didasarkan pada kerangka ini. Tetapi industri kami adalah industri periklanan, berdasarkan atribut industri periklanan, kami akan menambahkan beberapa item evaluasi lainnya.
Kami juga mengatakan pada rapat manajemen grup bahwa fokus industri periklanan bukanlah kreativitas, tetapi kontrol. Hasil yang dihasilkan harus 100% konsisten dengan pengiklan, kinerja produk, penampilan, logo, dll. Hanya setelah reduksi ini tercapai barulah ada ruang untuk divergensi dan imajinasi. Jadi kami akan melakukan tes terpisah untuk mengontrol halusinasi model besar. Namun, sebagian besar model bahasa besar dan model difusi untuk pembuatan citra di pasar sulit untuk sepenuhnya memenuhi kebutuhan pengiklan. Setelah model besar untuk keperluan umum dirilis, jalan masih panjang sebelum sepenuhnya dikomersialkan.
Selain itu, hal terpenting yang kami pertimbangkan adalah masalah biaya: model sumber tertutup memiliki sistem kuotasi langsung, dan kami biasanya mengukur biaya ribuan Token. Untuk model open source, ada lebih banyak tautan yang harus diukur dan dihitung, mulai dari penerapan hingga penyempurnaan hingga penalaran online terakhir, berapa banyak daya komputasi yang dikonsumsi, dan berapa biaya pengembangan dan biaya data yang diinvestasikan untuk mempertahankan open source. model sumber.
Umpan balik kualitas model besar ditambah perkiraan biaya dapat membentuk evaluasi model. Dalam kalimat sederhana, Semakin tinggi kinerja biaya, semakin populer.
Jiao Juan: Dari sudut pandang kami, yang lebih penting adalah bagaimana mendefinisikan beberapa persyaratan vertikal. Karena dalam skala global, tidak peduli apakah itu perusahaan teknologi keras atau perusahaan Internet, mungkin tidak terlalu banyak perusahaan yang benar-benar mampu menentukan persyaratan, sehingga proposisi ini dapat diubah menjadi——**Dapatkah skala besar perusahaan model sendiri menetapkan beberapa persyaratan vertikal Jika tidak, dapatkah kita bekerja dengan mitra ekologis untuk mengeksplorasi arah kategori vertikal yang lebih baik. Tentunya akan lebih baik jika perusahaan tertentu dapat memiliki akumulasi data sendiri dan mengalami akumulasi ke arah tertentu. Ini adalah perspektif kami, dari perspektif menerapkan dan mendefinisikan kebutuhan industri yang tersegmentasi secara vertikal.
**Teknologi Tencent: Dapatkah Llama2 benar-benar mengungguli atau menyamai GPT-3.5 dalam hal kinerja? **
Zhou Songtao: Model besar untuk Llama2 masih dalam evaluasi, dan akan memakan waktu sekitar 2 minggu. Namun dari studi makalah kami dan beberapa evaluasi sederhana yang telah dilakukan sejauh ini, kami dapat membuat beberapa perbandingan umum.
Ada beberapa perbedaan antara tahap pra-pelatihan dan model asli GPT, dan perubahan ini belum pernah dilakukan oleh perusahaan model lain sebelumnya. Yang pertama adalah mengubah mekanisme perhatian multi-kepala Transformer tradisional menjadi mekanisme kelompok pecahan pada tahap pra-pelatihan. Ini sedikit mirip atau meniru teknologi sharding yang kami gunakan saat kami melakukan pemrosesan data besar dan pemrosesan data paralel berskala besar. Kelompokkan sejumlah besar permintaan (permintaan) yang dibutuhkan oleh perhatian ke dalam kelompok, dan tempatkan setiap kelompok ke dalam unit pelatihan, sehingga efisiensi dan kecepatan paralelisme secara teoritis akan sangat meningkat. Saya pikir bagian ini adalah perubahan baru yang dibuat oleh Meta berdasarkan pengalaman pemrosesan paralel skala besar sebelumnya.
Berdasarkan perubahan ini, saya pikir mereka secara teoritis berkali-kali lebih tinggi daripada model besar yang ada dalam hal kebutuhan daya komputasi dan konsumsi waktu. Saya memperkirakan Llama2 akan dimulai pada bulan Januari menurut pernyataan mereka, dihitung menurut waktu rilis, seharusnya lebih pendek dari waktu pra-pelatihan Llama1 karena memiliki jumlah parameter yang lebih banyak daripada Llama1. Dengan cara ini, kemungkinan siklus beberapa putaran pelatihan dikompresi. Ini terkait erat dengan GQA yang disebutkan di koran. Pada titik ini seharusnya melebihi GPT4 Meskipun kami tidak mengetahui jumlah spesifik GPT-4, menurut spekulasi pihak luar, GPT-4 jauh lebih tinggi daripada GPT-3 dan GPT-3.5.
Untuk GQA, saat ini kami merasa bahwa **metode pemrosesan GQA memang dapat meningkatkan kecepatan pelatihan bagi pengguna dengan kartu daya komputasi yang memadai, terutama sumber daya komputasi paralel GPU. **Namun, pengujian dan tinjauan sejawat menemukan bahwa fungsi ini memiliki persyaratan tinggi pada ukuran kumpulan daya komputasi dan perangkat keras. Untuk alasan yang sudah diketahui umum, pengembang di China daratan hanya memiliki sedikit sumber daya komputasi paralel GPU berskala besar, jadi **GQA mungkin berdampak negatif pada kita. **
Selain itu, makalah tersebut juga menyebutkan bahwa posisi Embedding Llama1 adalah tetap dan tidak dapat diubah. Tapi di Llama2, ini bisa disesuaikan secara dinamis, yang juga merupakan titik terang. Kami juga sangat tertarik dengan hal ini, dan ingin mengetahui efek praktis seperti apa yang dapat dihasilkannya.
Selain itu, Llama2 jelas menyerap beberapa pengalaman teknik dari seri Llama1 dan GPT, yaitu, pengalaman sukses di tahap RHLF telah digunakan kembali, dan itu harus ditingkatkan secara signifikan.
Yang terakhir adalah parameter rasio, yang saya lihat sejauh ini adalah parameter yang diungkapkan di situs resminya. Ada lebih dari 1 juta parameter termasuk umpan balik yang ditingkatkan secara artifisial, dan bagian yang disetel dengan baik mencapai lebih dari 100.000. Jika dia berani melepaskan parameter ini, berarti Meta memiliki kepercayaan diri untuk mempertimbangkan secara komprehensif parameter model, konsumsi waktu, dan konsumsi daya komputasi.
Jiao Juan: Hanya bercanda, menurut saya peraturan ini "sangat terbuka"——Meta telah memainkan kartu yang cemerlang, karena tidak dapat mencegah orang lain untuk meneliti, lalu lepaskan. Intinya, ini adalah hasil dari permainan internal. Indikator keuangan Meta belum terlalu bagus sejak awal tahun 2021, sehingga mencari kurva pertumbuhan kedua. Pada Oktober 2021, Meta mengubah namanya menjadi Semua di Metaverse, tetapi tidak melihat peningkatan yang berarti. Ini meluncurkan model besar saat ini, yang dapat diintegrasikan dengan perangkat kerasnya sendiri. Itu setara dengan memainkan kartu terang, membutuhkan perangkat keras, perangkat lunak, dan sistem operasi, berharap mendapat tempat sendiri di era AI, tetapi pada saat yang sama sebagai open source, tidak mau terlalu menguntungkan pesaing. Seperti yang Anda lihat, 700 juta produk aktif bulanan termasuk YouTube 2,5 miliar, Apple 1,8 miliar, Microsoft 1,4 miliar, Samsung 1 miliar, LinkedIn 900 juta, Snapchat 750 juta, dll.
**Teknologi Tencent: Apa perbedaan penting antara open source komersial dan lisensi penelitian? Apa dampak yang mungkin ada pada ekosistem open source? **
Zhou Songtao: Setelah pecahnya model bahasa besar, masalah open source juga menjadi sangat rumit, setiap orang telah membuat banyak penyesuaian terhadap definisi open source dan aturan ini. Ini akan melibatkan Anda membuka sumber algoritme itu sendiri, penelitian data sumber terbuka, dan sebagainya. Untuk penilaian sumber terbuka keseluruhan dari model bahasa baru atau model generatif: pertama, tergantung pada apakah kode algoritmenya adalah sumber terbuka, dan kemudian apakah set nomor pelatihannya akan menjadi sumber terbuka. Yang ketiga didasarkan pada algoritma open source.Jika saya melakukan fine-tuning atau pemrosesan lainnya, kendala seperti apa yang akan dimiliki kebijakan otorisasi Anda. Yang keempat adalah menggunakan hasil inferensi model Anda, apakah sisi model memiliki kontrol. Kami biasanya menilai dari arah ini apakah "sumber terbuka" dari model ini benar-benar bernilai aplikasi bagi kami.
Mengenai penelitian open source dan open source komersial, saya ingat contoh paling umum adalah Stability AI perusahaan. Saya ingat bahwa dua minggu sebelum LLama2 open source, StabilityAI versi XL juga dirilis, yaitu hanya penelitian yang diizinkan open source, dan jelas diatur bahwa model dapat digunakan. Lakukan penelitian dengan data, misalnya jika Anda seorang peneliti atau milik universitas tertentu, tetapi jika Anda menggunakan model ini untuk komersialisasi, itu sepenuhnya dilarang, dan Anda perlu mengajukan otorisasi secara terpisah untuk menggunakannya.
Otorisasi open source model besar, menurut saya, telah banyak berubah dari logika open source asli. Tautan dan proses diatur dengan sangat hati-hati. Ada kemungkinan bahwa kecerdasan buatan generatif akan membawa perubahan yang mengguncang dunia ke seluruh open sistem sumber. **
**Teknologi Tencent: Dampak apa yang akan ditimbulkan oleh open source komersial Llama2 pada lanskap kompetisi model besar? **
Jiao Juan: Dalam persaingan raksasa luar negeri, ada gaya, yaitu membuat produk dan layanan mereka dapat dikenali, jadi Meta disebut Metaverse, dan Apple harus disebut New Universe. Jika yang lain menutup sumbernya, saya akan menempati sumber terbuka . Open source di masa lalu mungkin dilakukan oleh para geek dengan rasa kebebasan, dan pemikirannya relatif sederhana. Tetapi sekarang badan bisnis sebesar itu memimpin masalah ini, ini lebih tentang kepentingan komersial.
Zhou Songtao: Menurut saya, tiga elemen lanskap kompetitif dari sistem kecerdasan buatan generatif—daya komputasi, algoritme, dan model—tidak berubah. Faktanya, model hanya menyumbang sepertiga dari faktor kompetitif. Jika model diubah, model hanya dapat berubah sepertiga atau sedikit lebih dari sepertiga. Saya perkirakan lebih optimis, dan mungkin mencapai sekitar 45%. **
Pola di dalam dan luar negeri masih belum sama, dan pola di tingkat algoritma asing lebih terlihat. Data asing pada dasarnya dibersihkan dan divektorisasi, kumpulan data pelatihan sudah cukup, dan keunggulan kompetitif dalam hal data tidak jelas, kecuali jika Anda memiliki data eksklusif untuk industri tertentu. Kekuatan komputasi bukanlah tempat di mana raksasa asing dapat memperlebar celah. Raksasa sebenarnya memiliki kekuatan untuk memperebutkan daya komputasi.
Pertama-tama, perusahaan domestik dengan algoritma dasar inti sebenarnya sangat terbatas; kedua, tingkat pembersihan dan vektorisasi data domestik sebenarnya tidak tinggi. Pada masa-masa awal, jika sebuah perusahaan menginvestasikan banyak daya dalam pemrosesan data terstruktur, itu sebenarnya dapat menutupi kekurangan daya komputasi dan algoritme. Ketiga, negara tersebut sebenarnya kekurangan daya komputasi dalam jangka pendek. Oleh karena itu, dampak open source LLama2 pada lanskap domestik saat ini tidak mudah dinilai.
Selain itu, di luar negeri, Google adalah pelopor nyata dalam seluruh kecerdasan buatan generatif, dan kemudian hampir menjadi martir. Itu karena makalah sumber dari seluruh kecerdasan buatan generatif adalah "Perhatian adalah yang Anda butuhkan", dan kemudian termasuk model open source paling awal T5 sebenarnya adalah Google. Google dulu bangga dengan kerumunan. Tanpa diduga, kuda hitam, OpenAI, kemudian terbunuh.GPT-1 dan GPT-2 paling awal adalah open source, dan GPT-3 adalah closed source setelah open source. Ketika OpenAI memasuki pasar, open source adalah arus utama dari seluruh kecerdasan buatan generatif.
OpenAI menemukan Microsoft saat ini, dan juga memiliki daya komputasi yang sangat mahal, menjadi pesaing kuat Google. Mulai tahun 2022, pasar kecerdasan buatan generatif akan mulai memasuki sistem sumber tertutup. OpenAI menguasai algoritme, menambahkan daya komputasi dan data Microsoft, dan menutup sumber produk, dan produk tersebut menjadi hit tingkat fenomena, dan baik Microsoft maupun OpenAI mendapat manfaat darinya. Saya pikir ketika Meta pertama kali memutuskan untuk memasuki bidang ini, diperkirakan telah mempelajari dengan cermat sejarah pengembangan dari awal.Sekarang OpenAI telah mundur dari bidang open source ke closed source, maka saya akan menggunakan metode open source untuk mengalahkan sihirmu lagi.
Sebelumnya, Meta juga melihat vitalitas beberapa perusahaan kecil setelah open source, khususnya Stability AI.Perusahaan ini tidak memiliki pondasi yang dalam, perusahaan ini masih memiliki banyak kontroversi.
Saya ingat Llama1 mengumumkan open source-nya pada bulan Maret, pada saat itu juga mengatakan bahwa itu adalah "tidak sengaja open source", lalu Stability AI juga mengatakan bahwa saya tidak sengaja membocorkan kodenya, jadi itu juga open source. Jalur keseluruhannya adalah Google meletakkan nada open source, dan kemudian OpenAI dan Microsoft mengubahnya kembali menjadi sistem closed source, dan kemudian Meta dan Stability AI memasukkannya ke open source lagi. Saya pikir di masa depan, **Buka sumber Dan sumber tertutup harus saling berayun, dan pola permainan dan persaingan timbal balik akan terbentuk di bidang ini untuk waktu yang lama. **
**Teknologi Tencent: Apakah Meta open source Llama2 pilihan terakhir atau pilihan strategis yang aktif? **
Jiao Juan: Itu harus menjadi pilihan strategis yang aktif, karena tiga pesaing utama di bidang AR, Meta, Microsoft, dan Google, telah bertarung selama lebih dari sepuluh tahun. Meta dengan cepat meluncurkan LLama2, setidaknya lebih cepat dari Google. Pilihan open source dan closed source tidak akan menghilangkan beberapa tuntutan kepentingan yang esensial, jadi menurut saya mungkin tidak terlalu berarti untuk sepenuhnya mengubah pola persaingan. Kedua, situasi dalam negeri berbeda, sehingga pola persaingan dalam negeri perlu dicermati kembali.
Apakah itu open source atau closed source, ini pada dasarnya adalah pilihan strategis antara perusahaan-perusahaan ini di seluruh dunia dalam menghadapi peluang baru yang besar. Saat berupaya menata bagian depan, saya juga berharap dapat menangkap pedalaman Bier sebanyak mungkin. Persaingan raksasa luar negeri tidak lagi sesederhana mengembangkan kurva pertumbuhan kedua atau ke-N. Persaingannya sengit dan menentukan, bahkan sedikit menyelamatkan nyawa.
Saya pikir ini yang paling layak untuk didiskusikan semua orang: Lingkungan atau latar belakang seperti apa yang melatarbelakangi tindakan mereka, sehingga mereka harus melakukannya dengan cara yang begitu menentukan, seperti perlombaan senjata.
Ada juga beberapa hal penting yang terjadi baru-baru ini. Perusahaan X-AI Musk didirikan. Ia ingin memahami kembali dunia fisik yang sebenarnya. Semua raksasa menatap realisasi nyata AGI. Peta ini semakin besar dan besar. Namun, dunia bisnis baru dan lanskap bisnis baru selalu membutuhkan beberapa aplikasi dan produk populer baru untuk mendorongnya. Mungkin sulit untuk mencapainya di tahun 2023. Kita bisa menaruh harapan di tahun 2024, mungkin kacamata MR Apple akan menjadi peluang baru.
**Teknologi Tencent: Kami juga melihat bahwa dua raksasa luar negeri lainnya, Musk dan Apple, tidak mengumumkan kemajuan mereka di bidang model berskala besar. Apa pendapat Anda tentang ini? **
Jiao Juan: Mereka hanya menahan untuk saat ini, dan yang pasti apa yang mereka luncurkan pasti tidak akan disebut model besar. Saya pikir kita bisa fokus pada tingkat berikutnya, kecerdasan yang diwujudkan. Ke arah ini, Musk paling tidak khawatir. Keuntungan terbesar Apple terletak pada kombinasi perangkat lunak dan perangkat keras.
Zhou Songtao: Kami telah mengujinya sendiri secara kasar, dan chip **M2 dapat bersaing dengan kartu Nvidia dalam hal daya komputasi floating-point. ** Apple dapat mengambil integrasi perangkat lunak dan perangkat keras, yang sebenarnya berada di luar lanskap persaingan model besar saat ini.
Kecerdasan yang terkandung, menurut saya, mungkin menjadi tonggak baru dalam pengembangan kecerdasan buatan umum di masa depan, karena begitu Anda memiliki kemampuan penalaran yang kuat, itu pasti akan diperluas ke dunia fisik, dan titik inti mengendalikan dunia fisik. adalah menanamkannya di dalam tubuh Atau tertanam di sensor di dunia fisik, maka ini adalah sistem yang menjadi kecerdasan yang diwujudkan. Seperti yang baru saja dikatakan Tuan Zhou, ini telah berubah menjadi serangkaian perusahaan Musk.
Saat kami menggabungkan perangkat lunak dan perangkat keras bersama-sama untuk melihat keseluruhan kecerdasan buatan umum, Anda akan menemukan bahwa lanskap persaingan telah berubah lagi. Bukan lagi Google, Meta, dan AI terbuka yang bersaing, tetapi mungkin Ada lebih banyak perusahaan perangkat keras yang bergabung di dalam.
**Teknologi Tencent: Sumber terbuka komersial Llama2, apakah mungkin untuk mengurangi biaya memulai model skala besar? **
Zhou Songtao: Saya tidak yakin tentang ini sekarang, karena meskipun menghemat biaya sewa API, Anda akan menemukan bahwa potongan harga besar OpenAI pada 15 Juni hampir 10%, jadi model sumber tertutup juga memperebutkan harga perang. Sebaliknya, jika model open source digunakan, berapa biaya perangkat keras, biaya daya komputasi, dan biaya data yang diperlukan? Biaya tersembunyi sulit diperkirakan. Sederhananya dari sumber terbuka LLama2, menurut saya ini belum tentu merupakan jalur hemat biaya untuk berwirausaha.
Mengenai biaya penalaran, saat ini kami mengukur dan menggabungkan artikel evaluasi penguji asing, dan menemukan bahwa untuk beberapa jenis tugas penalaran tertentu, seperti klasifikasi atau alur kerja langchain, efisiensi penalaran dan konsumsi waktu Llama2 berkurang, tetapi untuk jenis lainnya tugas, **Jika dibandingkan dengan versi snapshot GPT-3.5-turbo-0615, belum tentu lebih murah (hanya dalam hal konsumsi daya komputasi inferensi); **Versi asli saat ini sangat lancar dan akurat dalam memahami Cina, tetapi ekspresi Cina hampir 0, ** Jadi pengusaha Cina yang ingin menggunakan Llama2 sepenuhnya harus menghabiskan banyak uang untuk menyelesaikan penyesuaian atau panduan ekspresi Cina, atau menunggu komunitas open source untuk menyediakan ekspresi Cina versi... Biaya ini tidak rendah. **
Selain itu, sumber terbuka komersial **Llama2 memang dapat menyebabkan penyedia layanan skala besar memulai perang harga, yang merupakan kabar baik bagi pengguna dan pengusaha. **
Jiao Juan: Terus terang, saya masih menantikan beberapa model industri atau model vertikal di China. Saya pribadi memilih beberapa perusahaan yang menjanjikan, yang dicirikan oleh kinerja yang solid di industri ini dan pengalaman dalam akumulasi data berkelanjutan dan konstruksi platform. Selain itu, menurut saya babak ini bukan soal mahal atau tidaknya tiket, tapi mahal atau tidaknya Anda, semua orang menghadapi transformasi.