"Perusahaan besar perlu menginvestasikan banyak uang dalam mendeteksi kesalahan AI untuk mencegahnya. Pada saat yang sama, terdapat kekurangan kerangka pengujian LLM standar pada tahap ini. Oleh karena itu, evaluasi LLM tidak terukur dan dampaknya tidak terukur. tidak bagus. Hal ini juga berdampak pada kinerja perusahaan ketika menerapkan produk AI. Karena kehati-hatian.
Patronus AI berharap dapat memungkinkan perusahaan menerapkan produk AI secara aman dengan membangun platform penilaian dan keamanan otomatis LLM, sehingga mendorong adopsi Gen-AI secara luas. "
Rasa berpikir
Kami mencoba mengajukan kesimpulan dan refleksi yang lebih berbeda berdasarkan isi artikel, dan menyambut pertukaran.
▪ Masalah dalam penerapan model besar tingkat perusahaan: Prediksi hal-hal berikut menggunakan rumus autoregresif transformator pada dasarnya adalah model probabilistik, dan penilaian ketidakpastian konten yang dihasilkan adalah kunci untuk verifikasi kemampuan model. Pada saat yang sama, evaluasi indeks akademik tidak dapat disesuaikan dengan aplikasi lapangan tingkat perusahaan, dan diperlukan platform evaluasi otomatis multi-model yang lebih berorientasi pada produk.
▪ Cara menyeimbangkan akurasi dan ketidakpastian dalam konten produksi dan memperkuat kemampuan LLM terhadap skenario permintaan bisnis adalah seni platform evaluasi model dan aplikasi Gen-AI tingkat perusahaan.
Artikel ini memiliki total kata 2115. Dibutuhkan sekitar 5 menit untuk membaca dengan seksama.
Pengguna mengadopsi AI generatif pada tingkat yang belum pernah terjadi sebelumnya. ChatGPT adalah produk konsumen dengan pertumbuhan tercepat: menarik lebih dari 100 juta pengguna dalam dua bulan pertama peluncurannya. AI telah menjadi sorotan tahun ini. Namun pada saat yang sama, perusahaan-perusahaan telah menunjukkan sikap hati-hati ketika dihadapkan dengan pesatnya penerapan produk-produk AI. Mereka khawatir tentang kesalahan yang dapat disebabkan oleh model bahasa berukuran besar. Sayangnya, upaya saat ini untuk mengevaluasi dan memeriksa model bahasa sulit untuk diukur dan tidak efisien. Patronus berkomitmen untuk mengubah hal tersebut, dan misi mereka adalah meningkatkan kepercayaan perusahaan terhadap AI generatif.
Latar belakang berdirinya Patronus AI
Kedua pendiri Patronus, Rebecca dan Anand, sudah saling kenal selama hampir 10 tahun. Setelah belajar ilmu komputer bersama di University of Chicago, Rebecca bergabung dengan Meta AI (FAIR) untuk memimpin penelitian terkait NLP dan ALGN, sementara Anand mengembangkan inferensi kausal awal dan landasan eksperimental di Meta Reality Labs. Di Meta, keduanya mengalami secara langsung kesulitan dalam mengevaluasi dan menafsirkan keluaran pembelajaran mesin—Rebecca dari perspektif penelitian dan Anand dari perspektif aplikasi.
Saat CTO OpenAI Meera Murati mengumumkan perilisan ChatGPT di Twitter November lalu, Anand meneruskan berita tersebut ke Rebecca dalam waktu 5 menit. Mereka menyadari bahwa ini adalah momen transformasional, dan perusahaan pasti akan segera menerapkan model bahasa ke berbagai skenario. Maka Anand terkejut saat mendengar Piper Sandler, bank investasi tempat saudaranya bekerja, telah melarang akses internal ke OpenAI. Selama beberapa bulan berikutnya, mereka berkali-kali mendengar bahwa perusahaan tradisional bergerak maju dengan teknologi ini dengan sangat hati-hati.
Mereka menyadari bahwa meskipun teknologi NLP telah mengalami kemajuan yang signifikan, namun masih jauh dari penerapan nyata di perusahaan. Semua orang setuju bahwa AI generatif sangat berguna, namun tidak ada yang tahu cara menggunakannya dengan cara yang benar. Mereka menyadari bahwa penilaian dan keselamatan AI akan menjadi isu utama di tahun-tahun mendatang.
Situasi tim dan pembiayaan
Patronus mengumumkan pada 14 September 23, bahwa mereka telah menerima pembiayaan putaran awal sebesar US$3 juta dari Lightspeed Venture Partners.Factorial Capital, CEO Replit Amjad Masad, Gokul Rajaram, Michael Callahan, Prasanna Gopalakrishnan, Suja Chandrasekaran, dll juga berpartisipasi dalam investasi. Para investor ini memiliki pengalaman luas dalam berinvestasi dan mengoperasikan perusahaan-perusahaan acuan di bidang keamanan perusahaan dan AI.
Tim pendiri Patronus berasal dari latar belakang penelitian dan aplikasi ML (pembelajaran mesin) terkemuka, termasuk Facebook AI Research (FAIR), Airbnb, Meta Reality Labs, dan lembaga kuantitatif. Mereka telah menerbitkan makalah penelitian NLP di konferensi AI terkemuka (NeurIPS, EMNLP, ACL), merancang dan meluncurkan asisten AI percakapan pertama Airbnb, memelopori inferensi kausal di Meta Reality Labs, dan keluar dari produk lindung nilai Quantitative yang didukung Mark Cuban, produk 0→1 pada startup yang berkembang pesat.
Patronus diberi nasihat oleh Douwe Kiela, CEO Contextual AI dan asisten profesor di Universitas Stanford, yang juga mantan direktur penelitian di HuggingFace. Douwe telah melakukan penelitian perintis di bidang NLP, khususnya di bidang evaluasi, benchmarking dan RAG.
Masalah yang dipecahkan Patronus AI
Evaluasi model bahasa besar saat ini tidak dapat diskalakan dan berkinerja buruk karena alasan berikut:
Evaluasi manual lambat dan mahal. Perusahaan besar menghabiskan jutaan dolar untuk mempekerjakan ribuan penguji internal dan konsultan eksternal untuk memeriksa bug di AI secara manual. Insinyur yang ingin menerapkan produk AI menghabiskan waktu berminggu-minggu untuk membuat set pengujian dan memeriksa keluaran AI secara manual.
Sifat non-deterministik dari model bahasa besar membuat prediksi kegagalan menjadi sulit. Model bahasa besar adalah sistem probabilistik. Karena jangkauan masukannya tidak terbatas (dalam batas panjang konteks), ini memberikan permukaan serangan yang luas. Oleh karena itu, penyebab kegagalannya akan sangat kompleks.
Saat ini tidak ada kerangka pengujian standar untuk model bahasa besar. Pengujian perangkat lunak telah terintegrasi secara mendalam ke dalam alur kerja teknik tradisional, dengan kerangka pengujian unit, tim inspeksi kualitas yang besar, dan siklus rilis, namun perusahaan belum mengembangkan proses serupa untuk model bahasa besar. Evaluasi yang berkesinambungan dan terukur, identifikasi dan dokumentasi kesalahan model bahasa berukuran besar, dan tolok ukur kinerja sangat penting untuk penggunaan produksi model bahasa berukuran besar.
Tolok ukur akademis tidak mencerminkan situasi dunia nyata. Perusahaan saat ini menguji model bahasa besar pada tolok ukur akademis (seperti HELM, GLUE, SuperGLUE, dll.), namun tolok ukur ini tidak dapat mencerminkan skenario penggunaan sebenarnya. Tolok ukur akademis cenderung jenuh dan mengalami masalah kebocoran data pelatihan.
Kegagalan AI yang berkepanjangan sangatlah serius, dan 20% terakhir sangatlah menantang. Serangan permusuhan telah menunjukkan bahwa masalah keamanan model bahasa besar masih jauh dari terselesaikan. Meskipun model bahasa terlatih untuk tujuan umum menunjukkan kemampuan dasar yang kuat, masih terdapat sejumlah besar situasi kegagalan yang tidak diketahui. Patronus telah melakukan banyak penelitian inovatif mengenai evaluasi dan ketahanan model adversarial, namun ini hanyalah permulaan.
Misi Patronus AI
Misi Patronus AI adalah meningkatkan kepercayaan perusahaan terhadap AI generatif.
Patronus AI adalah platform evaluasi dan keamanan otomatis pertama di industri untuk model bahasa besar. Pelanggan menggunakan Patronus AI untuk mendeteksi kesalahan model bahasa yang besar dalam skala besar guna menerapkan produk AI dengan aman.
Platform secara otomatis melakukan:
Penilaian: Evaluasi kinerja model dan metrik utama seperti halusinasi dan keselamatan dalam skenario dunia nyata.
Hasilkan pengujian: Secara otomatis menghasilkan set pengujian permusuhan berskala besar.
Pembandingan: Bandingkan model untuk membantu pelanggan menentukan model terbaik untuk kasus penggunaan tertentu.
Patronus mengharapkan evaluasi yang sering dilakukan untuk beradaptasi dengan model, data, dan kebutuhan pengguna yang terus diperbarui. Tujuan utamanya adalah memperoleh tanda kredibilitas. Tidak ada perusahaan yang ingin melihat penggunanya tidak puas dengan kegagalan yang tidak terduga, atau bahkan masalah pers dan peraturan yang negatif.
Selain itu, Patronus mencari evaluator pihak ketiga yang tepercaya di mana pengguna memerlukan perspektif yang tidak memihak dan independen. Patronus ingin semua orang menganggapnya sebagai Moody's of AI.
Mitra Patronus saat ini termasuk perusahaan AI terkemuka Cohere, Nomic, dan Naologic. Selain itu, perusahaan industri tradisional ternama seperti beberapa perusahaan jasa keuangan juga sedang melakukan pembicaraan dengan Patronus AI untuk melakukan pilot project.
Jangan bersikap lembut pada malam yang baik itu,
Kemarahan,
kemarahan terhadap matinya cahaya.
—— Dylan Thomas (1954)
Referensi
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Patronus AI: Lightspeed America memimpin investasi sebesar US$3 juta, menargetkan pasar perusahaan untuk memecahkan masalah keamanan model besar
**Sumber: **Lingkaran Pemikiran Mendalam SenseAI
Rasa berpikir
Kami mencoba mengajukan kesimpulan dan refleksi yang lebih berbeda berdasarkan isi artikel, dan menyambut pertukaran.
▪ Masalah dalam penerapan model besar tingkat perusahaan: Prediksi hal-hal berikut menggunakan rumus autoregresif transformator pada dasarnya adalah model probabilistik, dan penilaian ketidakpastian konten yang dihasilkan adalah kunci untuk verifikasi kemampuan model. Pada saat yang sama, evaluasi indeks akademik tidak dapat disesuaikan dengan aplikasi lapangan tingkat perusahaan, dan diperlukan platform evaluasi otomatis multi-model yang lebih berorientasi pada produk.
▪ Cara menyeimbangkan akurasi dan ketidakpastian dalam konten produksi dan memperkuat kemampuan LLM terhadap skenario permintaan bisnis adalah seni platform evaluasi model dan aplikasi Gen-AI tingkat perusahaan.
Artikel ini memiliki total kata 2115. Dibutuhkan sekitar 5 menit untuk membaca dengan seksama.
Pengguna mengadopsi AI generatif pada tingkat yang belum pernah terjadi sebelumnya. ChatGPT adalah produk konsumen dengan pertumbuhan tercepat: menarik lebih dari 100 juta pengguna dalam dua bulan pertama peluncurannya. AI telah menjadi sorotan tahun ini. Namun pada saat yang sama, perusahaan-perusahaan telah menunjukkan sikap hati-hati ketika dihadapkan dengan pesatnya penerapan produk-produk AI. Mereka khawatir tentang kesalahan yang dapat disebabkan oleh model bahasa berukuran besar. Sayangnya, upaya saat ini untuk mengevaluasi dan memeriksa model bahasa sulit untuk diukur dan tidak efisien. Patronus berkomitmen untuk mengubah hal tersebut, dan misi mereka adalah meningkatkan kepercayaan perusahaan terhadap AI generatif.
Latar belakang berdirinya Patronus AI
Kedua pendiri Patronus, Rebecca dan Anand, sudah saling kenal selama hampir 10 tahun. Setelah belajar ilmu komputer bersama di University of Chicago, Rebecca bergabung dengan Meta AI (FAIR) untuk memimpin penelitian terkait NLP dan ALGN, sementara Anand mengembangkan inferensi kausal awal dan landasan eksperimental di Meta Reality Labs. Di Meta, keduanya mengalami secara langsung kesulitan dalam mengevaluasi dan menafsirkan keluaran pembelajaran mesin—Rebecca dari perspektif penelitian dan Anand dari perspektif aplikasi.
Saat CTO OpenAI Meera Murati mengumumkan perilisan ChatGPT di Twitter November lalu, Anand meneruskan berita tersebut ke Rebecca dalam waktu 5 menit. Mereka menyadari bahwa ini adalah momen transformasional, dan perusahaan pasti akan segera menerapkan model bahasa ke berbagai skenario. Maka Anand terkejut saat mendengar Piper Sandler, bank investasi tempat saudaranya bekerja, telah melarang akses internal ke OpenAI. Selama beberapa bulan berikutnya, mereka berkali-kali mendengar bahwa perusahaan tradisional bergerak maju dengan teknologi ini dengan sangat hati-hati.
Mereka menyadari bahwa meskipun teknologi NLP telah mengalami kemajuan yang signifikan, namun masih jauh dari penerapan nyata di perusahaan. Semua orang setuju bahwa AI generatif sangat berguna, namun tidak ada yang tahu cara menggunakannya dengan cara yang benar. Mereka menyadari bahwa penilaian dan keselamatan AI akan menjadi isu utama di tahun-tahun mendatang.
Situasi tim dan pembiayaan
Patronus mengumumkan pada 14 September 23, bahwa mereka telah menerima pembiayaan putaran awal sebesar US$3 juta dari Lightspeed Venture Partners.Factorial Capital, CEO Replit Amjad Masad, Gokul Rajaram, Michael Callahan, Prasanna Gopalakrishnan, Suja Chandrasekaran, dll juga berpartisipasi dalam investasi. Para investor ini memiliki pengalaman luas dalam berinvestasi dan mengoperasikan perusahaan-perusahaan acuan di bidang keamanan perusahaan dan AI.
Tim pendiri Patronus berasal dari latar belakang penelitian dan aplikasi ML (pembelajaran mesin) terkemuka, termasuk Facebook AI Research (FAIR), Airbnb, Meta Reality Labs, dan lembaga kuantitatif. Mereka telah menerbitkan makalah penelitian NLP di konferensi AI terkemuka (NeurIPS, EMNLP, ACL), merancang dan meluncurkan asisten AI percakapan pertama Airbnb, memelopori inferensi kausal di Meta Reality Labs, dan keluar dari produk lindung nilai Quantitative yang didukung Mark Cuban, produk 0→1 pada startup yang berkembang pesat.
Patronus diberi nasihat oleh Douwe Kiela, CEO Contextual AI dan asisten profesor di Universitas Stanford, yang juga mantan direktur penelitian di HuggingFace. Douwe telah melakukan penelitian perintis di bidang NLP, khususnya di bidang evaluasi, benchmarking dan RAG.
Masalah yang dipecahkan Patronus AI
Evaluasi model bahasa besar saat ini tidak dapat diskalakan dan berkinerja buruk karena alasan berikut:
Evaluasi manual lambat dan mahal. Perusahaan besar menghabiskan jutaan dolar untuk mempekerjakan ribuan penguji internal dan konsultan eksternal untuk memeriksa bug di AI secara manual. Insinyur yang ingin menerapkan produk AI menghabiskan waktu berminggu-minggu untuk membuat set pengujian dan memeriksa keluaran AI secara manual.
Sifat non-deterministik dari model bahasa besar membuat prediksi kegagalan menjadi sulit. Model bahasa besar adalah sistem probabilistik. Karena jangkauan masukannya tidak terbatas (dalam batas panjang konteks), ini memberikan permukaan serangan yang luas. Oleh karena itu, penyebab kegagalannya akan sangat kompleks.
Saat ini tidak ada kerangka pengujian standar untuk model bahasa besar. Pengujian perangkat lunak telah terintegrasi secara mendalam ke dalam alur kerja teknik tradisional, dengan kerangka pengujian unit, tim inspeksi kualitas yang besar, dan siklus rilis, namun perusahaan belum mengembangkan proses serupa untuk model bahasa besar. Evaluasi yang berkesinambungan dan terukur, identifikasi dan dokumentasi kesalahan model bahasa berukuran besar, dan tolok ukur kinerja sangat penting untuk penggunaan produksi model bahasa berukuran besar.
Tolok ukur akademis tidak mencerminkan situasi dunia nyata. Perusahaan saat ini menguji model bahasa besar pada tolok ukur akademis (seperti HELM, GLUE, SuperGLUE, dll.), namun tolok ukur ini tidak dapat mencerminkan skenario penggunaan sebenarnya. Tolok ukur akademis cenderung jenuh dan mengalami masalah kebocoran data pelatihan.
Kegagalan AI yang berkepanjangan sangatlah serius, dan 20% terakhir sangatlah menantang. Serangan permusuhan telah menunjukkan bahwa masalah keamanan model bahasa besar masih jauh dari terselesaikan. Meskipun model bahasa terlatih untuk tujuan umum menunjukkan kemampuan dasar yang kuat, masih terdapat sejumlah besar situasi kegagalan yang tidak diketahui. Patronus telah melakukan banyak penelitian inovatif mengenai evaluasi dan ketahanan model adversarial, namun ini hanyalah permulaan.
Misi Patronus AI
Misi Patronus AI adalah meningkatkan kepercayaan perusahaan terhadap AI generatif.
Patronus AI adalah platform evaluasi dan keamanan otomatis pertama di industri untuk model bahasa besar. Pelanggan menggunakan Patronus AI untuk mendeteksi kesalahan model bahasa yang besar dalam skala besar guna menerapkan produk AI dengan aman.
Platform secara otomatis melakukan:
Penilaian: Evaluasi kinerja model dan metrik utama seperti halusinasi dan keselamatan dalam skenario dunia nyata.
Hasilkan pengujian: Secara otomatis menghasilkan set pengujian permusuhan berskala besar.
Pembandingan: Bandingkan model untuk membantu pelanggan menentukan model terbaik untuk kasus penggunaan tertentu.
Patronus mengharapkan evaluasi yang sering dilakukan untuk beradaptasi dengan model, data, dan kebutuhan pengguna yang terus diperbarui. Tujuan utamanya adalah memperoleh tanda kredibilitas. Tidak ada perusahaan yang ingin melihat penggunanya tidak puas dengan kegagalan yang tidak terduga, atau bahkan masalah pers dan peraturan yang negatif.
Selain itu, Patronus mencari evaluator pihak ketiga yang tepercaya di mana pengguna memerlukan perspektif yang tidak memihak dan independen. Patronus ingin semua orang menganggapnya sebagai Moody's of AI.
Mitra Patronus saat ini termasuk perusahaan AI terkemuka Cohere, Nomic, dan Naologic. Selain itu, perusahaan industri tradisional ternama seperti beberapa perusahaan jasa keuangan juga sedang melakukan pembicaraan dengan Patronus AI untuk melakukan pilot project.
Jangan bersikap lembut pada malam yang baik itu,
Kemarahan,
kemarahan terhadap matinya cahaya.
—— Dylan Thomas (1954)
Referensi