Home Teknologi Anthropic Mengembangkan Pengklasifikasi Konstitusional untuk Melindungi Model AI Dari Upaya Jailbreak

Teknologi

Anthropic Mengembangkan Pengklasifikasi Konstitusional untuk Melindungi Model AI Dari Upaya Jailbreak

4 February 2025

Anthropic mengumumkan pengembangan sistem baru pada hari Senin yang dapat melindungi model kecerdasan buatan (AI) dari upaya jailbreaking. Dijuluki Pengklasifikasi Konstitusional, ini adalah teknik perlindungan yang dapat mendeteksi ketika upaya jailbreak dilakukan pada tingkat input dan mencegah AI menghasilkan respons berbahaya sebagai akibatnya. Perusahaan AI telah menguji kekokohan sistem melalui jailbreaker independen dan juga telah membuka demo langsung sementara dari sistem untuk memungkinkan setiap individu yang tertarik menguji kemampuannya.

Anthropic Meluncurkan Pengklasifikasi Konstitusional

Jailbreak dalam AI generatif mengacu pada teknik penulisan prompt yang tidak biasa yang dapat memaksa model AI untuk tidak mematuhi pedoman pelatihannya dan menghasilkan konten yang berbahaya dan tidak pantas. Jailbreak bukanlah hal baru, dan sebagian besar pengembang AI menerapkan beberapa perlindungan terhadapnya dalam model. Namun, karena insinyur yang cepat terus menciptakan teknik baru, sulit untuk membangun model bahasa besar (LLM) yang sepenuhnya terlindungi dari serangan semacam itu.

Beberapa teknik jailbreak termasuk petunjuk yang sangat panjang dan berbelit-belit yang membingungkan kemampuan penalaran AI. Yang lain menggunakan beberapa petunjuk untuk memecah perlindungan, dan beberapa bahkan menggunakan kapitalisasi yang tidak biasa untuk menerobos pertahanan AI.

Dalam sebuah posting yang merinci penelitian tersebut, Anthropic mengumumkan bahwa mereka sedang mengembangkan Pengklasifikasi Konstitusi sebagai lapisan pelindung untuk model AI. Ada dua pengklasifikasi — input dan output — yang dilengkapi dengan daftar prinsip yang harus dipatuhi model. Daftar prinsip ini disebut konstitusi. Khususnya, perusahaan AI sudah menggunakan konstitusi untuk menyelaraskan model Claude.

Cara kerja Pengklasifikasi Konstitusi
Kredit Foto: Anthropic

Sekarang, dengan Pengklasifikasi Konstitusional, prinsip-prinsip ini mendefinisikan kelas konten yang diperbolehkan dan tidak diizinkan. Konstitusi ini digunakan untuk menghasilkan sejumlah besar prompt dan penyelesaian model dari Claude di berbagai kelas konten. Data sintetis yang dihasilkan juga diterjemahkan ke dalam bahasa yang berbeda dan diubah menjadi gaya jailbreak yang diketahui. Dengan cara ini, kumpulan data konten yang besar dibuat yang dapat digunakan untuk membobol model.

Data sintetis ini kemudian digunakan untuk melatih pengklasifikasi input dan output. Anthropic melakukan program bug bounty, mengundang 183 jailbreaker independen untuk mencoba melewati Pengklasifikasi Konstitusional. Penjelasan mendalam tentang cara kerja sistem dirinci dalam makalah penelitian yang diterbitkan di arXiv. Perusahaan mengklaim tidak ada jailbreak universal (satu gaya prompt yang bekerja di kelas konten yang berbeda) yang ditemukan.

Selanjutnya, selama tes evaluasi otomatis, di mana perusahaan AI memukul Claude menggunakan 10.000 perintah jailbreaking, tingkat keberhasilannya ditemukan 4,4 persen, dibandingkan dengan 86 persen untuk model AI yang tidak dijaga. Anthropic juga mampu meminimalkan penolakan yang berlebihan (penolakan pertanyaan yang tidak berbahaya) dan persyaratan daya pemrosesan tambahan dari Pengklasifikasi Konstitusional.

Namun, ada batasan tertentu. Anthropic mengakui bahwa Pengklasifikasi Konstitusi mungkin tidak dapat mencegah setiap jailbreak universal. Itu juga bisa kurang resisten terhadap teknik jailbreak baru yang dirancang khusus untuk mengalahkan sistem. Mereka yang tertarik untuk menguji kekokohan sistem dapat menemukan versi demo langsung di sini. Ini akan tetap aktif hingga 10 Februari.

Untuk berita dan ulasan teknologi terbaru, ikuti Gadgets 360 di X, Facebook, WhatsApp, Utas dan Google Berita. Untuk video terbaru tentang gadget dan teknologi, berlangganan saluran YouTube kami. Jika Anda ingin tahu segalanya tentang influencer top, ikuti Who’sThat360 internal kami di Instagram dan YouTube.

WhatsApp untuk Android Mulai Menguji Kemampuan untuk Membuka Media Lihat Setelah di Perangkat yang Ditautkan

Sumber

Facebook
Twitter
Pinterest
WhatsApp

Previous articleApakah Shivangi Joshi Digantikan Oleh Pranali Rathod Dalam Acara yang Belum Diberi Judul yang Dibintangi Harshad Chopda? Inilah yang Kami Ketahui
Next article‘Kami Akan Tumbuh’: Gautam Gambhir Menjelaskan Alasan Di Balik Penunjukan Suryakumar Yadav Sebagai Kapten T20I

Laurensia Ghata
https://agenberita.live/
Laurensia Ghata adalah lulusan Komunikasi Massa yang tekun, berdedikasi, dan pekerja keras dari Taylor's University, Malaysia di bidang Penyiaran yang mencari peluang untuk meningkatkan pengetahuan, pengalaman, dan keterampilan agar menjadi individu yang lebih baik di dunia profesional. Ia juga memperoleh kesempatan untuk memperluas dan menguji pengetahuan dan keterampilannya melalui beberapa pengalaman magang yang memungkinkannya untuk meningkatkan keterampilannya dalam kerja tim, kemampuan beradaptasi, pemecahan masalah, dan keterampilan interpersonal. Saat ini, ia tengah mencari peluang untuk belajar lebih lanjut dan berkembang secara profesional.