Anthropic mengumumkan pengembangan sistem baru pada hari Senin yang dapat melindungi model kecerdasan buatan (AI) dari upaya jailbreaking. Dijuluki Pengklasifikasi Konstitusional, ini adalah teknik perlindungan yang dapat mendeteksi ketika upaya jailbreak dilakukan pada tingkat input dan mencegah AI menghasilkan respons berbahaya sebagai akibatnya. Perusahaan AI telah menguji kekokohan sistem melalui jailbreaker independen dan juga telah membuka demo langsung sementara dari sistem untuk memungkinkan setiap individu yang tertarik menguji kemampuannya.
Anthropic Meluncurkan Pengklasifikasi Konstitusional
Jailbreak dalam AI generatif mengacu pada teknik penulisan prompt yang tidak biasa yang dapat memaksa model AI untuk tidak mematuhi pedoman pelatihannya dan menghasilkan konten yang berbahaya dan tidak pantas. Jailbreak bukanlah hal baru, dan sebagian besar pengembang AI menerapkan beberapa perlindungan terhadapnya dalam model. Namun, karena insinyur yang cepat terus menciptakan teknik baru, sulit untuk membangun model bahasa besar (LLM) yang sepenuhnya terlindungi dari serangan semacam itu.
Beberapa teknik jailbreak termasuk petunjuk yang sangat panjang dan berbelit-belit yang membingungkan kemampuan penalaran AI. Yang lain menggunakan beberapa petunjuk untuk memecah perlindungan, dan beberapa bahkan menggunakan kapitalisasi yang tidak biasa untuk menerobos pertahanan AI.
Dalam sebuah posting yang merinci penelitian tersebut, Anthropic mengumumkan bahwa mereka sedang mengembangkan Pengklasifikasi Konstitusi sebagai lapisan pelindung untuk model AI. Ada dua pengklasifikasi — input dan output — yang dilengkapi dengan daftar prinsip yang harus dipatuhi model. Daftar prinsip ini disebut konstitusi. Khususnya, perusahaan AI sudah menggunakan konstitusi untuk menyelaraskan model Claude.
Cara kerja Pengklasifikasi Konstitusi
Kredit Foto: Anthropic
Sekarang, dengan Pengklasifikasi Konstitusional, prinsip-prinsip ini mendefinisikan kelas konten yang diperbolehkan dan tidak diizinkan. Konstitusi ini digunakan untuk menghasilkan sejumlah besar prompt dan penyelesaian model dari Claude di berbagai kelas konten. Data sintetis yang dihasilkan juga diterjemahkan ke dalam bahasa yang berbeda dan diubah menjadi gaya jailbreak yang diketahui. Dengan cara ini, kumpulan data konten yang besar dibuat yang dapat digunakan untuk membobol model.
Data sintetis ini kemudian digunakan untuk melatih pengklasifikasi input dan output. Anthropic melakukan program bug bounty, mengundang 183 jailbreaker independen untuk mencoba melewati Pengklasifikasi Konstitusional. Penjelasan mendalam tentang cara kerja sistem dirinci dalam makalah penelitian yang diterbitkan di arXiv. Perusahaan mengklaim tidak ada jailbreak universal (satu gaya prompt yang bekerja di kelas konten yang berbeda) yang ditemukan.
Selanjutnya, selama tes evaluasi otomatis, di mana perusahaan AI memukul Claude menggunakan 10.000 perintah jailbreaking, tingkat keberhasilannya ditemukan 4,4 persen, dibandingkan dengan 86 persen untuk model AI yang tidak dijaga. Anthropic juga mampu meminimalkan penolakan yang berlebihan (penolakan pertanyaan yang tidak berbahaya) dan persyaratan daya pemrosesan tambahan dari Pengklasifikasi Konstitusional.
Namun, ada batasan tertentu. Anthropic mengakui bahwa Pengklasifikasi Konstitusi mungkin tidak dapat mencegah setiap jailbreak universal. Itu juga bisa kurang resisten terhadap teknik jailbreak baru yang dirancang khusus untuk mengalahkan sistem. Mereka yang tertarik untuk menguji kekokohan sistem dapat menemukan versi demo langsung di sini. Ini akan tetap aktif hingga 10 Februari.
Untuk berita dan ulasan teknologi terbaru, ikuti Gadgets 360 di X, Facebook, WhatsApp, Utas dan Google Berita. Untuk video terbaru tentang gadget dan teknologi, berlangganan saluran YouTube kami. Jika Anda ingin tahu segalanya tentang influencer top, ikuti Who’sThat360 internal kami di Instagram dan YouTube.

WhatsApp untuk Android Mulai Menguji Kemampuan untuk Membuka Media Lihat Setelah di Perangkat yang Ditautkan