Home Teknologi Google Memperkenalkan Keluarga PaliGemma 2 Model Bahasa Visi AI Open Source

Google Memperkenalkan Keluarga PaliGemma 2 Model Bahasa Visi AI Open Source

33
0

Google memperkenalkan penerus model bahasa visi kecerdasan buatan (AI) PaliGemma pada hari Kamis. Dijuluki PaliGemma 2, keluarga model AI meningkatkan kemampuan generasi yang lebih tua. Raksasa teknologi yang berbasis di Mountain View mengatakan model bahasa penglihatan dapat melihat, memahami, dan berinteraksi dengan input visual seperti gambar dan aset visual lainnya. Ini dibangun menggunakan model bahasa kecil Gemma 2 (SLM) yang dirilis pada bulan Agustus. Menariknya, raksasa teknologi tersebut mengklaim bahwa model tersebut dapat menganalisis emosi dalam gambar yang diunggah.

Google PaliGemma AI Model

Dalam sebuah posting blog, raksasa teknologi merinci model AI PaliGemma 2 yang baru. Sementara Google memiliki beberapa model bahasa penglihatan, PaliGemma adalah model pertama dalam keluarga Gemma. Model visi berbeda dari model bahasa besar (LLM) pada umumnya karena mereka memiliki encoder tambahan yang dapat menganalisis konten visual dan mengubahnya menjadi bentuk data yang sudah dikenal. Dengan cara ini, model visi secara teknis dapat “melihat” dan memahami dunia luar.

Salah satu manfaat dari model visi yang lebih kecil adalah dapat digunakan untuk sejumlah besar aplikasi karena model yang lebih kecil dioptimalkan untuk kecepatan dan akurasi. Dengan PaliGemma 2 yang bersumber terbuka, pengembang dapat menggunakan kemampuannya untuk membangun aplikasi.

PaliGemma 2 hadir dalam tiga ukuran parameter yang berbeda yaitu 3 miliar, 10 miliar, dan 28 miliar. Ini juga tersedia dalam resolusi 224p, 448p, 896p. Karena itu, raksasa teknologi mengklaim bahwa mudah untuk mengoptimalkan kinerja model AI untuk berbagai tugas. Google mengatakan mereka menghasilkan teks yang terperinci dan relevan secara kontekstual untuk gambar. Itu tidak hanya dapat mengidentifikasi objek tetapi juga menggambarkan tindakan, emosi, dan narasi keseluruhan dari adegan.

Google menyoroti bahwa alat ini dapat digunakan untuk pengenalan rumus kimia, pengenalan skor musik, penalaran spasial, dan pembuatan laporan sinar-X dada. Perusahaan juga telah menerbitkan makalah di jurnal pra-cetak online arXiv.

Pengembang dan penggemar AI dapat mengunduh model PaliGemma 2 dan kodenya di Hugging Face dan Kaggle di sini dan di sini. Model AI mendukung kerangka kerja seperti Hugging Face Transformers, Keras, PyTorch, JAX, dan Gemma.cpp.

Sumber