Home Teknologi Pelukan Wajah Memperkenalkan Model Bahasa Visi SmolVLM Sumber Terbuka yang Berfokus pada...

Pelukan Wajah Memperkenalkan Model Bahasa Visi SmolVLM Sumber Terbuka yang Berfokus pada Efisiensi

34
0

Hugging Face, platform kecerdasan buatan (AI) dan pembelajaran mesin (ML), memperkenalkan model AI baru yang berfokus pada visi minggu lalu. Dijuluki SmolVLM (di mana VLM adalah akronim dari model bahasa penglihatan), ini adalah model berukuran kompak yang berfokus pada efisiensi. Perusahaan mengklaim bahwa karena ukurannya yang lebih kecil dan efisiensi tinggi, ini dapat berguna bagi perusahaan dan penggemar AI yang menginginkan kemampuan AI tanpa berinvestasi banyak dalam infrastrukturnya. Hugging Face juga telah membuka model visi SmolVLM di bawah lisensi Apache 2.0 untuk penggunaan pribadi dan komersial.

Wajah Pelukan Memperkenalkan SmolVLM

Dalam sebuah posting blog, Hugging Face merinci model visi open-source baru. Perusahaan menyebut model AI “canggih” karena penggunaan memori yang efisien dan inferensi yang cepat. Menyoroti kegunaan model visi kecil, perusahaan mencatat tren baru-baru ini perusahaan AI mengurangi model untuk membuatnya lebih efisien dan hemat biaya.

Ekosistem svm wajah yang memeluk Ekosistem model penglihatan kecil

Ekosistem model visi kecil
Kredit Foto: Wajah Pelukan

Keluarga SmolVLM memiliki tiga varian model AI, masing-masing dengan dua miliar parameter. Yang pertama adalah SmolVLM-Base, yang merupakan model standar. Selain itu, SmolVLM-Synthetic adalah varian yang disesuaikan dengan baik yang dilatih pada data sintetis (data yang dihasilkan oleh AI atau komputer), dan SmolVLM Instruct adalah varian instruksi yang dapat digunakan untuk membangun aplikasi yang berpusat pada pengguna akhir.

Datang ke detail teknis, model visi dapat beroperasi hanya dengan RAM GPU 5,02GB, yang secara signifikan lebih rendah dari persyaratan RAM GPU 13,7GB Qwen2-VL 2B dan RAM GPU 10,52GB InternVL2 2B. Karena itu, Hugging Face mengklaim bahwa model AI dapat berjalan di perangkat di laptop.

SmolVLM dapat menerima urutan teks dan gambar dalam urutan apa pun dan menganalisisnya untuk menghasilkan respons terhadap pertanyaan pengguna. Ini mengkodekan tambalan gambar beresolusi 384 x 384p ke 81 token data visual. Perusahaan mengklaim bahwa ini memungkinkan AI untuk mengkodekan petunjuk pengujian dan satu gambar dalam 1.200 token, dibandingkan dengan 16.000 token yang diperlukan oleh Qwen2-VL.

Dengan spesifikasi ini, Hugging Face menyoroti bahwa SmolVLM dapat dengan mudah digunakan oleh perusahaan kecil dan penggemar AI dan digunakan ke sistem lokal tanpa tumpukan teknologi yang memerlukan peningkatan besar-besaran. Perusahaan juga akan dapat menjalankan model AI untuk inferensi berbasis teks dan gambar tanpa menimbulkan biaya yang signifikan.

Untuk berita dan ulasan teknologi terbaru, ikuti Gadgets 360 di X, Facebook, WhatsApp, Utas dan Google Berita. Untuk video terbaru tentang gadget dan teknologi, berlangganan saluran YouTube kami. Jika Anda ingin tahu segalanya tentang influencer top, ikuti Who’sThat360 internal kami di Instagram dan YouTube.

Vivo X200, Vivo X200 Pro diperkirakan akan resmi di India pada minggu kedua Desember; Tanggal Penjualan Bocor


Langkah BRICS untuk Memperkenalkan Platform Aset Digital untuk De-Dollarisasi Memicu Kritik dari Trump



Sumber