Home Teknologi Nvidia Research memperkenalkan DiffUHaul, alat AI yang memungkinkan relokasi objek dalam gambar

Nvidia Research memperkenalkan DiffUHaul, alat AI yang memungkinkan relokasi objek dalam gambar

33
0

Peneliti Nvidia memperkenalkan model kecerdasan buatan (AI) baru pada hari Senin yang dapat memindahkan objek dalam gambar. Dijuluki DiffUHaul, alat ini dapat memahami konteks gambar secara spasial untuk memindahkan objek dari satu tempat ke tempat lain tanpa memengaruhi latar belakang atau bentuk gambar. Aspek unik dari teknik ini adalah bebas pelatihan, artinya tidak ada data pra-pelatihan yang digunakan untuk membangun alat ini. Teknologi baru ini dipamerkan oleh perusahaan pada konferensi Special Interest Group on Computer Graphics and Interactive Techniques (SIGGRAPH) Asia 2024.

Dalam sebuah makalah penelitian, peneliti Nvidia merinci alat AI baru. Teknologi ini dikembangkan bekerja sama dengan Universitas Ibrani Yerusalem, Universitas Tel Aviv, dan Universitas Reichman. Dengan alat baru ini, para peneliti bertujuan untuk memecahkan masalah menonjol dengan model pembuatan gambar AI – masalah relokasi objek dalam gambar dengan kesadaran spasial.

Makalah ini menyoroti bahwa tugas pengeditan khusus ini tetap menjadi hambatan bagi para ilmuwan AI karena model AI tidak memiliki penalaran spasial. Model visual yang ada dapat memahami konteks gambar, tetapi tidak dapat memindahkan objek karena mereka tidak memahami bagaimana gerakan dalam lingkungan 2D akan dirasakan secara spasial.

Dengan DiffUHaul, Nvidia mengklaim masalah ini dapat diselesaikan. Berdasarkan arsitektur difusi gambar, alat ini menggunakan masking perhatian dalam langkah denoising. Hal ini dilakukan untuk mempertahankan tampilan objek tingkat tinggi. Alat AI menggunakan BlobGEN, teknik baru yang mengintegrasikan pemahaman spasial ke dalam alat AI. Selanjutnya, teknik baru digunakan untuk merekonstruksi gambar nyata dengan model lokal di tempat yang ditentukan.

Di ujung depan, pengguna akan dapat mengetikkan perintah teks yang menyoroti objek yang ingin mereka ubah dan AI dapat menyesuaikan kembali objek secara spasial sambil menyesuaikan latar belakang yang sesuai. Dalam demonstrasi yang ditunjukkan oleh perusahaan, tidak dapat ditentukan apakah alat pengeditan AI dapat memahami perubahan bentuk yang datang dengan gerakan spasial. Misalnya, jika balon udara dipindahkan ke tanah, bentuknya juga berubah. Namun, AI mungkin tidak dapat menangkapnya karena kurangnya pelatihan.

Sumber