Nvidia pada hari Senin menunjukkan model kecerdasan buatan baru untuk menghasilkan musik dan audio yang dapat memodifikasi suara dan menghasilkan suara baru – teknologi yang ditujukan untuk produser musik, film, dan video game. Nvidia, pemasok chip dan perangkat lunak terbesar di dunia yang digunakan untuk membuat sistem AI, mengatakan tidak memiliki rencana segera untuk merilis teknologi secara publik, yang disebutnya Fugatto, kependekan dari Foundational Generative Audio Transformer Opus 1. Ini bergabung dengan teknologi lain yang ditunjukkan oleh startup seperti Runway dan pemain yang lebih besar seperti Meta Platforms yang dapat menghasilkan audio atau video dari perintah teks.
Versi Nvidia yang berbasis di Santa Clara, California menghasilkan efek suara dan musik dari deskripsi teks, termasuk suara baru seperti membuat terompet menggonggong seperti anjing.
Apa yang membuatnya berbeda dari teknologi AI lainnya adalah kemampuannya untuk mengambil dan memodifikasi audio yang ada, misalnya dengan mengambil baris yang dimainkan di piano dan mengubahnya menjadi baris yang dinyanyikan oleh suara manusia, atau dengan mengambil rekaman kata yang diucapkan dan mengubah aksen yang digunakan dan suasana hati yang diekspresikan.
“Jika kita berpikir tentang audio sintetis selama 50 tahun terakhir, musik terdengar berbeda sekarang karena komputer, karena sintesis,” kata Bryan Catanzaro, wakil presiden penelitian pembelajaran mendalam terapan di Nvidia. “Saya pikir AI generatif akan membawa kemampuan baru ke musik, video game, dan orang-orang biasa yang ingin menciptakan sesuatu.”
Sementara perusahaan seperti OpenAI sedang bernegosiasi dengan studio Hollywood tentang apakah dan bagaimana AI dapat digunakan dalam industri hiburan, hubungan antara teknologi dan Hollywood menjadi tegang, terutama setelah bintang Hollywood Scarlett Johansson menuduh OpenAI meniru suaranya.
Model baru Nvidia dilatih pada data sumber terbuka, dan perusahaan mengatakan masih memperdebatkan apakah dan bagaimana merilisnya secara publik. “Teknologi generatif apa pun selalu membawa beberapa risiko, karena orang mungkin menggunakannya untuk menghasilkan hal-hal yang kita inginkan untuk tidak mereka lakukan,” kata Catanzaro. “Kami perlu berhati-hati tentang itu, itulah sebabnya kami tidak memiliki rencana segera untuk merilis ini.”
Pencipta model AI generatif belum menentukan bagaimana mencegah penyalahgunaan teknologi seperti pengguna yang menghasilkan informasi yang salah atau melanggar hak cipta dengan menghasilkan karakter berhak cipta.
OpenAI dan Meta juga belum mengatakan kapan mereka berencana untuk merilis ke publik model mereka yang menghasilkan audio atau video.