Home Teknologi Google Membuka Akses ke Dialog Audio Asli Gemini 2.5 dan Pembuatan Ucapan...

Teknologi

Google Membuka Akses ke Dialog Audio Asli Gemini 2.5 dan Pembuatan Ucapan yang Dapat Dikontrol di Pratinjau

4 June 2025

Google memperkenalkan kemampuan generasi audio baru dengan model Gemini 2.5 di Google I/O 2025. Raksasa teknologi yang berbasis di Mountain View sekarang mengizinkan pengembang dan individu menguji fitur-fitur ini di platformnya. Dua kemampuan baru termasuk dialog audio asli dan text-to-speech (TTS) yang dapat dikontrol dengan pratinjau Gemini 2.5 Flash. Sementara yang pertama dapat menghasilkan audio seperti manusia secara native saat menanggapi perintah pengguna, yang terakhir dapat mengubah skrip apa pun menjadi ucapan percakapan. Fitur-fitur ini saat ini tidak tersedia untuk pengembang melalui antarmuka pemrograman aplikasi (API).

Google Memamerkan Kemampuan Output Audio Gemini 2.5 Flash

Dalam sebuah posting blog, raksasa teknologi merinci fitur dari dua mode pembuatan audio ini, menyoroti bagaimana pengembang dapat menggunakannya untuk membangun pengalaman baru bagi orang-orang. Saat ini, dialog audio asli dapat dicoba di tab streaming Google AI Studio, sedangkan fitur TTS dapat diuji di tab generate media dalam AI Studio.

Dialog audio asli dengan pratinjau Gemini 2.5 Flash dirancang untuk percakapan real-time antara pengguna manusia dan AI. Pengguna dapat mengetik prompt atau mengucapkannya, dan AI merespons secara lisan. Proses ini secara langsung menghasilkan audio, alih-alih terlebih dahulu menghasilkan teks dan kemudian mengubahnya menjadi ucapan.

Ada beberapa keuntungan untuk itu juga. Ini mendukung dialog afektif, yang berarti ketika Gemini 2.5 Flash merespons nada suara pengguna, ia dapat mengenali emosi di balik kata-kata tersebut. Itu dapat memahami ketika pengguna terdengar takut, marah, atau terkejut dan merespons dengan tepat.

Selain itu, fitur pembuatan audio dapat mengekspresikan emosi saat berbicara, mengadopsi aksen dan gaya linguistik yang berbeda, dapat mengakses alat seperti Google Penelusuran, dan mendukung lebih dari 24 bahasa.

Datang ke fitur TTS yang dapat dikontrol, ia menawarkan pembuatan dialog multi-speaker, dapat menghasilkan emosi dan aksen sambil menceritakan naskah, mengontrol kecepatan pengiriman dan menekankan pengucapan, dan mendukung 24 bahasa dan pencampuran bahasa yang sama.

Google mengatakan kemampuan ini dinilai untuk potensi risiko di seluruh proses pengembangan. Perusahaan menggunakan mekanisme internal serta tim merah untuk menemukan dan memperbaiki kerentanan apa pun. Perusahaan juga menyoroti bahwa semua output audio dari model ini disematkan dengan SynthID, teknologi watermark-nya.

Sumber