Home Teknologi Hume Memperkenalkan Fitur Kontrol Suara Berbasis Interpretabilitas untuk Kustomisasi Suara AI

Teknologi

Hume Memperkenalkan Fitur Kontrol Suara Berbasis Interpretabilitas untuk Kustomisasi Suara AI

8 December 2024

Hume, sebuah perusahaan kecerdasan buatan (AI) yang berbasis di New York, meluncurkan alat baru pada hari Senin yang memungkinkan pengguna untuk menyesuaikan suara AI. Dijuluki Kontrol Suara, fitur baru ini ditujukan untuk membantu pengembang mengintegrasikan suara-suara ini ke dalam chatbot mereka dan aplikasi berbasis AI lainnya. Alih-alih menawarkan berbagai macam suara, perusahaan menawarkan kontrol terperinci atas 10 dimensi suara yang berbeda. Dengan memilih parameter yang diinginkan di setiap dimensi, pengguna dapat menghasilkan suara unik untuk aplikasi mereka.

Perusahaan merinci alat AI baru dalam sebuah posting blog. Hume menyatakan bahwa mereka mencoba memecahkan masalah perusahaan menemukan suara AI yang tepat untuk mencocokkan identitas merek mereka. Dengan fitur ini, pengguna dapat menyesuaikan berbagai aspek persepsi suara dan memungkinkan pengembang untuk membuat suara yang lebih tegas, santai, atau mengapung untuk aplikasi berbasis AI.

Kontrol Suara Hume saat ini tersedia dalam versi beta, tetapi dapat diakses oleh siapa saja yang terdaftar di platform. Anggota staf Gadgets 360 dapat mengakses alat dan menguji fiturnya. Ada 10 dimensi berbeda yang dapat disesuaikan oleh pengembang termasuk jenis kelamin, ketegasan, daya apung, kepercayaan diri, antusiasme, hidung, kesantaian, kehalusan, kehangatan, dan kekencangan.

Alih-alih menambahkan penyesuaian berbasis prompt, perusahaan telah menambahkan penggeser yang berubah dari -100 hingga +100 untuk setiap metrik. Perusahaan menyatakan bahwa pendekatan ini diambil untuk menghilangkan ketidakjelasan yang terkait dengan deskripsi tekstual suara dan untuk menawarkan kontrol terperinci atas bahasa.

Dalam pengujian kami, kami menemukan bahwa mengubah salah satu dari sepuluh dimensi membuat perbedaan yang dapat didengar pada suara AI dan alat tersebut mampu menguraikan dimensi yang berbeda dengan benar. Perusahaan AI mengklaim bahwa ini dicapai dengan mengembangkan “pendekatan tanpa pengawasan” baru yang mempertahankan sebagian besar karakteristik dari setiap suara dasar ketika parameter spesifik bervariasi. Khususnya, Hume tidak merinci sumber data yang diperoleh.

Khususnya, setelah membuat suara AI, pengembang harus menerapkannya ke aplikasi dengan mengonfigurasi model AI Empathic Voice Interface (EVI). Meskipun perusahaan tidak menentukan, model EVI-2 kemungkinan digunakan untuk fitur eksperimental ini.

Di masa depan, Hume berencana untuk memperluas jangkauan suara dasar, memperkenalkan dimensi tambahan yang dapat ditafsirkan, meningkatkan pelestarian karakteristik suara di bawah modifikasi ekstrem, dan mengembangkan alat canggih untuk menganalisis dan memvisualisasikan karakteristik suara.

Sumber