Tech

Keren, Program AI Microsoft Bisa Mengkloning Suara Dari Klip Audio 3 Detik

Dwiwa

Posted on January 11th 2023

Kemajuan kecerdasan buatan atau artificial intelligence (AI) baru dari Microsoft dapat mengkloning suara setelah mendengarmu berbicara hanya selama 3 detik. Program yang disebut VALL-E ini dirancang untuk sintesis text-to-speech.

Dilansir dari PCMag, tim peneliti di Microsoft menciptakannya dengan membuat sistem mendengarkan 60.000 jam narasi buku audio bahasa Inggris dari lebih dari 7.000 pembicara yang berbeda dalam upaya membuatnya mereproduksi ucapan yang terdengar seperti manusia. Sampel ini ratusan kali lebih besar daripada program text-to-speech lainnya yang telah dibuat.

Tim Microsoft mempublikasikannya di sebuah situs yang menyertakan beberapa demo VALL-E yang sedang unjuk kemampuan. Program AI ini tidak hanya dapat mengkloning suara seseorang menggunakan klip audio 3 detik, tetapi juga memanipulasi suara klon untuk mengatakan apa pun yang diinginkan. Selain itu, program ini dapat mereplikasi emosi dalam suara seseorang atau dikonfigurasikan ke dalam gaya bicara yang berbeda.

Kloning suara sendiri bukanlah sesuatu yang baru. Namun penelitian yang dilakukan Microsoft menonjol karena membuatnya mudah untuk mereplikasi suara siapa pun hanya dengan cuplikan singkat data audio. Karena itu, tidak sulit membayangkan teknologi yang sama bisa menyebabkan kejahatan dunia maya. Hal ini pun diakui oleh tim Microsoft sebagai potensi ancaman.

“Karena VALL-E dapat mensintesis ucapan yang mempertahankan identitas pembicara, hal itu dapat membawa potensi risiko penyalahgunaan, seperti memalsukan identifikasi suara atau meniru identitas pembicara tertentu,” tulis para peneliti dalam makalah mereka.

Dikatakan juga bahwa tim mempertimbangkan untuk membangun program yang dapat membedakan apakah klip audio disintesis oleh VALL-E. Progam ini sendiri menafsirkan ucapan audio sebagai "token diskrit", lalu mereproduksi token untuk berbicara dengan teks yang berbeda.

Saat ini, teknologi ini masih jauh dari sempurna. Dalam makalah penelitian mereka, tim Microsoft mencatat VALL-E terkadang kesulitan atau gagal mengucapkan kata-kata tertentu. Di lain waktu, kata-kata tersebut dapat terdengar seperti gumaman, disintesis secara artifisial, robotik, atau tanpa nada.

"Bahkan jika kami menggunakan 60 ribu jam data untuk pelatihan, itu tetap tidak dapat mencakup suara semua orang, terutama orang yang berbicara dengan aksen," jelas tim tersebut. "Selain itu, keragaman gaya bicara tidak cukup, karena LibriLight (audio VALL-E telah dilatih aktif) adalah kumpulan data buku audio, di mana sebagian besar ucapan dalam gaya membaca.”

Namun demikian, penelitian menunjukkan bahwa membuat program kloning suara yang lebih akurat dapat dicapai jika dilatih pada lebih banyak klip audio. Sementara itu, tampaknya Microsoft belum merilis VALL-E ke publik, kemungkinan besar untuk mencegah penyalahgunaan.(*)

Ilustrasi: PIxabay

Artikel Terkait
Tech
4 Platform AI selain Chat GPT, Tertarik buat Coba Tanya-Tanya?

Tech
Microsoft Memperluas Jangkauan Xiaoice Mereka Hingga ke Indonesia

Tech
Wombo Art, Web Generator Ilustrasi Dreamy yang Gambarkan Imajinasi Kita