SAM Audio dari Meta

Pada 17 Desember, Meta (induk perusahaan Instagram dan Facebook) resmi memperkenalkan SAM Audio atau Segment Anything Model for Audio. Ini adalah model pemisahan audio multimodal berbasis kecerdasan buatan (AI) yang memungkinkan pengguna mengekstrak suara spesifik dari video hanya dengan satu klik.

​Teknologi ini digadang-gadang menjadi standar baru dalam interaksi audio digital. Bagaimana cara memisahkan suara vokal, instrumen, atau efek suara dari video semudah menunjuk dan mengetik? Berikut ulasannya.

​Apa Itu SAM Audio Meta?

​SAM Audio adalah model audio separation terpadu pertama dari Meta yang dirancang untuk memisahkan suara dari campuran audio yang kompleks.

​Berbeda dari software editing audio konvensional yang mengandalkan pengaturan frequency dan equalizer rumit, SAM Audio memanfaatkan isyarat alami. Ia bekerja menggunakan 3 cara berikut:

​Prompt Teks (Perintah tulisan)

​Isyarat Visual (Objek dalam video)

​Penanda Waktu (Timestamp)

​Pendekatan ini meniru cara otak manusia memproses suara. Kita tidak berpikir dalam spektrum gelombang, melainkan konteks: suara gitar, orang mengobrol, atau kicauan burung. Logika inilah yang diadopsi oleh AI Meta.

​Cara Kerja: "Telinga" dan "Otak" AI

​Di balik kecanggihan SAM Audio, terdapat teknologi inti bernama Perceptual Encoder Audiovisual (PE-AV).

​PE-AV (Telinga). Berfungsi menangkap dan memahami hubungan antara apa yang terlihat di video dan apa yang terdengar.

​SAM Audio (Otak). Memproses data tersebut untuk mengenali dan memisahkan suara target secara presisi (HD).

​Dikembangkan dari model open-source Meta Perception Encoder, sistem ini memperluas visi komputer (computer vision) ke ranah audio. Hasilnya? Pemisahan suara yang bersih dan akurat.

​3 Metode Ekstrak Suara di SAM Audio

​Fleksibilitas adalah kunci utama alat ini. Anda bisa menggunakan tiga metode berikut, baik secara terpisah maupun kombinasi:

​1. Menggunakan Prompt Teks (Text-to-Audio)

​Cukup ketik deskripsi suara yang diinginkan, misalnya "dog barking" (anjing menggonggong) atau "human singing" (orang bernyanyi). Sistem AI akan otomatis memindai dan mengekstrak elemen suara tersebut dari file Anda.

​2. Menggunakan Isyarat Visual (Click-to-Select)

​Ini adalah fitur game changer. Dalam sebuah video, Anda bisa mengklik objek atau orang yang menghasilkan suara.

​Contoh. Pada rekaman konser musik, klik visual sang gitaris, dan SAM Audio akan mengisolasi melodi gitar tersebut dari instrumen lainnya.

​3. Menggunakan Penanda Waktu (Timestamp)

​Fitur unik yang mirip konsep cyberpunk. Pengguna menandai rentang waktu spesifik di mana suara target muncul, lalu sistem akan membersihkan dan mengambil sampel suara tersebut. Meta mengklaim pendekatan ini sebagai yang pertama di industri audio.

​Cara Menggunakan SAM Audio

​Bagi Anda yang ingin segera mencoba, berikut adalah langkah-langkah praktis cara ekstrak audio menggunakan teknologi ini:

​Akses Platform. Buka situs resmi atau demo Meta AI Research yang menyediakan SAM Audio.

​Upload File. Unggah video atau file audio yang ingin diedit.

​Beri Perintah (Prompt).

​Opsi A: Tandai area visual di video (misal: klik gambar burung).

​Opsi B: Ketik prompt seperti "suara burung" atau "vokal pria".

​Proses Isolasi. Klik tombol Isolate Sound. AI akan memproses pemisahan audio dari background noise atau campuran kompleks lainnya.

​Finishing. Gunakan fitur tambahan seperti efek atau enhancement untuk meningkatkan kualitas suara menjadi HD.

​Download. Unduh hasil video audio yang sudah ditingkatkan ke perangkat Anda.

​Siapa yang Membutuhkan Alat Ini?

​SAM Audio sangat relevan untuk berbagai kebutuhan kreatif.

​Misalnya untuk podcast. Menghilangkan background noise atau suara lalu lintas dari rekaman outdoor.

​Kreator Konten (YouTuber/TikTok). Mengambil efek suara spesifik atau soundbite viral tanpa gangguan musik latar.

​Atau, siapapun ingin memisahkan track instrumen tertentu untuk keperluan remix atau latihan.

​SAM Audio-Bench & Judge

​Bersamaan dengan peluncuran ini, Meta juga merilis SAM Audio-Bench, sebuah benchmark untuk menguji kualitas pemisahan audio di dunia nyata.

​Selain itu, hadir pula SAM Audio Judge, model evaluasi otomatis yang menilai hasil audio tanpa bantuan manusia. Kombinasi keduanya memperkuat ekosistem riset audio berbasis AI, memastikan hasil yang Anda dapatkan memiliki standar kualitas tinggi.

​Akhir Kata

​Dengan kehadiran SAM Audio, Meta mengubah paradigma editing audio dari yang sebelumnya teknis dan kaku, menjadi intuitif dan manusiawi. Jika tren ini berlanjut, di masa depan mengedit audio akan semudah mengedit teks di dokumen Word.

​Apakah Anda siap mencoba inovasi ini? Kunjungi dokumentasi Meta AI untuk mulai bereksperimen.