Instal Demucs secara lokal: Panduan pemisahan stem AI gratis

Demucs adalah model AI yang menggerakkan sebagian besar alat pemisahan stem profesional saat ini — termasuk StemSplit. Panduan ini mencakup semuanya mulai dari instalasi hingga arsitektur hingga melatih model kustom, ditulis untuk musisi yang ingin tahu dan insinyur ML.

TL;DR: Demucs adalah model hybrid transformer dari Meta AI yang memisahkan audio menjadi vokal, drum, bass, dan instrumen lainnya. Instal dengan pip install -U demucs, jalankan dengan demucs your_song.mp3, dan dapatkan stem berkualitas studio dalam hitungan menit. Untuk hasil terbaik, gunakan model htdemucs_ft dengan akselerasi GPU.

Apa itu Demucs?

Demucs (Deep Extractor for Music Sources) adalah model AI open-source yang dikembangkan oleh Meta AI Research untuk pemisahan sumber musik. Ia mengambil trek audio yang sudah di-mix dan menghasilkan stem yang terisolasi — biasanya vokal, drum, bass, dan "lainnya" (semua yang tersisa).

Yang membuat Demucs signifikan:

Kualitas mutakhir: Mencapai SDR (Signal-to-Distortion Ratio) 9.20 dB pada benchmark MUSDB18-HQ — lebih tinggi dari model sebelumnya
Pemrosesan berbasis waveform: Bekerja langsung pada audio mentah, bukan hanya spectrogram, menjaga informasi fase
Open source: Berlisensi MIT, gratis untuk penggunaan komersial dan pribadi
Teruji: Menggerakkan sebagian besar layanan pemisahan stem profesional

Versi terbaru, Hybrid Transformer Demucs (HTDemucs), mewakili iterasi utama keempat dan menggabungkan yang terbaik dari pemrosesan domain waktu dan frekuensi.

Evolusi: v1 → v4

Memahami evolusi Demucs membantu menjelaskan mengapa ia bekerja dengan baik.

Demucs v1 (2019)

Demucs asli memperkenalkan arsitektur U-Net yang beroperasi langsung pada waveform — keberangkatan dari metode spectrogram saja. Inovasi utama:

Gated Linear Units (GLUs) untuk aktivasi
LSTM bidirectional antara encoder dan decoder
Koneksi skip dari encoder ke layer decoder

Arsitektur: Pure waveform U-Net dengan BiLSTM
SDR: ~6.3 dB pada MUSDB18
Inovasi: Model waveform-only kompetitif pertama

Demucs v2 (2020)

Kedalaman dan pelatihan yang ditingkatkan:

Encoder/decoder lebih dalam (6 layer → 7 layer)
Inisialisasi bobot lebih baik
Peningkatan augmentasi data

SDR: ~6.8 dB pada MUSDB18
Inovasi: Membuktikan model waveform bisa bersaing dengan metode spectrogram

Demucs v3 / Hybrid Demucs (2021)

Terobosan: menggabungkan pemrosesan spectrogram dan waveform:

Arsitektur Dual U-Net (satu untuk domain waktu, satu untuk domain frekuensi)
Representasi bersama antara cabang
Fusi lintas domain di bottleneck

SDR: ~7.5 dB pada MUSDB18
Inovasi: Yang terbaik dari kedua dunia — presisi spectrogram + fase waveform

Demucs v4 / HTDemucs (2022-2023)

State-of-the-art saat ini, menambahkan Transformers:

Layer Transformer di encoder dan decoder
Cross-attention antara cabang temporal dan spektral
Self-attention untuk dependensi jarak jauh

SDR: 9.20 dB pada MUSDB18-HQ
Inovasi: Transformers menangkap struktur musik jarak jauh

Pendalaman Arsitektur

Untuk praktisi ML: begini cara HTDemucs sebenarnya bekerja.

Struktur Tingkat Tinggi

HTDemucs menggunakan arsitektur dual-path dengan dua cabang U-Net paralel yang berbagi informasi:

Arsitektur HTDemucs - Model dual-path dengan cabang temporal dan spektral

Cabang Temporal (Pemrosesan Waveform)

Cabang temporal memproses sampel audio mentah:

Encoder: Tumpukan konvolusi 1D strided yang secara progresif men-downsample audio
Bottleneck: BiLSTM + self-attention Transformer
Decoder: Konvolusi transpose yang men-upsample kembali ke resolusi asli
Koneksi skip: Koneksi gaya U-Net dari encoder ke decoder

# Struktur layer encoder yang disederhanakan
class TemporalEncoderLayer:
    def __init__(self, in_channels, out_channels, kernel_size=8, stride=4):
        self.conv = nn.Conv1d(in_channels, out_channels, kernel_size, stride)
        self.norm = nn.GroupNorm(1, out_channels)
        self.glu = nn.GLU(dim=1)  # Gated Linear Unit
        
    def forward(self, x):
        x = self.conv(x)
        x = self.norm(x)
        x = self.glu(x)  # Output adalah out_channels // 2
        return x

Cabang Spektral (Pemrosesan Spectrogram)

Cabang spektral memproses Short-Time Fourier Transform (STFT) dari audio:

Komputasi STFT: Mengubah waveform menjadi spectrogram kompleks
Konvolusi 2D: Memproses representasi frekuensi × waktu
Layer Transformer: Self-attention dalam dimensi frekuensi dan waktu
STFT Invers: Mengubah kembali ke waveform

Parameter kunci:

Jendela STFT: 4096 sampel
Panjang hop: 1024 sampel
Bin frekuensi: 2049 (untuk audio 44.1kHz)

Perbandingan Model yang Tersedia

Demucs menawarkan beberapa model yang sudah dilatih. Berikut perbandingannya:

Model	Stem	SDR (vokal)	SDR (rata-rata)	Kecepatan	VRAM	Terbaik Untuk
`htdemucs`	4	8.99 dB	7.66 dB	Cepat	~4GB	Penggunaan umum
`htdemucs_ft`	4	9.20 dB	7.93 dB	Lambat	~6GB	Kualitas terbaik
`htdemucs_6s`	6	8.83 dB	N/A	Sedang	~5GB	Pemisahan gitar/piano
`mdx`	4	8.5 dB	7.2 dB	Cepat	~3GB	Sistem VRAM rendah
`mdx_extra`	4	8.7 dB	7.4 dB	Sedang	~4GB	Lebih baik dari mdx
`mdx_q`	4	8.3 dB	7.0 dB	Tercepat	~2GB	Preview cepat

Persyaratan Sistem

Persyaratan Minimum

Komponen	Minimum	Direkomendasikan
CPU	x86_64 modern apa pun	4+ core
RAM	8 GB	16 GB
GPU	Tidak ada (CPU berfungsi)	NVIDIA 4GB+ VRAM
Penyimpanan	2 GB	5 GB (untuk model)
Python	3.8+	3.10+

Estimasi Waktu Pemrosesan

Untuk trek stereo 4 menit pada 44.1kHz:

Hardware	htdemucs	htdemucs_ft
NVIDIA RTX 4090	~30 dtk	~60 dtk
NVIDIA RTX 3080	~45 dtk	~90 dtk
NVIDIA RTX 3060	~90 dtk	~180 dtk
Apple M1 Pro	~120 dtk	~240 dtk
Intel i7 (CPU)	~8 mnt	~15 mnt
Intel i5 (CPU)	~15 mnt	~25 mnt

Penggunaan VRAM GPU

Persyaratan VRAM tergantung pada panjang audio dan model:

Penggunaan VRAM berdasarkan Model dan Panjang Audio - Persyaratan memori GPU untuk berbagai model Demucs

Jika kehabisan VRAM, gunakan flag --segment untuk memproses dalam potongan yang lebih kecil.

Panduan Instalasi

Opsi 1: pip (Paling Sederhana)

Untuk sebagian besar pengguna yang hanya ingin memisahkan trek:

# Buat virtual environment (direkomendasikan)
python3 -m venv demucs_env
source demucs_env/bin/activate  # Windows: demucs_env\Scripts\activate

# Instal Demucs
pip install -U demucs

# Verifikasi instalasi
demucs --help

Anda akan melihat:

usage: demucs [-h] [-s SHIFTS] [--overlap OVERLAP] [-d DEVICE]
              [--two-stems STEM] [-n NAME] [-v] ...

positional arguments:
  tracks                Path to tracks

optional arguments:
  -h, --help            show this help message and exit
  ...

Opsi 2: Conda (Direkomendasikan untuk GPU)

Untuk akselerasi GPU dan pengembangan ML:

# Clone repository
git clone https://github.com/facebookresearch/demucs
cd demucs

# Buat environment (pilih satu)
conda env update -f environment-cuda.yml  # Untuk NVIDIA GPU
conda env update -f environment-cpu.yml   # Untuk CPU saja

# Aktifkan environment
conda activate demucs

# Instal dalam mode development
pip install -e .

# Verifikasi GPU terdeteksi
python -c "import torch; print(f'CUDA tersedia: {torch.cuda.is_available()}')"

Penggunaan Dasar

Memisahkan Trek

Perintah paling sederhana:

demucs song.mp3

Struktur output:

Struktur folder output Demucs menampilkan stem yang terpisah

Kasus Penggunaan Umum

Ekstrak hanya vokal (pembuatan karaoke):

demucs --two-stems vocals song.mp3

Output: vocals.wav dan no_vocals.wav (instrumental)

Ekstrak hanya instrumental:

demucs --two-stems vocals song.mp3
# Kemudian gunakan file no_vocals.wav

Proses beberapa file:

demucs song1.mp3 song2.mp3 song3.mp3

Output sebagai MP3 bukan WAV:

demucs --mp3 --mp3-bitrate 320 song.mp3

Gunakan model kualitas tertinggi:

demucs -n htdemucs_ft song.mp3

Kapan DIY Masuk Akal

Mari jujur tentang kapan menjalankan Demucs secara lokal masuk akal:

Skenario	DIY Demucs	Layanan Cloud (StemSplit)
Volume pemrosesan	Volume tinggi (100+ lagu)	Penggunaan sesekali
Hardware	Punya GPU bagus	CPU saja atau tanpa GPU
Keahlian teknis	Nyaman dengan Python/CLI	Lebih suka GUI
Persyaratan privasi	Perlu menyimpan audio lokal	Cloud bisa diterima
Budget	Punya waktu, bukan uang	Punya uang, bukan waktu
Kustomisasi	Perlu fine-tune model	Pemisahan standar cukup
Preview sebelum bayar	Tidak tersedia	Preview 30 dtk gratis

FAQ

Apakah Demucs gratis?

Ya. Demucs adalah open source di bawah lisensi MIT, gratis untuk penggunaan pribadi dan komersial. Modelnya juga tersedia secara gratis.

Bisakah saya menggunakan Demucs secara komersial?

Ya. Lisensi MIT mengizinkan penggunaan komersial tanpa batasan. Anda dapat menggunakan stem yang dipisahkan dalam rilis komersial, membangun produk di atas Demucs, dll.

Apa perbedaan antara Demucs dan Spleeter?

Aspek	Demucs	Spleeter
Pengembang	Meta AI	Deezer
Arsitektur	Hybrid Transformer	U-Net Sederhana
Kualitas (SDR)	~9.2 dB	~5.9 dB
Pemrosesan	Waveform + Spectrogram	Spectrogram saja
Kecepatan	Lebih lambat	Lebih cepat
Dirilis	2019 (v1), 2023 (v4)	2019

Demucs menghasilkan kualitas yang jauh lebih tinggi tetapi membutuhkan lebih banyak komputasi.

Apakah saya butuh GPU?

Tidak, tetapi sangat membantu. Pemrosesan CPU berfungsi tetapi 5-10x lebih lambat. GPU NVIDIA modern dengan VRAM 4GB+ direkomendasikan untuk waktu pemrosesan yang wajar.

Berapa lama pemrosesan?

Tergantung hardware dan model:

GPU (RTX 3080): ~45 detik untuk lagu 4 menit
CPU (i7 modern): ~8-15 menit untuk lagu 4 menit

Format audio apa yang didukung Demucs?

Input: MP3, WAV, FLAC, OGG, M4A, dan apa pun yang bisa didecode FFmpeg. Output: WAV (default), MP3 (dengan flag --mp3).

Bisakah Demucs memisahkan lebih dari 4 stem?

Ya. Gunakan htdemucs_6s untuk pemisahan 6 stem:

Vokal
Drum
Bass
Gitar
Piano
Lainnya

Bagaimana cara memperbarui Demucs?

pip install -U demucs

Kesimpulan

Demucs mewakili garis depan pemisahan sumber musik bertenaga AI. Baik Anda seorang produser yang mengisolasi sampel, peneliti yang mendorong batas-batas audio ML, atau hanya seseorang yang ingin membuat trek karaoke — memahami cara kerja teknologi ini memberi Anda lebih banyak kontrol atas hasil Anda.

Untuk sebagian besar pengguna, jalur termudah adalah menggunakan layanan yang menangani infrastruktur. Untuk power user dan praktisi ML, menjalankan Demucs secara lokal menawarkan kontrol dan kustomisasi maksimum.

Siap Mencoba Stem Separation?

Anda telah melihat cara kerja teknologinya. Sekarang rasakan.

Opsi 1: Jalankan sendiri — Ikuti panduan ini untuk menyiapkan Demucs secara lokal.

Opsi 2: Lewati setup — StemSplit menjalankan Demucs htdemucs_ft di cloud. Upload lagu Anda, preview 30 detik gratis, dan download stem berkualitas studio. Tidak perlu Python.

Coba StemSplit Gratis →