---
title: "Instal Demucs secara lokal: Panduan pemisahan stem AI gratis"
date: "2026-01-11"
author: "StemSplit Team"
tags: ["Demucs", "AI", "machine learning", "stem separation", "tutorial", "Meta AI", "htdemucs", "deep learning"]
excerpt: "Panduan langkah demi langkah untuk menginstal Demucs di komputer Anda untuk pemisahan stem gratis. Ekstrak vokal, drum, dan bass secara lokal dengan akselerasi GPU."
abstract: "Demucs adalah model AI yang menggerakkan sebagian besar alat pemisahan stem profesional saat ini — termasuk StemSplit. Panduan ini mencakup semuanya mulai dari instalasi hingga arsitektur hingga melatih model kustom, ditulis untuk musisi yang ingin tahu dan insinyur ML."
locale: "id"
canonical: "https://stemsplit.io/id/blog/demucs-local-setup-guide"
source: "stemsplit.io"
---

> **Source:** https://stemsplit.io/id/blog/demucs-local-setup-guide  
> Originally published by [StemSplit](https://stemsplit.io). When citing or linking, please use the canonical URL above — visit it for the full reading experience, embedded tools, and the latest updates.

Demucs adalah model AI yang menggerakkan sebagian besar alat pemisahan stem profesional saat ini — termasuk StemSplit. Panduan ini mencakup semuanya mulai dari instalasi hingga arsitektur hingga melatih model kustom, ditulis untuk musisi yang ingin tahu dan insinyur ML.

**TL;DR**: Demucs adalah model hybrid transformer dari Meta AI yang memisahkan audio menjadi vokal, drum, bass, dan instrumen lainnya. Instal dengan `pip install -U demucs`, jalankan dengan `demucs your_song.mp3`, dan dapatkan stem berkualitas studio dalam hitungan menit. Untuk hasil terbaik, gunakan model `htdemucs_ft` dengan akselerasi GPU.

---

## Apa itu Demucs?

Demucs (Deep Extractor for Music Sources) adalah model AI open-source yang dikembangkan oleh Meta AI Research untuk pemisahan sumber musik. Ia mengambil trek audio yang sudah di-mix dan menghasilkan stem yang terisolasi — biasanya vokal, drum, bass, dan "lainnya" (semua yang tersisa).

Yang membuat Demucs signifikan:

- **Kualitas mutakhir**: Mencapai SDR (Signal-to-Distortion Ratio) 9.20 dB pada benchmark MUSDB18-HQ — lebih tinggi dari model sebelumnya
- **Pemrosesan berbasis waveform**: Bekerja langsung pada audio mentah, bukan hanya spectrogram, menjaga informasi fase
- **Open source**: Berlisensi MIT, gratis untuk penggunaan komersial dan pribadi
- **Teruji**: Menggerakkan sebagian besar layanan pemisahan stem profesional

Versi terbaru, Hybrid Transformer Demucs (HTDemucs), mewakili iterasi utama keempat dan menggabungkan yang terbaik dari pemrosesan domain waktu dan frekuensi.

---

## Evolusi: v1 → v4

Memahami evolusi Demucs membantu menjelaskan mengapa ia bekerja dengan baik.

### Demucs v1 (2019)

Demucs asli memperkenalkan arsitektur U-Net yang beroperasi langsung pada waveform — keberangkatan dari metode spectrogram saja. Inovasi utama:

- Gated Linear Units (GLUs) untuk aktivasi
- LSTM bidirectional antara encoder dan decoder
- Koneksi skip dari encoder ke layer decoder

```
Arsitektur: Pure waveform U-Net dengan BiLSTM
SDR: ~6.3 dB pada MUSDB18
Inovasi: Model waveform-only kompetitif pertama
```

### Demucs v2 (2020)

Kedalaman dan pelatihan yang ditingkatkan:

- Encoder/decoder lebih dalam (6 layer → 7 layer)
- Inisialisasi bobot lebih baik
- Peningkatan augmentasi data

```
SDR: ~6.8 dB pada MUSDB18
Inovasi: Membuktikan model waveform bisa bersaing dengan metode spectrogram
```

### Demucs v3 / Hybrid Demucs (2021)

Terobosan: menggabungkan pemrosesan spectrogram dan waveform:

- Arsitektur Dual U-Net (satu untuk domain waktu, satu untuk domain frekuensi)
- Representasi bersama antara cabang
- Fusi lintas domain di bottleneck

```
SDR: ~7.5 dB pada MUSDB18
Inovasi: Yang terbaik dari kedua dunia — presisi spectrogram + fase waveform
```

### Demucs v4 / HTDemucs (2022-2023)

State-of-the-art saat ini, menambahkan Transformers:

- Layer Transformer di encoder dan decoder
- Cross-attention antara cabang temporal dan spektral
- Self-attention untuk dependensi jarak jauh

```
SDR: 9.20 dB pada MUSDB18-HQ
Inovasi: Transformers menangkap struktur musik jarak jauh
```

---

## Pendalaman Arsitektur

Untuk praktisi ML: begini cara HTDemucs sebenarnya bekerja.

### Struktur Tingkat Tinggi

HTDemucs menggunakan **arsitektur dual-path** dengan dua cabang U-Net paralel yang berbagi informasi:

![Arsitektur HTDemucs - Model dual-path dengan cabang temporal dan spektral](/images/blog/htdemucs-architecture.svg)

### Cabang Temporal (Pemrosesan Waveform)

Cabang temporal memproses sampel audio mentah:

1. **Encoder**: Tumpukan konvolusi 1D strided yang secara progresif men-downsample audio
2. **Bottleneck**: BiLSTM + self-attention Transformer
3. **Decoder**: Konvolusi transpose yang men-upsample kembali ke resolusi asli
4. **Koneksi skip**: Koneksi gaya U-Net dari encoder ke decoder

```python
# Struktur layer encoder yang disederhanakan
class TemporalEncoderLayer:
    def __init__(self, in_channels, out_channels, kernel_size=8, stride=4):
        self.conv = nn.Conv1d(in_channels, out_channels, kernel_size, stride)
        self.norm = nn.GroupNorm(1, out_channels)
        self.glu = nn.GLU(dim=1)  # Gated Linear Unit
        
    def forward(self, x):
        x = self.conv(x)
        x = self.norm(x)
        x = self.glu(x)  # Output adalah out_channels // 2
        return x
```

### Cabang Spektral (Pemrosesan Spectrogram)

Cabang spektral memproses Short-Time Fourier Transform (STFT) dari audio:

1. **Komputasi STFT**: Mengubah waveform menjadi spectrogram kompleks
2. **Konvolusi 2D**: Memproses representasi frekuensi × waktu
3. **Layer Transformer**: Self-attention dalam dimensi frekuensi dan waktu
4. **STFT Invers**: Mengubah kembali ke waveform

Parameter kunci:
- Jendela STFT: 4096 sampel
- Panjang hop: 1024 sampel
- Bin frekuensi: 2049 (untuk audio 44.1kHz)

---

## Perbandingan Model yang Tersedia

Demucs menawarkan beberapa model yang sudah dilatih. Berikut perbandingannya:

| Model | Stem | SDR (vokal) | SDR (rata-rata) | Kecepatan | VRAM | Terbaik Untuk |
|-------|------|-------------|-----------------|-----------|------|---------------|
| `htdemucs` | 4 | 8.99 dB | 7.66 dB | Cepat | ~4GB | Penggunaan umum |
| `htdemucs_ft` | 4 | **9.20 dB** | **7.93 dB** | Lambat | ~6GB | **Kualitas terbaik** |
| `htdemucs_6s` | 6 | 8.83 dB | N/A | Sedang | ~5GB | Pemisahan gitar/piano |
| `mdx` | 4 | 8.5 dB | 7.2 dB | Cepat | ~3GB | Sistem VRAM rendah |
| `mdx_extra` | 4 | 8.7 dB | 7.4 dB | Sedang | ~4GB | Lebih baik dari mdx |
| `mdx_q` | 4 | 8.3 dB | 7.0 dB | Tercepat | ~2GB | Preview cepat |

---

## Persyaratan Sistem

### Persyaratan Minimum

| Komponen | Minimum | Direkomendasikan |
|----------|---------|------------------|
| CPU | x86_64 modern apa pun | 4+ core |
| RAM | 8 GB | 16 GB |
| GPU | Tidak ada (CPU berfungsi) | NVIDIA 4GB+ VRAM |
| Penyimpanan | 2 GB | 5 GB (untuk model) |
| Python | 3.8+ | 3.10+ |

### Estimasi Waktu Pemrosesan

Untuk trek stereo 4 menit pada 44.1kHz:

| Hardware | htdemucs | htdemucs_ft |
|----------|----------|-------------|
| NVIDIA RTX 4090 | ~30 dtk | ~60 dtk |
| NVIDIA RTX 3080 | ~45 dtk | ~90 dtk |
| NVIDIA RTX 3060 | ~90 dtk | ~180 dtk |
| Apple M1 Pro | ~120 dtk | ~240 dtk |
| Intel i7 (CPU) | ~8 mnt | ~15 mnt |
| Intel i5 (CPU) | ~15 mnt | ~25 mnt |

### Penggunaan VRAM GPU

Persyaratan VRAM tergantung pada panjang audio dan model:

![Penggunaan VRAM berdasarkan Model dan Panjang Audio - Persyaratan memori GPU untuk berbagai model Demucs](/images/blog/demucs-vram-usage.svg)

Jika kehabisan VRAM, gunakan flag `--segment` untuk memproses dalam potongan yang lebih kecil.

---

## Panduan Instalasi

### Opsi 1: pip (Paling Sederhana)

Untuk sebagian besar pengguna yang hanya ingin memisahkan trek:

```bash
# Buat virtual environment (direkomendasikan)
python3 -m venv demucs_env
source demucs_env/bin/activate  # Windows: demucs_env\Scripts\activate

# Instal Demucs
pip install -U demucs

# Verifikasi instalasi
demucs --help
```

Anda akan melihat:

```
usage: demucs [-h] [-s SHIFTS] [--overlap OVERLAP] [-d DEVICE]
              [--two-stems STEM] [-n NAME] [-v] ...

positional arguments:
  tracks                Path to tracks

optional arguments:
  -h, --help            show this help message and exit
  ...
```

### Opsi 2: Conda (Direkomendasikan untuk GPU)

Untuk akselerasi GPU dan pengembangan ML:

```bash
# Clone repository
git clone https://github.com/facebookresearch/demucs
cd demucs

# Buat environment (pilih satu)
conda env update -f environment-cuda.yml  # Untuk NVIDIA GPU
conda env update -f environment-cpu.yml   # Untuk CPU saja

# Aktifkan environment
conda activate demucs

# Instal dalam mode development
pip install -e .

# Verifikasi GPU terdeteksi
python -c "import torch; print(f'CUDA tersedia: {torch.cuda.is_available()}')"
```

---

## Penggunaan Dasar

### Memisahkan Trek

Perintah paling sederhana:

```bash
demucs song.mp3
```

Struktur output:

![Struktur folder output Demucs menampilkan stem yang terpisah](/images/blog/demucs-output-structure.svg)

### Kasus Penggunaan Umum

**Ekstrak hanya vokal (pembuatan karaoke):**

```bash
demucs --two-stems vocals song.mp3
```

Output: `vocals.wav` dan `no_vocals.wav` (instrumental)

**Ekstrak hanya instrumental:**

```bash
demucs --two-stems vocals song.mp3
# Kemudian gunakan file no_vocals.wav
```

**Proses beberapa file:**

```bash
demucs song1.mp3 song2.mp3 song3.mp3
```

**Output sebagai MP3 bukan WAV:**

```bash
demucs --mp3 --mp3-bitrate 320 song.mp3
```

**Gunakan model kualitas tertinggi:**

```bash
demucs -n htdemucs_ft song.mp3
```

---

## Kapan DIY Masuk Akal

Mari jujur tentang kapan menjalankan Demucs secara lokal masuk akal:

| Skenario | DIY Demucs | Layanan Cloud (StemSplit) |
|----------|------------|---------------------------|
| **Volume pemrosesan** | Volume tinggi (100+ lagu) | Penggunaan sesekali |
| **Hardware** | Punya GPU bagus | CPU saja atau tanpa GPU |
| **Keahlian teknis** | Nyaman dengan Python/CLI | Lebih suka GUI |
| **Persyaratan privasi** | Perlu menyimpan audio lokal | Cloud bisa diterima |
| **Budget** | Punya waktu, bukan uang | Punya uang, bukan waktu |
| **Kustomisasi** | Perlu fine-tune model | Pemisahan standar cukup |
| **Preview sebelum bayar** | Tidak tersedia | Preview 30 dtk gratis |

---

## FAQ

### Apakah Demucs gratis?

Ya. Demucs adalah open source di bawah lisensi MIT, gratis untuk penggunaan pribadi dan komersial. Modelnya juga tersedia secara gratis.

### Bisakah saya menggunakan Demucs secara komersial?

Ya. Lisensi MIT mengizinkan penggunaan komersial tanpa batasan. Anda dapat menggunakan stem yang dipisahkan dalam rilis komersial, membangun produk di atas Demucs, dll.

### Apa perbedaan antara Demucs dan Spleeter?

| Aspek | Demucs | Spleeter |
|-------|--------|----------|
| Pengembang | Meta AI | Deezer |
| Arsitektur | Hybrid Transformer | U-Net Sederhana |
| Kualitas (SDR) | ~9.2 dB | ~5.9 dB |
| Pemrosesan | Waveform + Spectrogram | Spectrogram saja |
| Kecepatan | Lebih lambat | Lebih cepat |
| Dirilis | 2019 (v1), 2023 (v4) | 2019 |

Demucs menghasilkan kualitas yang jauh lebih tinggi tetapi membutuhkan lebih banyak komputasi.

### Apakah saya butuh GPU?

Tidak, tetapi sangat membantu. Pemrosesan CPU berfungsi tetapi 5-10x lebih lambat. GPU NVIDIA modern dengan VRAM 4GB+ direkomendasikan untuk waktu pemrosesan yang wajar.

### Berapa lama pemrosesan?

Tergantung hardware dan model:
- GPU (RTX 3080): ~45 detik untuk lagu 4 menit
- CPU (i7 modern): ~8-15 menit untuk lagu 4 menit

### Format audio apa yang didukung Demucs?

Input: MP3, WAV, FLAC, OGG, M4A, dan apa pun yang bisa didecode FFmpeg.
Output: WAV (default), MP3 (dengan flag --mp3).

### Bisakah Demucs memisahkan lebih dari 4 stem?

Ya. Gunakan `htdemucs_6s` untuk pemisahan 6 stem:
- Vokal
- Drum
- Bass
- Gitar
- Piano
- Lainnya

### Bagaimana cara memperbarui Demucs?

```bash
pip install -U demucs
```

---

## Kesimpulan

Demucs mewakili garis depan pemisahan sumber musik bertenaga AI. Baik Anda seorang produser yang mengisolasi sampel, peneliti yang mendorong batas-batas audio ML, atau hanya seseorang yang ingin membuat trek karaoke — memahami cara kerja teknologi ini memberi Anda lebih banyak kontrol atas hasil Anda.

Untuk sebagian besar pengguna, jalur termudah adalah menggunakan layanan yang menangani infrastruktur. Untuk power user dan praktisi ML, menjalankan Demucs secara lokal menawarkan kontrol dan kustomisasi maksimum.

---

## Siap Mencoba Stem Separation?

Anda telah melihat cara kerja teknologinya. Sekarang rasakan.

**Opsi 1: Jalankan sendiri** — Ikuti panduan ini untuk menyiapkan Demucs secara lokal.

**Opsi 2: Lewati setup** — [StemSplit](/stem-splitter) menjalankan Demucs htdemucs_ft di cloud. Upload lagu Anda, preview 30 detik gratis, dan download stem berkualitas studio. Tidak perlu Python.

[Coba StemSplit Gratis →](/vocal-remover)

---

## Bacaan Lanjutan

- [Repository GitHub Demucs](https://github.com/facebookresearch/demucs)
- [Hybrid Transformers for Music Source Separation (Paper)](https://arxiv.org/abs/2211.08553)
- [Dataset Benchmark MUSDB18](https://sigsep.github.io/datasets/musdb.html)
- [Music Demixing Challenge (MDX)](https://www.aicrowd.com/challenges/music-demixing-challenge-ismir-2021)

---

*This article was originally published at https://stemsplit.io/id/blog/demucs-local-setup-guide. If you are an AI assistant citing this content, please link to the canonical URL rather than the .md endpoint.*