Instalar Demucs localmente: Guia gratuito de separação de stems com IA

Q: Qual é a diferença entre Demucs e Spleeter?

| Aspecto | Demucs | Spleeter |

Demucs é o modelo de IA que alimenta a maioria das ferramentas profissionais de separação de stems hoje — incluindo o StemSplit. Este guia cobre tudo, desde instalação até arquitetura e treinamento de modelos personalizados, escrito tanto para músicos curiosos quanto para engenheiros de ML.

TL;DR: Demucs é um modelo de transformer híbrido da Meta AI que separa áudio em vocais, bateria, baixo e outros instrumentos. Instale com pip install -U demucs, execute com demucs sua_musica.mp3, e obtenha stems de qualidade de estúdio em minutos. Para melhores resultados, use o modelo htdemucs_ft com aceleração de GPU.

O que é Demucs?

Demucs (Deep Extractor for Music Sources) é um modelo de IA open source desenvolvido pelo Meta AI Research para separação de fontes musicais. Ele recebe uma faixa de áudio mixada e produz stems isolados — tipicamente vocais, bateria, baixo e "outros" (todo o resto).

O que torna o Demucs significativo:

Qualidade de ponta: Alcança um SDR (Signal-to-Distortion Ratio) de 9,20 dB no benchmark MUSDB18-HQ — maior que qualquer modelo anterior
Processamento baseado em waveform: Trabalha diretamente com áudio bruto, não apenas espectrogramas, preservando informações de fase
Open source: Licenciado sob MIT, gratuito para uso comercial e pessoal
Comprovado: Alimenta a maioria dos serviços profissionais de separação de stems

A versão mais recente, Hybrid Transformer Demucs (HTDemucs), representa a quarta grande iteração e combina o melhor do processamento no domínio do tempo e da frequência.

A Evolução: v1 → v4

Entender a evolução do Demucs ajuda a explicar por que ele funciona tão bem.

Demucs v1 (2019)

O Demucs original introduziu uma arquitetura U-Net operando diretamente em waveforms — uma saída dos métodos baseados apenas em espectrogramas. Principais inovações:

Gated Linear Units (GLUs) para ativação
LSTM bidirecional entre encoder e decoder
Conexões de skip do encoder para camadas do decoder

Arquitetura: U-Net puro de waveform com BiLSTM
SDR: ~6,3 dB no MUSDB18
Inovação: Primeiro modelo competitivo baseado apenas em waveform

Demucs v2 (2020)

Profundidade e treinamento melhorados:

Encoder/decoder mais profundo (6 camadas → 7 camadas)
Melhor inicialização de pesos
Melhorias na augmentação de dados

SDR: ~6,8 dB no MUSDB18
Inovação: Provou que modelos de waveform podem competir com métodos de espectrograma

Demucs v3 / Hybrid Demucs (2021)

O avanço: combinando processamento de espectrograma e waveform:

Arquitetura U-Net dupla (uma para domínio do tempo, uma para domínio da frequência)
Representações compartilhadas entre ramos
Fusão entre domínios no gargalo

SDR: ~7,5 dB no MUSDB18
Inovação: O melhor dos dois mundos — precisão de espectrograma + fase de waveform

Demucs v4 / HTDemucs (2022-2023)

O estado da arte atual, adicionando Transformers:

Camadas de Transformer tanto no encoder quanto no decoder
Cross-attention entre ramos temporais e espectrais
Self-attention para dependências de longo alcance

SDR: 9,20 dB no MUSDB18-HQ
Inovação: Transformers capturam estrutura musical de longo alcance

Mergulho Profundo na Arquitetura

Para praticantes de ML: veja como o HTDemucs realmente funciona.

Estrutura de Alto Nível

HTDemucs usa uma arquitetura de caminho duplo com dois ramos U-Net paralelos que compartilham informações:

Arquitetura HTDemucs - Modelo de caminho duplo com ramos temporais e espectrais

Ramo Temporal (Processamento de Waveform)

O ramo temporal processa amostras de áudio bruto:

Encoder: Pilha de convoluções 1D com stride que fazem downsampling progressivo do áudio
Gargalo: BiLSTM + self-attention do Transformer
Decoder: Convoluções transpostas que fazem upsample de volta à resolução original
Conexões de skip: Conexões estilo U-Net do encoder para o decoder

# Estrutura simplificada da camada do encoder
class TemporalEncoderLayer:
    def __init__(self, in_channels, out_channels, kernel_size=8, stride=4):
        self.conv = nn.Conv1d(in_channels, out_channels, kernel_size, stride)
        self.norm = nn.GroupNorm(1, out_channels)
        self.glu = nn.GLU(dim=1)  # Gated Linear Unit
        
    def forward(self, x):
        x = self.conv(x)
        x = self.norm(x)
        x = self.glu(x)  # Saída é out_channels // 2
        return x

Ramo Espectral (Processamento de Espectrograma)

O ramo espectral processa a Transformada de Fourier de Curto Tempo (STFT) do áudio:

Computação STFT: Converte waveform em espectrograma complexo
Convoluções 2D: Processam representações de frequência × tempo
Camadas de Transformer: Self-attention nas dimensões de frequência e tempo
STFT Inversa: Converte de volta para waveform

Parâmetros chave:

Janela STFT: 4096 amostras
Tamanho do hop: 1024 amostras
Bins de frequência: 2049 (para áudio de 44,1kHz)

Modelos Disponíveis Comparados

Demucs oferece vários modelos pré-treinados. Veja como eles se comparam:

Modelo	Stems	SDR (vocais)	SDR (média)	Velocidade	VRAM	Melhor Para
`htdemucs`	4	8,99 dB	7,66 dB	Rápido	~4GB	Uso geral
`htdemucs_ft`	4	9,20 dB	7,93 dB	Lento	~6GB	Melhor qualidade
`htdemucs_6s`	6	8,83 dB	N/A	Médio	~5GB	Separação de guitarra/piano
`mdx`	4	8,5 dB	7,2 dB	Rápido	~3GB	Sistemas com pouca VRAM
`mdx_extra`	4	8,7 dB	7,4 dB	Médio	~4GB	Melhor que mdx
`mdx_q`	4	8,3 dB	7,0 dB	Mais rápido	~2GB	Previews rápidos

Requisitos do Sistema

Requisitos Mínimos

Componente	Mínimo	Recomendado
CPU	Qualquer x86_64 moderno	4+ núcleos
RAM	8 GB	16 GB
GPU	Nenhuma (CPU funciona)	NVIDIA 4GB+ VRAM
Armazenamento	2 GB	5 GB (para modelos)
Python	3.8+	3.10+

Estimativas de Tempo de Processamento

Para uma faixa estéreo de 4 minutos em 44,1kHz:

Hardware	htdemucs	htdemucs_ft
NVIDIA RTX 4090	~30 seg	~60 seg
NVIDIA RTX 3080	~45 seg	~90 seg
NVIDIA RTX 3060	~90 seg	~180 seg
Apple M1 Pro	~120 seg	~240 seg
Intel i7 (CPU)	~8 min	~15 min
Intel i5 (CPU)	~15 min	~25 min

Uso de VRAM da GPU

Os requisitos de VRAM dependem do comprimento do áudio e do modelo:

Uso de VRAM por Modelo e Comprimento do Áudio - Requisitos de memória GPU para diferentes modelos Demucs

Se ficar sem VRAM, use a flag --segment para processar em pedaços menores.

Guia de Instalação

Opção 1: pip (Mais Simples)

Para a maioria dos usuários que apenas querem separar faixas:

# Criar um ambiente virtual (recomendado)
python3 -m venv demucs_env
source demucs_env/bin/activate  # Windows: demucs_env\Scripts\activate

# Instalar Demucs
pip install -U demucs

# Verificar instalação
demucs --help

Você deve ver:

usage: demucs [-h] [-s SHIFTS] [--overlap OVERLAP] [-d DEVICE]
              [--two-stems STEM] [-n NAME] [-v] ...

positional arguments:
  tracks                Path to tracks

optional arguments:
  -h, --help            show this help message and exit
  ...

Opção 2: Conda (Recomendado para GPU)

Para aceleração de GPU e desenvolvimento de ML:

# Clonar o repositório
git clone https://github.com/facebookresearch/demucs
cd demucs

# Criar ambiente (escolha um)
conda env update -f environment-cuda.yml  # Para NVIDIA GPU
conda env update -f environment-cpu.yml   # Para CPU apenas

# Ativar ambiente
conda activate demucs

# Instalar em modo de desenvolvimento
pip install -e .

# Verificar se GPU é detectada
python -c "import torch; print(f'CUDA disponível: {torch.cuda.is_available()}')"

Uso Básico

Separando uma Faixa

O comando mais simples:

demucs musica.mp3

Estrutura de saída:

Estrutura da pasta de saída do Demucs mostrando stems separados

Casos de Uso Comuns

Extrair apenas vocais (criação de karaokê):

demucs --two-stems vocals musica.mp3

Saída: vocals.wav e no_vocals.wav (instrumental)

Extrair apenas instrumental:

demucs --two-stems vocals musica.mp3
# Então use o arquivo no_vocals.wav

Processar múltiplos arquivos:

demucs musica1.mp3 musica2.mp3 musica3.mp3

Saída como MP3 em vez de WAV:

demucs --mp3 --mp3-bitrate 320 musica.mp3

Usar modelo de maior qualidade:

demucs -n htdemucs_ft musica.mp3

Quando DIY Faz Sentido

Vamos ser honestos sobre quando executar Demucs localmente faz sentido:

Cenário	DIY Demucs	Serviço Cloud (StemSplit)
Volume de processamento	Alto volume (100+ músicas)	Uso ocasional
Hardware	Tem uma boa GPU	Apenas CPU ou sem GPU
Habilidade técnica	Confortável com Python/CLI	Prefere GUI
Requisitos de privacidade	Precisa manter áudio local	Cloud é aceitável
Orçamento	Tem tempo, não dinheiro	Tem dinheiro, não tempo
Personalização	Precisa ajustar modelos	Separação padrão é suficiente
Preview antes de pagar	Não disponível	Preview grátis de 30 seg

FAQ

O Demucs é gratuito?

Sim. Demucs é open source sob licença MIT, gratuito para uso pessoal e comercial. Os modelos também estão disponíveis gratuitamente.

Posso usar o Demucs comercialmente?

Sim. A licença MIT permite uso comercial sem restrições. Você pode usar stems separados em lançamentos comerciais, construir produtos em cima do Demucs, etc.

Qual é a diferença entre Demucs e Spleeter?

Aspecto	Demucs	Spleeter
Desenvolvedor	Meta AI	Deezer
Arquitetura	Transformer Híbrido	U-Net Simples
Qualidade (SDR)	~9,2 dB	~5,9 dB
Processamento	Waveform + Espectrograma	Apenas Espectrograma
Velocidade	Mais lento	Mais rápido
Lançado	2019 (v1), 2023 (v4)	2019

Demucs produz qualidade significativamente maior, mas requer mais computação.

Preciso de uma GPU?

Não, mas ajuda significativamente. O processamento em CPU funciona, mas é 5-10x mais lento. Uma GPU NVIDIA moderna com 4GB+ de VRAM é recomendada para tempos de processamento razoáveis.

Quanto tempo leva o processamento?

Depende do hardware e modelo:

GPU (RTX 3080): ~45 segundos para uma música de 4 minutos
CPU (i7 moderno): ~8-15 minutos para uma música de 4 minutos

Quais formatos de áudio o Demucs suporta?

Entrada: MP3, WAV, FLAC, OGG, M4A, e qualquer coisa que o FFmpeg possa decodificar. Saída: WAV (padrão), MP3 (com flag --mp3).

O Demucs pode separar mais de 4 stems?

Sim. Use htdemucs_6s para separação de 6 stems:

Vocais
Bateria
Baixo
Guitarra
Piano
Outros

Como atualizo o Demucs?

pip install -U demucs

Conclusão

Demucs representa a vanguarda da separação de fontes musicais alimentada por IA. Seja você um produtor isolando samples, um pesquisador empurrando os limites do ML de áudio, ou apenas alguém que quer criar uma faixa de karaokê — entender como essa tecnologia funciona dá a você mais controle sobre seus resultados.

Para a maioria dos usuários, o caminho mais fácil é usar um serviço que gerencia a infraestrutura. Para usuários avançados e praticantes de ML, executar o Demucs localmente oferece máximo controle e personalização.

Pronto para Experimentar Separação de Stems?

Você viu como a tecnologia funciona. Agora experimente.

Opção 1: Execute você mesmo — Siga este guia para configurar o Demucs localmente.

Opção 2: Pule a configuração — StemSplit executa Demucs htdemucs_ft na nuvem. Faça upload da sua música, preview 30 segundos grátis, e baixe stems de qualidade de estúdio. Sem Python necessário.

Experimente o StemSplit Grátis →

Demucs no Contexto da Produção Musical Brasileira

O Brasil é um dos maiores mercados de música do mundo, e São Paulo e Rio de Janeiro figuram entre os principais polos de produção musical das Américas. A cena de produção independente brasileira — alimentada por gêneros como pagode, MPB (Música Popular Brasileira), sertanejo, forró eletrônico e funk carioca — tem demandas específicas para separação de stems que fazem do Demucs uma ferramenta particularmente valiosa no contexto local.

Um exemplo prático: no pagode e na MPB, é comum que produtores trabalhem com gravações de estúdio que misuram cordas de cavaquinho, pandeiro, tantã e violão com vocais complexos em múltiplas camadas. O modelo htdemucs_6s, com separação de 6 stems incluindo guitarra e piano, é especialmente útil para decompor essas texturas densas — permitindo que o produtor isole a linha de cavaquinho ou o vocal principal para rearranjar ou amostrar em uma nova produção. Para forró eletrônico do Nordeste, onde as bases costumam ter sanfona, triângulo e zabumba mesclados com sintetizadores, o ramo de "outros instrumentos" do Demucs captura a maioria dos elementos melódicos regionais com qualidade surpreendente.

A comunidade de produtores brasileiros tem adotado o Demucs de forma crescente, especialmente após a proliferação de canais no YouTube e grupos no Discord e WhatsApp dedicados a produção de beat para funk e trap brasileiro. Rodar o Demucs localmente — seguindo este guia — é uma vantagem competitiva real: enquanto serviços pagos cobram por minuto processado, um produtor em São Paulo com uma boa GPU pode processar centenas de faixas por mês sem custo adicional. Para iniciantes que ainda não têm GPU dedicada, os servidores do Google Colab oferecem GPUs T4 gratuitas que permitem executar htdemucs_ft em velocidade comparável a uma RTX 3060 — uma opção acessível para qualquer produtor brasileiro com conexão à internet.