Demucs'u yerel olarak kurun: Ücretsiz yapay zeka stem ayrıştırma kılavuzu

Demucs, bugün profesyonel stem ayrıştırma araçlarının çoğunu güçlendiren yapay zeka modelidir — StemSplit dahil. Bu kılavuz, kurulumdan mimariye ve özel model eğitimine kadar her şeyi kapsar; hem meraklı müzisyenler hem de ML mühendisleri için yazılmıştır.

Özet: Demucs, Meta AI tarafından geliştirilen ve sesi vokal, davul, bas ve diğer enstrümanlara ayıran hibrit bir transformer modelidir. pip install -U demucs ile kurun, demucs sarki.mp3 ile çalıştırın ve dakikalar içinde stüdyo kalitesinde stem'ler elde edin. En iyi sonuçlar için htdemucs_ft modelini GPU hızlandırmasıyla kullanın.

Demucs Nedir?

Demucs (Deep Extractor for Music Sources), Meta AI Research tarafından müzik kaynak ayrıştırma için geliştirilen açık kaynaklı bir yapay zeka modelidir. Karıştırılmış bir ses parçasını alır ve izole edilmiş stem'ler üretir — tipik olarak vokal, davul, bas ve "diğer" (geri kalan her şey).

Demucs'u önemli kılan:

Son teknoloji kalite: MUSDB18-HQ benchmark'ında 9,20 dB SDR (Sinyal-Distorsiyon Oranı) elde eder — önceki herhangi bir modelden daha yüksek
Dalga formu tabanlı işleme: Yalnızca spektrogramlarla değil, ham sesle doğrudan çalışır, faz bilgilerini korur
Açık kaynak: MIT lisanslı, ticari ve kişisel kullanım için ücretsiz
Kanıtlanmış: Profesyonel stem ayrıştırma hizmetlerinin çoğunu güçlendirir

En son sürüm, Hybrid Transformer Demucs (HTDemucs), dördüncü büyük iterasyonu temsil eder ve hem zaman hem de frekans alanı işlemenin en iyisini birleştirir.

Evrim: v1 → v4

Demucs'un evrimini anlamak, neden bu kadar iyi çalıştığını açıklamaya yardımcı olur.

Demucs v1 (2019)

Orijinal Demucs, doğrudan dalga formları üzerinde çalışan bir U-Net mimarisi tanıttı — yalnızca spektrogram yöntemlerinden bir ayrılış. Temel yenilikler:

Aktivasyon için Gated Linear Units (GLU'lar)
Encoder ve decoder arasında çift yönlü LSTM
Encoder'dan decoder katmanlarına atlama bağlantıları

Mimari: BiLSTM ile saf dalga formu U-Net
SDR: MUSDB18'de ~6,3 dB
Yenilik: İlk rekabetçi yalnızca dalga formu modeli

Demucs v2 (2020)

Geliştirilmiş derinlik ve eğitim:

Daha derin encoder/decoder (6 katman → 7 katman)
Daha iyi ağırlık başlatma
Veri artırma iyileştirmeleri

SDR: MUSDB18'de ~6,8 dB
Yenilik: Dalga formu modellerinin spektrogram yöntemleriyle rekabet edebileceğini kanıtladı

Demucs v3 / Hybrid Demucs (2021)

Atılım: spektrogram ve dalga formu işlemenin birleşimi:

Çift U-Net mimarisi (biri zaman alanı için, biri frekans alanı için)
Dallar arasında paylaşılan temsiller
Darboğazda çapraz alan füzyonu

SDR: MUSDB18'de ~7,5 dB
Yenilik: Her iki dünyanın en iyisi — spektrogram hassasiyeti + dalga formu fazı

Demucs v4 / HTDemucs (2022-2023)

Mevcut son teknoloji, Transformer'lar eklendi:

Hem encoder hem de decoder'da Transformer katmanları
Zamansal ve spektral dallar arasında çapraz dikkat
Uzun menzilli bağımlılıklar için öz-dikkat

SDR: MUSDB18-HQ'da 9,20 dB
Yenilik: Transformer'lar uzun menzilli müzikal yapıyı yakalar

Mimari Derinlemesine İnceleme

ML uygulayıcıları için: HTDemucs gerçekte nasıl çalışır.

Üst Düzey Yapı

HTDemucs, bilgi paylaşan iki paralel U-Net dalı ile çift yollu mimari kullanır:

HTDemucs Mimarisi - Zamansal ve spektral dalları olan çift yollu model

Zamansal Dal (Dalga Formu İşleme)

Zamansal dal ham ses örneklerini işler:

Encoder: Sesi aşamalı olarak alt örnekleyen stride'lı 1D konvolüsyonlar yığını
Darboğaz: BiLSTM + Transformer öz-dikkat
Decoder: Orijinal çözünürlüğe geri üst örnekleyen transpoze konvolüsyonlar
Atlama bağlantıları: Encoder'dan decoder'a U-Net tarzı bağlantılar

# Basitleştirilmiş encoder katman yapısı
class TemporalEncoderLayer:
    def __init__(self, in_channels, out_channels, kernel_size=8, stride=4):
        self.conv = nn.Conv1d(in_channels, out_channels, kernel_size, stride)
        self.norm = nn.GroupNorm(1, out_channels)
        self.glu = nn.GLU(dim=1)  # Gated Linear Unit
        
    def forward(self, x):
        x = self.conv(x)
        x = self.norm(x)
        x = self.glu(x)  # Çıktı out_channels // 2
        return x

Mevcut Modellerin Karşılaştırması

Demucs birkaç önceden eğitilmiş model sunar. İşte nasıl karşılaştırılırlar:

Model	Stem	SDR (vokal)	SDR (ort.)	Hız	VRAM	En İyi Kullanım
`htdemucs`	4	8,99 dB	7,66 dB	Hızlı	~4GB	Genel kullanım
`htdemucs_ft`	4	9,20 dB	7,93 dB	Yavaş	~6GB	En iyi kalite
`htdemucs_6s`	6	8,83 dB	N/A	Orta	~5GB	Gitar/piyano ayrıştırma
`mdx`	4	8,5 dB	7,2 dB	Hızlı	~3GB	Düşük VRAM sistemleri
`mdx_extra`	4	8,7 dB	7,4 dB	Orta	~4GB	mdx'ten daha iyi
`mdx_q`	4	8,3 dB	7,0 dB	En hızlı	~2GB	Hızlı önizlemeler

Sistem Gereksinimleri

Minimum Gereksinimler

Bileşen	Minimum	Önerilen
CPU	Herhangi bir modern x86_64	4+ çekirdek
RAM	8 GB	16 GB
GPU	Yok (CPU çalışır)	NVIDIA 4GB+ VRAM
Depolama	2 GB	5 GB (modeller için)
Python	3.8+	3.10+

İşlem Süresi Tahminleri

44,1kHz'de 4 dakikalık stereo parça için:

Donanım	htdemucs	htdemucs_ft
NVIDIA RTX 4090	~30 sn	~60 sn
NVIDIA RTX 3080	~45 sn	~90 sn
NVIDIA RTX 3060	~90 sn	~180 sn
Apple M1 Pro	~120 sn	~240 sn
Intel i7 (CPU)	~8 dk	~15 dk
Intel i5 (CPU)	~15 dk	~25 dk

GPU VRAM Kullanımı

VRAM gereksinimleri ses uzunluğuna ve modele bağlıdır:

Model ve Ses Uzunluğuna Göre VRAM Kullanımı - Farklı Demucs modelleri için GPU bellek gereksinimleri

VRAM tükenirse, daha küçük parçalar halinde işlemek için --segment bayrağını kullanın.

Kurulum Kılavuzu

Seçenek 1: pip (En Basit)

Sadece parça ayırmak isteyen çoğu kullanıcı için:

# Sanal ortam oluşturun (önerilen)
python3 -m venv demucs_env
source demucs_env/bin/activate  # Windows: demucs_env\Scripts\activate

# Demucs'u kurun
pip install -U demucs

# Kurulumu doğrulayın
demucs --help

Şunu görmelisiniz:

usage: demucs [-h] [-s SHIFTS] [--overlap OVERLAP] [-d DEVICE]
              [--two-stems STEM] [-n NAME] [-v] ...

positional arguments:
  tracks                Path to tracks

optional arguments:
  -h, --help            show this help message and exit
  ...

Seçenek 2: Conda (GPU için Önerilen)

GPU hızlandırması ve ML geliştirme için:

# Depoyu klonlayın
git clone https://github.com/facebookresearch/demucs
cd demucs

# Ortam oluşturun (birini seçin)
conda env update -f environment-cuda.yml  # NVIDIA GPU için
conda env update -f environment-cpu.yml   # Sadece CPU için

# Ortamı etkinleştirin
conda activate demucs

# Geliştirme modunda kurun
pip install -e .

# GPU'nun algılandığını doğrulayın
python -c "import torch; print(f'CUDA mevcut: {torch.cuda.is_available()}')"

Temel Kullanım

Parça Ayırma

En basit komut:

demucs sarki.mp3

Çıktı yapısı:

Ayrıştırılmış stem'leri gösteren Demucs çıktı klasör yapısı

Yaygın Kullanım Durumları

Sadece vokal çıkarın (karaoke oluşturma):

demucs --two-stems vocals sarki.mp3

Çıktı: vocals.wav ve no_vocals.wav (enstrümantal)

Sadece enstrümantal çıkarın:

demucs --two-stems vocals sarki.mp3
# Sonra no_vocals.wav dosyasını kullanın

Birden fazla dosya işleyin:

demucs sarki1.mp3 sarki2.mp3 sarki3.mp3

WAV yerine MP3 olarak çıktı:

demucs --mp3 --mp3-bitrate 320 sarki.mp3

En yüksek kaliteli modeli kullanın:

demucs -n htdemucs_ft sarki.mp3

Kendin Yap Ne Zaman Mantıklı

Demucs'u yerel olarak çalıştırmanın ne zaman mantıklı olduğu hakkında dürüst olalım:

Senaryo	Kendin Yap Demucs	Bulut Hizmeti (StemSplit)
İşlem hacmi	Yüksek hacim (100+ şarkı)	Ara sıra kullanım
Donanım	İyi bir GPU'nuz var	Sadece CPU veya GPU yok
Teknik beceri	Python/CLI ile rahat	GUI tercih ediyor
Gizlilik gereksinimleri	Sesi yerel tutmanız gerekiyor	Bulut kabul edilebilir
Bütçe	Zamanınız var, paranız yok	Paranız var, zamanınız yok
Özelleştirme	Modelleri ince ayarlamanız gerekiyor	Standart ayrıştırma yeterli
Ödemeden önce önizleme	Mevcut değil	30 sn ücretsiz önizleme

SSS

Demucs ücretsiz mi?

Evet. Demucs, MIT lisansı altında açık kaynaklıdır, kişisel ve ticari kullanım için ücretsizdir. Modeller de ücretsiz olarak mevcuttur.

Demucs'u ticari olarak kullanabilir miyim?

Evet. MIT lisansı, kısıtlama olmadan ticari kullanıma izin verir. Ayrıştırılmış stem'leri ticari sürümlerde kullanabilir, Demucs üzerine ürünler inşa edebilirsiniz vb.

Demucs ve Spleeter arasındaki fark nedir?

Özellik	Demucs	Spleeter
Geliştirici	Meta AI	Deezer
Mimari	Hibrit Transformer	Basit U-Net
Kalite (SDR)	~9,2 dB	~5,9 dB
İşleme	Dalga Formu + Spektrogram	Sadece Spektrogram
Hız	Daha yavaş	Daha hızlı
Yayınlandı	2019 (v1), 2023 (v4)	2019

Demucs önemli ölçüde daha yüksek kalite üretir ancak daha fazla hesaplama gerektirir.

GPU'ya ihtiyacım var mı?

Hayır, ancak önemli ölçüde yardımcı olur. CPU işleme çalışır ancak 5-10 kat daha yavaştır. Makul işlem süreleri için 4GB+ VRAM'lı modern bir NVIDIA GPU önerilir.

İşlem ne kadar sürer?

Donanım ve modele bağlıdır:

GPU (RTX 3080): 4 dakikalık şarkı için ~45 saniye
CPU (modern i7): 4 dakikalık şarkı için ~8-15 dakika

Demucs hangi ses formatlarını destekler?

Girdi: MP3, WAV, FLAC, OGG, M4A ve FFmpeg'in çözebileceği her şey. Çıktı: WAV (varsayılan), MP3 (--mp3 bayrağıyla).

Demucs 4'ten fazla stem ayırabilir mi?

Evet. 6 stem ayrıştırma için htdemucs_6s kullanın:

Vokal
Davul
Bas
Gitar
Piyano
Diğer

Demucs'u nasıl güncellerim?

pip install -U demucs

Sonuç

Demucs, yapay zeka destekli müzik kaynak ayrıştırmanın en ileri noktasını temsil eder. Sample izole eden bir prodüktör, ses ML'nin sınırlarını zorlayan bir araştırmacı veya sadece karaoke parçası oluşturmak isteyen biri olun — bu teknolojinin nasıl çalıştığını anlamak, sonuçlarınız üzerinde daha fazla kontrol sağlar.

Çoğu kullanıcı için en kolay yol, altyapıyı yöneten bir hizmet kullanmaktır. İleri düzey kullanıcılar ve ML uygulayıcıları için Demucs'u yerel olarak çalıştırmak maksimum kontrol ve özelleştirme sunar.

Stem Ayrıştırmayı Denemeye Hazır mısınız?

Teknolojinin nasıl çalıştığını gördünüz. Şimdi deneyimleyin.

Seçenek 1: Kendiniz çalıştırın — Demucs'u yerel olarak kurmak için bu kılavuzu izleyin.

Seçenek 2: Kurulumu atlayın — StemSplit bulutta Demucs htdemucs_ft çalıştırır. Şarkınızı yükleyin, 30 saniye ücretsiz önizleyin ve stüdyo kalitesinde stem'ler indirin. Python gerekmez.

StemSplit'i Ücretsiz Deneyin →